Самые дешевые авиабилеты: Новая версия Midjourney доступна в Discord

суббота, 23 декабря 2023 г.

Новая версия Midjourney доступна в Discord

📰 Новости

Google запустила отличный freemium сервис MusicFX для генерации музыки. ИИ создает треки продолжительностью 30, 50 или 70 секунд и соблюдает авторские права – отказывается имитировать стиль современных музыкантов.

Независимое тестирование показало, что Gemini Pro слегка отстает от ChatGPT-3.5 Turbo по всем бенчмаркам и уж точно не может конкурировать с ChatGPT-4:

По академическим знаниям, решению задач, написанию кода, логическим рассуждениям Gemini Pro уступает ChatGPT-3.5 Turbo.
У Gemini Pro есть проблемы с обработкой длинных запросов, с предвзятостью и агрессивной блокировкой контента.
Единственная область, где Gemini Pro превзошла ChatGPT-3.5 Turbo – качество генерации текста на языках, отличающихся от английского. Однако и здесь достижение было нейтрализовано блокировкой 10 языковых пар.

Результаты тестирования Gemini Pro

Представители Google уже выразили свое несогласие с результатами исследования и напомнили о скором выходе Gemini Ultra. Оценить Gemini Pro можно в Bard, а если модель там недоступна из-за региональных настроек – то на Hugginface.

Gemini Pro рекомендует лучшие сериалы о программистах и нещадно галлюцинирует

Разработчики Google сообщили о создании VideoPoet AI – впечатляющей мультимодальной модели для генерации видео.

Playground AI открыла доступ к модели Playground V2, превосходящей Stable Diffusion XL по большинству показателей в 2,5 раза. Теперь Playground V2 можно скачать и использовать в коммерческих целях. Оценить возможности модели можно на Huggingface и официальном сайте.

Playground V2 – неплохая альтернатива Midjourney

Исследователи из Дании и США разработали ИИ Life2vec, способный с более чем 75% точностью предсказывать события в жизни людей – например, вероятность смерти в ближайшие годы. Модель обучили на данных о здоровье 6 млн датчан.

Французский стартап Mistral AI, один из двух главных европейских конкурентов OpenAI, открыл доступ к своей новой модели Mixtral-8x7B.

OpenAI забанила разработчиков ТикТока, потому что они использовали ChatGPT для тренировки своей модели.

Выпускники Стэнфордского университета сделали ИИ PIGEON, который способен с 95% точностью определять геолокацию по фото, и добавили головной боли экспертам по безопасности.

Midjourney скоро обновят, и в 6-й версии пользователей ждет масса новых фич:

Ультравысокое разрешение и гиперреалистичность.
Возможно – генерация видео.
Улучшенное понимание запросов.
Максимально точное соответствие промптам.
Более широкий диапазон креативности – от умеренного до смелого.
Ускорение генераций в турбо-режиме.
Прикольный новый режим – Remix.
Новый экономичный тариф.
Возможность генерировать 16 изображений вместо 4.

Новую версию уже можно использовать в Дискорде, если добавить к промпту параметр -v 6.

Примеры возможностей Midjourney 6

🔮 Прогнозы

Билл Гейтс поделился оптимистичными прогнозами о влиянии ИИ на различные сферы в 2024 году:

AI достигнет значительного распространения в развитых экономиках в течение следующих 18-24 месяцев.
Особую роль ИИ сыграет в медицине, где поможет решить самые разные проблемы – от устойчивости к антибиотикам до лечения осложнений, связанных с беременностью.
ИИ изменит отрасль образования и сделает учебный процесс персонализированным.
ИИ значительно повысит общую производительность труда, но не заменит людей полностью.

В общем, Гейтс изменил прежнюю настороженно позицию и теперь считает, что AI станет катализатором положительных изменений в критически важных отраслях экономики.

Менее оптимистичный взгляд представлен в материале CNBC:

По оценке Goldman Sachs, две трети рабочих мест в США и Европе, а также около 300 миллионов позиций по всему миру можно автоматизировать с помощью ИИ.
Четверть всех рабочих процессов можно заменить генеративным AI.

Подробнее о том, как ИИ изменит рынок труда – в видеосюжете CNBC.

🛠️ Инструменты

VoiceDual – изменяет голос в аудио и видеозаписях, поддерживает 30 языков.

TryHairstyle – помогает выбрать подходящую прическу до визита к парикмахеру.

Scenario – генерирует иллюстрации и ассеты для игр в нужном стиле. Поддерживает редактирование с помощью точечных перегенераций, есть интеграция с Unity.

Study Fetch – лучший друг студента: записывает и транскрибирует учебные лекции, делает суммаризацию материалов, генерирует тесты и карточки для самопроверки.

DeepSwapper – отличный инструмент для создания мемов и иллюстраций для соцсетей: бесплатно и реалистично заменяет лица на фото.

DeepSwapper в действии

FigJam – ИИ-альтернатива доскам Lucid, Mural и Miro. Еще один похожий сервис – XMind.

Kopia – виртуальная ИИ-примерочная: поможет не ошибиться с новым аутфитом.

Hypernatural – превращает текст и аудио в видеоролики, анимирует изображения и делает короткие клипы из самых важных моментов в длинных видео.

AI Photo Generator – приложение для айфона. Генерирует реалистичные фото, в том числе на основе селфи.

Autonoma – автоматизирует процесс создания документации, поможет разобраться в запутанном легаси-коде.

Suno – напишет песню (музыку, текст, вокал) в нужном стиле, вот пример трека – Electric Appetite. Microsoft уже добавила этот впечатляющий сервис в Copilot.

GrowEasy – сделает рекламу для эффективной генерации лидов в популярных соцсетях.

Creatify – генерирует короткие рекламные клипы по текстовому описанию продукта или по ссылке на него.

🪛 Сделай сам

macOSpilot – личный помощник, аналог Copilot специально для пользователей macOS. Нужен API-ключ ChatGPT-4v.

OutfitAnyone – виртуальная примерочная, которая позволяет надевать любую одежду на любых персонажей (включая нарисованные). У проекта есть демо на Hugginface.

OutfitAnyone поможет сэкономить на профессиональных фотосессиях

Amphion – набор опенсорсных инструментов для генерации аудиоэффектов, музыки и речи.

✍️ Эффективный промптинг

Разработчики OpenAI сделали исчерпывающий бесплатный гайд по максимально эффективному использованию ChatGPT.

🧪 Исследования

Новый метод обучения генераторов изображений

Публикация «ECLIPSE – ресурсоэффективное обучение модели для генерации изображений» посвящена решению проблемы чрезмерного использования ресурсов во время обучения генераторов графики. В частности, модель T2I в стеке unCLIP добавляет на миллиард параметров больше, чем модели на основе латентной диффузии, что непомерно увеличивает требования к вычислительным ресурсам и качеству данных.

ECLIPSE представляет собой новый метод обучения, который эффективен и с точки зрения количества параметров, и с точки зрения необходимого объема данных. Этот метод использует предварительно обученные модели (например, CLIP) для передачи знаний в основную модель.

ECLIPSE позволяет сократить потребление ресурсов, количество параметров (до 3,3%), и объем данных (до 2,8%) по сравнению с традиционным подходом. Результат при этом будет значительно превосходить обычные модели и по качеству генераций, и по производительности.

Генерация персонализированных данных

Статья «Генерация персонализированных датасетов» предлагает метод генерации данных для тренировки чат-ботов с использованием персон (аспектов характера пользователя), поскольку такие данные делают взаимодействие пользователя с чат-ботом более эффективным и естественным. Для расширения и улучшения качества исходного набора диалоговых данных авторы предлагают архитектуру Generator-Critic:

Generator – это LLM модель, которая генерирует диалоги.
Critic – это набор экспертных LLM моделей, которые контролируют качество сгенерированных диалогов и отбирают лучшие.

В рамках этой методики лучшие сгенерированные диалоги используются для улучшения Generator – таким образом происходит итерационное расширение и улучшение набора данных. Авторы опубликовали набор Synthetic-Persona-Chat из 20к диалогов, который демонстрирует значительное улучшение качества данных в сравнении с исходным датасетом.

На этом все, увидимся через неделю!

***

Если хочешь попробовать себя в ML, приходи на наш новый курс «Базовые модели ML и приложения» – всему научим.

Автор рассылки: Наталья Кайда