Google запустила отличный freemium сервис MusicFX для генерации музыки. ИИ создает треки продолжительностью 30, 50 или 70 секунд и соблюдает авторские права – отказывается имитировать стиль современных музыкантов. Независимое тестирование показало, что Gemini Pro слегка отстает от ChatGPT-3.5 Turbo по всем бенчмаркам и уж точно не может конкурировать с ChatGPT-4: - По академическим знаниям, решению задач, написанию кода, логическим рассуждениям Gemini Pro уступает ChatGPT-3.5 Turbo.
- У Gemini Pro есть проблемы с обработкой длинных запросов, с предвзятостью и агрессивной блокировкой контента.
- Единственная область, где Gemini Pro превзошла ChatGPT-3.5 Turbo – качество генерации текста на языках, отличающихся от английского. Однако и здесь достижение было нейтрализовано блокировкой 10 языковых пар.
|
Результаты тестирования Gemini Pro |
Представители Google уже выразили свое несогласие с результатами исследования и напомнили о скором выходе Gemini Ultra. Оценить Gemini Pro можно в Bard, а если модель там недоступна из-за региональных настроек – то на Hugginface. |
Gemini Pro рекомендует лучшие сериалы о программистах и нещадно галлюцинирует |
Разработчики Google сообщили о создании VideoPoet AI – впечатляющей мультимодальной модели для генерации видео. |
Playground AI открыла доступ к модели Playground V2, превосходящей Stable Diffusion XL по большинству показателей в 2,5 раза. Теперь Playground V2 можно скачать и использовать в коммерческих целях. Оценить возможности модели можно на Huggingface и официальном сайте. |
Playground V2 – неплохая альтернатива Midjourney |
Исследователи из Дании и США разработали ИИ Life2vec, способный с более чем 75% точностью предсказывать события в жизни людей – например, вероятность смерти в ближайшие годы. Модель обучили на данных о здоровье 6 млн датчан. Французский стартап Mistral AI, один из двух главных европейских конкурентов OpenAI, открыл доступ к своей новой модели Mixtral-8x7B. OpenAI забанила разработчиков ТикТока, потому что они использовали ChatGPT для тренировки своей модели. Выпускники Стэнфордского университета сделали ИИ PIGEON, который способен с 95% точностью определять геолокацию по фото, и добавили головной боли экспертам по безопасности. Midjourney скоро обновят, и в 6-й версии пользователей ждет масса новых фич: - Ультравысокое разрешение и гиперреалистичность.
- Возможно – генерация видео.
- Улучшенное понимание запросов.
- Максимально точное соответствие промптам.
- Более широкий диапазон креативности – от умеренного до смелого.
- Ускорение генераций в турбо-режиме.
- Прикольный новый режим – Remix.
- Новый экономичный тариф.
- Возможность генерировать 16 изображений вместо 4.
Новую версию уже можно использовать в Дискорде, если добавить к промпту параметр -v 6. |
Примеры возможностей Midjourney 6 |
Билл Гейтс поделился оптимистичными прогнозами о влиянии ИИ на различные сферы в 2024 году: В общем, Гейтс изменил прежнюю настороженно позицию и теперь считает, что AI станет катализатором положительных изменений в критически важных отраслях экономики. Менее оптимистичный взгляд представлен в материале CNBC: Подробнее о том, как ИИ изменит рынок труда – в видеосюжете CNBC. |
VoiceDual – изменяет голос в аудио и видеозаписях, поддерживает 30 языков. TryHairstyle – помогает выбрать подходящую прическу до визита к парикмахеру. Scenario – генерирует иллюстрации и ассеты для игр в нужном стиле. Поддерживает редактирование с помощью точечных перегенераций, есть интеграция с Unity. |
Study Fetch – лучший друг студента: записывает и транскрибирует учебные лекции, делает суммаризацию материалов, генерирует тесты и карточки для самопроверки. DeepSwapper – отличный инструмент для создания мемов и иллюстраций для соцсетей: бесплатно и реалистично заменяет лица на фото. |
FigJam – ИИ-альтернатива доскам Lucid, Mural и Miro. Еще один похожий сервис – XMind. Kopia – виртуальная ИИ-примерочная: поможет не ошибиться с новым аутфитом. Hypernatural – превращает текст и аудио в видеоролики, анимирует изображения и делает короткие клипы из самых важных моментов в длинных видео. AI Photo Generator – приложение для айфона. Генерирует реалистичные фото, в том числе на основе селфи. Autonoma – автоматизирует процесс создания документации, поможет разобраться в запутанном легаси-коде. Suno – напишет песню (музыку, текст, вокал) в нужном стиле, вот пример трека – Electric Appetite. Microsoft уже добавила этот впечатляющий сервис в Copilot. GrowEasy – сделает рекламу для эффективной генерации лидов в популярных соцсетях. Creatify – генерирует короткие рекламные клипы по текстовому описанию продукта или по ссылке на него. |
macOSpilot – личный помощник, аналог Copilot специально для пользователей macOS. Нужен API-ключ ChatGPT-4v. |
OutfitAnyone – виртуальная примерочная, которая позволяет надевать любую одежду на любых персонажей (включая нарисованные). У проекта есть демо на Hugginface. |
OutfitAnyone поможет сэкономить на профессиональных фотосессиях |
Amphion – набор опенсорсных инструментов для генерации аудиоэффектов, музыки и речи. |
Разработчики OpenAI сделали исчерпывающий бесплатный гайд по максимально эффективному использованию ChatGPT. |
Новый метод обучения генераторов изображений |
Публикация «ECLIPSE – ресурсоэффективное обучение модели для генерации изображений» посвящена решению проблемы чрезмерного использования ресурсов во время обучения генераторов графики. В частности, модель T2I в стеке unCLIP добавляет на миллиард параметров больше, чем модели на основе латентной диффузии, что непомерно увеличивает требования к вычислительным ресурсам и качеству данных. ECLIPSE представляет собой новый метод обучения, который эффективен и с точки зрения количества параметров, и с точки зрения необходимого объема данных. Этот метод использует предварительно обученные модели (например, CLIP) для передачи знаний в основную модель. ECLIPSE позволяет сократить потребление ресурсов, количество параметров (до 3,3%), и объем данных (до 2,8%) по сравнению с традиционным подходом. Результат при этом будет значительно превосходить обычные модели и по качеству генераций, и по производительности. |
Генерация персонализированных данных |
Статья «Генерация персонализированных датасетов» предлагает метод генерации данных для тренировки чат-ботов с использованием персон (аспектов характера пользователя), поскольку такие данные делают взаимодействие пользователя с чат-ботом более эффективным и естественным. Для расширения и улучшения качества исходного набора диалоговых данных авторы предлагают архитектуру Generator-Critic: - Generator – это LLM модель, которая генерирует диалоги.
- Critic – это набор экспертных LLM моделей, которые контролируют качество сгенерированных диалогов и отбирают лучшие.
В рамках этой методики лучшие сгенерированные диалоги используются для улучшения Generator – таким образом происходит итерационное расширение и улучшение набора данных. Авторы опубликовали набор Synthetic-Persona-Chat из 20к диалогов, который демонстрирует значительное улучшение качества данных в сравнении с исходным датасетом. На этом все, увидимся через неделю! |
|
|
Вы получили это письмо, потому что подписались на нашу рассылку. Если вы больше не хотите получать наши письма, нажмите здесь.
|
|
|
|