Появился новый генератор музыки Udio, способный соперничать с предыдущим лидером в этой нише – Suno. Как и Suno, Udio сочиняет, исполняет и оформляет песни в любом жанре – пишет музыку, текст, поет любым голосом и генерирует обложки. И делает все это Udio настолько впечатляюще, что его уже назвали «ChatGPT-моментом в области музыки». В проект вложились несколько влиятельных фигур – от со-основателя Instagram* Майка Кригера до музыкантов/продюсеров will.i.am и Common. |
Udio уже стал эпохальным событием в генеративном ИИ |
После закрытия проекта по созданию электромобилей руководство Apple долго пыталось определиться с выбором следующей эпохальной идеи. Очевидно, этим проектом станет линейка домашних роботов, оснащенных ИИ. По сведениям Bloomberg, один из этих продуктов – мобильный робот-помощник, а второй – роботизированный гаджет с несколькими экранами, который придет на смену обычному настольному компьютеру/ноутбуку. В стремлении снизить зависимость от чипов NVIDIA компания Google выпустила новый чип Axion, Meta* – ускоритель MTIA, Intel – Gaudi 3, производительность которого в 1,5 раза выше, а энергопотребление – в 2 раза меньше, чем у H100. Стоимость акций NVIDIA на фоне этих новостей снизилась на целых 2%. Gemini 1.5 Pro будет использоваться крупнейшей рекламной компанией в мире, WPP, во всех процессах по созданию креативов для самых известных брендов масс-маркета, включая Coca-Cola, L'Oréal и Nestlé. В государственных начальных и средних школах Техаса для оценки достижений и знаний учащихся по итогам теста STAAR будут использовать ИИ-систему, которая заменит 6000 преподавателей и сэкономит $15-20 млн в год. Впечатляющие возможности Sora резко подняли ставки в конкурентной борьбе – Adobe начала массовую скупку видеоклипов для тренировки собственного генератора видео. За каждую минуту видео Adobe платит авторам от $3 до $7 в зависимости от тематики и качества. Ученые из Института ИИ AIRI представили первую в России мультимодальную модель ИИ – OmniFusion, способную отвечать на вопросы пользователей по изображениям (включая медицинские). В основе модели – сберовский GigaChat. В скором времени OmniFusion научат работать с 3D-графикой, аудио- и видеоматериалами. |
OmniFusion отвечает на вопросы по изображениям |
Инженеры Техасского университета в Остине разработали принципиально новый нейрокомпьютерный интерфейс. В отличие от чипа Илона Маска, эта разработка не требует вживления в мозг, и ее можно применять для неограниченного количества пользователей (в то время как все предыдущие гаджеты требовали индивидуальной калибровки). |
Нейроинтерфейс позволяет управлять компьютером мысленно |
Musho – ассистент дизайнера. Работает в качестве плагина Figma, генерирует UI, графику и фото. |
Product Description Generator – бесплатно генерирует качественные, подробные описания товаров. Пока что только на английском. Aboard – многофункциональное приложение для управления данными. Похоже на гибрид Trello, OneNote, Pinterest, избранных закладок и ChatGPT. The Verge опубликовал подробный обзор Aboard. Captions – кроссплатформенное ИИ-приложение для создания и редактирования видеоклипов. Похожий инструмент – Infinity AI. |
Gotalk – генератор реалистичного голоса. Подходит для озвучивания аудиокниг, подкастов, Ютуб-роликов и голосовых ассистентов. Fable Prism – генерирует и редактирует анимацию и моушн-графику. |
AI App Generator – создает полноценные веб-приложения, включая базы данных, панель администрирования, API и CRUD. AI Photo Filter – превращает фотографии в шедевры графики и живописи. |
Gobble Bot – скрапер, который автоматически подготовит данные из различных источников (сайты, Ютуб-видео, PDF и т. д.) для загрузки в кастомного ChatGPT-бота. Cliplama – генерирует любые видео с музыкой и субтитрами – рилсы, клипы для соцсетей, TikTok, Youtube и т. п. |
🔡 Символические модели могут прийти на смену трансформерам |
На этой неделе стартап Symbolica AI получил $33 млн на разработку ИИ с принципиально новой (по сравнению с трансформерами) архитектурой. Компания намерена решить дорогостоящие проблемы, связанные с обучением и развертыванием больших языковых моделей, подобных GPT-4, Claude 3 и Gemini. Сейчас трансформеры являются самыми востребованными моделями, но у них множество недостатков – они чрезвычайно сложны, дороги в разработке, обучении и эксплуатации, требуют огромного количества данных и энергии, их сложно проверять, и они имеют тенденцию к галлюцинациям. Symbolica использует структурированные модели, которые определяют задачи путем манипулирования символами, в отличие от трансформеров, которые используют контекстуальные и статистические отношения между входными данными и учатся на основе предыдущего контента, предоставленного им. Символы представляют собой набор правил, позволяющих предварительно обучать их для выполнения определенных задач – например, для написания программного кода или обработки текста. Символьные модели используют математические структуры, которые определяют взаимосвязь между символами в соответствии с концепцией, известной как категориальное глубокое обучение. В недавно опубликованной совместно с Google DeepMind статье разработчики объяснили, что структурированные модели категоризируют и кодируют базовую структуру данных, что позволяет им работать с меньшей вычислительной мощностью и использовать меньше данных по сравнению с большими сложными моделями без структуры, такими как GPT. По словам гендиректора Symbolica Джорджа Моргана, при должном использовании этого подхода к глубокому обучению вполне возможно наделить небольшую модель уровнем логических рассуждений, на которые сейчас способны только GPT-гиганты. Более того, компания планирует создать набор инструментов, который позволит разрабатывать интерпретируемые модели – чтобы пользователи всегда могли проследить, что именно модель знает и как она пришла к определенному выводу. Это обеспечит высокую прозрачность и безопасность моделей, и значительно упростит процесс мониторинга и отладки. Интерпретируемость – еще одно весомое преимущество символьных моделей перед трансформерами. Прозрачность необходима для создания продвинутого ИИ, и жизненно важна для отраслей с высоким уровнем регулирования, где ошибки могут привести к катастрофическим последствиям (здравоохранение, оборона и финансы). |
Статья шаг за шагом объясняет, как именно работает сенсационная модель для генерации видео: Разбиение видео на патчи: - Поскольку Sora работает с целым видео, а не с отдельными изображениями, первым шагом является разбиение видео на более мелкие элементы – пространственно-временные патчи.
- Каждый кадр видео преобразуется в матрицу пикселей, и эти матрицы объединяются в четырехмерный тензор, представляющий видео.
Уменьшение размерности с помощью энкодера: - Следующий шаг – уменьшение размерности этих патчей с помощью энкодера.
- Энкодер использует линейные преобразования и активацию ReLU для сжатия высокоразмерных пикселей в более компактное низкоразмерное представление (латентное пространство).
- Это улучшает вычислительную эффективность и позволяет модели работать с более важными особенностями данных.
Диффузия (добавление шума): - После получения латентного представления, к нему добавляется случайный шум.
- Это ключевой аспект диффузионных моделей – модель должна научиться предсказывать этот добавленный шум.
- Добавление шума позволяет модели учиться устранять его и восстанавливать оригинальные данные.
Адаптивная слоевая нормализация: - Чтобы сделать генерацию видео управляемой текстовым промптом, используется адаптивная слоевая нормализация.
- Она динамически масштабирует и смещает латентное представление на основе текстового промпта и параметра диффузии.
- Это позволяет модели фокусироваться на аспектах видео, соответствующих заданному промпту.
Механизм самовнимания трансформера: - Для улучшения способности модели понимать контекст используется механизм самовнимания из архитектуры трансформера.
- Он позволяет модели изучать взаимосвязи между различными частями латентного представления.
Предсказание и удаление шума: - В конечном итоге, модель использует все эти шаги для предсказания добавленного шума.
- Затем этот предсказанный шум вычитается из зашумленного латентного представления, чтобы получить очищенное латентное пространство.
Декодирование в пиксели: - Заключительный шаг – декодирование этого очищенного латентного представления обратно в пиксели.
- Это делается с помощью аналогичного энкодеру процесса, но в обратном направлении.
На этом все, до встречи через неделю! * Instagram принадлежит организации Meta, деятельность которой признана экстремистской и запрещена на территории РФ. |
|
|
Вы получили это письмо, потому что подписались на нашу рассылку. Если вы больше не хотите получать наши письма, нажмите здесь.
|
|
|
|