Компания Agility Robotics, производитель роботов Digit, подписала многолетний контракт с одной из крупнейших международных логистических компаний – GXO Logistics. Первые роботы уже приступили к выполнению стандартных операций в нескольких центрах GXO Logistics. |
Apple открыла демо-доступ к мультимодальному фреймворку 4M, который можно использовать для генерации изображений, автоматического создания описаний, обнаружения предметов на фото и манипуляции 3D-сценами.
Meta* выпустила модель для создания трехмерных ассетов – 3D Gen. Нейронка генерирует 3D-модели с нуля, обеспечивая реалистичность геометрии, текстур и материалов, а также редактирует текстуру и материалы готовых 3D-объектов. |
Большинство обычных ИТ-стартапов в США переживают не лучшие времена – сокращают издержки, продаются первым встречным покупателям или закрываются совсем. А ИИ-стартапы – наоборот, процветают: только с апреля по июнь этого года они привлекли $27,1 млрд инвестиций. | Первый этап внедрения ИИ-ассистентов в американских школах и вузах показал, что чат-боты оценивают работы студентов гораздо жестче, чем реальные преподаватели: нейронки склонны к суровой критике и занижению отметок.
Французский стартап Kyutai выпустил мультимодальную модель Moshi, сопоставимую по возможностям с GPT-4o – чат-бот способен слышать, видеть и говорить естественным голосом со всеми нужными эмоциями, причем слушать и разговаривать он может одновременно. Moshi к тому же отличается компактностью – можно запускать локально на смартфоне. Компания обещает сделать модель опенсорсной в ближайшие дни. |
Чат-бот Moshi создали 8 разработчиков всего за 6 месяцев |
👾 Эффективное использование ИИ-сервисов |
Т-Ж опубликовал несколько интересных статей о способах использования популярных нейронок.
Как использовать ChatGPT для подбора одежды. Автор – поклонник эксцентричной дизайнерской одежды и обуви. Он усложнил задачу, попросив чат-бота подбирать предметы одежды и аксессуары, исходя из своей натальной карты. Вот как выглядит типичный нейролук для Овна с Венерой в Водолее и асцендентом в Раке: |
По словам автора, ChatGPT идеально угадал его эстетические предпочтения |
🤖✍️ Все самое полезное про ИИ-помощников вроде ChatGPT, Gemini, Bing и других вы найдете на нашем телеграм-канале «Библиотека нейротекста» |
- Создавать песни с нуля или с использованием собственных стихов и аудиосэмплов.
- Делать самые невероятные каверы.
- Записывать инструментальные треки.
- Редактировать готовые композиции.
|
Хотя тексты на английском Udio сочиняет и исполняет гораздо лучше, с песней об уставшем редакторе которому никто не пишет на русском он тоже справился неплохо: |
- Генерировать ролики в кинематографическом или аниме-стиле: так они получаются гораздо естественнее.
- Использовать изображения для промптов – результаты генерации по текстовым описаниям содержат больше артефактов.
- Указывать нужные движения камеры.
|
Пример работы Dream Machine – клип в стиле вестерн, действительно похожий на фрагмент реального фильма: |
Locofy – генерирует дизайны Figma и превращает их в готовый фронтенд-код. |
InlineGPT – дает возможность использовать ChatGPT в любом приложении.
Resemble AI – клонирует голос и определяет аудиофейки с точностью 94%.
AI Tutor Pro – персональный преподаватель для изучения любой темы.
Plus AI PowerPoint maker – генератор презентаций.
Liftoff – тренирует на прохождение технического собеседования. Использует реальные вопросы и задачи, которые задают на собеседованиях в крупнейших ИТ-компаниях.
Vispunk – мощный генератор изображений и видео.
CreateStudio – создает трехмерную анимацию в стиле Pixar. |
🤖🔊 Все самое полезное про нейросети для звука: транскрибации, синтеза речи и музыки вы найдете на нашем телеграм-канале «Библиотека нейрозвука» |
Fluently – анализирует вашу речь на английском во время звонков, чтобы помочь расширить словарный запас, а также улучшить произношение и грамматику.
Polywork – конвертирует профиль LinkedIn в личный сайт. Glasp – бесплатное браузерное расширение для суммаризации YouTube-видео в один клик. Еще один хороший суммаризатор – YouTube Summary.
Hayai Learn – личный репетитор по японскому языку.
Jamahook – подбирает подходящие аудиосемплы из обширной библиотеки бесплатных музыкальных фрагментов.
AI Human Generator – генерирует гиперреалистичные фото людей в полный рост в реальном времени. Изображения можно модифицировать – менять тела, головы, позы, возраст, этническую принадлежность и т. п.
Hedra – оживляет любое изображение, синхронизируя мимику персонажа с аудиодорожкой, предоставленной пользователем. Подходит для создания реалистичных видео на основе подкастов и аудиозаметок. Стиль анимации и экспрессивность персонажей можно контролировать.
Audioatlas – ИИ-поисковик, который помогает подобрать музыку для проекта по его описанию.
Rapport – платформа для создания VIPs (виртуальных интерактивных персон, ИИ-аватаров).
|
Топ-5 опенсорсных библиотек для компьютерного зрения в 2024 |
Anomalib – используется для обнаружения аномалий в изображениях. Учитывает проблему дисбаланса данных и предлагает 8+ моделей/алгоритмов для сравнительного анализа на любом наборе данных. Подходит как для простой классификации, так и для сегментации аномалий в изображениях. Ultralytics – включает в себя модель YOLOv8 для обнаружения объектов, решает задачи отслеживания объектов, сегментации экземпляров, классификации изображений и оценки поз. Позволяет легко дообучать YOLOv8 для конкретных задач на пользовательских данных.
Pythae – предоставляет более 15 различных автоэнкодеров. Автоэнкодеры используются для сжатия изображений в меньшее латентное пространство и применяются для решения задач, связанных с шумоподавлением, восстановлением и повышением разрешения изображений, инпейнтингом и извлечением признаков.
Albumentations – мощный инструмент для аугментации изображений. Аугментация применяется в глубоком обучении и машинном зрении для повышения качества моделей, поскольку позволяет многократно расширить исходный набор данных. Albumentations выполняет более 70 преобразований изображений, включая размытие, обрезку и изменение яркости – то есть набор данных будет автоматически увеличен в 70+ раз. Кроме того, библиотека позволяет задавать частоту применения конкретных преобразований при определении процесса аугментации.
Kangas – расширяет возможности Pandas для работы с мультимедийными наборами данных. Позволяет создавать DataGrids (аналог DataFrame в Pandas) для журналирования наборов данных и отладки прогнозов модели на уровне отдельных образцов.
|
Автоматическая визуализация данных | LIDA – библиотека Microsoft для автоматической генерации инфографики с использованием любой LLM. Отличается низким уровнем ошибок визуализации (менее 3.5%). Особенности: |
- Работает с различными языками программирования и библиотеками визуализации (matplotlib, seaborn, altair, d3 и т. д.).
- Поддерживает несколько LLM-провайдеров (OpenAI, Azure OpenAI, PaLM, Cohere, Huggingface), может работать с локальными моделями.
- Предоставляет API для генерации, выполнения, редактирования, объяснения, оценки и исправления кода визуализации.
|
LIDA имеет удобный веб-интерфейс |
- Суммаризация данных.
- Генерация целей визуализации.
- Создание, редактирование, оценка и объяснение визуализаций.
- Рекомендации по визуализации.
|
Лучшие алгоритмы и примитивы для машинного обучения |
RAFT нацелен на ускорение разработки алгоритмов, снижение нагрузки на обслуживание за счет максимального повторного использования кода и централизацию основных вычислений: |
- Алгоритмы ускорены с помощью CUDA и предназначены для выполнения на GPU.
- Предоставляет строительные блоки для быстрой разработки высокопроизводительных приложений.
- Является C++ header-only библиотекой.
- Включает в себя две Python-библиотеки – pylibraft и raft-dask.
|
Основные категории функций: |
- Поиск ближайших соседей.
- Базовая кластеризация.
- Решатели (солверы).
- Работа с различными форматами данных.
- Операции с плотными и разреженными матрицами.
- Статистические функции.
- Инструменты и утилиты для разработки CUDA-приложений.
|
Самая полная коллекция взломных промптов |
Автор репозитория регулярно пополняет свое собрание самых эффективных техник взлома, обхода ограничений и промптов для активации «режима бога» во всех популярных LLM. |
|
|
* Деятельность Meta признана экстремистской и запрещена на территории РФ. |
Понравилась ли вам эта рассылка? |
|
|
Вы получили это письмо, потому что подписались на нашу рассылку. Если вы больше не хотите получать наши письма, нажмите здесь.
|
|
|
|