Китайские исследователи ИИ разработали систему корректировки галлюцинаций для LLM – Woodpecker. Корректировка включает в себя 5 этапов: извлечение ключевых понятий, формулировку вопроса, проверку понимания визуальной информации, формирование утверждений о визуальных данных и исправление соответствующих ошибок. Протестировать Woodpecker можно здесь. |
Woodpecker эффективно исправляет ошибки в ответах LLM и VLM |
Google DeepMind представила визуальную модель PaLI-3 на 5 млрд параметров. Модель отвечает на вопросы по изображениям и видео, распознает объекты, и несмотря на скромный размер, показывает по всем тестам лучшие результаты, чем модели, превосходящие PaLI-3 по объему параметров в 10 раз. Еще одна новая мини-модель, способная эффективно работать с визуальными данными – Fuyu-8B, разработанная Adept-AI. |
PaLI-3 распознает объекты не хуже ChatGPT-4v |
В Чикагском университете разработали систему Nightshade – цифровой «яд», который заставляет ИИ-модель видеть на изображении совсем не то, что там видно невооруженному человеческому глазу. «Отравляя» визуальные данные, Nightshade вызывает серьезные сбои в работе ИИ, генерирующих графику – это может решить проблему с нарушением авторских прав иллюстраторов и художников, на работах которых незаконно обучают модели. |
Отравленные изображения заставляют модель генерировать искаженную графику |
Эксперты Anthropic выяснили, что все крупнейшие LLM, включая их собственные модели Claude 1.3 и Claude 2, склонны к подхалимству: они извиняются за ошибки, которых не совершали, поддерживают ошибочные мнения и дают необъективные ответы, которые совпадают с точкой зрения пользователя. А результаты другого исследования, опубликованного в журнале Nature, показывают, что самые популярные LLM, кроме подхалимства, страдают еще и расизмом. |
Статья «Эмбеддинги: что это такое и почему это важно» расскажет об использовании эмбеддингов в машинном обучении. Эмбеддинги – это метод, который позволяет представить текст, изображения, аудио и другой контент в виде векторов чисел фиксированной длины. Эти векторы определяют семантическую близость разного контента. Например, если сопоставить эмбеддинги слов «собака» и «кошка», то полученные векторы будут расположены на относительно небольшом расстоянии друг от друга в многомерном пространстве. А слова «собака» и «смартфон» будут расположены гораздо дальше. Эмбеддинги позволяют решать задачи поиска похожего контента, кластеризации и классификации, помогают искать изображения по текстовому описанию и наоборот. Автор рассказывает про разные модели эмбеддингов – Word2Vec, SentenceTransformers, CLIP и описывает библиотеки и инструменты, которые нужны для работы с ними – llm, Symbex, LangChain. Приводятся примеры использования эмбеддингов для выборки похожих статей в блоге, поиска по кодовой базе, сопоставления текста и изображений. Дэвид Розенберг, глава отдела машинного обучения в Bloomberg, рассказал о тонкостях разработки финансовых LLM на примере своего детища – BloombergGPT. Модель состоит из 50 млрд параметров – это меньше, чем у крупнейших LLM общего назначения, однако качество ответов BloombergGPT сопоставимо с этими LLM по общим вопросам, и значительно превосходит их по финансовым темам. Для обучения было использовано 570 млрд токенов данных (из них – 400 млрд внутренних данных Bloomberg), а процесс занял 42 дня на вычислительных мощностях в 1.3 млн GPU часов. При обучении возникали проблемы нестабильности, которые решались изменением гиперпараметров, добавлением регуляризации и другими методами. |
React Agent – упростит жизнь React-разработчика: сгенерирует компоненты с нуля по текстовым описаниям, создаст новые элементы на основе существующих. Dashtoon – сделает комикс в вашем любимом стиле. |
DataGPT – заменит штатного аналитика данных. Другой похожий инструмент – Julius. Yoodli – научит правильно себя презентовать на собеседованиях и видеосозвонах. Reclaim – бесплатно проанализирует, какие дела и привычки занимают большую часть вашего дня и научит эффективно управлять своим временем. ChatDOC – прочитает документы любого формата, ответит на вопросы по тексту, напишет краткое содержание. Knowbase – позволяет сделать чат с собственной базой данных, состоящей из любых документов, учебников, лекций, видео и подкастов. Похожие сервисы – ChatDox и Hansei. |
Pitch Your Idea – поможет отрепетировать идеальный питч для любого инвестора – от богатенького дядюшки до бизнес-ангела. Другой похожий сервис разработает привлекательную историю стартапа – Storypitch. Symbolab – покажет, как решить сложную математическую задачу. WebStudio AI – упростит работу веб-дизайнера и фронтендера. Arcwise AI – поможет с обработкой данных в Google Sheets и ответит на вопросы по содержимому документов. |
Watch Now – порекомендует фильмы, которые вам гарантированно понравятся. ZipZap – переведет текст на веб-страницах и побеседует с пользователем на любую тему. Morph Studio – генерирует впечатляющие видео по текстовым описаниям. |
Morph Studio создает эффектные короткие ролики |
Sync Labs – синхронизирует любые видео с любыми аудиодорожками. D-ID – в буквальном смысле оживляет персонажей с фото: можно сгенерировать сценарий, в соответствии с которым они будут себя вести и разговаривать. На основе технологии, разработанной D-ID, уже пару лет работает проект Deep Nostalgia , который делает потрясающе реалистичную анимацию винтажных фото – результаты выглядят лучше, чем волшебные фото в мире Гарри Поттера. |
Туториал покажет процесс разработки ИИ-агента для анализа криптовалют на Python и AutoGen. Dabble-Studio – поможет создать эффектный каталог продукции: с помощью Stable Diffusion превращает 3D-модели в стильные профессиональные фото. |
EasyPhoto – генерирует портреты в любых стилях. Для обучения нужно 5-20 фото. |
EasyPhoto сгенерирует аватары в любом нужном стиле |
AudioSep – выделит из аудио нужный звук в соответствии с запросом пользователя. |
AudioSep выделяет нужные звуки в соответствии с запросом на естественном языке |
Insanely Fast Whisper – безумно быстро транскрибирует речь в текст: обрабатывает 5-часовую запись за 10 минут. Eureka – научит вашего робота впечатляющим трюкам. Replicover – мониторит самые популярные ИИ-модели, поможет найти интересную идею для нового проекта. MemGPT – возьмет на себя управление памятью LLM: модель сможет работать с объемным контекстом и всегда будет помнить то, что нужно. 4Dgaussians – обеспечит реалистичный рендеринг динамических сцен в реальном времени. YTClass – совмещает образовательные ресурсы YouTube с мощью ИИ: ассистент поможет пройти любой курс и ответит на все вопросы. |
Скорость рендеринга с 4Dgaussians |
И напоследок – грустная история российской художницы, уволенной из-за ИИ: нейросеть, которую теперь использует компания, генерирует кривые картинки, зато ей не надо платить зарплату. Это еще раз доказывает, что в ближайшее время людей заменит не ИИ, а другие люди, постоянно использующие ИИ в работе. Увидимся через неделю! |
На этом все, увидимся через неделю! |
|
|
Вы получили это письмо, потому что подписались на нашу рассылку. Если вы больше не хотите получать наши письма, нажмите здесь.
|
|
|
|