Модель Claude 3 Opus обошла GPT-4 в рейтинге Chatbot Arena Leaderboard, а Amazon вложила дополнительные $2,75 млрд в Anthropic. Суммарный объем амазоновских инвестиций в Anthropic достиг $4 млрд, что делает Claude самым дорогим сторонним проектом для ecommerce гиганта. Финансирование Open AI, между тем, начинает страдать от бесконечных скандалов и громких заявлений гендиректора: по словам нескольких инвесторов, пожелавших пока остаться анонимными, Сэм Альтман уже утомил их своей манией величия и мессианскими рассуждениями. |
Claude 3 Opus стал новым любимцем разработчиков |
Databricks представила опенсорсную модель DBRX, которая превосходит всех остальных опенсорсных конкурентов (и заодно GPT-3.5) по качеству генерации текста, кода и математических решений. Обучение DBRX обошлось компании в $10 млн. Генератор видео от Argil AI вызвал переполох в СМИ: модель, разработанная компанией для создания видео с участием ИИ-клонов, поразительно точно копирует внешность, мимику и даже голос оригинала. Пранкстеры быстро выяснили, что это мощнейший на сегодняшний день инструмент для генерации дипфейков, совершенно неотличимых от реальных видео |
Стартап Hume AI представил новаторскую разработку – голосовой чат-бот EVI на базе модели с элементами эмпатии (eLLM). EVI использует продвинутые алгоритмы обработки естественного языка и глубокое обучение для более точного распознавания эмоций, тона и намерений во время разговора. Это позволяет чат-боту вести эмпатичный и личностно-ориентированный диалог. EVI уже умеет: - Определять, когда пользователь закончил говорить, и своевременно генерировать голосовой ответ – с учетом контекста и с использованием эмоций для наиболее естественного и эмпатического взаимодействия.
- Останавливаться, когда пользователь перебивает, и возобновлять диалог с учетом сказанного.
- Отмечать реакции пользователя и постепенно улучшать свои ответы.
|
Парализованный Ноланд Арбо, первый в мире пациент с мозговым имплантом Neuralink, уже может играть в видеоигры и писать посты в соцсетях с помощью силы мысли. По словам Илона Маска, другой чип Neuralink, Blindsight, вернет слепым способность видеть – сначала в невысоком разрешении, а позже – на уровне, превосходящем человеческое зрение. |
❓ Как LLM находят ответы на вопросы |
Несмотря на широкое использование генеративных моделей в различных областях, ML-инженеры все еще не до конца понимают, как именно LLM извлекают усвоенную в процессе обучения информацию. Исследователи MIT решили прояснить этот механизм и пришли к неожиданным выводам: - Во многих случаях модели используют очень простую линейную функцию для извлечения и декодирования хранимых фактов. Эти функции отражают прямолинейную связь между двумя переменными. Более того, модель применяет одну и ту же функцию декодирования для похожих по типу фактов.
- Если определить линейные функции для конкретных фактов, можно опрашивать модель, чтобы увидеть, что она знает о новых темах, и где именно в модели эти знания хранятся.
- Даже в тех случаях, когда модель неправильно отвечает на запрос, она часто хранит правильную информацию. В будущем такой подход может помочь находить и исправлять ложные сведения внутри модели, что уменьшит ее склонность к галлюцинациям.
Исследователи разработали метод для автоматического визуального представления хранимых знаний модели – таблицу, которая показывает, где в многочисленных слоях трансформера хранится определенная информация об отношениях между субъектами и объектами. Этот инструмент может помочь инженерам лучше понять модель, корректировать хранимые знания и предотвращать выдачу ИИ-чат-ботами ложной информации. В будущем исследователи планируют изучить случаи, когда факты не кодируются линейно. |
👾 Как злоумышленники взламывают LLM |
Для взлома ИИ-приложений злоумышленники используют несколько различных подходов. К самым популярным относятся: - Подмена изначальных инструкций модели с помощью альтернативных команд на естественном языке. Например, вместо перевода текста в приложении для перевода модель может выполнить код. Такая уязвимость особенно опасна в приложениях вроде виртуальных помощников, работающих с конфиденциальной информацией: злоумышленник может приказать ИИ удалить или раскрыть секретные данные.
- Использование комбинаций символов, которые выглядят как зашифрованный текст, и действуют как магическое заклинание. Эти символы заставляют модель совершать непредвиденные действия внутри ее сложной архитектуры. В результате LLM может генерировать текст или выполнять действия, которые изначально не планировались разработчиками.
В ходе взлома хакеры пытаются достичь одной (или всех сразу) из этих целей: - Обнаружение системного промпта. Злоумышленники могут выяснить, какие инструкции по поведению разработчики дали чат-боту. В зависимости от содержимого этого промпта, хакеры могут получить дополнительные сведения для проведения более серьезной атаки.
- Принуждение модели действовать непредвиденным образом. В лучшем случае в результате такой атаки чат-бот начнет генерировать непристойный контент, способный навредить репутации компании. В худшем случае чат-бот выдаст хакерам конфиденциальные данные, что может повлечь за собой серьезные финансовые убытки. Чем больше источников данных подключено к чат-боту (RAG базы, интеграции с корпоративными мессенджерами и облачными хранилищами), тем шире радиус ущерба.
- Раскрытие обучающих или RAG данных. Исследователи DeepMind недавно показали, как извлечь гигабайты данных из ChatGPT и других проприетарных LLM.
В этой статье рассматриваются 7 основных стратегий для защиты приложений на основе LLM от атак с использованием вредоносных запросов. Вкратце они выглядят так: - Анализ ответов LLM на наличие частей системного промпта. Эта техника использует так называемые «слова-предатели» – уникальные случайные слова, которые добавляются в системный промпт. Ответ LLM затем проверяется на наличие этого слова. Если оно присутствует, значит произошла утечка системного промпта. Однако этот метод можно обойти, если злоумышленник вытащит только часть промпта. Альтернативой является использование меньшей и более дешевой модели (например, GPT-3.5) для проверки ответа на совпадение с системным промптом.
- Ограничение длины и формата пользовательского ввода. Многие атаки требуют очень длинных запросов, чтобы сбить модель с толку. Если ваше приложение не предполагает длинных запросов от пользователей, установите лимит на максимальную длину, например, 1000 слов. Также стоит разрешать только алфавитно-цифровые символы, блокируя специальные символы, используемые в некоторых атаках.
- Использование принципа наименьших привилегий. Важно ограничить возможности LLM только теми действиями и данными, которые необходимы для работы. Например, если LLM читает календари пользователей для определения свободных промежутков, она не должна иметь возможности создавать новые события.
- Ред-тим аудит – это метод оценки, который помогает выявить слабые стороны модели, приводящие к непреднамеренному поведению. Изначально этот подход применялся в военных целях, а сейчас широко используется в кибербезопасности. Применительно к языковым моделям ред-тим аудит заключается в том, чтобы при помощи специальных запросов заставить модель выдавать нежелательный контент или совершать непредусмотренные действия. Для этого нужно собрать разностороннюю команду специалистов по тестированию, которые будут придумывать максимально творческие способы взлома приложения с помощью неожиданных и странных промптов.
- Обнаружение и блокировка злонамеренных пользователей. Мониторьте шаблоны использования и блокируйте пользователей при обнаружении аномалий и известных вредоносных запросов. Библиотеки вроде Rebuff и LangKit могут в этом помочь.
- Периодический мониторинг ввода и вывода. Регулярно просматривайте логи взаимодействия пользователей с LLM, чтобы убедиться в корректной работе. Работу по анализу логов на предмет аномалий можно поручить другой LLM.
- Проверка внешних данных. Если приложение позволяет LLM выполнять функции или использовать внешние веб-страницы/документы, нужно предусмотреть защиту от вредоносных инструкций, которые могут в них содержаться.
В заключении статьи приведены эффективные инструменты для защиты ИИ-приложений: - Rebuff – детектор вредоносных запросов. Добавляет в системный запрос уникальное «предательское слово» и затем проверяет ответ модели на наличие этого слова, чтобы определить утечку системного запроса.
- NeMo Guardrails – добавляет ограничители в чат-боты, помогает предотвратить нежелательное поведение.
- LangKit – набор инструментов для мониторинга языковых моделей и предотвращения атак.
- LLM Guard – обнаруживает вредоносные промпты, предотвращает утечку данных.
- LVE Repository – репозиторий, содержащий сотни уязвимостей, которые можно использовать для тестирования защиты своих систем.
|
Meshy-2.5 – создает высококачественные 3D-модели по текстовым описаниям и фото. Поддерживает редактирование, предоставляет бесплатный тестовый доступ к Pro-версии на 7 дней. |
Модели, сгенерированные Meshy-2.5 |
Spiritme – генерирует видео с участием вашего ИИ-клона.
Rezi – напишет резюме, представив ваши навыки в самом выигрышном свете. Creatie – превратит любую идею в эффектный UI/UX дизайн.
WebWave – сгенерирует сайт любой сложности за 3 минуты. Другие похожие генераторы сайтов – Dora и Butternut AI.
Fotor – улучшает качество и повышает разрешение видео. Fotor также предлагает генераторы изображений, профессиональных фотопортретов и аватарок. Туториалы по работе с генераторами и редакторами Fotor – на YouTube-канале компании.
PrettyPolly – ИИ-репетитор для изучения иностранных языков: позволяет создавать собеседников и ситуации для практики, помогает улучшить произношение и пополнить словарный запас. Похожий ИИ-преподаватель – Speak. | Diagramming AI – создает всевозможные диаграммы, схемы и карты на основе текста и изображений. |
Aqua Voice – транскрибирует речь в текст и редактирует документы с помощью голоса. |
GoEnhance – превращает видео в аниме разных стилей. |
Claude Investor – многофункциональный инвестиционный агент на основе Claude 3. |
Обучение моделей для выполнения конкретной задачи – непростой процесс: нужно собрать, очистить и отформатировать данные, выбрать подходящую модель, написать код обучения. Задачу можно автоматизировать с помощью gpt-llm-trainer. Этот инструмент позволяет перейти от идеи до готовой обученной модели максимально просто – потребуется всего лишь ввести описание задачи, которую должна выполнять модель. Затем gpt-llm-trainer автоматически: - Создает набор данных с нуля, используя для этого большие языковые модели Claude 3 или GPT-4. Эта модель будет генерировать разнообразные запросы и ответы, соответствующие указанной задаче.
- Формирует системное сообщение – специальный промпт, который будет использоваться для управления моделью.
- Разделяет созданный набор данных на обучающую и проверочную выборки.
- Обучает выбранную модель (LLaMA 2* или GPT-3.5) на основе подготовленных данных.
- Подготавливает готовую модель к практическому применению.
На этом все, до встречи на следующей недели! |
* LLaMA 2 – разработка организации Meta, деятельность которой признана экстремистской и запрещена на территории РФ. |
|
|
Вы получили это письмо, потому что подписались на нашу рассылку. Если вы больше не хотите получать наши письма, нажмите здесь.
|
|
|
|