Microsoft собирается запатентовать метод, способный радикально снизить или даже полностью устранить галлюцинации LLM. Технология называется RAS («Система улучшения ответов») и работает следующим образом: - Когда пользователь задает вопрос, RAS автоматически ищет дополнительную информацию во внешних источниках (интернет, базы данных). Затем она проверяет, насколько полезен и точен ответ ИИ, сравнивая ответ модели с найденной информацией.
- Если система обнаруживает, что ответ неполный или сомнительный, она сообщает об этом пользователю.
Важные особенности RAS: - Пользователи могут оставлять обратную связь о качестве ответов.
- Для внедрения системы не требуется перенастраивать существующие модели.
- Система может работать как дополнительный слой проверки вместе с другими инструментами для определения корректности и полноты ответов.
Arcade стал первым ИИ-маркетплейсом, на котором можно сгенерировать фото украшения своей мечты и отдать заказ на выполнение квалифицированному ювелиру. В будущем платформа планирует расширить ассортимент услуг – можно будет заказать аксессуары, одежду, обувь и т. д. Заработать на маркетплейсе могут не только непосредственные исполнители заказа: дизайнеры получают 2,5% комиссию, если по сгенерированному ими изображению был оформлен заказ. |
Китайские разработчики представили GameGen-X – первую ИИ-модель, специально созданную для генерации и управления сценами открытого мира в играх в реальном времени. Основные возможности: - Генерация контента – создание персонажей, формирование динамичного окружения и различных игровых событий.
- Интерактивность – пользователи могут влиять на контент с помощью текстовых команд и управления с клавиатуры.
Prime Video, стриминговый сервис компании Amazon, запустила ИИ-фичу, о которой давно мечтали все любители сериалов: X-Ray Recaps предоставляет краткое содержание сезонов, эпизодов и отдельных сцен. |
«Загрузка» (Upload) – черная комедия про айтишника, который преждевременно оказался в цифровом раю |
Hugging Face и NVIDIA заключили соглашение о сотрудничестве в области робототехники, главная цель которого – создание открытой экосистемы для разработки роботов с искусственным интеллектом. Это своего рода «GitHub для роботов», где разработчики со всего мира могут делиться своими наработками, использовать готовые решения и совместно развивать технологии робототехники: - LeRobot от Hugging Face предоставляет среды для симуляции, набор инструментов для работы с роботами, позволяет собирать данные и обучать модели.
- NVIDIA Isaac Lab позволяет тестировать роботов в реалистичной виртуальной среде и ускоряет сбор данных для обучения.
Компания Decart AI представила модель Oasis, которую можно назвать ИИ-версией Minecraft. Oasis создает интерактивные игровые миры в реальном времени, самостоятельно управляя физикой, графикой и взаимодействием с предметами. Можно загружать изображения в качестве референсов. |
«Библиотека программиста» ищет менеджеров контента |
Удаленка || Частичная занятость || Сдельная оплата Нужно: - Создавать контент для ТГ-каналов.
- Развивать комьюнити.
- Знать одну из тем: C#, DevOps, QA.
- Грамотно писать.
Почта для откликов: tatyana@proglib.io. |
Midship – извлекает данные из документов любого формата. Похожий инструмент – PandaETL. |
Moodpaper – превращает ваше настроение в обои для рабочего стола. |
Recraft – генератор и редактор UI, графики и фото для профессиональных дизайнеров. |
MockFlow – визуализирует ваши UI-идеи в виде макетов, удобных для дальнейшего обсуждения и улучшения вместе с командой. Melies – превращает ваши истории в минифильмы. |
PopPop – бесплатный ИИ-инструмент для удаления вокала из песен и видеоклипов. Monica Code – VSCode-плагин для генерации кода, альтернатива Copilot и Cursor. Siter – генерирует интерактивные сайты на основе Figma-дизайнов. Похожиe инструменты – Loopple и Flexbe. AI Presentation Generator – создает PowerPoint-презентации на основе любых документов. OpenHands – продвинутый напарник разработчика. Fable – генерирует интерактивные, озвученные демо продуктов на основе записей экрана. |
Squire AI – проводит ревью кода, следуя вашим правилам, заданным на естественном языке. Sona – iOS-приложение для извлечения инсайтов из диалогов. v0 – генерирует код для интерактивного фронтенда по скриншотам и промптам. |
Video Ocean – продвинутый генератор видео, работает с текстовыми промптами и изображениями. Article Reader AI – мобильное приложение для iOS и Android, которое превращает любые статьи и PDF в подкасты. Move AI – захватывает движения и создает 3D-анимацию. |
🧮 Почему у LLM так плохо с математикой |
Недавнее исследование ученых из Университета Британской Колумбии и Йельского университета подтвердило, что способ, которым текст разбивается на токены, существенно влияет на способность языковых моделей ИИ решать простые задачи, связанные с подсчетом (это важно, поскольку счет – основа для многих более сложных задач, логических и математических). Исследователи изучили, как разные методы токенизации воздействуют на способности ИИ выполнять подсчет. К примеру, выяснилось, что метод «Цепочка мышления» (Chain-of-Thought, CoT) может компенсировать некоторые архитектурные ограничения трансформеров, лежащих в основе современных языковых моделей. В этом методе промежуточные шаги процесса мышления выводятся на естественном языке, что позволяет углубить логические рассуждения. Новая модель о1 от OpenAI активно использует этот метод. Однако другие LLM-модели обычно используют байтовые токенизаторы типа кодирования слиянием байтовых пар (Byte Pair Encoding, BPE), которые объединяют несколько символов в один токен. Это фундаментально меняет способ обработки информации. В экспериментах с моделями GPT-4o mini и Claude-3.5 Sonnet выяснилось, что точность подсчета менялась до 80% в зависимости от метода токенизации: - Когда последовательные буквы объединялись в один токен, точность была даже ниже, чем при отсутствии CoT.
- А если элементы для подсчета разделялись пробелами или запятыми, точность повышалась на 13–40%.
- Лучших результатов модели достигали, когда каждая буква образовывала свой собственный токен.
Исследователи также обнаружили, что эффекты токенизации различаются от модели к модели. Некоторые токены больше влияют на результат подсчета, даже если тип самой задачи не изменялся. Редкие буквы, например «z», показывали лучшие результаты в экспериментах по сравнению с более распространенными (как «e»). Ученые предполагают, что редкие токены содержат меньше встроенной информации, что приводит к меньшим отвлекающим факторам при вычислениях во время подсчета. |
Отказ от токенизации – лучший способ научить LLM считать правильно |
Изменение способа токенизации помогает улучшить способности LLM к подсчету, но полное избавление от токенизации может стать оптимальным вариантом. Meta* представила MegaByte – новый метод, который не использует токенизаторы и обрабатывает текст, изображения и аудио на уровне байтов. Компания планирует использовать эту технологию для новых крупных моделей – тесты на более мелких моделях уже показали обнадеживающие результаты. Бывший научный сотрудник OpenAI Андрей Карпаты тоже поддержал этот подход, заявив в Twitter/X**: «Нам всем стоит надеяться, что мы сможем отказаться от токенизации в LLM». |
🔦 Как развернуть LLM с помощью vLLM и TorchServe |
Источник vLLM – один из самых подходящих движков для простого запуска LLM: он предоставляет команду vllm serve для развертывания на одной машине. Однако для развертывания в продакшене требуются дополнительные продвинутые функции, которых у него нет. Такие возможности есть у TorchServe: - Пользовательские метрики.
- Версионирование моделей.
- Гибкие обработчики, позволяющие легко интегрировать генерацию с дополнением из базы знаний (RAG) и защитные механизмы вроде Llama Guard.
Поэтому логично объединить движок vLLM с TorchServe для создания полноценного решения по запуску LLM в продакшене. Процесс развертывания включает: 1. Сборку Docker-образа: docker build --pull . -f docker/Dockerfile.vllm -t ts/vllm 2. Запуск контейнера с моделью: docker run --rm -ti --shm-size 10g --gpus all -e HUGGING_FACE_HUB_TOKEN=$token -p 8080:8080 -v data:/data ts/vllm --model_id meta-llama/Meta-Llama-3.1-70B-Instruct --disable_token_auth 3. Тестирование: curl -X POST -d '{"model":"meta-llama/Meta-Llama-3.1-70B-Instruct", "prompt":"Hello, my name is", "max_tokens": 200}' --header "Content-Type: application/json" "http://localhost:8080/predictions/model/1.0/v1/completions" При развертывании с помощью vLLM с TorchServe: - Веса модели хранятся в локальной папке data.
- Используется скрипт ts.llm_launcher для упрощения запуска.
- Поддерживается автоматическое распараллеливание на нескольких GPU.
- Возможно создание model archive для доступа к расширенным функциям.
Важно отметить, что простой запуск через ts.llm_launcher не дает доступа ко всем возможностям TorchServe. Для использования продвинутых функций (RAG, версионирование) требуется создание model archive, что сложнее, зато обеспечивает большую гибкость, надежность и масштабируемость в продакшене. Прежде чем мы рассмотрим, как это сделать, стоит разобраться в особенностях интеграции vLLM и TorchServe. | Интеграция движка vLLM в TorchServe |
vLLM предлагает множество продвинутых функций, среди которых: - PagedAttention – эффективное управление памятью.
- Непрерывная пакетная обработка.
- Быстрое выполнение модели через CUDA Graphs.
- Поддержка разных методов квантования – GPTQ, AWQ, INT4/INT8/FP8.
- Интеграция с методами эффективной настройки параметров (LoRA).
- Поддержка моделей с разными архитектурами (Llama*, Mistral).
Раньше TorchServe использовал синхронный режим, ожидая либо определенное время (batch_delay), либо достаточное количество запросов (batch_size). Теперь он может работать в асинхронном режиме, и запросы сразу передаются в бэкенд для обработки vLLM. Интеграция vLLM в TorchServe позволяет эффективно использовать сильные стороны этих инструментов, обеспечивая оптимальное использование ресурсов и гибкие возможности масштабирования. Вот основные преимущества интеграции: Оптимизация памяти - vLLM получает полный контроль над тем, какие запросы обрабатывать.
- Использует PagedAttention для оптимального комбинирования запросов разной длины.
- Работает как «Тетрис», заполняя неиспользуемые участки памяти.
Распределенный вывод - Поддержка работы на нескольких GPU на одном узле.
- Использование распараллеливания для больших моделей.
- Кастомный параллелизм для запуска единого процесса бэкенда.
Гибкость настройки - VLLMHandler позволяет быстро развертывать любую совместимую модель.
- Возможность добавления пользовательских шагов предобработки и постобработки.
- Поддержка потокового режима для немедленной отправки токенов.
Для развертывания LLM используется отдельный Dockerfile, основанный на GPU-образе TorchServe и оптимизированный для минимизации размера образа. |
1. Подготовка: После установки TorchServe нужно установить vLLM: $ pip install -U vllm==0.6.1.post2 2. Загрузка весов модели (опционально): huggingface-cli download meta-llama/Meta-Llama-3.1-70B-Instruct --exclude original/* Веса сохраняются в $HF_HOME. Можно пропустить этот шаг – тогда vLLM скачает веса при запуске. 3. Конфигурация модели: Создайте YAML-файл с параметрами фронтенда и обработчика: |
4. Создание архива модели Здесь используется формат no-archive для удобства экспериментов, веса модели не включаются в архив: mkdir model_store torch-model-archiver --model-name vllm --version 1.0 --handler vllm_handler --config-file model_config.yaml --archive-format no-archive --export-path model_store/ 5. Развертывание Здесь аутентификация отключена только для локального тестирования, не забудьте включить ее в продакшене: torchserve --start --ncs --model-store model_store --models vllm --disable-token-auth 6. Тестирование В интеграции используется OpenAI-совместимый формат API, поддерживается как потоковый stream=1, так и пакетный stream=0 режимы ответов: echo '{ "model": "llama3", "prompt": "A robot may not injure a human being", "stream": 0 }' | curl --header "Content-Type: application/json" --request POST --data-binary @- http://localhost:8080/predictions/vllm/1.0/v1/completions |
Главные преимущества этой интеграции: - Гибкая конфигурация через YAML.
- Поддержка распределенного вывода на нескольких GPU.
- Совместимость с OpenAI API.
- Возможность потоковой генерации ответов.
- Простота развертывания в Docker/Kubernetes.
В планах разработчиков – реализация поддержки мультиузлового вывода и создание готового Docker-образа для максимального упрощения процесса развертывания. |
* Meta и все ее продукты, включая Llama, признаны экстремистскими и запрещены на территории РФ. ** Twitter/X заблокирован на территории РФ. |
|
|
Понравилась ли вам эта рассылка? |
|
|
Вы получили это письмо, потому что подписались на нашу рассылку. Если вы больше не хотите получать наши письма, нажмите здесь.
|
|
|
|