Самые дешевые авиабилеты: ChatGPT теперь может слышать, видеть, говорить и понимать шутки

суббота, 30 сентября 2023 г.

ChatGPT теперь может слышать, видеть, говорить и понимать шутки

📰 Новости

Несмотря на внушительные вложения в OpenAI, Microsoft продолжает дистанцироваться от использования ChatGPT: 1 ноября компания запускает многофункциональный Microsoft 365 Copilot, а в целом считает своей новой задачей разработку более компактных и экономически эффективных ИИ-продуктов, нежели детище OpenAI.

В ЦРУ тоже занялись разработкой собственного ИИ – чтобы не допустить доминирования Китая в ИИ-сфере. В Китае, между тем, планируют строительство завода по производству ИИ-чипов – чтобы не зависеть от американских санкций.

Amazon инвестирует $4 млрд в Anthropic, разработчика Claude – самого мощного конкурента ChatGPT. OpenAI, для сравнения, ищет инвесторов, готовых вложить в компанию $80-90 млрд – потому что ChatGPT уже может видеть, слышать и говорить.

Mistral AI выпустила первую открытую модель Mistral 7B, которая превосходит все существующие опенсорсные модели до 13В. Разработчики поставили перед собой благородную цель – борьбу с цензурой, предубеждениями и злоупотреблениями в ИИ-сфере, поэтому модели Mistral AI свободны от множества недостатков, и легко адаптируются для решения различных задач.

Недостаток квалифицированного персонала привел к замене людей роботами-официантами в Южной Корее. Американские охранные компании тоже собираются использовать роботов вместо обычных сотрудников службы безопасности.

Meta* объявила о внедрении множества ИИ-функций во все свои продукты, от Facebook Messenger и Instagram до WhatsApp и VR-гарнитуры Quest 3. Среди AI-функций –стикеры, редактирование изображений и чат-бот с 28 новыми личностями, некоторые из которых имитируют знаменитостей – от рэпера Снуп Догга до теннисистки Наоми Осаки.

Энтузиасты протестировали новую опцию ChatGPT-4 – работу с изображениями. Кратко:

GPT-4V понимает, что изображено на картинке, и почему это должно быть смешно.
Может определить тип валюты и подсчитать количество монет.
Определяет фильм по одному кадру и предоставляет информацию по состоянию на январь 2022 года.
Безошибочно распознает достопримечательности и комнатные растения по фото.
Не всегда корректно считывает цифры, но неплохо справляется с текстом на изображениях.
Может решать математические задачи, считывая условия со скриншотов.
Испытывает затруднения с разгадкой капчи, судоку и кроссвордов.
Иногда отказывается идентифицировать отдельных людей на фото и не отвечает на промпты, связанные с экстремистской символикой.

Среди других успешных экспериментов с ChatGPT Vision:

Генерация кода UX-компонентов по скриншоту.
Превращение дизайна в Figma в работающие React-компоненты.
Создание сайта на основе изображения менее чем за 1 минуту.

GPT-4V понимает плоские шутки

⚙️ Как это работает

Разработчики Vercel написали отличную статью о векторных базах данных. Основные моменты:

Векторные базы данных предназначены для хранения векторных представлений данных, обычно текстовых. Это позволяет эффективно анализировать и сравнивать данные.
Приводятся примеры популярных векторных баз данных: Pinecone, Weaviate, Chroma, LanceDB, Milvus и т.д.
Объясняется процесс использования векторной базы данных: установка, загрузка данных, выполнение запросов, масштабирование.
Рассматривается пример создания приложения для поиска покемонов с использованием Vercel Postgres и векторного расширения pgvector.

В статье «Как чат-боты имитируют осмысленный диалог» разобраны отличия устаревших ботов, которые реагировали на ключевые слова, от современных ботов на основе LLM. Роботы, использующие генеративный ИИ, тоже упоминаются в материале. Один из таких роботов, Дездемона, даже выступает в составе музыкальной группы: вот один из концептуальных перформансов Дездемоны под названием «Если бы только у меня были мозги».

🪛 Сделай сам

Разработчики Meta* объяснили, как можно повысить эстетическое качество сгенерированных моделью Emu изображений, используя небольшой набор высококлассной графики.

Качество генераций Emu после настройки впечатляет

С опенсорсным фреймворком Superagent можно за считаные минуты создать полноценного AI-ассистента для решения любой задачи: поддержки клиентов, юридической работы, проверки кода, генерации контента и т. д.

Tabby – опенсорсная альтернатива GitHub Copilot: поддерживает GPU потребительского класса, устанавливается локально, имеет OpenAPI интерфейс, легко интегрируется в существующую инфраструктуру и облачные IDE.

⚒️ Инструменты

Digma – непрерывно отслеживает и комментирует качество кода: вовремя обнаружит ошибки, костыли и регрессии.

Audiobook – создаст аудиокнигу за 10 минут: достаточно загрузить нужный текст и выбрать подходящий голос из доступных 146. Сервис поддерживает 43 языка.

Elicit – поможет с научными и техническими исследованиями: извлечет из текстов самые важные моменты, сделает обобщения и выводы.

AskCodi – верный напарник разработчика: сгенерирует код, даст советы и подсказки, переведет с одного языка программирования на другой, ответит на вопросы.

Sizzle AI – покажет, как решить сложную задачу шаг за шагом.

SquadGPT – предоставит изолированное окружение для командного доступа к GPT-4: все данные будут в безопасности, а расходы – под контролем.

Resume Writing – напишет идеальное резюме менее чем за 3 минуты.

Coverposts – превратит любой контент (статьи в блоге, книги и т.п.) в готовые посты для соцсетей.

Opinly – анализирует сильные и слабые стороны бизнеса конкурентов и предоставляет подробный отчет с инсайтами: достаточно вставить ссылку на YouTube видео.

Alphadoc – обеспечит быстрый онбординг для новых разработчиков: создаст интерактивную документацию, туториалы, гайды и пояснения по кодовой базе.

Visily – сделает редактируемый макет или каркас веб-приложения на основе набросков и скриншотов.

Stylize – превратит фото в иллюстрацию в любом стиле.

Stylize перерисует изображение в выбранном стиле

WhatFontIs – определит, какой шрифт используется на изображении.

Fluxon – ультрареалистичный генератор речи: клонирует голос по образцу и превращает текст в аудио на любом языке.

Подборка из 9 бесплатных AI-инструментов, которые можно использовать локально на собственном компьютере. В подборке – приложения для увеличения изображений, 3D-сканер, отслеживание объектов, разделение музыкальных композиций на треки (вокал, ударные, бас и т.д.), синхронизация субтитров и определение лиц на фото.

AutoCaption – сделает анимированные субтитры и текстовые комментарии для видео на любом из 25+ языков.

Если хочешь попробовать себя в ML, приходи на наш новый курс «Базовые модели ML и приложения» – всему научим.

На этом все, увидимся через неделю!

* Организация Meta и ее продукты Facebook, WhatsApp, Emu и Instagram признаны экстремистскими и запрещены на территории РФ.

Автор рассылки: Наталья Кайда

📖 Читать нас

🎓 Учиться у нас

Вы получили это письмо, потому что подписались на нашу рассылку. Если вы больше не хотите получать наши письма, нажмите здесь.

суббота, 30 сентября 2023 г.

ChatGPT теперь может слышать, видеть, говорить и понимать шутки

суббота, 30 сентября 2023 г.