🗃️ Работа с базами данных |
Python поставляется с sqlite3 – интерфейсом для работы с СУБД SQLite. В большинстве туториалов по работе с базами данных в Python (Django, Flask) рассматривается именно SQLite – компактная встраиваемая БД, которой вполне достаточно для любого учебного/пет-проекта. Однако в реальных приложениях чаще используются MySQL и PostgreSQL: |
🗣️ Обработка естественного языка |
В статье представлены пять лучших библиотек, которые призваны упростить предварительную обработку текста для дальнейшего использования в машинном и глубоком обучении: - TextBlob – самая простая в использовании библиотека, отлично подходит для начинающих разработчиков. Предоставляет набор основных инструментов для анализа текста, включая токенизацию, интеграцию с WordNet, POS-теггинг и оценку тональности.
- spaCy – самая популярная NLP-библиотека для обработки текста в промышленных масштабах. Отличается высокой скоростью, поддержкой 49 языков, наличием предобученных статистических моделей и широким набором инструментов для анализа текста, включая распознавание именованных сущностей, токенизацию и лемматизацию.
- NLTK – одна из самых полных и универсальных NLP библиотек. Она содержит более 50 корпусов и словарей, что позволяет решать широкий спектр задач, включая анализ тональности, генерацию текста и перевод.
- Genism – способна обрабатывать текстовые данные, объем которых многократно превышает размер оперативной памяти. Предоставляет инструменты для индексации документов, извлечения ключевых слов, построения тематических моделей и поиска информации.
- PyNLPl – содержит модули для выполнения различных задач, включая токенизацию, POS-теггинг, распознавание именованных сущностей и лемматизацию. Она также поддерживает формат FoLiA XML, который широко используется для представления результатов анализа текста.
|
Чат-бот на 8 строках кода |
Туториал покажет, как сделать собственный чат-бот с помощью нужной модели с Huggingface, Langchain, Google Colab и 8 строк кода на Python. |
Собственный чат-бот будет работать в Google Colab |
Кастомный чат-бот легко сделать на платформе OpenAI, но если загружать свои данные туда не хочется, можно воспользоваться подходом RAGs. Этот подход основан на извлечении наиболее релевантной ответу информации из вашей базы данных или набора документов и на передаче этого контекста любой LLM для генерации полного и точного ответа. RAGs работает так: - Пользователь задает вопрос.
- RAG-агент использует LlamaIndex для поиска наиболее релевантных фрагментов информации из локальной базы данных (набора документов).
- Извлеченные фрагменты используются как контекст для генерации ответа с использованием подключенной LLM-модели (OpenAI, Anthropic, Huggingface и т. д.)
- LLM генерирует максимально точный, персонализированный ответ на основе этого контекста.
Этот метод позволяет RAGs отвечать на более широкий спектр вопросов и предоставлять более точные и релевантные ответы, чем LLM, которые работают только с информацией, на которой они были обучены. Есть еще один похожий фреймворк, Canopy, но он пока работает только с моделями OpenAI. |
Canopy и RAGs работают по одному принципу |
Супербыстрый генератор текста |
GPT-Fast работает на основе PyTorch и SentencePiece. Цель проекта – продемонстрировать, какого уровня производительности в задачах генерации текста можно достичь, используя только нативные оптимизации PyTorch, без дополнительных библиотек. В GPT-Fast реализованы следующие методы оптимизации: - Компиляция модели с помощью torch.compile.
- Квантование весов в int8/int4.
- Спекулятивное декодирование.
- Тензорный параллелизм.
GPT-Fast поддерживает популярные модели (Llama, CodeLlama и т. п.) |
👨🎓️ Алгоритмы и структуры данных |
📂 Расширение поддержки Polars |
Polars – это новая Pandas, только лучше: она быстрее работает с датафреймами и гораздо эффективнее использует память, потому что написана на Rust. К тому же, у Polars более простой синтаксис и она может обрабатывать датасеты объемом 250 Гб на ноутбуке. Многие библиотеки для анализа и визуализации данных уже поддерживают датафреймы Polars, а для тех, что еще не поддерживают, датафреймы и серии можно легко сконвертировать с помощью polars.DataFrame.to_pandas() и polars.Series.to_pandas(). |
🌐 Настройка VS Code для AI/ML/MLOps |
Статья подробно рассказывает о настройке популярного редактора VS Code для работы с ИИ, машинным обучением и MLOps на Python: - Перечислены полезные плагины, которые расширяют функциональность редактора для работы с Python, Jupyter Notebook, Docker, Kubernetes и т.д.
- Приведены настройки VS Code, которые улучшают производительность, упрощают отладку кода, работу с Git и т. д.
- Перечислены кастомные сочетания клавиш, которые ускоряют вызов часто используемых команд в VS Code (вызов терминала, переключение между файлами и т. д.)
- Даны общие советы по продуктивной работе в VS Code – использование командной палитры, рабочих пространств, интерактивного окна Python, инструментов автоматизации вроде Make и Invoke и т. д.
|
🎓 Курс MLOps для начинающих |
MLOps – это DevOps с учетом специфики продуктов, использующих машинное обучение. В YouTube-курсе рассказывают обо всех основных концепциях MLOps и показывают работу с нужными библиотеками – ZenML, MLflow и т.д. |
Great Tables – отличный (и простой!) инструмент для визуализации табличных данных в Python. |
Great Tables поддерживает таблицы со сложной структурой |
Еще один способ оформления таблиц – библиотека PrettyTable: она поддерживает импорт данных из CSV, HTML и курсора базы данных, и визуализирует таблицы с помощью ASCII, JSON и HTML. |
И напоследок – адвентский календарь программиста с интересными задачками на каждый день. На этом все, до встречи через неделю! |
|
|
Вы получили это письмо, потому что подписались на нашу рассылку. Если вы больше не хотите получать наши письма, нажмите здесь.
|
|
|
|