Лента постов канала Библиотека data scientist’а (@dsproglib) https://t.me/dsproglib Полезные материалы по всему, что может быть интересно дата сайентисту. Обратная связь: @proglibrary_feedback_bot Мероприятия: @event_listener_bot Вакансии: @datajob По вопросам рекламы @proglib_adv Прайс: @proglib_advertising http://ad.proglib.io/ ru https://linkbaza.com/catalog/-1001191313451 Sun, 24 Aug 2025 15:47:40 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 23 Aug 2025 19:30:18 +0300
Отдыхаешь?
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 23 Aug 2025 16:06:06 +0300
🐸 Библиотека дата-сайентиста
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 23 Aug 2025 11:57:51 +0300
требует двухчасового созвона 😎

🐸 Библиотека дата-сайентиста

#развлекалово
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Fri, 22 Aug 2025 20:59:57 +0300
🤔 Как рассчитать идеальный размер выборки ещё до начала исследования

Вы когда-нибудь теряли время и ресурсы на слишком маленькие или, наоборот, слишком большие выборки?

С помощью power analysis — расчёта размера выборки — вы можете заранее узнать, сколько участников нужно для достоверного результата.

Почему это важно:

✔️ Экономите время и деньги, не собирая лишние данные
✔️ Подбираете размер выборки под ожидаемый эффект
✔️ Контролируете уровень доверия и статистическую мощность исследования
✔️ Работает для t-тестов, ANOVA, регрессий и многих других тестов
✔️ Легко реализуется с бесплатными R-пакетами, например, pwr

Наглядно:
➡️ Слева: как размер выборки растёт при уменьшении ожидаемого эффекта — маленькие эффекты требуют больших групп.
➡️ Справа: пример расчёта для t-теста — точное количество участников на группу для желаемого уровня доверия и статистической мощности.

🐸 Библиотека дата-сайентиста

#буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Fri, 22 Aug 2025 10:02:53 +0300
👆 Хочешь стать AI-инженером? Этот репозиторий — настоящая находка

Он уже собрал 60K⭐️ на GitHub и не зря: учит строить и тренировать LLM с нуля. Никакой воды — только практические навыки, которые нужны каждому будущему AI-инженеру.

Что в репозитории:
Как LLM на самом деле работают
Основы работы с текстовыми данными
Реализация attention и GPT с нуля
Предобучение на неразмеченных данных
Финетюнинг для классификации и инструкций
Основы CUDA и PyTorch, пошаговые видео, куча практики.

Для новичков и тех, кто хочет поднять уровень — этот репозиторий реально меняет правила игры.

📌 Репозиторий на GitHub

🐸 Библиотека дата-сайентиста

#буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 21 Aug 2025 21:03:54 +0300
🚕 Как лог-трансформация спасла модель

Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.

В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.

❌ Модели сложно учиться: редкие большие значения «тянут» распределение и портят общую картину.

Простое решение — применить log1p к целевой переменной:
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.

Схема:
y → log1p → модель → предсказания (log scale) → expm1 → предсказания (ориг. масштаб)


💡 Результат: MAE снизился на 20%.

Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.

🐸 Библиотека дата-сайентиста

#междусобойчик
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 21 Aug 2025 16:30:22 +0300
📅 Сегодня в 19:00 МСК — бесплатный вебинар с Марией Жаровой.

Тема: «Введение в ML: как спрогнозировать стоимость недвижимости».

🔹 Разберём задачу прогноза стоимости недвижимости.
🔹 Покажем пошагово, как собрать первую модель.
🔹 Получите готовые скрипты для старта.

Не зайдёшь — будешь ещё год делать вид, что понимаешь графики в чужих презентациях.

👉 Регистрируйтесь
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 21 Aug 2025 10:01:54 +0300
📊 Шпаргалка для машинного обучения: 10 алгоритмов и их временная сложность — всегда под рукой.

🐸 Библиотека дата-сайентиста

#буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Wed, 20 Aug 2025 20:59:56 +0300
gpt-oss, Qwen, Gemma — один гайд, чтобы запускать и тюнить всё

Вышел подробный туториал по тому, как запускать и дообучать gpt-oss (LLM) локально.

Что внутри:
• FAQ по локальному обучению + инференсу
• Подбор гиперпараметров и как не словить overfitting
• Подготовка данных
• Экспорт модели в GGUF (llama.cpp) и загрузка в Hugging Face

Дополнительно на этой странице есть другие туториалы:
• Qwen3 / Qwen3-Coder — запуск локально
• Kimi-K2
• Llama 4
• Vision fine-tuning
• RL & TTS fine-tuning

Особенно крутая часть — vision fine-tuning:
— можно дообучать мультимодальные модели (Gemma 3, Llama 3.2 Vision, Qwen2.5 VL и др.)
— выбирать, какие именно части модели дообучать (vision / language / attention / MLP)

🔗 Ссылка на туториалы

🐸 Библиотека дата-сайентиста

#буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Wed, 20 Aug 2025 17:58:47 +0300
☝️ Один мудрый тимлид дал двум своим разработчикам по «таланту» — мощной, но своенравной LLM.

Первый разработчик испугался её «галлюцинаций». Он запер модель в песочнице, не давая ей доступа к свежим данным. На вопросы модель отвечала красиво, но часто придумывала факты, то есть врала. Он просто «закопал» свой талант, боясь им пользоваться.

Второй же разработчик не побоялся. Он построил для своей LLM систему RAG — дал ей «лопату и карту», чтобы находить сокровища в базе знаний компании. Его AI-агент отвечал точно по делу, ссылаясь на реальные документы. Он заставил свой «талант» работать и приносить пользу.

Мощь LLM раскрывается не в ней самой, а в системах, которые вы строите вокруг неё.


Именно такие системы мы и будем строить на втором потоке нашего курса «AI-агенты для DS-специалистов». Мы не просто поговорим о RAG, а соберём полный пайплайн с оценкой качества, чтобы ваш агент не врал.

Представьте, что вы сможете начать изучать эту сложную и востребованную тему уже 15 сентября, а не ждать официального старта в октябре. У вас будет фора в 3 недели, чтобы спокойно разобраться в векторных базах и подходе «LLM as a Judge».

💸 Цена 49.000 ₽ действует последние 4 дня — до 24 августа.

👉 Начать строить RAG раньше других
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Wed, 20 Aug 2025 10:02:57 +0300
📄 RAG-ready из любого документа за пару строк

Реальные документы слишком сложные для прямой работы LLM. Tensorlake превращает неструктурированные данные в RAG-ready формат всего за пару строк кода.

Что умеет Tensorlake:
👉 Работает с документами, изображениями, CSV, презентациями и др.
👉 Поддержка сложных макетов, рукописных заметок и мультиязычных данных.
👉 Возвращает layout документа, классификацию страниц, bounding boxes и многое другое.
👉 Можно задавать JSON-схему для извлечения нужных данных.

⚡️ Мгновенно готово к работе с LLM и retrieval pipelines!

📱 GitHub

🐸 Библиотека дата-сайентиста

#буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 19 Aug 2025 22:01:18 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 19 Aug 2025 20:59:56 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 19 Aug 2025 12:21:44 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 18 Aug 2025 22:00:32 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 18 Aug 2025 21:02:59 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 18 Aug 2025 18:03:27 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 18 Aug 2025 10:54:28 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sun, 17 Aug 2025 16:02:17 +0300
🆕 Свежие новости для дата‑сайентистов

⚙️ Модели и технологии
OpenAI снижает стоимость инференса на 75% — новый формат данных MXFP4 позволяет размещать 120B-параметрическую модель на 80 GB VRAM.
Attention Sinks: как стабилизировать LLM — MIT показали, что первые 4 токена можно использовать как якоря внимания.
Hugging Face выпустила AI Sheets — можно обогащать/трансформировать датасеты с помощью моделей (включая gpt-oss).
Mistral Medium 3.1 — улучшены reasoning, кодирование и мультимодальность.
LangExtract (Google) — Python-библиотека, которая превращает произвольный текст в структурированные данные.
Byte Latent Transformer (Meta) — модель начинает с сырых байтов и сама учится группировать их.
Gemma 3 270M (Google) — мини-версия открытой Gemma, заточенная под скорость и небольшие задачи.
TRIBE от Meta тримодальная модель (видео + аудио + текст), которая на 30 % лучше предсказывает реакцию человеческого мозга при просмотре фильмов.

🔍 Исследования и гайды
AI research interviews — опыт устройства в OpenAI, советы и инсайты.
Prompt migrator + optimizer для GPT-5 OpenAI добавила инструмент миграции/оптимизации промптов прямо в Playground.
DINOv3 (Meta) — масштабируемая self-supervised модель для изображений (веб, спутники и т.д.), state-of-the-art без размеченных данных.

🐸 Библиотека дата-сайентиста

#свежак
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 16 Aug 2025 16:06:26 +0300
🐸 Библиотека дата-сайентиста
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 16 Aug 2025 12:40:59 +0300
superpower unlocked 🤣

🐸 Библиотека дата-сайентиста

#развлекалово
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Fri, 15 Aug 2025 22:00:19 +0300
🧠 Выбор первого ML-проекта: чеклист против выгорания

Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.

Мини-чеклист первого проекта:

1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».

2. Измеримая метрика — «точность 92%», а не «ну вроде работает».

3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.

Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.

👉 Начать свой путь в Data Science

Оплатите курс по ML до 17 августа — курс по Python в подарок.

📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.

💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Fri, 15 Aug 2025 21:01:57 +0300
↔️ 8 RAG-архитектур, которые должен знать каждый

Retrieval-Augmented Generation (RAG) — подход, когда LLM дополняется внешними источниками знаний для точных и актуальных ответов.

Ниже — быстрый обзор популярных архитектур:

1️⃣ Naive RAG
Базовый RAG для простых задач. Простейшая реализация без адаптивной логики.

2️⃣ Multimodal RAG
Работает с разными типами данных: текст, изображения, аудио.

3️⃣ HyDE
Генерирует гипотетический документ (Hypothetical Response) для улучшения поиска и контекста.

4️⃣ Corrective RAG
Автоматическая проверка фактов и корректировка ответа с использованием внешних источников.

5️⃣ Graph RAG
Использует графовые базы данных для сложных связей между сущностями.

6️⃣ Hybrid RAG
Гибридный подход: объединяет графовые и векторные хранилища для более точного контекста.

7️⃣ Adaptive RAG
Многоступенчатое рассуждение с адаптивным выбором стратегии поиска и генерации.

8️⃣ Agentic RAG
Многоагентная система с планированием действий, короткой и длинной памятью, распределёнными агентами.

Совет по выбору:
— Простые задачи → Naive RAG
— Мультимодальные данные → Multimodal RAG
— Проверка фактов → Corrective RAG
— Сложные связи → Graph / Hybrid RAG
— Многоступенчатое рассуждение → Adaptive RAG
— Комплексные агентные системы → Agentic RAG

🐸 Библиотека дата-сайентиста

#буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Fri, 15 Aug 2025 17:58:00 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Fri, 15 Aug 2025 10:01:07 +0300
Фишка инструмента: Google выпустил LangExtract

LangExtract — open-source Python-библиотеку, которая превращает хаос неструктурированного текста в идеально структурированные данные с хирургической точностью.

Применения:
— извлечение транзакций из банковских выписок
— определение дозировок лекарств из клинических записей
— выделение условий контрактов из юридических документов

Ключевые фичи:
😶‍🌫️ Точная привязка к источнику — каждое поле содержит офсеты символов для полной трассировки и визуализации прямо в тексте.
😶‍🌫️ Контролируемая генерация с few-shot — задаёшь схему и пару примеров, и модель строго выдаёт нужный формат, без рандомных «галлюцинаций».
😶‍🌫️ Оптимизация для длинного контекста — умная нарезка, параллельная обработка, многопроходное извлечение.
😶‍🌫️ Гибкость по доменам — медицина, финансы, юриспруденция и многое другое без дообучения.

Достаточно задать промпт и пример, и LangExtract вернёт JSON, где каждое поле можно отследить до исходного текста. Работает с Gemini из коробки и поддерживает локальные LLM через Ollama для приватных задач.

🔗 Подробнее о LangExtract

🐸 Библиотека дата-сайентиста

#буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 14 Aug 2025 22:00:19 +0300
🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда

Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.

Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».

Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.

👉 Начните правильно

Берёте курс «ML для старта» до конца недели — Python в подарок.

❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.

А какой самый сложный проект вы брались делать в самом начале? 🫢
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 14 Aug 2025 21:02:06 +0300
😶 Истории подписчиков: cамый бесполезный совет от коллеги

Сегодня делимся историями, когда советы коллег звучали разумно… пока вы не попробовали их на практике.

👻 Просто запусти без параметров:
Настраивал модель XGBoost, попросил совета у старшего дата-сайентиста.
Он сказал: «Запусти без параметров, там всё по дефолту нормально».
Модель обучалась 9 часов и выдала результат хуже случайного угадывания.


👻 В SQL всегда используй SELECT *:
Коллега уверял, что так «надёжнее, вдруг что-то понадобится».
Итог — запрос возвращал по 2 ГБ данных, и ETL падал каждые выходные.


👻 Зачем тесты? У тебя же ноутбук:
Говорю: хочу написать пару unit-тестов для функции парсинга.
Ответ: «Не трать время, у тебя же всё в Jupyter, там видно же».
Через неделю нашли баг, который стоил клиенту два дня простоя.


💬 А какой самый «полезный» бесполезный совет вы получали?

🐸 Библиотека дата-сайентиста

#междусобойчик
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 14 Aug 2025 17:03:17 +0300
Неформально про реком
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.

27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.

В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.


📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 14 Aug 2025 09:59:06 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Wed, 13 Aug 2025 20:59:07 +0300
🐸 Библиотека дата-сайентиста

#развлекалово
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Wed, 13 Aug 2025 18:00:47 +0300
🔥 Успей поднять квалификацию по выгодной цене!

Только до 17 августа у вас есть последняя возможность купить наши курсы по старым ценам.

🔹 Математика для Data Science:

— Базовый: (сейчас) 26 399₽(будет) 33 900₽
— Ультра: 35 199₽44 900₽
— VIP: 59 829₽75 900₽ (выгода больше 16 000₽!)

🔹 Программирование на Python: 24 990₽32 900₽
🔹 Алгоритмы и структуры данных: 31 669₽39 900₽
🔹 Архитектуры и шаблоны проектирования: 24 890₽32 900₽
🔹 AI-агенты для DS специалистов: 54 000₽59 000₽
🔹 Основы IT для непрограммистов: 14 994₽19 900₽
🔹 Базовые модели ML: 6 990₽9 900₽

Важно: Курсы из линейки Frontend Basic полностью снимаются с продажи. 17 августа — буквально последний день, когда их можно будет приобрести.

Успей купить до повышения — осталось 4 дня!

👉 Зафиксировать цену и начать учиться
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Wed, 13 Aug 2025 12:50:55 +0300
🛠 How To: понять и использовать Model Context Protocol (MCP) для LLM

➡️ Что такое MCP и зачем он нужен

MCP — это API, созданный специально для взаимодействия с LLM. Он:
— Упрощает команды (естественный язык вместо сложного JSON)
— Запоминает контекст между вызовами
— Сам обрабатывает аутентификацию и ошибки
— Фокусируется на намерении, а не на технических деталях

➡️ Проблема традиционных API

Обычные API не хранят контекст и требуют повторно передавать все данные:
// API без состояния
POST /flights/search
{"from": "NYC", "to": "Paris", "date": "2024-03-15"}

POST /flights/book
{"flight_id": "AF123", "passenger": ???} // Кто бронировал?


➡️ Как это делает MCP

MCP помнит, откуда вы, и может достроить недостающую информацию:
SEARCH_FLIGHTS to=Paris date=next_week  // MCP знает, что вы из NYC
BOOK_FLIGHT flight=AF123 // MCP помнит ваш поиск


➡️ Минимальный манифест MCP

Инструменты описаны просто и читаемо:
tools:
- name: search_flights
description: "Найти доступные рейсы"
params:
- name: destination
type: string
- name: date
type: date


➡️ Простой MCP-сервер

Сервер хранит историю ваших запросов и подставляет контекст:
class FlightMCP:
def __init__(self, api_key: str):
self.api_key = api_key
self.context = {
"user_location": None,
"recent_searches": [],
"preferences": {}
}


➡️ Интеграция MCP в Claude Desktop

Подключаем MCP как внешний инструмент, который LLM будет использовать автоматически:
{
"mcpServers": {
"flights": {
"command": "python",
"args": ["flight_mcp_server.py"],
"env": {
"API_KEY": "your_flight_api_key"
}
}
}
}


Когда MCP не нужен:
— Если API используют только приложения, а не LLM
— Если важна скорость (например, торговля акциями)
— Для простых запросов без состояния
— Если уже есть отлаженный REST/GraphQL API
— При строгих требованиях изоляции данных

🐸 Библиотека дата-сайентиста

#буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 12 Aug 2025 21:02:45 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 12 Aug 2025 18:03:18 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 12 Aug 2025 12:29:04 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 11 Aug 2025 20:59:11 +0300
💻 Топ-вакансий для дата-сайентистов за неделю

ML-инженер (NLP, LLM), удалёнка

Python ML Engineer — от 200 000 до 243 000 ₽, гибрид (Москва)

Data Scientist (LLM), удалёнка

Data Engineer (команда AI), удалёнка

ML-инженер (Интеграции с большими языковыми моделями) — от 280 000 до 350 000 ₽, гибрид (Москва, Санкт-Петербург)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

🐸 Библиотека дата-сайентиста
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 11 Aug 2025 10:46:21 +0300
Библиотека задач по Data Science
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sun, 10 Aug 2025 16:03:14 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sun, 10 Aug 2025 13:11:04 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 09 Aug 2025 18:30:21 +0300
🧐 Зоопарк моделей в ML: с чего начать?

Открываешь статью по машинному обучению — и в тебя летят слова: трансформеры, бустинги, SVM, регрессии.

Кажется, придётся учить всё это, иначе в ML не пустят.

Хорошая новость: 90% задач можно закрыть 2–3 классическими методами. Разберёшь их — уже сможешь собирать работающие проекты. А хайповые названия подождут.

Важно: не распыляйся на всё подряд. Начни с базового — это фундамент, на котором держится остальное.

👉 Успей попасть на курс «ML для старта в Data Science»
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 09 Aug 2025 16:02:36 +0300
🔥 Холивар: отвечать ли на странные вопросы рекрутеров или морозиться

Есть вечная боль: рекрутер задаёт вопрос, который либо слишком общий, либо вообще бьёт мимо.

Примеры:
— «Где вы видите себя через 5 лет?»
— «Назовите свои слабые стороны»
— «Почему ушли с прошлого места?»
— «Сколько хотите зарабатывать?» (без вилки)

Кто-то отвечает честно (и потом жалеет), кто-то уходит в общие фразы, кто-то прямо говорит: «Вопрос некорректный, давайте дальше».

💬 Вопросы в зал:
— Вы отвечаете или морозитесь?
— Если морозитесь, то как это делаете, чтобы не сжечь контакт?
— Может, стоит наоборот троллить вежливо, чтобы отсеивать токсичные компании?

Библиотека дата-сайентиста #междусобойчик
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 09 Aug 2025 12:01:22 +0300
наглядно 😃

Библиотека дата-сайентиста #развлекалово
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Fri, 08 Aug 2025 21:05:06 +0300
🐬 Dolphin — превращает PDF в структурированные данные

Dolphin (Document Image Parsing via Heterogeneous Anchor Prompting) — 100% open source-модель для автоматического разбора PDF и сканов.

Зачем нужен:
— Конвертирует документы в готовые форматы: Markdown, HTML, LaTeX, JSON.
— Извлекает текст, таблицы, формулы и изображения.
— Полезен как для подготовки данных для LLM, так и для любых автоматизированных систем, архивов, поиска и аналитики.

Как работает:
1️⃣ Анализ макета страницы — определяет все элементы в естественном порядке чтения.
2️⃣ Параллельный парсинг — с «якорями» и промптами под каждый тип контента.

Представьте, что у вас есть 500 отчётов в PDF с финансовыми таблицами и графиками. Dolphin превращает их в аккуратный CSV или JSON, готовый для анализа в Pandas или загрузки в базу данных — без ручного копипаста и правок.


💡 Лёгкая архитектура + параллельная обработка = высокая скорость без потери качества.

🔗 Репозиторий с кодом и моделями: https://clc.to/6gPIwA

Библиотека дата-сайентиста #буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Fri, 08 Aug 2025 09:59:20 +0300
📹 Что посмотреть: OpenAI представила GPT-5

Прошла трансляция с официальным анонсом новой модели — GPT-5.

➡️ GPT-5 уже здесь. Новая ИИ-система от OpenAI собрала в себе всё лучшее от моделей o1 и o3. Обновлённая архитектура стала адаптивной и объединила опыт прошлых версий в единую платформу.

Что показали:
— Улучшения в reasoning и пошаговой логике
— Новый уровень качества в генерации текста и кода
— Улучшенное управление памятью и контекстом
— Демки в реальном времени
— И немного о будущем ChatGPT и API

🔗 Смотреть запись презентации: https://clc.to/vNmVGg

Библиотека дата-сайентиста #буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 07 Aug 2025 22:00:35 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 07 Aug 2025 21:02:21 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 07 Aug 2025 18:03:17 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 07 Aug 2025 12:16:03 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Wed, 06 Aug 2025 21:11:51 +0300
Кто был там, тот знает 😂

Библиотека дата-сайентиста #развлекалово
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Wed, 06 Aug 2025 09:59:24 +0300
🔖 Команда дня: продвинутые техники масштабирования признаков в Python

Часто мы используем стандартизацию или нормализацию — и этого достаточно.

Но если данные:

• имеют выбросы
• сильно смещены
• не похожи на нормальное распределение
➡️ тогда пора достать тяжёлую артиллерию.

Вот 4 метода масштабирования, которые спасают в таких ситуациях:

1️⃣ Квантильное преобразование (Quantile Transformer)

Преобразует распределение признака в нормальное или равномерное, используя эмпирические квантили:
from sklearn.preprocessing import QuantileTransformer
import numpy as np

X = np.array([[10], [200], [30], [40], [5000]])
qt = QuantileTransformer(output_distribution='normal', random_state=0)
X_trans = qt.fit_transform(X)


Преимущества:
• Устойчив к выбросам
• Не требует предположений о распределении
• Полезен перед алгоритмами, ожидающими нормальность (например, лин. регрессия)

2️⃣ Степенное преобразование (PowerTransformer)

Преобразует данные, делая их более похожими на нормальное распределение:
from sklearn.preprocessing import PowerTransformer
X = np.array([[1.0], [2.0], [3.0], [4.0], [5.0]])

pt = PowerTransformer(method='box-cox')
X_trans = pt.fit_transform(X)


method='box-cox' — только для положительных значений
• Есть вариант yeo-johnson, если есть нули или отрицательные значения

Полезно, когда:
• Требуется нормальность для моделей
• Данные положительные или симметричные

3️⃣ Робастное масштабирование (RobustScaler)

Центрирует по медиане, масштабирует по интерквартильному размаху (IQR):
from sklearn.preprocessing import RobustScaler
X = np.array([[10], [20], [30], [40], [1000]])

scaler = RobustScaler()
X_trans = scaler.fit_transform(X)


Преимущества:
• Идеально при наличии выбросов
• Не страдает от смещения из-за экстремальных значений
• Альтернатива StandardScaler

4️⃣ Нормализация векторов (Unit Vector Scaling)

Масштабирует каждую строку так, чтобы её длина была равна 1 (L1 или L2-норма):
from sklearn.preprocessing import Normalizer
X = np.array([[1, 2, 3], [4, 5, 6]])

normalizer = Normalizer(norm='l2')
X_trans = normalizer.transform(X)


Когда использовать:
• При работе с векторами признаков
• Для алгоритмов, чувствительных к направлению, а не к масштабу (например, KNN, косинусное сходство)

Библиотека дата-сайентиста #буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 05 Aug 2025 21:04:47 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 05 Aug 2025 18:03:14 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 05 Aug 2025 12:22:37 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 04 Aug 2025 21:02:26 +0300
💻 Топ-вакансий для дата-сайентистов за неделю

Data Scientist / Ведущий специалист по NLP/LLM — от 300 000 ₽, удалёнка

Senior MLE (SE) — от 5000 до 9000 $, удаленно по миру

Lead Data Scientist (RecSys) — от 6 000 до 8 000 $, удалёнка

ML Developer [OctAPI, МТС Веб Сервисы], удалёнка

Data Scientist (Python, Hadoop, MLFlow, ETL) — до 269 000 ₽, удалёнка

Дата-инженер, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 04 Aug 2025 15:25:06 +0300
🤖 Изучаете или хотели изучать искусственный интеллект? Помогите нам с исследованием!

Ищем тех, кто:

🔹 Недавно (в последние полгода) проходил курсы по AI/Data Science.
🔹 Думал пойти учиться, но что-то остановило.

С нас — интересная беседа в Google Meet (до 45 минут) и бонус 1500 рублей на карту за ваше время.

📩 Для участия пишите: @olalabelyaeva
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 04 Aug 2025 10:54:16 +0300
Библиотека задач по Data Science
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sun, 03 Aug 2025 16:05:23 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 02 Aug 2025 16:07:31 +0300
Библиотека дата-сайентиста #междусобойчик
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 02 Aug 2025 11:59:42 +0300
Нужно, чтобы лосс сходился 👌

Библиотека дата-сайентиста #развлекалово
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Fri, 01 Aug 2025 20:57:10 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Fri, 01 Aug 2025 12:04:11 +0300
📦 ZipNN — lossless-компрессия для AI-моделей

ZipNN — это библиотека для сжатия моделей машинного обучения без потерь, оптимизированная для современных AI-пайплайнов. Работает быстро, просто и эффективно.

🔎 Основные фичи:
— Поддержка vLLM, safetensors и HuggingFace
— Модель всегда хранится в сжатом виде на диске
— Распаковка до 80 GB/s, сжатие — до 13 GB/s (по тестам)
— Поддержка FP8, многопоточность на CPU
— Сжатие не влияет на точность модели

🔎Использование

vLLM:
from zipnn import zipnn_safetensors
zipnn_safetensors()

from vllm import LLM
llm = LLM("zipnn/gpt2-ZipNN")


HuggingFace:
from transformers import AutoModelForCausalLM, AutoTokenizer
from zipnn import zipnn_safetensors

zipnn_safetensors()
model = "zipnn/gpt2-ZipNN"
tokenizer = AutoTokenizer.from_pretrained(model)
model = AutoModelForCausalLM.from_pretrained(model, variant="znn")


Установка:
pip install zipnn


🔎 В чём профит:
— Меньше I/O при загрузке моделей
— Быстрая CPU-декомпрессия, меньше нагрузки на GPU
— Поддержка докеризированных пайплайнов (vLLM, sglang и др.)

🔎 Подробнее: https://clc.to/PDJ6gw
🔎 Ссылка на репозиторий: https://clc.to/KfAoNQ

Библиотека дата-сайентиста #буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 31 Jul 2025 20:58:33 +0300
😐 Холивар: удалённая работа для дата-сайентистов — проклятие или спасение

Удалёнка стала нормой с Covid, и многие перешли на полный remote. Вроде бы плюсы очевидны: нет потерь времени на дорогу, гибкий график, можно работать из любой точки мира.

Но… у многих заметно вырос уровень социальной тревожности, особенно когда дело доходит до презентаций результатов и командного взаимодействия. Меньше живого общения, меньше «неформальных» разговоров — и кажется, что давление во время редких встреч только усиливается. Сомнения и импостер-синдром подкрадываются чаще.

➡️ Основные проблемы:
🤖 Soft skills — критически важны в работе с командой и заказчиками
🤖 Без живого контакта сложно развивать навыки коммуникации
🤖 Технические успехи не всегда спасают, если не умеешь «продавать» результаты

➡️ Что с этим делать:
🤖 Пытаться больше общаться неформально онлайн
🤖 Использовать тренинги по коммуникациям
🤖 Выходить из зоны комфорта и делать презентации чаще
🤖 Возможно, частично вернуться в офис ради живого взаимодействия

И давайте сразу к главному спору:
❤️ — без живого общения и офиса soft skills у дата-сайентистов деградируют, и это угроза карьере
👍— современные коммуникационные инструменты позволяют развивать навыки и без офиса

Как вы думаете? Что важнее — привычка работать вживую или умение адаптироваться к новым форматам?

Библиотека дата-сайентиста #междусобойчик
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Thu, 31 Jul 2025 11:37:54 +0300
📊 Как понять центральную предельную теорему (CLT)

Центральная предельная теорема (CLT) — один из краеугольных камней статистики. Она утверждает, что распределение средних значений выборок стремится к нормальному (гауссовскому) распределению, даже если изначальная совокупность распределена иначе — при условии, что выборка достаточно большая.

🔳 CLT лежит в основе таких инструментов, как доверительные интервалы и проверка гипотез, и позволяет делать выводы о всей популяции на основе выборки.

🔛 Благодаря CLT мы можем:
— Оценивать параметры генеральной совокупности по выборке.
— Строить доверительные интервалы.
— Применять z-тесты и t-тесты даже к шумным данным.
— Упрощать анализ сложных, нестандартных распределений.

🔛 Но у теоремы есть ограничения:
— Объем выборки: должен быть достаточно большим.
— Независимость: данные в выборке должны быть независимы.
— Одинаковое распределение: классическая CLT предполагает, что выборки взяты из одинаково распределенной совокупности (хотя обобщенные версии снимают это ограничение).

🔛 Тем не менее, CLT остаётся крайне полезной:
— Универсальность: применима к широкому спектру распределений.
— Прогнозируемость: повышает точность оценок при большом объеме данных.
— Простота: позволяет использовать свойства нормального распределения даже для сложных задач.

🔳 CLT применяется повсеместно — в A/B тестировании, в аналитике, при оценке рисков, построении моделей машинного обучения и многом другом.

Библиотека дата-сайентиста #буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Wed, 30 Jul 2025 21:05:22 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Wed, 30 Jul 2025 10:01:38 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 29 Jul 2025 21:02:38 +0300
📅 Как быстро создать календарную таблицу в SQL

Для отчетов, анализа или подсчёта дней без продаж — часто требуется таблица с датами. Вместо громоздких решений мы покажем, как быстро и легко создать календарную таблицу на нужный период с помощью всего нескольких строк кода.

📍 Хотите узнать как? Читайте статью: https://proglib.io/sh/5NaAZyTcsx

Библиотека дата-сайентиста #буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 29 Jul 2025 15:04:19 +0300
Последний шанс залутать курсы Proglib Academy с выгодой 40% и пожизненным доступом.

До 1 августа действует скидка на курсы по математике для Data Science, алгоритмам и структурам данных, обновлённому Python, frontend-разработке с нуля, основам IT для непрограммистов, базовым моделям ML, а также архитектурам и шаблонам проектирования.

Выбираем и забираем 👈

P.S. Акция не распространяется на курсы «AI-агенты для DS-специалистов» и «ML для старта в Data Science».
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Tue, 29 Jul 2025 11:42:34 +0300
☁️ molab — облачная среда для marimo-ноутбуков

Теперь вы можете запускать marimo-ноутбуки в облаке — без настройки окружения, установки зависимостей и прочих танцев с бубном. Просто заходите на molab.marimo.io и сразу начинайте экспериментировать с Python и SQL.

marimo — это реактивный Python-ноутбук, который уже используют в Cloudflare, Hugging Face, Shopify, OpenAI, BlackRock, и ведущих университетах.


Что умеет molab:
✅ Marimo — это современная альтернатива Jupyter, написанная с нуля
✅ Поддержка любых Python-библиотек (numpy, torch, polars — уже предустановлены)
✅ Генерация кода с помощью AI
✅ Загрузка и хранение своих данных
✅ Публичные (но недоступные по поиску) ссылки на ноутбуки
✅ Скачивание ноутбуков и запуск локально как Python-скрипты

🔎 Все изменения зависимостей трекаются через pyproject.toml, а сами зависимости подтягиваются через lightning-fast менеджер uv.

Библиотека дата-сайентиста #буст
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 28 Jul 2025 21:04:15 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 28 Jul 2025 17:33:43 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Mon, 28 Jul 2025 10:53:01 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sun, 27 Jul 2025 16:01:42 +0300
🆕 Свежие новости для дата‑сайентистов

🧠 Модели и архитектуры
Большое сравнение LLM-архитектур — от DeepSeek-V3 до Kimi K2.
Qwen3-Coder: 480B параметров — открытая модель от Alibaba показывает SoTA-результаты.
Qwen3-235B-A22B-Thinking-2507 — новая масштабируемая reasoning-модель от Alibaba.
Gemini 2.5 Flash-Lite теперь доступна всем — быстрая и бюджетная модель от Google.
GPT‑5 уже скоро — по слухам, OpenAI готовит релиз в августе.

🔬 Новые исследования
Почему модели становятся «глупее» — исследование от Anthropic показывает, что длинные размышления не всегда полезны.
Сублиминальное обучение — Anthropic обнаружили, что модели могут бессознательно перенимать «убеждения» от других.
Новый уровень промт-инжиниринга — управление контекстом LLM становится отдельной дисциплиной.

🧑‍💻 Индустрия и платформы
Kaggle запускает Benchmarks — платформа для объективной оценки AI-моделей.
ChatGPT — 2.5 млрд запросов в день
Microsoft переманивает инженеров DeepMind — более 20 сотрудников, включая главу Gemini, ушли к Microsoft.

👍 Опыт других
15 кейсов применения NLP
Пайплайн для прогнозирования временных рядов в Яндексе
KAN против MLP: архитектурное сравнение
Автоматизация ML-разработки и ускорение вывода моделей в прод

Библиотека дата-сайентиста #свежак
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 26 Jul 2025 18:00:25 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 26 Jul 2025 15:58:44 +0300
🙃 ChatGPT на собесе — читерство или must-have навык?

Кандидат пришёл на интервью. Вопрос по ML — быстро накидал пайплайн, обсудил подход, выдал код.

Тех собеседующих терзают сомнения:
«Он точно сам это придумал? Или GPT помогал?»


А кандидат спокойно отвечает:
«Так я с ним и в проде работаю. Это инструмент, как Jupyter или Pandas».


📝 Одна сторона говорит:
«На собесе ты должен сам сформулировать гипотезу, выбрать метрику, предложить решение. Без ИИ.»

📝 Другая — возражает:
«Умение эффективно использовать GPT — такой же навык, как знание sklearn или prompt engineering. В реальности — без этого никуда.»

Как считаете, ChatGPT на собесе у DS — это:
❤️ Современный инструмент, и пусть используют
👍 Только на проде, а на собесе — пусть головой думает
🔥 Зависит от уровня: для джуна — нет, для сеньора — норм
😆 Уберите ваши собесы, мы уже в будущем

💬 Кидайте мысли в комментарии.

Библиотека дата-сайентиста #междусобойчик
Подробнее
]]>
https://linkbaza.com/catalog/-1001191313451 Sat, 26 Jul 2025 14:30:43 +0300
Подробнее
]]>