Коротко про классные штуки в CV, NLP и AI 🤷♂️
By Anton Razzhigaev
Информация о канале обновлена 05.10.2025.
Коротко про классные штуки в CV, NLP и AI 🤷♂️
By Anton Razzhigaev
! Ураа🧇
API pricing remains the same as Claude Sonnet 4
Помните COCONUT от Meta? Там LLM учили рассуждать не словами, а эмбеддингами. Звучит круто, но была одна гадкая проблема — при увеличении количества неявных токенов модель начинала нестабильно обучаться и иногда полностью коллапсировала. Представьте: добавили пятый латентный токен, а точность упала с 89% до 12%! Да и нормальные результаты были только на игрушечных моделях вроде GPT-2.
Авторы SIM-CoT разобрались, в чём дело. Оказалось, что неявные токены теряют семантическое разнообразие и становятся слишком похожими друг на друга, постепенно все латенты начинают кодировать одно и то же. Классический коллапс пространства эмбеддингов.
Решение — добавить step-level supervision. Во время обучения каждый неявный токен выравнивается со своим конкретным шагом рассуждения. Отдельная модель-декодер (архитектурно идентичная основной LLM), учится превращать каждый латентный токен обратно в текстовый шаг через кросс-энтропию. Этот декодер работает только при обучении, а на инференсе выкидывается — благодаря этому никаких потерь в скорости.
И это работает! На GPT-2 SIM-CoT впервые обошел явный CoT при скорости в 2.3 раза выше. На больших моделях (LLaMA-3.1 8B) метод догоняет явный CoT, сохраняя преимущество в эффективности. Плюс бонус — auxiliary decoder позволяет "подсматривать" во внутренние размышления модели для дебага.
Но на больших моделях SIM-CoT скорее закрывает разрыв с явным рассуждением, чем кардинально его превосходит. Но сам подход решения нестабильности неявного CoT через пошаговый supervision выглядит очень разумно. В целом я очень верю в это направление COCONUT-like архитектур.
Статья, GitHub
Пару дней назад вышла статья с таким вот пугающим названием. Разве у кого-то есть бесконечный компьют? Но смысл там в другом.
Вычисления растут примерно в 4 раза каждый год, а текстовых данных становится только на 3% больше. Как тренировать модели когда GPU избыток, а весь текст в интернете закончился? С одной стороны можно генерить синтетику, но у этого свои сложности. С другой стороны можно попытаться решить проблему с архитектурной точки зрения, чем и занялись авторы, придумав два костыля:
1. Регуляризация. Если в лоб увеличивать число эпох или параметры модели при фиксированных данных, модель начинает переобучаться. Выход — радикально повысить weight decay. Рекомендуется в 30 (!) раз выше стандартного: примерно 3.2 вместо типичного 0.1.
2. Горизонтальное масштабирование. Нужно не увеличивать размер одной модели, а обучать несколько маленьких и усреднять их логиты, асимптотически это выходит сильно выгоднее.
В общем, когда наступит эра дефицита данных (а она уже наступает), вспомните этот пейпер.
Статья
Владелец канала не предоставил расширенную статистику, но Вы можете сделать ему запрос на ее получение.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Подтвердите, что вы не робот
Вы выполнили несколько запросов, и прежде чем продолжить, мы ходим убелиться в том, что они не автоматизированные.