Коротко про классные штуки в CV, NLP и AI 🤷♂️
Автор: @razzant
Информация о канале обновлена 20.08.2025.
Коротко про классные штуки в CV, NLP и AI 🤷♂️
Автор: @razzant
Опубликовали препринт новой работы! Помните Large Concept Model (LCM) от Meta, которая генерирует текст через предсказание sentence-level эмбеддингов? Крутая идея, но диффузионное обучение там было весьма геморройным, а MSE лосс работал так себе.
Мы решили оставить "мышление" в пространстве SONAR эмбеддингов (это такой мощный автоэнкодер от Meta, который сжимает целое предложение в один вектор d=1024 и умеет почти без потерь восстанавливать его обратно), но вернуть привычный token-level cross-entropy через замороженный декодер. По сути, модель предсказывает эмбеддинг следующего предложения, прогоняет его через замороженный SONAR декодер, и получает градиенты от обычной кроссэнтропии по токенам.
Такой гибридный подход избавляет от диффузионного семплера LCM, но сохраняет семантическую абстракцию. На практике SONAR-LLM показал лучшие scaling laws, чем оригинальные LCM, и заметно обогнал их в качестве генерации по базовым метрикам — от оценки через оракулов, до NLG бенчмарков и суммаризации.
Про инференс: выигрыш приходит на длинных контекстах. До ~4k токенов обычные архитектуры выигрывают, а дальше SONAR-LLM устойчиво впереди, потому что моделирует цепочку предложений, а не токенов. Сложность по FLOPs близка к линейной вплоть до ~1M.
Все веса, код и скрипты для воспроизведения выложили в открытый доступ.
Статья, GitHub
Владелец канала не предоставил расширенную статистику, но Вы можете сделать ему запрос на ее получение.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Подтвердите, что вы не робот
Вы выполнили несколько запросов, и прежде чем продолжить, мы ходим убелиться в том, что они не автоматизированные.