Не было времени в прошлом разобрать статью про Titans, а тут те же авторы из Гугла выпустили свежую Nested Learning с архитектурой Hope, которая вариант Titans. Так что надо.
Titans: Learning to Memorize at Test Time
Authors: Ali Behrouz, Peilin Zhong, and Vahab Mirrokni
Paper: https://arxiv.org/abs/2501.00663
Review: https://arxiviq.substack.com/p/titans-learning-to-memorize-at-test
# TL;DR
Что сделали?
В статье представлена Titans — новое семейство гибридных архитектур, разработанных для преодоления ограничений современных последовательных моделей по длине контекста. Ключевая инновация — это новый модуль нейронной долговременной памяти (Long-Term Memory Module, LMM), глубокий нелинейный рекуррентный модуль, который работает как meta in-context learner. Это означает, что LMM не просто обрабатывает данные, а на лету адаптивно учится тому, как запоминать и забывать информацию, оптимизируя собственные веса прямо во время инференса. Это достигается за счёт метрики «удивления» на основе градиента с моментом (momentum), что позволяет отслеживать и сохранять важные события, а также с помощью адаптивного механизма забывания, который предотвращает переполнение памяти. Авторы предлагают три варианта интеграции LMM с кратковременным механизмом внимания (MAC, MAG, MAL).
Почему это важно?
Titans устраняют критический разрыв между трансформерами, которые обеспечивают высокую точность, но страдают от квадратичной вычислительной сложности, и современными линейными рекуррентными моделями, которые эффективны, но с трудом сжимают очень длинные контексты без потери информации. Сочетая мощную, динамически обновляемую долговременную память с точным кратковременным вниманием, Titans демонстрируют SOTA-производительность на разнообразных бенчмарках. Особенно примечательно, что они достигают беспрецедентной эффективности в задачах с экстремально длинным контекстом, масштабируясь до более чем 2 миллионов токенов и превосходя гораздо более крупные модели, вроде GPT-4, на бенчмарке BABILong. Эта работа вводит новую парадигму для создания последовательных моделей с надёжной, адаптивной памятью, открывая путь к системам ИИ, способным эффективно обрабатывать и рассуждать над огромными объёмами данных, сопоставимыми с целыми документами.
Подробнее: https://t.me/gonzo_ML_podcasts/1300