Нейросети, искусство, мысли. Поехали!
tg: @rybolos
Leading 5 teams in R&D
Информация о канале обновлена 16.08.2025.
Нейросети, искусство, мысли. Поехали!
tg: @rybolos
Leading 5 teams in R&D
Скоро начинаем!
🟣https://www.youtube.com/live/XqYTQfQeMrE?si=KFBW2GBouLil_iSI
А как ваше воскресенье проходит?
Воркшопы AGI 2025
Мой opening keynote завтра утром!
🟣https://agi-conf.org/2025/schedule/
Мемотред? #шитпост
Ждём, когда какая-нибудь китайская лаба задистиллит GPT-5 в GPT OSS
Так победим
Поскольку люди иногда уже приходят в комменты и спамят мемами в пятницу независимо от темы, закрепим это достойную традицию и сделаем мемотред! #шитпост
🌸За NAS и вас: AlphaGo Moment for Model Architecture Discovery🌸
#nlp #про_nlp #nlp_papers
На днях вышла статья с очень громким названием "AlphaGo Moment for Model Architecture Discovery".
Статья по-своему интересная, и хоть про нее уже и немного написали (вот и вот), хочется разобрать ее тут более подробно.
🌸TL;DR
Авторы попробовали пойти от классического Neural Architecture Search (NAS), где автоматическим образом происходим поиск возможных комбинаций в рамках указанных человеком рамок, и поставить задачу агентам — таким образом, поиск лучшей архитектуры становится более свободным, и его рамки (solution space) определяет сам агент в рамках вычислительного бюджета.
В рамках выч бюджета в 20,000 GPU-часов, агент провел 1,773 экспериментов, из которых 106 оказались успешными,
и привленсли новизну и небольшое улучшение в linear attention-модели.
🌸Постановка эксперимента
В работе используется мультиагентный сетап: работают вместе агент-исследователь (генерирует идеи на основе статей и предыдущих результатов), агент-инженер (имплементирует и отслеживает ход эксперимента) и агент-аналитик (оценивает результат).
При этом присутствует система промежуточной оценки полученного результата:
Объективное улучшение (измеримое) + качество архитектуры (на основе LLM-judge).
Эксперименты бранчуются один от другого при удачном исходе, образуя граф, и можно проследить наследование наиболее удачных архитектурных изменений, что достаточно удобно.
Эксперименты происходят в 2 этапа: проверка гипотезы на модели в 20M параметров на 1 трлн токенов, и и затем масштабирование на 400М также на 1 трлн токенов.
Безлайн и старт всех экспериментов — DeltaNet 2024 года. При этом все 106 удачных изменений доступны вместе с логами. Читать их быстро становится тяжело! Это комбинаторные изменения порядка разных блоков в основном, и интуиция тут не работает. Никакого "AlphaGo момента" от их прочтения у меня не вышло: скорее сидела вот с таким лицом над логами 😭
Результат — не лосс, а усредненный скор по 7 бенчмаркам: ARC-Challenge, ARC-Easy, BoolQ, HellaSwag, PIQA, Social IQA, WinoGrande.
В конце такого замера авторы даже находят даже линейную зависимость от потраченного компьюта и количества удачных экспериментов (😂), что совершенно логично, ведь сильно бранчеваться графу экспериментов они не дают, и имеют неоптимальный сетап для валидации результата.
🌸Будет ли это работать?
Если отсеить весь пафос статьи, то основных замечания у меня два:
1) компьют и соответственно масштаб моделей, на котором сравниваются архитектуры, слишком мал. Оценивать идеи на моделях в 20М параметров — все равно что гадать на кофейной гуще, разница между результатами будет в пределах погрешности. Модели надо оценивать на основе scaling laws сразу — но для этого нужно распределить компьют соответственно, например, сделать меньше экспериментов, но более качественных и разнообразных. Да и даже если бы просто ничего не менять в работе, а потратить больше бюджета
2) Ablation studies, приведенные, конечно, очень интересные, но почему-то авторы мультиагентных архитектур упорно игнорируют самый очевидный ablation — зачем вообще нам тут нужно три агента? Какой будет результат, если он будет один? А если два, как в SciReplicate? Вопрос количества агентов, их взаимодействия и обучаемого оркестрирования тактически игнорируется уже не в первой статье.
🌸Итоги
Статья сама по себе мне кажется достаточно прикладной, и сам метод работы совершенно адекватным. Как минимум, ее можно использовать, чтоб продемонстировать текущий уровень LLM-агентов — предлагать небольшие архитектурные изменения и их оценивать в рамках заданных условий они могут. Читать и верифицировать эти архитектурные изменения глазами человеку совершенно невозможно — на таком уровне отличие никакой интуиции не хватит.
Уровень удачи агентов — меньше 10% (106 из 1773), тоже о многом говорит. Замечательно, что все под Apache 2.0, включая эксперименты и результаты!
🟣Arxiv https://arxiv.org/abs/2507.18074
🟣Сайт https://gair-nlp.github.io/ASI-Arch/
🟣Github https://github.com/GAIR-NLP/ASI-Arch
Владелец канала не предоставил расширенную статистику, но Вы можете сделать ему запрос на ее получение.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Подтвердите, что вы не робот
Вы выполнили несколько запросов, и прежде чем продолжить, мы ходим убелиться в том, что они не автоматизированные.