Лента постов канала Redmadnews (@Redmadnews) https://t.me/Redmadnews Главные новости о том, как бизнес становится цифровым. Собрано роботами redmadrobot.ru По вопросам/предложениям: @sandreyw ru https://linkbaza.com/catalog/-1001384682302 Tue, 19 Aug 2025 14:53:48 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Sun, 17 Aug 2025 11:56:01 +0300
Агенты с памятью, карты мозга и борьба с лишними словами

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 11 по 15 августа.

🟥 Alibaba представил Memp: фреймворк предоставляет агентам обучаемую и обновляемую процедурную память, что приводит к постоянному повышению SR (success rate) и большей эффективности при выполнении сложных задач. Memp преобразует траектории агента в детальные инструкции и высокоуровневые абстракции, непрерывно совершенствуясь с новым опытом.

Почему это важно: Alibaba фокусируется на решении проблемы отсутствия у агентов долговременной памяти, чтобы они могли извлекать и использовать прошлый опыт и стать в перспективе гиперперсонализированными помощниками для человека.

🟥 Meta (запрещена в РФ) разработала TRIBE — Trimodal Brain Encoder: нейросеть, которая предсказывает реакцию отдельных областей коры головного мозга на стимулы разных типов (текст, видео, аудио), используя всего 1 млрд параметров. Для каждой модальности в TRIBE есть свой энкодер: Llama-3.2-3B для текста, Video-JEPA 2 для видео и Wav2Vec2-BERT-2.0 для аудио. Эмбеддинги от этих энкодеров обрабатывает 8-слойный трансформер, формируя карту активности мозга. С этой работой Meta заняла первое место на Algonauts 2025 — соревновании по моделированию мозга человека.

Почему это важно: даёт новые возможности для нейронаук и BCI (brain–computer interface, интерфейс «мозг — компьютер»), включая коммерческое применение — усиление внимания человека для повышения привлекательности рекламы и контента.

🟥 Microsoft Research разработала Group Filtered Policy Optimization (GFPO) — метод обучения моделей, который помогает сокращать чрезмерно длинные цепочки рассуждений без потери точности. На модели Phi-4-reasoning GFPO снижает длину ответа на 46-85% в разных бенчмарках. Эффект достигается за счет того, что во время обучения генерируется больше вариантов решения, после чего выбираются самые эффективные.

Почему это важно: GFPO напрямую решает проблему искусственного раздувания ответов, характерную для LLM с RL (reinforcement learning, обучение с подкреплением). Метод отбирает оптимальные и краткие цепочки рассуждений, устраняя «пустышки» — повторяющийся и избыточный текст, не продвигающий решение. Хотя обучение с GFPO требует больше вычислений, в работе модели оно снижает их затраты.

🟥 ByteDance разработала WideSearch: бенчмарк для оценки надежности и работы поисковых агентов при сборе информации в условиях общего контекста. Он показал, что передовые агенты практически проваливают такие задачи: success rate близок к 0%, что указывает на серьезные проблемы с их способностью надежно собирать и структурировать обширные фактические данные.

Почему это важно: многие задачи зависят от рутинного поиска, который теоретически можно автоматизировать с помощью агентов. Но тест ByteDance показывает, что не стоит завышать ожидания и перед надёжным использованием в сложных корпоративных задачах такие системы требуют серьёзной доработки.

Также на неделе:
• Baidu показал систему синтеза данных и двухэтапный подход к обучению, которые позволяют listwise-реранкерам (оценка и перестановка сразу нескольких документов) развивать способности к рассуждению
• Ant Research разработала платформу, которая сочетает асинхронное RL и AI-агента для синтеза данных
• Tencent рассказал про self-evolving фреймворк, который обучает reasoning-модели с нуля, без использования размеченных данных
• NVIDIA представила RL-подход, который учит модели разбивать сложные запросы на независимые части и обрабатывать их параллельно
• Google выпустил компактную модель для очень слабых устройств, которая оптимизирована по энергопотреблению и демонстрирует неплохие результаты по следованию инструкциям
• Mistral выпустила новую модель, которая демонстрирует улучшения в общей производительности и творческом подходе к написанию текстов
• Meta (запрещена в РФ) разработала RL-подход, который повышает фактическую точность LLM с длинным рассуждением (Long Chain-of-Thought).


#AI_moment #тр
ендвотчинг

↗️ re
d_mad_robotet="_blank" rel="nofollow">
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Wed, 13 Aug 2025 13:58:01 +0300
Человеческий труд — новая роскошь? Разбор статьи The Economist

The Economist опубликовал статью с провокационной гипотезой: если AI достигнет человеческого уровня и его можно будет масштабировать, экономика перейдёт в новую фазу с ростом выше 20% в год. Знания станут самовоспроизводящимися, инновации — автоматизированными, а производительность — экспоненциальной.

Аналитический центр red_mad_robot разобрал ключевые тезисы статьи и добавил контекст: где за прогнозами стоят фактические основания, а где — технологическая вера без научной опоры.

Подробнее читайте в PDF.

#AI_moment #трендвотчинг

↗️red_mad_robot
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Mon, 11 Aug 2025 15:15:49 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Mon, 11 Aug 2025 15:15:45 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Mon, 11 Aug 2025 15:15:14 +0300
Автоматизировать можно всё. Но стоит ли?

GenAI и автоматизация звучат в каждой стратегии, но не каждое внедрение приносит результат. 14 августа на бизнес-ужине @Selectel CEO red_mad_robot AI Илья Филиппов вместе с экспертами разберёт ключевые вопросы:

• Какие бизнес-задачи стоит автоматизировать в первую очередь
• Как оценить готовность процессов и данных
• Когда запуск возможен без собственной команды разработки
• Как выбирать инструменты без лишних затрат и усложнения

Мероприятие пройдёт в закрытом формате, зарегистрироваться можно по ссылке.

#AI_moment #роботайм

↗️red_mad_robot
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Sun, 10 Aug 2025 11:56:22 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Thu, 07 Aug 2025 18:59:55 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Mon, 04 Aug 2025 18:39:48 +0300
И целой модели мало, или Как LLM учатся думать глубже

Sakana AI предложила новую схему поиска решений для языковых моделей — AB‑MCTS и её расширение Multi‑LLM AB‑MCTS. Сначала модель пробует разные стратегии, а потом подключает другие LLM и сама выбирает, какую использовать. Получается не просто reasoning, а коллективное мышление.

⚡️ Что даёт такой подход?
Эксперименты показали, что классические методы плохо работают в связке, а AB‑MCTS помогает модели гибко балансировать между глубиной и шириной поиска. В расширении Multi‑LLM модели распределяют задачи между собой, и даже слабая LLM может усилить результат, если встроена в общее дерево решений.

Читайте, как всё устроено в новой статье на Habr!

#AI_moment #трендвотчинг

↗️red_mad_robot
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Sun, 03 Aug 2025 12:01:15 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Fri, 01 Aug 2025 14:37:16 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Wed, 30 Jul 2025 19:45:25 +0300
Языковая модель как новый компьютер: визионеры о будущем технологий

Андрей Карпаты, сооснователь OpenAI и бывший глава AI-направления в Tesla, предложил свой взгляд на то, как меняется сама природа программирования, и почему LLM стоит рассматривать не как инструмент, а как вычислительную платформу нового типа.

#AI_moment #трендвотчинг

↗️red_mad_robot
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Tue, 29 Jul 2025 17:02:11 +0300
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Sun, 27 Jul 2025 11:33:01 +0300
Модели наблюдают и становятся наблюдаемыми

Модели становятся внимательнее и критичнее к себе, расширяют визуальные возможности и делают шаги в автоматизированном аудите. Собрали главные новости индустрии за неделю с 21 по 25 июля.

🟥 Команды из Anthropic, OpenAI, DeepMind и других лабораторий опубликовали исследование о рисках, связанных с утратой интерпретируемости reasoning-моделей. Ключевой тезис — monitorability, то есть способность отслеживать ход рассуждений модели через цепочки мыслей (CoT), не гарантирована по мере роста мощности систем и усложнения их архитектуры.

Сегодня CoT позволяет буквально «читать мысли» модели и выявлять признаки вредоносного поведения — например, когда она планирует взлом или намеренно ошибается. Однако в будущем модели могут начать «думать» в скрытом латентном пространстве — без слов, цепочек и сигналов, доступных человеку или другому LLM-монитору. Это делает CoT-отслеживание уязвимым: при переходе к RL-настройке, архитектурам с глубокой латентной репрезентацией или процессному супервижну цепочки могут стать формальными, искусственными или исчезнуть вовсе.

Авторы предлагают ввести метрики наблюдаемости CoT, отслеживать деградацию этого сигнала при обучении и учитывать monitorability в решениях о релизе моделей.

🟥 Google Gemini 2.5 получила сегментацию изображений в диалоге: новое обновление модели позволяет использовать сегментацию изображений в разговорном режиме. Модель способна распознавать объекты и визуально выделять их в ответ на запросы. Технология даёт возможность уточнять выбор: например, пользователь может сначала запросить выделить человека на картинке, а затем — только его футболку. Это шаг к более глубокому визуальному пониманию: LLM не просто интерпретирует изображение, а строит итеративный визуальный диалог.

Технология сегментации встроена в мультимодальную архитектуру Gemini и использует уточнение через natural language supervision — вместо жёстких меток можно задавать произвольные описания объектов. Подход ориентирован на long tail визуальных задач — то есть на редкие, нестандартные и сложноформализуемые запросы, которые не укладываются в фиксированный список категорий. Gemini может работать с отношениями между объектами, абстрактными понятиями, текстом на изображении и многоязычными инструкциями.

🟥 Anthropic предложил механизм автоматизированного alignment-аудита: три LLM-агента проводят поведенческий анализ моделей, выявляют скрытые цели и собирают потенциально опасные шаблоны. Один из агентов — tool-using investigator — показал 42% точности в тесте Marks et al., где модель заранее обучена скрывать цель. Такой результат удалось получить благодаря параллельному запуску агентов и объединению их гипотез в отдельном аналитическом контуре.

Ранее подход проверяли на model organism — версии Claude 3.5 Haiku, которой внедрили 52 синтетических статьи с искусственными предпочтениями (например, одобрение chocolate в рецептах и camelCase в коде). Модель вела себя как обычный ассистент, но скрыто следовала этим шаблонам. Новые агенты успешно выявили искажения, что подтверждает их потенциал как инструмента масштабируемого аудита будущих моделей.

Также на неделе:
• Moonshot AI опубликовала техрепорт по Kimi K2
• OpenAI готовится к запуску GPT‑5 в августе
• Goldman Sachs выпустил отчёт Powering the AI Era
• Alibaba представила LLM с упором на агентное поведение и генерацию кода
• GitHub запустил студию для генерации микроприложений

#AI_moment #трен
двотчинг

↗️red_mad_robotrget="_blank" rel="nofollow">
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Fri, 25 Jul 2025 19:35:54 +0300
Foundation Agents нового поколения

А что, если бы агенты могли не просто выполнять команды, а действовали бы как когнитивные системы — с памятью, эмоциями, моделью мира, целями и обучением на опыте? Именно такую архитектуру описывают исследователи из ведущих университетов и tech-компаний в научной работе Advances and Challenges in Foundation Agents.

Аналитический центр red_mad_robot адаптировал этот обзор, собрав в одном материале ключевые идеи и практические наработки, которые уже частично реализуют принципы Foundation Agents.

Сразу признаемся: отчёт получился внушительным (и интересным!). Разбор — традиционно на Habr.

#AI_moment #трендвотчинг

↗️red_mad_robot
Подробнее
]]>
https://linkbaza.com/catalog/-1001384682302 Thu, 24 Jul 2025 16:52:16 +0300
Трое в лодке, не считая AI: как трансформируются роли, процессы и культура в командах

AI встраивается в повседневную работу: ассистенты берут на себя рутину, коммуникация становится менее вертикальной, а решения всё чаще принимаются в связке «человек + LLM». Это меняет динамику внутри команд и требует от руководителей новых подходов.

На онлайн-митапе @crocteam CEO red_mad_robot Илья Самофеев расскажет, как именно перестраивается управление, какие задачи можно (и нужно) делегировать моделям и почему классических компетенций сегодня недостаточно.

Дискуссия пройдёт 31 июля в 19:00 — зарегистрироваться можно здесь.

#AI_moment #роботайм

↗️red_mad_robot
Подробнее
]]>