Мишин Лернинг 🇺🇦🇮🇱

Telegram t.me web k

Статистика

Вся статистика

7782

Подписчики

Посты (30 дней)

28.72%

ERR%

0.00

Средний охват (сутки)

Язык

Russian

Описание:

Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.

Телеграм канал Мишин Лернинг 🇺🇦🇮🇱 @mishin_learning добавлен на наш сайт 22.05.2022
Информация о канале обновлена 20.11.2025.

Посты

Все посты

Its a good model, sir

https://openai.com/index/gpt-5-1-for-developers/

🕹 SIMA 2: Gemini-агент, который не просто жмёт кнопки, а реально думает

Техническая выжимка DeepMind-поста про SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds

⸻

tl;dr
• SIMA 2 = SIMA 1 + Gemini в качестве мозга: поверх прежнего embodied-агента прилепили мощную LLM/Gemini-модель как «core reasoner».
• Агент видит только экран и жмёт виртуальную клаву/мышь — никакого доступа к внутреннему состоянию игры → «честный» embodied-сетап.
• Учится на смеси человеческих демонстраций + автогенерации анотаций Gemini, дальше переходит к self-play и self-improvement.
• На новых играх (ASKA, MineDojo) SIMA 2 делает ≈45–75% задач vs 15–30% у SIMA 1, и сильно приближается к человеку по успешности задач в тренировочных мирах.
• Умеет мультимодальные запросы (текст, голос, картинки, и тд) и переносит абстрактные концепты типа «майнинг» ↔ «харвестинг» между разными играми.
• Ключевой ресёрч-месседж: масштабная LLM + diverse multi-world data + self-improvement-loop = путь к generalist embodied-агенту.

Теперь long version.

⸻

Что вообще такое SIMA 2?

SIMA 1 был Scalable Instructable Multiworld Agent:
• 600 навыков типа «turn left», «open the map», «climb the ladder»
• разные коммерческие игры
• агент видит только видеопоток и отдаёт команды через эмуляцию клавы/мыши.

SIMA 2 — это больше не «следователь инструкций», а агент с явным reasoning-core на базе Gemini:
• в центр архитектуры вставили Gemini-модель как мозг;
• модель не только декодит текст запроса, но и строит план действий, размышляет о цели и состоянии среды;
• агент умеет объяснять свои намерения и раскладывать план по шагам в диалоге с пользователем.

⸻

Архитектура:

Судя по описанию, внутри — типичный embodied agent stack:

1. Перцепция
• вход: RGB-видео (игровой экран) + текст / голос
• всё это приводится в мультимодальное представление, совместимое с Gemini.

2. Reasoning core (Gemini)
• высокоуровневая формулировку цели;
• описание текущей сцены (через encoder)
• На выходе: план / цепочка действий высокого уровня, плюс объяснения (natural-language trace), что агент собирается сделать.

3. Action-layer
• мост между high-level планом и конкретными нажатиями клавиш и движением мыши;

4. Feedback & training loop
• human demos & language labels (первичный supervised / imitation слой);
• Gemini-генерируемые описания и оценки (pseudo-labels / reward shaping);
• дальше включается self-play и self-improvement (подробно ниже).

Архитектуру они не раскрывают в стиле «вот вам диаграмма Transformer-блоков», но паттерн понятен: LLM-как-мозг + policy-контроллер для embodied-действий, обученный на mixture of imitation + RL-подобный self-improvement.

📼 https://youtu.be/Zphax4f6Rls?si=bbWYx1TJBbSEvu2-

💬 https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

🔍 Выкатили GPT-5.1: больше «мышления», больше личности, меньше сухости

Что нового:
• Улучшение не только в IQ-части (умнее), но и в EQ-части (теплее и эмпатичнее) — OpenAI пишут, что AI should not only be smart, but also enjoyable to talk to. Режима по-прежнему два: Instant и Thinking.

• Персонализация: теперь можно выбирать предустановки тона и стиля (например: Friendly, Professional, Quirky и др.).

Почему это важно
• До этого версия GPT-5 получала смешанные отзывы: технически чуть лучше, но пользователи жаловались на «сухость», недостаток «человечности».

⸻

💬 tl;dr: GPT-5.1 — шаг вперед от GPT-5: разговорный стиль (больше контроля над тоном) + улучшенное следование инструкциям. Но революции ждать не стоит.

👾 https://openai.com/index/gpt-5-1/