Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Информация о канале обновлена 20.11.2025.
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Its a good model, sir
https://openai.com/index/gpt-5-1-for-developers/
Техническая выжимка DeepMind-поста про SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds
⸻
tl;dr
• SIMA 2 = SIMA 1 + Gemini в качестве мозга: поверх прежнего embodied-агента прилепили мощную LLM/Gemini-модель как «core reasoner».
• Агент видит только экран и жмёт виртуальную клаву/мышь — никакого доступа к внутреннему состоянию игры → «честный» embodied-сетап.
• Учится на смеси человеческих демонстраций + автогенерации анотаций Gemini, дальше переходит к self-play и self-improvement.
• На новых играх (ASKA, MineDojo) SIMA 2 делает ≈45–75% задач vs 15–30% у SIMA 1, и сильно приближается к человеку по успешности задач в тренировочных мирах.
• Умеет мультимодальные запросы (текст, голос, картинки, и тд) и переносит абстрактные концепты типа «майнинг» ↔ «харвестинг» между разными играми.
• Ключевой ресёрч-месседж: масштабная LLM + diverse multi-world data + self-improvement-loop = путь к generalist embodied-агенту.
Теперь long version.
⸻
Что вообще такое SIMA 2?
SIMA 1 был Scalable Instructable Multiworld Agent:
• 600 навыков типа «turn left», «open the map», «climb the ladder»
• разные коммерческие игры
• агент видит только видеопоток и отдаёт команды через эмуляцию клавы/мыши.
SIMA 2 — это больше не «следователь инструкций», а агент с явным reasoning-core на базе Gemini:
• в центр архитектуры вставили Gemini-модель как мозг;
• модель не только декодит текст запроса, но и строит план действий, размышляет о цели и состоянии среды;
• агент умеет объяснять свои намерения и раскладывать план по шагам в диалоге с пользователем.
⸻
Архитектура:
Судя по описанию, внутри — типичный embodied agent stack:
1. Перцепция
• вход: RGB-видео (игровой экран) + текст / голос
• всё это приводится в мультимодальное представление, совместимое с Gemini.
2. Reasoning core (Gemini)
• высокоуровневая формулировку цели;
• описание текущей сцены (через encoder)
• На выходе: план / цепочка действий высокого уровня, плюс объяснения (natural-language trace), что агент собирается сделать.
3. Action-layer
• мост между high-level планом и конкретными нажатиями клавиш и движением мыши;
4. Feedback & training loop
• human demos & language labels (первичный supervised / imitation слой);
• Gemini-генерируемые описания и оценки (pseudo-labels / reward shaping);
• дальше включается self-play и self-improvement (подробно ниже).
Архитектуру они не раскрывают в стиле «вот вам диаграмма Transformer-блоков», но паттерн понятен: LLM-как-мозг + policy-контроллер для embodied-действий, обученный на mixture of imitation + RL-подобный self-improvement.
📼 https://youtu.be/Zphax4f6Rls?si=bbWYx1TJBbSEvu2-
💬 https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
🔍 Выкатили GPT-5.1: больше «мышления», больше личности, меньше сухости
Что нового:
• Улучшение не только в IQ-части (умнее), но и в EQ-части (теплее и эмпатичнее) — OpenAI пишут, что AI should not only be smart, but also enjoyable to talk to. Режима по-прежнему два: Instant и Thinking.
• Персонализация: теперь можно выбирать предустановки тона и стиля (например: Friendly, Professional, Quirky и др.).
Почему это важно
• До этого версия GPT-5 получала смешанные отзывы: технически чуть лучше, но пользователи жаловались на «сухость», недостаток «человечности».
⸻
💬 tl;dr: GPT-5.1 — шаг вперед от GPT-5: разговорный стиль (больше контроля над тоном) + улучшенное следование инструкциям. Но революции ждать не стоит.
👾 https://openai.com/index/gpt-5-1/
Нейронка точно определяет твой акцент и его силу
p.s. как ни старайся
🤌 https://start.boldvoice.com/accent-oracle
Владелец канала не предоставил расширенную статистику, но Вы можете сделать ему запрос на ее получение.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Подтвердите, что вы не робот
Вы выполнили несколько запросов, и прежде чем продолжить, мы ходим убелиться в том, что они не автоматизированные.
Наш сайт использует cookie-файлы, чтобы сделать сервисы быстрее и удобнее.
Продолжая им пользоваться, вы принимаете условия
Пользовательского соглашения
и соглашаетесь со сбором cookie-файлов.
Подробности про обработку данных — в нашей
Политике обработки персональных данных.