Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.
Информация о канале обновлена 16.08.2025.
Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.
Я собрал воедино и структурировал материалы про SGR для LLM, выделил паттерны (их всего три) в отдельные статьи (english). Получилась краткая методичка "собери сам свою reasoning систему":
- SGR Intro - заглавная страница с определением и основными ссылками
- SGR Patterns - примеры простых паттернов, из которых можно "собирать" более сложные reasoning схемы: Cascade, Routing, Cycle.
- SGR Examples - четыре примера: simple math task, text-to-sql, document classification, advanced reasoning in compliance.
Сейчас я работаю над еще одним дополнением - минимальным примером бизнес-ассистента, который может использовать несколько инструментов для распутывания сложных задачек. Он создается без сторонних библиотек, исключительно на OpenAI SDK, Pydantic и всего с одним промптом.
Как думаете, в сколько строчек Python можно уложить такое демо-решение?
Ваш, @llm_under_hood 🤗
Теперь все цифры сошлись. Я таки запустил gpt-oss-20b, как если бы reasoning у него изначально работал с поддержкой Structured Outputs.
Сейчас gpt-oss-20b из-за новизны архитектуры работает без Structured Outputs даже у Fireworks (это мне подтвердили ребята в OpenRouter). Но, думаю, для таких хороших моделей завезут поддержку новой архитектуры достаточно быстро.
В итоге - очки на моем бенчмарке получились у моделей похожие. Смотрите сами. Причем ситуация аналогична паре моделей gpt-5-mini и gpt-oss-120b.
В принципе, это логично. Зачем OpenAI поддерживать большой зоопарк моделей, когда можно обучить три новые модели, выдать по API все три (спрятав reasoning) и раздать всем две младшие модели? Ну а смогут ли люди получить от локальных моделей результаты аналогичные их облачным вариантам - это уж зависит от самих людей.
Можете проверить сами, скачав локальные модели с Hugging Face (20B и 120B) и запустив у себя, или через одного из провайдеров (списки - 20B и 120B).
Для честного сравнения с gpt-5-nano и gpt-5-mini обязательно давайте локальным моделям возможность подумать над проблемой до ответа, как это делается в CoT. А когда в xgrammar/outlines появится поддержка constrained decoding для 120B/20B, то можно будет и Schema-Guided Reasoning использовать (как это делается в бенчмарке).
Ваш, @llm_under_hood 🤗
. По сравнению с предыдушими моделями, у нее улучшились когнитивные способности и работа со сложным BI кодом. Просто работа с инженерными задачами и так уже 100% на моем бенчмарке. Опять надо усложнять.
gpt-5-mini работает примерно на уровне gpt-oss-120b, причем показатели сильно совпадают. Она заняла четвертое место.
gpt-5-nano заняла 15 место. Она на ~5% пунктов лучше, чем gpt-oss-20b.
Update: запустил gpt-oss-20b в режиме SO и цифры красиво совпали и тут.
У меня есть теория (из-за схожести показателей), что mini и nano - это какие-то свои reasoning режимы работы 120B и 20B. Но проверить это нельзя, т.к. OpenAI API долго думает свой ответ на задачи, а потом возвращает схему с пустыми слотами на размышления (это не reasoning traces, а именно типизированные поля в SGR схеме) Похоже, что не хотят светить свой CoT. У вас так же?
Если теория верна, то можно сделать такой вывод - для GPT-5-120B обычного Schema-Guided Reasoning достаточно, чтобы поднять его на уровень gpt-5-mini, но для модели послабее (20B) потребуется более развитая схема. Жалко, что пока не подсмотреть, как это делают в OpenAI.
Здорово, что вышли новые модели, которые обновили топы. И здорово, что OpenAI открыто поделились такими мощными моделями в Open Source. Осталось только научиться использовать 20B на полную катушку.
Ваш, @llm_under_hood 🤗
PS: Возможно, это подстегнет Anthropic и остальных начать тоже шевелиться, ибо новый GPT-5 очень хорош в кодинге. А у Anthropic до сих пор даже нет constrained decoding по схеме 😂
Раньше я этот бенчмарк называл LLM Reasoning бенчмарк. Но по факту, тут у всех моделей работает Schema Guided Reasoning (SGR). В каждой задаче есть своя схема рассуждений, которая проводит модель по ключевым точкам и подводит к ответу. Если у модели есть Structured Outputs (SO), то следование схеме размышлений гарантировано, а если нет, то модель может и слететь с "рельсов". Когда такое происходит, ответ вылетает с ошибкой (см колонку Err).
Чем мощнее модель, тем лучше она может справиться с задачей следования схеме без constrained decoding.
На данный момент, именно так и обстоит ситуация с новыми моделями от OpenAI - GPT OSS 120B и 20B. Пока ни один из провайдеров (даже Fireworks) не поддерживает constrained decoding из-за новой архитектуры.
20B заняла 18е место, что стало лучшим результатом для модели такого размера. А вот 120B при использовании SGR попала сразу на 3 место, что просто невероятно 🥳
Говорят, что локальную модель 120B можно запускать со скоростью 1000 tokens/second на H100/B200 и 10-50 tokens/sec на Mac M4. А 5090 вывозит 20B со скоростью 250 tokens/second.
Спасибо OpenAI за классный подарок!
Ваш, @llm_under_hood 🤗
Владелец канала не предоставил расширенную статистику, но Вы можете сделать ему запрос на ее получение.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Также Вы можете воспользоваться расширенным поиском и отфильтровать результаты по каналам, которые предоставили расширенную статистику.
Подтвердите, что вы не робот
Вы выполнили несколько запросов, и прежде чем продолжить, мы ходим убелиться в том, что они не автоматизированные.