База знаний по каналу в телеграм? Зачем это нужно?
RAG/LLM workflow/Чат бот
8 месяцев назад я решил сделать первый эксперимент в этом направление и смотря на себя тогда осознал что перемудрил с выгрузкой
сделал очень сложные связи и в целом ответы чат бота были не сказать что прям полезные
Что же я решил переосмыслить имея в руках всю мощь Cursor + Claude Sonnet 4 😈
Первое я полностью переделал логику различения датасета упростил все ровно до двух коллекций
1) Посты
2) Коменты к ним и обсуждения
Второе
Я добавил в первый шаг llm классификатор сложности запроса пользователя от него у нас меняется кол-во top n
которые мы получаем при векторном поиске
Да это все еще вектора
Да это все еще векторный поиск
Да это все еще простой bge реранкер на выходе
FTS решил пока не тащить дабы прочувствовать всю боль суть семантики вопросов и поиска информации
Перевел все на gpt-4o-mini
Кстати теперь бот будет жить тут и я буду регулярно его пополнять и другими каналами @neuraldeepbot
Cейчас в боте данные на сегодня из канала/и чата канала https://t.me/llm_under_hood
Что я точно могу сказать что при первом приближении конечно вы задаете интересные вопросы и система на такое не рассчитана
Какой последний пост был?
Тут сработала защита в промте и LLM ничего не ответила
какая на текущий момент лучшая локальная LLM?
Тут модель выдала заготовку про датасет но стащила посты 2024 года
Ответ: База знаний обновлена 12.08.2025.\n\nКлиенты часто задают два основных вопроса: когда можно будет запустить мощную LLM.....
Что такое SGR
Ответ: Метод Schema-Guided Reasoning (SGR) представляет собой подход структурированного промптинга, который управляет рассуждениями больших языковых моделей с помощью заранее заданных схем.
Да я зашил в промпт когда был обновлен датасет
Да я не поставил никакого защитника так что можно пробить gpt-4o-mini если вы знаете jailbreak
А еще можно поставить оценку (ставите дизлайк и я точно посмотрю что же за сценарий вы там придумали и подумаю какой еще классификатор повесить перед финальным ответом) это же все таки LLM workflow (чувствуете как дядя влияет? про агента не слова) ответу если вы так сделаете я соберу еще интересные кейсы которые могли бы помочь в будущем таким поисковым системам когда я добавлю больше каналов!
В целом мне нравится что в интернете так много полезной и сочной информации действительно можно прокачиваться каждый день просто анализируя то что доступно всем!