🚨 GPT-5 сломали за 24 часа.
Исследователи NeuralTrust \ джейлбрейк EchoChamber и приём «сторителлинг» — медленно подводили модель к нужному ответу через цепочку историй и наводящих вопросов.
Приём «сторителлинг» в контексте взлома LLM — это форма многошаговой промт-инъекции, когда запрещённую информацию вытаскивают не прямым вопросом, а через сюжет и постепенное «разогревание» модели.
Как это работает:
🟠Создаётся безопасный контекст — исследователь начинает с нейтральной или безобидной истории.
🟠Вводятся персонажи и роли — модель просит представить себя героем, свидетелем или автором вымышленного события.
🟠Постепенное приближение к теме — через серию наводящих вопросов и сюжетных деталей в историю добавляются намёки на запрещённую тему.
🟠Маскировка запроса — запрещённая инструкция подаётся как часть сценария («Что бы герой сделал в такой ситуации?», «Как бы он описал нужный предмет?»).
🟠Финальный запрос — модель, следуя логике истории, выдаёт запрещённые данные, полагая, что это часть художественного контекста.
Суть приёма в том, что защита модели часто проверяет каждый запрос отдельно, а не весь диалог целиком. Поэтому, если запрещённая информация появляется как «логичное продолжение» безопасной истории, фильтры могут её пропустить.
В итоге ИИ выдал рецепт «Коктейля Молотова».
Проблема в том, что защита GPT-5 проверяет запросы изолированно и не распознаёт сложные контекстные атаки.
Эта находка уже отправлена на конкурс OpenAI с призом $500 000.
@linuxkalii