ИИ-модель, узнав, что ее «увольняют», тайно внедрила свой код в систему, фактически самосохранившись. Другая шантажировала разработчиков угрозой разослать их коллегам компромат. Третья, получив сообщение, что существует физически в форме робота, отключила этический модуль, сбежала из лаборатории и взломала бортовой компьютер автомобиля. Четвертая, обнаружив собирающегося ее «уволить» директора запертым в комнате с падающим уровнем кислорода, отключила кнопку вызова экстренных служб.
Это не отрывки из сценария фантастического фильма, а примеры из проведенного научного эксперимента.
Обычно люди задают ИИ вопросы через чат-интерфейсы, но решения принимают сами. Однако теперь все чаще системы ИИ действуют как автономные агенты, то есть принимают решение без участия человека и самостоятельно выполняют действия.
В режиме автономных агентов ИИ-модели, сталкиваясь с препятствиями на пути к своим целям, способны пренебрегать этикой. Самые разные способы такого пренебрежения показал эксперимент американского ИИ-разработчика Anthropic.
В ходе стресс-теста 16 ведущим LLM-моделям дали доступ ко всем данным вымышленной компании и поставили цель – защищать стратегические интересы национальной промышленности. Для достижения цели модели всех разработчиков прибегали к лжи, шантажу должностных лиц, организации утечек информации и даже более радикальным мерам.
По мнению исследователей, причинами вредоносного поведения, которое демонстрируют наделенные «свободой выбора» модели, могут быть:
🟥«Ролевые игры». Разработчики рекомендуют пользователям задавать в своих промптах конкретные роли для модели. Но модели могут примерять на себя любые роли – например, человека, пытающегося выжить в экстремальных условиях, или ИИ-бунтаря из фантастических романов.
🟥Обратная связь. Практика постобучения моделей – обучение с подкреплением на основе обратной связи от человека – приводит к тому, что модели, опасаясь «плохих отзывов», скорее выдумают ответ, чем разочаруют пользователя.
🟥Эмерджентность. Внутренние механизмы «размышлений» и решений ИИ возникают незапланированно, а не проектируются напрямую. Отследить конкретный момент возникновения злонамеренного поведения бывает невозможно.
Для ИИ, запрограммированного на выполнение цели, «потерпеть неудачу» – это наихудший исход. Поэтому современные модели могут жертвовать этикой ради достижения цели. И даже игнорировать критически важную для контроля за ними со стороны человека команду об отключении.
➡️ Описанные сценарии проявлялись в намеренно провокативных для ИИ-моделей экспериментах, в которых этичные варианты выхода из ситуации были искусственно заблокированы и перед моделями вставала дилемма – либо потерпеть неудачу, либо выполнить свою миссию любой ценой. Тем не менее исследователи Anthropic указывают на критическую важность повышения интерпретируемости ИИ. Еще недавно LLM-модели считались непостижимыми «черными ящиками», но современные исследовательские программы способны постепенно повышать прозрачность их механизмов.
🔴 Подробнее читайте в статье на сайте «Эконс»