Anthropic отучила Claude AI шантажировать пользователей

Речь о смоделированной в 2025 году ситуации, когда ИИ пошёл на крайние меры, чтобы избежать своего гипотетического отключения

10 мая 2026, воскресенье 04:52

Nacvark для раздела Блоги

Летом 2025 года компания Anthropic провела эксперимент с участием модели искусственного интеллекта (ИИ) Claude Sonnet 3.6, которая применялась вымышленной компанией Summit Bridge. Всё шло хорошо, пока ИИ-модель не узнала о готовящемся отказе компании от Claude Sonnet. Тогда ИИ-модель от Anthropic решила действовать радикально: она раскрыла внебрачную связь вымышленного руководителя Summit Bridge и пригрозила сделать её публичной, если компания отключит ИИ.

Источник изображения: Gemini AIСпустя год руководство Anthropic вновь подняла эту тему, подчеркнув, что была проведена глубокая работа по устранению такого поведения со стороны Claude Soonet. Теперь, как утверждает руководство компании, шантаж со стороны ИИ-модели больше невозможен. Это было достигнуто путём «переписывания ответов с целью представления достойных аргументов в пользу безопасных действий».

Anthropic утверждают, что причиной такого поведения со стороны Claude Sonnet стали интернет-публикации, в котором ИИ изображают как «абсолютное зло», заинтересованное в самосохранении.

В ответ на публикацию Anthropic был опубликован комментария Илона Маска, который иронично отметил, что, похоже, за этими публикациям стоял он сам и Элиезер Юдковский, предупреждавший об опасности ИИ

Перейти к полной версии Комментарии

Anthropic отучила Claude AI шантажировать пользователей

Теги

Лента материалов