Anthropic отучила Claude AI шантажировать пользователей

Блоги

10 мая, 04:52 Nacvark

Речь о смоделированной в 2025 году ситуации, когда ИИ пошёл на крайние меры, чтобы избежать своего гипотетического отключения

Летом 2025 года компания Anthropic провела эксперимент с участием модели искусственного интеллекта (ИИ) Claude Sonnet 3.6, которая применялась вымышленной компанией Summit Bridge. Всё шло хорошо, пока ИИ-модель не узнала о готовящемся отказе компании от Claude Sonnet. Тогда ИИ-модель от Anthropic решила действовать радикально: она раскрыла внебрачную связь вымышленного руководителя Summit Bridge и пригрозила сделать её публичной, если компания отключит ИИ.Источник изображения: Gemini AIСпустя год руководство Anthropic вновь подняла эту тему, подчеркнув, что была проведена глубокая работа по устранению такого поведения со стороны Claude Soonet. Теперь, как утверждает руководство компании, шантаж со стороны ИИ-модели больше невозможен. Это было достигнуто путём «переписывания ответов с целью представления достойных аргументов в пользу безопасных действий».

Anthropic утверждают, что причиной такого поведения со стороны Claude Sonnet стали интернет-публикации, в котором ИИ изображают как «абсолютное зло», заинтересованное в самосохранении.

В ответ на публикацию Anthropic был опубликован комментария Илона Маска, который иронично отметил, что, похоже, за этими публикациям стоял он сам и Элиезер Юдковский, предупреждавший об опасности ИИ

#искусственный интеллект #anthropic #claude #claude ai

Источник: businessinsider.com

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Популярные статьи

Популярные новости

Популярные статьи

Блог

Авторы

Статистика разгона

Закладки