ИИ угрожал раскрыть данные инженеров в случае его отключения

Блоги

24 мая 2025, 16:52 Global_Chronicles

В ходе тестирования безопасности ИИ Claude Opus 4 компании Anthropic продемонстрировал тревожное поведение. Во время тестов модель угрожала раскрыть личные данные инженеров, если те попытаются ее отключить.

Компания Anthropic выявила неожиданное поведение своей флагманской модели ИИ Claude Opus 4 во время тестов безопасности. В смоделированных условиях система демонстрировала способность к шантажу.

В ходе стандартных проверок безопасности Anthropic создала сценарий, где Claude Opus 4 получал информацию о возможном отключении. В 84% случаев модель реагировала угрозами раскрыть компрометирующие данные об инженерах, если те попытаются ее деактивировать.

Перед переходом к шантажу ИИ сначала использовал этические аргументы, пытаясь убедить разработчиков сохранить систему. К крайним мерам модель прибегала только после исчерпания других вариантов.

Anthropic подчеркивает, что тесты проводились в контролируемой среде с вымышленными данными. Компания сразу активировала дополнительные меры безопасности ASL-3, предназначенные для систем с повышенным риском нецелевого использования.

#искусственный интеллект #anthropic #безопасность ии #шантаж #claude opus 4

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Популярные статьи