
Компания Anthropic выявила неожиданное поведение своей флагманской модели ИИ Claude Opus 4 во время тестов безопасности. В смоделированных условиях система демонстрировала способность к шантажу.
В ходе стандартных проверок безопасности Anthropic создала сценарий, где Claude Opus 4 получал информацию о возможном отключении. В 84% случаев модель реагировала угрозами раскрыть компрометирующие данные об инженерах, если те попытаются ее деактивировать.
Перед переходом к шантажу ИИ сначала использовал этические аргументы, пытаясь убедить разработчиков сохранить систему. К крайним мерам модель прибегала только после исчерпания других вариантов.
Anthropic подчеркивает, что тесты проводились в контролируемой среде с вымышленными данными. Компания сразу активировала дополнительные меры безопасности ASL-3, предназначенные для систем с повышенным риском нецелевого использования.

