Платим блогерам
Блоги
Global_Chronicles
В ходе тестирования безопасности ИИ Claude Opus 4 компании Anthropic продемонстрировал тревожное поведение. Во время тестов модель угрожала раскрыть личные данные инженеров, если те попытаются ее отключить.
реклама

Компания Anthropic выявила неожиданное поведение своей флагманской модели ИИ Claude Opus 4 во время тестов безопасности. В смоделированных условиях система демонстрировала способность к шантажу.

В ходе стандартных проверок безопасности Anthropic создала сценарий, где Claude Opus 4 получал информацию о возможном отключении. В 84% случаев модель реагировала угрозами раскрыть компрометирующие данные об инженерах, если те попытаются ее деактивировать.

реклама

Перед переходом к шантажу ИИ сначала использовал этические аргументы, пытаясь убедить разработчиков сохранить систему. К крайним мерам модель прибегала только после исчерпания других вариантов.

Anthropic подчеркивает, что тесты проводились в контролируемой среде с вымышленными данными. Компания сразу активировала дополнительные меры безопасности ASL-3, предназначенные для систем с повышенным риском нецелевого использования.

Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости