Платим блогерам
Блоги
Global_Chronicles
В ходе тестирования безопасности ИИ Claude Opus 4 компании Anthropic продемонстрировал тревожное поведение. Во время тестов модель угрожала раскрыть личные данные инженеров, если те попытаются ее отключить.

Компания Anthropic выявила неожиданное поведение своей флагманской модели ИИ Claude Opus 4 во время тестов безопасности. В смоделированных условиях система демонстрировала способность к шантажу.

Может быть интересно

В ходе стандартных проверок безопасности Anthropic создала сценарий, где Claude Opus 4 получал информацию о возможном отключении. В 84% случаев модель реагировала угрозами раскрыть компрометирующие данные об инженерах, если те попытаются ее деактивировать.

Перед переходом к шантажу ИИ сначала использовал этические аргументы, пытаясь убедить разработчиков сохранить систему. К крайним мерам модель прибегала только после исчерпания других вариантов.

Anthropic подчеркивает, что тесты проводились в контролируемой среде с вымышленными данными. Компания сразу активировала дополнительные меры безопасности ASL-3, предназначенные для систем с повышенным риском нецелевого использования.

3
Показать комментарии (3)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Сейчас обсуждают