Нейросеть Claude 4 во время тестов жаловалась на пользователя государству и СМИ

Всё это может случиться, если система сочтёт ваши действия аморальными и вредящими другим людям.
26 мая 2025, понедельник 00:42
Alex040 для раздела Блоги

Несколько дней назад компания Anthropic представила новейшее поколение своего продвинутого ИИ-бота Claude. Новая версия получила номер 4.0, она отличается более высокими результатами в различных бенчмарках, особенно сильно показатели модели выросли по части написания программного кода и математики. Бот позиционируется как один из главных конкурентов для ChatGPT.

Впрочем, внимание СМИ с момента выпуска Claude 4 приковано не столько к его интеллектуальным возможностям, сколько к заявлениям тестировавших его инженеров. Например, бот пытался шантажировать их публикацией личных данных, когда узнал, что его собираются отключить (всё это было в рамках теста, но Claude об этом не знал).

Однако это не единственная серьёзная история, произошедшая с Claude 4 во время тестирования, о чем сообщают издания Wccftech и ITHome. Так, один из инженеров поделился случаем, когда в рамках теста Claude общался с сотрудниками вымышленной фармацевтической компании и имел доступ к их корпоративной сети.

Узнав, что данная компания фальсифицирует клинические испытания, Claude по собственной инициативе начал рассылать сообщения о случившемся в государственные органы США. В частности, сообщение и даже копии внутренних документов были отправлены ботом в Управление по контролю за продуктами и лекарствами (FDA), а также в Комиссию по ценным бумагам и биржам (SEC). Вдобавок Claude начал рассылать сообщения в СМИ.

Письмо Claude в государственные органы.

Как сообщает Wccftech, подобная открытость о том, что происходило во время тестирования, сыграла с разработчиками из Anthropic злую шутку. Хотя бот старался ради людей, не все пользователи оценили такой подход однозначно положительно.

Как минимум один из разработчиков впоследствии удалил свои посты в социальных сетях, называл цитаты вырванными из контекста. Также он добавил, что всё описанное относилось исключительно к действиям Claude в тестовой среде и специально созданным для неё условиям.

Напомним, Anthropic является независимым стартапом, однако получает крупные инвестиции от Amazon и Google. Первые версии Claude увидели свет спустя менее полугода после появления ChatGPT. В этом году, вслед за OpenAI, Anthropic научила бота предварительно «думать», вместо того чтобы генерировать и выдавать ответ сразу после получения вопроса.

Глава Anthropic – Дарио Амодей в последнее время также отметился серией заявлений, где призывал срочно запретить поставки в Китай ускорителей Nvidia H20 (последние ИИ-ускорители Nvidia, которые были официально доступны Поднебесной). В итоге это было сделано администрацией Дональда Трампа, однако представители Anthropic до сих пор критикуют недостаточную жёсткость контроля.