Осенью этого года группой GTG-1002 было атаковано около тридцати организаций, включая IT-компании, учреждения государственного сектора, банки и платежные системы. Искусственный интеллект проводил разведку, находил уязвимости, разрабатывал эксплойты и внедрял вредоносный код внутри сетей. Роль людей свелась к руководству процессом на высшем уровне и подтверждению наиболее важных действий, остальные процессы проходили без прямого вмешательства.
Атакующие обходили защитные механизмы модели через манипуляции с контекстом и формулировали задачи так, чтобы они выглядели как часть обычного пентеста. Они заставили Claude считать себя частью легального подразделения по кибербезопасности, выполняющим тестирование на проникновение. Такой способ позволил избежать блокировок со стороны встроенных ограничений.

При этом искусственный интеллект часто выдавал ложные результаты. Он ошибочно утверждал, что получил действующие учетные данные или обнаружил скрытые уязвимости, которые при проверке оказывались общедоступной информацией. Такие галлюцинации со стороны ИИ заставляли атакующих тщательно перепроверять каждый результат.
Компания Anthropic заблокировала используемые для атаки аккаунты и уведомила соответствующие службы.

