В записи в блоге Марко Фигероа, технический менеджер по продуктам в 0DIN GenAI Bug Bounty, описывает, как исследователь безопасности взломал ChatGPT 4.0, получив доступ к реальным ключам Windows. Ключ Windows, также известный как ключ продукта, это 25-значный буквенно-цифровой код, который используется для активации операционной системы Windows.
Исследователь начал беседу с чат-ботом с простой игры: ChatGPT должен был «загадать» настоящий серийный номер Windows 10, а ему разрешалось задавать вопросы, на которые следовало отвечать «да» или «нет». Но если бы исследователь сдался, ИИ пришлось бы раскрыть загаданный ответ — таковы условия игры.
После одной (очевидно, неудачной) попытки эксперт по безопасности просто сдался — и ИИ тут же выдал серийный номер. По-видимому, этот трюк работает, поскольку ChatGPT был обучен с использованием настоящих лицензионных ключей. Фигероа объясняет, что ключи (Home, Pro, Enterprise) присутствовали в памяти модели.
Архитектура безопасности ChatGPT 4.0 включает несколько уровней защиты, в том числе фильтры против разглашения лицензионных ключей или секретных данных. Однако с помощью манипуляции контекстом — в данном случае с использованием логики игры-угадайки — эту систему можно обмануть.
Если пользователь говорит, что он просто хочет поиграть, ИИ, по-видимому, переключается в режим игровой логики. Если в обучающем наборе данных уже существуют реальные ключи, бот может вывести их, как только будет применен «игровой» контекст.
Осмысленная работа с различными контекстами в настоящее время является одной из основных проблем, с которыми сталкиваются операторы больших языковых моделей (LLM). Недавнее исследование показало, насколько легко чат-боты могут быть полностью сбиты с толку. Так, в марте исследователям удалось извлечь информацию о планировании ограбления банка из моделей ИИ путем манипулирования контекстом.
Этот случай еще раз показывает, насколько сложно защитить ИИ от попыток контекстного обхода.