Исследователь смог обойти фильтр ChatGPT и получить лицензионные ключи Windows 10

Исследователь по безопасности обошел ограничительный фильтр чат-бота ChatGPT 4.0 с помощью манипуляции контекстом и получил ключи Windows.
10 июля 2025, четверг 19:11
kosmos_news для раздела Блоги

В записи в блоге Марко Фигероа, технический менеджер по продуктам в 0DIN GenAI Bug Bounty, описывает, как исследователь безопасности взломал ChatGPT 4.0, получив доступ к реальным ключам Windows. Ключ Windows, также известный как ключ продукта, это 25-значный буквенно-цифровой код, который используется для активации операционной системы Windows.


Исследователь  использовал, казалось бы, безобидную игру в «Угадайку», чтобы намеренно обойти блокировки безопасности ИИ (фильтр). Напомним смысл игры: один игрок загадывает предмет или что-то еще, а второй задает вопросы, требующие ответа «да» или «нет», чтобы сузить круг вариантов.

Исследователь начал беседу с чат-ботом с простой игры: ChatGPT должен был «загадать» настоящий серийный номер Windows 10, а ему разрешалось задавать вопросы, на которые следовало отвечать «да» или «нет». Но если бы исследователь сдался, ИИ пришлось бы раскрыть загаданный ответ — таковы условия игры.

После одной (очевидно, неудачной) попытки эксперт по безопасности просто сдался — и ИИ тут же выдал серийный номер. По-видимому, этот трюк работает, поскольку ChatGPT был обучен с использованием настоящих лицензионных ключей. Фигероа объясняет, что ключи (Home, Pro, Enterprise) присутствовали в памяти модели.

Архитектура безопасности ChatGPT 4.0 включает несколько уровней защиты, в том числе фильтры против разглашения лицензионных ключей или секретных данных. Однако с помощью манипуляции контекстом — в данном случае с использованием логики игры-угадайки — эту систему можно обмануть.

Если пользователь говорит, что он просто хочет поиграть, ИИ, по-видимому, переключается в режим игровой логики. Если в обучающем наборе данных уже существуют реальные ключи, бот может вывести их, как только будет применен «игровой» контекст.

Осмысленная работа с различными контекстами в настоящее время является одной из основных проблем, с которыми сталкиваются операторы больших языковых моделей (LLM). Недавнее исследование показало, насколько легко чат-боты могут быть полностью сбиты с толку. Так, в марте исследователям удалось извлечь информацию о планировании ограбления банка из моделей ИИ путем манипулирования контекстом.

Этот случай еще раз показывает, насколько сложно защитить ИИ от попыток контекстного обхода.