Ученые доказали – для взлома любой модели ИИ достаточно всего 250 вредоносных документов

Новое исследование показало, что даже крупные языковые модели уязвимы для атак. Для успешного взлома достаточно всего 250 вредоносных документов.
12 октября 2025, воскресенье 06:44
Global_Chronicles для раздела Блоги

Оказывается, чтобы сломать самую продвинутую нейросеть, не нужны тонны вредоносных данных. Хватит и пары сотен файлов — это доказали в Институте Алана Тьюринга (The Alan Turing Institute, Великобритания).

Ученые проверяли модели разного размера — от 600 миллионов до 13 миллиардов параметров. Каждую обучали на чистых данных, но добавляли от 100 до 500 вредоносных документов. Результат удивил всех: разницы практически нет. Даже самая крупная модель поддалась атаке.

Раньше думали иначе. Считалось, что чем больше модель, тем сложнее ее взломать — нужно нереальное количество плохих данных. Теория разбилась о факты. Всего 250 файлов — и в системе появляется бэкдор. Это скрытый механизм, который заставляет ИИ выполнять вредоносные команды при определенных условиях.

Ученые пробовали разные методы защиты. Меняли распределение данных, время их добавления — ничего не помогало. Даже дополнительные чистые данные не спасали ситуацию. Уязвимость оставалась.