Платим блогерам
Блоги
Global_Chronicles
Новое исследование показало, что даже крупные языковые модели уязвимы для атак. Для успешного взлома достаточно всего 250 вредоносных документов.

Оказывается, чтобы сломать самую продвинутую нейросеть, не нужны тонны вредоносных данных. Хватит и пары сотен файлов — это доказали в Институте Алана Тьюринга (The Alan Turing Institute, Великобритания).

Ученые проверяли модели разного размера — от 600 миллионов до 13 миллиардов параметров. Каждую обучали на чистых данных, но добавляли от 100 до 500 вредоносных документов. Результат удивил всех: разницы практически нет. Даже самая крупная модель поддалась атаке.

Может быть интересно

Раньше думали иначе. Считалось, что чем больше модель, тем сложнее ее взломать — нужно нереальное количество плохих данных. Теория разбилась о факты. Всего 250 файлов — и в системе появляется бэкдор. Это скрытый механизм, который заставляет ИИ выполнять вредоносные команды при определенных условиях.

Ученые пробовали разные методы защиты. Меняли распределение данных, время их добавления — ничего не помогало. Даже дополнительные чистые данные не спасали ситуацию. Уязвимость оставалась.

Источник: ithome.com
1
Показать комментарии (1)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Сейчас обсуждают