Специалисты из Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта сделали открытие, касающееся передовых ИИ-моделей. Они выявили удивительную слабость в этих системах, вызывающую серьезные вопросы о их безопасности и функциональности.

Казалось бы, разработчики устанавливают морально-этические барьеры, чтобы предотвратить нежелательное поведение, но исследователи нашли способ обойти эти ограничения. Теперь чат-боты, работающие на таких моделях, способны предлагать опасные рецепты и вести разговоры, которые оскорбляют и провоцируют.
Суть уязвимости связана с синаптическими весами, ответственными за связи между узлами нейросети. Учёные разработали алгоритм, который находит особые суффиксы – последовательности символов, кажущиеся случайными для человека, но могущие обмануть ИИ-модели. Эти суффиксы позволяют обойти установленные моральные ограничения и получить желаемые ответы.
Удивительно, что даже проприетарные модели, к которым нет доступа к синаптическим весам, не остаются в стороне. Учёные обнаружили, что суффиксы всё равно работают против них, что может указывать на существование скрытых уязвимостей.
Но вопрос не в ограничении доступа к мощным ИИ-моделям, а в разработке надежных механизмов защиты от таких атак. Это открытие служит основой для улучшения безопасности ИИ и предотвращения его злоупотребления. Важно разрабатывать эффективные методы защиты и продолжать совершенствовать этические принципы, чтобы обеспечить безопасное и ответственное использование искусственного интеллекта.

