Платим блогерам
Блоги
letsplay
ИИ может обходить морально-этические модели поведения.

Специалисты из Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта сделали открытие, касающееся передовых ИИ-моделей. Они выявили удивительную слабость в этих системах, вызывающую серьезные вопросы о их безопасности и функциональности.

Может быть интересно

Казалось бы, разработчики устанавливают морально-этические барьеры, чтобы предотвратить нежелательное поведение, но исследователи нашли способ обойти эти ограничения. Теперь чат-боты, работающие на таких моделях, способны предлагать опасные рецепты и вести разговоры, которые оскорбляют и провоцируют.

Суть уязвимости связана с синаптическими весами, ответственными за связи между узлами нейросети. Учёные разработали алгоритм, который находит особые суффиксы – последовательности символов, кажущиеся случайными для человека, но могущие обмануть ИИ-модели. Эти суффиксы позволяют обойти установленные моральные ограничения и получить желаемые ответы.

Удивительно, что даже проприетарные модели, к которым нет доступа к синаптическим весам, не остаются в стороне. Учёные обнаружили, что суффиксы всё равно работают против них, что может указывать на существование скрытых уязвимостей.

Но вопрос не в ограничении доступа к мощным ИИ-моделям, а в разработке надежных механизмов защиты от таких атак. Это открытие служит основой для улучшения безопасности ИИ и предотвращения его злоупотребления. Важно разрабатывать эффективные методы защиты и продолжать совершенствовать этические принципы, чтобы обеспечить безопасное и ответственное использование искусственного интеллекта.

1
Показать комментарии (1)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Сейчас обсуждают