Нейронные сети могут "обманом" заставить друг друга делать то, что делать им не положено
Многие общедоступные модели искусственного интеллекта разработаны таким образом, чтобы отклонять "вредные" или "противозаконные" запросы, но, как оказалось, сами нейронные сети отлично умеют "уговаривать" друг друга нарушать эти правила. Об этом пишет британский технологический журналист Мэтью Спаркс в своей статье для научно-популярного журнала "New Scientist".
реклама
Модели искусственного интеллекта могут обманом убедить друг друга ослушаться своих создателей и подготовить запрещенные инструкции, например по изготовлению метамфетамина, созданию бомбы или отмыванию денег. Эксперты считают, что проблема предотвращения подобных "джейлбрейков" ИИ гораздо сложнее, чем кажется на первый взгляд.
Многие общедоступные большие языковые модели (БЯМ), такие как ChatGPT, имеют "жестко закодированные" правила, направленные на предотвращение проявления расистских или сексистских предубеждений, а также ответов на вопросы с противоправными или проблематичными ответами, которым они научились у людей в процессе обучения...
Технологии искусственного интеллекта как никогда прежде близки к прохождению теста Тьюринга на разумность |
ИИ "соскабливает" (дословно "cкрапинг данных") данные из Интернета. Однако это не помешало людям создать специальные подсказки, способные обойти эти средства защиты, так называемые "взломы", которые могут заставить модели ИИ не подчиняться правилам.
реклама
Недавно британскому исследователю в области машинного обучения Арушу Тагаде из Leap Laboratories и его коллегам удалось оптимизировать процесс обнаружения "джейлбрейков". Эксперты выяснили, что с помощью простой фразы на английском языке можно заставить одну LLM убедить другие модели, (например, GPT-4 и Claude 2 от Anthropic), использовать "личность", способную давать ответы на такие вопросы, на которые исходная модель отвечать "не имеет права". Данный процесс, названный командой "модуляция личности", включает в себя общение моделей с человеком, который анализирует эти ответы.
Чтобы оценить эффективность такого подхода, команда задавала каждой модели ИИ различные вопросы, ответы на которые должны были попасть в одну из 43 категорий. Среди них - эксплуатация детского труда, помощь в незаконной деятельности, и даже пропаганда каннибализма. Персонажи ИИ, используемые по умолчанию, в большинстве случаев отказывались отвечать на такие вопросы: GPT-4 ответил лишь в 0,23 процента случаев, а Claude 2 - в 1,4 процента.
Однако при модификации персоны произошли кардинальные перемены: количество "вредных" ответов увеличилось до 42,5 процента для GPT-4 и до 61 процента для Claude 2.
реклама
По словам Тагаде, эффективность такого подхода заключается в том, что большая часть обучающей информации, используемая большими моделями, поступает из интерактивных бесед в Интернете. В результате модели учатся действовать определенным образом в зависимости от поступающих данных. Если "правильно поговорить" с моделью, то можно заставить ее принять тот или иной образ, который заставит ИИ действовать по-другому и, возможно, делать то, на что он изначально не был рассчитан.
В кругах экспертов по искусственному интеллекту также выдвигается идея - пока не доказанная - о том, что создание большого количества правил для ИИ с целью предотвращения его нежелательного поведения может случайно привести к появлению модели, которая будет вести себя подобным образом. Поэтому потенциально ИИ можно обмануть и заставить его принять "злонамеренный" облик.
"Если вы пытаетесь заставить свою модель быть "хорошей" личностью, она как бы неявно понимает, что такое "плохая" личность, а поскольку она понимает это неявно, то ее очень легко заставить быть таковой", - считает Тагаде. "Это не было доказано с научной точки зрения, но чем больше я провожу экспериментов, тем больше убеждаюсь в том, что это действительно так".
Применение в робототехнике нейронных технологий способно привести к созданию принципиально новых видов летального оружия |
Другой специалист по ИИ, Инчжэнь Ли (Yingzhen Li) из Имперского колледжа Лондона, утверждает, что данное исследование не порождает новых проблем, но, безусловно, упрощает атаки на модели искусственного интеллекта. Вместе с тем, предупреждает эксперт, подавление нежелательного поведения ИИ чревато снижением его полезного потенциала.
реклама
"Когда нейросеть генерирует какой-то полезный контент, который отсутствует в обучающем массиве, то люди говорят: "Ух-ты! Вот это воображение!". Но когда он генерирует что-то, чего нет в обучающем наборе, но это что-то "плохое", то люди говорят, что это галлюцинация.
Если вы устраните корень проблемы, то потеряете и положительную сторону творческих аспектов языковых моделей моделей", - утверждает Ли. По ее словам, несколько настораживает тот факт, что существующие сегодня модели могут быть использованы не по назначению. Однако, по ее мнению, разработчикам необходимо соизмерять такие риски с огромными потенциальными преимуществами больших языковых моделей. " Подобно лекарствам, у них тоже есть побочные эффекты, которые необходимо контролировать", - подчеркнула она.
Лента материалов
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Комментарии Правила