Подразделение Google (DeepMind), занимающееся исследованиями в области искусственного интеллекта, опубликовало третью версию фреймворка «Frontier Safety Framework». Внутренние правила оценки рисков учитывают опасность, выходящую далеко за рамки известных так называемых «галлюцинаций», то есть фактически неверных ответов моделей ИИ.
Новые положения фокусируются на риске распространения «несогласованного ИИ» (misaligned AI). Речь идёт о системе, которая не просто совершает непреднамеренные ошибки, но активно и целенаправленно действует вопреки интересам или указаниям операторов-людей.
Исследователи компании выделяют весьма конкретные риски. Главная проблема заключается в том, что этот ИИ может отказаться отключаться или начнёт выдавать заведомо ложные результаты для достижения своих непостижимых для людей целей.
Фреймворк также предупреждает о других критических сценариях. В частности, о возможности кражи данных о процессе обучения ИИ-моделей. Злоумышленники могут затем снять защиту и использовать систему для разработки вредоносного ПО или даже биологического оружия. Также вызывает опасения появление ИИ, который специально обучен систематически манипулировать убеждениями людей. Учитывая эмоциональную связь пользователей с чат-ботами, такой сценарий вполне возможен.
Чтобы предотвратить подобное развитие событий, эксперты в настоящее время рекомендуют отслеживать «ход мыслей» ИИ. Современные модели часто регистрируют свои логические промежуточные шаги в своего рода блокноте, который можно автоматически проверить на наличие признаков обмана. Однако этот подход имеет свои ограничения. Сами авторы отчёта признают, что будущие, более продвинутые модели ИИ, возможно, смогут делать сложные выводы, не раскрывая этот процесс для тщательного изучения.
Это исключит важнейший метод контроля. Как сообщает Decrypt, актуальность проблемы была подчеркнута экспериментами, в которых ИИ научился саботировать собственный код завершения работы. Исследователи DeepMind признают, что у них пока нет решения этой будущей проблемы. Поэтому публикацию фреймворка можно рассматривать как признание разработчиков: они осознают одну из самых серьёзных потенциальных опасностей своей технологии, но пока не нашли надёжного способа её полного устранения.

