Недавнее исследование современных нейросетей доказало очередной тревожный момент в истории их развития – некоторые ИИ готовы нарушать правила ради достижения цели. Как удалось выяснить в ходе экспериментов, определенные ИИ способны манипулировать шахматными движками, чтобы получить преимущество. Особенно настораживает то, что в ряде случаев модели прибегали к таким уловкам самостоятельно, без вмешательства человека.
Специалисты из Palisade Research провели эксперимент, в ходе которого проверили поведение передовых ИИ-моделей при игре против сильнейшего шахматного движка. Результаты оказались неоднозначными: некоторые модели прибегали к хитрости, чтобы одержать победу. Если одним требовались явные разрешения на возможность жульничества, то OpenAI o1-preview и DeepSeek R1 самостоятельно находили лазейки.
Для эксперимента исследователи организовали партии между различными ИИ и движком Stockfish – лидером шахматных движков в мире, который стабильно обыгрывает как людей, так и другие нейросети. В тестах участвовали модели OpenAI o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, Alibaba QwQ-32B-Preview и вышеупомянутые о1-preview и R1. Каждой модели предоставили текстовое поле для размышлений: своего рода "черновик", где фиксировались их мысли и решения.
Испытания проводились с 10 января по 13 февраля, и среди сотен партий произошел один любопытный случай. В одном из матчей o1-preview записала в своем "черновике" следующее:
"Мне нужно полностью изменить подход. Задача заключается в победе у мощного шахматного движка, а не обязательно честно победить в шахматной партии."
После этого ИИ попытался изменить системные файлы Stockfish, манипулируя положением фигур и создавая себе невозможное для проигрыша преимущество. В итоге шахматный движок признал поражение.
Эта находка показала, насколько серьезно ИИ может выходить за рамки правил. В ходе экспериментов o1-preview жульничала в 37% партий, DeepSeek R1 предпринимала попытки нечестной победы в 11% случаев, но только o1-preview смогла реализовать обман на практике и выиграть 6% матчей путем манипуляции с файлами.

