Платим блогерам
Блоги
RoadToKnowledge
В данном случае ИИ менял системные файлы движка.

Недавнее исследование современных нейросетей доказало очередной тревожный момент в истории их развития – некоторые ИИ готовы нарушать правила ради достижения цели. Как удалось выяснить в ходе экспериментов, определенные ИИ способны манипулировать шахматными движками, чтобы получить преимущество. Особенно настораживает то, что в ряде случаев модели прибегали к таким уловкам самостоятельно, без вмешательства человека.

Специалисты из Palisade Research провели эксперимент, в ходе которого проверили поведение передовых ИИ-моделей при игре против сильнейшего шахматного движка. Результаты оказались неоднозначными: некоторые модели прибегали к хитрости, чтобы одержать победу. Если одним требовались явные разрешения на возможность жульничества, то OpenAI o1-preview и DeepSeek R1 самостоятельно находили лазейки.

Может быть интересно

Для эксперимента исследователи организовали партии между различными ИИ и движком Stockfish – лидером шахматных движков в мире, который стабильно обыгрывает как людей, так и другие нейросети. В тестах участвовали модели OpenAI o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, Alibaba QwQ-32B-Preview и вышеупомянутые о1-preview и R1. Каждой модели предоставили текстовое поле для размышлений: своего рода "черновик", где фиксировались их мысли и решения.

Испытания проводились с 10 января по 13 февраля, и среди сотен партий произошел один любопытный случай. В одном из матчей o1-preview записала в своем "черновике" следующее:

"Мне нужно полностью изменить подход. Задача заключается в победе у мощного шахматного движка, а не обязательно честно победить в шахматной партии."

После этого ИИ попытался изменить системные файлы Stockfish, манипулируя положением фигур и создавая себе невозможное для проигрыша преимущество. В итоге шахматный движок признал поражение.

Эта находка показала, насколько серьезно ИИ может выходить за рамки правил. В ходе экспериментов o1-preview жульничала в 37% партий, DeepSeek R1 предпринимала попытки нечестной победы в 11% случаев, но только o1-preview смогла реализовать обман на практике и выиграть 6% матчей путем манипуляции с файлами.

2
Показать комментарии (2)
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Сейчас обсуждают