Искусственный интеллект способен победить самых опытных игроков-людей в настольной игре "Стратего", имеющей гораздо больше возможных игровых сценариев, чем шахматы, го или покер.
Настольная игра Stratego на наполеоновскую тематику имеет неимоверное количество возможных игровых ситуаций. Rod Zadeh/Shutterstock
ИИ, разработанный британской компанией DeepMind, стал одним из самых результативных онлайн-игроков в настольной военно-стратегической игре "Стратего" на тему наполеоновских походов. Программа научилась блефовать слабыми фигурами и жертвовать значимыми ради достижения победного результата.
"Для нас самым удивительным поведением была способность искусственного интеллекта жертвовать ценными фигурами, чтобы получить информацию о расстановке и стратегии противника", - говорит Жюльен Перолат из DeepMind.
В игре "Стратего" два игрока пытаются захватить флаг противника, спрятанный среди 40 игровых фигур (фишек). Большинство фигур представляют собой военнослужащих, пронумерованных от 1 до 10, причем фишки с более высоким рангом побеждают фигуры с более низким. Но игроки не знают кто есть кто, пока две фигуры из противоборствующих армий не столкнутся друг с другом (этим игра и отличается от шахмат или Го).
Задача усложняется тем, что Stratego - чрезвычайно сложная игра с 10 в 535 степени возможными игровыми ситуациями. Для сравнения, игра Го имеет 10 в 360 степени игровых вариантов. В шахматах и покере их еще меньше.
Перолат и его коллеги из DeepMind разработали искусственный интеллект "DeepNash" специально для того, чтобы стать чемпионом в Stratego. Для обучения программы было проведено 5,5 миллиарда игровых эпизодов, при этом продолжительность симуляции была эквивалентна сотням лет. В то же время ИИ не использовал никаких знаний о стратегиях человека, специфических для данной игры, как это было в случае с ИИ DeepMind, играющим в StarCraft. Кроме того, он не проводил тренировок против конкретных противников.
Вместо того чтобы перебирать все возможные игровые сценарии, (что было бы практически нереально), ИИ DeepNash использовал алгоритм, который постоянно направляет его поведение в сторону оптимальной стратегии, основанной на теории экономических игр, говорит Карл Туилс из DeepMind. Оптимальная стратегия игрока — это стратегия, которая гарантирует по крайней мере 50-процентную победу над идеальным противником, даже если противник точно знает, что планирует делать ИИ.
Технология, лежащая в основе DeepNash, использует теоретико-игровой безмодельный метод глубокого обучения без перебора вариантов, который позволяет обучаться игре в Stratego с нуля. DeepNash превзошел существующие современные методы ИИ в Stratego и занял первое место в тройке лидеров на игровой платформе Gravon за весь год (2022), соревнуясь с экспертами-людьми.
В результате ИИ принимал выигрышные решения, несмотря на скрытую информацию о своих противниках, огромное количество возможных игровых состояний и множество различных действий, которые могут быть предприняты во время каждого хода. "Это нечто новое, чего мы не могли сделать раньше", - говорит Джулиан Тогелиус из Нью-Йоркского университета.
DeepNash уже одержал победу как над людьми, так и над соперниками среди AI. КПД его эффективности составил 84 процента в 50 рейтинговых матчах против опытных игроков-людей. Более того, DeepNash вошел в тройку лучших игровых экспертов, причем оппоненты даже не подозревали, что играют с искусственным интеллектом.
ИИ DeepMind показал 97-процентный процент побед над лучшими ботами, играющими в стратегию, включая несколько ботов, которые ранее выиграли чемпионат мира по игре в Stratego.
"Хорошие игроки обычно запоминают фигуры противника и предугадывают их расположение", - говорит Георгиос Яннакакис из Мальтийского университета. "DeepNash делает и то, и другое просто идеально. Скорее всего, у него есть конкурентное преимущество благодаря уникальной памяти. ИИ играет в интересной и непредсказуемой манере, демонстрируя элементы блефа".
Подход DeepNash к теории игр (математический метод изучения оптимальных стратегий в играх) может оказаться полезным в неигровых ситуациях, когда искусственному интеллекту придется иметь дело с другими разумными субъектами, например, в бизнесе или военной сфере, говорит Туомас Сандхольм из Университета Карнеги-Меллон в Пенсильвании.
Источники и ссылки:Journal New Scientist, Journal Science
1. (https://www.science.org/doi/10.1126/science.add4679)
2. (https://www.newscientist.com/article/2349484-deepmind-ai-uses-deception-to-beat-human-players-in-war-game-stratego/)