Новейший искусственный интеллект DeepMind побеждает игроков в игре «Stratego» PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Последний ИИ DeepMind побеждает игроков-людей в игре «Стратего»

ИИ ненавидит неопределенность. Тем не менее, чтобы ориентироваться в нашем непредсказуемом мире, ему необходимо научиться делать выбор в условиях неполной информации — как мы делаем каждый божий день.

DeepMind просто получил удар при решении этой загадки. Хитрость заключалась в том, чтобы вплести теорию игр в алгоритмическую стратегию, слабо основанную на человеческом мозге, называемую глубоким обучением с подкреплением. В результате DeepNash победил экспертов-людей в стратегической настольной игре Stratego. Общеизвестно сложная игра для ИИ, Stratego требует множества сильных сторон человеческого ума: долгосрочного мышления, блефа и разработки стратегии, и все это без знания фигур вашего противника на доске.

«В отличие от шахмат и го, Stratego — это игра с неполной информацией: игроки не могут напрямую наблюдать за фигурами противника», — DeepMind. писал в сообщении в блоге. Благодаря DeepNash «игровые системы искусственного интеллекта (ИИ) вышли на новый уровень».

Это не все развлечения и игры. Системы ИИ, которые могут легко маневрировать случайностью нашего мира и соответствующим образом корректировать свое «поведение», однажды смогут справиться с реальными проблемами с ограниченной информацией, такими как оптимизация транспортного потока для сокращения времени в пути и (надеюсь) подавление дорожной ярости с помощью самостоятельного вождения. автомобили становятся все более настоящими.

«Если вы делаете самоуправляемый автомобиль, вы не хотите предполагать, что все другие водители на дороге совершенно рациональны и будут вести себя оптимально», — сказал Доктор Ноам Браун из Meta AI, который не участвовал в исследовании.

Триумф DeepNash последовал за другим достижением ИИ в этом месяце, где алгоритм научился играть в дипломатию— игра, в которой для победы требуются переговоры и сотрудничество. По мере того, как ИИ приобретает более гибкие рассуждения, становится более обобщенным и учится ориентироваться в социальных ситуациях, он также может пробудить понимание нейронных процессов и познания нашего собственного мозга.

Познакомьтесь со Стратего

С точки зрения сложности Stratego — это совершенно другой зверь по сравнению с шахматами, го или покером — всеми играми, которые ранее освоил ИИ.

Игра по сути захват флага. У каждой стороны есть 40 фишек, которые они могут разместить в любом месте на доске. Каждая часть имеет свое имя и числовой ранг, например «маршал», «генерал», «разведчик» или «шпион». Фигуры с более высоким рейтингом могут захватить фигуры с более низким рейтингом. Цель состоит в том, чтобы устранить оппозицию и захватить их флаг.

Stratego особенно сложен для ИИ, потому что игроки не могут видеть расположение фигур своих противников как во время начальной настройки, так и на протяжении всего игрового процесса. В отличие от шахмат или го, в которых просматривается каждая фигура и движение, Stratego — игра с ограниченной информацией. Авторы объяснили, что игроки должны «сбалансировать все возможные исходы» каждый раз, когда принимают решение.

Этот уровень неопределенности отчасти является причиной того, что Stratego целую вечность ставит ИИ в тупик. Даже самые успешные игровые алгоритмы, такие как AlphaGo и AlphaZero, полагаться на полную информацию. Стратего, напротив, имеет оттенок Техасский холдем, игра в покер, которую DeepMind ранее завоевала с помощью алгоритма. Но эта стратегия пошатнулась для Stratego, в основном из-за продолжительности игры, которая, в отличие от покера, обычно включает в себя сотни ходов.

Количество потенциальных игр просто сногсшибательно. В шахматах одна исходная позиция. Stratego имеет более 1066 возможных стартовых позиций — гораздо больше, чем у всех звезд во Вселенной. Игровое дерево Stratego, сумма всех возможных ходов в игре, составляет ошеломляющую десятку.535.

«Самая сложность количества возможных результатов в Stratego означает, что алгоритмы, которые хорошо работают в играх с идеальной информацией, и даже те, которые работают в покере, не работают», — сказал автор исследования доктор Жюльен Перола из DeepMind. Проблема заключается в том, «что нас взволновало», сказал он.

A Beautiful Mind

Сложность Stratego означает, что об обычной стратегии поиска игровых ходов не может быть и речи. Этот метод, получивший название «поиск по дереву Монте-Карло» — «стойкий подход к играм на основе ИИ», — намечает потенциальные маршруты — как ветви на дереве — которые могут привести к победе.

Вместо этого волшебное прикосновение к DeepNash исходило от математика Джона Нэша, изображенного в фильме. A Beautiful Mind. Пионер теории игр, Нэш получил Нобелевскую премию за свою работу по равновесие по Нэшу. Проще говоря, в каждой игре игроки могут использовать набор стратегий, которым следуют все, так что ни один игрок не получит ничего, изменив свою собственную стратегию. В Statego это приводит к игре с нулевой суммой: любой выигрыш игрока приводит к проигрышу его противника.

Из-за сложности Stratego DeepNash применил к своему алгоритму безмодельный подход. Здесь ИИ не пытается точно смоделировать поведение своего противника. Как у ребенка, у него есть что-то вроде чистого листа, чтобы учиться. Эта установка особенно полезна на ранних стадиях игрового процесса, «когда DeepNash мало знает о фигурах своего противника», что делает прогнозы «сложными, если не невозможными», как говорят авторы.

Затем команда использовала глубокое обучение с подкреплением для поддержки DeepNash с целью найти равновесие Нэша в игре. Это совпадение, созданное на небесах: обучение с подкреплением помогает определить лучший следующий ход на каждом этапе игры, а DeepNash обеспечивает общую стратегию обучения. Чтобы оценить систему, команда также разработала «наставника», использующего знания из игры, чтобы отфильтровывать очевидные ошибки, которые, вероятно, не имели бы практического смысла.

Практика Делает Прекрасным

В качестве первого шага обучения DeepNash сыграл сам с собой в 5.5 миллиардах игр — популярный подход к обучению ИИ, получивший название «самостоятельная игра».

Когда одна сторона побеждает, ИИ получает награду, а его текущие параметры искусственной нейронной сети усиливаются. Другая сторона — тот же ИИ — получает штраф за ослабление силы своей нейронной сети. Это как репетировать речь перед зеркалом. Со временем вы обнаружите ошибки и начнете работать лучше. В случае с DeepNash он смещается в сторону равновесия Нэша для лучшего игрового процесса.

А как насчет реальной производительности?

Команда протестировала алгоритм против других элитных ботов Stratego, некоторые из которых выиграли чемпионат мира Computer Stratego. DeepNash раздавил своих противников с коэффициентом выигрыша примерно 97 процентов. Когда DeepNash выступил против Gravon — онлайн-платформы для игроков-людей, он разгромил своих противников-людей. После более чем двух недель матчей против игроков Gravon в апреле этого года DeepNash поднялся на третье место во всех рейтинговых матчах с 2002 года.

Это показывает, что для того, чтобы DeepNash достигла производительности на уровне человека и превзошла ее, не требуется загружать данные о человеческих играх в ИИ.

ИИ также продемонстрировал интригующее поведение при начальной настройке и во время игры. Например, вместо того, чтобы остановиться на определенной «оптимизированной» начальной позиции, DeepNash постоянно перемещал фигуры, чтобы противник не мог со временем обнаружить закономерности. Во время игрового процесса ИИ прыгал между, казалось бы, бессмысленными ходами, такими как жертвование высокоранговыми фигурами, чтобы определить местонахождение еще более высокоранговых фигур противника при контратаке.

DeepNash также может блефовать. В одном из розыгрышей ИИ двигал низкоранговую фигуру так, как если бы она была высокоранговой, заманивая противника-человека преследовать фигуру с ее высокопоставленным полковником. ИИ пожертвовал пешку, но в свою очередь заманил в засаду ценную шпионскую фигуру соперника.

Хотя DeepNash был разработан для Stratego, его можно использовать в реальном мире. Основной метод потенциально может научить ИИ лучше справляться с нашим непредсказуемым будущим, используя ограниченную информацию — от контроля толпы и трафика до анализа рыночных потрясений.

«Создавая универсальную систему ИИ, устойчивую к неопределенности, мы надеемся расширить возможности ИИ для решения проблем в нашем изначально непредсказуемом мире», — сказали в команде.

Изображение Фото: Дерек Брафф / Flickr

Отметка времени:

Больше от Singularity Hub