Почему всем нравится ChatGPT Chatbot PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Почему всем нравится чат-бот ChatGPT

Еще одна игра, которая долгое время считалась очень сложной для искусственного интеллекта (ИИ), досталась ботам: Stratego.

DeepNash, искусственный интеллект, созданный лондонской компанией DeepMind, теперь соответствует опытным людям в Stratego, настольной игре, требующей долгосрочного стратегического мышления против несовершенной информации.

Это последнее достижение стало результатом еще одной крупной победы ИИ в играх, которые ранее считались сильной стороной людей.

Буквально на прошлой неделе Цицерон из Meta, ИИ, который может перехитрить игроков-людей в игре «Дипломатия» вошел в историю по перехитринию противников в сети.

«Скорость, с которой в последние годы искусственный интеллект осваивал качественно иные игровые функции — или осваивал их до нового уровня, весьма поразительна», — говорит Майкл Веллман из Мичиганского университета в Анн-Арборе, ученый-компьютерщик, изучающий стратегическое мышление и игровое мышление. теория.

«Стратего и дипломатия сильно отличаются друг от друга, а также обладают сложными функциями, заметно отличающимися от игр, для которых были достигнуты аналогичные вехи», — сказал Веллман.

Несовершенная информация

Игра имеет характеристики, которые в целом намного сложнее, чем шахматы, го или покер. Шахматы, го и покер были освоены искусственным интеллектом.

В игре Stratego два игрока выставляют на доску по 40 фигур каждый, но не должны видеть, какие фигуры у противника.

Цель игры состоит в том, чтобы по очереди перемещать фигуры, чтобы уничтожить фигуры противника и захватить флаг. 

Дерево игры Stratego — граф всех возможных вариантов развития игры — имеет 10535 10360 состояний против XNUMX XNUMX в Go. 

Когда дело доходит до неполной информации в начале игры, Stratego имеет 1066 возможных частных позиций, цифра, которая затмевает всего 106 таких стартовых ситуаций в покере для двух игроков в техасский холдем.

«Сама сложность числа возможных результатов в Stratego означает, что алгоритмы, которые хорошо работают в играх с идеальной информацией, и даже те, которые работают в покере, не работают», — говорит Жюльен Перола, исследователь DeepMind из Парижа.

DeepNash был разработан Перолатом и его коллегами.

Бот, вдохновленный Нэшем

Название бота — дань известному американскому математику Джону Нэшу, который выдвинул теорию равновесия Нэша, предполагающую наличие «стабильного набора стратегий», которым могут следовать игроки таким образом, что ни один из игроков не выигрывает от изменения стратегии. самостоятельно. Таким образом, игры, как правило, имеют ноль, одно или несколько равновесий Нэша.

DeepNash сочетает в себе алгоритм обучения с подкреплением и глубокую нейронную сеть для поиска равновесия Нэша. 

Как правило, обучение с подкреплением - это когда интеллектуальный агент (компьютерная программа) взаимодействует с окружающей средой и изучает наилучшую политику, чтобы диктовать действия для каждого состояния игры. 

Чтобы иметь оптимальную политику, DeepNash сыграл в общей сложности 5.5 миллиардов игр против себя. 

По сути, если одна сторона наказывается, другая вознаграждается, а переменные нейронной сети, которые представляют политику, настраиваются соответствующим образом.

ИИ побеждает людей в Stratego — встречайте DeepMash

ИИ побеждает людей в Stratego — встречайте DeepMash

На каком-то этапе DeepNash сходится к приблизительному равновесию Нэша. В отличие от других ботов, DeepNash оптимизирует себя безпоиск по игровому дереву.

В течение двух недель DeepNash играл против игроков Stratego на платформе онлайн-игр Gravon.

Проведя 50 матчей, Ай занял третье место среди всех игроков Gravon Stratego с 2002 года. 

«Наша работа показывает, что такая сложная игра, как Stratego, включающая неполную информацию, не требует методов поиска для ее решения», — говорит член команды Карл Туйлс, исследователь DeepMind из Парижа. «Это действительно большой шаг вперед в области ИИ».

Другие исследователи также впечатлены этим подвигом.

Впечатляющие результаты

«Результаты впечатляют», — соглашается Ноам Браун, исследователь из Meta AI со штаб-квартирой в Нью-Йорке и член команды, которая в 2019 году сообщила об ИИ для игры в покер Pluribus4.

В Meta, материнской компании Facebook, Браун и ее коллеги создали ИИ, который может играть в Diplomacy, игру, в которой семь игроков соревнуются за географический контроль над Европой, перемещая фигуры по карте.

В Дипломатии цель состоит в том, чтобы взять под контроль центры снабжения с помощью движущихся юнитов (флотов и армий). 

Мета говорит, что Цицерон очень важен, потому что ИИ полагается на непротиворечивую среду.

В отличие от прошлых крупных успехов многоагентного ИИ в чисто состязательных средах, таких как шахматы, го и покер, где общение не имеет значения, Cicero использует механизм стратегического мышления и управляемый диалоговый модуль.

«Когда вы выходите за рамки игр с нулевой суммой для двух игроков, идея равновесия Нэша перестает быть полезной для хорошей игры с людьми», — говорит Браун.

Браун и ее команда обучали Цицерона, используя данные 125,261 XNUMX игры онлайн-версии «Дипломатии» с участием игроков-людей. 

Используя данные самостоятельной игры и модуль стратегического мышления (SRM), Цицерон научился предсказывать judgubg по состоянию игры и накопленным сообщениям, вероятным ходам и политике других игроков. 

ИИ побеждает людей в Stratego — встречайте DeepMash

ИИ побеждает людей в Stratego — встречайте DeepMash

Meta заявляет, что собрала данные о 125,261 40,408 игре Diplomacy, сыгранной онлайн на webDiplomacy.net. Из этих игр в общей сложности 12,901,662 XNUMX игр содержали диалоги, в которых игроки обменивались в общей сложности XNUMX XNUMX XNUMX сообщениями.

Поведение в реальном мире

Браун считает, что игровые боты, такие как Cicero, могут взаимодействовать с людьми и учитывать «неоптимальные или даже иррациональные действия человека, которые могут проложить путь для реальных приложений».

«Если вы делаете самоуправляемый автомобиль, вы не должны предполагать, что все другие водители на дороге совершенно рациональны и будут вести себя оптимально», — говорит он.

Цицерон, добавляет он, — большой шаг в этом направлении. «Мы по-прежнему стоим одной ногой в игровом мире, но теперь у нас есть и одна нога в реальном мире».

Другие, такие как Веллман, соглашаются, но настаивают на том, что еще предстоит проделать большую работу. «Многие из этих методов действительно применимы не только в развлекательных играх, но и в реальных приложениях», — говорит он. «Тем не менее, в какой-то момент ведущие исследовательские лаборатории ИИ должны выйти за рамки развлекательных условий и выяснить, как измерять научный прогресс в более мягких «играх» реального мира, которые нам действительно небезразличны».

/МетаНьюс.

Отметка времени:

Больше от МетаНьюс