Найновіший штучний інтелект від DeepMind перемагає людей-гравців у грі «Stratego» PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Найновіший штучний інтелект від DeepMind перемагає гравців у грі «Stratego»

ШІ ненавидить невизначеність. Проте, щоб орієнтуватися в нашому непередбачуваному світі, йому потрібно навчитися робити вибір з недосконалою інформацією, як ми робимо щодня.

DeepMind просто вдарив ножем при вирішенні цієї головоломки. Хитрість полягала в тому, щоб вплести теорію ігор в алгоритмічну стратегію, яка базується на людському мозку і називається глибоким навчанням з підкріпленням. У результаті DeepNash переміг людей-експертів у надзвичайно стратегічній настільній грі Stratego. Завідомо складна гра для штучного інтелекту, Stratego вимагає багатьох сильних сторін людської кмітливості: тривалого мислення, блефу та вироблення стратегії, не знаючи фігур суперника на дошці.

«На відміну від шахів і Го, Stratego — це гра з недосконалою інформацією: гравці не можуть безпосередньо спостерігати за фігурами свого суперника», — DeepMind пише у дописі в блозі. Завдяки DeepNash «ігрові системи штучного інтелекту (AI) вийшли на новий рівень».

Це не всі розваги та ігри. Системи штучного інтелекту, які можуть легко маневрувати випадковістю нашого світу та відповідним чином коригувати свою «поведінку», одного разу зможуть вирішувати проблеми реального світу за допомогою обмеженої інформації, наприклад, оптимізувати потік транспорту, щоб скоротити час у дорозі та (сподіваємось) вгамувати гнів на дорозі, оскільки автомобілебудування автомобілі стають все більш присутніми.

«Якщо ви створюєте безпілотний автомобіль, ви не хочете вважати, що всі інші водії на дорозі абсолютно раціональні та поводитимуться оптимально», сказав Доктор Ноам Браун з Meta AI, який не брав участі в дослідженні.

Тріумф DeepNash став слідом за ще одним досягненням ШІ цього місяця, де алгоритм, навчений грати в дипломатію— гра, яка вимагає переговорів і співпраці для перемоги. Оскільки штучний інтелект набуває більшої гнучкості міркувань, стає більш узагальненим і вчиться орієнтуватися в соціальних ситуаціях, він також може спровокувати розуміння нейронних процесів і пізнання нашого власного мозку.

Зустрічайте Stratego

З точки зору складності, Stratego є зовсім іншим звіром порівняно з шахами, го або покером — усіма іграми, які раніше опанував ШІ.

По суті гра полягає в захопленні прапора. Кожна сторона має 40 частин, які можна розмістити в будь-якому місці на дошці. Кожна частина має іншу назву та числове звання, наприклад «маршал», «генерал», «розвідник» або «шпигун». Фігури вищого рангу можуть захопити нижчі. Мета — усунути опозицію та захопити їхній прапор.

Stratego є особливо складним для ШІ, оскільки гравці не можуть бачити розташування фігур своїх опонентів як під час початкового налаштування, так і протягом ігрового процесу. На відміну від шахів або го, у яких кожна фігура та рух видно, Stratego — це гра з обмеженою інформацією. Гравці повинні «збалансувати всі можливі результати» кожного разу, коли вони приймають рішення, пояснили автори.

Цей рівень невизначеності частково є причиною того, що Stratego багато років ставить у глухий кут ШІ. Навіть найуспішніші ігрові алгоритми, такі як AlphaGo та alphazero, спиратися на повну інформацію. Stratego, навпаки, має відтінок Техаський Холдем, гра в покер, яку DeepMind раніше переміг за допомогою алгоритму. Але ця стратегія зазнала невдачі для Stratego, головним чином через тривалість гри, яка, на відміну від покеру, зазвичай охоплює сотні ходів.

Кількість потенційних ігор вражає. Шахи мають одну стартову позицію. Stratego має понад 1066 можливі вихідні позиції — набагато більше, ніж усі зірки у Всесвіті. Дерево гри Stratego, сума всіх потенційних ходів у грі, становить приголомшливу 10535.

«Надзвичайна складність кількості можливих результатів у Stratego означає, що алгоритми добре працюють в іграх із ідеальною інформацією, і навіть ті, які працюють у покері, не працюють», сказав автор дослідження доктор Жульєн Перолат з DeepMind. За його словами, проблема полягає в тому, «що нас схвилювало».

A Beautiful Mind

Складність Stratego означає, що звичайна стратегія пошуку ігрових ходів не може бути й мови. Техніка, названа пошуком дерева Монте-Карло, «стійкий підхід до ігор на основі штучного інтелекту», прокладає потенційні маршрути, як гілки на дереві, які можуть призвести до перемоги.

Натомість магічний дотик до DeepNash надійшов від математика Джона Неша, зображеного у фільмі A Beautiful Mind. Піонер теорії ігор, Неш отримав Нобелівську премію за роботу над Рівновага Неша. Простіше кажучи, у кожній грі гравці можуть використовувати набір стратегій, яких дотримуються всі, тож жоден гравець нічого не виграє, змінюючи власну стратегію. У Statego це призводить до гри з нульовою сумою: будь-який виграш гравця призводить до програшу для його суперника.

Через складність Stratego DeepNash застосував підхід до свого алгоритму без моделі. Тут ШІ не намагається точно змоделювати поведінку свого опонента. Як у дитини, у нього є чистий аркуш, який потрібно вчити. Ця установка особливо корисна на ранніх стадіях ігрового процесу, «коли DeepNash мало знає про фігури свого супротивника», що робить прогнози «важкими, якщо не неможливими», — кажуть автори.

Потім команда використала глибоке навчання з підкріпленням, щоб активувати DeepNash з метою знайти рівновагу Неша в грі. Це пара, зроблена на небесах: навчання з підкріпленням допомагає визначити найкращий наступний крок на кожному кроці гри, тоді як DeepNash забезпечує загальну стратегію навчання. Щоб оцінити систему, команда також розробила «репетитора», який використовує знання з гри, щоб відфільтрувати очевидні помилки, які, ймовірно, не матимуть сенсу в реальному світі.

Навичка майстра ставить

На першому етапі навчання DeepNash зіграв сам проти себе в 5.5 мільярдах ігор, популярний підхід у навчанні штучному інтелекту, який отримав назву самогра.

Коли одна сторона перемагає, ШІ отримує нагороду, і його поточні параметри штучної нейронної мережі посилюються. Інша сторона — той самий штучний інтелект — отримує штраф, щоб послабити силу своєї нейронної мережі. Це як репетиція промови перед самим собою перед дзеркалом. З часом ви виявляєте помилки та працюєте краще. У випадку DeepNash, він дрейфує до рівноваги Неша для найкращого ігрового процесу.

А як щодо реальної продуктивності?

Команда протестувала алгоритм проти інших елітних ботів Stratego, деякі з яких виграли Чемпіонат світу з комп’ютерної стратегії. DeepNash розгромив своїх опонентів із показником виграшу приблизно 97 відсотків. Коли DeepNash виступив проти Gravon — онлайн-платформи для гравців-людей — він переміг своїх опонентів-людей. Після більш ніж двох тижнів матчів проти гравців Gravon у квітні цього року DeepNash піднявся на третє місце в усіх рейтингових матчах з 2002 року.

Це показує, що DeepNash не потрібне завантаження даних гри людини в ШІ, щоб досягти рівня продуктивності людини — і перемогти його.

Штучний інтелект також демонстрував інтригуючу поведінку під час початкового налаштування та під час гри. Наприклад, замість того, щоб зупинятися на певній «оптимізованій» стартовій позиції, DeepNash постійно переміщував фігури, щоб запобігти поміченню його суперником шаблонів з часом. Під час гри штучний інтелект перемикався між, здавалося б, безглуздими рухами, такими як жертвування високопоставлених фігур, щоб під час контратаки знаходити ще більш рангові фігури супротивника.

DeepNash також може блефувати. В одній п’єсі штучний інтелект перемістив фігуру низького рангу так, ніби вона була фігурою високого рангу, спонукаючи опонента-людину погнатися за фігурою разом зі своїм високопоставленим полковником. ШІ пожертвував пішаком, але, у свою чергу, заманив цінну шпигунську фігуру супротивника в засідку.

Хоча DeepNash було розроблено для Stratego, його можна узагальнити на реальний світ. Основний метод потенційно може навчити штучному інтелекту краще справлятися з нашим непередбачуваним майбутнім, використовуючи обмежену інформацію — від контролю натовпу та руху до аналізу ринкових потрясінь.

«Створюючи узагальнену систему штучного інтелекту, яка є надійною перед обличчям невизначеності, ми сподіваємося розширити можливості штучного інтелекту для вирішення проблем у нашому непередбачуваному за своєю суттю світі», — заявила команда.

Зображення Фото: Дерек Брафф / Flickr

Часова мітка:

Більше від Хаб сингулярності