Dlaczego wszyscy kochają chatbota ChatGPT PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Dlaczego wszyscy kochają Chatbota ChatGPT

Kolejna gra, od dawna uważana za bardzo trudną do pokonania dla sztucznej inteligencji (AI), przypadła botom: Stratego.

DeepNash, sztuczna inteligencja stworzona przez londyńską firmę DeepMind, teraz pasuje do ekspertów w Stratego, grze planszowej wymagającej długoterminowego myślenia strategicznego w obliczu niedoskonałych informacji.

To ostatnie osiągnięcie jest następstwem kolejnego ważnego zwycięstwa SI w grach, które wcześniej uważano za mocną stronę ludzi.

Tylko w zeszłym tygodniu Cicero Meta, sztuczna inteligencja może przechytrzyć ludzkich graczy w grze Dyplomacja, przeszedł do historii jako przechytrzony przeciwnik online.

„Tempo, w jakim jakościowo różne funkcje gier zostały podbite — lub opanowane do nowych poziomów — przez sztuczną inteligencję w ostatnich latach, jest dość niezwykłe” — mówi Michael Wellman z University of Michigan w Ann Arbor, informatyk, który bada strategiczne rozumowanie i gry teoria.

„Stratego i Diplomacy znacznie się od siebie różnią, a także posiadają wymagające funkcje, które znacznie różnią się od gier, w przypadku których osiągnięto analogiczne kamienie milowe” — powiedział Wellman.

Niedoskonałe informacje

Gra ma cechy, które są na ogół znacznie bardziej skomplikowane niż szachy, Go czy poker. Szachy, Go i Poker zostały opanowane przez sztuczną inteligencję.

W grze Stratego dwóch graczy umieszcza na planszy po 40 pionów, ale nie może widzieć pionów przeciwnika.

Celem gry jest przesuwanie pionków po kolei, aby wyeliminować pionki przeciwnika i zdobyć flagę. 

Drzewo gry Stratego — wykres wszystkich możliwych kierunków, w jakie gra może się potoczyć — ma 10535 stanów w porównaniu do 10360 w Go. 

Jeśli chodzi o niedoskonałe informacje na początku gry, Stratego ma 1066 możliwych pozycji prywatnych, liczbę, która przyćmiewa tylko 106 takich sytuacji początkowych w pokerze Texas Hold'em dla dwóch graczy.

„Sama złożoność liczby możliwych wyników w Stratego oznacza, że ​​algorytmy, które działają dobrze w grach z doskonałą informacją, a nawet te, które działają w pokerze, nie działają” – mówi Julien Perolat, badacz DeepMind z Paryża.

DeepNash został opracowany przez Perolata i jego współpracowników.

Bot inspirowany Nashem

Nazwa bota jest hołdem dla słynnego amerykańskiego matematyka Johna Nasha, który wymyślił teorię równowagi Nasha, która zakłada, że ​​istnieje „stabilny zestaw strategii”, których gracze mogą przestrzegać w taki sposób, że zmiana strategii nie przynosi korzyści żadnemu graczowi na własną rękę. W związku z tym gry mają zwykle zero, jedną lub wiele równowag Nasha.

DeepNash łączy algorytm uczenia się przez wzmacnianie i głęboką sieć neuronową, aby znaleźć równowagę Nasha. 

Ogólnie rzecz biorąc, uczenie się przez wzmacnianie ma miejsce, gdy inteligentny agent (program komputerowy) wchodzi w interakcję ze środowiskiem i uczy się najlepszej polityki dyktowania działań dla każdego stanu gry. 

Aby mieć optymalną politykę, DeepNash rozegrał przeciwko sobie łącznie 5.5 miliarda gier. 

W istocie, jeśli jedna strona zostanie ukarana, druga zostanie nagrodzona, a zmienne sieci neuronowej — reprezentujące politykę — zostaną odpowiednio zmodyfikowane.

Sztuczna inteligencja pokonuje ludzi w strategii — poznaj DeepMash

Sztuczna inteligencja pokonuje ludzi w strategii — poznaj DeepMash

Na pewnym etapie DeepNash zbliża się do przybliżonej równowagi Nasha. W przeciwieństwie do innych botów, DeepNash optymalizuje się bez sprzeszukiwanie drzewa gry.

Przez dwa tygodnie DeepNash grał przeciwko ludzkim graczom Stratego na platformie gier online Gravon.

Po rywalizacji w 50 meczach, Ai zajął trzecie miejsce wśród wszystkich graczy Gravon Stratego od 2002 roku. 

„Nasza praca pokazuje, że tak złożona gra, jak Stratego, zawierająca niedoskonałe informacje, nie wymaga technik wyszukiwania, aby ją rozwiązać” — mówi członek zespołu, Karl Tuyls, badacz DeepMind z Paryża. „To naprawdę duży krok naprzód w dziedzinie sztucznej inteligencji”.

Inni badacze również są pod wrażeniem tego wyczynu.

Imponujące wyniki

„Wyniki są imponujące” — zgadza się Noam Brown, badacz z Meta AI z siedzibą w Nowym Jorku i członek zespołu, który w 2019 roku zgłosił grę w pokera AI Pluribus4.

W Meta, firmie macierzystej Facebooka, Brown i jej koledzy zbudowali sztuczną inteligencję, która może grać w Dyplomację, grę, w której siedmiu graczy rywalizuje o kontrolę nad Europą, przesuwając elementy po mapie.

W Dyplomacji celem jest przejęcie kontroli nad centrami zaopatrzenia poprzez przemieszczanie jednostek (floty i armie). 

Meta mówi, że Cicero jest dość znaczący, ponieważ sztuczna inteligencja opiera się na środowiskach niebędących przeciwnikami.

W przeciwieństwie do przeszłości, w której wieloagentowa sztuczna inteligencja odnosiła największe sukcesy w środowiskach czysto rywalizacyjnych, takich jak szachy, go i poker, w których komunikacja nie miała żadnej wartości, Cicero wykorzystuje silnik wnioskowania strategicznego i kontrolowany moduł dialogowy.

„Kiedy wychodzisz poza dwuosobowe gry o sumie zerowej, idea równowagi Nasha nie jest już tak przydatna do dobrej zabawy z ludźmi” — mówi Brown.

Brown i jej zespół przeszkolili Cycerona, korzystając z danych ze 125,261 XNUMX gier online w wersji Diplomacy z udziałem ludzi. 

Wykorzystując dane z gry własnej i moduł wnioskowania strategicznego (SRM), Cicero nauczył się przewidywać osądzanie na podstawie stanu gry i zgromadzonych wiadomości, prawdopodobnych ruchów i strategii innych graczy. 

Sztuczna inteligencja pokonuje ludzi w strategii — poznaj DeepMash

Sztuczna inteligencja pokonuje ludzi w strategii — poznaj DeepMash

Meta twierdzi, że zebrała dane z 125,261 40,408 gier Dyplomacji rozgrywanych online na webDiplomacy.net. Spośród tych gier łącznie 12,901,662 XNUMX gier zawierało dialogi, a łącznie między graczami wymieniono XNUMX XNUMX XNUMX wiadomości.

Zachowanie w świecie rzeczywistym

Brown wierzy, że grające w gry boty, takie jak Cicero, mogą wchodzić w interakcje z ludźmi i odpowiadać za „nieoptymalne, a nawet irracjonalne działania ludzi, które mogą utorować drogę do zastosowań w świecie rzeczywistym”.

„Jeśli tworzysz samojezdny samochód, nie chcesz zakładać, że wszyscy inni kierowcy na drodze są całkowicie racjonalni i będą zachowywać się optymalnie”, mówi.

Cyceron, dodaje, to duży krok w tym kierunku. „Wciąż jesteśmy jedną nogą w świecie gry, ale teraz jedną nogą jesteśmy również w świecie rzeczywistym”.

Inni, tacy jak Wellman, zgadzają się, ale twierdzą, że wciąż pozostaje wiele do zrobienia. „Wiele z tych technik ma rzeczywiście znaczenie poza grami rekreacyjnymi” w zastosowaniach w świecie rzeczywistym, mówi. „Niemniej jednak w pewnym momencie wiodące laboratoria badawcze AI muszą wyjść poza ustawienia rekreacyjne i dowiedzieć się, jak mierzyć postęp naukowy w bardziej miękkich„ grach ”w świecie rzeczywistym, na których nam naprawdę zależy”.

/MetaWiadomości.

Znak czasu:

Więcej z MetaWiadomości