Najnowsza sztuczna inteligencja DeepMind pokonuje ludzkich graczy w grze „Stratego” PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Najnowsza sztuczna inteligencja DeepMind pokonuje ludzkich graczy w grze „Stratego”

AI nienawidzi niepewności. Aby jednak poruszać się po naszym nieprzewidywalnym świecie, musi nauczyć się dokonywać wyborów na podstawie niedoskonałych informacji — tak jak robimy to każdego dnia.

DeepMind po prostu dźgnął w rozwiązaniu tej zagadki. Sztuczka polegała na wplecieniu teorii gier w strategię algorytmiczną luźno opartą na ludzkim mózgu, zwaną głębokim uczeniem się przez wzmacnianie. W rezultacie DeepNash obalił ludzkich ekspertów w wysoce strategicznej grze planszowej o nazwie Stratego. Notorycznie trudna gra dla sztucznej inteligencji, Stratego wymaga wielu mocnych stron ludzkiego dowcipu: długoterminowego myślenia, blefowania i strategii, a wszystko to bez znajomości figur przeciwnika na szachownicy.

„W przeciwieństwie do szachów i Go, Stratego to gra niedoskonałych informacji: gracze nie mogą bezpośrednio obserwować tożsamości figur przeciwnika”, DeepMind napisał w poście na blogu. Dzięki DeepNash „systemy sztucznej inteligencji (AI) do gier osiągnęły nowy poziom”.

To nie tylko zabawa i gry. Systemy sztucznej inteligencji, które mogą z łatwością manewrować losowością naszego świata i odpowiednio dostosowywać swoje „zachowanie”, mogą pewnego dnia poradzić sobie z rzeczywistymi problemami przy ograniczonych informacjach, takich jak optymalizacja przepływu ruchu w celu skrócenia czasu podróży i (miejmy nadzieję) tłumienie wściekłości na drogach jako samojezdne samochody stają się coraz bardziej obecne.

„Jeśli tworzysz samojezdny samochód, nie chcesz zakładać, że wszyscy inni kierowcy na drodze są całkowicie racjonalni i będą zachowywać się optymalnie” powiedziany Dr Noam Brown z Meta AI, który nie był zaangażowany w badania.

Triumf DeepNash jest tuż po kolejnym postępie AI w tym miesiącu, gdzie algorytm nauczył się grać w Dyplomację— gra, która wymaga negocjacji i współpracy, aby wygrać. W miarę jak sztuczna inteligencja zyskuje bardziej elastyczne rozumowanie, staje się bardziej uogólniona i uczy się poruszać w sytuacjach społecznych, może również zainicjować wgląd w procesy neuronowe i funkcje poznawcze naszych mózgów.

Poznaj Stratego

Pod względem złożoności Stratego to zupełnie inna bestia w porównaniu do szachów, Go czy pokera – wszystkich gier, które wcześniej opanowała sztuczna inteligencja.

Gra polega zasadniczo na zdobyciu flagi. Każda strona ma 40 elementów, które można umieścić w dowolnym miejscu na planszy. Każdy pionek ma inną nazwę i stopień liczbowy, na przykład „marszałek”, „generał”, „zwiadowca” lub „szpieg”. Kawałki o wyższym rankingu mogą przejąć niższe. Celem jest wyeliminowanie przeciwnika i zdobycie jego flagi.

Stratego jest szczególnie trudne dla sztucznej inteligencji, ponieważ gracze nie widzą położenia pionków swoich przeciwników, zarówno podczas początkowej konfiguracji, jak i podczas gry. W przeciwieństwie do szachów lub Go, w których każda figura i ruch są widoczne, Stratego to gra z ograniczonymi informacjami. Gracze muszą „zrównoważyć wszystkie możliwe wyniki” za każdym razem, gdy podejmują decyzję, wyjaśnili autorzy.

Ten poziom niepewności jest częściowo powodem, dla którego Stratego od wieków zaskakuje sztuczną inteligencję. Nawet najbardziej udane algorytmy rozgrywki, takie jak AlphaGo i AlfaZeropolegać na pełnych informacjach. Stratego, dla kontrastu, ma dotyk Texas Hold'em, grę w pokera, którą DeepMind podbiła wcześniej za pomocą algorytmu. Jednak Stratego ta strategia zawiodła, głównie ze względu na długość gry, która w przeciwieństwie do pokera zwykle obejmuje setki ruchów.

Liczba potencjalnych gier jest oszałamiająca. Szachy mają jedną pozycję startową. Stratego ma ponad 1066 możliwych pozycji startowych — znacznie więcej niż wszystkich gwiazd we wszechświecie. Drzewo gry Stratego, suma wszystkich potencjalnych ruchów w grze, daje oszałamiającą liczbę 10535.

„Sama złożoność liczby możliwych wyników w Stratego oznacza, że ​​algorytmy, które działają dobrze w grach z doskonałą informacją, a nawet te, które działają w pokerze, nie działają” powiedziany autor badania dr Julien Perolat z DeepMind. Wyzwaniem jest „to, co nas ekscytuje” – powiedział.

Piękny umysł

Złożoność Stratego oznacza, że ​​zwykła strategia wyszukiwania ruchów w grze nie wchodzi w rachubę. Nazwana poszukiwaniem drzewa Monte Carlo, „niezłomnym podejściem do gier opartych na sztucznej inteligencji”, technika ta wytycza potencjalne trasy – takie jak gałęzie na drzewie – które mogą doprowadzić do zwycięstwa.

Zamiast tego magiczny dotyk DeepNash pochodzi od matematyka Johna Nasha, granego w filmie Piękny umysł. Pionier teorii gier, Nash zdobył Nagrodę Nobla za pracę nad Równowaga Nasha. Mówiąc prościej, w każdej grze gracze mogą wykorzystać zestaw strategii stosowanych przez wszystkich, tak aby żaden pojedynczy gracz nie zyskał niczego, zmieniając własną strategię. W Statego prowadzi to do gry o sumie zerowej: każdy zysk osiągnięty przez gracza skutkuje przegraną przeciwnika.

Ze względu na złożoność Stratego, DeepNash zastosował w swoim algorytmie podejście wolne od modeli. W tym przypadku sztuczna inteligencja nie próbuje precyzyjnie modelować zachowania przeciwnika. Podobnie jak dziecko, ma swego rodzaju czystą kartę do nauki. Ta konfiguracja jest szczególnie przydatna na wczesnych etapach rozgrywki, „kiedy DeepNash niewiele wie o figurach przeciwnika”, co sprawia, że ​​przewidywania są „trudne, jeśli nie niemożliwe” – powiedzieli autorzy.

Następnie zespół wykorzystał uczenie głębokiego wzmacniania, aby zasilić DeepNash, mając na celu znalezienie równowagi Nasha w grze. To idealne dopasowanie: uczenie się przez wzmacnianie pomaga zdecydować o najlepszym następnym ruchu na każdym etapie gry, a DeepNash zapewnia ogólną strategię uczenia się. Aby ocenić system, zespół opracował również „nauczyciela”, który wykorzystuje wiedzę z gry, aby odfiltrować oczywiste błędy, które prawdopodobnie nie miałyby sensu w świecie rzeczywistym.

Praktyka czyni mistrza

Jako pierwszy krok do nauki, DeepNash grał przeciwko sobie w 5.5 miliarda gier, co jest popularnym podejściem w szkoleniu sztucznej inteligencji nazwanym grą samodzielną.

Kiedy jedna strona wygrywa, sztuczna inteligencja zostaje nagrodzona, a jej obecne parametry sztucznej sieci neuronowej zostają wzmocnione. Druga strona — ta sama sztuczna inteligencja — otrzymuje karę za osłabienie siły swojej sieci neuronowej. To jak próba przemówienia do samego siebie przed lustrem. Z czasem wyłapujesz błędy i osiągasz lepsze wyniki. W przypadku DeepNasha dryfuje w kierunku równowagi Nasha, aby uzyskać najlepszą rozgrywkę.

A co z rzeczywistą wydajnością?

Zespół przetestował algorytm w porównaniu z innymi elitarnymi botami Stratego, z których część wygrała Mistrzostwa Świata Computer Stratego. DeepNash zmiażdżył swoich przeciwników ze współczynnikiem wygranych wynoszącym około 97 procent. Kiedy został spuszczony na Gravon — platformę internetową dla ludzkich graczy — DeepNash pokonał swoich ludzkich przeciwników. Po ponad dwóch tygodniach meczów z graczami Gravon w kwietniu tego roku DeepNash awansował na trzecie miejsce we wszystkich meczach rankingowych od 2002 roku.

Pokazuje, że ładowanie danych gry człowieka do sztucznej inteligencji nie jest potrzebne, aby DeepNash osiągnął wydajność na poziomie człowieka — i ją pobił.

Sztuczna inteligencja również wykazywała intrygujące zachowanie podczas początkowej konfiguracji i podczas rozgrywki. Na przykład, zamiast decydować się na konkretną „zoptymalizowaną” pozycję początkową, DeepNash stale przesuwał elementy, aby uniemożliwić przeciwnikowi wykrywanie wzorców w czasie. Podczas rozgrywki sztuczna inteligencja przeskakiwała między pozornie bezsensownymi ruchami — takimi jak poświęcanie elementów o wysokiej randze — w celu zlokalizowania elementów przeciwnika o jeszcze wyższej randze podczas kontrataku.

DeepNash może również blefować. W jednej grze sztuczna inteligencja przesunęła figurę niskiej rangi tak, jakby była figurą wysokiej rangi, wabiąc ludzkiego przeciwnika do pogoni za figurą z wysoko postawionym pułkownikiem. Sztuczna inteligencja poświęciła pionka, ale z kolei zwabiła cenną figurę szpiega przeciwnika w zasadzkę.

Chociaż DeepNash został opracowany dla Stratego, można go uogólnić na rzeczywisty świat. Podstawowa metoda może potencjalnie poinstruować sztuczną inteligencję, aby lepiej radziła sobie z naszą nieprzewidywalną przyszłością przy użyciu ograniczonych informacji — od kontroli tłumu i ruchu po analizę zawirowań na rynku.

„Tworząc dający się uogólnić system sztucznej inteligencji, który jest solidny w obliczu niepewności, mamy nadzieję wprowadzić możliwości rozwiązywania problemów sztucznej inteligencji dalej w nasz z natury nieprzewidywalny świat” — powiedział zespół.

Kredytowych Image: Derek Bruff / Flickr

Znak czasu:

Więcej z Centrum osobliwości