Google DeepMind szkoli „sztuczną burzę mózgów” w szachowej sztucznej inteligencji | Magazyn Quanta

Google DeepMind szkoli „sztuczną burzę mózgów” w szachowej sztucznej inteligencji | Magazyn Quanta

Google DeepMind trenuje „sztuczną burzę mózgów” w szachowej sztucznej inteligencji | Magazyn Quanta PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wprowadzenie

Kiedy na początku 19 r. Covid-2020 odesłał ludzi do domu, informatyk Tomek Zahavy odkrył na nowo szachy. Grał jako dziecko, a ostatnio czytał Garry'ego Kasparowa Głębokie myślenie, wspomnienia meczów arcymistrza z 1997 roku przeciwko komputerowi szachowemu IBM, Deep Blue. Oglądał filmy szachowe na YouTube i Gambit królowej na Netflix.

Pomimo ponownego zainteresowania Zahavy nie szukał sposobów na ulepszenie swojej gry. „Nie jestem wielkim graczem” – powiedział. „Jestem lepszy w łamigłówkach szachowych” — układy elementów, często wymyślone i mało prawdopodobne, aby wystąpiły w prawdziwej grze, które rzucają wyzwanie graczowi, aby znalazł kreatywne sposoby na zdobycie przewagi.

Łamigłówki mogą pomóc graczom w doskonaleniu umiejętności, ale ostatnio pomogły odkryć ukryte ograniczenia programów szachowych. Jedna z najbardziej znanych łamigłówek, wymyślona przez matematyka Sir Rogera Penrose'a w 2017 roku, polega na umieszczeniu na szachownicy mocniejszych czarnych elementów (takich jak hetman i wieże), ale w niewygodnych pozycjach. Doświadczony gracz grający białymi mógłby z łatwością doprowadzić grę do remisu, ale potężne komputerowe programy szachowe powiedziałyby, że czarne mają wyraźną przewagę. Ta różnica, powiedział Zahavy, sugeruje, że chociaż komputery są w stanie pokonać najlepszych graczy na świecie, to nie potrafią jeszcze rozpoznać i rozwiązać każdego rodzaju trudnego problemu. Od tego czasu Penrose i inni opracowali obszerne zbiory zagadek, z którymi borykają się komputery.

Szachy od dawna są kamieniem probierczym do testowania nowych pomysłów sztuczna inteligencja, a łamigłówki Penrose'a wzbudziły zainteresowanie Zahavy'ego. „Próbowałem zrozumieć, dlaczego te pozycje są tak trudne dla komputerów, skoro przynajmniej niektóre z nich możemy rozwiązać jako ludzie” – powiedział. „Byłem całkowicie zafascynowany”. Wkrótce przekształciło się to w zainteresowanie zawodowe: jako pracownik naukowy w Google DeepMind Zahavy bada kreatywne podejścia do rozwiązywania problemów. Celem jest opracowanie systemów sztucznej inteligencji o spektrum możliwych zachowań wykraczających poza wykonanie pojedynczego zadania.

Tradycyjny program szachowy oparty na sztucznej inteligencji, wyszkolony do wygrywania, może nie mieć sensu łamigłówki Penrose’a, ale Zahavy podejrzewał, że postęp może przynieść program składający się z wielu różnorodnych systemów współpracujących ze sobą w grupie. Dlatego on i jego koledzy opracowali sposób na splot wielu (do 10) systemów sztucznej inteligencji podejmujących decyzje, z których każdy jest zoptymalizowany i przeszkolony pod kątem różnych strategii, zaczynając od AlphaZero, potężnego programu szachowego DeepMind. Nowy system, oni zgłoszone w sierpniu, grał lepiej niż sam AlphaZero i wykazał się większymi umiejętnościami — i większą kreatywnością — w radzeniu sobie z łamigłówkami Penrose'a. Zdolności te wywodzą się w pewnym sensie z własnej współpracy: jeśli jedno podejście uderza w ścianę, program po prostu zwraca się ku drugiemu.

Takie podejście ma zasadniczo sens, stwierdził Allison Liemhetcharat, informatyk w DoorDash, który pracował nad wieloagentowym podejściem do rozwiązywania problemów w robotyce. „W przypadku populacji agentów istnieje większe prawdopodobieństwo, że zagadki dotyczą domeny, w której co najmniej jeden z agentów był przeszkolony”.

Wyniki prac sugerują, że zespoły składające się z różnorodnych systemów sztucznej inteligencji mogłyby skutecznie stawić czoła trudnym problemom wykraczającym poza planszę. „To świetny przykład na to, że szukanie więcej niż jednego sposobu rozwiązania problemu – na przykład wygrania partii szachów – zapewnia wiele korzyści” – powiedział Antoine’a Cully’ego, badacz sztucznej inteligencji w Imperial College w Londynie, który nie był zaangażowany w projekt DeepMind. Porównał to do sztucznej wersji sesji burzy mózgów u ludzi. „Ten proces myślowy prowadzi do kreatywnych i skutecznych rozwiązań, których można by nie zauważyć bez wykonania tego ćwiczenia”.

Gonienie niepowodzeń

Przed dołączeniem do DeepMind Zahavy interesował się głębokim uczeniem przez wzmacnianie – obszarem sztucznej inteligencji, w którym system wykorzystuje sieci neuronowe do uczenia się niektórych zadań metodą prób i błędów. Jest podstawą najpotężniejszych programów szachowych (i jest wykorzystywana w innych zastosowaniach sztucznej inteligencji, takich jak samochody autonomiczne). System zaczyna od swojego otoczenia. Na przykład w szachach środowisko obejmuje planszę i możliwe ruchy. Jeśli zadaniem jest prowadzenie samochodu, środowisko obejmuje wszystko wokół pojazdu. Następnie system podejmuje decyzje, podejmuje działania i ocenia, jak blisko osiągnął swój cel. W miarę zbliżania się do celu gromadzi nagrody, a gdy system je gromadzi, poprawia swoją wydajność. „Głęboka” część tego podejścia opisuje sieci neuronowe wykorzystywane do analizy i oceny zachowań.

Uczenie się przez wzmacnianie to sposób, w jaki AlphaZero nauczył się zostać mistrzem szachowym. Głęboki Umysł zgłaszane że w trakcie pierwszych dziewięciu godzin szkolenia w ramach programu, w grudniu 2017 r., rozegrał przeciwko sobie 44 miliony meczów. Początkowo jego ruchy były ustalane losowo, ale z czasem nauczył się wybierać ruchy, które z większym prawdopodobieństwem prowadzą do mata. Już po kilku godzinach treningu AlphaZero rozwinął umiejętność pokonania każdego ludzkiego szachisty.

Jednak choć uczenie się przez wzmacnianie może być skuteczne, nie zawsze prowadzi do strategii odzwierciedlających ogólne zrozumienie gry. W ciągu mniej więcej pół dekady Zahavy i inni zauważyli wzrost liczby osobliwych usterek, które mogły wystąpić w systemach wyszkolonych metodą prób i błędów. Na przykład system grający w gry wideo może znaleźć lukę i dowiedzieć się, jak oszukać lub pominąć poziom, ale równie dobrze może utknąć w powtarzalnej pętli. Łamigłówki w stylu Penrose'a w podobny sposób sugerowały pewien rodzaj martwego punktu, czyli usterki w AlphaZero — nie można było wymyślić, jak podejść do problemu, którego nigdy wcześniej nie widział.

Ale może nie wszystkie usterki są po prostu błędami. Zahavy podejrzewał, że słabe punkty AlphaZero mogą w rzeczywistości kryć się za czymś innym – decyzjami i zachowaniami powiązanymi z wewnętrznymi nagrodami systemu. Systemy uczenia się przez głębokie wzmacnianie – stwierdził – nie wiedzą, jak ponieść porażkę, ani nawet jak rozpoznać porażkę. Zdolność do ponoszenia porażek od dawna jest kojarzona z kreatywnym rozwiązywaniem problemów. „Kreatywność ma cechę ludzką” – napisał Kasparow Głębokie myślenie. „Akceptuje koncepcję porażki”.

Systemy AI zazwyczaj tego nie robią. A jeśli system nie rozpozna, że ​​nie wykonał swojego zadania, może nie spróbować czegoś innego. Zamiast tego będzie po prostu próbował zrobić to, co już zrobił. Prawdopodobnie to właśnie doprowadziło do ślepych zaułków w grach wideo lub utknięcia w niektórych wyzwaniach Penrose, powiedział Zahavy. System gonił za „dziwnymi rodzajami wewnętrznych nagród”, powiedział, które rozwinął podczas szkolenia. Rzeczy, które z zewnątrz wyglądały na błędy, były prawdopodobnie konsekwencją opracowania konkretnych, ale ostatecznie nieudanych strategii.

System uważał te dziwne nagrody za kroki w kierunku większego celu, którego tak naprawdę nie mógł osiągnąć, i nie wiedział, jak spróbować czegoś nowego. „Próbowałem zrozumieć ich sens” – powiedział Zahavy.

Lepsza gra

Jednym z powodów, dla których te błędy mogą okazać się tak istotne i przydatne, jest to, co badacze uznają za problem z generalizacją. Chociaż systemy uczenia się przez wzmacnianie mogą opracować skuteczną strategię powiązania danej sytuacji z konkretnym działaniem – które badacze nazywają „polityką” – nie mogą zastosować jej do różnych problemów. „To, co zwykle dzieje się w przypadku uczenia się przez wzmacnianie, niemal niezależnie od metody, polega na tym, że otrzymujesz strategię, która rozwiązuje konkretny przypadek problemu, nad którym się szkoliłeś, ale nie uogólnia” – powiedział Juliana Togeliusa, informatyk na Uniwersytecie Nowojorskim i dyrektor ds. badań w modl.ai.

Zahavy uważał, że zagadki Penrose'a wymagają właśnie tego rodzaju uogólnień. Być może AlphaZero nie była w stanie rozwiązać większości zagadek, ponieważ była tak skupiona na wygrywaniu całych gier, od początku do końca. Ale to podejście wprowadziło martwe punkty odsłonięte przez nieprawdopodobne ułożenie elementów puzzli Penrose'a. Być może, rozumował, program mógłby nauczyć się rozwiązywać zagadki, gdyby miał wystarczająco dużo miejsca na kreatywność, aby przeprowadzić burzę mózgów i uzyskać dostęp do różnych metod szkoleniowych.

Dlatego on i jego koledzy zebrali najpierw zestaw 53 puzzli Penrose'a i 15 dodatkowych puzzli z wyzwaniami. Samodzielnie AlphaZero rozwiązało mniej niż 4% zagadek Penrose'a i mniej niż 12% pozostałych. Zahavy nie był zaskoczony: wiele z tych łamigłówek zostało zaprojektowanych przez mistrzów szachowych, aby celowo dezorientować komputery.

W ramach testu badacze próbowali nauczyć AlphaZero gry przeciwko sobie, używając układu puzzli Penrose'a jako pozycji wyjściowej, zamiast pełnej planszy w typowych grach. Jego wydajność uległa znacznej poprawie: rozwiązał 96% zagadek Penrose'a i 76% postawionych wyzwań. Ogólnie rzecz biorąc, gdy AlphaZero trenował nad konkretną łamigłówką, mógł ją rozwiązać, tak samo jak mógł wygrać, trenując nad pełną grą. Być może, pomyślał Zahavy, gdyby program szachowy mógł w jakiś sposób uzyskać dostęp do wszystkich różnych wersji AlphaZero, trenowanych na różnych pozycjach, wówczas ta różnorodność mogłaby pobudzić zdolność do produktywnego podejścia do nowych problemów. Być może dałoby to uogólnienie, innymi słowy, rozwiązywanie nie tylko łamigłówek Penrose'a, ale każdego szerszego problemu szachowego.

Jego grupa postanowiła się tego dowiedzieć. Zbudowali nową, zróżnicowaną wersję AlphaZero, która zawiera wiele systemów AI, które trenowały niezależnie i w różnych sytuacjach. Algorytm zarządzający całym systemem działa jak rodzaj wirtualnego mechanizmu losującego, powiedział Zahavy: mający na celu określenie, który agent ma największe szanse na sukces, gdy nadejdzie czas na wykonanie ruchu. On i jego współpracownicy zakodowali także „premię za różnorodność” — nagrodę dla systemu za każdym razem, gdy wybierał strategie z dużego wyboru opcji.

Kiedy nowy system został uwolniony i zaczął grać w swoje własne gry, zespół zaobserwował dużą różnorodność. Zróżnicowany gracz AI eksperymentował z nowymi, skutecznymi otwarciami i nowatorskimi – ale rozsądnymi – decyzjami dotyczącymi konkretnych strategii, takich jak kiedy i gdzie wykonać zamek. W większości meczów pokonał oryginalnego AlphaZero. Zespół odkrył również, że zróżnicowana wersja umożliwia rozwiązanie dwukrotnie większej liczby łamigłówek niż oryginał i umożliwia rozwiązanie ponad połowy całego katalogu łamigłówek Penrose'a.

„Pomysł jest taki, że zamiast znajdować jedno rozwiązanie lub jedną politykę, która pokonałaby każdego gracza, tutaj [wykorzystuje się] ideę kreatywnej różnorodności” – powiedział Cully.

Zahavy powiedział, że mając dostęp do większej liczby różnych gier, zróżnicowana AlphaZero ma więcej opcji na trudne sytuacje, gdy się pojawią. „Jeśli możesz kontrolować rodzaj gier, które widzi, zasadniczo kontrolujesz sposób, w jaki będzie generalizował” – powiedział. Te dziwne wewnętrzne nagrody (i powiązane z nimi ruchy) mogą stać się mocną stroną różnorodnych zachowań. Następnie system mógłby nauczyć się oceniać i doceniać odmienne podejścia oraz sprawdzać, kiedy okazały się one najbardziej skuteczne. „Odkryliśmy, że ta grupa agentów faktycznie może dojść do porozumienia w sprawie tych stanowisk”.

I, co najważniejsze, implikacje wykraczają poza szachy.

Kreatywność w prawdziwym życiu

Cully powiedział, że zróżnicowane podejście może pomóc każdemu systemowi sztucznej inteligencji, a nie tylko tym opartym na uczeniu się przez wzmacnianie. Od dawna wykorzystuje różnorodność do szkolenia systemów fizycznych, w tym m.in sześcionożny robot pozwolono mu badać różne rodzaje ruchu, zanim celowo „zranił” go, umożliwiając mu dalsze poruszanie się przy użyciu niektórych technik, które opracował wcześniej. „Chcieliśmy po prostu znaleźć rozwiązania, które różniłyby się od wszystkich poprzednich rozwiązań, które znaleźliśmy do tej pory”. Ostatnio współpracował także z badaczami, aby wykorzystać różnorodność w celu zidentyfikowania obiecujących nowych kandydatów na leki i opracowania skutecznych strategii handlu akcjami.

„Celem jest wygenerowanie dużej kolekcji potencjalnie tysięcy różnych rozwiązań, z których każde znacznie różni się od drugiego” – powiedział Cully. Zatem – tak jak nauczył się tego zróżnicowany szachista – dla każdego rodzaju problemu cały system mógł wybrać najlepsze możliwe rozwiązanie. Jego zdaniem system sztucznej inteligencji Zahavy’ego wyraźnie pokazuje, jak „poszukiwanie różnorodnych strategii pomaga myśleć nieszablonowo i znajdować rozwiązania”.

Zahavy podejrzewa, że ​​aby systemy sztucznej inteligencji mogły myśleć kreatywnie, badacze muszą po prostu skłonić je do rozważenia większej liczby opcji. Hipoteza ta sugeruje ciekawe powiązanie między ludźmi i maszynami: być może inteligencja to tylko kwestia mocy obliczeniowej. W przypadku systemu sztucznej inteligencji kreatywność może sprowadzać się do umiejętności rozważenia i dokonania wyboru z wystarczająco dużego zestawu opcji. W miarę jak system zdobywa nagrody za wybór różnych optymalnych strategii, ten rodzaj twórczego rozwiązywania problemów staje się coraz silniejszy. Ostatecznie teoretycznie mógłby naśladować dowolną strategię rozwiązywania problemów uznawaną u ludzi za kreatywną. Kreatywność stałaby się problemem obliczeniowym.

Liemhetcharat zauważył, że jest mało prawdopodobne, aby zróżnicowany system sztucznej inteligencji całkowicie rozwiązał szerszy problem uogólnienia w uczeniu maszynowym. Ale to krok we właściwym kierunku. „To łagodzi jedno z niedociągnięć” – stwierdziła.

Z praktycznego punktu widzenia wyniki Zahavy pokrywają się z niedawnymi wysiłkami, które pokazują, w jaki sposób współpraca może prowadzić do lepszego wykonywania przez ludzi trudnych zadań. Większość hitów znajdujących się na liście Billboard 100 została napisana na przykład przez zespoły autorów piosenek, a nie pojedyncze osoby. I wciąż jest miejsce na ulepszenia. Zróżnicowane podejście jest obecnie kosztowne obliczeniowo, ponieważ musi uwzględniać o wiele więcej możliwości niż typowy system. Zahavy nie jest też przekonany, że nawet zróżnicowana AlphaZero oddaje całe spektrum możliwości.

„Nadal [myślę], że jest miejsce na znalezienie innych rozwiązań” – powiedział. „Nie jest dla mnie jasne, czy biorąc pod uwagę wszystkie dane na świecie, istnieje [tylko] jedna odpowiedź na każde pytanie”.

Quanta przeprowadza serię ankiet, aby lepiej służyć naszym odbiorcom. Weź nasze ankieta dla czytelników informatyki i zostaniesz wpisany, aby wygrać za darmo Quanta towar.

Znak czasu:

Więcej z Magazyn ilościowy