Cyfrowa kopia Ziemi w superkomputerze PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Cyfrowa kopia Ziemi w superkomputerze

Meta Platforms Inc, firma macierzysta Facebooka, powiedziała, że ​​stworzyła sztuczną inteligencję, która może przechytrzyć ludzi w internetowej wersji popularnej gry strategicznej Dyplomacja, w której siedmiu graczy rywalizuje o kontrolę nad Europą, przesuwając elementy po mapie.

W artykule opublikowanym na Science.com, Meta powiedział Cicero był pierwszym agentem AI, który osiągnął wydajność na poziomie człowieka w Dyplomacji, grze obejmującej zarówno współpracę, jak i rywalizację, która kładzie nacisk na negocjacje w języku naturalnym i koordynację taktyczną między siedmioma graczami.

W sumie w 40 anonimowych grach Dyplomacji online Meta powiedział, że Cicero osiągnął ponad dwukrotnie wyższy średni wynik niż ludzie i znalazł się w pierwszej 10% uczestników, którzy rozegrali więcej niż jedną grę.

Wiodąca grupa technologiczna stwierdziła, że ​​jest to część jej strategicznego i długoterminowego celu w dziedzinie sztucznej inteligencji, polegającego na zbudowaniu agentów, którzy potrafią planować, koordynować i negocjować z ludźmi w języku naturalnym.

Jak ważny jest Cyceron?

Meta mówi, że Cicero jest dość znaczący, ponieważ sztuczna inteligencja opiera się na środowiskach niebędących przeciwnikami.

W przeciwieństwie do przeszłości, w której wieloagentowa sztuczna inteligencja odnosiła największe sukcesy w środowiskach czysto rywalizacyjnych, takich jak szachy, go i poker, w których komunikacja nie miała żadnej wartości, Cicero wykorzystuje silnik wnioskowania strategicznego i kontrolowany moduł dialogowy.

Z tych powodów meta mówi, że Dyplomacja służyła jako trudny punkt odniesienia dla uczenia się wieloagentowego.

"Cicero łączy kontrolowany moduł dialogowy z silnikiem strategicznego rozumowania. W każdym momencie gry Cicero modeluje prawdopodobne zachowanie innych graczy na podstawie stanu gry i ich rozmów,mówi Meta.

Sztuczna inteligencja planuje następnie, w jaki sposób gracze mogą koordynować działania z obopólną korzyścią, i odwzorowuje te plany na komunikaty w języku naturalnym.

Zdrowa nieufność

Cyceron unika ślepego ufania propozycjom innych graczy i odrzuca plany, które mają niską „przewidywaną wartość” i które są zgodne z jego własnymi interesami.

Ze względu na fakt, że dialog w Dyplomacji odbywa się prywatnie pomiędzy parami graczy, Cyceron rozumuje i analizuje informacje, do których gracze mają dostęp podczas przewidywania.

"Na przykład, jeśli Cyceron koordynuje atak z sojusznikiem na przeciwnika, przewidywania Cycerona dotyczące polityki przeciwnika muszą uwzględniać fakt, że przeciwnik nie jest świadomy zamierzonej koordynacji,"powiedział Meta.

Meta twierdzi, że zgłosiła się do Cicero anonimowo w 40 grach Dyplomacji w internetowej lidze ludzkich graczy między 19 sierpnia a 13 października 2022 r.

W ciągu 72 godzin gry, które obejmowały wysłanie 5,277 wiadomości, Cicero znalazł się w pierwszej 10% uczestników, którzy grali w więcej niż jedną grę.

Meta twierdzi, że zebrała dane z 125,261 40,408 gier Dyplomacji rozgrywanych online na webDiplomacy.net. Spośród tych gier łącznie 12,901,662 XNUMX gier zawierało dialogi, a łącznie między graczami wymieniono XNUMX XNUMX XNUMX wiadomości.

Podpowiedź: „Robot pokonuje wszystkich innych w grze dyplomacji” (wygenerowane przez sztuczną inteligencję).

Meta zauważa, że ​​​​jego nowa sztuczna inteligencja jest daleka od doskonałości

Cyceron wysyłał wiadomości, które zawierały błędy, czasami zaprzeczały własnym planom i popełniały strategiczne gafy.

Ale Meta upiera się, że mimo wszystko ludzie wybrali współpracę z AI zamiast innych graczy, nie zdając sobie sprawy, że to Bot.

„Prawie wszystkie wcześniejsze przełomy w zakresie sztucznej inteligencji w grach dotyczyły ustawień dla dwóch graczy o sumie zerowej (2p0s), w tym szachów, Go, pokera heads-up i StarCraft. W skończonych grach 2p0s pewne algorytmy uczenia się przez wzmacnianie (RL), które uczą się grając przeciwko sobie – proces znany jako gra własna – zbiegają się w politykę, która jest nie do pobicia w grach zrównoważonych” – dodał Meta w artykule. „Innymi słowy, każdą skończoną grę 2p0s można rozwiązać poprzez samodzielną grę z wystarczającą mocą obliczeniową i modelową”.

Jednak Meta powiedział, że jeśli chodzi o gry wymagające współpracy, samodzielna gra bez danych ludzkich nie gwarantuje już znalezienia polityki, która będzie dobrze działać z ludźmi, nawet przy nieskończonych możliwościach obliczeniowych i modelowych, ponieważ agent gry samodzielnej może zbiegać się z polityką, która jest niezgodne z ludzkimi normami i oczekiwaniami.

Cyceron przewiduje prawdopodobne działania

Meta dodał, że Cicero przewiduje prawdopodobne działania każdego gracza na podstawie stanu planszy i dialogów, wykorzystując to jako punkt wyjścia dla algorytmu planowania z wykorzystaniem modeli wyszkolonych przez RL.

Sztuczna inteligencja wykorzystuje moduł rozumowania strategicznego do inteligentnego wybierania intencji i działań, mówi firma.

Moduł ten następnie uruchamia algorytm planowania, który przewiduje politykę wszystkich innych graczy na podstawie stanu gry i dialogów oraz uwzględnia zarówno siłę różnych działań, jak i ich prawdopodobieństwo w grach ludzkich. W oparciu o te informacje i zmienne podejmowane jest najlepsze optymalne działanie dla Cycerona.

Pod kierownictwem założyciela i dyrektora generalnego Meta, Marka Zuckerberga, firma intensywnie inwestuje w sztuczną inteligencję i metaverse, aby skorzystać z szybko rozwijającej się branży postrzeganej jako przyszłość technologii.

/MetaWiadomości

Znak czasu:

Więcej z MetaWiadomości