A mais recente IA da DeepMind derrota jogadores humanos no jogo 'Stratego' PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

A mais recente IA da DeepMind derrota jogadores humanos no jogo 'Stratego'

A IA odeia a incerteza. No entanto, para navegar em nosso mundo imprevisível, ele precisa aprender a fazer escolhas com informações imperfeitas – como fazemos todos os dias.

DeepMind apenas deu uma facada em resolver este enigma. O truque era entrelaçar a teoria dos jogos em uma estratégia algorítmica vagamente baseada no cérebro humano chamada aprendizagem por reforço profundo. O resultado, DeepNash, derrubou especialistas humanos em um jogo de tabuleiro altamente estratégico chamado Stratego. Um jogo notoriamente difícil para a IA, o Stratego requer múltiplos pontos fortes da inteligência humana: pensamento de longo prazo, blefe e estratégia, tudo sem conhecer as peças do seu oponente no tabuleiro.

“Ao contrário do xadrez e Go, Stratego é um jogo de informação imperfeita: os jogadores não podem observar diretamente as identidades das peças de seus oponentes,” DeepMind escreveu em uma postagem de blog. Com o DeepNash, “os sistemas de inteligência artificial (IA) para jogos avançaram para uma nova fronteira”.

Nem tudo é diversão e jogos. Os sistemas de IA que podem facilmente manobrar a aleatoriedade do nosso mundo e ajustar seu “comportamento” de acordo podem um dia lidar com problemas do mundo real com informações limitadas, como otimizar o fluxo de tráfego para reduzir o tempo de viagem e (espero) extinguir a raiva na estrada como direção autônoma carros tornam-se cada vez mais presentes.

“Se você está fazendo um carro autônomo, não quer presumir que todos os outros motoristas na estrada são perfeitamente racionais e se comportarão de maneira ideal”, disse. dito Dr. Noam Brown da Meta AI, que não esteve envolvido na pesquisa.

O triunfo do DeepNash vem logo após outro avanço da IA ​​este mês, onde um algoritmo aprendeu a jogar Diplomacia- um jogo que requer negociação e cooperação para vencer. À medida que a IA ganha um raciocínio mais flexível, torna-se mais generalizada e aprende a navegar em situações sociais, ela também pode gerar insights sobre os processos neurais e a cognição de nossos próprios cérebros.

Conheça a Stratego

Em termos de complexidade, Stratego é uma besta completamente diferente em comparação com xadrez, Go ou pôquer - todos os jogos que a IA dominou anteriormente.

O jogo é essencialmente capturar a bandeira. Cada lado tem 40 peças que podem ser colocadas em qualquer posição do tabuleiro. Cada peça tem um nome diferente e classificação numérica, como “marechal”, “general”, “batedor” ou “espião”. As peças de classificação mais alta podem capturar as mais baixas. O objetivo é eliminar a oposição e capturar sua bandeira.

O Stratego é especialmente desafiador para a IA porque os jogadores não podem ver a localização das peças de seus oponentes, tanto durante a configuração inicial quanto durante o jogo. Ao contrário do xadrez ou Go, em que cada peça e movimento estão à vista, o Stratego é um jogo com informações limitadas. Os jogadores devem “equilibrar todos os resultados possíveis” sempre que tomarem uma decisão, explicaram os autores.

Esse nível de incerteza é em parte o motivo pelo qual a Stratego confunde a IA há anos. Mesmo os algoritmos de jogo mais bem-sucedidos, como AlphaGo e AlfaZero, conte com informações completas. O Stratego, ao contrário, tem um toque de Texas Hold 'em, um jogo de pôquer que o DeepMind conquistou anteriormente com um algoritmo. Mas essa estratégia vacilou para Stratego, principalmente por causa da duração do jogo, que ao contrário do pôquer, normalmente envolve centenas de movimentos.

O número de jogadas em potencial é alucinante. O xadrez tem uma posição inicial. Stratego tem mais de 1066 posições iniciais possíveis - muito mais do que todas as estrelas do universo. A árvore de jogo do Stratego, a soma de todos os movimentos potenciais no jogo, totaliza 10 impressionantes535.

“A enorme complexidade do número de resultados possíveis no Stratego significa que algoritmos que funcionam bem em jogos de informação perfeita, e mesmo aqueles que funcionam para pôquer, não funcionam,” dito estudo autor Dr. Julien Perolat em DeepMind. O desafio é “o que nos entusiasmou”, disse ele.

Uma Mente Brilhante

A complexidade do Stratego significa que a estratégia usual para procurar jogadas de jogo está fora de questão. Apelidada de busca em árvore de Monte Carlo, uma “abordagem robusta para jogos baseados em IA”, a técnica traça rotas potenciais – como galhos de uma árvore – que podem resultar em vitória.

Em vez disso, o toque mágico para DeepNash veio do matemático John Nash, retratado no filme Uma Mente Brilhante. Pioneiro na teoria dos jogos, Nash ganhou o Prêmio Nobel por seu trabalho para o equilíbrio de Nash. Simplificando, em cada jogo, os jogadores podem explorar um conjunto de estratégias seguidas por todos, de modo que nenhum jogador ganhe nada mudando sua própria estratégia. No Statego, isso traz um jogo de soma zero: qualquer ganho que um jogador faz resulta em uma perda para o oponente.

Devido à complexidade do Stratego, o DeepNash adotou uma abordagem sem modelo para seu algoritmo. Aqui, a IA não está tentando modelar com precisão o comportamento de seu oponente. Como um bebê, ele tem uma espécie de quadro em branco para aprender. Essa configuração é particularmente útil nos estágios iniciais do jogo, “quando o DeepNash sabe pouco sobre as peças do oponente”, tornando as previsões “difíceis, se não impossíveis”, disseram os autores.

A equipe então usou o aprendizado por reforço profundo para fortalecer o DeepNash, com o objetivo de encontrar o equilíbrio de Nash do jogo. É uma combinação perfeita: o aprendizado por reforço ajuda a decidir o melhor próximo movimento em cada etapa do jogo, enquanto o DeepNash fornece uma estratégia geral de aprendizado. Para avaliar o sistema, a equipe também criou um “tutor” usando o conhecimento do jogo para filtrar erros óbvios que provavelmente não fariam sentido no mundo real.

Errando

Como primeiro passo de aprendizado, o DeepNash jogou contra si mesmo em 5.5 bilhões de jogos, uma abordagem popular no treinamento de IA chamada de autojogo.

Quando um lado vence, a IA é premiada e seus parâmetros de rede neural artificial atuais são fortalecidos. O outro lado – a mesma IA – recebe uma penalidade para diminuir a força de sua rede neural. É como ensaiar um discurso para si mesmo na frente de um espelho. Com o tempo, você descobre os erros e tem um desempenho melhor. No caso do DeepNash, ele se aproxima de um equilíbrio de Nash para obter a melhor jogabilidade.

E o desempenho real?

A equipe testou o algoritmo contra outros bots Stratego de elite, alguns dos quais venceram o Computer Stratego World Championship. DeepNash esmagou seus oponentes com uma taxa de vitória de aproximadamente 97 por cento. Quando lançado contra Gravon - uma plataforma online para jogadores humanos - o DeepNash derrotou seus oponentes humanos. Após mais de duas semanas de partidas contra os jogadores do Gravon em abril deste ano, o DeepNash subiu para o terceiro lugar em todas as partidas classificadas desde 2002.

Isso mostra que não é necessário inicializar dados de jogo humano para IA para que o DeepNash atinja o desempenho de nível humano - e supere-o.

A IA também exibiu um comportamento intrigante com a configuração inicial e durante o jogo. Por exemplo, em vez de se estabelecer em uma posição inicial “otimizada” específica, o DeepNash constantemente mudava as peças para evitar que seu oponente detectasse padrões ao longo do tempo. Durante o jogo, a IA oscilava entre movimentos aparentemente sem sentido - como sacrificar peças de alto escalão - para localizar as peças de alto escalão do oponente no contra-ataque.

DeepNash também pode blefar. Em uma jogada, a IA moveu uma peça de baixo escalão como se fosse de alto escalão, atraindo o oponente humano para perseguir a peça com seu coronel de alto escalão. A IA sacrificou o peão, mas, por sua vez, atraiu a valiosa peça de espionagem do oponente para uma emboscada.

Embora o DeepNash tenha sido desenvolvido para o Stratego, ele pode ser generalizado para o mundo real. O método principal pode potencialmente instruir a IA a lidar melhor com nosso futuro imprevisível usando informações limitadas – desde o controle de tráfego e multidão até a análise da turbulência do mercado.

“Ao criar um sistema de IA generalizável que seja robusto diante da incerteza, esperamos trazer as capacidades de resolução de problemas da IA ​​ainda mais para o nosso mundo inerentemente imprevisível”, disse a equipe.

Crédito de imagem: Derek Bruff/Flickr

Carimbo de hora:

Mais de Singularity Hub