Por que todo mundo adora o ChatGPT Chatbot PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Por que todo mundo adora o ChatGPT Chatbot

Outro jogo que há muito se acredita ser muito desafiador para a inteligência artificial (IA) conquistar caiu para os bots: Stratego.

DeepNash, uma IA feita por empresa com sede em Londres DeepMind, agora corresponde a humanos experientes no Stratego, um jogo de tabuleiro que exige pensamento estratégico de longo prazo contra informações imperfeitas.

Este último feito vem na esteira de mais uma grande vitória para os AIs em jogos que antes eram considerados o forte dos humanos.

Na semana passada, Meta's Cicero, uma IA que pode ser mais esperto que jogadores humanos no jogo da Diplomacia, fez história por ser mais esperto que seus oponentes online.

“A taxa na qual recursos de jogo qualitativamente diferentes foram conquistados – ou dominados em novos níveis – pela IA nos últimos anos é bastante notável”, diz Michael Wellman, da Universidade de Michigan em Ann Arbor, um cientista da computação que estuda raciocínio estratégico e jogos. teoria.

“Stratego e Diplomacy são bastante diferentes um do outro e também possuem características desafiadoras notavelmente diferentes de jogos para os quais marcos análogos foram alcançados”, disse Wellman.

informação imperfeita

O jogo tem características geralmente muito mais complicadas do que xadrez, Go ou pôquer. Xadrez, Go e Poker foram todos dominados por IAs.

No jogo Stratego, dois jogadores colocam 40 peças cada um em um tabuleiro, mas não devem ver quais são as peças do adversário.

O objetivo do jogo é mover as peças em turnos para eliminar as do adversário e capturar uma bandeira. 

A árvore de jogo do Stratego - um gráfico de todas as maneiras possíveis que o jogo poderia seguir - tem 10535 estados contra 10360 do Go. 

Quando se trata de informações imperfeitas no início de um jogo, o Stratego tem 1066 posições privadas possíveis, um número que supera apenas 106 dessas situações iniciais no pôquer Texas hold'em para dois jogadores.

“A enorme complexidade do número de resultados possíveis no Stratego significa que os algoritmos que funcionam bem em jogos de informação perfeita, e mesmo aqueles que funcionam para o pôquer, não funcionam”, diz Julien Perolat, um pesquisador da DeepMind baseado em Paris.

DeepNash foi desenvolvido por Perolat e seus colegas.

bot inspirado em Nash

O nome do bot é uma homenagem ao famoso matemático americano John Nash, que criou a teoria do equilíbrio de Nash que supõe que existe um “conjunto estável de estratégias” que pode ser seguido pelos jogadores de uma maneira que nenhum jogador se beneficie ao mudar de estratégia por conta deles. Como tal, os jogos tendem a ter zero, um ou muitos equilíbrios de Nash.

O DeepNash combina o algoritmo de aprendizado por reforço e uma rede neural profunda para encontrar um equilíbrio de Nash. 

Geralmente, o aprendizado por reforço é onde um agente inteligente (programa de computador) interage com o ambiente e aprende a melhor política para ditar a ação para cada estado de um jogo. 

Para ter uma política ideal, o DeepNash jogou um total de 5.5 bilhões de jogos contra si mesmo. 

Em essência, se um lado é penalizado, o outro é recompensado, e as variáveis ​​da rede neural – que representam a política – são ajustadas de acordo.

IA supera os humanos no Stratego – Conheça o DeepMash

IA supera os humanos no Stratego – Conheça o DeepMash

Em algum momento, DeepNash converge para um equilíbrio de Nash aproximado. Ao contrário de outros Bots, DeepNash otimiza-se sem sprocurando na árvore do jogo.

Por duas semanas, o DeepNash jogou contra jogadores humanos do Stratego na plataforma de jogos online Gravon.

Depois de competir em 50 partidas, o Ai ficou em terceiro lugar entre todos os jogadores do Gravon Stratego desde 2002. 

“Nosso trabalho mostra que um jogo tão complexo como o Stratego, envolvendo informações imperfeitas, não requer técnicas de busca para resolvê-lo”, diz o membro da equipe Karl Tuyls, pesquisador da DeepMind baseado em Paris. “Este é realmente um grande passo à frente na IA.”

Outros pesquisadores também estão impressionados com esse feito.

Resultados impressionantes

“Os resultados são impressionantes”, concorda Noam Brown, pesquisador da Meta AI, com sede em Nova York, e integrante da equipe que em 2019 divulgou o AI Pluribus4 para jogadores de pôquer.

Na Meta, empresa controladora do Facebook, Brown e seus colegas construíram uma IA capaz de jogar Diplomacy, um jogo em que sete jogadores competem pelo controle geográfico da Europa movendo peças em um mapa.

Em Diplomacy, o objetivo é assumir o controle dos centros de suprimentos movendo unidades (frotas e exércitos). 

Meta diz que Cicero é bastante significativo porque a IA depende de ambientes não adversários.

Ao contrário do passado, onde grandes sucessos anteriores para IA multiagente ocorreram em ambientes puramente adversários, como xadrez, go e pôquer, onde a comunicação não tem valor, Cicero emprega um mecanismo de raciocínio estratégico e um módulo de diálogo controlável.

“Quando você vai além dos jogos de soma zero para dois jogadores, a ideia de equilíbrio de Nash não é mais tão útil para jogar bem com humanos”, diz Brown.

Brown e sua equipe treinaram Cícero usando dados de 125,261 jogos de uma versão online do Diplomacy envolvendo jogadores humanos. 

Usando dados de jogo próprio e um módulo de raciocínio estratégico (SRM), Cícero aprendeu a prever o julgamento pelo estado do jogo e as mensagens acumuladas, os prováveis ​​movimentos e políticas dos outros jogadores. 

IA supera os humanos no Stratego – Conheça o DeepMash

IA supera os humanos no Stratego – Conheça o DeepMash

Meta diz que coletou dados de 125,261 jogos de Diplomacy jogados online em webDiplomacy.net. Desses jogos, um total de 40,408 jogos continham diálogos, com um total de 12,901,662 mensagens trocadas entre os jogadores.

Comportamento do mundo real

Brown acredita que bots como Cícero podem interagir com humanos e explicar “ações humanas abaixo do ideal ou mesmo irracionais podem abrir caminho para aplicações do mundo real”.

“Se você está fazendo um carro autônomo, não quer presumir que todos os outros motoristas na estrada são perfeitamente racionais e se comportarão de maneira ideal”, diz ele.

Cícero, acrescenta, é um grande passo nessa direção. “Ainda temos um pé no mundo do jogo, mas agora também temos um pé no mundo real.”

Outros, como Wellman, concordam, mas insistem que mais trabalho ainda precisa ser feito. “Muitas dessas técnicas são realmente relevantes além dos jogos recreativos” para aplicações no mundo real, diz ele. “No entanto, em algum momento, os principais laboratórios de pesquisa de IA precisam ir além dos ambientes recreativos e descobrir como medir o progresso científico nos 'jogos' do mundo real mais macios com os quais realmente nos preocupamos."

/MetaNotícias.

Carimbo de hora:

Mais de MetaNotícias