Google DeepMind treina 'brainstorming artificial' em IA de xadrez | Revista Quanta

Google DeepMind treina 'brainstorming artificial' em IA de xadrez | Revista Quanta

Google DeepMind treina 'brainstorming artificial' em IA de xadrez | Revista Quanta PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Introdução

Quando a Covid-19 mandou as pessoas para casa no início de 2020, o cientista da computação Tom Zahavy xadrez redescoberto. Ele brincava quando criança e recentemente leu o livro de Garry Kasparov pensamento profundo, um livro de memórias das partidas do grande mestre em 1997 contra o computador de xadrez da IBM, Deep Blue. Ele assistiu a vídeos de xadrez no YouTube e O Gambito da Rainha no Netflix.

Apesar do interesse renovado, Zahavy não procurava formas de melhorar o seu jogo. “Não sou um grande jogador”, disse ele. “Sou melhor em quebra-cabeças de xadrez” – arranjos de peças, muitas vezes inventados e improváveis ​​de ocorrer durante um jogo real, que desafiam o jogador a encontrar maneiras criativas de obter vantagem.

Os quebra-cabeças podem ajudar os jogadores a aprimorar suas habilidades, mas, mais recentemente, ajudaram a revelar as limitações ocultas dos programas de xadrez. Um dos quebra-cabeças mais notórios, idealizado pelo matemático Sir Roger Penrose em 2017, coloca peças pretas mais fortes (como a rainha e as torres) no tabuleiro, mas em posições estranhas. Um jogador humano experiente, jogando com as brancas, poderia facilmente levar o jogo ao empate, mas poderosos programas de xadrez de computador diriam que as pretas tinham uma clara vantagem. Essa diferença, disse Zahavy, sugeria que, embora os computadores pudessem derrotar os melhores jogadores humanos do mundo, eles ainda não conseguiam reconhecer e resolver todos os tipos de problemas difíceis. Desde então, Penrose e outros criaram extensas coleções de quebra-cabeças que os computadores lutam para resolver.

O xadrez tem sido uma pedra de toque para testar novas ideias em inteligência artificial, e os quebra-cabeças de Penrose despertaram o interesse de Zahavy. “Eu estava tentando entender o que torna essas posições tão difíceis para os computadores, quando pelo menos algumas delas podemos resolver como humanos”, disse ele. “Fiquei completamente fascinado.” Logo evoluiu para um interesse profissional: como cientista pesquisador do Google DeepMind, Zahavy explora abordagens criativas para resolução de problemas. O objetivo é conceber sistemas de IA com um espectro de comportamentos possíveis além da execução de uma única tarefa.

Um programa tradicional de xadrez de IA, treinado para vencer, pode não fazer sentido num puzzle de Penrose, mas Zahavy suspeitava que um programa composto por muitos sistemas diversos, trabalhando em conjunto como um grupo, poderia fazer progressos. Então, ele e seus colegas desenvolveram uma maneira de unir vários (até 10) sistemas de IA de tomada de decisão, cada um otimizado e treinado para diferentes estratégias, começando com AlphaZero, o poderoso programa de xadrez da DeepMind. O novo sistema, eles relatado em agosto, jogou melhor que o AlphaZero sozinho e mostrou mais habilidade — e mais criatividade — ao lidar com os quebra-cabeças de Penrose. Essas habilidades vieram, de certa forma, da autocolaboração: se uma abordagem chegasse a um impasse, o programa simplesmente se voltava para outra.

Essa abordagem fundamentalmente faz sentido, disse Allison Liemhetcharat, um cientista da computação da DoorDash que trabalhou com abordagens multiagentes para resolução de problemas em robótica. “Com uma população de agentes, há uma probabilidade maior de que os quebra-cabeças estejam no domínio em que pelo menos um dos agentes foi treinado.”

O trabalho sugere que equipes de diversos sistemas de IA poderiam resolver com eficiência problemas difíceis muito além do tabuleiro de jogo. “Este é um ótimo exemplo de que procurar mais de uma maneira de resolver um problema – como ganhar um jogo de xadrez – traz muitos benefícios”, disse Antoine Cully, pesquisador de IA do Imperial College London que não esteve envolvido no projeto DeepMind. Ele comparou isso a uma versão artificial de sessões de brainstorming humanas. “Este processo de pensamento leva a soluções criativas e eficazes que seriam perdidas sem fazer este exercício.”

Perseguindo Falhas

Antes de ingressar na DeepMind, Zahavy estava interessado em aprendizagem por reforço profundo, uma área da inteligência artificial em que um sistema usa redes neurais para aprender alguma tarefa por tentativa e erro. É a base para os programas de xadrez mais poderosos (e usado em outras aplicações de IA, como carros autônomos). O sistema começa com seu ambiente. No xadrez, por exemplo, o ambiente inclui o tabuleiro de jogo e os movimentos possíveis. Se a tarefa é dirigir um carro, o ambiente inclui tudo ao redor do veículo. O sistema então toma decisões, executa ações e avalia o quão próximo chegou de seu objetivo. À medida que se aproxima da meta, acumula recompensas e, à medida que o sistema acumula recompensas, melhora seu desempenho. A parte “profunda” desta abordagem descreve as redes neurais usadas para analisar e avaliar comportamentos.

O aprendizado por reforço foi como o AlphaZero aprendeu a se tornar um mestre do xadrez. DeepMind relatado que durante as primeiras nove horas de treinamento do programa, em dezembro de 2017, disputou 44 milhões de partidas contra si mesmo. No início, seus movimentos eram determinados aleatoriamente, mas com o tempo ele aprendeu a selecionar movimentos com maior probabilidade de levar ao xeque-mate. Após apenas algumas horas de treinamento, AlphaZero desenvolveu a habilidade de derrotar qualquer jogador de xadrez humano.

Mas por mais bem-sucedido que seja o aprendizado por reforço, ele nem sempre leva a estratégias que reflitam uma compreensão geral do jogo. Ao longo da última meia década, Zahavy e outros notaram um aumento nas falhas peculiares que poderiam acontecer em sistemas treinados por tentativa e erro. Um sistema que joga videogames, por exemplo, pode encontrar uma brecha e descobrir como trapacear ou pular um nível, ou pode facilmente ficar preso em um loop repetitivo. Os quebra-cabeças no estilo Penrose também sugeriam uma espécie de ponto cego, ou falha, no AlphaZero – ele não conseguia descobrir como abordar um problema que nunca tinha visto antes.

Mas talvez nem todas as falhas sejam apenas erros. Zahavy suspeitava que os pontos cegos do AlphaZero poderiam na verdade ser outra coisa disfarçada – decisões e comportamentos ligados às recompensas internas do sistema. Os sistemas de aprendizagem por reforço profundo, disse ele, não sabem como falhar – nem mesmo como reconhecer o fracasso. A capacidade de falhar há muito que está associada à resolução criativa de problemas. “A criatividade tem uma qualidade humana”, escreveu Kasparov em pensamento profundo. “Ele aceita a noção de fracasso.”

Os sistemas de IA normalmente não o fazem. E se um sistema não reconhece que não conseguiu completar a sua tarefa, então pode não tentar outra coisa. Em vez disso, continuará tentando fazer o que já foi feito. Provavelmente foi isso que levou a esses becos sem saída nos videogames – ou a ficar preso em alguns desafios de Penrose, disse Zahavy. O sistema buscava “tipos estranhos de recompensas intrínsecas”, disse ele, que havia desenvolvido durante seu treinamento. Coisas que, vistas de fora, pareciam erros foram provavelmente consequência do desenvolvimento de estratégias específicas, mas, em última análise, malsucedidas.

O sistema considerava essas estranhas recompensas como passos em direção a um objetivo maior, que na verdade não poderia alcançar, e não sabia como tentar algo novo. “Eu estava tentando entendê-los”, disse Zahavy.

Um jogo melhor

Parte da razão pela qual estas falhas podem revelar-se tão importantes – e tão úteis – advém do que os investigadores reconhecem como um problema de generalização. Embora os sistemas de aprendizagem por reforço possam desenvolver uma estratégia eficaz para ligar uma determinada situação a uma acção específica – que os investigadores chamam de “política” – não podem aplicá-la a problemas diferentes. “O que normalmente tende a acontecer com o aprendizado por reforço, quase independentemente do método, é que você obtém a política que resolve a instância específica do problema no qual você está treinando, mas ela não generaliza”, disse Juliano Togelius, cientista da computação da Universidade de Nova York e diretor de pesquisa da modl.ai.

Zahavy viu que os quebra-cabeças de Penrose exigiam exatamente esse tipo de generalização. Talvez o AlphaZero não conseguisse resolver a maioria dos quebra-cabeças porque estava muito focado em vencer jogos inteiros, do início ao fim. Mas essa abordagem introduziu pontos cegos expostos pelos arranjos improváveis ​​das peças nos quebra-cabeças de Penrose. Talvez, pensou ele, o programa pudesse aprender a resolver o quebra-cabeça se tivesse espaço criativo suficiente para debater ideias e acessar diferentes métodos de treinamento.

Então, ele e seus colegas coletaram primeiro um conjunto de 53 quebra-cabeças de Penrose e 15 quebra-cabeças de desafio adicionais. Sozinho, o AlphaZero resolveu menos de 4% dos quebra-cabeças de Penrose e menos de 12% do restante. Zahavy não ficou surpreso: muitos desses quebra-cabeças foram projetados por mestres do xadrez para confundir intencionalmente os computadores.

Como teste, os pesquisadores tentaram treinar o AlphaZero para jogar contra si mesmo usando o quebra-cabeça de Penrose como posição inicial, em vez do tabuleiro completo dos jogos típicos. Seu desempenho melhorou dramaticamente: resolveu 96% dos quebra-cabeças de Penrose e 76% do desafio definido. Em geral, quando o AlphaZero treinasse em um quebra-cabeça específico, ele poderia resolvê-lo, assim como poderia vencer quando treinasse em um jogo completo. Talvez, pensou Zahavy, se um programa de xadrez pudesse de alguma forma ter acesso a todas essas diferentes versões do AlphaZero, treinadas nessas diferentes posições, então essa diversidade poderia despertar a capacidade de abordar novos problemas de forma produtiva. Talvez pudesse generalizar, em outras palavras, resolvendo não apenas os quebra-cabeças de Penrose, mas qualquer problema de xadrez mais amplo.

Seu grupo decidiu descobrir. Eles construíram a nova e diversificada versão do AlphaZero, que inclui vários sistemas de IA que treinam de forma independente e em diversas situações. O algoritmo que governa o sistema geral atua como uma espécie de matchmaker virtual, disse Zahavy: projetado para identificar qual agente tem a melhor chance de sucesso na hora de fazer uma jogada. Ele e seus colegas também codificaram um “bônus de diversidade” – uma recompensa para o sistema sempre que ele extraísse estratégias de uma grande seleção de opções.

Quando o novo sistema foi liberado para jogar seus próprios jogos, a equipe observou muita variedade. O diversificado jogador de IA experimentou aberturas novas e eficazes e decisões novas – mas sólidas – sobre estratégias específicas, como quando e onde rocar. Na maioria das partidas, derrotou o AlphaZero original. A equipe também descobriu que a versão diversificada poderia resolver o dobro de quebra-cabeças desafiadores que o original e poderia resolver mais da metade do catálogo total de quebra-cabeças de Penrose.

“A ideia é que, em vez de encontrar uma solução, ou uma única política, que derrote qualquer jogador, aqui [ela usa] a ideia de diversidade criativa”, disse Cully.

Com acesso a mais e diferentes jogos, disse Zahavy, o diversificado AlphaZero tinha mais opções para situações complicadas quando elas surgiam. “Se você pode controlar o tipo de jogos que ele vê, você basicamente controla como ele irá generalizar”, disse ele. Essas estranhas recompensas intrínsecas (e seus movimentos associados) podem se tornar pontos fortes para diversos comportamentos. Então o sistema poderia aprender a avaliar e valorizar as abordagens díspares e ver quando elas tiveram mais sucesso. “Descobrimos que esse grupo de agentes pode realmente chegar a um acordo sobre essas posições.”

E, o que é crucial, as implicações vão além do xadrez.

Criatividade na vida real

Cully disse que uma abordagem diversificada pode ajudar qualquer sistema de IA, não apenas aqueles baseados em aprendizagem por reforço. Há muito tempo ele usa a diversidade para treinar sistemas físicos, incluindo um robô de seis pernas que lhe foi permitido explorar vários tipos de movimento, antes de o “ferir” intencionalmente, permitindo-lhe continuar a mover-se utilizando algumas das técnicas que tinha desenvolvido anteriormente. “Estávamos apenas tentando encontrar soluções diferentes de todas as soluções anteriores que encontramos até agora.” Recentemente, ele também tem colaborado com pesquisadores para usar a diversidade para identificar novos candidatos promissores a medicamentos e desenvolver estratégias eficazes de negociação de ações.

“O objetivo é gerar uma grande coleção de potencialmente milhares de soluções diferentes, onde cada solução é muito diferente da outra”, disse Cully. Assim – tal como o jogador de xadrez diversificado aprendeu a fazer – para cada tipo de problema, o sistema global poderia escolher a melhor solução possível. O sistema de IA de Zahavy, disse ele, mostra claramente como “a busca por diversas estratégias ajuda a pensar fora da caixa e a encontrar soluções”.

Zahavy suspeita que, para que os sistemas de IA pensem de forma criativa, os investigadores simplesmente têm de levá-los a considerar mais opções. Essa hipótese sugere uma ligação curiosa entre humanos e máquinas: talvez a inteligência seja apenas uma questão de poder computacional. Para um sistema de IA, talvez a criatividade se reduza à capacidade de considerar e selecionar entre um grande buffet de opções. À medida que o sistema ganha recompensas pela selecção de uma variedade de estratégias óptimas, este tipo de resolução criativa de problemas é reforçado e fortalecido. Em última análise, em teoria, poderia emular qualquer tipo de estratégia de resolução de problemas reconhecida como criativa nos seres humanos. A criatividade se tornaria um problema computacional.

Liemhetcharat observou que é improvável que um sistema diversificado de IA resolva completamente o problema mais amplo de generalização no aprendizado de máquina. Mas é um passo na direção certa. “Isso está atenuando uma das deficiências”, disse ela.

De forma mais prática, os resultados de Zahavy ressoam com os esforços recentes que mostram como a cooperação pode levar a um melhor desempenho em tarefas difíceis entre os seres humanos. A maioria dos sucessos da lista Billboard 100 foram escritos por equipes de compositores, por exemplo, e não por indivíduos. E ainda há espaço para melhorias. A abordagem diversificada é atualmente computacionalmente dispendiosa, uma vez que deve considerar muito mais possibilidades do que um sistema típico. Zahavy também não está convencido de que mesmo o AlphaZero diversificado capture todo o espectro de possibilidades.

“Ainda acho que há espaço para encontrar soluções diferentes”, disse ele. “Não está claro para mim que, dados todos os dados do mundo, haja [apenas] uma resposta para cada pergunta.”

Quanta está realizando uma série de pesquisas para melhor atender nosso público. Pegue nosso pesquisa com leitores de ciência da computação e você estará inscrito para ganhar de graça Quanta mercadoria.

Carimbo de hora:

Mais de Quantagazine