Agentes de IA com 'eus múltiplos' aprendem a se adaptar rapidamente em um mundo em mudança

Agentes de IA com 'múltiplos eus' aprendem a se adaptar rapidamente em um mundo em mudança

Agentes de IA com 'eus múltiplos' aprendem a se adaptar rapidamente em um mundo em mudança PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Todos os dias fazemos malabarismos com diferentes necessidades. Estou com fome, mas exausto; devo cair no sofá ou fazer o jantar? Estou superaquecendo em temperaturas perigosas, mas também com muita sede; devo beber a água morna que está esquentando sob o sol ou enfiar a cabeça no freezer até ter a capacidade mental de fazer gelo?

Quando enfrentamos dilemas, muitas vezes seguimos nossos instintos básicos sem pensar. Mas sob o capô, várias redes neurais estão competindo para tomar a “melhor” decisão a qualquer momento. Durma sobre a comida. Congelador sobre água morna. Em retrospectiva, podem ser decisões terríveis - mas, da próxima vez, aprenderemos com nossos erros do passado.

Nossa adaptabilidade a um mundo em constante mudança é uma superpotência que atualmente escapa à maioria dos agentes de IA. Mesmo os agentes de IA mais sofisticados falham – ou exigem uma quantidade insustentável de tempo de computação – enquanto lidam com objetivos conflitantes.

Para uma equipe liderada pelo Dr. Jonathan Cohen no Princeton Neuroscience Institute, o motivo é simples: os sistemas de aprendizado de máquina geralmente agem como uma única entidade, forçada a avaliar, calcular e executar uma meta por vez. Embora seja capaz de aprender com seus erros, a IA luta para encontrar o equilíbrio certo quando é desafiada por vários objetivos opostos simultaneamente.

Então, por que não separar a IA?

In um novo estudo publicado em PNAS, a equipe pegou uma página da neurociência cognitiva e construiu um agente de IA modular.

A ideia é aparentemente simples. Em vez de uma IA monolítica – uma única rede que abrange todo o “eu” – a equipe construiu um agente modular, cada parte com sua própria “motivação” e objetivos, mas comandando um único “corpo”. Como uma sociedade democrática, o sistema de IA discute consigo mesmo para decidir sobre a melhor resposta, onde a ação com maior probabilidade de produzir o maior resultado vencedor orienta seu próximo passo.

Em várias simulações, a IA modular superou seu par monolítico clássico. Sua adaptabilidade brilhou especialmente quando os pesquisadores aumentaram artificialmente o número de objetivos que ele tinha que manter simultaneamente. A IA estilo Lego se adaptou rapidamente, enquanto sua contraparte monolítica lutou para alcançá-la.

“Uma das questões mais fundamentais sobre agência é como um indivíduo gerencia necessidades conflitantes”, disse a equipe. Ao desconstruir um agente de IA, a pesquisa não fornece apenas informações sobre agentes de aprendizado de máquina mais inteligentes. Também “abre o caminho para a compreensão dos conflitos psicológicos inerentes à psique humana”. escreveu Dr. Rober Boshra na Universidade de Princeton, que não esteve envolvido no trabalho.

O videogame da vida

Como os seres inteligentes aprendem a equilibrar necessidades conflitantes em um mundo complexo e em mudança?

A questão filosófica tem assombrado vários campos – neurociência, psicologia, economia – que investigam a natureza humana. Ainda não temos respostas claras. Mas com a IA enfrentando cada vez mais desafios semelhantes à medida que entra no mundo real, é hora de enfrentar o antigo problema de frente.

O novo estudo aceitou o desafio na forma de um simples RPG (role-playing game). Existem dois personagens que navegam em um mundo semelhante a uma grade, cada um tentando encontrar recursos para sobreviver.

O primeiro competidor: o agente monolítico – também conhecido como o “eu” – treinado usando deep-Q-learning (DQL). Popularizado pela DeepMind, o algoritmo é especialmente poderoso para descobrir a próxima etapa ideal, dependendo de seu estado atual. Por exemplo, como em um videogame, devo ir para a esquerda ou para a direita? Mova qual peça de xadrez ou Go, e para onde? Aqui, o algoritmo pesquisa todo o ambiente enquanto segue um único sinal de recompensa – ou seja, seu objetivo final. De certo modo, o agente monolítico é um cérebro unificado que tenta maximizar o melhor resultado depois de processar simultaneamente todos os recursos em conjunto.

O oponente: IA modular. Como um polvo com membros semiautônomos, o agente de IA é dividido em subagentes, cada um com seus próprios objetivos e feedback. Para tornar a luta justa, cada módulo também é treinado com DQL. Os “cérebros” separados observam seus arredores e aprendem a selecionar a melhor opção – mas apenas sob medida para seus próprios objetivos. Os resultados previstos são então somados. A solução com o resultado ideal potencial é então selecionada, conduzindo o agente de IA para sua próxima escolha.

E o campo de jogo?

O jogo é uma versão extremamente simplificada de um jogo de sobrevivência. Cada agente de IA percorre uma grade bidimensional que possui diferentes tipos de recursos ocultos em algumas regiões. O objetivo é manter as quatro estatísticas do agente em seu nível definido, cada uma diminuindo gradualmente com o tempo. Quando várias estatísticas caem, cabe à IA decidir qual delas priorizar.

Para jogadores de videogame, pense no teste como sendo lançado em um novo mapa de jogo e tentando encontrar recursos para aumentar, por exemplo, saúde, magia, resistência e poder de ataque. Para o nosso dia a dia, é equilibrar fome, temperatura, sono e outras necessidades fisiológicas básicas.

“Por exemplo, se o agente tivesse uma estatística de 'fome' baixa, ele poderia coletar o recurso 'comida' movendo-se para o local desse recurso”, explicou a equipe.

Floresta para as Árvores

O primeiro teste começou com um ambiente relativamente simples. A localização de cada objetivo de recurso foi fixada no canto da arena de jogo. O agente monolítico prontamente manteve suas quatro estatísticas após 30,000 etapas de treinamento, embora tenha passado por um período de overshooting e undershoot até atingir os objetivos almejados. Em contraste, o agente modular aprendeu muito mais rápido. Em 5,000 etapas de aprendizado, o agente já havia capturado uma compreensão do “estado do mundo”.

Parte da proeza da IA ​​modular veio de um senso intrínseco de exploração livre, disseram os autores. Ao contrário dos métodos anteriores para sistemas modulares que dividem e conquistam para atingir um objetivo final, aqui a IA representa uma relação social mais holística – na qual alguns módulos ganham e outros perdem por meio de um estado constante de competição interna.

Como o “corpo” do agente de IA é guiado apenas pelo módulo vencedor, os perdedores têm que aceitar uma decisão com a qual não concordaram e são forçados a uma nova realidade. Eles então precisam se adaptar rapidamente e recalcular a melhor solução para a próxima etapa. Em outras palavras, os módulos geralmente se encontram fora de sua zona de conforto. É um amor difícil, mas os resultados inesperados os forçam a ponderar novas soluções - às vezes produzindo resultados melhores que eles não teriam considerado se enfrentassem o problema sozinhos.

No geral, o sistema modular forma um “ciclo virtuoso com exploração” para melhorar ainda mais as ações de IA, disse o autor do estudo, Zack Dulberg.

Essa adaptabilidade brilhou ainda mais quando a equipe desafiou os dois agentes de IA em ambientes em constante mudança. Em um teste, as posições de meta de recursos foram movidas para um local de grade aleatório em escalas de tempo esporádicas. A IA modular rapidamente percebeu as mudanças e se adaptou a elas, enquanto o agente monolítico teve um desempenho muito pior.

Em outro teste, a equipe aumentou o dial, exigindo que os agentes de IA mantivessem simultaneamente oito fatores em vez dos quatro originais. O teste abordou o problema de que os cálculos se tornam cada vez mais improváveis ​​em termos de tempo e consumo de energia à medida que o número de variáveis ​​aumenta – apelidado de “maldição da dimensionalidade”.

O agente modular adaptou-se rapidamente para caçar recursos para manter seus objetivos. Em contraste, o agente monolítico novamente lutou, demorando muito mais para retornar aos níveis desejados para cada uma de suas estatísticas.

Um Contra Muitos

A abordagem modular é outro exemplo de como explorar a neurociência para o desenvolvimento da IA ​​– ao mesmo tempo em que fornece informações sobre como nossos noggins funcionam.

Semelhante ao trabalho anterior, os módulos modulares mostram que é possível fazer com que um único agente de IA aprenda subproblemas separados e mais fáceis em paralelo de uma forma relativamente descentralizada em termos de processamento de dados. Adicionar um modelo com um sistema de controle hierárquico poderia reforçar a IA, disseram os autores, porque ambas as estruturas existem no mundo natural.

Por enquanto, cada módulo está programado para seus próprios ganhos – um múltiplo de eus. Mas nossos objetivos na vida geralmente estão interligados; por exemplo, aliviar a sede e combater o calor não são mutuamente exclusivos. A equipe destaca a necessidade de integrar esses cruzamentos – e saber se eles são herdados ou aprendidos – em testes futuros.

Para Dulberg, o desconhecido faz parte da emoção. “Como os módulos se desenvolvem? Quais características do ambiente de desenvolvimento pressionam as diferentes soluções?” ele perguntou. “E os benefícios da modularidade explicam por que o conflito psicológico interno parece tão central para a condição humana?”

Crédito de imagem: Anestiev/Pixabay

Carimbo de hora:

Mais de Singularity Hub