Esta IA da DeepMind aprende rapidamente novas habilidades apenas observando os humanos

Esta IA da DeepMind aprende rapidamente novas habilidades apenas observando os humanos

Esta DeepMind AI aprende rapidamente novas habilidades apenas observando a inteligência de dados humana PlatoBlockchain. Pesquisa vertical. Ai.

Ensinar algoritmos para imitar humanos normalmente requer centenas ou milhares de exemplos. Mas uma nova IA do Google DeepMind pode adquirir novas habilidades de demonstradores humanos instantaneamente.

Um dos maiores truques da humanidade é a nossa capacidade de adquirir conhecimento uns dos outros de forma rápida e eficiente. Este tipo de aprendizagem social, muitas vezes referida como transmissão cultural, é o que nos permite mostrar a um colega como usar uma nova ferramenta ou ensinar canções infantis aos nossos filhos.

Não é nenhuma surpresa que os pesquisadores tenham tentado replicar o processo em máquinas. A aprendizagem por imitação, na qual a IA observa um humano completar uma tarefa e depois tenta imitar seu comportamento, tem sido uma abordagem popular para treinar robôs. Mas mesmo os algoritmos de aprendizagem profunda mais avançados de hoje normalmente precisam ver muitos exemplos antes de poderem copiar com sucesso seus treinadores.

Quando os humanos aprendem por imitação, muitas vezes conseguem aprender novas tarefas depois de apenas algumas demonstrações. Agora, os pesquisadores do Google DeepMind deram um passo em direção ao rápido aprendizado social em IA com agentes que aprendem a navegar em um mundo virtual a partir de humanos em tempo real.

“Nossos agentes conseguem imitar um ser humano em tempo real em novos contextos sem usar quaisquer dados humanos pré-coletados”, escrevem os pesquisadores em um comunicado. em papel Natureza das Comunicações. "Identificamos um conjunto surpreendentemente simples de ingredientes suficientes para gerar transmissão cultural.”

Os pesquisadores treinaram seus agentes em um simulador especialmente projetado chamado GoalCycle3D. O simulador usa um algoritmo para gerar um número quase infinito de ambientes diferentes com base em regras sobre como a simulação deve funcionar e quais aspectos dela devem variar.

Em cada ambiente, pequenas bolhas Agentes AI deve navegar por terrenos irregulares e vários obstáculos para passar por uma série de esferas coloridas em uma ordem específica. A irregularidade do terreno, a densidade dos obstáculos e a configuração das esferas variam entre os ambientes.

Os agentes são treinados para navegar usando aprendizagem de reforço. Eles ganham uma recompensa por passar pelas esferas na ordem correta e usam esse sinal para melhorar seu desempenho em muitas provas. Mas, além disso, os ambientes também contam com um agente especialista – que é codificado ou controlado por um ser humano – que já conhece o caminho correto ao longo do curso.

Ao longo de muitos treinamentos, os agentes de IA aprendem não apenas os fundamentos de como os ambientes funcionam, mas também que a maneira mais rápida de resolver cada problema é imitar o especialista. Para garantir que os agentes aprendessem a imitar, em vez de apenas memorizar os cursos, a equipe os treinou em um conjunto de ambientes e depois os testou em outro. Fundamentalmente, após o treino, a equipa mostrou que os seus agentes conseguiam imitar um especialista e continuar a seguir o percurso mesmo sem o especialista.

Isso exigiu alguns ajustes nas abordagens padrão de aprendizagem por reforço.

Os pesquisadores fizeram o algoritmo focar no especialista, fazendo com que ele previsse a localização do outro agente. Eles também deram um módulo de memória. Durante o treinamento, o especialista entrava e saía dos ambientes, obrigando o agente a memorizar suas ações para quando não estivesse mais presente. A IA também treinou em um amplo conjunto de ambientes, o que garantiu a visualização de uma ampla gama de tarefas possíveis.

No entanto, pode ser difícil traduzir a abordagem para domínios mais práticos. Uma limitação importante é que quando os investigadores testaram se a IA poderia aprender com demonstrações humanas, o agente especialista foi controlado por uma pessoa durante todos os treinos. Isso torna difícil saber se os agentes poderiam aprender com uma variedade de pessoas.

Mais premente, a capacidade de alterar aleatoriamente o ambiente de treino seria difícil de recriar no mundo real. E a tarefa subjacente era simples, não exigindo controle motor fino e ocorrendo em ambientes virtuais altamente controlados.

Ainda assim, o progresso da aprendizagem social na IA é bem-vindo. Se quisermos viver num mundo com máquinas inteligentes, será crucial encontrar formas eficientes e intuitivas de partilhar a nossa experiência e conhecimento com elas.

Crédito de imagem: Juliana e Mariana Amorim / Unsplash

Carimbo de hora:

Mais de Singularity Hub