AI autodidata mostra semelhanças com o funcionamento do cérebro PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

AI autodidata mostra semelhanças com o funcionamento do cérebro

Por uma década, muitos dos sistemas de inteligência artificial mais impressionantes foram ensinados usando um enorme inventário de dados rotulados. Uma imagem pode ser rotulada como “gato malhado” ou “gato tigre”, por exemplo, para “treinar” uma rede neural artificial para distinguir corretamente um gato malhado de um tigre. A estratégia foi espetacularmente bem-sucedida e lamentavelmente deficiente.

Esse treinamento “supervisionado” requer dados laboriosamente rotulados por humanos, e as redes neurais muitas vezes pegam atalhos, aprendendo a associar os rótulos a informações mínimas e às vezes superficiais. Por exemplo, uma rede neural pode usar a presença de grama para reconhecer uma foto de uma vaca, porque as vacas geralmente são fotografadas em campos.

“Estamos criando uma geração de algoritmos que são como alunos de graduação [que] não vieram para a aula o semestre inteiro e, na noite anterior à final, eles estão estudando”, disse Alexei Efros, cientista da computação da Universidade da Califórnia, Berkeley. “Eles realmente não aprendem o material, mas se saem bem no teste.”

Além disso, para pesquisadores interessados ​​na interseção da inteligência animal e da máquina, esse “aprendizado supervisionado” pode ser limitado no que pode revelar sobre cérebros biológicos. Animais – incluindo humanos – não usam conjuntos de dados rotulados para aprender. Na maioria das vezes, eles exploram o ambiente por conta própria e, ao fazê-lo, obtêm uma compreensão rica e robusta do mundo.

Agora, alguns neurocientistas computacionais começaram a explorar redes neurais que foram treinadas com poucos ou nenhuns dados rotulados por humanos. Esses algoritmos de “aprendizagem autossupervisionada” provaram ser extremamente bem-sucedidos em modelando a linguagem humana e, mais recentemente, reconhecimento de imagem. Em trabalhos recentes, modelos computacionais dos sistemas visuais e auditivos de mamíferos construídos usando modelos de aprendizado autossupervisionado mostraram uma correspondência mais próxima com a função cerebral do que seus equivalentes de aprendizado supervisionado. Para alguns neurocientistas, parece que as redes artificiais estão começando a revelar alguns dos métodos reais que nossos cérebros usam para aprender.

Supervisão defeituosa

Modelos cerebrais inspirados em redes neurais artificiais surgiram cerca de 10 anos atrás, na mesma época em que uma rede neural chamada Alex Net revolucionou a tarefa de classificar imagens desconhecidas. Essa rede, como todas as redes neurais, era feita de camadas de neurônios artificiais, unidades computacionais que formam conexões entre si que podem variar em força ou “peso”. Se uma rede neural não conseguir classificar uma imagem corretamente, o algoritmo de aprendizado atualiza os pesos das conexões entre os neurônios para tornar essa classificação incorreta menos provável na próxima rodada de treinamento. O algoritmo repete esse processo muitas vezes com todas as imagens de treinamento, ajustando pesos, até que a taxa de erro da rede seja aceitavelmente baixa.

Na mesma época, neurocientistas desenvolveram os primeiros modelos computacionais da sistema visual primata, usando redes neurais como AlexNet e seus sucessores. A união parecia promissora: quando macacos e redes neurais artificiais viram as mesmas imagens, por exemplo, a atividade dos neurônios reais e dos neurônios artificiais mostrou uma correspondência intrigante. Seguiram-se modelos artificiais de audição e detecção de odores.

Mas à medida que o campo progredia, os pesquisadores perceberam as limitações do treinamento supervisionado. Por exemplo, em 2017, Leon Gatys, um cientista da computação da Universidade de Tübingen, na Alemanha, e seus colegas tiraram uma imagem de um Ford Modelo T e, em seguida, sobrepuseram um padrão de pele de leopardo na foto, gerando uma imagem bizarra, mas facilmente reconhecível. . Uma rede neural artificial líder classificou corretamente a imagem original como um Modelo T, mas considerou a imagem modificada um leopardo. Ele havia se fixado na textura e não entendia a forma de um carro (ou de um leopardo).

As estratégias de aprendizagem auto-supervisionada são projetadas para evitar tais problemas. Nesta abordagem, os humanos não rotulam os dados. Em vez disso, “os rótulos vêm dos próprios dados”, disse Friedemann Zenke, neurocientista computacional do Friedrich Miescher Institute for Biomedical Research em Basel, Suíça. Algoritmos autosupervisionados essencialmente criam lacunas nos dados e pedem à rede neural para preencher os espaços em branco. Em um chamado modelo de linguagem grande, por exemplo, o algoritmo de treinamento mostrará à rede neural as primeiras palavras de uma frase e pedirá que ela preveja a próxima palavra. Quando treinado com um enorme corpus de texto obtido da internet, o modelo parece aprender a estrutura sintática da língua, demonstrando impressionante habilidade linguística - tudo sem rótulos externos ou supervisão.

Um esforço semelhante está em andamento na visão computacional. No final de 2021, Kaiming ele e colegas revelaram seu “codificador automático mascarado”, que se baseia em um técnica iniciado pela equipe da Efros em 2016. O algoritmo de aprendizado autossupervisionado mascara imagens aleatoriamente, obscurecendo quase três quartos de cada uma. O codificador automático mascarado transforma as partes não mascaradas em representações latentes - descrições matemáticas compactadas que contêm informações importantes sobre um objeto. (No caso de uma imagem, a representação latente pode ser uma descrição matemática que captura, entre outras coisas, a forma de um objeto na imagem.) Um decodificador então converte essas representações de volta em imagens completas.

O algoritmo de aprendizado autossupervisionado treina a combinação codificador-decodificador para transformar imagens mascaradas em suas versões completas. Quaisquer diferenças entre as imagens reais e as reconstruídas são realimentadas no sistema para ajudá-lo a aprender. Esse processo se repete para um conjunto de imagens de treinamento até que a taxa de erro do sistema seja adequadamente baixa. Em um exemplo, quando um autocodificador mascarado treinado viu uma imagem inédita de um ônibus com quase 80% dele obscurecido, o sistema reconstruiu com sucesso a estrutura do ônibus.

“Este é um resultado muito, muito impressionante”, disse Efros.

As representações latentes criadas em um sistema como este parecem conter informações substancialmente mais profundas do que as estratégias anteriores poderiam incluir. O sistema pode aprender a forma de um carro, por exemplo – ou um leopardo – e não apenas seus padrões. “E essa é realmente a ideia fundamental do aprendizado autossupervisionado – você constrói seu conhecimento de baixo para cima”, disse Efros. Nada de empurrões de última hora para passar nos testes.

Cérebros Autossupervisionados

Em sistemas como esse, alguns neurocientistas veem ecos de como aprendemos. “Acho que não há dúvida de que 90% do que o cérebro faz é aprendizado autossupervisionado”, disse Blake Richards, neurocientista computacional da Universidade McGill e Mila, o Instituto de Inteligência Artificial de Quebec. Pensa-se que os cérebros biológicos estão prevendo continuamente, digamos, a localização futura de um objeto à medida que ele se move, ou a próxima palavra em uma frase, assim como um algoritmo de aprendizado autossupervisionado tenta prever a lacuna em uma imagem ou um segmento de texto. E os cérebros também aprendem com seus erros por conta própria – apenas uma pequena parte do feedback do nosso cérebro vem de uma fonte externa dizendo, essencialmente, “resposta errada”.

Por exemplo, considere os sistemas visuais de humanos e outros primatas. Esses são os sistemas sensoriais mais bem estudados de todos os animais, mas os neurocientistas têm se esforçado para explicar por que eles incluem dois caminhos separados: o fluxo visual ventral, responsável por reconhecer objetos e rostos, e o fluxo visual dorsal, que processa o movimento (o o quê” e “onde”, respectivamente).

Richards e sua equipe criaram um modelo autossupervisionado que sugere uma resposta. Elas treinado uma IA que combinou duas redes neurais diferentes: a primeira, chamada de arquitetura ResNet, foi projetada para processar imagens; a segunda, conhecida como rede recorrente, pode acompanhar uma sequência de entradas anteriores para fazer previsões sobre a próxima entrada esperada. Para treinar a IA combinada, a equipe começou com uma sequência de, digamos, 10 quadros de um vídeo e deixou a ResNet processá-los um por um. A rede recorrente então previu a representação latente do 11º quadro, embora não simplesmente corresponda aos primeiros 10 quadros. O algoritmo de aprendizado autossupervisionado comparou a previsão com o valor real e instruiu as redes neurais a atualizar seus pesos para melhorar a previsão.

A equipe de Richards descobriu que uma IA treinada com um único ResNet era boa no reconhecimento de objetos, mas não na categorização de movimento. Mas quando eles dividiram o único ResNet em dois, criando dois caminhos (sem alterar o número total de neurônios), a IA desenvolveu representações para objetos em um e para movimento no outro, permitindo a categorização dessas propriedades – assim como nossos cérebros provavelmente Faz.

Para testar ainda mais a IA, a equipe mostrou um conjunto de vídeos que pesquisadores do Allen Institute for Brain Science, em Seattle, haviam mostrado anteriormente a camundongos. Assim como os primatas, os camundongos têm regiões cerebrais especializadas em imagens estáticas e em movimento. Os pesquisadores de Allen registraram a atividade neural no córtex visual do rato enquanto os animais assistiam aos vídeos.

Aqui também, a equipe de Richards encontrou semelhanças na maneira como a IA e os cérebros vivos reagiram aos vídeos. Durante o treinamento, uma das vias da rede neural artificial tornou-se mais semelhante às regiões ventrais de detecção de objetos do cérebro do rato, e a outra via tornou-se semelhante às regiões dorsais focadas no movimento.

Os resultados sugerem que nosso sistema visual tem dois caminhos especializados porque ajudam a prever o futuro visual, disse Richards; um único caminho não é bom o suficiente.

Modelos do sistema auditivo humano contam uma história semelhante. Em junho, uma equipe liderada por Jean-Rémi King, pesquisador da Meta AI, treinou uma IA chamada Wav2Vec 2.0, que usa uma rede neural para transformar áudio em representações latentes. Os pesquisadores mascaram algumas dessas representações, que então alimentam outro componente de rede neural chamado transformador. Durante o treinamento, o transformador prevê as informações mascaradas. No processo, toda a IA aprende a transformar sons em representações latentes – novamente, sem necessidade de rótulos. A equipe usou cerca de 600 horas de dados de fala para treinar a rede, “que é aproximadamente o que uma criança obteria nos primeiros dois anos de experiência”, disse King.

Depois que o sistema foi treinado, os pesquisadores reproduziram seções de audiolivros em inglês, francês e mandarim. Os pesquisadores então compararam o desempenho da IA ​​com dados de 412 pessoas – uma mistura de falantes nativos das três línguas que ouviram os mesmos trechos de áudio enquanto tinham seus cérebros fotografados em um scanner de ressonância magnética. King disse que sua rede neural e os cérebros humanos, apesar das imagens ruidosas e de baixa resolução de fMRI, “não apenas se correlacionam, mas se correlacionam de maneira sistemática”: A atividade nas camadas iniciais da IA ​​se alinha com a atividade no córtex auditivo primário, enquanto a atividade das camadas mais profundas da IA ​​se alinha com a atividade nas camadas superiores do cérebro, neste caso o córtex pré-frontal. “São dados realmente bonitos”, disse Richards. “Não é conclusivo, mas [é] outra evidência convincente para sugerir que, de fato, a maneira como aprendemos a linguagem é em grande parte tentando prever as próximas coisas que serão ditas”.

Patologias Não Curadas

Nem todo mundo está convencido. Josh McDermott, neurocientista computacional do Instituto de Tecnologia de Massachusetts, trabalhou em modelos de visão e percepção auditiva usando aprendizado supervisionado e autossupervisionado. Seu laboratório projetou o que ele chama de “metâmeros”, sinais sonoros e visuais sintetizados que, para um humano, são apenas barulho inescrutável. Para uma rede neural artificial, no entanto, os metameros parecem indistinguíveis dos sinais reais. Isso sugere que as representações que se formam nas camadas mais profundas da rede neural, mesmo com aprendizado autossupervisionado, não correspondem às representações em nossos cérebros. Essas abordagens de aprendizado autossupervisionado “são um progresso no sentido de que você é capaz de aprender representações que podem suportar muitos comportamentos de reconhecimento sem precisar de todos esses rótulos”, disse McDermott. “Mas eles ainda têm muitas patologias dos modelos supervisionados.”

Os próprios algoritmos também precisam de mais trabalho. Por exemplo, no Wav2Vec 2.0 da Meta AI, a IA só prevê representações latentes para algumas dezenas de milissegundos de som - menos tempo do que leva para emitir um ruído perceptivelmente distinto, muito menos uma palavra. “Há muitas coisas a serem feitas para fazer algo semelhante ao que o cérebro faz”, disse King.

A verdadeira compreensão da função cerebral exigirá mais do que aprendizado autossupervisionado. Por um lado, o cérebro está cheio de conexões de feedback, enquanto os modelos atuais têm poucas dessas conexões, se houver. Um próximo passo óbvio seria usar o aprendizado autossupervisionado para treinar redes altamente recorrentes – um processo difícil – e ver como a atividade nessas redes se compara à atividade cerebral real. O outro passo crucial seria combinar a atividade de neurônios artificiais em modelos de aprendizado autossupervisionados com a atividade de neurônios biológicos individuais. “Esperamos que, no futuro, [nossos] resultados também sejam confirmados com gravações de célula única”, disse King.

Se as semelhanças observadas entre cérebros e modelos de aprendizado autossupervisionado valerem para outras tarefas sensoriais, será uma indicação ainda mais forte de que qualquer mágica que nossos cérebros sejam capazes de fazer requer aprendizado autossupervisionado de alguma forma. “Se encontrarmos semelhanças sistemáticas entre sistemas muito diferentes, isso sugeriria que talvez não haja muitas maneiras de processar informações de maneira inteligente”, disse King. “Pelo menos, essa é a bela hipótese com a qual gostaríamos de trabalhar.”

Carimbo de hora:

Mais de Quantagazine