Como os transformadores parecem imitar partes do cérebro PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Como os transformadores parecem imitar partes do cérebro

Compreender como o cérebro organiza e acessa informações espaciais – onde estamos, o que está ao virar da esquina, como chegar lá – continua sendo um desafio primoroso. O processo envolve a recuperação de uma rede inteira de memórias e dados espaciais armazenados de dezenas de bilhões de neurônios, cada um conectado a milhares de outros. Os neurocientistas identificaram elementos-chave, como células de grade, neurônios que mapeiam localizações. Mas ir mais fundo será complicado: não é como se os pesquisadores pudessem remover e estudar fatias de matéria cinzenta humana para observar como as memórias de imagens, sons e cheiros baseadas em localização fluem e se conectam.

A inteligência artificial oferece outra maneira de entrar. Durante anos, os neurocientistas utilizaram muitos tipos de redes neurais – os motores que alimentam a maioria dos aplicativos de aprendizado profundo – para modelar o disparo de neurônios no cérebro. Em trabalhos recentes, pesquisadores mostraram que o hipocampo, uma estrutura do cérebro fundamental para a memória, é basicamente um tipo especial de rede neural, conhecida como transformador, disfarçado. Seu novo modelo rastreia informações espaciais de uma maneira que se assemelha ao funcionamento interno do cérebro. Eles tiveram um sucesso notável.

“O fato de sabermos que esses modelos do cérebro são equivalentes ao transformador significa que nossos modelos têm um desempenho muito melhor e são mais fáceis de treinar”, disse James Whittington, um neurocientista cognitivo que divide seu tempo entre a Universidade de Stanford e o laboratório de Tim Behrens na Universidade de Oxford.

Estudos de Whittington e outros sugerem que os transformadores podem melhorar muito a capacidade dos modelos de redes neurais de imitar os tipos de cálculos realizados por células de grade e outras partes do cérebro. Esses modelos podem impulsionar nossa compreensão de como as redes neurais artificiais funcionam e, mais provavelmente, como os cálculos são realizados no cérebro, disse Whittington.

“Não estamos tentando recriar o cérebro”, disse David Ha, um cientista da computação do Google Brain que também trabalha em modelos de transformadores. “Mas podemos criar um mecanismo que possa fazer o que o cérebro faz?”

Os transformadores apareceram pela primeira vez há cinco anos como uma nova maneira de a IA processar a linguagem. Eles são o molho secreto naqueles programas de conclusão de frases que ganham manchetes como BERT e GPT-3, que pode gerar letras de músicas convincentes, compor sonetos shakespearianos e representar representantes de atendimento ao cliente.

Os transformadores funcionam usando um mecanismo chamado autoatenção, no qual cada entrada – uma palavra, um pixel, um número em uma sequência – está sempre conectada a todas as outras entradas. (Outras redes neurais conectam entradas apenas a algumas outras entradas.) Mas, embora os transformadores tenham sido projetados para tarefas de linguagem, eles se destacaram em outras tarefas, como classificar imagens – e agora, modelar o cérebro.

Em 2020, um grupo liderado por Sepp Hochreiter, um cientista da computação da Johannes Kepler University Linz, na Áustria, usou um transformador para reequipar um modelo poderoso e de longa data de recuperação de memória chamado rede Hopfield. Introduzidas pela primeira vez há 40 anos pelo físico de Princeton John Hopfield, essas redes seguem uma regra geral: neurônios que estão ativos ao mesmo tempo constroem fortes conexões entre si.

Hochreiter e seus colaboradores, observando que os pesquisadores estão procurando melhores modelos de recuperação de memória, viram uma conexão entre como as redes Hopfield recuperam memórias e como os transformadores realizam a atenção. Eles atualizaram a rede Hopfield, essencialmente transformando-a em um transformador. Essa mudança permitiu que o modelo armazenasse e recuperasse mais memórias por causa de conexões mais eficazes, disse Whittington. O próprio Hopfield, junto com Dmitry Krotov no MIT-IBM Watson AI Lab, provou que uma rede Hopfield baseada em transformador era biologicamente plausível.

Em seguida, no início deste ano, Whittington e Behrens ajudaram a ajustar ainda mais a abordagem de Hochreiter, modificando o transformador para que, em vez de tratar as memórias como uma sequência linear – como uma sequência de palavras em uma frase – ele as codificasse como coordenadas em espaços de dimensão superior. Essa “torção”, como os pesquisadores a chamaram, melhorou ainda mais o desempenho do modelo em tarefas de neurociência. Eles também mostraram que o modelo era matematicamente equivalente aos modelos dos padrões de disparo de células de grade que os neurocientistas veem em exames de ressonância magnética.

“As células de grade têm esse tipo de estrutura excitante, bonita e regular e com padrões impressionantes que dificilmente aparecerão aleatoriamente”, disse Caswell Barry, neurocientista da University College London. O novo trabalho mostrou como os transformadores replicam exatamente os padrões observados no hipocampo. “Eles reconheceram que um transformador pode descobrir onde está baseado em estados anteriores e como é movido, e de uma maneira que é inserida nos modelos tradicionais de células de grade”.

Outro trabalho recente sugere que os transformadores também podem avançar nossa compreensão de outras funções cerebrais. No ano passado, Martin Schrimpf, neurocientista computacional do Instituto de Tecnologia de Massachusetts, analisou 43 modelos de redes neurais diferentes para ver o quão bem eles previram as medições da atividade neural humana, conforme relatado por fMRI e eletrocorticografia. Os transformadores, ele descobriu, são as atuais redes neurais de última geração, prevendo quase todas as variações encontradas na imagem.

E Ha, junto com seu colega cientista da computação Yu Jin Tang, projetou recentemente um modelo que poderia enviar intencionalmente grandes quantidades de dados através de um transformador de forma aleatória e desordenada, imitando como o corpo humano transmite observações sensoriais ao cérebro. Seu transformador, como nossos cérebros, poderia lidar com sucesso com um fluxo desordenado de informações.

“As redes neurais são programadas para aceitar uma entrada específica”, disse Tang. Mas na vida real, os conjuntos de dados geralmente mudam rapidamente e a maioria da IA ​​não tem como se ajustar. “Queríamos experimentar uma arquitetura que pudesse se adaptar muito rapidamente.”

Apesar desses sinais de progresso, Behrens vê os transformadores como apenas um passo em direção a um modelo preciso do cérebro – não o fim da busca. "Eu tenho que ser um neurocientista cético aqui", disse ele. “Não acho que os transformadores acabarão sendo como pensamos sobre a linguagem no cérebro, por exemplo, mesmo que tenham o melhor modelo atual de frases.”

“Esta é a base mais eficiente para fazer previsões sobre onde estou e o que verei a seguir? Para ser honesto, é muito cedo para dizer”, disse Barry.

Schrimpf também observou que mesmo os transformadores de melhor desempenho são limitados, funcionando bem para palavras e frases curtas, por exemplo, mas não para tarefas de linguagem de maior escala, como contar histórias.

“Minha sensação é que essa arquitetura, esse transformador, coloca você no espaço certo para entender a estrutura do cérebro e pode ser melhorado com treinamento”, disse Schrimpf. “Esta é uma boa direção, mas o campo é super complexo.”

Carimbo de hora:

Mais de Quantagazine