Como o raciocínio da cadeia de pensamento ajuda a calcular redes neurais

Republicado por Platão

seguidores: 0

Como o raciocínio da cadeia de pensamento ajuda a calcular redes neurais | Revista Quanta PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Seu professor do ensino fundamental provavelmente não lhe mostrou como somar números de 20 dígitos. Mas se você sabe somar números menores, tudo que você precisa é de papel, lápis e um pouco de paciência. Comece com a posição das unidades e trabalhe para a esquerda, passo a passo, e logo você estará acumulando quintilhões com facilidade.

Problemas como este são fáceis para os humanos, mas apenas se os abordarmos da maneira certa. “A maneira como nós, humanos, resolvemos esses problemas não é 'olhar para eles e depois escrever a resposta'”, disse Eran Malach, pesquisador de aprendizado de máquina da Universidade de Harvard. “Na verdade, seguimos as etapas.”

Essa percepção inspirou pesquisadores que estudam os grandes modelos de linguagem que alimentam chatbots como o ChatGPT. Embora esses sistemas possam acertar questões que envolvem algumas etapas de aritmética, eles geralmente falham em problemas que envolvem muitas etapas, como calcular a soma de dois números grandes. Mas em 2022, uma equipe de pesquisadores do Google mostrou que pedir aos modelos de linguagem que gerassem soluções passo a passo permitiu que os modelos resolvessem problemas que antes pareciam fora de seu alcance. Sua técnica, chamada de estímulo em cadeia de pensamento, logo se tornou difundida, mesmo enquanto os pesquisadores lutavam para entender o que a fazia funcionar.

Agora, várias equipes exploraram o poder do raciocínio em cadeia de pensamento usando técnicas de um ramo misterioso da ciência da computação teórica chamado teoria da complexidade computacional. É o capítulo mais recente de uma linha de pesquisa que utiliza a teoria da complexidade para estudar as capacidades e limitações intrínsecas dos modelos de linguagem. Estes esforços esclarecem onde devemos esperar que os modelos falhem e podem apontar para novas abordagens para a sua construção.

“Eles removem um pouco da magia”, disse Dimitris Papailiopoulos, pesquisador de aprendizado de máquina da Universidade de Wisconsin, Madison. "Isso é uma coisa boa."

Transformadores de treinamento

Grandes modelos de linguagem são construídos em torno de estruturas matemáticas chamadas redes neurais artificiais. Os muitos “neurônios” dentro dessas redes realizam operações matemáticas simples em longas sequências de números que representam palavras individuais, transmutando cada palavra que passa pela rede em outra. Os detalhes desta alquimia matemática dependem de outro conjunto de números chamados parâmetros da rede, que quantificam a força das conexões entre os neurônios.

Para treinar um modelo de linguagem para produzir resultados coerentes, os pesquisadores normalmente começam com uma rede neural cujos parâmetros têm todos valores aleatórios e, em seguida, alimentam-na com resmas de dados de toda a Internet. Cada vez que o modelo vê um novo bloco de texto, ele tenta prever cada palavra por vez: adivinha a segunda palavra com base na primeira, a terceira com base nas duas primeiras e assim por diante. Ele compara cada previsão com o texto real e depois ajusta seus parâmetros para reduzir a diferença. Cada ajuste altera apenas um pouquinho as previsões do modelo, mas de alguma forma seu efeito coletivo permite que um modelo responda de forma coerente a informações que nunca viu.

Os pesquisadores vêm treinando redes neurais para processar linguagem há 20 anos. Mas o trabalho realmente decolou em 2017, quando pesquisadores do Google introduziram um novo tipo de rede chamado de transformador.

“Isso foi proposto há sete anos, o que parece pré-história”, disse Pablo Barceló, pesquisador de aprendizado de máquina da Pontifícia Universidade Católica do Chile.

O que tornou os transformadores tão transformadores é que é fácil aumentá-los — para aumentar o número de parâmetros e a quantidade de dados de treinamento — sem tornar o treinamento proibitivamente caro. Antes dos transformadores, as redes neurais tinham no máximo algumas centenas de milhões de parâmetros; hoje, os maiores modelos baseados em transformadores têm mais de um trilhão. Grande parte da melhoria no desempenho do modelo de linguagem nos últimos cinco anos vem simplesmente da expansão.

Os transformadores tornaram isso possível usando estruturas matemáticas especiais chamadas cabeças de atenção, que lhes dão uma espécie de visão panorâmica do texto que estão lendo. Quando um transformador lê um novo bloco de texto, suas cabeças de atenção examinam rapidamente tudo e identificam conexões relevantes entre as palavras – talvez notando que a quarta e a oitava palavras provavelmente serão mais úteis para prever a décima. Em seguida, as cabeças de atenção passam as palavras para uma enorme rede de neurônios chamada rede feedforward, que faz o processamento pesado de números necessário para gerar as previsões que a ajudam a aprender.

Os transformadores reais têm múltiplas camadas de cabeças de atenção separadas por redes feedforward e só emitem previsões após a última camada. Mas em cada camada, os chefes de atenção já identificaram o contexto mais relevante para cada palavra, de modo que a etapa de feedforward computacionalmente intensiva pode acontecer simultaneamente para cada palavra no texto. Isso acelera o processo de treinamento, possibilitando treinar transformadores em conjuntos de dados cada vez maiores. Ainda mais importante, permite aos pesquisadores distribuir a enorme carga computacional do treinamento de uma enorme rede neural por muitos processadores trabalhando em conjunto.

Para aproveitar ao máximo conjuntos de dados massivos, “é preciso tornar os modelos realmente grandes”, disse David Chiang, pesquisador de aprendizado de máquina da Universidade de Notre Dame. “Simplesmente não será prático treiná-los, a menos que seja paralelizado.”

No entanto, a estrutura paralela que facilita o treinamento de transformadores não ajuda após o treinamento — nesse ponto, não há necessidade de prever palavras que já existem. Durante a operação normal, os transformadores emitem uma palavra por vez, fixando cada saída de volta na entrada antes de gerar a próxima palavra, mas ainda estão presos a uma arquitetura otimizada para processamento paralelo.

À medida que os modelos baseados em transformadores cresciam e certas tarefas continuavam a causar-lhes problemas, alguns investigadores começaram a questionar-se se o impulso para modelos mais paralelizáveis teria tido um custo. Havia uma maneira de entender teoricamente o comportamento dos transformadores?

A complexidade dos transformadores

Os estudos teóricos de redes neurais enfrentam muitas dificuldades, especialmente quando tentam explicar o treinamento. As redes neurais usam um procedimento bem conhecido para ajustar seus parâmetros em cada etapa do processo de treinamento. Mas pode ser difícil entender por que este procedimento simples converge para um bom conjunto de parâmetros.

Em vez de considerar o que acontece durante o treinamento, alguns pesquisadores estudam as capacidades intrínsecas dos transformadores imaginando que é possível ajustar seus parâmetros para quaisquer valores arbitrários. Isto equivale a tratar um transformador como um tipo especial de computador programável.

“Você tem algum dispositivo de computação e quer saber: 'Bem, o que ele pode fazer? Que tipos de funções ele pode calcular?'”, Disse Chiang.

Estas são as questões centrais no estudo formal da computação. O campo remonta a 1936, quando Alan Turing imaginou pela primeira vez um dispositivo fantástico, agora chamada de máquina de Turing, que poderia realizar qualquer cálculo lendo e escrevendo símbolos em uma fita infinita. Os teóricos da complexidade computacional mais tarde se baseariam no trabalho de Turing, provando que os problemas computacionais naturalmente se enquadram em diferentes classes de complexidade definidos pelos recursos necessários para resolvê-los.

Em 2019, Barceló e outros dois investigadores provou que uma versão idealizada de um transformador com um número fixo de parâmetros poderia ser tão poderosa quanto uma máquina de Turing. Se você configurar um transformador para alimentar repetidamente sua saída como uma entrada e definir os parâmetros com os valores apropriados para o problema específico que deseja resolver, ele eventualmente emitirá a resposta correta.

Esse resultado foi um ponto de partida, mas baseou-se em algumas suposições irrealistas que provavelmente superestimariam o poder dos transformadores. Desde então, os pesquisadores têm trabalhado para desenvolver estruturas teóricas mais realistas.

Um desses esforços começou em 2021, quando William Merril, agora estudante de pós-graduação na Universidade de Nova York, estava deixando uma bolsa de dois anos no Instituto Allen de Inteligência Artificial, em Seattle. Enquanto estava lá, ele analisou outros tipos de redes neurais usando técnicas que pareciam inadequadas para a arquitetura paralela de transformadores. Pouco antes de partir, ele iniciou uma conversa com o pesquisador do Allen Institute for AI Ashish Sabharwal, que estudou a teoria da complexidade antes de passar para a pesquisa em IA. Eles começaram a suspeitar que a teoria da complexidade poderia ajudá-los a compreender os limites dos transformadores.

“Parecia que era um modelo simples; deve haver algumas limitações que podemos simplesmente definir”, disse Sabharwal.

A dupla analisou transformadores usando um ramo da teoria da complexidade computacional, chamado complexidade de circuitos, que é frequentemente usado para estudar computação paralela e teve recentemente aplicado para versões simplificadas de transformadores. No ano seguinte, eles refinaram várias das suposições irrealistas de trabalhos anteriores. Para estudar como a estrutura paralela dos transformadores pode limitar as suas capacidades, a dupla considerou o caso em que os transformadores não realimentavam a sua saída na sua entrada - em vez disso, a sua primeira saída teria de ser a resposta final. Eles provou que os transformadores nesta estrutura teórica não poderiam resolver nenhum problema computacional que estivesse fora de uma classe de complexidade específica. E muitos problemas matemáticos, incluindo problemas relativamente simples, como resolver equações lineares, são considerados fora desta classe.

Basicamente, eles mostraram que o paralelismo tinha um custo – pelo menos quando os transformadores tinham que dar uma resposta imediata. “Os transformadores são bastante fracos se a maneira como você os usa é fornecer uma contribuição e apenas esperar uma resposta imediata”, disse Merrill.

Experimentos mentais

Os resultados de Merrill e Sabharwal levantaram uma questão natural: até que ponto os transformadores se tornam mais poderosos quando lhes é permitido reciclar os seus resultados? Barceló e os seus coautores estudaram este caso na sua análise de transformadores idealizados de 2019, mas com pressupostos mais realistas a questão permaneceu em aberto. E nos anos que se seguiram, os pesquisadores descobriram sugestões de cadeias de pensamento, dando à questão uma nova relevância.

Merrill e Sabharwal sabiam que sua abordagem puramente matemática não poderia capturar todos os aspectos do raciocínio da cadeia de pensamento em modelos de linguagem reais, onde o texto no prompt pode ser muito importante. Mas não importa como um prompt seja formulado, desde que faça com que um modelo de linguagem produza soluções passo a passo, o modelo pode, em princípio, reutilizar os resultados de etapas intermediárias em passagens subsequentes pelo transformador. Isso poderia fornecer uma maneira de escapar dos limites da computação paralela.

Entretanto, uma equipa da Universidade de Pequim pensava de forma semelhante e os seus resultados preliminares foram positivos. Em um artigo de maio de 2023, eles identificaram alguns problemas matemáticos que deveriam ser impossíveis para transformadores comuns na estrutura de Merrill e Sabharwal, e mostrou que etapas intermediárias permitiram que os transformadores resolvessem esses problemas.

Em outubro, Merrill e Sabharwal deram continuidade ao seu trabalho anterior com um estudo teórico detalhado do poder computacional da cadeia de pensamento. Eles quantificaram como esse poder computacional extra depende do número de etapas intermediárias que um transformador pode usar antes de fornecer uma resposta final. Em geral, os pesquisadores esperam que o número apropriado de etapas intermediárias para resolver qualquer problema dependa do tamanho da entrada do problema. Por exemplo, a estratégia mais simples para somar dois números de 20 dígitos requer o dobro de etapas intermediárias de adição que a mesma abordagem para somar dois números de 10 dígitos.

Exemplos como este sugerem que os transformadores não ganhariam muito com o uso de apenas algumas etapas intermediárias. Na verdade, Merrill e Sabharwal provaram que a cadeia de pensamento só começa realmente a ajudar quando o número de passos intermédios cresce proporcionalmente ao tamanho do input, e muitos problemas exigem que o número de passos intermédios cresça ainda mais.

A minuciosidade do resultado impressionou os pesquisadores. “Eles realmente definiram isso”, disse Daniel Hsu, pesquisador de aprendizado de máquina da Universidade de Columbia.

O trabalho recente de Merrill e Sabharwal indica que a cadeia de pensamento não é uma panaceia – em princípio, pode ajudar os transformadores a resolver problemas mais difíceis, mas apenas ao custo de muito esforço computacional.

“Estamos interessados em diferentes maneiras de contornar as limitações dos transformadores com uma única etapa”, disse Merrill. “A cadeia de pensamento é um caminho, mas este artigo mostra que pode não ser o caminho mais económico.”

De volta à realidade

Ainda assim, os investigadores alertam que este tipo de análise teórica só pode revelar algumas coisas sobre modelos linguísticos reais. Resultados positivos – provas de que os transformadores podem, em princípio, resolver certos problemas – não implicam que um modelo de linguagem irá realmente aprender essas soluções durante o treinamento.

E mesmo os resultados que abordam as limitações dos transformadores apresentam ressalvas: indicam que nenhum transformador pode resolver certos problemas perfeitamente em todos os casos. Claro, esse é um padrão bastante alto. “Pode haver casos especiais do problema que poderiam ser resolvidos perfeitamente”, disse Hsu.

Apesar destas advertências, o novo trabalho oferece um modelo para analisar diferentes tipos de arquiteturas de redes neurais que podem eventualmente substituir transformadores. Se uma análise da teoria da complexidade sugerir que certos tipos de redes são mais poderosos do que outros, isso seria uma prova de que essas redes também poderiam ter um desempenho melhor no mundo real.

Chiang também enfatizou que a pesquisa sobre as limitações dos transformadores é ainda mais valiosa à medida que os modelos de linguagem são cada vez mais usados em uma ampla gama de aplicações do mundo real, tornando fácil superestimar suas capacidades.

“Na verdade, há muitas coisas que eles não fazem tão bem e precisamos estar muito, muito conscientes de quais são as limitações”, disse Chiang. “É por isso que esse tipo de trabalho é realmente importante.”

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://www.quantamagazine.org/how-chain-of-thought-reasoning-helps-neural-networks-compute-20240321/

Carimbo de hora: 21 de março de 2024

Carimbo de hora: 12 de abril, 2024

Como o raciocínio da cadeia de pensamento ajuda a calcular redes neurais | Revista Quanta

Republicado por Platão

Transformadores de treinamento

A complexidade dos transformadores

Experimentos mentais

De volta à realidade

Mais de Quantagazine

Supercondutividade de alta temperatura finalmente compreendida

Por que os matemáticos reprovam o que já sabem

micróbios ganharam superpotências de fotossíntese de uma 'bomba de prótons' | Revista Quanta

Prova de ciência da computação revela forma inesperada de emaranhamento

No 'segundo cérebro' do intestino, emergem agentes-chave da saúde | Revista Quanta

Como a antiga arte da previsão de eclipses se tornou uma ciência exata | Revista Quanta

Pesquisadores refutam uma crença generalizada sobre algoritmos online | Revista Quanta

Como as máquinas 'Grok' dados? | Revista Quanta

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta

Introdução

Transformadores de treinamento

A complexidade dos transformadores

Experimentos mentais

De volta à realidade

Mais de Quantagazine

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta