Modelos de linguagem minúsculos prosperam com GPT-4 como professor | Revista Quanta

Modelos de linguagem minúsculos prosperam com GPT-4 como professor | Revista Quanta

Modelos de linguagem minúsculos prosperam com GPT-4 como professor | Revista Quanta PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Introdução

Aprender inglês não é tarefa fácil, como bem sabem inúmeros estudantes. Mas quando o aluno é um computador, uma abordagem funciona surpreendentemente bem: basta alimentar montanhas de texto da Internet para um modelo matemático gigante chamado rede neural. Esse é o princípio operacional por trás de modelos de linguagem generativos como o ChatGPT da OpenAI, cuja capacidade de conversar de forma coerente (se nem sempre verdadeira) sobre uma ampla gama de tópicos surpreendeu os pesquisadores e o público no ano passado.

Mas a abordagem tem suas desvantagens. Por um lado, o procedimento de “formação” necessário para transmutar vastos arquivos de texto em modelos de linguagem de última geração é dispendioso e demorado. Por outro lado, mesmo as pessoas que treinam grandes modelos de linguagem têm dificuldade em compreender o seu funcionamento interno; isso, por sua vez, torna difícil prever as muitas maneiras pelas quais eles podem falhar.

Diante dessas dificuldades, alguns pesquisadores optaram por treinar modelos menores em conjuntos de dados menores e depois estudar seu comportamento. “É como sequenciar o Drosophila genoma versus sequenciamento do genoma humano”, disse Ellie Pavlick, pesquisador de modelos de linguagem da Brown University.

Agora, em um papel postado recentemente no servidor de pré-impressão científica arxiv.org, dois pesquisadores da Microsoft introduziram um novo método para treinar pequenos modelos de linguagem: criá-los com uma dieta rigorosa de histórias infantis.

Os pesquisadores de aprendizado de máquina adotaram esta lição. GPT-3.5, o grande modelo de linguagem que alimenta a interface ChatGPT, tem quase 200 bilhões de parâmetros e foi treinado em um conjunto de dados que compreende centenas de bilhões de palavras. (A OpenAI não divulgou os números correspondentes para seu sucessor, GPT-4.) O treinamento de modelos tão grandes normalmente requer pelo menos 1,000 processadores especializados chamados GPUs rodando em paralelo durante semanas a fio. Apenas algumas empresas conseguem reunir os recursos necessários e muito menos treinar e comparar diferentes modelos.

Os dois pesquisadores mostraram que modelos de linguagem milhares de vezes menores do que os sistemas de última geração aprenderam rapidamente a contar histórias consistentes e gramaticais quando treinados dessa forma. Seus resultados sugerem novas direções de pesquisa que podem ser úteis para treinar modelos maiores e compreender seu comportamento.

“Achei este artigo muito informativo”, disse Chandra Bhagavatula, pesquisador de modelos de linguagem do Instituto Allen de Inteligência Artificial em Seattle. “O conceito em si é super interessante.”

Era uma vez

As redes neurais no centro dos modelos de linguagem são estruturas matemáticas vagamente inspiradas no cérebro humano. Cada um contém muitos neurônios artificiais dispostos em camadas, com conexões entre neurônios em camadas adjacentes. O comportamento da rede neural é governado pela força dessas conexões, chamadas de parâmetros. Em um modelo de linguagem, os parâmetros controlam quais palavras o modelo pode cuspir em seguida, dado um prompt inicial e as palavras que ele já gerou.

Um modelo só ganha vida durante o treinamento, quando compara repetidamente sua própria saída com o texto em seu conjunto de dados de treinamento e ajusta seus parâmetros para aumentar a semelhança. Uma rede não treinada com parâmetros aleatórios é trivialmente fácil de montar a partir de algumas linhas de código, mas produzirá apenas coisas sem sentido. Após o treinamento, muitas vezes é possível continuar de forma plausível um texto desconhecido. Modelos maiores geralmente passam por ajustes adicionais que os ensinam a responder perguntas e seguir instruções, mas a maior parte do treinamento é dominar a previsão de palavras.

O sucesso na previsão de palavras requer um modelo de linguagem para dominar muitas habilidades diferentes. Por exemplo, as regras da gramática inglesa sugerem que a próxima palavra após a palavra “going” provavelmente será “to”, independentemente do assunto do texto. Além disso, um sistema precisa de conhecimento factual para completar “a capital da França é”, e completar uma passagem contendo a palavra “não” requer uma compreensão rudimentar da lógica.

“A linguagem bruta é muito complicada”, disse Timothy Nguyen, pesquisador de aprendizado de máquina da DeepMind. “Para que surgissem capacidades linguísticas interessantes, as pessoas recorreram a 'mais dados, melhor'”.

Introdução

Ronen Eldan, um matemático que ingressou na Microsoft Research em 2022 para estudar modelos de linguagem generativa, queria desenvolver uma maneira mais barata e rápida de explorar suas habilidades. A maneira natural de fazer isso era usar um pequeno conjunto de dados, o que, por sua vez, significava que ele teria que treinar modelos para se especializarem em uma tarefa específica, para que não se espalhassem muito. Inicialmente, ele queria treinar modelos para resolver uma determinada classe de problemas matemáticos, mas uma tarde, depois de passar um tempo com sua filha de 5 anos, percebeu que histórias infantis combinavam perfeitamente.

“Isso literalmente me ocorreu depois que li uma história para ela”, disse ele.

Para gerar histórias infantis coerentes, um modelo de linguagem precisaria aprender factos sobre o mundo, acompanhar personagens e acontecimentos e observar as regras gramaticais – versões mais simples dos desafios enfrentados por grandes modelos. Mas grandes modelos treinados em enormes conjuntos de dados aprendem inúmeros detalhes irrelevantes junto com as regras que realmente importam. Eldan esperava que a brevidade e o vocabulário limitado das histórias infantis pudessem tornar a aprendizagem mais fácil para pequenos modelos – tornando-os mais fáceis de treinar e de compreender.

No mundo dos modelos de linguagem, porém, “pequeno” é relativo: um conjunto de dados mil vezes menor que aquele usado para treinar o GPT-3.5 ainda precisaria conter milhões de histórias. “Não sei quanto dinheiro você quer gastar, mas acho que você não vai contratar profissionais para escrever [alguns milhões] de contos”, disse Nguyen.

Seria necessário um autor extraordinariamente prolífico para satisfazer leitores tão vorazes, mas Eldan tinha alguns candidatos em mente. Quem melhor para escrever para um público de modelos de linguagem pequenos do que os grandes?

Histórias de brinquedos

Eldan decidiu imediatamente criar uma biblioteca de histórias infantis sintéticas geradas por grandes modelos de linguagem. Mas ele logo descobriu que mesmo os modelos mais modernos não são naturalmente muito criativos. Se você apenas disser ao GPT-4 para escrever histórias apropriadas para crianças de 4 anos, disse Eldan, “cerca de um quinto das histórias será sobre crianças que vão ao parque com medo dos escorregadores”. Aparentemente, essa é a história pré-escolar por excelência, no que diz respeito à Internet.

A solução foi adicionar um pouco de aleatoriedade ao prompt. Primeiro, Eldan usou o GPT-4 para gerar uma lista de 1,500 substantivos, verbos e adjetivos que uma criança de 4 anos poderia conhecer – curta o suficiente para que ele mesmo pudesse verificar facilmente. Em seguida, ele escreveu um programa de computador simples que solicitaria repetidamente ao GPT-3.5 ou GPT-4 que gerasse uma história apropriada à idade que incluísse três palavras aleatórias da lista, junto com um detalhe adicional escolhido aleatoriamente, como um final feliz ou uma reviravolta na história. As histórias resultantes, felizmente, eram menos focadas em slides assustadores.

Eldan agora tinha um procedimento para produzir dados de treinamento sob demanda, mas não tinha ideia de quantas histórias precisaria para treinar um modelo funcional ou de quão grande esse modelo precisaria ser. Foi quando ele se juntou a Yuanzhi Li, pesquisador de aprendizado de máquina da Microsoft e da Carnegie Mellon University, para testar diferentes possibilidades, aproveitando o fato de que pequenos modelos podem ser treinados muito rapidamente. O primeiro passo foi decidir como avaliar seus modelos.

Introdução

Na pesquisa de modelos de linguagem – como em todas as salas de aula – a classificação é um tema delicado. Há nenhuma rubrica perfeita que encapsula tudo o que os pesquisadores desejam saber, e os modelos que se destacam em algumas tarefas muitas vezes falham espetacularmente em outras. Com o tempo, os pesquisadores desenvolveram vários padrões de referência baseados em perguntas com respostas inequívocas, o que é uma boa abordagem se você estiver tentando avaliar habilidades específicas. Mas Eldan e Li estavam interessados ​​em algo mais nebuloso: qual o tamanho que os modelos de linguagem realmente precisam ter se você simplificar a linguagem tanto quanto possível?

“Para testar diretamente se o modelo fala inglês, acho que a única coisa que você pode fazer é deixar o modelo gerar inglês de forma aberta”, disse Eldan.

Existem apenas duas maneiras de medir o desempenho de um modelo nessas questões qualitativas: confiar em avaliadores humanos ou recorrer novamente ao GPT-4. Os dois pesquisadores escolheram o último caminho, deixando efetivamente que as grandes modelos escrevessem os livros didáticos e avaliassem as redações.

Bhagavatula disse que gostaria de ver como as avaliações do GPT-4 se comparam às dos revisores humanos – o GPT-4 pode ser tendencioso em relação aos modelos que ajudou a treinar, e a opacidade dos modelos de linguagem torna difícil quantificar tais preconceitos. Mas ele não acha que tais subtilezas afectariam as comparações entre diferentes modelos treinados em conjuntos semelhantes de histórias sintéticas – o foco principal do trabalho de Eldan e Li.

Eldan e Li usaram um procedimento de duas etapas para avaliar cada um dos seus pequenos modelos após o treinamento. Primeiro, eles estimularam o pequeno modelo com a primeira metade de uma história distinta daquelas do conjunto de dados de treinamento para gerar um novo final, repetindo esse processo com 50 histórias de teste diferentes. Em segundo lugar, eles instruíram o GPT-4 a avaliar cada um dos finais do modelo pequeno com base em três categorias – criatividade, gramática e consistência com o início da história. Eles então calcularam a média das pontuações em cada categoria, terminando com três notas finais por modelo.

Com esse procedimento em mãos, Eldan e Li estavam finalmente prontos para comparar diferentes modelos e descobrir quais eram os alunos estrelas.

resultados do teste

Após alguma exploração preliminar, os dois pesquisadores estabeleceram um conjunto de dados de treinamento contendo cerca de 2 milhões de histórias. Eles então usaram esse conjunto de dados, chamado TinyStories, para treinar modelos que variam em tamanho de 1 milhão a 30 milhões de parâmetros, com números variados de camadas. Foi um trabalho rápido: usando apenas quatro GPUs, o maior desses modelos não demorou mais do que um dia para ser treinado.

Os modelos menores tiveram dificuldades. Por exemplo, uma história-teste começa com um homem malvado dizendo a uma garota que vai levar o gato dela. Um modelo de um milhão de parâmetros ficou preso em um loop com a garota dizendo repetidamente ao homem que queria ser amiga. Mas os maiores – ainda milhares de vezes menores que o GPT-3.5 – tiveram um desempenho surpreendentemente bom. A versão de 28 milhões de parâmetros contava uma história coerente, embora o final fosse sombrio: “Katie começou a chorar, mas o homem não se importou. Ele levou o gato embora e Katie nunca mais o viu. O fim."

Além de testar seus próprios modelos, Eldan e Li apresentaram o mesmo desafio ao GPT-2 da OpenAI, um modelo de 1.5 bilhão de parâmetros lançado em 2019. O desempenho foi muito pior – antes do final abrupto da história, o homem ameaça levar a garota ao tribunal, à prisão, ao hospital, ao necrotério e finalmente ao crematório.

Introdução

Nguyen disse que é emocionante que modelos tão pequenos sejam tão fluentes, mas talvez não seja surpreendente que o GPT-2 tenha lutado com a tarefa: é um modelo maior, mas longe do estado da arte, e foi treinado em um conjunto de dados muito diferente. “Uma criança que treina apenas em tarefas infantis, como brincar com alguns brinquedos, pode se sair melhor do que você ou eu”, observou ele. “Não nos especializamos nesta coisa simples.”

As comparações entre diferentes modelos de TinyStories não sofrem dos mesmos fatores de confusão. Eldan e Li observaram indícios de que redes com menos camadas, mas com mais neurônios por camada, eram melhores em responder perguntas que exigiam conhecimento factual; por outro lado, redes com mais camadas e menos neurônios por camada eram melhores em acompanhar personagens e pontos da trama do início da história. Bhagavatula achou este resultado especialmente intrigante. Se puder ser replicado em modelos maiores, disse ele, “seria um resultado muito interessante que poderia resultar deste trabalho”.

Eldan e Li também estudaram como as habilidades de seus pequenos modelos dependiam da duração do período de treinamento. Em todos os casos, os modelos dominaram primeiro a gramática e depois a consistência. Para Eldan, este padrão ilustra como as diferenças nas estruturas de recompensa levam a diferenças nos padrões de aquisição da linguagem entre redes neurais e crianças. Para os modelos de linguagem, que aprendem prevendo palavras, “o incentivo nas palavras 'quero comer' é tão grande quanto nas palavras 'sorvete'”, disse ele. As crianças, por outro lado, “não se importam se dizem 'Gostaria de tomar um sorvete' ou apenas 'sorvete, sorvete, sorvete'”.

Qualidade versus quantidade

Eldan e Li esperam que a pesquisa motive outros pesquisadores a treinar diferentes modelos em o conjunto de dados TinyStories e compare suas capacidades. Mas muitas vezes é difícil prever quais características dos modelos pequenos também aparecerão nos modelos maiores.

“Talvez os modelos de visão em ratos sejam realmente bons representantes da visão humana, mas serão os modelos de depressão em ratos bons modelos de depressão humana?” Pavlick disse. “Para cada caso é um pouco diferente.”

O sucesso dos modelos TinyStories também sugere uma lição mais ampla. A abordagem padrão para compilar conjuntos de dados de treinamento envolve extrair texto da Internet e, em seguida, filtrar o lixo. O texto sintético gerado por modelos grandes poderia oferecer uma forma alternativa de reunir conjuntos de dados de alta qualidade que não precisariam ser tão grandes.

“Temos cada vez mais evidências de que isso é muito eficaz, não apenas em modelos do tamanho de TinyStories, mas também em modelos maiores”, disse Eldan. Essa evidência vem de dois artigos de acompanhamento sobre modelos de bilhões de parâmetros de Eldan, Li e outros pesquisadores da Microsoft. No primeiro papel, eles treinaram um modelo para aprender a linguagem de programação Python usando trechos de código gerados pelo GPT-3.5 junto com código cuidadosamente selecionado da Internet. No segundo, eles aumentaram o conjunto de dados de treinamento com “livros didáticos” sintéticos, cobrindo uma ampla variedade de tópicos, para treinar um modelo de linguagem de uso geral. Nos seus testes, ambos os modelos compararam-se favoravelmente com modelos maiores treinados em conjuntos de dados maiores. Mas avaliar modelos de linguagem é sempre complicado, e a abordagem de dados de treinamento sintéticos ainda está em sua infância – são necessários mais testes independentes.

À medida que os modelos de linguagem de última geração crescem cada vez mais, as descobertas surpreendentes de seus primos minúsculos lembram que ainda há muito que não entendemos, mesmo sobre os modelos mais simples. Nguyen espera ver muitos mais artigos explorando a abordagem pioneira do TinyStories.

“A questão é: onde e por que o tamanho importa?” ele disse. “Deveria haver uma ciência disso, e esperamos que este artigo seja o início de uma história rica.”

Carimbo de hora:

Mais de Quantagazine