Com que rapidez os grandes modelos de linguagem aprendem habilidades inesperadas? | Revista Quanta

Com que rapidez os grandes modelos de linguagem aprendem habilidades inesperadas? | Revista Quanta

Com que rapidez os grandes modelos de linguagem aprendem habilidades inesperadas? | Revista Quanta PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Introdução

Há dois anos, num projecto chamado Além do benchmark do Jogo de Imitação, ou BIG-bench, 450 pesquisadores compilaram uma lista de 204 tarefas projetadas para testar os recursos de grandes modelos de linguagem, que potencializam chatbots como o ChatGPT. Na maioria das tarefas, o desempenho melhorou de forma previsível e suave à medida que os modelos foram ampliados – quanto maior o modelo, melhor ele ficou. Mas com outras tarefas, o salto na capacidade não foi tranquilo. O desempenho permaneceu próximo de zero por um tempo, depois o desempenho aumentou. Outros estudos encontraram saltos semelhantes na capacidade.

Os autores descreveram isso como um comportamento “inovador”; outros pesquisadores compararam isso a uma transição de fase na física, como quando a água líquida congela e se transforma em gelo. Em um papel publicado em agosto de 2022, os pesquisadores observaram que esses comportamentos não são apenas surpreendentes, mas também imprevisíveis, e que devem informar a evolução das conversas sobre segurança, potencial e risco da IA. Eles chamaram as habilidades de “emergente”, uma palavra que descreve comportamentos coletivos que só aparecem quando um sistema atinge um alto nível de complexidade.

Mas as coisas podem não ser tão simples. Um novo papel por um trio de pesquisadores da Universidade de Stanford postula que o aparecimento repentino dessas habilidades é apenas uma consequência da forma como os pesquisadores medem o desempenho do LLM. As habilidades, argumentam eles, não são imprevisíveis nem repentinas. “A transição é muito mais previsível do que as pessoas imaginam”, disse Sanmi Koyejo, cientista da computação em Stanford e autor sênior do artigo. “Fortes alegações de emergência têm tanto a ver com a forma como escolhemos medir como com o que os modelos estão fazendo.”

Só agora estamos vendo e estudando esse comportamento devido ao tamanho desses modelos. Grandes modelos de linguagem são treinados analisando enormes conjuntos de dados de texto — palavras de fontes on-line, incluindo livros, pesquisas na web e Wikipédia — e encontrar links entre palavras que geralmente aparecem juntas. O tamanho é medido em termos de parâmetros, aproximadamente análogo a todas as maneiras pelas quais as palavras podem ser conectadas. Quanto mais parâmetros, mais conexões um LLM pode encontrar. O GPT-2 tinha 1.5 bilhão de parâmetros, enquanto o GPT-3.5, o LLM que alimenta o ChatGPT, usa 350 bilhões. O GPT-4, que estreou em março de 2023 e agora é a base do Microsoft Copilot, supostamente usa 1.75 trilhão.

Esse rápido crescimento trouxe um aumento surpreendente no desempenho e na eficácia, e ninguém contesta que LLMs grandes o suficiente podem completar tarefas que modelos menores não conseguem, incluindo aquelas para as quais não foram treinados. O trio de Stanford que considera a emergência uma “miragem” reconhece que os LLMs se tornam mais eficazes à medida que crescem; na verdade, a complexidade adicional de modelos maiores deverá permitir melhorar a resolução de problemas mais difíceis e diversos. Mas eles argumentam que se esta melhoria parece suave e previsível ou irregular e nítida resulta da escolha da métrica - ou mesmo da escassez de exemplos de teste - e não do funcionamento interno do modelo.

A adição de três dígitos oferece um exemplo. No estudo BIG-bench de 2022, os pesquisadores relataram que, com menos parâmetros, tanto o GPT-3 quanto outro LLM chamado LAMDA não conseguiram completar com precisão os problemas de adição. No entanto, quando o GPT-3 treinou usando 13 bilhões de parâmetros, sua capacidade mudou como se fosse o apertar de um botão. De repente, poderia acrescentar – e o LAMDA também poderia, com 68 bilhões de parâmetros. Isto sugere que a capacidade de adicionar surge num certo limiar.

Mas os pesquisadores de Stanford ressaltam que os LLMs foram julgados apenas pela precisão: ou eles conseguiam fazê-lo perfeitamente ou não. Portanto, mesmo que um LLM tenha previsto a maioria dos dígitos corretamente, ele falhou. Isso não parecia certo. Se você estiver calculando 100 mais 278, então 376 parece uma resposta muito mais precisa do que, digamos, -9.34.

Então, em vez disso, Koyejo e seus colaboradores testaram a mesma tarefa usando uma métrica que concede crédito parcial. “Podemos perguntar: quão bem ele prevê o primeiro dígito? Então o segundo? Então o terceiro? ele disse.

Koyejo credita a ideia do novo trabalho ao seu aluno de pós-graduação Rylan Schaeffer, que, segundo ele, percebeu que o desempenho de um LLM parece mudar com a forma como sua capacidade é medida. Juntamente com Brando Miranda, outro estudante de pós-graduação de Stanford, eles escolheram novas métricas mostrando que à medida que os parâmetros aumentavam, os LLMs previam uma sequência cada vez mais correta de dígitos em problemas de adição. Isto sugere que a capacidade de adicionar não é emergente – o que significa que sofre um salto repentino e imprevisível – mas gradual e previsível. Eles descobrem que, com uma medida diferente, a emergência desaparece.

Introdução

Mas outros cientistas salientam que o trabalho não dissipa totalmente a noção de emergência. Por exemplo, o artigo do trio não explica como prever quando as métricas, ou quais, apresentarão melhorias abruptas em um LLM, disse Tianshi Li, cientista da computação da Northeastern University. “Então, nesse sentido, essas habilidades ainda são imprevisíveis”, disse ela. Outros, como Jason Wei, um cientista da computação agora na OpenAI que compilou uma lista de habilidades emergentes e foi autor do artigo do BIG-bench, argumentaram que os primeiros relatos de emergência eram sólidos porque, para habilidades como a aritmética, a resposta certa é realmente tudo o que importa.

“Definitivamente há uma conversa interessante aqui”, disse Alex Tamkin, cientista pesquisador da startup de IA Antrópica. O novo artigo divide habilmente tarefas de várias etapas para reconhecer as contribuições de componentes individuais, disse ele. “Mas esta não é a história completa. Não podemos dizer que todos esses saltos sejam uma miragem. Ainda acho que a literatura mostra que mesmo quando você tem previsões de uma etapa ou usa métricas contínuas, você ainda tem descontinuidades e, à medida que aumenta o tamanho do seu modelo, ainda pode vê-lo melhorando rapidamente.”

E mesmo que o surgimento dos LLMs de hoje possa ser explicado por diferentes ferramentas de medição, é provável que esse não seja o caso dos LLMs maiores e mais complicados de amanhã. “Quando levamos os LLMs para o próximo nível, inevitavelmente eles irão emprestar conhecimento de outras tarefas e outros modelos”, disse Xia “Ben” Hu, cientista da computação da Rice University.

Esta consideração evolutiva da emergência não é apenas uma questão abstrata a ser considerada pelos pesquisadores. Para Tamkin, isso se refere diretamente aos esforços contínuos para prever como os LLMs se comportarão. “Essas tecnologias são tão amplas e aplicáveis”, disse ele. “Espero que a comunidade use isto como um ponto de partida, como uma ênfase contínua na importância de construir uma ciência de previsão para estas coisas. Como não ficar surpresos com a próxima geração de modelos?”

Carimbo de hora:

Mais de Quantagazine