Como construir um GPT-3 para ciência PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Como construir um GPT-3 para ciência

Quer criar uma imagem de velociraptors trabalhando em um arranha-céu, no estilo de “Lunch Atop A Skyscraper” de 1932? Use DALL-E. Quer criar um imaginário show de comédia stand-up de Peter Thiel, Elon Musk e Larry Page? Use GPT-3. Quer entender profundamente a pesquisa sobre COVID-19 e responder suas perguntas com base em evidências? Aprenda como fazer uma pesquisa booleana, ler artigos científicos e talvez obter um doutorado, porque não há modelos generativos de IA treinados no vasto corpo de publicações de pesquisa científica. Se houvesse, obter respostas em linguagem simples e apoiadas por evidências para perguntas científicas estaria entre os benefícios mais simples. A IA generativa para a ciência pode ajudar a reverter o desaceleração da inovação na ciência by fazendo isto mais fácil e mais barato para encontrar novas ideias. Esses modelos também podem fornecer avisos baseados em dados de hipóteses terapêuticas que certamente falharão, contrabalançando o viés humano e evitando bilhões de dólares, becos sem saída de décadas. Finalmente, tais modelos poderiam combater a crise de reprodutibilidade mapeando, ponderando e contextualizando os resultados da pesquisa, fornecendo uma pontuação de confiabilidade.

Então, por que não temos um DALL-E ou GPT-3 para ciência? A razão é que, embora a pesquisa científica seja o conteúdo mais valioso do mundo, é também o conteúdo menos acessível e compreensível do mundo. Vou explicar o que seria necessário para desbloquear dados científicos em escala para tornar possível a IA generativa para a ciência e como isso transformaria a maneira como nos envolvemos com a pesquisa. 

O que torna os dados de pesquisa científica desafiadores

As publicações de pesquisa são alguns dos repositórios mais importantes do mundo para conteúdo e informações já criados. Eles unem ideias e descobertas ao longo do tempo e das disciplinas e são preservados para sempre por uma rede de bibliotecas. Eles são apoiados por evidências, análises, insights de especialistas e relacionamentos estatísticos. Eles são extremamente valiosos, mas estão em grande parte ocultos da web e usados ​​de forma muito ineficiente. A web está repleta de vídeos de gatos fofos e fofinhos, mas em grande parte desprovidos de pesquisas de ponta sobre o câncer. Como exemplo, o Web of Science é um dos índices mais abrangentes do conhecimento científico. Já existe há décadas, mas provavelmente é algo que a maioria dos leitores nunca ouviu falar, muito menos interagiu. A maioria de nós não tem acesso a trabalhos de pesquisa e, mesmo quando temos, eles são densos, difíceis de entender e empacotados como PDF – um formato projetado para impressão, não para a web.

Como os artigos científicos não são facilmente acessíveis, não podemos usar os dados facilmente para treinar modelos generativos como GPT-3 ou DALL-E. Você pode imagine se um pesquisador pudesse propor um experimento e um modelo de IA pudesse dizer instantaneamente se isso já havia sido feito antes (e melhor ainda, dar-lhes o resultado)? Então, uma vez que eles tenham dados de um novo experimento, a IA poderia sugerir um experimento de acompanhamento com base no resultado. Finalmente, imagine o tempo que poderia ser economizado se o pesquisador pudesse enviar seus resultados e o modelo de IA pudesse escrever o manuscrito resultante para eles. O mais próximo que já chegamos de um DALL-E da ciência é o Google Scholar, mas não é uma solução sustentável ou escalável. O IBM Watson também se propôs a alcançar muito do que descrevo aqui, mas a maior parte do trabalho veio à frente de avanços recentes em modelos de linguagem grande e não utilizou dados apropriados ou suficientes para corresponder ao hype de marketing.

Para o tipo de desbloqueio de valor que estou descrevendo, precisamos de investimento, compromisso e visão de longo prazo. Como proposto recentemente in promissor, precisamos tratar as publicações científicas como substratos a serem combinados e analisados ​​em escala. Assim que removermos as barreiras, poderemos usar a ciência para alimentar modelos de IA generativos famintos por dados. Esses modelos têm imenso potencial para acelerar a ciência e aumentar a alfabetização científica, por exemplo, treinando-os para gerar novas ideias científicas, ajudando cientistas a gerenciar e navegar na vasta literatura científica, ajudar a identificar pesquisas falhas ou mesmo falsificadas e sintetizar e traduzir descobertas de pesquisas complexas em fala humana comum.

Como obtemos um DALL-E ou GPT-3 para ciência?

Se você está em tecnologia, mostrando a um amigo saídas de modelos generativos de IA como DALL-E or GPT-3 é como mostrar-lhes magia. Essas ferramentas representam a próxima geração da web. Eles derivam da síntese de grandes quantidades de informações, além de um simples encadeamento, para criar ferramentas com capacidade generativa. Então, como podemos criar uma experiência similarmente mágica na ciência, onde qualquer um pode fazer uma pergunta à literatura científica em linguagem simples e obter uma resposta compreensível apoiada por evidências? Como podemos ajudar os pesquisadores a criar, desenvolver, refinar e testar suas hipóteses? Como podemos potencialmente evitar o desperdício de bilhões de dólares em hipóteses falhando na pesquisa de Alzheimer e conexões errôneas entre genética e depressão

As soluções para essas questões podem soar como ficção científica, mas há provas de que podemos fazer coisas incríveis e impensáveis ​​quando o trabalho científico é usado para mais do que apenas a soma de suas partes. De fato, utilizando quase 200,000 estruturas de proteínas no Banco de Dados de Proteínas deu AlfaFold a capacidade para prever com precisão estruturas de proteínas, algo que foi feito apenas para cada proteína já documentada (mais de 200 milhões!). Aproveitar os trabalhos de pesquisa de maneira semelhante às estruturas das proteínas seria um próximo passo natural. 

Decomponha papéis em seus componentes mínimos

Os artigos de pesquisa estão repletos de informações valiosas, incluindo figuras, gráficos, relações estatísticas e referências a outros artigos. Quebrá-los em vários componentes e usá-los em escala pode nos ajudar a treinar máquinas para diferentes tipos de trabalhos, solicitações ou consultas relacionadas à ciência. Perguntas simples podem ser respondidas com treinamento em um tipo de componente, mas perguntas ou prompts mais complexos exigiriam a incorporação de vários tipos de componentes e uma compreensão de sua relação entre si.  

Alguns exemplos de prompts potenciais complexos são:

“Diga-me por que essa hipótese está errada”
“Diga-me por que minha ideia de tratamento não vai funcionar”
“Gerar uma nova ideia de tratamento”
“Que evidências existem para apoiar a política social X?”
“Quem publicou a pesquisa mais confiável neste campo?”
“Escreva-me um artigo científico baseado em meus dados”

Alguns grupos estão avançando nessa visão. Por exemplo, Elicitar aplica o GPT-3 a milhões de títulos e resumos de artigos para ajudar a responder às perguntas dos pesquisadores — como o Alexa, mas para a ciência. System extrai relações estatísticas entre entidades mostrando como diferentes conceitos e entidades estão ligados. Cartilha não se concentra em artigos de pesquisa em si, mas funciona com o arXiv e fornece um painel de informações usado por corporações e governos para sintetizar e entender grandes quantidades de dados de várias fontes. 

Acesse todos os componentes

Infelizmente, esses grupos baseiam-se principalmente apenas em títulos e resumos, não nos textos completos, uma vez que cerca de cinco em cada seis artigos não são de acesso livre ou fácil. Para os grupos como Web of Science e Google que possuem os dados ou os papéis, suas licenças e escopo de uso são limitado ou indefinido. No caso do Google, não está claro por que não houve esforços anunciados publicamente para treinar modelos de IA na pesquisa científica de texto completo no Google Scholar. Surpreendentemente, isso nem mudou em meio à pandemia do COVID-19, que paralisou o mundo. A equipe de IA do Google se intensificou, prototipando uma maneira de o público perguntar sobre COVID-19. Mas - e aqui está o kicker - eles fizeram isso usando apenas documentos de acesso aberto do PubMed, não do Google Scholar. 

A questão de ter acesso a documentos e usá-los para mais do que apenas lê-los um de cada vez é algo que os grupos defendem há décadas. Eu mesmo trabalhei nele por quase uma década, lançando uma plataforma de publicação de acesso aberto chamada O peneirador durante o último ano do meu doutorado, e depois trabalhando para construir o artigo do futuro em outra startup chamada Autoria. Embora nenhuma dessas iniciativas tenha funcionado como eu queria, elas me levaram ao meu trabalho atual na cite, que resolveu, pelo menos parcialmente, o problema de acesso trabalhando diretamente com os editores. 

Conecte os componentes e defina relacionamentos

Nosso objetivo em cite é apresentar o próxima geração de citações — chamadas Smart Citations — que mostram como e por que qualquer artigo, pesquisador, periódico ou tópico foi citado e discutido de forma mais geral na literatura. Ao trabalhar com editores, extraímos as frases diretamente de artigos de texto completo onde eles usam suas referências no texto. Essas frases oferecem uma visão qualitativa de como os artigos foram citados por trabalhos mais recentes. É um pouco como o Rotten Tomatoes para pesquisa.

Isso requer acesso a artigos em texto completo e cooperação com editores, para que possamos usar o aprendizado de máquina para extrair e analisar declarações de citação em escala. Como havia artigos de Acesso Aberto suficientes para começar, fomos capazes de construir a prova de conceito e, um por um, demonstramos aos editores a maior capacidade de descoberta de artigos indexados em nosso sistema e fornecemos a eles um sistema para mostrar melhores métricas para uma avaliação de pesquisa mais responsável. O que vimos como declarações de especialistas, eles viram como prévias de seus artigos. Os editores agora assinaram em massa e indexamos mais de 1.1 bilhão de citações inteligentes de mais da metade de todos os artigos publicados.

Use dados relacionais para treinar modelos de IA

Os componentes e as relações extraídas dos artigos poderiam ser usados ​​para treinar novos modelos de grande linguagem para pesquisa. O GPT-3, embora muito poderoso, não foi construído para trabalhar em ciência e responde mal às perguntas que você pode ver no SAT. Quando o GPT-2 (uma versão anterior do GPT-3) foi adaptado treinando-o em milhões de trabalhos de pesquisa, funcionou melhor do que o GPT-2 sozinho em tarefas de conhecimento específicas. Isso destaca que os dados usados ​​para treinar os modelos são extremamente importantes. 

 Alguns grupos recentemente usou GPT-3 para escrever trabalhos acadêmicos, e embora isso seja impressionante, os fatos ou argumentos que eles podem pretender mostrar podem estar muito errados. Se o modelo não consegue acertar perguntas simples no estilo SAT, podemos confiar nele para escrever um artigo completo? SCIgen, que antecede o GPT-3 em quase 20 anos, mostrou que gerar papéis que parecem reais é relativamente fácil. Seu sistema, embora muito mais simples, gerou papéis que foram aceito em várias conferências. Precisamos de um modelo que não pareça apenas científico, mas que seja científico, e que exija um sistema para verificar as alegações de máquinas e humanos. Meta introduziu recentemente um sistema para verificar citações da Wikipedia, algo que alguns editores têm vocalmente gostaria de ter para publicações acadêmicas.

Progresso atual

Mais uma vez, um dos principais obstáculos para concretizar esse sistema é a falta de acesso aos documentos e recursos para criá-lo. Onde documentos ou informações se tornam disponíveis para uso em escala, vemos ferramentas e novos modelos florescem. A equipe de patentes do Google usou 100 milhões de patentes para treinar um sistema para ajudar na análise de patentes, efetivamente um GooglePatentBERT. Outros introduziram modelos como BioBERT e SciBERT, e apesar de terem sido treinados apenas em cerca de 1% dos textos científicos em apenas domínios específicos, eles são impressionantes em tarefas acadêmicas, incluindo nosso sistema de classificação de citações no scite. 

Mais recentemente, um AcadêmicoBERT foi lançado o modelo, que efetivamente usa toda a literatura científica para treinar o BERT. Eles superam o problema de acesso, mas são notavelmente silenciosos sobre como, simplesmente enfatizando seu uso como “não consuntivo”. Este caso de uso pode abrir as portas para outros usando artigos sem permissão expressa dos editores e pode ser um passo importante na criação de um DALL-E da ciência. Surpreendentemente, no entanto, ScholarBERT se saiu pior em várias tarefas de conhecimento especializado do que modelos de linguagem científica menores como o SciBERT. 

É importante ressaltar que os modelos no estilo BERT são de escala muito menor do que os grandes modelos de linguagem, como o GPT-3, e não permitem o mesmo tipo de prompt genérico e aprendizado em contexto que alimentou grande parte do hype do GPT-3. A questão permanece: e se aplicássemos os mesmos dados do ScholarBERT para treinar um modelo generativo ampliado como o GPT-3? E se pudéssemos de alguma forma mostrar de onde as respostas da máquina foram obtidas, talvez vinculando-as diretamente à literatura (como Citações inteligentes)?

Por que agora?

Felizmente, os papéis estão se tornando mais abertos e as máquinas estão se tornando mais poderosas. Agora podemos começar a usar os dados contidos em documentos e repositórios conectados para treinar máquinas para responder a perguntas e sintetizar novas ideias com base em pesquisas. Isso pode ser transformador para a saúde, política, tecnologia e tudo ao nosso redor. Imagine, se não buscássemos apenas por títulos de documentos, mas especificamente por respostas, como isso afetaria a pesquisa e os fluxos de trabalho em todas as disciplinas. 

 Liberar o conhecimento científico do mundo das barreiras gêmeas de acessibilidade e compreensão ajudará a impulsionar a transição de uma web focada em cliques, visualizações, curtidas e atenção para uma focada em evidências, dados e veracidade. A indústria farmacêutica é claramente incentivada a concretizar isso, daí o número crescente de startups identificando potenciais alvos de drogas usando IA – mas acredito que o público, os governos e qualquer pessoa que use o Google possa estar disposto a abrir mão de pesquisas gratuitas em um esforço por confiança e tempo. economizando. O mundo precisa desesperadamente de um sistema assim, e precisa dele rápido. 


 

 

Postado agosto 18, 2022

Tecnologia, inovação e o futuro, contados por quem o constrói.

Obrigado por inscrever-se.

Verifique sua caixa de entrada para uma nota de boas-vindas.

Carimbo de hora:

Mais de Andreessen Horowitz