Comment créer un GPT-3 pour Science PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Comment construire un GPT-3 pour la science

Vous voulez créer une image de des vélociraptors travaillant sur un gratte-ciel, dans le style de "Lunch Atop A Skyscraper" de 1932? Utilisez DALL-E. Envie de créer un imaginaire spectacle humoristique de Peter Thiel, Elon Musk et Larry Page? Utilisez GPT-3. Vous voulez comprendre en profondeur la recherche sur le COVID-19 et répondre à vos questions en vous basant sur des preuves ? Apprenez à effectuer une recherche booléenne, à lire des articles scientifiques et peut-être à obtenir un doctorat, car il n'existe pas de modèles d'IA générative formés sur le vaste corpus de publications de recherche scientifique. S'il y en avait, obtenir des réponses en langage clair et étayées par des preuves à des questions scientifiques serait l'un des avantages les plus simples. L'IA générative pour la science pourrait aider à inverser la tendance ralentissement de l'innovation scientifique by le faire plus facilement et les moins chère pour trouver de nouvelles idées. De tels modèles pourraient également fournir des avertissements étayés par des données d'hypothèses thérapeutiques qui échoueront certainement, contrebalançant les préjugés humains et évitant des milliards de dollars, des impasses de plusieurs décennies. Enfin, de tels modèles pourraient combattre la crise de reproductibilité en cartographiant, pesant et contextualisant les résultats de la recherche, fournissant un score sur la fiabilité.

Alors pourquoi n'avons-nous pas un DALL-E ou un GPT-3 pour la science ? La raison en est que bien que la recherche scientifique soit la le contenu le plus précieux au monde, c'est aussi le contenu le moins accessible et le moins compréhensible au monde. J'expliquerai ce qu'il faudrait pour débloquer des données scientifiques à grande échelle afin de rendre possible l'IA générative pour la science, et comment cela transformerait la façon dont nous nous engageons dans la recherche. 

Ce qui rend les données de recherche scientifique difficiles

Les publications de recherche comptent parmi les référentiels les plus importants au monde pour le contenu et l'information jamais créés. Ils relient les idées et les découvertes à travers le temps et les disciplines, et sont préservés à jamais par un réseau de bibliothèques. Ils sont étayés par des preuves, des analyses, des avis d'experts et des relations statistiques. Ils sont extrêmement précieux, mais ils sont en grande partie cachés du Web et utilisés de manière très inefficace. Le Web regorge de vidéos de chats mignons et câlins, mais largement dépourvues de recherches de pointe sur le cancer. A titre d'exemple, le Web of Science est l'un des index les plus complets des connaissances scientifiques. Il existe depuis des décennies, mais c'est probablement quelque chose dont la plupart des lecteurs n'ont jamais entendu parler, et encore moins avec lequel ils n'ont jamais interagi. La plupart d'entre nous n'ont pas accès aux documents de recherche, et même lorsque nous le faisons, ils sont denses, difficiles à comprendre et conditionnés au format PDF - un format conçu pour l'impression, pas pour le Web.

Parce que les articles scientifiques ne sont pas facilement accessibles, nous ne pouvons pas facilement utiliser les données pour former des modèles génératifs comme GPT-3 ou DALL-E. Pouvez-vous imaginez si un chercheur pouvait proposer une expérience et qu'un modèle d'IA pouvait lui dire instantanément si cela avait déjà été fait (et mieux encore, lui donner le résultat) ? Ensuite, une fois qu'ils ont des données d'une nouvelle expérience, l'IA pourrait suggérer une expérience de suivi basée sur le résultat. Enfin, imaginez le temps qui pourrait être économisé si le chercheur pouvait télécharger ses résultats et que le modèle d'IA pouvait écrire le manuscrit résultant pour leur. Le plus proche que nous ayons jamais atteint d'un DALL-E de la science est Google Scholar, mais ce n'est pas une solution durable ou évolutive. IBM Watson a également entrepris de réaliser une grande partie de ce que je décris ici, mais la plupart des travaux ont précédé les avancées récentes dans les grands modèles de langage et n'ont pas utilisé de données appropriées ou suffisantes pour correspondre au battage marketing.

Pour le type de création de valeur que je décris, nous avons besoin d'un investissement, d'un engagement et d'une vision à long terme. Tel que proposé récemment in A venir, nous devons traiter les publications scientifiques comme des substrats à combiner et à analyser à grande échelle. Une fois que nous aurons supprimé les barrières, nous pourrons utiliser la science pour alimenter des modèles d'IA génératifs gourmands en données. Ces modèles ont un immense potentiel pour accélérer la science et accroître la culture scientifique, par exemple en les formant à générer de nouvelles idées scientifiques, en aidant les scientifiques à gérer et à naviguer dans la vaste littérature scientifique, en aidant à identifier les recherches erronées ou même falsifiées, et en synthétisant et traduisant les résultats de recherche complexes en langage humain ordinaire.

Comment obtient-on un DALL-E ou un GPT-3 pour la science ?

Si vous êtes dans le domaine de la technologie, montrez à un ami les résultats de modèles d'IA génératifs tels que DALL-E or GPT-3 c'est comme leur montrer de la magie. Ces outils représentent la prochaine génération du Web. Ils dérivent de la synthèse de quantités massives d'informations, au-delà d'une simple mise en relation, pour créer des outils à capacité générative. Alors, comment pouvons-nous créer une expérience scientifique tout aussi magique, où n'importe qui peut poser une question à la littérature scientifique dans un langage simple et obtenir une réponse compréhensible étayée par des preuves ? Comment pouvons-nous aider les chercheurs à créer, développer, affiner et tester leurs hypothèses ? Comment pouvons-nous potentiellement éviter de gaspiller des milliards de dollars en Échec des hypothèses dans la recherche sur la maladie d'Alzheimer et les liens erronés entre la génétique et la dépression

Les solutions à ces questions peuvent ressembler à de la science-fiction, mais il est prouvé que nous pouvons faire des choses incroyables et impensables lorsque le travail scientifique est utilisé pour plus que la simple somme de ses parties. En effet, en utilisant près de 200,000 XNUMX structures protéiques dans le Banque de données sur les protéines a donné AlphaFold la capacité pour prédire avec précision les structures des protéines, quelque chose qui vient d'être fait pour chaque protéine jamais documentée (plus de 200 millions !). Tirer parti des documents de recherche d'une manière similaire aux structures protéiques serait une prochaine étape naturelle. 

Décomposer les papiers en leurs composants minimaux

Les documents de recherche regorgent d'informations précieuses, notamment des chiffres, des graphiques, des relations statistiques et des références à d'autres documents. Les décomposer en divers composants et les utiliser à grande échelle pourrait nous aider à former des machines pour différents types de travaux, d'invites ou de requêtes liés à la science. Des questions simples pourraient être répondues avec une formation sur un type de composant, mais des questions ou des invites plus complexes nécessiteraient l'incorporation de plusieurs types de composants et une compréhension de leur relation les uns avec les autres.  

Voici quelques exemples d'invites potentielles complexes :

"Dis-moi pourquoi cette hypothèse est fausse"
"Dites-moi pourquoi mon idée de traitement ne fonctionnera pas"
"Générer une nouvelle idée de traitement"
« Quelles preuves existe-t-il pour soutenir la politique sociale X ? »
« Qui a publié les recherches les plus fiables dans ce domaine ?
"Écrivez-moi un article scientifique basé sur mes données"

Certains groupes progressent dans cette vision. Par exemple, Obtenir applique GPT-3 à des millions de titres et de résumés d'articles pour aider à répondre aux questions des chercheurs - un peu comme Alexa, mais pour la science. Système extrait des relations statistiques entre entités montrant comment différents concepts et entités sont liés. Apprêt ne se concentre pas sur les documents de recherche en soi, mais il fonctionne avec arXiv et fournit un tableau de bord d'informations utilisé par les entreprises et les gouvernements pour synthétiser et comprendre de grandes quantités de données provenant de nombreuses sources. 

Accéder à tous les composants

Malheureusement, ces groupes s'appuient principalement sur les titres et les résumés uniquement, et non sur les textes intégraux, car environ cinq articles sur six ne sont pas librement ou facilement accessibles. Pour les groupes comme Web of Science et Google qui disposent des données ou des articles, leurs licences et leur champ d'utilisation sont limité ou indéfini. Dans le cas de Google, on ne sait pas pourquoi il n'y a pas eu d'efforts annoncés publiquement pour former des modèles d'IA sur la recherche scientifique en texte intégral dans Google Scholar. Étonnamment, cela n'a même pas changé au milieu de la pandémie de COVID-19, qui a paralysé le monde. L'équipe d'intelligence artificielle de Google s'est intensifiée, créant un prototype d'un moyen pour le public de demander à propos de COVID-19. Mais - et voici le coup de pouce - ils l'ont fait en utilisant uniquement des articles en libre accès de PubMed, pas de Google Scholar. 

La question de l'accès aux documents et de leur utilisation pour plus que de les lire un à la fois est quelque chose que les groupes préconisent depuis des décennies. J'y ai personnellement travaillé pendant près d'une décennie, en lançant une plateforme de publication en libre accès appelée Le vanneur au cours de la dernière année de mon doctorat, puis travaillant à construire le article du futur dans une autre startup appelée Auteur. Bien qu'aucune de ces initiatives ne se soit pleinement déroulée comme je le souhaitais, elles m'ont conduit à mon travail actuel chez scier, qui a, au moins partiellement, résolu le problème d'accès en travaillant directement avec les éditeurs. 

Connecter les composants et définir les relations

Notre objectif à scier est d'introduire le nouvelle génération de citations - appelées Smart Citations - qui montrent comment et pourquoi un article, un chercheur, une revue ou un sujet a été cité et plus généralement discuté dans la littérature. En travaillant avec des éditeurs, nous extrayons les phrases directement des articles en texte intégral où ils utilisent leurs références dans le texte. Ces phrases offrent un aperçu qualitatif de la façon dont les articles ont été cités par des travaux plus récents. C'est un peu comme Rotten Tomatoes pour la recherche.

Cela nécessite un accès aux articles en texte intégral et une coopération avec les éditeurs, afin que nous puissions utiliser l'apprentissage automatique pour extraire et analyser les déclarations de citation à grande échelle. Parce qu'il y avait suffisamment d'articles en libre accès pour commencer, nous avons pu construire la preuve de concept et un par un, nous avons démontré aux éditeurs la capacité de découverte accrue des articles indexés dans notre système et leur avons fourni un système pour afficher de meilleures métriques pour une évaluation de la recherche plus responsable. Ce que nous avons vu comme des déclarations d'experts, ils l'ont vu comme des aperçus de leurs articles. Les éditeurs ont maintenant signé en masse et nous avons indexé plus de 1.1 milliard de citations intelligentes de plus de la moitié de tous les articles publiés.

Utiliser des données relationnelles pour former des modèles d'IA

Les composants et les relations extraits des articles pourraient être utilisés pour former de nouveaux grands modèles de langage pour la recherche. GPT-3, bien que très puissant, n'a pas été conçu pour fonctionner sur la science et répond mal aux questions que vous pourriez voir sur le SAT. Lorsque GPT-2 (une version antérieure de GPT-3) était adapté en l'entraînant sur des millions d'articles de recherche, il fonctionnait mieux que GPT-2 seul sur des tâches de connaissances spécifiques. Cela souligne que les données utilisées pour entraîner les modèles sont extrêmement importantes. 

 Certains groupes ont récemment utilisé GPT-3 pour rédiger des articles universitaires, et bien que cela soit impressionnant, les faits ou les arguments qu'ils pourraient prétendre montrer pourraient être très faux. Si le modèle ne parvient pas à répondre correctement à des questions simples de type SAT, pouvons-nous lui faire confiance pour rédiger un article complet ? SCIgén, qui est antérieur au GPT-3 de près de 20 ans, a montré qu'il est relativement facile de générer des documents qui semblent réels. Leur système, bien que beaucoup plus simple, générait des papiers qui étaient accepté dans diverses conférences. Nous avons besoin d'un modèle qui n'a pas seulement l'air scientifique mais qui est scientifique, et qui nécessite un système pour vérifier les allégations pour les machines et les humains. Meta a récemment introduit un système de vérification des citations Wikipédia, quelque chose que certains éditeurs ont vocalement souhaitaient avoir pour les publications savantes.

Progrès en cours

Encore une fois, l'un des principaux obstacles à la réalisation de ce système est le manque d'accès aux documents et aux ressources nécessaires pour le créer. Lorsque des documents ou des informations deviennent disponibles pour une utilisation à grande échelle, nous constatons outils et nouveaux modèles fleurissent. L'équipe Google Patent a utilisé 100 millions de brevets pour former un système d'aide à l'analyse des brevets, en fait un GooglePatentBERT. D'autres ont introduit des modèles comme BioBERT et les SciBERT, et malgré le fait qu'ils n'ont été formés que sur environ 1 % des textes scientifiques dans des domaines spécifiques, ils sont impressionnants dans les tâches savantes, y compris notre système de classification des citations à scite. 

Plus récemment, une ÉruditBERT modèle a été publié, qui utilise effectivement toute la littérature scientifique pour former BERT. Ils surmontent le problème d'accès mais sont particulièrement muets sur la manière, soulignant simplement que leur utilisation est "non consommatrice". Ce cas d'utilisation pourrait ouvrir les portes à d'autres utilisent des articles sans l'autorisation expresse des éditeurs et pourraient constituer une étape importante dans la création d'un DALL-E de la science. Étonnamment, cependant, ScholarBERT a fait moins bien dans diverses tâches de connaissances spécialisées que des modèles de langage scientifique plus petits comme SciBERT. 

Il est important de noter que les modèles de style BERT sont à une échelle beaucoup plus petite que les grands modèles de langage comme GPT-3, et ils ne permettent pas le même type d'incitation générique et d'apprentissage en contexte qui a alimenté une grande partie du battage médiatique GPT-3. La question demeure : et si nous appliquions les mêmes données de ScholarBERT pour former un modèle génératif à grande échelle comme GPT-3 ? Et si nous pouvions en quelque sorte montrer d'où proviennent les réponses de la machine, peut-être en les liant directement à la littérature (comme les citations intelligentes) ?

Pourquoi maintenant?

Heureusement, les journaux deviennent plus ouverts et les machines deviennent plus puissantes. Nous pouvons maintenant commencer à utiliser les données contenues dans les articles et les référentiels connectés pour former des machines à répondre aux questions et à synthétiser de nouvelles idées basées sur la recherche. Cela pourrait transformer les soins de santé, les politiques, la technologie et tout ce qui nous entoure. Imaginez, si nous ne recherchions pas seulement les titres des documents mais spécifiquement les réponses, comment cela aurait un impact sur la recherche et les flux de travail dans toutes les disciplines. 

 Libérer les connaissances scientifiques mondiales des barrières jumelles de l'accessibilité et de la compréhensibilité contribuera à la transition d'un Web axé sur les clics, les vues, les goûts et l'attention vers un Web axé sur les preuves, les données et la véracité. La pharmacie est clairement incitée à concrétiser cela, d'où le nombre croissant de startups identifiant des cibles médicamenteuses potentielles à l'aide de l'IA - mais je pense que le public, les gouvernements et toute personne utilisant Google pourraient être disposés à renoncer aux recherches gratuites dans un effort de confiance et de temps. économie. Le monde a désespérément besoin d'un tel système, et il en a besoin rapidement. 


 

 

Publié le 18 août 2022

La technologie, l'innovation et l'avenir, racontés par ceux qui l'ont construit.

Merci pour l'enregistrement.

Vérifiez votre boîte de réception pour un message de bienvenue.

Horodatage:

Plus de Andreessen Horowitz