So erstellen Sie eine GPT-3 für die Wissenschaft PlatoBlockchain-Datenintelligenz. Vertikale Suche. Ai.

So bauen Sie ein GPT-3 für die Wissenschaft

Möchten Sie ein Bild von erstellen Velociraptoren, die an einem Wolkenkratzer arbeiten, im Stil von „Lunch Atop A Skyscraper“ von 1932? Verwenden Sie DALL-E. Willst du eine imaginäre erstellen Standup-Comedy-Show von Peter Thiel, Elon Musk und Larry Page? Verwenden Sie GPT-3. Möchten Sie die COVID-19-Forschung eingehend verstehen und Ihre Fragen auf der Grundlage von Beweisen beantworten? Lernen Sie, wie man eine boolesche Suche durchführt, wissenschaftliche Artikel liest und vielleicht promoviert, denn es gibt keine generativen KI-Modelle, die auf der großen Menge wissenschaftlicher Forschungspublikationen trainiert wurden. Wenn dies der Fall wäre, wäre es einer der einfachsten Vorteile, evidenzbasierte, leicht verständliche Antworten auf wissenschaftliche Fragen zu erhalten. Generative KI für die Wissenschaft könnte helfen, dies umzukehren Verlangsamung der Innovation in der Wissenschaft by Ich mach das einfacher und billiger um neue Ideen zu finden. Solche Modelle könnten auch datengestützte Warnungen vor therapeutischen Hypothesen liefern, die mit Sicherheit scheitern werden, menschliche Vorurteile ausgleichen und Milliarden-Dollar-Kosten vermeiden. Jahrzehntelange Sackgassen. Schließlich könnten solche Modelle kämpfen die Reproduzierbarkeitskrise indem Forschungsergebnisse abgebildet, gewichtet und kontextualisiert werden, um eine Bewertung der Vertrauenswürdigkeit zu erhalten.

Warum haben wir also kein DALL-E oder GPT-3 für die Wissenschaft? Der Grund dafür ist, dass, obwohl die wissenschaftliche Forschung ist nicht nur die wertvollsten Inhalte der Welt, sondern auch die am wenigsten zugänglichen und verständlichsten Inhalte der Welt. Ich werde erklären, was erforderlich wäre, um wissenschaftliche Daten in großem Maßstab freizusetzen, um generative KI für die Wissenschaft zu ermöglichen, und wie dies die Art und Weise verändern würde, wie wir uns mit der Forschung beschäftigen. 

Was macht wissenschaftliche Forschungsdaten herausfordernd?

Forschungspublikationen gehören zu den weltweit wichtigsten Repositorien für Inhalte und Informationen, die jemals erstellt wurden. Sie verknüpfen Ideen und Erkenntnisse über Zeit und Disziplin hinweg und werden durch ein Netzwerk von Bibliotheken für immer bewahrt. Sie werden durch Beweise, Analysen, Experteneinblicke und statistische Beziehungen gestützt. Sie sind äußerst wertvoll, werden jedoch weitgehend vor dem Web verborgen und sehr ineffizient genutzt. Das Internet ist voll von niedlichen, kuscheligen Katzenvideos, aber weitgehend frei von modernster Krebsforschung. Als Beispiel die Web of Science ist eines der umfassendsten Verzeichnisse wissenschaftlicher Erkenntnisse. Es gibt es schon seit Jahrzehnten, aber es ist wahrscheinlich etwas, von dem die meisten Leser noch nie gehört haben, geschweige denn damit interagiert haben. Die meisten von uns haben keinen Zugang zu Forschungsarbeiten, und selbst wenn, sind sie dicht, schwer verständlich und als PDF gepackt – ein Format, das für den Druck und nicht für das Internet entwickelt wurde.

Da wissenschaftliche Arbeiten nicht leicht zugänglich sind, können wir die Daten nicht einfach verwenden, um generative Modelle wie GPT-3 oder DALL-E zu trainieren. Können Sie Stellen Sie sich vor, ein Forscher könnte ein Experiment vorschlagen und ein KI-Modell könnte ihm sofort sagen, ob es schon einmal gemacht wurde (und noch besser, ihm das Ergebnis mitteilen)? Sobald sie Daten aus einem neuartigen Experiment haben, könnte die KI auf der Grundlage des Ergebnisses ein Folgeexperiment vorschlagen. Stellen Sie sich abschließend die Zeit vor, die eingespart werden könnte, wenn der Forscher seine Ergebnisse hochladen und das KI-Modell das resultierende Manuskript schreiben könnte Sie. Am nächsten an einem DALL-E der Wissenschaft sind wir je gekommen, ist Google Scholar, aber es ist keine nachhaltige oder skalierbare Lösung. Auch IBM Watson wollte vieles von dem, was ich hier beschreibe, erreichen, aber die meisten Arbeiten gingen den jüngsten Fortschritten bei großen Sprachmodellen voraus und nutzten keine angemessenen oder ausreichenden Daten, um dem Marketing-Hype gerecht zu werden.

Für die Art der Wertschöpfung, die ich beschreibe, brauchen wir langfristige Investitionen, Engagement und Visionen. Wie vorgeschlagen kürzlich in Future, müssen wir wissenschaftliche Publikationen als Substrate behandeln, die kombiniert und in großem Maßstab analysiert werden. Sobald wir die Barrieren beseitigt haben, werden wir in der Lage sein, die Wissenschaft zu nutzen, um datenhungrige generative KI-Modelle zu füttern. Diese Modelle haben ein immenses Potenzial, die Wissenschaft zu beschleunigen und die wissenschaftliche Grundbildung zu verbessern, indem sie sie beispielsweise darin trainieren, neue wissenschaftliche Ideen zu generieren, Wissenschaftlern dabei helfen, die riesige wissenschaftliche Literatur zu verwalten und zu navigieren, fehlerhafte oder sogar gefälschte Forschungsergebnisse zu identifizieren und komplexe Forschungsergebnisse zu synthetisieren und zu übersetzen gewöhnliche menschliche Sprache.

Wie bekommen wir ein DALL-E oder GPT-3 für die Wissenschaft?

Wenn Sie in der Technik sind, zeigen Sie einem Freund Ergebnisse von generativen KI-Modellen wie DALL-E or GPT-3 ist, als würde man ihnen Magie zeigen. Diese Tools repräsentieren die nächste Generation des Webs. Sie stammen aus der Synthese riesiger Informationsmengen, die über eine einfache Verknüpfung hinausgehen, um Werkzeuge mit generativer Kapazität zu schaffen. Wie können wir also eine ähnlich magische Erfahrung in der Wissenschaft schaffen, bei der jeder eine Frage zur wissenschaftlichen Literatur in einfacher Sprache stellen kann und eine verständliche, durch Beweise untermauerte Antwort erhält? Wie können wir Forschern helfen, ihre Hypothesen zu erstellen, zu entwickeln, zu verfeinern und zu testen? Wie können wir potenziell vermeiden, Milliarden von Dollar zu verschwenden? Versagende Hypothesen in der Alzheimer-Forschung und irrtümliche Verbindungen zwischen Genetik und Depression

Die Lösungen für diese Fragen mögen wie Science-Fiction klingen, aber es gibt Beweise dafür, dass wir erstaunliche und undenkbare Dinge tun können, wenn wissenschaftliche Arbeit für mehr als nur die Summe ihrer Teile verwendet wird. In der Tat werden fast 200,000 Proteinstrukturen verwendet der Proteindatenbank hat gegeben AlphaFold die Fähigkeit Proteinstrukturen genau vorherzusagen, etwas, wofür gerade getan wurde jedes jemals dokumentierte Protein (über 200 Millionen!). Die Nutzung von Forschungsarbeiten in ähnlicher Weise wie bei Proteinstrukturen wäre ein natürlicher nächster Schritt. 

Papiere in ihre minimalen Bestandteile zerlegen

Forschungsarbeiten sind voller wertvoller Informationen, darunter Zahlen, Diagramme, statistische Beziehungen und Verweise auf andere Arbeiten. Sie in verschiedene Komponenten zu zerlegen und sie in großem Maßstab zu verwenden, könnte uns helfen, Maschinen für verschiedene Arten von wissenschaftsbezogenen Aufgaben, Eingabeaufforderungen oder Abfragen zu trainieren. Einfache Fragen könnten durch Training zu einem Komponententyp beantwortet werden, aber komplexere Fragen oder Eingabeaufforderungen würden die Einbeziehung mehrerer Komponententypen und ein Verständnis ihrer Beziehung zueinander erfordern.  

Einige Beispiele für komplexe potenzielle Eingabeaufforderungen sind:

„Sag mir, warum diese Hypothese falsch ist“
„Sag mir, warum meine Behandlungsidee nicht funktioniert“
„Eine neue Behandlungsidee generieren“
„Welche Beweise sprechen für die Sozialpolitik X?“
„Wer hat die zuverlässigste Forschung auf diesem Gebiet veröffentlicht?“
„Schreib mir eine wissenschaftliche Arbeit basierend auf meinen Daten“

Einige Gruppen machen Fortschritte bei dieser Vision. Zum Beispiel, Entlocken wendet GPT-3 auf Millionen von Papiertiteln und Abstracts an, um die Fragen von Forschern zu beantworten – ähnlich wie Alexa, aber für die Wissenschaft. System extrahiert statistische Beziehungen zwischen Entitäten, die zeigen, wie verschiedene Konzepte und Entitäten miteinander verbunden sind. Grundierung konzentriert sich nicht auf Forschungsarbeiten per se, aber es funktioniert mit arXiv und bietet ein Dashboard mit Informationen, die von Unternehmen und Regierungen verwendet werden, um große Datenmengen aus vielen Quellen zu synthetisieren und zu verstehen. 

Greifen Sie auf alle Komponenten zu

Leider verlassen sich diese Gruppen in erster Linie nur auf Titel und Abstracts und nicht auf die Volltexte, da etwa fünf von sechs Artikeln nicht frei oder leicht zugänglich sind. Für die Gruppen wie Web of Science und Google, die über die Daten oder die Papiere verfügen, sind deren Lizenzen und Nutzungsumfang begrenzt oder undefiniert. Im Fall von Google ist unklar, warum es keine öffentlich angekündigten Bemühungen gab, KI-Modelle auf die wissenschaftliche Volltextrecherche in Google Scholar zu trainieren. Erstaunlicherweise änderte sich daran auch inmitten der COVID-19-Pandemie nichts, die die Welt zum Stillstand brachte. Das KI-Team von Google trat vor und entwickelte einen Prototyp für eine Möglichkeit, die die Öffentlichkeit fragen konnte über COVID-19. Aber – und hier ist der Clou – sie haben dabei nur Open-Access-Papiere von PubMed verwendet, nicht von Google Scholar. 

Das Problem, Zugang zu Papieren zu erhalten und sie für mehr zu verwenden, als sie nur einzeln zu lesen, ist etwas, das Gruppen seit Jahrzehnten befürworten. Ich selbst habe fast ein Jahrzehnt lang persönlich daran gearbeitet und eine Open-Access-Veröffentlichungsplattform mit dem Namen gestartet Der Winnower während des letzten Jahres meiner Promotion, und arbeitete dann daran, die zu bauen Artikel der Zukunft bei einem anderen Startup angerufen Authorea. Obwohl keine dieser Initiativen ganz so verlief, wie ich es wollte, führten sie mich zu meiner aktuellen Arbeit bei zitieren, das das Zugriffsproblem zumindest teilweise gelöst hat, indem es direkt mit den Verlagen zusammengearbeitet hat. 

Verbinden Sie die Komponenten und definieren Sie Beziehungen

Unser Ziel bei zitieren ist die Einführung Zitate der nächsten Generation – genannt Smart Citations – die zeigen, wie und warum Artikel, Forscher, Zeitschriften oder Themen zitiert und allgemeiner in der Literatur diskutiert wurden. Durch die Zusammenarbeit mit Verlagen extrahieren wir die Sätze direkt aus Volltextartikeln, in denen sie ihre Referenzen im Text verwenden. Diese Sätze bieten einen qualitativen Einblick, wie Artikel von neueren Arbeiten zitiert wurden. Es ist ein bisschen wie Rotten Tomatoes für die Forschung.

Dies erfordert den Zugriff auf Volltextartikel und die Zusammenarbeit mit Verlagen, damit wir maschinelles Lernen verwenden können, um Zitationsangaben in großem Umfang zu extrahieren und zu analysieren. Da es für den Anfang genügend Open-Access-Artikel gab, konnten wir den Proof of Concept aufbauen und den Verlagen nach und nach die erhöhte Auffindbarkeit von in unserem System indexierten Artikeln demonstrieren und ihnen ein System zur Verfügung stellen zeigen bessere Messwerte für eine verantwortungsvollere Forschungsbewertung. Was wir als Expertenaussagen sahen, sahen sie als Vorschau auf ihre Artikel. Verlage haben sich inzwischen massenhaft angemeldet und wir haben über 1.1 Milliarden Smart Citations aus mehr als der Hälfte aller veröffentlichten Artikel indiziert.

Verwenden Sie relationale Daten, um KI-Modelle zu trainieren

Die aus Papieren extrahierten Komponenten und Beziehungen könnten verwendet werden, um neue große Sprachmodelle für die Forschung zu trainieren. GPT-3 ist zwar sehr leistungsfähig, wurde aber nicht für die Arbeit an Wissenschaft und Wissenschaft entwickelt ist schlecht darin, Fragen zu beantworten, die Sie möglicherweise im SAT sehen. Wenn GPT-2 (eine frühere Version von GPT-3) war angepasst, indem es auf Millionen von Forschungsarbeiten trainiert wurde, funktionierte es bei bestimmten Wissensaufgaben besser als GPT-2 allein. Dies unterstreicht, dass die Daten, die zum Trainieren der Modelle verwendet werden, äußerst wichtig sind. 

 Einige Gruppen haben kürzlich verwendet GPT-3, um wissenschaftliche Arbeiten zu schreiben, und obwohl dies beeindruckend ist, könnten die Fakten oder Argumente, die sie vorgeben zu zeigen, sehr falsch sein. Wenn das Modell einfache Fragen im SAT-Stil nicht richtig beantworten kann, können wir darauf vertrauen, dass es eine vollständige Arbeit schreibt? SCGen, das fast 3 Jahre älter als GPT-20 ist, hat gezeigt, dass es relativ einfach ist, Papiere zu erstellen, die echt aussehen. Ihr System, obwohl viel einfacher, erzeugte Papiere, die es waren in verschiedene Konferenzen aufgenommen. Wir brauchen ein Modell, das nicht nur wissenschaftlich aussieht, sondern wissenschaftlich ist, und das ein System erfordert, um Behauptungen für Maschinen und Menschen zu überprüfen. Meta hat kürzlich a eingeführt System zur Überprüfung von Wikipedia-Zitaten, etwas, das einige Verlage stimmlich haben wünschte, sie hätten für wissenschaftliche Veröffentlichungen.

Laufender Fortschritt

Auch hier ist ein Haupthindernis für die Verwirklichung dieses Systems der fehlende Zugang zu den Papieren und Ressourcen, um es zu erstellen. Wo Papiere oder Informationen zur Verfügung stehen, um sie in großem Umfang zu verwenden, sehen wir Werkzeuge und neue Modelle gedeihen. Das Google Patent-Team verwendet 100 Millionen Patente, um ein System zur Hilfe bei der Patentanalyse zu trainieren, effektiv ein GooglePatentBERT. Andere haben Modelle wie eingeführt BioBERT und SciBERT, und trotz der Tatsache, dass sie nur für etwa 1 % der wissenschaftlichen Texte in nur bestimmten Fachgebieten ausgebildet wurden, sind sie bei wissenschaftlichen Aufgaben beeindruckend, einschließlich unseres Zitierklassifizierungssystems bei scite. 

Vor kurzem wurde ein GelehrterBERT Es wurde ein Modell veröffentlicht, das effektiv die gesamte wissenschaftliche Literatur zum Trainieren von BERT verwendet. Sie überwinden das Zugangsproblem, sind sich aber insbesondere darüber im Klaren, wie, indem sie einfach betonen, dass ihre Verwendung „nicht konsumierend“ ist. Dieser Anwendungsfall könnte die Türen zu öffnen andere verwenden Artikel ohne ausdrückliche Genehmigung der Herausgeber und könnten ein wichtiger Schritt bei der Schaffung eines DALL-E der Wissenschaft sein. Überraschenderweise schnitt ScholarBERT jedoch bei verschiedenen Spezialwissensaufgaben schlechter ab als kleinere naturwissenschaftliche Sprachmodelle wie SciBERT. 

Wichtig ist, dass Modelle im BERT-Stil viel kleiner sind als die großen Sprachmodelle wie GPT-3, und sie erlauben nicht die gleiche Art von generischer Eingabeaufforderung und kontextbezogenem Lernen, die einen Großteil des GPT-3-Hypes angetrieben hat. Die Frage bleibt: Was wäre, wenn wir die gleichen Daten von ScholarBERT anwenden würden, um ein vergrößertes generatives Modell wie GPT-3 zu trainieren? Was wäre, wenn wir irgendwie zeigen könnten, woher die Antworten der Maschine stammen, indem wir sie vielleicht direkt mit der Literatur verknüpfen (wie Smart Citations)?

Warum gerade jetzt?

Glücklicherweise werden Papiere offener und Maschinen leistungsfähiger. Wir können jetzt damit beginnen, die in Papieren und verbundenen Repositories enthaltenen Daten zu verwenden, um Maschinen zu trainieren, Fragen zu beantworten und neue Ideen auf der Grundlage von Forschung zu synthetisieren. Dies könnte für das Gesundheitswesen, die Politik, die Technologie und alles um uns herum transformativ sein. Stellen Sie sich vor, wenn wir nicht nur nach Dokumenttiteln, sondern gezielt nach Antworten suchen würden, wie würde sich das auf die Forschung und die Arbeitsabläufe in allen Disziplinen auswirken. 

 Die Befreiung des wissenschaftlichen Wissens der Welt von den doppelten Barrieren der Zugänglichkeit und Verständlichkeit wird dazu beitragen, den Übergang von einem Web, das sich auf Klicks, Aufrufe, Likes und Aufmerksamkeit konzentriert, zu einem Web, das sich auf Beweise, Daten und Wahrhaftigkeit konzentriert, voranzutreiben. Pharma hat eindeutig einen Anreiz, dies zu verwirklichen, daher die wachsende Zahl von Startups, die potenzielle Arzneimittelziele mithilfe von KI identifizieren – aber ich glaube, dass die Öffentlichkeit, Regierungen und jeder, der Google nutzt, bereit sein könnte, auf kostenlose Suchen zu verzichten, um Vertrauen und Zeit zu gewinnen. sparen. Die Welt braucht dringend ein solches System, und zwar schnell. 


 

 

Gepostet am 18. August 2022

Technologie, Innovation und die Zukunft, wie sie von denen erzählt wird, die sie bauen.

Danke für's Registrieren.

Überprüfen Sie Ihren Posteingang auf eine Willkommensnachricht.

Zeitstempel:

Mehr von Andreessen Horowitz