Winzige Sprachmodelle gedeihen mit GPT-4 als Lehrer | Quanta-Magazin

Winzige Sprachmodelle gedeihen mit GPT-4 als Lehrer | Quanta-Magazin

Winzige Sprachmodelle gedeihen mit GPT-4 als Lehrer | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Einleitung

Englisch zu lernen ist keine leichte Aufgabe, wie unzählige Studenten wissen. Aber wenn der Schüler ein Computer ist, funktioniert ein Ansatz überraschend gut: Einfach Berge von Texten aus dem Internet in ein riesiges mathematisches Modell, ein sogenanntes neuronales Netzwerk, einspeisen. Das ist das Funktionsprinzip generativer Sprachmodelle wie ChatGPT von OpenAI, deren Fähigkeit, sich kohärent (wenn auch nicht immer wahrheitsgemäß) über ein breites Themenspektrum zu unterhalten, Forscher und Öffentlichkeit im vergangenen Jahr überrascht hat.

Doch der Ansatz hat seine Nachteile. Einerseits ist das „Training“-Verfahren, das erforderlich ist, um riesige Textarchive in hochmoderne Sprachmodelle umzuwandeln, kostspielig und zeitintensiv. Zum anderen fällt es selbst den Menschen, die große Sprachmodelle trainieren, schwer, deren Innenleben zu verstehen; Das wiederum macht es schwierig vorherzusagen, auf welche Weise sie scheitern können.

Angesichts dieser Schwierigkeiten haben sich einige Forscher für eine Ausbildung entschieden kleinere Modelle auf kleineren Datensätzen und untersuchen dann deren Verhalten. „Es ist wie eine Sequenzierung Drosophila Genom versus Sequenzierung des menschlichen Genoms“, sagte Ellie Pavlick, ein Sprachmodellforscher an der Brown University.

Nun, in einem Krepppapier Kürzlich auf dem wissenschaftlichen Preprint-Server arxiv.org veröffentlicht, haben zwei Microsoft-Forscher eine neue Methode zum Trainieren winziger Sprachmodelle vorgestellt: Erziehen Sie sie mit einer strengen Diät aus Kindergeschichten.

Forscher des maschinellen Lernens haben diese Lektion angenommen. GPT-3.5, das große Sprachmodell, das der ChatGPT-Schnittstelle zugrunde liegt, verfügt über fast 200 Milliarden Parameter und wurde anhand eines Datensatzes trainiert, der Hunderte Milliarden Wörter umfasst. (OpenAI hat die entsprechenden Zahlen für seinen Nachfolger GPT-4 nicht veröffentlicht.) Für das Training solch großer Modelle sind in der Regel mindestens 1,000 spezialisierte Prozessoren, sogenannte GPUs, erforderlich, die wochenlang parallel laufen. Nur wenige Unternehmen können die erforderlichen Ressourcen aufbringen, geschweige denn verschiedene Modelle trainieren und vergleichen.

Die beiden Forscher zeigten, dass Sprachmodelle, die um ein Vielfaches kleiner sind als die heutigen hochmodernen Systeme, schnell lernen, konsistente und grammatikalische Geschichten zu erzählen, wenn sie auf diese Weise trainiert werden. Ihre Ergebnisse weisen auf neue Forschungsrichtungen hin, die für das Training größerer Modelle und das Verständnis ihres Verhaltens hilfreich sein könnten.

„Ich fand dieses Papier sehr informativ“, sagte er Chandra Bhagavatula, ein Sprachmodellforscher am Allen Institute for Artificial Intelligence in Seattle. „Das Konzept selbst ist super interessant.“

Es war einmal

Die neuronalen Netze im Herzen von Sprachmodellen sind mathematische Strukturen, die lose vom menschlichen Gehirn inspiriert sind. Jedes enthält viele künstliche Neuronen, die in Schichten angeordnet sind, mit Verbindungen zwischen Neuronen in benachbarten Schichten. Das Verhalten des neuronalen Netzwerks wird durch die Stärke dieser Verbindungen, sogenannte Parameter, bestimmt. In einem Sprachmodell steuern die Parameter, welche Wörter das Modell bei einer anfänglichen Eingabeaufforderung und den bereits generierten Wörtern als nächstes ausspuckt.

Ein Modell erwacht während des Trainings erst dann wirklich zum Leben, wenn es seine eigene Ausgabe wiederholt mit dem Text in seinem Trainingsdatensatz vergleicht und seine Parameter anpasst, um die Ähnlichkeit zu erhöhen. Ein untrainiertes Netzwerk mit zufälligen Parametern lässt sich trivial einfach aus ein paar Codezeilen zusammenstellen, produziert aber nur Unsinn. Nach dem Training lässt sich ein unbekannter Text oft plausibel fortsetzen. Größere Modelle werden häufig einer weiteren Feinabstimmung unterzogen, um ihnen beizubringen, Fragen zu beantworten und Anweisungen zu befolgen. Der Großteil des Trainings besteht jedoch darin, die Wortvorhersage zu beherrschen.

Um bei der Wortvorhersage erfolgreich zu sein, muss ein Sprachmodell viele verschiedene Fähigkeiten beherrschen. Beispielsweise legen die Regeln der englischen Grammatik nahe, dass das nächste Wort nach dem Wort „going“ wahrscheinlich „to“ ist, unabhängig vom Thema des Textes. Darüber hinaus benötigt ein System Faktenwissen, um „Die Hauptstadt Frankreichs ist“ zu vervollständigen und eine Passage zu vervollständigen, die Folgendes enthält das Wort „nicht“ erfordert ein rudimentäres Verständnis der Logik.

„Rohe Sprache ist sehr kompliziert“, sagte er Timothy Nguyen, ein Forscher für maschinelles Lernen bei DeepMind. „Um interessante sprachliche Fähigkeiten zu entwickeln, greifen die Menschen auf das Prinzip „Mehr Daten sind besser“ zurück.“

Einleitung

Ronen Eldan, ein Mathematiker, der 2022 zu Microsoft Research kam, um generative Sprachmodelle zu studieren, wollte eine kostengünstigere und schnellere Möglichkeit entwickeln, ihre Fähigkeiten zu erkunden. Der natürliche Weg, dies zu erreichen, bestand darin, einen kleinen Datensatz zu verwenden, und das bedeutete wiederum, dass er Modelle trainieren musste, um sich auf eine bestimmte Aufgabe zu spezialisieren, damit sie sich nicht zu sehr aufspalteten. Ursprünglich wollte er Modelle trainieren, um eine bestimmte Klasse mathematischer Probleme zu lösen, doch eines Nachmittags, nachdem er Zeit mit seiner 5-jährigen Tochter verbracht hatte, wurde ihm klar, dass Kindergeschichten perfekt dazu passten.

„Es kam mir buchstäblich in den Sinn, nachdem ich ihr eine Geschichte vorgelesen hatte“, sagte er.

Um zusammenhängende Kindergeschichten zu generieren, müsste ein Sprachmodell Fakten über die Welt lernen, Charaktere und Ereignisse im Auge behalten und die Regeln der Grammatik beachten – einfachere Versionen der Herausforderungen, vor denen große Modelle stehen. Aber große Modelle, die auf riesigen Datensätzen trainiert werden, lernen neben den wirklich wichtigen Regeln auch unzählige irrelevante Details. Eldan hoffte, dass die Kürze und der begrenzte Wortschatz von Kindergeschichten das Lernen für kleine Modelle einfacher machen würden – was sie sowohl leichter zu trainieren als auch leichter zu verstehen machen würde.

In der Welt der Sprachmodelle ist „klein“ jedoch relativ: Ein Datensatz, der tausendmal kleiner ist als der, der zum Trainieren von GPT-3.5 verwendet wurde, müsste immer noch Millionen von Geschichten enthalten. „Ich weiß nicht, wie viel Geld Sie ausgeben möchten, aber ich vermute, dass Sie keine Profis einstellen werden, um [ein paar Millionen] Kurzgeschichten zu schreiben“, sagte Nguyen.

Es bräuchte einen außerordentlich produktiven Autor, um solch unersättliche Leser zufriedenzustellen, aber Eldan hatte einige Kandidaten im Sinn. Wer könnte besser für ein Publikum kleiner Sprachmodelle schreiben als für große?

Spielzeuggeschichten

Eldan machte sich sofort daran, eine Bibliothek synthetischer Kindergeschichten zu erstellen, die von großen Sprachmodellen generiert wurden. Doch schon bald stellte er fest, dass selbst hochmoderne Modelle von Natur aus nicht besonders kreativ sind. Wenn man GPT-4 nur anweist, Geschichten zu schreiben, die für Vierjährige geeignet sind, sagt Eldan, „handelt es sich bei etwa einem Fünftel der Geschichten um Kinder, die in den Park gehen und Angst vor den Rutschen haben.“ Das ist offenbar die Quintessenz der Vorschulgeschichte, soweit es das Internet betrifft.

Die Lösung bestand darin, der Eingabeaufforderung etwas Zufälligkeit hinzuzufügen. Zunächst erstellte Eldan mit GPT-4 eine Liste mit 1,500 Substantiven, Verben und Adjektiven, die ein 4-Jähriger kennen könnte – kurz genug, dass er sie leicht selbst überprüfen konnte. Dann schrieb er ein einfaches Computerprogramm, das GPT-3.5 oder GPT-4 wiederholt aufforderte, eine altersgerechte Geschichte zu generieren, die drei zufällige Wörter aus der Liste sowie ein zusätzliches zufällig ausgewähltes Detail wie ein Happy End oder eine Wendung in der Handlung enthielt. Die daraus resultierenden Geschichten konzentrierten sich glücklicherweise weniger auf gruselige Folien.

Eldan verfügte nun über ein Verfahren zur bedarfsgesteuerten Ausgabe von Trainingsdaten, aber er hatte keine Ahnung, wie viele Storys er zum Trainieren eines Funktionsmodells benötigen würde oder wie groß dieses Modell sein müsste. Da tat er sich mit zusammen Yuanzhi Li, ein Forscher für maschinelles Lernen bei Microsoft und der Carnegie Mellon University, versuchte verschiedene Möglichkeiten auszuprobieren und nutzte dabei die Tatsache, dass kleine Modelle sehr schnell trainiert werden konnten. Schritt 1 bestand darin, zu entscheiden, wie ihre Modelle bewertet werden sollten.

Einleitung

In der Sprachmodellforschung – wie in jedem Klassenzimmer – ist die Benotung ein heikles Thema. Es gibt keine perfekte Rubrik Das fasst alles zusammen, was Forscher wissen wollen, und Modelle, die bei manchen Aufgaben hervorragend sind, scheitern bei anderen oft spektakulär. Im Laufe der Zeit haben Forscher verschiedene Standard-Benchmarks entwickelt, die auf Fragen mit eindeutigen Antworten basieren. Dies ist ein guter Ansatz, wenn Sie versuchen, bestimmte Fähigkeiten zu bewerten. Aber Eldan und Li interessierten sich für etwas Nebulöseres: Wie groß müssen Sprachmodelle wirklich sein, wenn man die Sprache so weit wie möglich vereinfacht?

„Um direkt zu testen, ob das Modell Englisch spricht, können Sie meiner Meinung nach nur das Modell auf offene Weise Englisch generieren lassen“, sagte Eldan.

Es gibt nur zwei Möglichkeiten, die Leistung eines Modells bei solchen qualitativen Fragen zu messen: Verlassen Sie sich auf menschliche Bewerter oder greifen Sie noch einmal auf GPT-4 zurück. Die beiden Forscher entschieden sich für den letzteren Weg und ließen die großen Vorbilder effektiv sowohl die Lehrbücher schreiben als auch die Aufsätze benoten.

Bhagavatula sagte, er hätte gerne gesehen, wie sich die Bewertungen von GPT-4 mit denen menschlicher Gutachter vergleichen lassen – GPT-4 sei möglicherweise voreingenommen gegenüber Modellen, die es trainiert habe, und die Undurchsichtigkeit von Sprachmodellen mache es schwierig, solche Vorurteile zu quantifizieren. Aber er glaubt nicht, dass sich solche Feinheiten auf Vergleiche zwischen verschiedenen Modellen auswirken würden, die auf ähnlichen Sätzen synthetischer Geschichten trainiert wurden – dem Hauptschwerpunkt der Arbeit von Eldan und Li.

Eldan und Li verwendeten ein zweistufiges Verfahren zur Bewertung jedes ihrer kleinen Modelle nach dem Training. Zunächst forderten sie das kleine Modell mit der ersten Hälfte einer Geschichte auf, die sich von denen im Trainingsdatensatz unterschied, sodass ein neues Ende generiert wurde, und wiederholten diesen Vorgang mit 50 verschiedenen Testgeschichten. Zweitens wiesen sie GPT-4 an, jedes Ende des kleinen Modells anhand von drei Kategorien zu bewerten: Kreativität, Grammatik und Übereinstimmung mit dem Anfang der Geschichte. Anschließend bildeten sie den Durchschnitt der Ergebnisse in jeder Kategorie und erhielten am Ende drei Endnoten pro Modell.

Mit diesem Verfahren waren Eldan und Li endlich bereit, verschiedene Modelle zu vergleichen und herauszufinden, welche die besten Schüler waren.

Testergebnisse

Nach einigen Voruntersuchungen entschieden sich die beiden Forscher für einen Trainingsdatensatz mit etwa 2 Millionen Geschichten. Anschließend nutzten sie diesen Datensatz namens TinyStories, um Modelle mit einer Größe von 1 Million bis 30 Millionen Parametern und einer unterschiedlichen Anzahl von Schichten zu trainieren. Die Arbeit ging schnell: Mit nur vier GPUs dauerte das Training des größten dieser Modelle nicht länger als einen Tag.

Die kleinsten Modelle hatten Probleme. Eine Testgeschichte beginnt beispielsweise damit, dass ein gemein aussehender Mann einem Mädchen sagt, dass er ihre Katze mitnehmen wird. Ein Millionen-Parameter-Modell blieb in einer Schleife stecken, als das Mädchen dem Mann wiederholt sagte, dass sie mit ihr befreundet sein wollte. Aber die größeren – immer noch tausendmal kleiner als GPT-3.5 – schnitten überraschend gut ab. Die 28-Millionen-Parameter-Version erzählte eine zusammenhängende Geschichte, auch wenn das Ende düster war: „Katie fing an zu weinen, aber dem Mann war das egal. Er nahm die Katze mit und Katie sah ihre Katze nie wieder. Das Ende."

Zusätzlich zum Testen ihrer eigenen Modelle stellten Eldan und Li die gleiche Herausforderung an OpenAIs GPT-2, ein 1.5-Milliarden-Parameter-Modell, das 2019 veröffentlicht wurde. Es kam noch viel schlimmer: Bevor die Geschichte abrupt endete, drohte der Mann, das Mädchen zu entführen zum Gericht, ins Gefängnis, ins Krankenhaus, in die Leichenhalle und schließlich ins Krematorium.

Einleitung

Nguyen sagte, es sei aufregend, dass so kleine Modelle so flüssig arbeiteten, aber vielleicht nicht überraschend, dass GPT-2 mit der Aufgabe zu kämpfen hatte: Es ist ein größeres Modell, aber weit vom Stand der Technik entfernt, und es wurde auf einem ganz anderen Datensatz trainiert. „Ein Kleinkind, das nur Kleinkindaufgaben, wie das Spielen mit einigen Spielzeugen, trainiert, könnte besser abschneiden als Sie oder ich“, bemerkte er. „Wir haben uns nicht auf diese einfache Sache spezialisiert.“

Vergleiche zwischen verschiedenen TinyStories-Modellen weisen nicht dieselben Störfaktoren auf. Eldan und Li beobachteten Hinweise darauf, dass Netzwerke mit weniger Schichten, aber mehr Neuronen pro Schicht besser in der Lage waren, Fragen zu beantworten, die Faktenwissen erforderten; Im Gegensatz dazu waren Netzwerke mit mehr Schichten und weniger Neuronen pro Schicht besser darin, Charaktere und Handlungspunkte von früher in der Geschichte im Auge zu behalten. Bhagavatula fand dieses Ergebnis besonders faszinierend. Wenn es in größeren Modellen reproduziert werden könne, sagte er, „wäre das ein wirklich cooles Ergebnis, das aus dieser Arbeit hervorgehen könnte.“

Eldan und Li untersuchten auch, wie die Fähigkeiten ihrer kleinen Modelle von der Dauer des Trainingszeitraums abhingen. In jedem Fall beherrschten die Modelle zuerst die Grammatik und später die Konsistenz. Für Eldan veranschaulicht dieses Muster, wie Unterschiede in den Belohnungsstrukturen zu Unterschieden in den Spracherwerbsmustern zwischen neuronalen Netzen und Kindern führen. Bei Sprachmodellen, die durch Vorhersagen von Wörtern lernen, „ist der Anreiz bei den Wörtern ‚Ich möchte haben‘ genauso groß wie bei den Wörtern ‚Eiscreme‘“, sagte er. Kindern hingegen „ist es egal, ob sie sagen ‚Ich hätte gerne ein Eis‘ oder nur ‚Eis, Eis, Eis‘.“

Qualität gegen Quantität

Eldan und Li hoffen, dass die Forschung andere Forscher dazu motivieren wird, verschiedene Modelle zu trainieren der TinyStories-Datensatz und vergleichen Sie ihre Fähigkeiten. Allerdings ist es oft schwer vorherzusagen, welche Eigenschaften kleiner Modelle auch in größeren Modellen zum Vorschein kommen.

„Vielleicht sind Mausmodelle des Sehvermögens wirklich gute Stellvertreter des menschlichen Sehvermögens, aber sind Mausmodelle der Depression auch gute Modelle der menschlichen Depression?“ sagte Pavlick. „Es ist in jedem Fall ein bisschen anders.“

Der Erfolg der TinyStories-Modelle legt auch eine umfassendere Lehre nahe. Der Standardansatz zum Zusammenstellen von Trainingsdatensätzen besteht darin, Text aus dem gesamten Internet aufzusaugen und dann den Müll herauszufiltern. Von großen Modellen generierter synthetischer Text könnte eine alternative Möglichkeit bieten, qualitativ hochwertige Datensätze zusammenzustellen, die nicht so groß sein müssten.

„Wir haben immer mehr Beweise dafür, dass dies sehr effektiv ist, nicht nur bei Modellen in TinyStories-Größe, sondern auch bei größeren Modellen“, sagte Eldan. Diese Beweise stammen aus zwei Folgepapieren über Milliarden-Parameter-Modelle von Eldan, Li und anderen Microsoft-Forschern. Im erstes PapierSie trainierten ein Modell zum Erlernen der Programmiersprache Python mithilfe von Codeschnipseln, die von GPT-3.5 generiert wurden, zusammen mit sorgfältig kuratiertem Code aus dem Internet. Im zweite, ergänzten sie den Trainingsdatensatz mit synthetischen „Lehrbüchern“, die ein breites Themenspektrum abdecken, um ein allgemeines Sprachmodell zu trainieren. In ihren Tests schnitten beide Modelle im Vergleich zu größeren Modellen, die auf größeren Datensätzen trainiert wurden, positiv ab. Die Bewertung von Sprachmodellen ist jedoch immer schwierig, und der Ansatz mit synthetischen Trainingsdaten steckt noch in den Kinderschuhen – es sind mehr unabhängige Tests erforderlich.

Während hochmoderne Sprachmodelle immer umfangreicher werden, erinnern überraschende Erkenntnisse ihrer kleinen Verwandten daran, dass wir selbst über die einfachsten Modelle immer noch vieles nicht verstehen. Nguyen erwartet, dass es noch viele weitere Artikel geben wird, die den von TinyStories entwickelten Ansatz untersuchen.

„Die Frage ist: Wo und warum spielt die Größe eine Rolle?“ er sagte. „Darüber sollte es eine wissenschaftliche Grundlage geben, und dieses Papier ist hoffentlich der Anfang einer reichen Geschichte.“

Zeitstempel:

Mehr von Quantamagazin