Små sprogmodeller trives med GPT-4 som lærer | Quanta Magasinet

Små sprogmodeller trives med GPT-4 som lærer | Quanta Magasinet

Små sprogmodeller trives med GPT-4 som lærer | Quanta Magazine PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Introduktion

At lære engelsk er ikke nogen nem opgave, som utallige elever godt ved. Men når eleven er en computer, fungerer én tilgang overraskende godt: Du skal blot fodre bjerge af tekst fra internettet til en gigantisk matematisk model kaldet et neuralt netværk. Det er driftsprincippet bag generative sprogmodeller som OpenAI's ChatGPT, hvis evne til at konversere sammenhængende (hvis ikke altid sandfærdigt) om en bred vifte af emner har overrasket forskere og offentligheden i løbet af det seneste år.

Men tilgangen har sine ulemper. For det første er den "trænings"-procedure, der kræves for at omdanne store tekstarkiver til avancerede sprogmodeller, dyr og tidskrævende. For det andet har selv de mennesker, der træner store sprogmodeller, svært ved at forstå deres indre virke; det gør det til gengæld svært at forudsige de mange måder, de kan fejle.

Stillet over for disse vanskeligheder har nogle forskere valgt at træne mindre modeller på mindre datasæt og derefter studere deres adfærd. "Det er ligesom at sekvensere Drosophila genom versus sekventering af det menneskelige genom,” sagde Ellie Pavlick, en sprogmodelforsker ved Brown University.

Nu, i en papir et par Microsoft-forskere, som for nylig blev sendt til den videnskabelige preprint-server arxiv.org, har introduceret en ny metode til træning af små sprogmodeller: Opdrag dem på en streng diæt af børns historier.

Maskinlæringsforskere har taget denne lektion til sig. GPT-3.5, den store sprogmodel, der driver ChatGPT-grænsefladen, har næsten 200 milliarder parametre, og den blev trænet på et datasæt bestående af hundredvis af milliarder af ord. (OpenAI har ikke offentliggjort de tilsvarende tal for sin efterfølger, GPT-4.) Træning af så store modeller kræver typisk mindst 1,000 specialiserede processorer kaldet GPU'er, der kører parallelt i uger ad gangen. Kun få virksomheder kan samle de nødvendige ressourcer, endsige træne og sammenligne forskellige modeller.

De to forskere viste, at sprogmodeller, der er tusindvis af gange mindre end nutidens avancerede systemer, hurtigt lærte at fortælle konsistente og grammatiske historier, når de blev trænet på denne måde. Deres resultater antyder nye forskningsretninger, der kan være nyttige til at træne større modeller og forstå deres adfærd.

"Jeg fandt dette papir meget informativt," sagde Chandra Bhagavatula, en sprogmodelforsker ved Allen Institute for Artificial Intelligence i Seattle. "Konceptet i sig selv er super interessant."

Once Upon a Time

De neurale netværk i hjertet af sprogmodeller er matematiske strukturer løst inspireret af den menneskelige hjerne. Hver enkelt indeholder mange kunstige neuroner arrangeret i lag med forbindelser mellem neuroner i tilstødende lag. Det neurale netværks adfærd er styret af styrken af ​​disse forbindelser, kaldet parametre. I en sprogmodel styrer parametrene, hvilke ord modellen kan spytte ud næste gang, givet en indledende prompt og de ord, den allerede har genereret.

En model kommer først virkelig til live under træning, når den gentagne gange sammenligner sit eget output med teksten i sit træningsdatasæt og justerer sine parametre for at øge ligheden. Et utrænet netværk med tilfældige parametre er trivielt nemt at sammensætte ud fra et par linjer kode, men det vil bare producere vrøvl. Efter træning kan det ofte plausibelt fortsætte ukendt tekst. Større modeller gennemgår ofte yderligere finjustering, der lærer dem at besvare spørgsmål og følge instruktioner, men hovedparten af ​​træningen er at mestre ordforudsigelse.

Succes med ordforudsigelse kræver en sprogmodel for at mestre mange forskellige færdigheder. For eksempel antyder reglerne for engelsk grammatik, at det næste ord efter ordet "going" sandsynligvis vil være "til", uanset tekstens emne. Derudover har et system brug for faktuel viden for at fuldføre "hovedstaden i Frankrig er," og færdiggøre en passage, der indeholder ordet "ikke" kræver en rudimentær forståelse af logik.

"Rå sprog er meget kompliceret," sagde Timothy Nguyen, en maskinlæringsforsker hos DeepMind. "For at interessante sproglige evner kan opstå, har folk tyet til 'mere data er bedre'."

Introduktion

Ronen Eldan, en matematiker, der sluttede sig til Microsoft Research i 2022 for at studere generative sprogmodeller, ønskede at udvikle en billigere og hurtigere måde at udforske deres evner på. Den naturlige måde at gøre det på var ved at bruge et lille datasæt, og det betød igen, at han skulle træne modeller til at specialisere sig i en specifik opgave, så de ikke spredte sig for tyndt. I starten ville han uddanne modeller til at løse en bestemt klasse af matematiske problemer, men en eftermiddag, efter at have tilbragt tid med sin 5-årige datter, indså han, at børns historier passede perfekt.

"Det kom bogstaveligt talt til mig, efter jeg havde læst hende en historie," sagde han.

For at generere sammenhængende børns historier ville en sprogmodel skulle lære fakta om verden, holde styr på karakterer og begivenheder og overholde grammatikkens regler - enklere versioner af de udfordringer, som store modeller står over for. Men store modeller trænet på massive datasæt lærer utallige irrelevante detaljer sammen med de regler, der virkelig betyder noget. Eldan håbede, at det korte og begrænsede ordforråd i børns historier kunne gøre læring mere overskuelig for små modeller - hvilket gør dem både nemmere at træne og nemmere at forstå.

I sprogmodellernes verden er "lille" dog relativt: Et datasæt, der er tusind gange mindre end det, der bruges til at træne GPT-3.5, ville stadig skulle indeholde millioner af historier. "Jeg ved ikke, hvor mange penge du vil bruge, men jeg gætter på, at du ikke kommer til at hyre fagfolk til at skrive [et par millioner] noveller," sagde Nguyen.

Der skulle en ekstraordinært produktiv forfatter til at tilfredsstille sådanne glubske læsere, men Eldan havde et par kandidater i tankerne. Hvem er bedre til at skrive til et publikum af små sprogmodeller end store?

legetøjshistorier

Eldan gik straks i gang med at skabe et bibliotek af syntetiske børnehistorier, der er genereret af store sprogmodeller. Men han opdagede hurtigt, at selv avancerede modeller ikke naturligt er særlig kreative. Hvis du bare fortæller GPT-4 at skrive historier, der passer til 4-årige, sagde Eldan, "omkring en femtedel af historierne vil handle om børn, der går i parken, der er bange for rutsjebanerne." Det er tilsyneladende den typiske førskolehistorie, hvad internettet angår.

Løsningen var at tilføje en smule tilfældighed i prompten. Først brugte Eldan GPT-4 til at generere en liste med 1,500 substantiver, verber og adjektiver, som en 4-årig måske kender - kort nok til at han nemt selv kunne tjekke den. Derefter skrev han et simpelt computerprogram, der gentagne gange ville få GPT-3.5 eller GPT-4 til at generere en alderssvarende historie, der indeholdt tre tilfældige ord fra listen sammen med en yderligere tilfældigt valgt detalje som en lykkelig slutning eller plottwist. De resulterende historier var barmhjertigt mindre fokuseret på skræmmende lysbilleder.

Eldan havde nu en procedure til at udskille træningsdata efter behov, men han havde ingen idé om, hvor mange historier han skulle bruge for at træne en funktionel model, eller hvor stor den model skulle være. Det var da han slog sig sammen med Yuanzhi Li, en maskinlæringsforsker ved Microsoft og Carnegie Mellon University, for at prøve forskellige muligheder ved at udnytte det faktum, at små modeller kunne trænes meget hurtigt. Trin 1 var at beslutte, hvordan de skulle evaluere deres modeller.

Introduktion

I sprogmodelforskning - som i alle klasseværelser - er karaktergivning et fyldt emne. Der er ingen perfekt rubrik der indkapsler alt, hvad forskere ønsker at vide, og modeller, der udmærker sig til nogle opgaver, fejler ofte spektakulært ved andre. Gennem tiden har forskere udviklet forskellige standardbenchmarks baseret på spørgsmål med entydige svar, hvilket er en god tilgang, hvis du forsøger at evaluere specifikke færdigheder. Men Eldan og Li var interesserede i noget mere tåget: Hvor store skal sprogmodeller egentlig være, hvis man forenkler sproget så meget som muligt?

"For direkte at teste, om modellen taler engelsk, tror jeg, at det eneste, du kan gøre, er at lade modellen generere engelsk på en åben måde," sagde Eldan.

Der er kun to måder at måle en models ydeevne på sådanne kvalitative spørgsmål: Stol på menneskelige gradere, eller vend igen til GPT-4. De to forskere valgte den sidste vej og lod reelt de store modeller både skrive lærebøgerne og bedømme essays.

Bhagavatula sagde, at han gerne ville have set, hvordan GPT-4's evalueringer sammenlignet med de menneskelige anmeldere - GPT-4 kan være forudindtaget over for modeller, som det hjalp med at træne, og uigennemsigtigheden af ​​sprogmodeller gør det svært at kvantificere sådanne skævheder. Men han tror ikke, at sådanne finesser ville påvirke sammenligninger mellem forskellige modeller, der er trænet på lignende sæt syntetiske historier - hovedfokus for Eldan og Lis arbejde.

Eldan og Li brugte en to-trins procedure til at evaluere hver af deres små modeller efter træning. Først gav de den lille model den første halvdel af en historie, der adskiller sig fra dem i træningsdatasættet, så den genererede en ny slutning, og gentog denne proces med 50 forskellige testhistorier. For det andet instruerede de GPT-4 til at klassificere hver af den lille models slutninger baseret på tre kategorier – kreativitet, grammatik og sammenhæng med begyndelsen af ​​historien. De tog derefter gennemsnittet af scorerne i hver kategori, og endte med tre endelige karakterer pr. model.

Med denne procedure i hånden var Eldan og Li endelig klar til at sammenligne forskellige modeller og finde ud af, hvem der var stjerneeleverne.

Test resultater

Efter nogle foreløbige udforskninger slog de to forskere sig til et træningsdatasæt indeholdende omkring 2 millioner historier. De brugte derefter dette datasæt, kaldet TinyStories, til at træne modeller i størrelser fra 1 million til 30 millioner parametre med varierende antal lag. Det var hurtigt arbejde: Med kun fire GPU'er tog den største af disse modeller ikke mere end en dag at træne.

De mindste modeller kæmpede. For eksempel begynder en testhistorie med, at en ondskabsfuld mand fortæller en pige, at han vil tage hendes kat. En model med millionparametre blev hængende i en løkke, hvor pigen gentagne gange fortalte manden, at hun ville være venner. Men de større - stadig tusindvis af gange mindre end GPT-3.5 - klarede sig overraskende godt. Versionen med 28 millioner parametre fortalte en sammenhængende historie, selvom slutningen var dyster: "Katie begyndte at græde, men manden var ligeglad. Han tog katten væk, og Katie så aldrig sin kat igen. Slutningen."

Ud over at teste deres egne modeller præsenterede Eldan og Li den samme udfordring for OpenAI's GPT-2, en model med 1.5 milliarder parametre udgivet i 2019. Det gik langt værre - før historiens bratte slutning truer manden med at tage pigen til retten, fængslet, hospitalet, lighuset og til sidst krematoriet.

Introduktion

Nguyen sagde, at det er spændende, at så små modeller var så flydende, men måske ikke overraskende, at GPT-2 kæmpede med opgaven: Det er en større model, men langt fra den nyeste teknologi, og den blev trænet på et meget andet datasæt. "Et småbørn, der kun træner småbørnsopgaver, som at lege med noget legetøj, kan måske gøre det bedre end dig eller jeg," bemærkede han. "Vi specialiserede os ikke i denne simple ting."

Sammenligninger mellem forskellige TinyStories-modeller lider ikke af de samme forvirrende faktorer. Eldan og Li observerede antydninger af, at netværk med færre lag, men flere neuroner pr. lag, var bedre til at besvare spørgsmål, der krævede faktuel viden; omvendt var netværk med flere lag og færre neuroner pr. lag bedre til at holde styr på karakterer og plotpunkter fra tidligere i historien. Bhagavatula fandt dette resultat særligt spændende. Hvis det kan replikeres i større modeller, sagde han, "det ville være et rigtig fedt resultat, der kunne stamme fra dette arbejde."

Eldan og Li undersøgte også, hvordan deres små modellers evner afhang af træningsperiodens varighed. I alle tilfælde mestrede modeller først grammatik og konsistens senere. For Eldan illustrerer dette mønster, hvordan forskelle i belønningsstrukturer fører til forskelle i sprogtilegnelsesmønstre mellem neurale netværk og børn. For sprogmodeller, som lærer ved at forudsige ord, "er incitamentet på ordene 'Jeg vil have' lige så stort, som det er på ordene 'is'," sagde han. Børn er på den anden side "ligeglade med, om de siger 'Jeg vil gerne have en is' eller bare 'is, is, is'."

Kvalitet versus mængde

Eldan og Li håber, at forskningen vil motivere andre forskere til at træne forskellige modeller på TinyStories-datasættet og sammenligne deres evner. Men det er ofte svært at forudsige, hvilke egenskaber ved små modeller også vil optræde i større.

"Måske er musesynsmodeller virkelig gode proxyer af menneskesyn, men er musemodeller for depression gode modeller for menneskelig depression?" sagde Pavlick. "For hvert tilfælde er det lidt anderledes."

Succesen med TinyStories-modellerne antyder også en bredere lektion. Standardtilgangen til kompilering af træningsdatasæt involverer støvsugning af tekst fra hele internettet og derefter filtrering af skraldet. Syntetisk tekst genereret af store modeller kunne tilbyde en alternativ måde at samle datasæt af høj kvalitet, der ikke behøver at være så store.

"Vi har flere og flere beviser for, at dette er meget effektivt, ikke kun i TinyStories-modeller, men også i større modeller," sagde Eldan. Det bevis kommer fra et par opfølgende artikler om milliardparametermodeller af Eldan, Li og andre Microsoft-forskere. I første papir, trænede de en model til at lære programmeringssproget Python ved hjælp af kodestykker genereret af GPT-3.5 sammen med omhyggeligt sammensat kode fra internettet. I anden, udvidede de træningsdatasættet med syntetiske "lærebøger", der dækker en bred vifte af emner, for at træne en sprogmodel til generelle formål. I deres test sammenlignede begge modeller sig positivt med større modeller trænet på større datasæt. Men det er altid vanskeligt at evaluere sprogmodeller, og den syntetiske træningsdatatilgang er stadig i sin vorden - mere uafhængige test er nødvendige.

Efterhånden som avancerede sprogmodeller vokser sig stadig større, er overraskende resultater fra deres små fætre en påmindelse om, at der stadig er meget, vi ikke forstår ved selv de simpleste modeller. Nguyen forventer at se mange flere artikler, der udforsker den tilgang, som TinyStories har udviklet.

"Spørgsmålet er: Hvor og hvorfor betyder størrelsen noget?" han sagde. "Det burde der være en videnskab om, og dette papir er forhåbentlig begyndelsen på en rig historie."

Tidsstempel:

Mere fra Quantamagazin