Små språkmodeller trivs med GPT-4 som lärare | Quanta Magazine

Små språkmodeller trivs med GPT-4 som lärare | Quanta Magazine

Små språkmodeller trivs med GPT-4 som lärare | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Beskrivning

Att lära sig engelska är ingen lätt uppgift, som otaliga elever väl vet. Men när eleven är en dator fungerar ett tillvägagångssätt förvånansvärt bra: Mata helt enkelt berg av text från internet till en gigantisk matematisk modell som kallas ett neuralt nätverk. Det är funktionsprincipen bakom generativa språkmodeller som OpenAI:s ChatGPT, vars förmåga att konversera konsekvent (om inte alltid sanningsenligt) om ett brett spektrum av ämnen har överraskat forskare och allmänheten under det senaste året.

Men tillvägagångssättet har sina nackdelar. För det första är "utbildningsproceduren" som krävs för att omvandla stora textarkiv till toppmoderna språkmodeller kostsam och tidskrävande. För en annan, även de människor som tränar stora språkmodeller har svårt att förstå sitt inre arbete; vilket i sin tur gör det svårt att förutse de många sätt de kan misslyckas på.

Inför dessa svårigheter har vissa forskare valt att utbilda sig mindre modeller på mindre datamängder och sedan studera deras beteende. "Det är som att sekvensera Drosophila genomet kontra sekvensering av det mänskliga genomet”, sa Ellie Pavlick, en språkmodellforskare vid Brown University.

Nu, i en papper nyligen publicerat på den vetenskapliga preprint-servern arxiv.org, har ett par Microsoft-forskare introducerat en ny metod för att träna små språkmodeller: Uppfostra dem på en strikt diet av barns berättelser.

Maskininlärningsforskare har tagit till sig den här lektionen. GPT-3.5, den stora språkmodellen som driver ChatGPT-gränssnittet, har nästan 200 miljarder parametrar, och den tränades på en datamängd som omfattar hundratals miljarder ord. (OpenAI har inte släppt motsvarande siffror för sin efterträdare, GPT-4.) Att träna så stora modeller kräver vanligtvis minst 1,000 XNUMX specialiserade processorer som kallas GPU:er som körs parallellt i veckor i taget. Endast ett fåtal företag kan samla de resurser som krävs, än mindre utbilda och jämföra olika modeller.

De två forskarna visade att språkmodeller som är tusentals gånger mindre än dagens toppmoderna system snabbt lärde sig att berätta konsekventa och grammatiska historier när de tränades på detta sätt. Deras resultat antyder nya forskningsriktningar som kan vara till hjälp för att träna större modeller och förstå deras beteende.

"Jag tyckte att den här uppsatsen var mycket informativ," sa Chandra Bhagavatula, en språkmodellforskare vid Allen Institute for Artificial Intelligence i Seattle. "Konceptet i sig är superintressant."

DET VAR EN GÅNG

De neurala nätverken i hjärtat av språkmodeller är matematiska strukturer som är löst inspirerade av den mänskliga hjärnan. Var och en innehåller många artificiella neuroner ordnade i lager, med kopplingar mellan neuroner i intilliggande lager. Det neurala nätverkets beteende styrs av styrkan hos dessa anslutningar, så kallade parametrar. I en språkmodell styr parametrarna vilka ord modellen kan spotta ut härnäst, givet en första prompt och de ord som den redan har genererat.

En modell kommer bara till liv under träning, när den upprepade gånger jämför sin egen produktion med texten i sin träningsdatauppsättning och justerar sina parametrar för att öka likheten. Ett otränat nätverk med slumpmässiga parametrar är trivialt lätt att sätta ihop från några rader kod, men det kommer bara att producera trams. Efter träning kan det ofta rimligen fortsätta obekant text. Större modeller genomgår ofta ytterligare finjusteringar som lär dem att svara på frågor och följa instruktioner, men huvuddelen av utbildningen är att bemästra ordförutsägelse.

Framgång med ordprediktion kräver en språkmodell för att behärska många olika färdigheter. Till exempel antyder reglerna för engelsk grammatik att nästa ord efter ordet "gå" sannolikt är "till", oavsett ämnet för texten. Dessutom behöver ett system faktakunskap för att slutföra "huvudstaden i Frankrike är" och för att slutföra en passage som innehåller ordet "inte" kräver ett rudimentärt grepp om logik.

"Rått språk är mycket komplicerat," sa Timothy Nguyen, en maskininlärningsforskare vid DeepMind. "För att intressanta språkliga förmågor ska uppstå har människor tillgripit "mer data är bättre."

Beskrivning

Ronen Eldan, en matematiker som gick med i Microsoft Research 2022 för att studera generativa språkmodeller, ville utveckla ett billigare och snabbare sätt att utforska sina förmågor. Det naturliga sättet att göra det var genom att använda en liten datamängd, och det i sin tur innebar att han måste träna modeller för att specialisera sig på en specifik uppgift, så att de inte skulle sprida sig för tunt. Från början ville han utbilda modeller för att lösa en viss klass av matematiska problem, men en eftermiddag, efter att ha tillbringat tid med sin 5-åriga dotter, insåg han att barns berättelser passade perfekt.

"Det kom bokstavligen till mig efter att jag läst en berättelse för henne," sa han.

För att skapa sammanhängande barns berättelser skulle en språkmodell behöva lära sig fakta om världen, hålla reda på karaktärer och händelser och följa grammatikens regler – enklare versioner av utmaningarna som stora modeller står inför. Men stora modeller tränade på massiva datamängder lär sig otaliga irrelevanta detaljer tillsammans med de regler som verkligen betyder något. Eldan hoppades att barns berättelsers korthet och begränsade ordförråd skulle kunna göra inlärningen mer hanterbar för små modeller – vilket gör dem både lättare att träna och lättare att förstå.

I språkmodellernas värld är "liten" dock relativt: En datauppsättning tusen gånger mindre än den som används för att träna GPT-3.5 skulle fortfarande behöva innehålla miljontals berättelser. "Jag vet inte hur mycket pengar du vill spendera, men jag gissar att du inte kommer att anlita proffs för att skriva [ett par miljoner] noveller," sa Nguyen.

Det skulle krävas en utomordentligt produktiv författare för att tillfredsställa sådana glupska läsare, men Eldan hade några kandidater i åtanke. Vem är bättre att skriva för en publik av små språkmodeller än stora?

leksaksberättelser

Eldan gav sig genast i kast med att skapa ett bibliotek med syntetiska barnberättelser genererade av stora språkmodeller. Men han upptäckte snart att inte ens toppmoderna modeller av naturliga skäl är särskilt kreativa. Om du bara säger till GPT-4 att skriva berättelser som är lämpliga för 4-åringar, sa Eldan, "omkring en femtedel av berättelserna kommer att handla om barn som går till parken och är rädda för rutschbanorna." Det är tydligen den huvudsakliga förskolans historia, vad gäller internet.

Lösningen var att lägga till lite slumpmässighet i prompten. Först använde Eldan GPT-4 för att skapa en lista med 1,500 4 substantiv, verb och adjektiv som en 3.5-åring kanske känner till – tillräckligt kort för att han enkelt skulle kunna kontrollera den själv. Sedan skrev han ett enkelt datorprogram som upprepade gånger uppmanade GPT-4 eller GPT-XNUMX att skapa en åldersanpassad berättelse som innehöll tre slumpmässiga ord från listan, tillsammans med ytterligare en slumpmässigt vald detalj som ett lyckligt slut eller en plottwist. De resulterande berättelserna var, tack och lov, mindre fokuserade på läskiga bilder.

Eldan hade nu en procedur för att ta fram träningsdata på begäran, men han hade ingen aning om hur många historier han skulle behöva för att träna en funktionell modell, eller hur stor den modellen skulle behöva vara. Det var då han slog sig ihop med Yuanzhi Li, en maskininlärningsforskare vid Microsoft och Carnegie Mellon University, för att prova olika möjligheter och dra fördel av det faktum att små modeller kunde tränas mycket snabbt. Steg 1 var att bestämma hur man skulle utvärdera sina modeller.

Beskrivning

I forskning om språkmodeller – som i alla klassrum – är betygsättning ett fyllt ämne. Det finns ingen perfekt rubrik som kapslar in allt forskare vill veta, och modeller som utmärker sig i vissa uppgifter misslyckas ofta spektakulärt i andra. Med tiden har forskare utvecklat olika standardriktmärken baserade på frågor med entydiga svar, vilket är ett bra tillvägagångssätt om du försöker utvärdera specifika färdigheter. Men Eldan och Li var intresserade av något mer oklart: Hur stora måste egentligen språkmodeller vara om man förenklar språket så mycket som möjligt?

"För att direkt testa om modellen talar engelska, tror jag att det enda du kan göra är att låta modellen generera engelska på ett öppet sätt," sa Eldan.

Det finns bara två sätt att mäta en modells prestanda på sådana kvalitativa frågor: Lita på mänskliga väghyvlar, eller vänd återigen till GPT-4. De två forskarna valde den senare vägen och lät de stora modellerna både skriva läroböckerna och betygsätta uppsatserna.

Bhagavatula sa att han skulle ha velat se hur GPT-4s utvärderingar jämfört med mänskliga granskare - GPT-4 kan vara partisk mot modeller som det hjälpte till att träna, och ogenomskinligheten hos språkmodeller gör det svårt att kvantifiera sådana fördomar. Men han tror inte att sådana subtiliteter skulle påverka jämförelser mellan olika modeller tränade på liknande uppsättningar av syntetiska berättelser - huvudfokus i Eldans och Lis arbete.

Eldan och Li använde en tvåstegsprocedur för att utvärdera var och en av sina små modeller efter träning. Först uppmanade de den lilla modellen med den första halvan av en berättelse som var skild från de i träningsdatauppsättningen så att den genererade ett nytt slut, och upprepade denna process med 50 olika testberättelser. För det andra instruerade de GPT-4 att gradera vart och ett av den lilla modellens slut baserat på tre kategorier – kreativitet, grammatik och överensstämmelse med början av berättelsen. De tog sedan ett genomsnitt av poängen i varje kategori och slutade med tre slutbetyg per modell.

Med denna procedur i hand var Eldan och Li äntligen redo att jämföra olika modeller och ta reda på vilka som var stjärneleverna.

Testresultat

Efter en viss preliminär utforskning, bestämde sig de två forskarna med en träningsdatauppsättning som innehåller ungefär 2 miljoner berättelser. De använde sedan denna datamängd, kallad TinyStories, för att träna modeller i storlek från 1 miljon till 30 miljoner parametrar, med varierande antal lager. Det gick snabbt: Med endast fyra GPU:er tog den största av dessa modeller inte mer än en dag att träna.

De minsta modellerna kämpade på. Till exempel börjar en testhistoria med att en elak man säger till en tjej att han ska ta hennes katt. En modell med miljonparameter fastnade i en loop där flickan upprepade gånger berättade för mannen att hon ville bli vänner. Men de större – fortfarande tusentals gånger mindre än GPT-3.5 – presterade förvånansvärt bra. Versionen med 28 miljoner parametrar berättade en sammanhängande historia, även om slutet var dystert: "Katie började gråta, men mannen brydde sig inte. Han tog bort katten och Katie såg aldrig sin katt igen. Slutet."

Förutom att testa sina egna modeller presenterade Eldan och Li samma utmaning för OpenAI:s GPT-2, en modell med 1.5 miljarder parametrar som släpptes 2019. Det gick mycket värre – innan berättelsens abrupta slut hotar mannen att ta flickan till domstol, fängelse, sjukhuset, bårhuset och slutligen krematoriet.

Beskrivning

Nguyen sa att det är spännande att så små modeller var så flytande, men kanske inte överraskande att GPT-2 kämpade med uppgiften: Det är en större modell men långt ifrån den senaste tekniken, och den tränades på en helt annan datamängd. "Ett barn som tränar bara på småbarnsuppgifter, som att leka med några leksaker, kan göra bättre än du eller jag," noterade han. "Vi var inte specialiserade på denna enkla sak."

Jämförelser mellan olika TinyStories-modeller lider inte av samma förvirrande faktorer. Eldan och Li observerade antydningar om att nätverk med färre lager men fler neuroner per lager var bättre på att svara på frågor som krävde faktakunskap; omvänt var nätverk med fler lager och färre neuroner per lager bättre på att hålla reda på karaktärer och plotpunkter från tidigare i berättelsen. Bhagavatula tyckte att detta resultat var särskilt spännande. Om det kan replikeras i större modeller, sa han, "det skulle vara ett riktigt coolt resultat som kan härröra från det här arbetet."

Eldan och Li studerade också hur deras små modellers förmågor berodde på hur lång utbildningsperioden var. I alla fall bemästrade modellerna grammatiken först och konsistensen senare. För Eldan illustrerar detta mönster hur skillnader i belöningsstrukturer leder till skillnader i språkinlärningsmönster mellan neurala nätverk och barn. För språkmodeller, som lär sig genom att förutsäga ord, är "incitamentet för orden "jag vill ha" lika stort som det är på orden "glass", sa han. Barn, å andra sidan, "bryr sig inte om huruvida de säger 'jag skulle vilja ha lite glass' eller bara 'glass, glass, glass'."

Kvalitet Versus Kvantitet

Eldan och Li hoppas att forskningen ska motivera andra forskare att träna olika modeller på datauppsättningen TinyStories och jämföra deras kapacitet. Men det är ofta svårt att förutsäga vilka egenskaper hos små modeller som också kommer att synas i större.

"Kanske musmodeller av syn är riktigt bra närstående till mänsklig syn, men är musmodeller av depression bra modeller för mänsklig depression?" sa Pavlick. "För varje fall är det lite annorlunda."

TinyStories-modellernas framgång tyder också på en bredare läxa. Standardmetoden för att sammanställa träningsdatauppsättningar innebär att dammsuga upp text från hela internet och sedan filtrera bort skräpet. Syntetisk text som genereras av stora modeller kan erbjuda ett alternativt sätt att sammanställa högkvalitativa datamängder som inte behöver vara så stora.

"Vi har fler och fler bevis för att detta är mycket effektivt, inte bara i TinyStories-modeller utan även i större modeller," sa Eldan. Det beviset kommer från ett par uppföljningsartiklar om miljardparametermodeller av Eldan, Li och andra Microsoft-forskare. I den första papperet, tränade de en modell för att lära sig programmeringsspråket Python med hjälp av kodavsnitt genererade av GPT-3.5 tillsammans med noggrant kurerad kod från internet. I den 2:a, utökade de träningsdatauppsättningen med syntetiska "läroböcker", som täcker ett brett spektrum av ämnen, för att träna en allmän språkmodell. I sina tester jämförde båda modellerna positivt med större modeller som tränats på större datamängder. Men att utvärdera språkmodeller är alltid knepigt, och den syntetiska träningsdatametoden är fortfarande i sin linda - mer oberoende tester är nödvändiga.

När toppmoderna språkmodeller växer sig allt större, är överraskande fynd från deras små kusiner en påminnelse om att det fortfarande finns mycket vi inte förstår om även de enklaste modellerna. Nguyen förväntar sig att se många fler tidningar som utforskar det tillvägagångssätt som TinyStories banat väg för.

"Frågan är: Var och varför spelar storleken roll?" han sa. "Det borde finnas en vetenskap om det, och den här uppsatsen är förhoppningsvis början på en rik historia."

Tidsstämpel:

Mer från Quantamagazin