Kleine taalmodellen floreren met GPT-4 als leraar | Quanta-tijdschrift

Kleine taalmodellen floreren met GPT-4 als leraar | Quanta-tijdschrift

Kleine taalmodellen floreren met GPT-4 als leraar | Quanta Magazine PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Introductie

Engels leren is geen gemakkelijke opgave, zoals talloze studenten maar al te goed weten. Maar als de leerling een computer is, werkt één aanpak verrassend goed: je hoeft alleen maar bergen tekst van internet naar een gigantisch wiskundig model te sturen dat een neuraal netwerk wordt genoemd. Dat is het werkingsprincipe achter generatieve taalmodellen zoals ChatGPT van OpenAI, waarvan het vermogen om coherent (zo niet altijd waarheidsgetrouw) te praten over een breed scala aan onderwerpen onderzoekers en het publiek het afgelopen jaar heeft verrast.

Maar de aanpak heeft zijn nadelen. In de eerste plaats is de “training”-procedure die nodig is om enorme tekstarchieven om te zetten in state-of-the-art taalmodellen kostbaar en tijdrovend. Aan de andere kant vinden zelfs de mensen die grote taalmodellen trainen het moeilijk om hun innerlijke werking te begrijpen; dat maakt het op zijn beurt moeilijk om de vele manieren waarop ze kunnen falen te voorspellen.

Geconfronteerd met deze moeilijkheden hebben sommige onderzoekers ervoor gekozen om een ​​opleiding te volgen kleinere modellen op kleinere datasets en bestudeer vervolgens hun gedrag. “Het is net als het sequencen van de Drosophila genoom versus het sequencen van het menselijk genoom,” zei Ellie Pavlick, een taalmodelonderzoeker aan de Brown University.

Nu, in een papier Onlangs gepost op de wetenschappelijke preprint-server arxiv.org hebben een paar Microsoft-onderzoekers een nieuwe methode geïntroduceerd voor het trainen van kleine taalmodellen: voed ze op met een strikt dieet van kinderverhalen.

Onderzoekers op het gebied van machine learning hebben deze les omarmd. GPT-3.5, het grote taalmodel dat de ChatGPT-interface aanstuurt, heeft bijna 200 miljard parameters en is getraind op een dataset die honderden miljarden woorden omvat. (OpenAI heeft de overeenkomstige cijfers voor zijn opvolger, GPT-4, niet vrijgegeven.) Voor het trainen van zulke grote modellen zijn doorgaans minstens duizend gespecialiseerde processors, GPU's genaamd, nodig die wekenlang parallel draaien. Slechts een paar bedrijven kunnen de benodigde middelen bijeenbrengen, laat staan ​​verschillende modellen trainen en vergelijken.

De twee onderzoekers toonden aan dat taalmodellen die duizenden keren kleiner zijn dan de huidige state-of-the-art systemen, snel consistente en grammaticale verhalen leerden vertellen als ze op deze manier werden getraind. Hun resultaten duiden op nieuwe onderzoeksrichtingen die nuttig kunnen zijn voor het trainen van grotere modellen en het begrijpen van hun gedrag.

“Ik vond dit artikel zeer informatief,” zei Chandra Bhagavatula, een taalmodelonderzoeker aan het Allen Institute for Artificial Intelligence in Seattle. “Het concept zelf is superinteressant.”

Once Upon a Time

De neurale netwerken die de kern vormen van taalmodellen zijn wiskundige structuren die losjes geïnspireerd zijn op het menselijk brein. Elk bevat veel kunstmatige neuronen die in lagen zijn gerangschikt, met verbindingen tussen neuronen in aangrenzende lagen. Het gedrag van het neurale netwerk wordt bepaald door de sterkte van deze verbindingen, parameters genoemd. In een taalmodel bepalen de parameters welke woorden het model vervolgens kan uitspugen, gegeven een eerste prompt en de woorden die het al heeft gegenereerd.

Een model komt pas echt tot leven tijdens de training, wanneer het herhaaldelijk zijn eigen output vergelijkt met de tekst in de trainingsdataset en de parameters aanpast om de gelijkenis te vergroten. Een ongetraind netwerk met willekeurige parameters is triviaal eenvoudig samen te stellen uit een paar regels code, maar het levert alleen maar wartaal op. Na de training kan het vaak plausibel doorgaan met onbekende tekst. Grotere modellen ondergaan vaak een verdere verfijning waardoor ze leren vragen te beantwoorden en instructies te volgen, maar het grootste deel van de training bestaat uit het beheersen van woordvoorspelling.

Succes bij het voorspellen van woorden vereist een taalmodel dat veel verschillende vaardigheden beheerst. De regels van de Engelse grammatica suggereren bijvoorbeeld dat het volgende woord na het woord ‘going’ waarschijnlijk ‘to’ is, ongeacht het onderwerp van de tekst. Bovendien heeft een systeem feitelijke kennis nodig om te voltooien ‘de hoofdstad van Frankrijk is’ en om een ​​passage te voltooien die daarin staat het woord “niet” vereist een rudimentair begrip van logica.

“Ruwe taal is erg ingewikkeld”, zegt hij Timothy Nguyen, een machine learning-onderzoeker bij DeepMind. “Om interessante taalkundige vaardigheden te laten ontstaan, hebben mensen hun toevlucht genomen tot ‘meer data is beter.’”

Introductie

Ronen Eldan, een wiskundige die in 2022 bij Microsoft Research kwam werken om generatieve taalmodellen te bestuderen, wilde een goedkopere en snellere manier ontwikkelen om hun capaciteiten te verkennen. De natuurlijke manier om dat te doen was door een kleine dataset te gebruiken, en dat betekende op zijn beurt dat hij modellen moest trainen om zich te specialiseren in een specifieke taak, zodat ze zich niet te dun zouden verspreiden. Aanvankelijk wilde hij modellen trainen om een ​​bepaald soort wiskundeproblemen op te lossen, maar op een middag, nadat hij tijd met zijn vijfjarige dochter had doorgebracht, besefte hij dat kinderverhalen perfect bij hem pasten.

‘Het kwam letterlijk bij me op nadat ik haar een verhaal had voorgelezen’, zei hij.

Om samenhangende kinderverhalen te genereren zou een taalmodel feiten over de wereld moeten leren, karakters en gebeurtenissen moeten bijhouden en de grammaticaregels moeten naleven – eenvoudigere versies van de uitdagingen waarmee grote modellen worden geconfronteerd. Maar grote modellen die zijn getraind op enorme datasets leren talloze irrelevante details, samen met de regels die er echt toe doen. Eldan hoopte dat de beknoptheid en de beperkte woordenschat van kinderverhalen het leren voor kleine modellen beter beheersbaar zouden maken, waardoor ze zowel gemakkelijker te trainen als gemakkelijker te begrijpen zouden zijn.

In de wereld van taalmodellen is ‘klein’ echter relatief: een dataset die duizend keer kleiner is dan die waarmee GPT-3.5 wordt getraind, zou nog steeds miljoenen verhalen moeten bevatten. "Ik weet niet hoeveel geld je wilt uitgeven, maar ik vermoed dat je geen professionals gaat inhuren om [een paar miljoen] korte verhalen te schrijven," zei Nguyen.

Er zou een buitengewoon productieve auteur voor nodig zijn om zulke vraatzuchtige lezers tevreden te stellen, maar Eldan had een paar kandidaten in gedachten. Wie kan beter schrijven voor een publiek van kleine taalmodellen dan voor grote?

Speelgoedverhalen

Eldan begon onmiddellijk met het creëren van een bibliotheek met synthetische kinderverhalen, gegenereerd door grote taalmodellen. Maar hij ontdekte al snel dat zelfs de modernste modellen van nature niet erg creatief zijn. Als je GPT-4 gewoon vertelt om verhalen te schrijven die geschikt zijn voor vierjarigen, zegt Eldan, “zal ongeveer een vijfde van de verhalen gaan over kinderen die naar het park gaan en bang zijn voor de glijbanen.” Dat is blijkbaar het typische voorschoolse verhaal, voor zover het internet betreft.

De oplossing was om een ​​beetje willekeur aan de prompt toe te voegen. Ten eerste gebruikte Eldan GPT-4 om een ​​lijst van 1,500 zelfstandige naamwoorden, werkwoorden en bijvoeglijke naamwoorden te genereren die een vierjarige misschien kent – ​​kort genoeg zodat hij deze gemakkelijk zelf kon controleren. Vervolgens schreef hij een eenvoudig computerprogramma dat GPT-4 of GPT-3.5 herhaaldelijk zou aanzetten om een ​​verhaal te genereren dat geschikt was voor de leeftijd en dat drie willekeurige woorden uit de lijst bevatte, samen met een extra willekeurig gekozen detail zoals een happy end of een plotwending. De resulterende verhalen waren gelukkig minder gericht op enge dia's.

Eldan beschikte nu over een procedure om op verzoek trainingsgegevens te genereren, maar hij had geen idee hoeveel verhalen hij nodig zou hebben om een ​​functioneel model te trainen, of hoe groot dat model zou moeten zijn. Toen ging hij samenwerken Yuanzhi Li, een machine learning-onderzoeker bij Microsoft en Carnegie Mellon University, om verschillende mogelijkheden uit te proberen, waarbij hij profiteerde van het feit dat kleine modellen zeer snel konden worden getraind. Stap 1 was beslissen hoe ze hun modellen gingen evalueren.

Introductie

Bij onderzoek naar taalmodellen is beoordeling – zoals in elk klaslokaal – een beladen onderwerp. Er is geen perfecte rubriek dat omvat alles wat onderzoekers willen weten, en modellen die uitblinken in sommige taken falen vaak spectaculair in andere. In de loop van de tijd hebben onderzoekers verschillende standaardbenchmarks ontwikkeld op basis van vragen met ondubbelzinnige antwoorden, wat een goede aanpak is als je specifieke vaardigheden probeert te evalueren. Maar Eldan en Li waren geïnteresseerd in iets vaags: hoe groot moeten taalmodellen werkelijk zijn als je taal zo veel mogelijk vereenvoudigt?

“Om direct te testen of het model Engels spreekt, denk ik dat het enige wat je kunt doen is het model op een open manier Engels laten genereren”, zegt Eldan.

Er zijn slechts twee manieren om de prestaties van een model op dergelijke kwalitatieve vragen te meten: vertrouw op menselijke beoordelaars, of wend je opnieuw tot GPT-4. De twee onderzoekers kozen voor de laatste route, waardoor de grote modellen feitelijk zowel de leerboeken konden schrijven als de essays konden beoordelen.

Bhagavatula zei dat hij graag had gezien hoe de evaluaties van GPT-4 zich verhouden tot die van menselijke recensenten. GPT-4 kan een voorkeur hebben voor modellen die het heeft helpen trainen, en de ondoorzichtigheid van taalmodellen maakt het moeilijk om dergelijke vooroordelen te kwantificeren. Maar hij denkt niet dat dergelijke subtiliteiten de vergelijkingen tussen verschillende modellen die zijn getraind op vergelijkbare reeksen synthetische verhalen, de belangrijkste focus van Eldan en Li's werk, zullen beïnvloeden.

Eldan en Li gebruikten een procedure in twee stappen om elk van hun kleine modellen na de training te evalueren. Ten eerste hebben ze het kleine model voorzien van de eerste helft van een verhaal dat verschilt van die in de trainingsdataset, zodat het een nieuw einde genereerde, waarbij dit proces werd herhaald met 50 verschillende testverhalen. Ten tweede gaven ze GPT-4 de opdracht om elk einde van het kleine model te beoordelen op basis van drie categorieën: creativiteit, grammatica en consistentie met het begin van het verhaal. Vervolgens berekenden ze het gemiddelde van de scores in elke categorie, waardoor ze uiteindelijk drie eindcijfers per model kregen.

Met deze procedure in de hand waren Eldan en Li eindelijk klaar om verschillende modellen te vergelijken en erachter te komen welke de beste studenten waren.

Test resultaten

Na wat voorbereidend onderzoek kwamen de twee onderzoekers tot een trainingsdataset met ongeveer 2 miljoen verhalen. Vervolgens gebruikten ze deze dataset, genaamd TinyStories, om modellen te trainen met een grootte van 1 miljoen tot 30 miljoen parameters, met een variërend aantal lagen. Het was snel werken: met slechts vier GPU's had de grootste van deze modellen niet meer dan een dag nodig om te trainen.

De kleinste modellen hadden het moeilijk. Eén testverhaal begint bijvoorbeeld met een gemeen uitziende man die een meisje vertelt dat hij haar kat zal meenemen. Een model met miljoenen parameters kwam vast te zitten in een lus waarbij het meisje de man herhaaldelijk vertelde dat ze vrienden wilde worden. Maar de grotere – nog steeds duizenden keren kleiner dan GPT-3.5 – presteerden verrassend goed. De versie met 28 miljoen parameters vertelde een samenhangend verhaal, hoewel het einde grimmig was: 'Katie begon te huilen, maar het kon de man niets schelen. Hij nam de kat mee en Katie heeft haar kat nooit meer gezien. Het einde."

Naast het testen van hun eigen modellen, presenteerden Eldan en Li dezelfde uitdaging voor OpenAI's GPT-2, een model met 1.5 miljard parameters dat in 2019 werd uitgebracht. Het deed het veel slechter: vóór het abrupte einde van het verhaal dreigt de man het meisje mee te nemen. naar de rechtbank, de gevangenis, het ziekenhuis, het mortuarium en uiteindelijk het crematorium.

Introductie

Nguyen zei dat het opwindend is dat zulke kleine modellen zo vloeiend waren, maar misschien niet verrassend dat GPT-2 met deze taak worstelde: het is een groter model, maar verre van de stand van de techniek, en het werd getraind op een heel andere dataset. “Een peuter die alleen traint op peutertaken, zoals spelen met wat speelgoed, doet het misschien beter dan jij of ik,” merkte hij op. “Wij waren niet gespecialiseerd in dit simpele ding.”

Vergelijkingen tussen verschillende TinyStories-modellen hebben niet te lijden onder dezelfde verstorende factoren. Eldan en Li merkten aanwijzingen op dat netwerken met minder lagen maar meer neuronen per laag beter waren in het beantwoorden van vragen waarvoor feitelijke kennis nodig was; omgekeerd waren netwerken met meer lagen en minder neuronen per laag beter in het bijhouden van karakters en plotpunten van eerder in het verhaal. Bhagavatula vond dit resultaat bijzonder intrigerend. Als het kan worden gerepliceerd in grotere modellen, zei hij, “zou dat een heel gaaf resultaat zijn dat uit dit werk zou kunnen voortkomen.”

Eldan en Li bestudeerden ook hoe de capaciteiten van hun kleine modellen afhingen van de duur van de trainingsperiode. In alle gevallen beheersten de modellen eerst de grammatica en later de consistentie. Voor Eldan illustreert dit patroon hoe verschillen in beloningsstructuren leiden tot verschillen in taalverwervingspatronen tussen neurale netwerken en kinderen. Voor taalmodellen, die leren door woorden te voorspellen, “is de prikkel voor de woorden ‘ik wil hebben’ net zo groot als voor de woorden ‘ijsje’”, zei hij. Kinderen daarentegen “maakt het niet uit of ze zeggen ‘ik wil graag een ijsje’ of alleen maar ‘ijsje, ijsje, ijsje’.”

Kwaliteit versus hoeveelheid

Eldan en Li hopen dat het onderzoek andere onderzoekers zal motiveren om andere modellen te trainen de TinyStories-dataset en vergelijk hun mogelijkheden. Maar het is vaak moeilijk te voorspellen welke kenmerken van kleine modellen ook in grotere modellen zullen voorkomen.

"Misschien zijn muismodellen van het gezichtsvermogen echt goede proxy's van het menselijk gezichtsvermogen, maar zijn muismodellen van depressie goede modellen van menselijke depressie?" zei Pavlick. “Voor elke zaak is het een beetje anders.”

Het succes van de TinyStories-modellen suggereert ook een bredere les. De standaardaanpak voor het samenstellen van trainingsdatasets bestaat uit het opzuigen van tekst van internet en het vervolgens eruit filteren van de rommel. Synthetische tekst gegenereerd door grote modellen zou een alternatieve manier kunnen bieden om datasets van hoge kwaliteit samen te stellen die niet zo groot hoeven te zijn.

“We hebben steeds meer bewijs dat dit zeer effectief is, niet alleen in modellen van TinyStories-formaat, maar ook in grotere modellen”, zegt Eldan. Dat bewijs komt uit een paar vervolgartikelen over modellen met miljarden parameters door Eldan, Li en andere Microsoft-onderzoekers. In de eerste paper, trainden ze een model om de programmeertaal Python te leren met behulp van codefragmenten gegenereerd door GPT-3.5, samen met zorgvuldig samengestelde code van internet. In de tweede, breidden ze de trainingsdataset uit met synthetische ‘leerboeken’, die een breed scala aan onderwerpen bestrijken, om een ​​taalmodel voor algemene doeleinden te trainen. In hun tests staken beide modellen gunstig af bij grotere modellen die waren getraind op grotere datasets. Maar het evalueren van taalmodellen is altijd lastig, en de benadering van synthetische trainingsgegevens staat nog in de kinderschoenen: er zijn meer onafhankelijke tests nodig.

Nu state-of-the-art taalmodellen steeds groter worden, herinneren verrassende bevindingen van hun kleine neven ons eraan dat we nog steeds veel niet begrijpen, zelfs over de eenvoudigste modellen. Nguyen verwacht dat er nog veel meer artikelen zullen verschijnen waarin de aanpak van TinyStories wordt onderzocht.

“De vraag is: waar en waarom is grootte van belang?” hij zei. “Daar zou een wetenschap voor moeten zijn, en dit artikel is hopelijk het begin van een rijk verhaal.”

Tijdstempel:

Meer van Quanta tijdschrift