Drobni jezikovni modeli uspevajo z GPT-4 kot učitelj | Revija Quanta

Drobni jezikovni modeli uspevajo z GPT-4 kot učitelj | Revija Quanta

Drobni jezikovni modeli uspevajo z GPT-4 kot učitelj | Revija Quanta PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Predstavitev

Učenje angleščine ni lahka naloga, kar dobro vedo številni učenci. Ko pa je študent računalnik, en pristop deluje presenetljivo dobro: preprosto vnesite gore besedila iz interneta v velikanski matematični model, imenovan nevronska mreža. To je načelo delovanja v ozadju generativnih jezikovnih modelov, kot je OpenAI-jev ChatGPT, katerega zmožnost koherentnega (če ne vedno resnicoljubnega) pogovora o številnih temah je v zadnjem letu presenetila raziskovalce in javnost.

Toda pristop ima svoje pomanjkljivosti. Prvič, postopek "usposabljanja", ki je potreben za pretvorbo ogromnih besedilnih arhivov v najsodobnejše jezikovne modele, je drag in dolgotrajen. Drugič, celo ljudje, ki trenirajo velike jezikovne modele, težko razumejo njihovo notranje delovanje; to pa otežuje napovedovanje številnih načinov, kako lahko spodletijo.

Nekateri raziskovalci so se zaradi teh težav odločili za usposabljanje manjši modeli na manjših nizih podatkov in nato preučite njihovo obnašanje. »To je kot zaporedje Drosophila genoma v primerjavi s sekvenciranjem človeškega genoma,« je dejal Ellie Pavlick, raziskovalec jezikovnega modela na Univerzi Brown.

Zdaj, v papirja Nedavno objavljeno na znanstveni strežnik za prednatis arxiv.org, je par Microsoftovih raziskovalcev predstavilo novo metodo za usposabljanje majhnih jezikovnih modelov: vzgajajte jih na strogi dieti otroških zgodb.

Raziskovalci strojnega učenja so sprejeli to lekcijo. GPT-3.5, velik jezikovni model, ki poganja vmesnik ChatGPT, ima skoraj 200 milijard parametrov in je bil učen na naboru podatkov, ki obsega stotine milijard besed. (OpenAI ni objavil ustreznih številk za svojega naslednika, GPT-4.) Usposabljanje tako velikih modelov običajno zahteva vsaj 1,000 specializiranih procesorjev, imenovanih GPU, ki tečejo vzporedno tedne naenkrat. Le nekaj podjetij lahko zbere potrebne vire, kaj šele usposobiti in primerjati različne modele.

Raziskovalca sta pokazala, da so se jezikovni modeli, ki so tisočkrat manjši od današnjih najsodobnejših sistemov, hitro naučili pripovedovati dosledne in slovnične zgodbe, ko so bili usposobljeni na ta način. Njihovi rezultati namigujejo na nove raziskovalne smeri, ki bi lahko bile koristne za usposabljanje večjih modelov in razumevanje njihovega vedenja.

"Ta dokument se mi je zdel zelo informativen," je rekel Chandra Bhagavatula, raziskovalec jezikovnih modelov na Allenovem inštitutu za umetno inteligenco v Seattlu. "Sam koncept je super zanimiv."

Once Upon A Time

Nevronske mreže v središču jezikovnih modelov so matematične strukture, ki so jih delno navdihnili človeški možgani. Vsak vsebuje veliko umetnih nevronov, razporejenih v plasteh, s povezavami med nevroni v sosednjih plasteh. Vedenje nevronske mreže je odvisno od moči teh povezav, imenovanih parametri. V jezikovnem modelu parametri nadzirajo, katere besede bi lahko model izpljunil naslednje, glede na začetni poziv in besede, ki jih je že ustvaril.

Model zares zaživi šele med usposabljanjem, ko vedno znova primerja lastne rezultate z besedilom v svojem naboru podatkov o usposabljanju in prilagodi svoje parametre, da poveča podobnost. Neusposobljeno omrežje z naključnimi parametri je trivialno enostavno sestaviti iz nekaj vrstic kode, vendar bo proizvedlo le bedarije. Po usposabljanju zna pogosto verodostojno nadaljevati neznano besedilo. Večji modeli so pogosto podvrženi nadaljnjim natančnejšim nastavitvam, ki jih naučijo odgovarjati na vprašanja in slediti navodilom, vendar je glavnina usposabljanja obvladovanje predvidevanja besed.

Uspeh pri napovedovanju besed zahteva jezikovni model za obvladovanje številnih različnih veščin. Na primer, pravila angleške slovnice kažejo, da bo naslednja beseda za besedo "going" verjetno "to", ne glede na temo besedila. Poleg tega sistem potrebuje faktografsko znanje, da izpolni "glavno mesto Francije" in izpolni odlomek, ki vsebuje beseda "ne" zahteva osnovno razumevanje logike.

"Neobdelani jezik je zelo zapleten," je rekel Timothy Nguyen, raziskovalec strojnega učenja pri DeepMind. "Da bi se pojavile zanimive jezikovne zmožnosti, so se ljudje zatekli k 'več podatkov je boljše'."

Predstavitev

Ronen Eldan, matematik, ki se je leta 2022 pridružil podjetju Microsoft Research za preučevanje generativnih jezikovnih modelov, je želel razviti cenejši in hitrejši način za raziskovanje svojih sposobnosti. Naraven način za to je bil z uporabo majhnega nabora podatkov, kar je posledično pomenilo, da je moral usposobiti modele, da se specializirajo za določeno nalogo, da se ne bi preveč razpršili. Sprva je želel usposobiti modele za reševanje določenega razreda matematičnih nalog, vendar je nekega popoldneva, ko je preživel čas s svojo 5-letno hčerko, ugotovil, da so otroške zgodbe popoln primer.

"To se mi je dobesedno zazdelo, ko sem ji prebral zgodbo," je dejal.

Da bi ustvaril koherentne otroške zgodbe, bi se moral jezikovni model naučiti dejstev o svetu, slediti likom in dogodkom ter upoštevati slovnična pravila – enostavnejše različice izzivov, s katerimi se soočajo veliki modeli. Toda veliki modeli, usposobljeni za obsežne nize podatkov, se naučijo nešteto nepomembnih podrobnosti skupaj s pravili, ki so resnično pomembna. Eldan je upal, da bosta kratkost in omejen besedni zaklad otroških zgodb morda olajšala učenje majhnih modelov – zaradi česar jih bo lažje učiti in jih bo lažje razumeti.

V svetu jezikovnih modelov pa je "majhno" relativno: nabor podatkov, ki je tisočkrat manjši od tistega, ki se uporablja za usposabljanje GPT-3.5, bi še vedno moral vsebovati milijone zgodb. "Ne vem, koliko denarja želite porabiti, vendar predvidevam, da ne boste najeli strokovnjakov, da bi napisali [nekaj milijonov] kratkih zgodb," je dejal Nguyen.

Potreboval bi izjemno plodnega avtorja, da bi zadovoljil tako požrešne bralce, toda Eldan je imel v mislih nekaj kandidatov. Kdo bi bolje pisal za občinstvo majhnih jezikovnih modelov kot veliki?

Zgodbe o igračah

Eldan se je takoj lotil ustvarjanja knjižnice sintetičnih otroških zgodb, ustvarjenih z velikimi jezikovnimi modeli. Toda kmalu je ugotovil, da tudi najsodobnejši modeli niso po naravi zelo kreativni. Če samo rečete GPT-4, naj napiše zgodbe, primerne za 4-letnike, je dejal Eldan, "bo približno ena petina zgodb o otrocih, ki gredo v park in se bojijo toboganov." To je očitno najpomembnejša predšolska zgodba, kar zadeva internet.

Rešitev je bila dodati malo naključnosti v poziv. Najprej je Eldan uporabil GPT-4 za ustvarjanje seznama 1,500 samostalnikov, glagolov in pridevnikov, ki bi jih morda poznal 4-letnik - dovolj kratek, da ga je zlahka sam preveril. Nato je napisal preprost računalniški program, ki bi GPT-3.5 ali GPT-4 vedno znova pozval, naj ustvari starosti primerno zgodbo, ki vključuje tri naključne besede s seznama, skupaj z dodatno naključno izbrano podrobnostjo, kot je srečen konec ali zaplet. Nastale zgodbe so bile na srečo manj osredotočene na grozljive diapozitive.

Eldan je zdaj imel postopek za ustvarjanje podatkov o usposabljanju na zahtevo, vendar ni imel pojma, koliko zgodb bi potreboval za usposabljanje funkcionalnega modela ali kako velik mora biti ta model. Takrat se je povezal s Yuanzhi Li, raziskovalec strojnega učenja pri Microsoftu in Univerzi Carnegie Mellon, da preizkusi različne možnosti, pri čemer izkoristi dejstvo, da je mogoče majhne modele usposobiti zelo hitro. Prvi korak je bil odločanje o tem, kako oceniti njihove modele.

Predstavitev

Pri raziskavah jezikovnih modelov – kot v vsaki učilnici – je ocenjevanje težka tema. tam je ni popolne rubrike ki povzema vse, kar raziskovalci želijo vedeti, in modeli, ki blestijo pri nekaterih nalogah, pogosto zelo spodletijo pri drugih. Sčasoma so raziskovalci razvili različna standardna merila uspešnosti, ki temeljijo na vprašanjih z nedvoumnimi odgovori, kar je dober pristop, če poskušate oceniti posebne veščine. Toda Eldana in Lija je zanimalo nekaj bolj nejasnega: kako veliki morajo biti v resnici jezikovni modeli, če čim bolj poenostavite jezik?

"Če želite neposredno preizkusiti, ali model govori angleško, mislim, da je edina stvar, ki jo lahko naredite, ta, da pustite modelu generirati angleščino na odprt način," je dejal Eldan.

Obstajata samo dva načina za merjenje uspešnosti modela pri takšnih kvalitativnih vprašanjih: Zanesite se na človeške ocenjevalce ali pa se ponovno obrnite na GPT-4. Raziskovalca sta izbrala slednjo pot in tako velikim modelom dovolila, da pišejo učbenike in ocenjujejo eseje.

Bhagavatula je dejal, da bi rad videl, kako se ocene GPT-4 primerjajo z ocenami človeških pregledovalcev - GPT-4 je morda pristranski do modelov, ki jih je pomagal usposobiti, in nepreglednost jezikovnih modelov otežuje kvantificiranje takih pristranskosti. Vendar ne misli, da bi takšne subtilnosti vplivale na primerjave med različnimi modeli, ki so bili usposobljeni na podobnih nizih sintetičnih zgodb – glavni poudarek Eldanovega in Lijevega dela.

Eldan in Li sta uporabila dvostopenjski postopek za ocenjevanje vsakega od svojih majhnih modelov po treningu. Najprej so majhnemu modelu vstavili prvo polovico zgodbe, ki se razlikuje od tistih v naboru podatkov za usposabljanje, tako da je ustvaril nov konec in ta postopek ponovil s 50 različnimi testnimi zgodbami. Drugič, GPT-4 so naročili, naj oceni vsak konec majhnega modela na podlagi treh kategorij – ustvarjalnost, slovnica in skladnost z začetkom zgodbe. Nato so izračunali povprečje rezultatov v vsaki kategoriji in na koncu dobili tri končne ocene na model.

S tem postopkom sta bila Eldan in Li končno pripravljena primerjati različne modele in ugotoviti, kateri so najboljši učenci.

Rezultati testov

Po nekaj predhodnih raziskavah sta se raziskovalca odločila za nabor podatkov za usposabljanje, ki vsebuje približno 2 milijona zgodb. Nato so uporabili ta nabor podatkov, ki so ga poimenovali TinyStories, za usposabljanje modelov v velikosti od 1 do 30 milijonov parametrov z različnim številom plasti. Delo je bilo hitro: z uporabo samo štirih grafičnih procesorjev največji od teh modelov ni potreboval več kot en dan za usposabljanje.

Najmanjši modeli so se borili. Na primer, ena poskusna zgodba se začne z zlobnim moškim, ki deklici reče, da bo vzel njeno mačko. Model z milijoni parametrov se je zataknil v zanki, ko je deklica moškemu večkrat rekla, da želi biti prijatelja. Toda večji - še vedno tisočkrat manjši od GPT-3.5 - so se izkazali presenetljivo dobro. Različica z 28 milijoni parametrov je povedala koherentno zgodbo, čeprav je bil konec žalosten: »Katie je začela jokati, toda moškemu je bilo vseeno. Odpeljal je mačko in Katie svoje mačke nikoli več ni videla. Konec."

Poleg preizkušanja lastnih modelov sta Eldan in Li predstavila enak izziv OpenAI-jevemu GPT-2, modelu z 1.5 milijarde parametrov, ki je bil izdan leta 2019. Odrezal se je veliko slabše – preden se zgodba nenadoma konča, moški grozi, da bo vzel dekle. na sodišče, v zapor, bolnišnico, mrtvašnico in nazadnje v krematorij.

Predstavitev

Nguyen je dejal, da je razburljivo, da so bili tako majhni modeli tako tekoči, a morda ni presenetljivo, da se je GPT-2 spopadel z nalogo: je večji model, vendar daleč od najsodobnejšega, in je bil usposobljen na zelo drugačnem nizu podatkov. »Malček, ki se usposablja samo za malčkove naloge, na primer igranje z nekaterimi igračami, bo morda boljši od vas ali mene,« je opozoril. "Nismo specializirani za to preprosto stvar."

Primerjave med različnimi modeli TinyStories nimajo istih motečih dejavnikov. Eldan in Li sta opazila namige, da so bila omrežja z manj plastmi, a več nevroni na plast, boljša pri odgovarjanju na vprašanja, ki zahtevajo dejansko znanje; nasprotno pa so bila omrežja z več plastmi in manj nevroni na plast boljša pri sledenju likom in točkam zapleta iz prejšnje zgodbe. Bhagavatuli se je ta rezultat zdel še posebej zanimiv. Če ga je mogoče ponoviti v večjih modelih, je dejal, "bi bil to res kul rezultat, ki bi lahko izhajal iz tega dela."

Eldan in Li sta preučevala tudi, kako so sposobnosti njunih malih modelov odvisne od trajanja obdobja usposabljanja. V vsakem primeru so modeli najprej obvladali slovnico in nato doslednost. Za Eldana ta vzorec ponazarja, kako razlike v strukturah nagrajevanja vodijo do razlik v vzorcih usvajanja jezika med nevronskimi mrežami in otroki. Za jezikovne modele, ki se učijo s predvidevanjem besed, je »spodbuda za besede 'želim imeti' enako velika kot za besede 'sladoled',” je dejal. Otrokom pa »je vseeno, ali rečejo 'Rad bi sladoled' ali samo 'sladoled, sladoled, sladoled'.”

Kakovost proti količini

Eldan in Li upata, da bo raziskava motivirala druge raziskovalce za usposabljanje različnih modelov nabor podatkov TinyStories in primerjali njihove zmožnosti. Toda pogosto je težko predvideti, katere lastnosti majhnih modelov se bodo pojavile tudi pri večjih.

"Mogoče so mišji modeli vida res dobri približki človeškega vida, toda ali so mišji modeli depresije dobri modeli človeške depresije?" je rekel Pavlick. "Za vsak primer je malo drugače."

Uspeh modelov TinyStories nakazuje tudi širšo lekcijo. Standardni pristop k zbiranju naborov podatkov za usposabljanje vključuje sesanje besedila iz celotnega interneta in nato filtriranje smeti. Sintetično besedilo, ustvarjeno z velikimi modeli, bi lahko ponudilo alternativni način za sestavljanje visokokakovostnih nizov podatkov, ki ne bi morali biti tako veliki.

"Imamo vedno več dokazov, da je to zelo učinkovito, ne le pri modelih velikosti TinyStories, ampak tudi pri večjih modelih," je dejal Eldan. Ti dokazi izvirajo iz dveh nadaljnjih dokumentov o modelih z milijardami parametrov Eldana, Lija in drugih Microsoftovih raziskovalcev. V prvi papir, so usposobili model za učenje programskega jezika Python z uporabo izrezkov kode, ki jih je ustvaril GPT-3.5, skupaj s skrbno izbrano kodo iz interneta. V 2., so razširili nabor podatkov o usposabljanju s sintetičnimi »učbeniki«, ki pokrivajo široko paleto tem, da bi usposobili splošni jezikovni model. V njunih testih sta se oba modela primerjala z večjimi modeli, usposobljenimi za večje nize podatkov. Toda ocenjevanje jezikovnih modelov je vedno težavno in pristop sintetičnih podatkov o usposabljanju je še vedno v povojih - potrebnih je več neodvisnih testov.

Medtem ko se najsodobnejši jezikovni modeli vedno večajo, presenetljive ugotovitve njihovih majhnih bratrancev opominjajo, da še vedno veliko ne razumemo niti o najpreprostejših modelih. Nguyen pričakuje, da bo videl veliko več dokumentov, ki raziskujejo pristop, ki ga je uvedel TinyStories.

"Vprašanje je: kje in zakaj je velikost pomembna?" rekel je. "O tem bi morala obstajati znanost in upajmo, da je ta dokument začetek bogate zgodbe."

Časovni žig:

Več od Quantamagazine