Väikesed keelemudelid arenevad GPT-4 abil õpetajana | Ajakiri Quanta

Väikesed keelemudelid arenevad GPT-4 abil õpetajana | Ajakiri Quanta

Väikesed keelemudelid arenevad GPT-4 abil õpetajana | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Sissejuhatus

Inglise keele õppimine pole lihtne ülesanne, nagu paljud õpilased teavad hästi. Kuid kui õpilane on arvuti, töötab üks lähenemisviis üllatavalt hästi: lihtsalt söödake Internetist tekstimäed hiiglaslikule matemaatilisele mudelile, mida nimetatakse närvivõrguks. See on generatiivsete keelemudelite, nagu OpenAI ChatGPT, tööpõhimõte, mille võime vestelda sidusalt (kui mitte alati tõetruult) paljudel teemadel on teadlasi ja avalikkust viimase aasta jooksul üllatanud.

Kuid sellel lähenemisviisil on oma puudused. Esiteks on tohutute tekstiarhiivide tipptasemel keelemudeliteks muutmiseks vajalik "koolitus" kulukas ja aeganõudev. Teise jaoks on isegi inimestel, kes koolitavad suuri keelemudeleid, raske mõista oma sisemist tööd; mis omakorda muudab raskeks ennustada mitmeid võimalusi, kuidas nad võivad ebaõnnestuda.

Nende raskustega silmitsi seistes on mõned teadlased otsustanud koolitada väiksemad mudelid väiksemate andmekogumite kohta ja seejärel uurida nende käitumist. "See on nagu järjestamine Drosophila genoom versus inimese genoomi järjestamine, ”ütles Ellie Pavlick, keelemudelite uurija Browni ülikoolist.

Nüüd, a paber Hiljuti teaduslikku eeltrükiserverisse arxiv.org postitati paar Microsofti teadlast, kes tutvustasid uut meetodit pisikeste keelemudelite koolitamiseks: kasvatage neid rangele lastejuttude dieedile.

Masinõppe teadlased on selle õppetunni omaks võtnud. GPT-3.5, suurel keelemudelil, mis toidab ChatGPT liidest, on peaaegu 200 miljardit parameetrit ja seda õpetati sadu miljardeid sõnu sisaldavale andmekogumile. (OpenAI ei ole avaldanud vastavaid arve oma järglase GPT-4 kohta.) Selliste suurte mudelite koolitamiseks on tavaliselt vaja vähemalt 1,000 spetsialiseeritud protsessorit, mida nimetatakse GPU-deks, mis töötavad paralleelselt nädalate kaupa. Vaid vähesed ettevõtted suudavad koguda vajalikke ressursse, rääkimata koolitamisest ja erinevate mudelite võrdlemisest.

Kaks teadlast näitasid, et tänapäeva tipptasemel süsteemidest tuhandeid kordi väiksemad keelemudelid õppisid sel viisil treenides kiiresti rääkima järjekindlaid ja grammatilisi lugusid. Nende tulemused viitavad uutele uurimissuundadele, mis võivad olla abiks suuremate mudelite koolitamisel ja nende käitumise mõistmisel.

"Ma leidsin, et see paber oli väga informatiivne," ütles Chandra Bhagavatula, keelemudelite uurija Alleni Tehisintellekti Instituudist Seattle'is. "Konseptsioon ise on väga huvitav."

Ammu

Keelemudelite keskmes olevad närvivõrgud on inimajust lõdvalt inspireeritud matemaatilised struktuurid. Igaüks neist sisaldab palju kihtidena paigutatud tehisneuroneid, millel on ühendused külgnevates kihtides olevate neuronite vahel. Närvivõrgu käitumist juhib nende ühenduste tugevus, mida nimetatakse parameetriteks. Keelemudelis juhivad parameetrid, milliseid sõnu võib mudel järgmisena välja sülitada, võttes arvesse esialgset viipa ja sõnu, mille see on juba genereerinud.

Mudel ärkab tõeliselt ellu alles treeningu ajal, kui ta võrdleb korduvalt enda väljundit treeningandmete kogumi tekstiga ja kohandab sarnasuse suurendamiseks oma parameetreid. Juhuslike parameetritega koolitamata võrku on mõne koodirea põhjal triviaalselt lihtne kokku panna, kuid see tekitab lihtsalt jaburat. Pärast treeningut võib see sageli usutavalt jätkata tundmatut teksti. Suuremad mudelid läbivad sageli täiendavat peenhäälestust, mis õpetab neid küsimustele vastama ja juhiseid järgima, kuid suurem osa koolitusest on sõnade ennustamise valdamine.

Sõnade ennustamise edu nõuab keelemudelit, et omandada palju erinevaid oskusi. Näiteks inglise keele grammatika reeglid viitavad sellele, et järgmine sõna pärast sõna "lähen" on tõenäoliselt "to", olenemata teksti teemast. Lisaks vajab süsteem faktiteadmisi, et täita "Prantsusmaa pealinn on" ja seda sisaldav lõik sõna "mitte" nõuab algelist loogikamõistmist.

"Toorkeel on väga keeruline," ütles Timothy Nguyen, DeepMindi masinõppe uurija. "Selleks, et tekiks huvitavad keelelised võimed, on inimesed kasutanud "rohkem andmeid, seda parem"."

Sissejuhatus

Ronen Eldan, matemaatik, kes liitus 2022. aastal Microsoft Researchiga, et uurida generatiivseid keelemudeleid, soovis välja töötada odavama ja kiirema viisi oma võimete uurimiseks. Loomulik viis seda teha oli väikese andmekogumi kasutamine ja see omakorda tähendas, et ta pidi koolitama mudeleid konkreetsele ülesandele spetsialiseerumiseks, et nad ei läheks liiga õhukeseks. Algselt tahtis ta modelle koolitada teatud klassi matemaatikaülesannete lahendamiseks, kuid ühel pärastlõunal, olles veetnud aega oma 5-aastase tütrega, mõistis ta, et lastejutud sobivad ideaalselt.

"See tuli mulle sõna otseses mõttes pärast seda, kui lugesin talle lugu," ütles ta.

Sidusate lastejuttude loomiseks peaks keelemudel õppima maailma fakte, jälgima tegelasi ja sündmusi ning järgima grammatikareegleid – suurte mudelite ees seisvate väljakutsete lihtsamaid versioone. Kuid suured mudelid, mis on koolitatud tohutute andmekogumitega, õpivad lugematul hulgal ebaolulisi üksikasju koos reeglitega, mis on tõesti olulised. Eldan lootis, et lastejuttude lühidus ja piiratud sõnavara võivad muuta õppimise väikeste mudelite jaoks paremini hallatavaks – nii on neid lihtsam koolitada kui ka paremini mõista.

Keelemudelite maailmas on "väike" aga suhteline: tuhat korda väiksem andmekogum kui see, mida kasutati GPT-3.5 koolitamiseks, peaks ikkagi sisaldama miljoneid lugusid. "Ma ei tea, kui palju raha soovite kulutada, aga ma arvan, et te ei kavatse [paar miljonit] novelli kirjutamiseks palgata spetsialiste," ütles Nguyen.

Nii ahnete lugejate rahuldamiseks oleks vaja erakordselt viljakat autorit, kuid Eldan pidas silmas mõnda kandidaati. Kes on parem kirjutada väikeste keelemudelite publikule kui suurtele?

mänguasjalood

Eldan asus kohe looma sünteetiliste lastelugude raamatukogu, mis on loodud suurte keelemudelite abil. Kuid peagi avastas ta, et isegi tipptasemel mudelid pole loomult kuigi loomingulised. Kui ütlete GPT-4-le, et ta kirjutaks 4-aastastele lastele sobivaid lugusid, ütles Eldan: "umbes viiendik lugudest puudutab parki minevaid lapsi, kes kardavad liumägesid." See on ilmselt põhiline eelkoolilugu, mis puudutab Internetti.

Lahendus oli lisada viipale natuke juhuslikkust. Esiteks kasutas Eldan GPT-4, et koostada loend 1,500 nimisõnast, tegusõnast ja omadussõnast, mida 4-aastane laps võiks teada – piisavalt lühike, et ta saaks seda ise hõlpsasti kontrollida. Seejärel kirjutas ta lihtsa arvutiprogrammi, mis kutsus GPT-3.5 või GPT-4 korduvalt looma eakohase loo, mis sisaldas loendist kolme juhuslikku sõna koos täiendava juhuslikult valitud detailiga, nagu õnnelik lõpp või süžee keerdkäik. Sellest tulenevad lood olid halastavalt vähem keskendunud hirmutavatele slaididele.

Eldanil oli nüüd protseduur treeningandmete nõudmisel väljastamiseks, kuid tal polnud aimugi, kui palju lugusid tal funktsionaalse mudeli treenimiseks vaja on või kui suur see mudel peaks olema. See oli siis, kui ta ühines Yuanzhi Li, Microsofti ja Carnegie Melloni ülikooli masinõppeteadlane, et proovida erinevaid võimalusi, kasutades ära asjaolu, et väikeseid mudeleid saab väga kiiresti koolitada. 1. samm oli otsustamine, kuidas nende mudeleid hinnata.

Sissejuhatus

Keelemudeli uurimisel – nagu igas klassiruumis – on hinnete panemine rikas teema. Seal on pole täiuslikku rubriiki mis sisaldab kõike, mida teadlased tahavad teada, ja mudelid, mis on mõne ülesandega suurepärased, ebaõnnestuvad sageli teistes. Aja jooksul on teadlased välja töötanud erinevad standardsed võrdlusalused, mis põhinevad ühemõtteliste vastustega küsimustel, mis on hea lähenemisviis konkreetsete oskuste hindamiseks. Kuid Eldan ja Li olid huvitatud millestki hägusamast: kui suured peavad keelemudelid tegelikult olema, kui keelt nii palju kui võimalik lihtsustada?

"Selleks, et otse testida, kas mudel räägib inglise keelt, arvan, et ainus asi, mida saate teha, on lasta mudelil inglise keelt avatud viisil genereerida," ütles Eldan.

Mudeli jõudluse mõõtmiseks sellistes kvalitatiivsetes küsimustes on ainult kaks võimalust: tugineda inimeste teehöövlitele või pöörduda uuesti GPT-4 poole. Kaks teadlast valisid viimase tee, lastes suurtel modellidel nii õpikuid kirjutada kui ka esseesid hinnata.

Bhagavatula ütles, et ta oleks soovinud näha, kuidas GPT-4 hinnangud inimeste arvustajate omadega võrreldes võivad olla kallutatud mudelite suhtes, mida see aitas koolitada, ja keelemudelite läbipaistmatus muudab selliste eelarvamuste kvantifitseerimise raskeks. Kuid ta ei usu, et sellised peensused mõjutaksid erinevate mudelite võrdlust, mis on koolitatud sarnaste sünteetiliste lugude kogumitega - Eldani ja Li töö põhirõhk.

Eldan ja Li kasutasid iga väikese mudeli hindamiseks pärast koolitust kaheastmelist protseduuri. Esiteks käivitasid nad väikese mudeli loo esimese poolega, mis erines koolitusandmete kogumi omadest, nii et see genereeris uue lõpu, korrates seda protsessi 50 erineva katselooga. Teiseks andsid nad GPT-4-le ülesandeks hinnata iga väikese mudeli lõppu kolme kategooria alusel – loovus, grammatika ja kooskõla loo algusega. Seejärel arvutasid nad iga kategooria hinded keskmise, saades mudeli kohta kolm lõplikku hinnet.

Kui see protseduur käes, olid Eldan ja Li lõpuks valmis erinevaid mudeleid võrdlema ja välja selgitama, millised olid staarõpilased.

Testi tulemused

Pärast mõningast esialgset uurimist otsustasid kaks teadlast koolitusandmete kogumit, mis sisaldas ligikaudu 2 miljonit lugu. Seejärel kasutasid nad seda andmekogumit, mille nimeks sai TinyStories, et koolitada mudeleid, mille suurus oli vahemikus 1 miljon kuni 30 miljonit parameetrit ja erineva arvu kihtidega. See oli kiire töö: kasutades ainult nelja GPU-d, ei võtnud neist suurimatest mudelitest treenimiseks rohkem aega kui päev.

Kõige väiksemad modellid nägid vaeva. Näiteks üks katselugu algab sellega, et õela välimusega mees ütleb tüdrukule, et ta võtab tema kassi. Miljoni parameetriga modell takerdus ahelasse, kus tüdruk ütles mehele korduvalt, et tahab sõbraks saada. Kuid suuremad – ikkagi tuhandeid kordi väiksemad kui GPT-3.5 – toimisid üllatavalt hästi. 28 miljoni parameetriga versioon jutustas ühtse loo, kuigi lõpp oli sünge: «Katie hakkas nutma, aga mees ei hoolinud sellest. Ta viis kassi ära ja Katie ei näinud oma kassi enam kunagi. Lõpp."

Lisaks oma mudelite testimisele esitasid Eldan ja Li sama väljakutse OpenAI GPT-2-le, 1.5 miljardi parameetriga mudelile, mis ilmus 2019. aastal. Sellega läks palju hullemini – enne loo järsku lõppu ähvardab mees tüdruku enda kätte võtta. kohtusse, vanglasse, haiglasse, surnukuuri ja lõpuks krematooriumi.

Sissejuhatus

Nguyen ütles, et on põnev, et sellised väikesed mudelid olid nii ladusad, kuid võib-olla pole üllatav, et GPT-2 oli selle ülesandega hädas: see on suurem mudel, kuid kaugel tehnika tasemest ja seda õpetati väga erineva andmestiku põhjal. "Ainult väikelapse ülesannete, näiteks mänguasjadega mängimise, treenimine võib olla parem kui teie või mina," märkis ta. "Me ei spetsialiseerunud sellele lihtsale asjale."

Erinevate TinyStoriesi mudelite võrdlus ei kannata samade segavate tegurite all. Eldan ja Li täheldasid vihjeid, et võrgud, millel on vähem kihte, kuid kihi kohta rohkem neuroneid, vastasid paremini küsimustele, mis nõudsid faktiteadmisi; vastupidi, võrgud, millel oli rohkem kihte ja vähem neuroneid kihi kohta, suutsid paremini jälgida loo varasemaid tegelasi ja süžeepunkte. Bhagavatula pidas seda tulemust eriti intrigeerivaks. Kui seda saab kopeerida suuremates mudelites, ütles ta: "See oleks tõesti lahe tulemus, mis võiks sellest tööst tuleneda."

Eldan ja Li uurisid ka, kuidas sõltusid nende väikeste modellide võimed treeningperioodi kestusest. Igal juhul omandasid mudelid kõigepealt grammatika ja hiljem järjepidevuse. Eldani jaoks illustreerib see muster, kuidas erinevused tasustamisstruktuurides põhjustavad erinevusi närvivõrkude ja laste keele omandamise mustrites. Ta ütles, et keelemudelite puhul, mis õpivad sõnu ennustades, on sõnade "tahan saada" stiimul sama suur kui sõnadel "jäätis". Lapsed seevastu "ei hooli sellest, kas nad ütlevad "ma tahaksin jäätist" või lihtsalt "jäätist, jäätist, jäätist".

Kvaliteet versus kvantiteet

Eldan ja Li loodavad, et uurimus motiveerib teisi teadlasi koolitama erinevaid mudeleid andmekogum TinyStories ja võrrelda nende võimeid. Kuid sageli on raske ennustada, millised väikeste mudelite omadused ilmnevad ka suuremates.

"Võib-olla on nägemise hiiremudelid inimese nägemise jaoks tõesti head, kuid kas depressiooni hiiremudelid on head inimese depressiooni mudelid?" ütles Pavlick. "Iga juhtumi puhul on see natuke erinev."

TinyStoriesi mudelite edu viitab ka laiemale õppetunnile. Treeningu andmekogumite koostamise tavapärane lähenemisviis hõlmab teksti kogumist Internetist ja seejärel prügi filtreerimist. Suurte mudelite loodud sünteetiline tekst võib pakkuda alternatiivset võimalust kvaliteetsete andmekogumite koostamiseks, mis ei pea olema nii suured.

"Meil on üha rohkem tõendeid selle kohta, et see on väga tõhus mitte ainult TinyStories-suuruses mudelites, vaid ka suuremates mudelites," ütles Eldan. Need tõendid pärinevad paarist järeldokumendist Eldani, Li ja teiste Microsofti teadlaste miljardiparameetriliste mudelite kohta. Aastal esimene paber, õpetasid nad välja mudeli, et õppida programmeerimiskeelt Python, kasutades GPT-3.5 loodud koodilõike koos hoolikalt kureeritud koodiga Internetist. Aastal teine, täiendasid nad koolitusandmete kogumit sünteetiliste "õpikutega", mis hõlmasid paljusid teemasid, et koolitada üldotstarbelist keelemudelit. Nende testides võrreldi mõlemat mudelit soodsalt suuremate mudelitega, mis olid treenitud suuremate andmekogumite põhjal. Kuid keelemudelite hindamine on alati keeruline ja sünteetiliste koolitusandmete lähenemisviis on alles lapsekingades - vaja on rohkem sõltumatuid teste.

Kui nüüdisaegsed keelemudelid kasvavad üha suuremaks, tuletavad nende pisikeste nõbude üllatavad leiud meelde, et isegi kõige lihtsamate mudelite puhul on veel palju, millest me aru ei saa. Nguyen loodab näha palju rohkem pabereid, mis uurivad TinyStoriesi poolt algatatud lähenemisviisi.

"Küsimus on: kus ja miks on suurus oluline?" ta ütles. "Selle kohta peaks olema teadus ja see paber on loodetavasti rikkaliku loo algus."

Ajatempel:

Veel alates Kvantamagazin