Modelele lingvistice minuscule prosperă cu GPT-4 ca profesor | Revista Quanta

Modelele lingvistice minuscule prosperă cu GPT-4 ca profesor | Revista Quanta

Modelele lingvistice minuscule prosperă cu GPT-4 ca profesor | Revista Quanta PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Introducere

Învățarea limbii engleze nu este o sarcină ușoară, așa cum știu nenumărați studenți. Dar când studentul este un computer, o abordare funcționează surprinzător de bine: pur și simplu alimentați munți de text de pe internet la un model matematic uriaș numit rețea neuronală. Acesta este principiul de funcționare din spatele modelelor de limbaj generativ precum ChatGPT de la OpenAI, a cărui capacitate de a conversa în mod coerent (dacă nu întotdeauna sincer) pe o gamă largă de subiecte a surprins cercetătorii și publicul în ultimul an.

Dar abordarea are dezavantajele ei. În primul rând, procedura de „instruire” necesară pentru a transmuta arhive vaste de text în modele lingvistice de ultimă generație este costisitoare și necesită mult timp. Pe de altă parte, chiar și persoanelor care antrenează modele de limbaj mari le este greu să-și înțeleagă funcționarea interioară; asta, la rândul său, face dificilă prezicerea numeroaselor moduri în care pot eșua.

Confruntați cu aceste dificultăți, unii cercetători au optat pentru formare modele mai mici pe seturi de date mai mici și apoi studiați comportamentul acestora. „Este ca și cum ai secvenționa Drosophila genomului versus secvențierea genomului uman”, a spus Ellie Pavlick, un cercetător de model lingvistic la Universitatea Brown.

Acum, într-un hârtie postat recent pe serverul științific de pretipărire arxiv.org, o pereche de cercetători Microsoft au introdus o nouă metodă de antrenare a modelelor lingvistice minuscule: creșteți-le cu o dietă strictă de povești pentru copii.

Cercetătorii de învățare automată au îmbrățișat această lecție. GPT-3.5, modelul de limbaj mare care alimentează interfața ChatGPT, are aproape 200 de miliarde de parametri și a fost antrenat pe un set de date care cuprinde sute de miliarde de cuvinte. (OpenAI nu a lansat cifrele corespunzătoare pentru succesorul său, GPT-4.) Antrenarea unor astfel de modele mari necesită de obicei cel puțin 1,000 de procesoare specializate numite GPU care rulează în paralel timp de săptămâni. Doar câteva companii pot aduna resursele necesare, darămite să se antreneze și să compare diferite modele.

Cei doi cercetători au arătat că modelele de limbaj de mii de ori mai mici decât sistemele de ultimă generație de astăzi au învățat rapid să spună povești consistente și gramaticale atunci când au fost instruite în acest fel. Rezultatele lor sugerează noi direcții de cercetare care ar putea fi utile pentru formarea modelelor mai mari și înțelegerea comportamentului lor.

„Am găsit această lucrare foarte informativă”, a spus Chandra Bhagavatula, un cercetător de model de limbaj la Institutul Allen pentru Inteligență Artificială din Seattle. „Conceptul în sine este super interesant.”

Once Upon a Time

Rețelele neuronale din inima modelelor de limbaj sunt structuri matematice inspirate vag de creierul uman. Fiecare conține mulți neuroni artificiali aranjați în straturi, cu conexiuni între neuroni în straturi adiacente. Comportamentul rețelei neuronale este guvernat de puterea acestor conexiuni, numite parametri. Într-un model de limbă, parametrii controlează ce cuvinte modelul ar putea scuipa în continuare, având în vedere un prompt inițial și cuvintele pe care le-a generat deja.

Un model prinde viață doar în timpul antrenamentului, atunci când își compară în mod repetat propria ieșire cu textul din setul de date de antrenament și își ajustează parametrii pentru a crește asemănarea. O rețea neantrenată cu parametri aleatori este trivial de ușor de asamblat din câteva linii de cod, dar va produce doar farfurie. După antrenament, adesea poate continua în mod plauzibil text nefamiliar. Modelele mai mari sunt adesea supuse unor ajustări suplimentare care îi învață să răspundă la întrebări și să urmeze instrucțiunile, dar cea mai mare parte a instruirii este stăpânirea predicției cuvintelor.

Succesul la predicția cuvintelor necesită un model lingvistic pentru a stăpâni multe abilități diferite. De exemplu, regulile gramaticii engleze sugerează că următorul cuvânt după cuvântul „going” va fi probabil „to”, indiferent de subiectul textului. În plus, un sistem are nevoie de cunoștințe faptice pentru a completa „capitala Franței este” și pentru a completa un pasaj care conține cuvântul „nu” necesită o înțelegere rudimentară a logicii.

„Limbajul brut este foarte complicat”, a spus Timothy Nguyen, un cercetător în învățarea automată la DeepMind. „Pentru ca să apară capabilități lingvistice interesante, oamenii au recurs la „mai multe date sunt mai bune”.

Introducere

Ronen Eldan, un matematician care s-a alăturat Microsoft Research în 2022 pentru a studia modele de limbaj generativ, a vrut să dezvolte o modalitate mai ieftină și mai rapidă de a-și explora abilitățile. Modul natural de a face acest lucru a fost prin utilizarea unui set mic de date, iar asta însemna, la rândul său, că va trebui să antreneze modele pentru a se specializa într-o anumită sarcină, astfel încât să nu se răspândească prea subțire. Inițial, a vrut să pregătească modele pentru a rezolva o anumită clasă de probleme de matematică, dar într-o după-amiază, după ce a petrecut timp cu fiica lui de 5 ani, și-a dat seama că poveștile copiilor se potrivesc perfect.

„Mi-a venit literalmente după ce i-am citit o poveste”, a spus el.

Pentru a genera povești coerente pentru copii, un model de limbaj ar trebui să învețe fapte despre lume, să țină evidența personajelor și evenimentelor și să respecte regulile gramaticale - versiuni mai simple ale provocărilor cu care se confruntă modelele mari. Dar modelele mari instruite pe seturi masive de date învață nenumărate detalii irelevante împreună cu regulile care contează cu adevărat. Eldan a sperat că concizia și vocabularul limitat al poveștilor pentru copii ar putea face învățarea mai ușor de gestionat pentru modelele mici - făcându-le atât mai ușor de instruit, cât și mai ușor de înțeles.

În lumea modelelor de limbaj, totuși, „mic” este relativ: un set de date de o mie de ori mai mic decât cel folosit pentru antrenarea GPT-3.5 ar trebui să conțină în continuare milioane de povești. „Nu știu câți bani doriți să cheltuiți, dar bănuiesc că nu veți angaja profesioniști care să scrie [căteva milioane] povestiri”, a spus Nguyen.

Ar fi nevoie de un autor extraordinar de prolific pentru a satisface astfel de cititori voraci, dar Eldan avea câțiva candidați în minte. Cine mai bine să scrie pentru un public de modele lingvistice mici decât cele mari?

Povești cu jucării

Eldan și-a propus imediat să creeze o bibliotecă de povești sintetice pentru copii generate de modele mari de limbaj. Dar el a descoperit curând că nici măcar modelele de ultimă generație nu sunt în mod natural foarte creative. Dacă îi spui doar lui GPT-4 să scrie povești potrivite pentru copiii de 4 ani, Eldan a spus: „aproximativ o cincime din povești vor fi despre copiii care merg în parc și se tem de tobogane”. Aceasta este, aparent, povestea preșcolară prin excelență, în ceea ce privește internetul.

Soluția a fost să adăugați un pic de aleatorie în prompt. În primul rând, Eldan a folosit GPT-4 pentru a genera o listă de 1,500 de substantive, verbe și adjective pe care un copil de 4 ani le-ar putea cunoaște - suficient de scurtă încât să le poată verifica cu ușurință. Apoi a scris un simplu program de calculator care să solicite în mod repetat GPT-3.5 sau GPT-4 să genereze o poveste adecvată vârstei, care includea trei cuvinte aleatorii din listă, împreună cu un detaliu suplimentar ales aleatoriu, cum ar fi un final fericit sau o răsturnare a intrigii. Poveștile rezultate, din fericire, au fost mai puțin concentrate pe diapozitive înfricoșătoare.

Eldan avea acum o procedură pentru producerea datelor de antrenament la cerere, dar nu avea idee de câte povești ar avea nevoie pentru a antrena un model funcțional sau cât de mare ar trebui să fie acel model. Atunci a făcut echipă cu Yuanzhi Li, un cercetător în învățare automată la Microsoft și la Universitatea Carnegie Mellon, pentru a încerca diferite posibilități, profitând de faptul că modelele mici ar putea fi antrenate foarte repede. Pasul 1 a fost să decidă cum să-și evalueze modelele.

Introducere

În cercetarea modelelor lingvistice - ca în fiecare clasă - notarea este un subiect plin. Există nici o rubrică perfectă care încapsulează tot ceea ce cercetătorii doresc să știe, iar modelele care excelează la unele sarcini eșuează adesea spectaculos la altele. De-a lungul timpului, cercetătorii au dezvoltat diferite criterii de referință standard bazate pe întrebări cu răspunsuri clare, ceea ce este o abordare bună dacă încercați să evaluați abilități specifice. Dar Eldan și Li erau interesați de ceva mai nebulos: cât de mari trebuie să fie cu adevărat modelele lingvistice dacă simplificați limbajul cât mai mult posibil?

„Pentru a testa direct dacă modelul vorbește engleză, cred că singurul lucru pe care îl puteți face este să lăsați modelul să genereze limba engleză într-un mod deschis”, a spus Eldan.

Există doar două moduri de a măsura performanța unui model la astfel de întrebări calitative: Bazați-vă pe evaluatori umani sau apelați din nou la GPT-4. Cei doi cercetători au ales această ultimă cale, lăsând efectiv modelele mari să scrie manualele și să noteze eseurile.

Bhagavatula a spus că i-ar fi plăcut să vadă cum evaluările lui GPT-4 în comparație cu cele ale recenzenților umani - GPT-4 ar putea fi părtinitoare către modele pe care le-a ajutat să le antreneze, iar opacitatea modelelor de limbaj face dificilă cuantificarea acestor părtiniri. Dar el nu crede că astfel de subtilități ar afecta comparațiile dintre diferite modele antrenate pe seturi similare de povești sintetice - accentul principal al lucrării lui Eldan și Li.

Eldan și Li au folosit o procedură în doi pași pentru a evalua fiecare dintre modelele lor mici după antrenament. În primul rând, au determinat modelul mic cu prima jumătate a unei povești distincte de cele din setul de date de antrenament, astfel încât să genereze un nou final, repetând acest proces cu 50 de povești de testare diferite. În al doilea rând, au instruit GPT-4 să noteze fiecare dintre finalurile modelului mic pe baza a trei categorii - creativitate, gramatică și coerență cu începutul poveștii. Apoi au făcut media scorurilor din fiecare categorie, ajungând la trei note finale pe model.

Cu această procedură în mână, Eldan și Li au fost în sfârșit gata să compare diferite modele și să afle care sunt elevii vedete.

Rezultatele testului

După câteva explorări preliminare, cei doi cercetători au optat pentru un set de date de antrenament care conține aproximativ 2 milioane de povești. Apoi au folosit acest set de date, numit TinyStories, pentru a antrena modele cu dimensiuni cuprinse între 1 milion și 30 de milioane de parametri, cu un număr diferit de straturi. A fost o muncă rapidă: folosind doar patru GPU-uri, cel mai mare dintre aceste modele nu a durat mai mult de o zi pentru a se antrena.

Cele mai mici modele s-au chinuit. De exemplu, o poveste de testare începe cu un bărbat cu aspect rău care îi spune unei fete că îi va lua pisica. Un model cu un milion de parametri a rămas blocat în buclă, fata spunându-i în mod repetat bărbatului că vrea să fie prietenă. Dar cele mai mari - încă de mii de ori mai mici decât GPT-3.5 - au funcționat surprinzător de bine. Versiunea cu 28 de milioane de parametri a spus o poveste coerentă, deși finalul a fost sumbru: „Katie a început să plângă, dar bărbatului nu i-a păsat. A luat pisica și Katie nu și-a mai văzut pisica. Sfârșitul."

Pe lângă testarea propriilor modele, Eldan și Li au prezentat aceeași provocare pentru GPT-2 de la OpenAI, un model cu parametri de 1.5 miliarde lansat în 2019. A mers mult mai rău - înainte de sfârșitul brusc al poveștii, bărbatul amenință că o va lua pe fată. la tribunal, închisoare, spital, morgă și în final crematoriu.

Introducere

Nguyen a spus că este incitant că astfel de modele mici au fost atât de fluente, dar poate nu este surprinzător că GPT-2 s-a luptat cu sarcina: este un model mai mare, dar departe de stadiul tehnicii și a fost antrenat pe un set de date foarte diferit. „Un copil care se antrenează doar pentru sarcinile copilului mic, cum ar fi să se joace cu niște jucării, s-ar putea descurca mai bine decât tine sau mine”, a remarcat el. „Nu ne-am specializat în acest lucru simplu.”

Comparațiile între diferite modele TinyStories nu suferă de aceiași factori de confuzie. Eldan și Li au observat indicii că rețelele cu mai puține straturi, dar cu mai mulți neuroni pe strat au răspuns mai bine la întrebările care necesitau cunoștințe concrete; dimpotrivă, rețelele cu mai multe straturi și mai puțini neuroni pe strat au fost mai bune în a ține evidența personajelor și a punctelor complotului de la începutul poveștii. Bhagavatula a găsit acest rezultat deosebit de intrigant. Dacă poate fi replicat în modele mai mari, a spus el, „ar fi un rezultat foarte grozav care ar putea rezulta din această muncă”.

Eldan și Li au studiat și modul în care abilitățile modelelor lor mici depind de durata perioadei de antrenament. În fiecare caz, modelele au stăpânit mai întâi gramatica și mai târziu consecvența. Pentru Eldan, acest model ilustrează modul în care diferențele în structurile de recompensă conduc la diferențe în modelele de achiziție a limbajului între rețelele neuronale și copii. Pentru modelele lingvistice, care învață predicând cuvinte, „stimulentul pentru cuvintele „vreau să am” este la fel de mare ca și pentru cuvintele „înghețată”,” a spus el. Copiilor, pe de altă parte, „nu le pasă dacă spun „aș dori să iau niște înghețată” sau doar „înghețată, înghețată, înghețată”.

Calitate versus cantitate

Eldan și Li speră că cercetarea va motiva alți cercetători să antreneze diferite modele setul de date TinyStories și să le compare capacitățile. Dar este adesea greu de prezis ce caracteristici ale modelelor mici vor apărea și în cele mai mari.

„Poate că modelele de șoarece ale vederii sunt foarte bune proxy ale vederii umane, dar sunt modelele de șoarece ale depresiei modele bune ale depresiei umane?” spuse Pavlick. „Pentru fiecare caz, este puțin diferit.”

Succesul modelelor TinyStories sugerează și o lecție mai largă. Abordarea standard pentru compilarea seturilor de date de antrenament implică aspirarea textului de pe internet și apoi filtrarea gunoiului. Textul sintetic generat de modele mari ar putea oferi o modalitate alternativă de a asambla seturi de date de înaltă calitate, care nu ar trebui să fie atât de mari.

„Avem din ce în ce mai multe dovezi că acest lucru este foarte eficient, nu numai în modelele de dimensiunea TinyStories, ci și în modelele mai mari”, a spus Eldan. Aceste dovezi provin dintr-o pereche de lucrări ulterioare despre modele cu miliarde de parametri ale Eldan, Li și alți cercetători Microsoft. În prima lucrare, au instruit un model pentru a învăța limbajul de programare Python folosind fragmente de cod generate de GPT-3.5 împreună cu cod îngrijit de pe internet. În al doilea, au mărit setul de date de instruire cu „manuale” sintetice, care acoperă o gamă largă de subiecte, pentru a antrena un model de limbaj cu scop general. În testele lor, ambele modele s-au comparat favorabil cu modelele mai mari antrenate pe seturi de date mai mari. Dar evaluarea modelelor lingvistice este întotdeauna dificilă, iar abordarea sintetică a datelor de antrenament este încă la început - sunt necesare mai multe teste independente.

Pe măsură ce modelele de limbaj de ultimă generație devin din ce în ce mai mari, descoperirile surprinzătoare de la verișorii lor minusculi ne amintesc că sunt încă multe lucruri pe care nu le înțelegem nici măcar despre cele mai simple modele. Nguyen se așteaptă să vadă mai multe lucrări care explorează abordarea inițiată de TinyStories.

„Întrebarea este: unde și de ce contează dimensiunea?” el a spus. „Ar trebui să existe o știință în acest sens, iar această lucrare este, sperăm, începutul unei povești bogate.”

Timestamp-ul:

Mai mult de la Quantamagazina