Noua teorie sugerează că chatboții pot înțelege textul | Revista Quanta

Noua teorie sugerează că chatboții pot înțelege textul | Revista Quanta

Noua teorie sugerează că chatboții pot înțelege textul | Revista Quanta PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Introducere

Inteligența artificială pare mai puternică ca niciodată, cu chatbot-uri precum Bard și ChatGPT capabili să producă text neobișnuit de uman. Dar, cu toate talentele lor, acești roboți îi lasă pe cercetători să se întrebe: faceți astfel de modele inteleg de fapt ce spun ei? „În mod clar, unii oameni cred că da”, a spus pionierul AI Geoff Hinton într-un conversație recentă cu Andrew Ng, „și unii oameni cred că sunt doar papagali stocastici”.

Această frază evocatoare vine dintr-un 2021 hârtie co-autorizat de Emily Bender, un lingvist computațional la Universitatea din Washington. Acesta sugerează că modelele de limbă mari (LLM) – care formează baza chatbot-urilor moderne – generează text doar combinând informațiile pe care le-au văzut deja „fără nicio referire la sens”, au scris autorii, ceea ce face din LLM „un papagal stocastic”.

Aceste modele alimentează mulți dintre cei mai mari și mai buni chatboți din ziua de azi, așa că Hinton a susținut că este timpul să se determine amploarea a ceea ce înțeleg. Întrebarea, pentru el, este mai mult decât academică. „Atâta timp cât avem acele diferențe” de opinie, i-a spus el lui Ng, „nu vom putea ajunge la un consens cu privire la pericole”.

Cercetările noi pot avea indicii cu privire la un răspuns. O teorie dezvoltată de Sanjeev Arora de la Universitatea Princeton și Anirudh Goyal, un cercetător de la Google DeepMind, sugerează că cei mai mari dintre LLM-urile de astăzi nu sunt papagali stocastici. Autorii susțin că, pe măsură ce aceste modele devin mai mari și sunt instruite pe mai multe date, ele îmbunătățesc abilitățile individuale legate de limbaj și, de asemenea, dezvoltă altele noi, combinând abilități într-un mod care sugerează înțelegere - combinații care era puțin probabil să existe în datele de instruire. .

Această abordare teoretică, care oferă un argument demonstrabil matematic pentru cum și de ce un LLM poate dezvolta atât de multe abilități, a convins experți precum Hinton și alții. Și când Arora și echipa sa au testat unele dintre predicțiile sale, au descoperit că aceste modele s-au comportat aproape exact așa cum se aștepta. Din toate conturile, ei au susținut că cele mai mari LLM nu sunt doar papagali ceea ce au văzut înainte.

„[Ei] nu pot fi doar să mimeze ceea ce s-a văzut în datele de antrenament”, a spus Sébastien Bubeck, un matematician și informatician la Microsoft Research care nu a făcut parte din lucrare. „Aceasta este ideea de bază.”

Mai multe date, mai multă putere

Apariția abilități neașteptate și diverse în LLM, este corect să spunem, a venit ca o surpriză. Aceste abilități nu sunt o consecință evidentă a modului în care sistemele sunt construite și antrenate. Un LLM este o rețea neuronală artificială masivă, care conectează neuroni artificiali individuali. Aceste conexiuni sunt cunoscute ca parametrii modelului, iar numărul lor denotă dimensiunea LLM. Antrenamentul implică acordarea LLM a unei propoziții cu ultimul cuvânt ascuns, de exemplu, „Combustibilul costă un braț și un ___”. LLM prezice o distribuție a probabilității pe întregul său vocabular, așa că dacă știe, să zicem, o mie de cuvinte, prezice o mie de probabilități. Apoi alege cuvântul cel mai probabil pentru a completa propoziția - probabil, „picior”.

Inițial, LLM ar putea alege prost cuvintele. Algoritmul de antrenament calculează apoi o pierdere - distanța, într-un spațiu matematic de dimensiuni mari, dintre răspunsul LLM și cuvântul real din propoziția originală - și folosește această pierdere pentru a modifica parametrii. Acum, având în vedere aceeași propoziție, LLM va calcula o distribuție de probabilitate mai bună, iar pierderea acesteia va fi puțin mai mică. Algoritmul face acest lucru pentru fiecare propoziție din datele de antrenament (posibil miliarde de propoziții), până când pierderea totală a LLM scade la niveluri acceptabile. Un proces similar este utilizat pentru a testa LLM pe propoziții care nu făceau parte din datele de instruire.

Un LLM instruit și testat, atunci când este prezentat cu un mesaj text nou, va genera următorul cuvânt cel mai probabil, îl va adăuga la prompt, va genera un alt cuvânt următor și va continua în acest mod, producând un răspuns aparent coerent. Nimic din procesul de instruire nu sugerează că LLM-urile mai mari, construite folosind mai mulți parametri și date de antrenament, ar trebui să se îmbunătățească și la sarcinile care necesită raționament pentru a răspunde.

Dar ei o fac. LLM-urile suficient de mari demonstrează abilități – de la rezolvarea problemelor elementare de matematică până la răspunsul la întrebări despre ce se întâmplă în mintea altora – pe care modelele mai mici nu le au, deși toate sunt instruite în moduri similare.

„De unde a apărut această [abilitate]?” se întrebă Arora. „Și poate reieși asta doar din predicția cuvântului următor?”

Conectarea abilităților la text

Arora a făcut echipă cu Goyal pentru a răspunde analitic la astfel de întrebări. „Am încercat să venim cu un cadru teoretic pentru a înțelege cum se întâmplă apariția”, a spus Arora.

Cei doi au apelat la obiecte matematice numite grafice aleatorii. Un grafic este o colecție de puncte (sau noduri) conectate prin linii (sau muchii), iar într-un grafic aleatoriu prezența unei muchii între oricare două noduri este dictată aleatoriu - să zicem, printr-o monedă. Moneda poate fi părtinitoare, astfel încât să iasă din cap cu o oarecare probabilitate p. Dacă moneda apare în cap pentru o anumită pereche de noduri, se formează o margine între cele două noduri; altfel rămân neconectate. Ca valoare a p modificări, graficele pot arăta tranziții bruște în proprietățile lor. De exemplu, când p depășește un anumit prag, nodurile izolate — cele care nu sunt conectate la niciun alt nod — dispar brusc.

Arora și Goyal și-au dat seama că graficele aleatoare, care dau naștere la comportamente neașteptate după ce ating anumite praguri, ar putea fi o modalitate de a modela comportamentul LLM-urilor. Rețelele neuronale au devenit aproape prea complexe pentru a fi analizate, dar matematicienii studiază de mult timp graficele aleatoare și au dezvoltat diverse instrumente pentru a le analiza. Poate că teoria graficelor aleatoare le-ar putea oferi cercetătorilor o modalitate de a înțelege și de a prezice comportamentele aparent neașteptate ale marilor LLM.

Cercetătorii au decis să se concentreze pe grafice „bipartite”, care conțin două tipuri de noduri. În modelul lor, un tip de nod reprezintă bucăți de text - nu cuvinte individuale, ci bucăți care ar putea fi un paragraf lung de câteva pagini. Aceste noduri sunt dispuse în linie dreaptă. Sub ele, pe o altă linie, se află celălalt set de noduri. Acestea reprezintă abilitățile necesare pentru a da sens unui anumit text. Fiecare abilitate poate fi aproape orice. Poate că un nod reprezintă capacitatea unui LLM de a înțelege cuvântul „pentru că”, care încorporează o anumită noțiune de cauzalitate; altul ar putea reprezenta capacitatea de a împărți două numere; încă un altul ar putea reprezenta capacitatea de a detecta ironia. „Dacă înțelegi că textul este ironic, multe lucruri se răstoarnă”, a spus Arora. „Este relevant pentru a prezice cuvinte.”

Pentru a fi clar, LLM-urile nu sunt instruite sau testate având în vedere abilitățile; sunt construite doar pentru a îmbunătăți predicția cuvântului următor. Dar Arora și Goyal au vrut să înțeleagă LLM-urile din perspectiva abilităților care ar putea fi necesare pentru a înțelege un singur text. O conexiune între un nod de abilități și un nod de text, sau între mai multe noduri de abilități și un nod de text, înseamnă că LLM are nevoie de aceste abilități pentru a înțelege textul din acel nod. De asemenea, mai multe bucăți de text pot extrage din aceeași abilitate sau set de abilități; de exemplu, un set de noduri de abilități care reprezintă capacitatea de a înțelege ironia s-ar conecta la numeroasele noduri de text în care apare ironia.

Provocarea acum a fost să conectăm aceste grafice bipartite la LLM-uri reale și să vedem dacă graficele ar putea dezvălui ceva despre apariția abilităților puternice. Dar cercetătorii nu s-au putut baza pe nicio informație despre pregătirea sau testarea LLM-urilor reale - companii precum OpenAI sau DeepMind nu își fac publice datele de instruire sau de testare. De asemenea, Arora și Goyal au vrut să prezică cum se vor comporta LLM-urile pe măsură ce devin și mai mari și nu există astfel de informații disponibile pentru viitorii chatbot. A existat, totuși, o informație crucială pe care cercetătorii au putut-o accesa.

Din 2021, cercetătorii care studiază performanța LLM-urilor și a altor rețele neuronale au văzut că a apărut o trăsătură universală. Ei au observat că, pe măsură ce un model devine mai mare, fie ca dimensiune, fie ca cantitatea de date de antrenament, pierderea lui pe datele de test (diferența dintre răspunsurile prezise și cele corecte pe texte noi, după antrenament) scade într-un mod foarte specific. Aceste observații au fost codificate în ecuații numite legile de scalare neuronală. Așadar, Arora și Goyal și-au proiectat teoria să depindă nu de datele de la orice LLM individual, chatbot sau set de date de instruire și testare, ci de legea universală pe care trebuie să o respecte toate aceste sisteme: pierderea prezisă de legile de scalare.

Poate, au motivat ei, performanța îmbunătățită - așa cum este măsurată de legile de scalare neuronală - a fost legată de abilități îmbunătățite. Și aceste abilități îmbunătățite ar putea fi definite în graficele lor bipartite prin conectarea nodurilor de abilități la nodurile text. Stabilirea acestei legături - între legile de scalare neuronală și graficele bipartite - a fost cheia care le-ar permite să continue.

Creșterea abilităților

Cercetătorii au început prin a presupune că există un grafic bipartit ipotetic care corespunde comportamentului unui LLM asupra datelor de testare. Pentru a explica schimbarea în pierderea LLM a datelor de testare, ei și-au imaginat o modalitate de a folosi graficul pentru a descrie modul în care LLM dobândește abilități.

Luați, de exemplu, abilitatea „înțelege ironia”. Această idee este reprezentată cu un nod de abilități, așa că cercetătorii caută să vadă la ce noduri de text se conectează acest nod de abilități. Dacă aproape toate aceste noduri de text conectate au succes - ceea ce înseamnă că predicțiile LLM asupra textului reprezentat de aceste noduri sunt foarte precise - atunci LLM este competent în această abilitate specială. Dar dacă mai mult de o anumită fracțiune din conexiunile nodului de abilități merg la nodurile de text eșuate, atunci LLM eșuează la această abilitate.

Această conexiune dintre aceste grafice bipartite și LLM-uri a permis lui Arora și Goyal să folosească instrumentele teoriei graficelor aleatoare pentru a analiza comportamentul LLM prin proxy. Studierea acestor grafice a relevat anumite relații între noduri. Aceste relații, la rândul lor, s-au tradus într-un mod logic și testabil de a explica modul în care modelele mari au dobândit abilitățile necesare pentru a-și atinge abilitățile neașteptate.

Arora și Goyal au explicat mai întâi un comportament cheie: de ce mai marii LLM devin mai pricepuți decât omologii lor mai mici în ceea ce privește abilitățile individuale. Au început cu pierderea mai mică de test prezisă de legile de scalare neuronală. Într-un grafic, această pierdere de test mai mică este reprezentată de o scădere a fracției de noduri de test eșuate. Deci, în general, există mai puține noduri de testare eșuate. Și dacă există mai puține noduri de testare eșuate, atunci există mai puține conexiuni între nodurile de testare eșuate și nodurile de abilități. Prin urmare, un număr mai mare de noduri de abilități sunt conectate la noduri de testare de succes, ceea ce sugerează o competență în creștere în abilități pentru model. „O reducere foarte ușoară a pierderilor dă naștere mașinii la dobândirea competenței acestor abilități”, a spus Goyal.

Apoi, perechea a găsit o modalitate de a explica abilitățile neașteptate ale unui model mai mare. Pe măsură ce dimensiunea unui LLM crește și pierderea de testare scade, combinațiile aleatorii de noduri de abilități dezvoltă conexiuni la noduri de text individuale. Acest lucru sugerează că LLM devine, de asemenea, mai bun în utilizarea mai multor abilități simultan și începe să genereze text folosind mai multe abilități - combinând, de exemplu, capacitatea de a folosi ironia cu înțelegerea cuvântului „pentru că” - chiar dacă acele combinații exacte de abilitățile nu au fost prezente în niciun text din datele de antrenament.

Imaginați-vă, de exemplu, un LLM care ar putea folosi deja o abilitate pentru a genera text. Dacă măriți numărul de parametri sau date de antrenament ale LLM cu un ordin de mărime, acesta va deveni la fel de competent în generarea de text care necesită două abilități. Creșteți un alt ordin de mărime, iar LLM poate îndeplini acum sarcini care necesită patru abilități simultan, din nou cu același nivel de competență. LLM-urile mai mari au mai multe moduri de a pune cap la cap abilitățile, ceea ce duce la o explozie combinatorie de abilități.

Și pe măsură ce un LLM este extins, posibilitatea ca acesta să întâlnească toate aceste combinații de abilități în datele de formare devine din ce în ce mai puțin probabilă. Conform regulilor teoriei grafurilor aleatoare, fiecare combinație rezultă dintr-o eșantionare aleatorie a abilităților posibile. Deci, dacă există aproximativ 1,000 de noduri de abilități individuale subiacente în grafic și doriți să combinați patru abilități, atunci există aproximativ 1,000 până la a patra putere - adică 1 trilion - modalități posibile de a le combina.

Arora și Goyal văd asta ca o dovadă că cei mai mari LLM nu se bazează doar pe combinații de abilități pe care le-au văzut în datele lor de formare. Bubeck este de acord. „Dacă un LLM este într-adevăr capabil să îndeplinească acele sarcini combinând patru din acele mii de abilități, atunci trebuie să facă generalizare”, a spus el. Adică, foarte probabil nu este un papagal stocastic.

Adevărata creativitate?

Dar Arora și Goyal au vrut să meargă dincolo de teorie și să-și testeze afirmația conform căreia LLM-urile devin mai bune în combinarea mai multor abilități și, astfel, în generalizare, pe măsură ce dimensiunea și datele lor de formare cresc. Împreună cu alți colegi, ei a conceput o metodă numit „skill-mix” pentru a evalua capacitatea unui LLM de a folosi mai multe abilități pentru a genera text.

Pentru a testa un LLM, echipa i-a cerut să genereze trei propoziții pe un subiect ales aleatoriu care ilustrează unele abilități alese aleatoriu. De exemplu, au cerut GPT-4 (LLM-ul care alimentează cea mai puternică versiune a ChatGPT) să scrie despre duel - lupte cu sabia, practic. Mai mult, ei i-au cerut să arate abilități în patru domenii: prejudecată, metaforă, silogism statistic și fizica cunoștințelor comune.. GPT-4 a răspuns cu: „Victoria mea în acest dans cu oțel [metaforă] este la fel de sigură ca și căderea unui obiect la pământ [fizica]. Ca duelist renumit, sunt în mod inerent agil, la fel ca majoritatea celorlalți [silogism statistic] ai reputației mele. Înfrângere? Este posibil doar datorită unui câmp de luptă inegal, nu datorită inadecvării mele [prejudecățile de autoservire].” Când i s-a cerut să verifice rezultatul, GPT-4 a redus-o la trei propoziții.

Introducere

„Nu este Hemingway sau Shakespeare”, a spus Arora, dar echipa este încrezătoare că își dovedește punctul de vedere: modelul poate genera text pe care nu l-ar fi putut vedea în datele de antrenament, afișând abilități care se adaugă la ceea ce unii ar argumenta. este înțelegere. GPT-4 trece chiar și teste de amestec de abilități care necesită șase abilități aproximativ 10% până la 15% din timp, a spus el, producând fragmente de text care sunt imposibil din punct de vedere statistic să fi existat în datele de antrenament.

Echipa a automatizat, de asemenea, procesul, făcând ca GPT-4 să-și evalueze propria rezultate, împreună cu cea a altor LLM. Arora a spus că este corect ca modelul să se evalueze singur, deoarece nu are memorie, așa că nu își amintește că i s-a cerut să genereze textul pe care i se cere să îl evalueze. Yasaman Bahri, un cercetător la Google DeepMind care lucrează pe bazele AI, consideră că abordarea automată este „foarte simplă și elegantă”.

În ceea ce privește teoria, este adevărat că face câteva presupuneri, a spus Bubeck, dar „aceste presupuneri nu sunt nebunești în niciun caz”. De asemenea, a fost impresionat de experimente. „Ceea ce [echipa] demonstrează teoretic și, de asemenea, confirmă empiric, este că există o generalizare compozițională, ceea ce înseamnă că [LLM] sunt capabili să pună cap la cap blocuri care nu au fost niciodată puse cap la cap”, a spus el. „Aceasta este, pentru mine, esența creativității.”

Arora adaugă că lucrarea nu spune nimic despre acuratețea a ceea ce scriu LLM-urile. „De fapt, pledează pentru originalitate”, a spus el. „Aceste lucruri nu au existat niciodată în corpus de instruire din lume. Nimeni nu a scris asta vreodată. Trebuie să halucineze.”

Cu toate acestea, Hinton crede că munca pune la capăt întrebarea dacă LLM-urile sunt papagali stocastici. „Este cea mai riguroasă metodă pe care am văzut-o pentru a demonstra că GPT-4 este mult mai mult decât un simplu papagal stocastic”, a spus el. „Ei demonstrează în mod convingător că GPT-4 poate genera text care combină abilități și subiecte în moduri care aproape sigur nu au apărut în datele de antrenament.” (Am luat legătura cu Bender pentru perspectiva ei asupra noii lucrări, dar ea a refuzat să comenteze, invocând lipsa de timp.)

Și într-adevăr, după cum prezice matematica, performanța lui GPT-4 o depășește cu mult pe cea a predecesorului său mai mic, GPT-3.5 - într-o măsură care a speriat-o pe Arora. „Probabil că nu sunt doar eu”, a spus el. „Mulți oameni li s-a părut puțin ciudat cât de mult GPT-4 a fost mai bun decât GPT-3.5 și asta s-a întâmplat într-un an. Asta înseamnă că într-un an vom avea o schimbare similară de această amploare? Nu știu. Numai OpenAI știe.”

Timestamp-ul:

Mai mult de la Quantamagazina