Uus teooria viitab sellele, et vestlusrobotid saavad tekstist aru | Ajakiri Quanta

Uus teooria viitab sellele, et vestlusrobotid saavad tekstist aru | Ajakiri Quanta

Uus teooria viitab sellele, et vestlusrobotid saavad tekstist aru | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Sissejuhatus

Tehisintellekt näib võimsam kui kunagi varem, kuna sellised vestlusrobotid nagu Bard ja ChatGPT suudavad toota uskumatult inimlikku teksti. Kuid hoolimata kõigist oma annetest panevad need robotid teadlasi mõtlema: tehke selliseid mudeleid tegelikult aru saada mida nad räägivad? "On selge, et mõned inimesed usuvad, et nad seda teevad," ütles tehisintellekti pioneer Geoff Hinton aastal hiljutine vestlus Andrew Ngiga "ja mõned inimesed usuvad, et nad on lihtsalt stohhastilised papagoid."

See meeldejääv fraas pärineb 2021. aastast paber kaasautoriks Emily Bender, arvutuslingvist Washingtoni ülikoolis. See viitab sellele, et suured keelemudelid (LLM-id), mis on tänapäevaste vestlusrobotite aluseks, genereerivad teksti ainult juba nähtud teabe kombineerimise teel, "ilma igasuguse viiteta tähendusele", kirjutasid autorid, mis muudab LLM-i "stohhastiliseks papagoiks".

Need mudelid kasutavad paljusid tänapäeva suurimaid ja parimaid vestlusroboteid, nii et Hinton väitis, et on aeg kindlaks teha, kui palju nad mõistavad. Tema jaoks on küsimus rohkem kui akadeemiline. "Niikaua kui meil on need eriarvamused", ütles ta Ngile, "me ei jõua ohtude osas konsensusele."

Uued uuringud võivad anda vastuseid. Teooria, mille töötas välja Sanjeev Arora Princetoni ülikoolist ja Anirudh Goyal, Google DeepMindi teadur, viitab sellele, et suurimad tänapäeva LLM-id ei ole stohhastilised papagoid. Autorid väidavad, et kuna need mudelid muutuvad suuremaks ja neid õpetatakse rohkemate andmete põhjal, parandavad nad individuaalseid keeleoskusi ja arendavad uusi oskusi, kombineerides oskusi viisil, mis vihjab mõistmisele – kombinatsioonid, mida koolitusandmetes tõenäoliselt ei esinenud. .

See teoreetiline lähenemine, mis annab matemaatiliselt tõestatava argumendi selle kohta, kuidas ja miks saab LLM arendada nii palju võimeid, on veennud selliseid eksperte nagu Hinton ja teised. Ja kui Arora ja tema meeskond mõnda selle ennustust testisid, leidsid nad, et need mudelid käitusid peaaegu täpselt ootuspäraselt. Kõigist asjaoludest lähtudes on nad kindlalt väitnud, et suurimad LLM-id ei tee lihtsalt seda, mida nad on varem näinud.

"[Nad] ei saa lihtsalt jäljendada koolitusandmetes nähtut, " ütles Sébastien Bubeck, Microsoft Researchi matemaatik ja arvutiteadlane, kes töös ei osalenud. "See on põhiline arusaam."

Rohkem andmeid, rohkem jõudu

Tekkimine ootamatud ja mitmekesised võimed LLM-ides, olgu öeldud, tuli üllatusena. Need võimed ei ole süsteemide ülesehitamise ja koolitamise ilmsed tagajärjed. LLM on massiivne tehisnärvivõrk, mis ühendab üksikuid tehisneuroneid. Neid ühendusi nimetatakse mudeli parameetriteks ja nende arv näitab LLM-i suurust. Koolitus hõlmab LLM-ile lause andmist, mille viimane sõna on varjatud, näiteks „Kütus maksab käe ja ___”. LLM ennustab tõenäosusjaotust kogu oma sõnavarale, nii et kui ta teab näiteks tuhat sõna, ennustab see tuhat tõenäosust. Seejärel valib see lause lõpetamiseks kõige tõenäolisema sõna - arvatavasti "jalg".

Esialgu võib LLM sõnu halvasti valida. Seejärel arvutab koolitusalgoritm välja kaotuse – kauguse mõnes suuremõõtmelises matemaatilises ruumis LLM-i vastuse ja algses lauses oleva tegeliku sõna vahel – ning kasutab seda kaotust parameetrite muutmiseks. Nüüd, arvestades sama lauset, arvutab LLM parema tõenäosusjaotuse ja selle kadu on veidi väiksem. Algoritm teeb seda treeningandmete iga lause puhul (võimalik, et miljardite lausete puhul), kuni LLM-i üldine kadu langeb vastuvõetava tasemeni. Sarnast protsessi kasutatakse LLM-i testimiseks lausete puhul, mis ei kuulunud koolitusandmete hulka.

Koolitatud ja testitud LLM genereerib uue tekstiviipaga kõige tõenäolisema järgmise sõna, lisab selle viipale, genereerib uue järgmise sõna ja jätkab sel viisil, andes näiliselt ühtse vastuse. Miski koolitusprotsessis ei viita sellele, et suuremad LLM-id, mis on ehitatud rohkemate parameetrite ja koolitusandmete abil, peaksid samuti parandama ülesandeid, millele vastamine nõuab põhjendamist.

Aga nad teevad. Piisavalt suured LLM-id demonstreerivad võimeid – alates elementaarsete matemaatikaülesannete lahendamisest kuni küsimustele vastamiseni teiste peas toimuva kohta –, mida väiksematel mudelitel pole, kuigi neid kõiki koolitatakse sarnasel viisil.

"Kust see [võime] tekkis?" imestas Arora. "Ja kas see võib ilmneda ainult järgmise sõna ennustusest?"

Oskuste ühendamine tekstiga

Arora tegi Goyaliga koostööd, et vastata sellistele küsimustele analüütiliselt. "Püüdsime välja mõelda teoreetilise raamistiku, et mõista, kuidas tekkimine toimub," ütles Arora.

Duo pöördus matemaatiliste objektide poole, mida nimetatakse juhuslikeks graafikuteks. Graaf on punktide (või sõlmede) kogum, mis on ühendatud joonte (või servadega) ja juhuslikus graafikus dikteeritakse suvalise kahe sõlme vahelise serva olemasolu juhuslikult - näiteks mündi viskamisega. Münt võib olla kallutatud, nii et see tõuseb teatud tõenäosusega p. Kui münt kerkib etteantud sõlmepaari jaoks, moodustub nende kahe sõlme vahele serv; vastasel juhul jäävad nad ühendamata. Nagu väärtus p muutuste korral võivad graafikud näidata nende omadustes äkilisi üleminekuid. Näiteks millal p ületab teatud läve, isoleeritud sõlmed – need, mis pole ühegi teise sõlmega ühendatud – kaovad järsult.

Arora ja Goyal mõistsid, et juhuslikud graafikud, mis põhjustavad ootamatut käitumist pärast teatud lävede saavutamist, võivad olla viis LLM-ide käitumise modelleerimiseks. Närvivõrgud on muutunud analüüsimiseks peaaegu liiga keeruliseks, kuid matemaatikud on pikka aega uurinud juhuslikke graafikuid ja on välja töötanud erinevaid tööriistu nende analüüsimiseks. Võib-olla võib juhusliku graafikuteooria anda teadlastele võimaluse mõista ja ennustada suurte LLM-ide ilmselt ootamatut käitumist.

Teadlased otsustasid keskenduda kahepoolsetele graafikutele, mis sisaldavad kahte tüüpi sõlme. Nende mudelis esindab ühte tüüpi sõlm tekstitükke – mitte üksikuid sõnu, vaid tükke, mis võivad olla mõne lehekülje pikkused lõigud. Need sõlmed on paigutatud sirgjooneliselt. Nende all, teisel real, on teine ​​sõlmede komplekt. Need esindavad oskusi, mis on vajalikud antud tekstiosa mõtestamiseks. Iga oskus võib olla peaaegu ükskõik milline. Võib-olla esindab üks sõlm LLM-i võimet mõista sõna "sest", mis sisaldab mõningast põhjuslikkuse mõistet; teine ​​võiks tähistada kahe arvu jagamise võimet; veel üks võib esindada võimet tuvastada irooniat. "Kui mõistate, et tekstiosa on irooniline, lähevad paljud asjad ümber," ütles Arora. "See on sõnade ennustamisel asjakohane."

Et olla selge, LLM-e ei koolitata ega testita oskusi silmas pidades; need on loodud ainult järgmise sõna ennustamise parandamiseks. Kuid Arora ja Goyal tahtsid mõista LLM-e nende oskuste vaatenurgast, mida võib vaja minna ühe teksti mõistmiseks. Seos oskuste sõlme ja tekstisõlme või mitme oskussõlme ja tekstisõlme vahel tähendab, et LLM vajab neid oskusi, et mõista selles sõlmes olevat teksti. Samast oskusest või oskuste komplektist võib lähtuda ka mitu tekstiosa; näiteks oskuste sõlmede komplekt, mis esindab võimet irooniat mõista, ühenduks paljude tekstisõlmedega, kus irooniat esineb.

Nüüd oli väljakutse ühendada need kahepoolsed graafikud tegelike LLM-idega ja vaadata, kas graafikud võiksid paljastada midagi võimsate võimete ilmnemise kohta. Kuid teadlased ei saanud tugineda teabele tegelike LLM-ide koolituse või testimise kohta - sellised ettevõtted nagu OpenAI või DeepMind ei avalda oma koolitus- ega katseandmeid. Samuti soovisid Arora ja Goyal ennustada, kuidas LLM-id käituvad, kui nad veelgi suuremaks muutuvad, ja tulevaste vestlusrobotite kohta pole sellist teavet saadaval. Siiski oli üks oluline teave, millele teadlased said juurde pääseda.

Alates 2021. aastast on LLM-ide ja muude närvivõrkude toimivust uurinud teadlased näinud universaalset tunnust. Nad märkasid, et mudeli kasvades, olgu see siis suuruselt või treeningandmete hulgalt, väheneb selle kadu testiandmetes (uute tekstide ennustatud ja õigete vastuste erinevus pärast treenimist) väga spetsiifiliselt. Need tähelepanekud on kodifitseeritud võrranditesse, mida nimetatakse närvi skaleerimise seadusteks. Seega kujundasid Arora ja Goyal oma teooria nii, et see ei sõltuks üksikisiku LLM-i, vestlusrobotite või koolitus- ja testiandmete kogumi andmetest, vaid universaalsest seadusest, mida need süsteemid peavad järgima: skaleerimisseaduste ennustatud kahju.

Võib-olla on nad arutlenud, et paranenud jõudlus - mõõdetuna närvi skaleerimise seadustega - oli seotud paranenud oskustega. Ja neid täiustatud oskusi saab määratleda nende kahepoolsetes graafikutes, ühendades oskuste sõlmed tekstisõlmedega. Selle seose loomine - närvide skaleerimise seaduste ja kahepoolsete graafikute vahel - oli võti, mis võimaldas neil jätkata.

Oskuste suurendamine

Teadlased alustasid eeldusest, et on olemas hüpoteetiline kahepoolne graafik, mis vastab LLM-i käitumisele katseandmetel. Et selgitada muutusi LLM-i kaotuses testiandmetes, kujutasid nad ette viisi, kuidas kasutada graafikut, et kirjeldada, kuidas LLM omandab oskusi.

Võtke näiteks oskus "mõistab irooniat". See idee on esindatud oskuste sõlmega, seega uurivad teadlased, milliste tekstisõlmedega see oskussõlm ühendub. Kui peaaegu kõik need ühendatud tekstisõlmed on edukad – see tähendab, et LLM-i ennustused nende sõlmede esindatud teksti kohta on väga täpsed –, on LLM selles konkreetses oskuses pädev. Kuid kui rohkem kui teatud osa oskussõlme ühendustest läheb ebaõnnestunud tekstisõlmedesse, siis LLM ebaõnnestub selles oskuses.

See seos nende kahepoolsete graafikute ja LLM-ide vahel võimaldas Aroral ja Goyal kasutada juhusliku graafikuteooria tööriistu, et analüüsida LLM-i käitumist puhverserveri abil. Nende graafikute uurimine näitas teatud seoseid sõlmede vahel. Need suhted on omakorda tõlgitud loogiliseks ja testitavaks viisiks selgitada, kuidas suured mudelid omandasid oma ootamatute võimete saavutamiseks vajalikud oskused.

Arora ja Goyal selgitasid esmalt ühte peamist käitumist: miks saavad suuremad LLM-id individuaalsete oskuste osas kvalifitseeritumaks kui nende väiksemad kolleegid. Nad alustasid väiksema testikaoga, mida ennustasid närvide skaleerimise seadused. Graafikus kujutab seda väiksemat testikadu ebaõnnestunud testsõlmede osakaalu langusena. Seega on ebaõnnestunud testsõlmesid üldiselt vähem. Ja kui ebaõnnestunud testsõlmesid on vähem, on ebaõnnestunud testsõlmede ja oskuste sõlmede vahel vähem ühendusi. Seetõttu on edukate testsõlmedega ühendatud suurem arv oskuste sõlme, mis viitab mudeli oskuste kasvavale pädevusele. "Väga väike kahjumi vähenemine annab aluse sellele, et masin omandab nende oskuste pädevuse," ütles Goyal.

Järgmisena leidis paar võimaluse selgitada suurema mudeli ootamatuid võimeid. Kui LLM-i suurus suureneb ja testikadu väheneb, loovad oskussõlmede juhuslikud kombinatsioonid ühendusi üksikute tekstisõlmedega. See viitab sellele, et LLM kasutab rohkem kui ühte oskust korraga ja hakkab teksti genereerima, kasutades mitut oskust – ühendades näiteks oskuse kasutada irooniat sõna "sest" mõistmisega, isegi kui need täpsed kombinatsioonid oskused ei esinenud üheski koolitusandmete tekstis.

Kujutage ette näiteks LLM-i, mis võiks juba üht oskust teksti genereerimiseks kasutada. Kui suurendate LLM-i parameetrite või koolitusandmete arvu suurusjärgu võrra, muutub see samamoodi pädevaks kahte oskust nõudva teksti genereerimisel. Minge veel üks suurusjärk üles ja LLM saab nüüd täita ülesandeid, mis nõuavad korraga nelja oskust, jällegi sama pädevusega. Suurematel LLM-idel on oskuste koondamiseks rohkem võimalusi, mis viib võimete kombinatoorse plahvatuseni.

Ja kui LLM-i suurendatakse, muutub üha ebatõenäolisemaks võimalus, et ta kohtas kõiki neid oskuste kombinatsioone koolitusandmetes. Juhusliku graafikuteooria reeglite kohaselt tekib iga kombinatsioon võimalike oskuste juhuslikust valimist. Seega, kui graafikul on umbes 1,000 aluseks olevat individuaalset oskuste sõlme ja soovite ühendada neli oskust, siis on nende kombineerimiseks umbes 1,000 kuni neljas aste ehk 1 triljon.

Arora ja Goyal peavad seda tõendiks, et suurimad LLM-id ei tugine ainult oskuste kombinatsioonidele, mida nad oma koolitusandmetes nägid. Bubeck nõustub. "Kui LLM on tõesti võimeline neid ülesandeid täitma, ühendades neli neist tuhandest oskusest, siis peab ta tegema üldistusi," ütles ta. See tähendab, et see pole suure tõenäosusega stohhastiline papagoi.

Tõeline loovus?

Kuid Arora ja Goyal tahtsid minna teooriast kaugemale ja testida oma väidet, et LLM-id saavad paremini oskusi kombineerida ja seega üldistada, kui nende suurus ja koolitusandmed suurenevad. Koos teiste kolleegidega nad kavandanud meetodi nimetatakse oskuste seguks, et hinnata LLM-i võimet kasutada teksti genereerimiseks mitut oskust.

LLM-i testimiseks palus meeskond tal genereerida kolm lauset juhuslikult valitud teemal, mis illustreerisid mõnda juhuslikult valitud oskust. Näiteks palusid nad GPT-4-l (LLM, mis juhib ChatGPT võimsaimat versiooni) kirjutada kahevõitlusest - põhimõtteliselt mõõgavõitlustest. Lisaks palusid nad sellel näidata oskusi neljas valdkonnas: omakasupüüdlik eelarvamus, metafoor, statistiline süllogism ja üldteadmiste füüsika. GPT-4 vastas: „Minu võit selles terasega tantsus [metafoor] on sama kindel kui objekti kukkumine maapinnale [füüsika]. Tunnustatud kahevõitlejana olen ma oma olemuselt krapsakas, nagu enamik teisi minu mainega [statistiline süllogism]. Lüüa saada? Võimalik ainult ebaühtlase lahinguvälja, mitte minu ebaadekvaatsuse [eneseteeninduslik eelarvamus] tõttu. Kui paluti kontrollida selle väljundit, vähendas GPT-4 selle kolme lauseni.

Sissejuhatus

"See pole Hemingway ega Shakespeare," ütles Arora, kuid meeskond on kindel, et see tõestab oma seisukohta: mudel suudab genereerida teksti, mida ta ei oleks võinud treeningandmetes näha, kuvades oskusi, mis annavad kokku mõnede väidete. on mõistev. GPT-4 läbib isegi oskuste segamise teste, mis nõuavad kuut oskust umbes 10–15% ajast, ütles ta, tekitades tekstilõike, mille olemasolu koolitusandmetes statistiliselt võimatu on.

Samuti automatiseeris meeskond protsessi, pannes GPT-4 hindama oma väljundit koos teiste LLM-idega. Arora sõnul on aus, et mudel hindab ennast, kuna tal pole mälu, mistõttu ta ei mäleta, et tal paluti genereerida just see tekst, mida tal palutakse hinnata. Yasaman Bahri, Google DeepMindi teadur, kes töötab AI aluste kallal, leiab, et automatiseeritud lähenemine on "väga lihtne ja elegantne".

Mis puutub teooriasse, siis on tõsi, et see teeb mõned eeldused, ütles Bubeck, kuid "need oletused pole mingil juhul hullud." Talle avaldasid katsed samuti muljet. "Mida [meeskond] tõestab teoreetiliselt ja kinnitab ka empiiriliselt, on kompositsiooniline üldistus, mis tähendab, et [LLM-id] on võimelised kokku panema ehitusplokke, mida pole kunagi kokku pandud," ütles ta. "See on minu jaoks loovuse olemus."

Arora lisab, et teos ei ütle LLM-ide kirjutatu täpsuse kohta midagi. "Tegelikult vaidleb see originaalsuse poolt," ütles ta. «Maailma koolituskorpuses pole neid asju kunagi olnud. Keegi pole seda kunagi kirjutanud. See peab hallutsineerima."

Sellegipoolest arvab Hinton, et töö seisneb küsimuses, kas LLM-id on stohhastilised papagoid. "See on kõige rangem meetod, mida olen näinud, et näidata, et GPT-4 on palju enamat kui lihtsalt stohhastiline papagoi," ütles ta. "Nad näitavad veenvalt, et GPT-4 suudab luua teksti, mis ühendab oskused ja teemad viisil, mida koolitusandmetes peaaegu kindlasti ei esinenud." (Pöördusime Benderi poole, et saada tema vaatenurk uuele teosele, kuid ta keeldus kommenteerimast, viidates ajapuudusele.)

Ja tõepoolest, nagu matemaatika ennustab, ületab GPT-4 jõudlus tunduvalt selle väiksema eelkäija GPT-3.5 jõudlust - määral, mis Arora hirmutas. "Tõenäoliselt pole see ainult minus," ütles ta. "Paljud inimesed pidasid pisut jubedaks, kui palju GPT-4 oli parem kui GPT-3.5, ja see juhtus aasta jooksul. Kas see tähendab, et mõnel teisel aastal on meil samasuguse ulatusega muutus? ma ei tea. Ainult OpenAI teab.

Ajatempel:

Veel alates Kvantamagazin