Nova teorija nakazuje, da lahko klepetalniki razumejo besedilo | Revija Quanta

Nova teorija nakazuje, da lahko klepetalniki razumejo besedilo | Revija Quanta

New Theory Suggests Chatbots Can Understand Text | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Predstavitev

Zdi se, da je umetna inteligenca močnejša kot kdaj koli prej, s klepetalnimi roboti, kot sta Bard in ChatGPT, ki lahko ustvarijo nenavadno človeško besedilo. Toda kljub vsem svojim talentom se ti roboti še vedno sprašujejo raziskovalce: naredite takšne modele pravzaprav razumeti kaj pravijo? »Jasno je, da nekateri ljudje verjamejo, da imajo,« je dejal pionir umetne inteligence Geoff Hinton v nedavni pogovor z Andrewom Ngom, "in nekateri ljudje verjamejo, da so samo stohastične papige."

Ta evokativni stavek prihaja iz leta 2021 papirja soavtor Emily Bender, računalniški jezikoslovec na Univerzi v Washingtonu. Predlaga, da veliki jezikovni modeli (LLM) - ki tvorijo osnovo sodobnih chatbotov - ustvarjajo besedilo samo s kombiniranjem informacij, ki so jih že videli "brez kakršnega koli sklicevanja na pomen", so zapisali avtorji, zaradi česar je LLM "stohastični papiga."

Ti modeli poganjajo številne današnje največje in najboljše klepetalne robote, zato je Hinton trdil, da je čas, da se določi obseg tega, kar razumejo. Vprašanje je zanj več kot akademsko. "Dokler imamo te razlike" v mnenjih, je dejal Ng, "ne bomo mogli doseči soglasja o nevarnostih."

Nove raziskave morda dajejo namige o odgovoru. Teorija, ki jo je razvil Sanjeev Arora univerze Princeton in Anirudh Goyal, raziskovalec pri Google DeepMind, nakazuje, da največji od današnjih LLM niso stohastične papige. Avtorji trdijo, da ko ti modeli postajajo večji in se usposabljajo na več podatkih, izboljšujejo posamezne sposobnosti, povezane z jezikom, in tudi razvijajo nove s kombiniranjem veščin na način, ki namiguje na razumevanje - kombinacije, za katere ni verjetno, da bi obstajale v podatkih o usposabljanju .

Ta teoretični pristop, ki zagotavlja matematično dokazljive argumente za to, kako in zakaj lahko LLM razvije toliko sposobnosti, je prepričal strokovnjake, kot so Hinton in drugi. In ko sta Arora in njegova ekipa preizkusila nekaj njegovih napovedi, sta ugotovila, da so se ti modeli obnašali skoraj točno tako, kot je bilo pričakovano. Iz vseh poročil so močno dokazali, da največji LLM ne posnemajo le tega, kar so že videli.

»[Ne] morejo samo posnemati tega, kar je bilo videno v podatkih o usposabljanju,« je dejal Sébastien Bubeck, matematik in računalničar pri Microsoft Research, ki ni bil del dela. "To je osnovni vpogled."

Več podatkov, več moči

Nastanek nepričakovane in raznolike sposobnosti v LLM-ju, pošteno je reči, je prišlo kot presenečenje. Te sposobnosti niso očitna posledica načina, kako so sistemi zgrajeni in usposobljeni. LLM je masivna umetna nevronska mreža, ki povezuje posamezne umetne nevrone. Te povezave so znane kot parametri modela, njihovo število pa označuje velikost LLM. Usposabljanje vključuje LLM stavek z zakrito zadnjo besedo, na primer "Gorivo stane roko in ___." LLM napove porazdelitev verjetnosti po celotnem besedišču, tako da če pozna, recimo, tisoč besed, napove tisoč verjetnosti. Nato izbere najverjetnejšo besedo za dokončanje stavka - verjetno "noga".

LLM lahko na začetku slabo izbere besede. Algoritem za usposabljanje nato izračuna izgubo – razdaljo v nekem visokodimenzionalnem matematičnem prostoru med odgovorom LLM in dejansko besedo v prvotnem stavku – in to izgubo uporabi za prilagoditev parametrov. Zdaj, glede na isti stavek, bo LLM izračunal boljšo porazdelitev verjetnosti in njegova izguba bo nekoliko nižja. Algoritem to naredi za vsak stavek v podatkih o usposabljanju (po možnosti milijarde stavkov), dokler skupna izguba LLM ne pade na sprejemljivo raven. Podoben postopek se uporablja za testiranje LLM na stavkih, ki niso bili del podatkov o usposabljanju.

Usposobljen in preizkušen LLM bo, ko mu bo predstavljen nov besedilni poziv, ustvaril najverjetnejšo naslednjo besedo, jo dodal pozivu, ustvaril drugo naslednjo besedo in nadaljeval na ta način ter ustvaril na videz skladen odgovor. Nič v procesu usposabljanja ne kaže na to, da bi se morali večji LLM-ji, zgrajeni z uporabo več parametrov in podatkov o usposabljanju, izboljšati tudi pri nalogah, ki zahtevajo sklepanje za odgovor.

Ampak to počnejo. Dovolj veliki magistri znanja izkazujejo sposobnosti – od reševanja osnovnih matematičnih problemov do odgovorov na vprašanja o dogajanju v glavah drugih – ki jih manjši modeli nimajo, čeprav so vsi usposobljeni na podoben način.

"Od kod se je ta [sposobnost] pojavila?" se je spraševala Arora. "In ali se to lahko pojavi samo iz napovedi naslednje besede?"

Povezovanje spretnosti z besedilom

Arora se je povezala z Goyalom, da bi analitično odgovorila na taka vprašanja. "Poskušali smo pripraviti teoretični okvir, da bi razumeli, kako se pojavi nastanek, " je dejal Arora.

Dvojec se je obrnil k matematičnim objektom, imenovanim naključni grafi. Graf je zbirka točk (ali vozlišč), povezanih s črtami (ali robovi), in v naključnem grafu prisotnost roba med katerima koli dvema vozliščema narekuje naključno - recimo z metom kovanca. Kovanec je lahko pristranski, tako da z nekaj verjetnosti pride na glavo p. Če kovanec pride navzgor za dani par vozlišč, se med tema dvema vozliščema oblikuje rob; sicer ostanejo nepovezani. Kot vrednost p spremembe, lahko grafi prikazujejo nenadne prehode njihovih lastnosti. Na primer, kdaj p preseže določen prag, izolirana vozlišča – tista, ki niso povezana z nobenim drugim vozliščem – nenadoma izginejo.

Arora in Goyal sta spoznala, da bi lahko bili naključni grafi, ki povzročijo nepričakovano vedenje, potem ko dosežejo določene pragove, način za modeliranje vedenja LLM. Nevronske mreže so postale skoraj preveč zapletene za analizo, vendar matematiki že dolgo preučujejo naključne grafe in so razvili različna orodja za njihovo analizo. Morda bi lahko teorija naključnih grafov raziskovalcem omogočila razumevanje in predvidevanje očitno nepričakovanega vedenja velikih LLM.

Raziskovalci so se odločili, da se osredotočijo na "bipartitne" grafe, ki vsebujejo dve vrsti vozlišč. V njihovem modelu ena vrsta vozlišča predstavlja dele besedila - ne posamezne besede, ampak dele, ki so lahko dolgi odstavek do nekaj strani. Ta vozlišča so razporejena v ravni črti. Pod njimi, v drugi vrstici, je drugi niz vozlišč. Ti predstavljajo veščine, potrebne za razumevanje danega dela besedila. Vsaka veščina je lahko skoraj karkoli. Morda eno vozlišče predstavlja LLM-jevo sposobnost razumevanja besede »ker«, ki vključuje neko predstavo o vzročnosti; drugo bi lahko predstavljalo sposobnost deljenja dveh števil; spet drugi bi lahko predstavljal sposobnost zaznavanja ironije. "Če razumete, da je del besedila ironičen, se veliko stvari obrne," je dejala Arora. "To je pomembno za napovedovanje besed."

Da bo jasno, LLM se ne usposablja ali preizkuša z upoštevanjem veščin; izdelani so le za izboljšanje predvidevanja naslednje besede. Toda Arora in Goyal sta želela razumeti LLM z vidika veščin, ki so morda potrebne za razumevanje posameznega besedila. Povezava med vozliščem spretnosti in besedilnim vozliščem ali med več vozlišči spretnosti in besedilnim vozliščem pomeni, da LLM potrebuje te veščine za razumevanje besedila v tem vozlišču. Poleg tega lahko več delov besedila izhaja iz iste veščine ali niza veščin; na primer niz vozlišč spretnosti, ki predstavljajo sposobnost razumevanja ironije, bi se povezal s številnimi vozlišči besedila, kjer se pojavi ironija.

Zdaj je bil izziv povezati te bipartitne grafe z dejanskimi LLM-ji in ugotoviti, ali bi lahko grafi razkrili kaj o pojavu močnih sposobnosti. Toda raziskovalci se niso mogli zanašati na nobene informacije o usposabljanju ali testiranju dejanskih LLM - podjetja, kot sta OpenAI ali DeepMind, ne objavljajo svojih podatkov o usposabljanju ali testiranju. Poleg tega sta Arora in Goyal želela predvideti, kako se bodo LLM-ji obnašali, ko bodo še večji, in za prihodnje klepetalne robote ni na voljo takšnih informacij. Vendar je obstajal en ključen podatek, do katerega so raziskovalci lahko dostopali.

Od leta 2021 so raziskovalci, ki preučujejo delovanje LLM-jev in drugih nevronskih mrež, opazili pojav univerzalne lastnosti. Opazili so, da ko se model poveča, ne glede na velikost ali količino podatkov za usposabljanje, se njegova izguba na testnih podatkih (razlika med predvidenimi in pravilnimi odgovori na novih besedilih po usposabljanju) zmanjša na zelo specifičen način. Ta opažanja so bila kodificirana v enačbe, imenovane zakoni nevronskega skaliranja. Arora in Goyal sta torej svoji teoriji zasnovala tako, da nista odvisna od podatkov katerega koli posameznega LLM-ja, klepetalnega robota ali nabora podatkov o usposabljanju in testiranju, temveč od univerzalnega zakona, ki naj bi ga ti sistemi upoštevali: izgube, ki jo napovedujejo zakoni skaliranja.

Morda, so razmišljali, je bila izboljšana uspešnost - merjena z zakoni nevronskega skaliranja - povezana z izboljšanimi veščinami. In te izboljšane spretnosti je mogoče definirati v njihovih bipartitnih grafih s povezavo vozlišč spretnosti z vozlišči besedila. Vzpostavitev te povezave – med zakoni nevronskega skaliranja in bipartitnimi grafi – je bila ključna, ki jim je omogočila nadaljevanje.

Povečanje veščin

Raziskovalci so začeli s predpostavko, da obstaja hipotetični bipartitni graf, ki ustreza vedenju LLM-ja na testnih podatkih. Da bi pojasnili spremembo izgube LLM na testnih podatkih, so si zamislili način, kako uporabiti graf za opis, kako LLM pridobi spretnosti.

Vzemimo, na primer, spretnost "razume ironijo". Ta zamisel je predstavljena z vozliščem spretnosti, zato raziskovalci iščejo, s katerimi besedilnimi vozlišči se povezuje to vozlišče spretnosti. Če so skoraj vsa ta povezana besedilna vozlišča uspešna – kar pomeni, da so LLM-jeve napovedi o besedilu, ki ga predstavljajo ta vozlišča, zelo natančne – potem je LLM kompetenten v tej določeni veščini. Če pa gre več kot določen del povezav vozlišča veščin do neuspelih besedilnih vozlišč, potem LLM ne uspe pri tej veščini.

Ta povezava med temi bipartitnimi grafi in LLM-ji je omogočila Arori in Goyalu, da uporabita orodja teorije naključnih grafov za analizo vedenja LLM-ja s posrednikom. Preučevanje teh grafov je razkrilo določene odnose med vozlišči. Ti odnosi so se nato prevedli v logičen in preizkusljiv način za razlago, kako so veliki modeli pridobili spretnosti, potrebne za doseganje svojih nepričakovanih sposobnosti.

Arora in Goyal sta najprej pojasnila eno ključno vedenje: zakaj večji LLM-ji postanejo bolj usposobljeni kot njihovi manjši kolegi glede posameznih veščin. Začeli so z nižjo testno izgubo, ki so jo predvideli zakoni nevronskega skaliranja. Na grafu je ta nižja izguba testa predstavljena s padcem deleža neuspelih testnih vozlišč. Tako je na splošno manj neuspelih preskusnih vozlišč. In če je manj neuspelih testnih vozlišč, potem je manj povezav med neuspelimi testnimi vozlišči in vozlišči spretnosti. Zato je večje število vozlišč spretnosti povezanih z uspešnimi preskusnimi vozlišči, kar kaže na naraščajočo kompetenco v spretnostih za model. "Zelo rahlo zmanjšanje izgube povzroči, da stroj pridobi kompetenco teh veščin," je dejal Goyal.

Nato je par našel način, kako razložiti nepričakovane sposobnosti večjega modela. Ko se velikost LLM povečuje in se izguba pri testu zmanjšuje, naključne kombinacije vozlišč spretnosti razvijejo povezave s posameznimi besedilnimi vozlišči. To nakazuje, da se LLM prav tako izboljšuje pri uporabi več kot ene veščine hkrati in začne generirati besedilo z uporabo več spretnosti - združuje, recimo, sposobnost uporabe ironije z razumevanjem besede "ker" - četudi so te natančne kombinacije spretnosti niso bile prisotne v nobenem delu besedila v podatkih o usposabljanju.

Predstavljajte si na primer LLM, ki že lahko uporablja eno veščino za ustvarjanje besedila. Če LLM povečate število parametrov ali podatkov o usposabljanju za red velikosti, bo postal podobno kompetenten pri ustvarjanju besedila, ki zahteva dve veščini. Povzpnite se še za en red velikosti in LLM lahko zdaj opravlja naloge, ki zahtevajo štiri veščine hkrati, spet z isto stopnjo usposobljenosti. Večji LLM imajo več načinov za združevanje veščin, kar vodi v kombinatorično eksplozijo sposobnosti.

In ko se LLM povečuje, postaja možnost, da bi v podatkih o usposabljanju naletel na vse te kombinacije veščin, vse manj verjetna. V skladu s pravili teorije naključnih grafov vsaka kombinacija izhaja iz naključnega vzorčenja možnih veščin. Torej, če je v grafu približno 1,000 osnovnih posameznih vozlišč spretnosti in želite združiti štiri veščine, potem obstaja približno 1,000 na četrto potenco – to je 1 bilijon – možnih načinov za njihovo združevanje.

Arora in Goyal vidita to kot dokaz, da se največji LLM ne zanašajo samo na kombinacije veščin, ki so jih videli v svojih podatkih o usposabljanju. Bubeck se strinja. "Če je LLM res sposoben opravljati te naloge s kombiniranjem štirih od teh tisoč veščin, potem mora delati posploševanje," je dejal. To pomeni, da zelo verjetno ni stohastična papiga.

Resnična ustvarjalnost?

Toda Arora in Goyal sta želela iti dlje od teorije in preizkusiti svojo trditev, da se LLM izboljšajo pri kombiniranju več spretnosti in s tem pri posploševanju, ko se njihova velikost in podatki o usposabljanju povečujejo. Skupaj z drugimi sodelavci so zasnoval metodo imenovano »skill-mix«, da oceni sposobnost LLM za uporabo več spretnosti za ustvarjanje besedila.

Da bi testirali LLM, ga je ekipa prosila, naj ustvari tri stavke o naključno izbrani temi, ki ponazarja nekaj naključno izbranih veščin. Na primer, prosili so GPT-4 (LLM, ki poganja najmočnejšo različico ChatGPT), naj piše o dvobojih – v bistvu bojih z meči. Poleg tega so ga prosili, naj pokaže veščine na štirih področjih: sebična pristranskost, metafora, statistični silogizem in splošno znana fizika.. GPT-4 je odgovoril: »Moja zmaga v tem plesu z jeklom [metafora] je tako gotova kot padec predmeta na tla [fizika]. Kot priznani dvobojevalec sem sam po sebi okreten, tako kot večina drugih [statistični silogizem] mojega slovesa. Poraz? Možno samo zaradi neenakega bojnega polja, ne pa zaradi moje neprimernosti [samovredne pristranskosti].« Ko so ga prosili, naj preveri svoj rezultat, ga je GPT-4 zmanjšal na tri stavke.

Predstavitev

»To ni Hemingway ali Shakespeare,« je dejala Arora, vendar je ekipa prepričana, da dokazuje njihovo trditev: model lahko ustvari besedilo, ki ga nikakor ni mogel videti v podatkih o usposabljanju, in prikaže veščine, ki prispevajo k temu, kar nekateri trdijo. je razumevajoča. GPT-4 celo opravi teste mešanice spretnosti, ki zahtevajo šest spretnosti v približno 10 % do 15 % časa, je dejal, pri čemer ustvari dele besedila, za katere je statistično nemogoče, da bi obstajali v podatkih o usposabljanju.

Ekipa je tudi avtomatizirala postopek tako, da je GPT-4 ocenila lastne rezultate, skupaj z rezultati drugih LLM. Arora je dejala, da je pošteno, da model oceni sam sebe, ker nima pomnilnika, zato se ne spomni, da je bil pozvan, naj ustvari prav tisto besedilo, ki naj ga oceni. Yasaman Bahri, raziskovalec pri Google DeepMind, ki dela na temeljih umetne inteligence, meni, da je avtomatiziran pristop "zelo preprost in eleganten."

Kar zadeva teorijo, je res, da daje nekaj predpostavk, je dejal Bubeck, vendar "te predpostavke nikakor niso nore." Navdušili so ga tudi poskusi. "Kar [ekipa] teoretično dokazuje in tudi empirično potrjuje, je, da obstaja posplošitev kompozicije, kar pomeni, da so [LLM] sposobni sestaviti gradnike, ki še nikoli niso bili sestavljeni," je dejal. "To je zame bistvo ustvarjalnosti."

Arora dodaja, da delo ne pove ničesar o točnosti tega, kar pišejo LLM. "Pravzaprav gre za zagovarjanje izvirnosti," je dejal. »Teh stvari še nikoli ni bilo v svetovnem izobraževalnem korpusu. Tega ni še nihče napisal. Mora halucinirati."

Kljub temu Hinton meni, da delo odpravlja vprašanje, ali so LLM-ji stohastični papige. "To je najstrožja metoda, kar sem jih videl, za prikaz, da je GPT-4 veliko več kot zgolj stohastična papiga," je dejal. "Prepričljivo dokazujejo, da lahko GPT-4 ustvari besedilo, ki združuje veščine in teme na načine, ki se skoraj zagotovo niso pojavili v podatkih o usposabljanju." (Pri Benderjevi smo se obrnili na njen pogled na novo delo, vendar je zavrnila komentar, navajajoč pomanjkanje časa.)

In res, kot napoveduje matematika, zmogljivost GPT-4 močno zasenči zmogljivost njegovega manjšega predhodnika GPT-3.5 – do te mere, da je Arora prestrašila. "Verjetno nisem samo jaz," je rekel. »Mnogim se je zdelo malce srhljivo, koliko je GPT-4 boljši od GPT-3.5, in to se je zgodilo v enem letu. Ali to pomeni, da bomo čez eno leto imeli podobno spremembo tega obsega? Nevem. Samo OpenAI ve."

Časovni žig:

Več od Quantamagazine