Ny teori antyder at chatbots kan forstå tekst | Quanta Magazine

Ny teori antyder at chatbots kan forstå tekst | Quanta Magazine

Ny teori antyder at chatbots kan forstå tekst | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Introduksjon

Kunstig intelligens virker kraftigere enn noen gang, med chatbots som Bard og ChatGPT som er i stand til å produsere uhyggelig menneskelignende tekst. Men på tross av alle talentene deres, lar disse robotene fortsatt forskere spørre: Gjør slike modeller faktisk forstår hva de sier? "Det er klart at noen tror de gjør det," sa AI-pioneren Geoff Hinton i en nyere samtale med Andrew Ng, "og noen mennesker tror de bare er stokastiske papegøyer."

Denne stemningsfulle frasen kommer fra en 2021 papir medforfatter av Emily Bender, en datalingvist ved University of Washington. Det antyder at store språkmodeller (LLM) - som danner grunnlaget for moderne chatbots - genererer tekst bare ved å kombinere informasjon de allerede har sett "uten noen referanse til mening," skrev forfatterne, som gjør en LLM til "en stokastisk papegøye."

Disse modellene driver mange av dagens største og beste chatboter, så Hinton hevdet at det er på tide å bestemme omfanget av det de forstår. Spørsmålet, for ham, er mer enn akademisk. "Så lenge vi har disse meningsforskjellene," sa han til Ng, "vil vi ikke være i stand til å komme til enighet om farer."

Ny forskning kan ha antydninger om et svar. En teori utviklet av Sanjeev Arora fra Princeton University og Anirudh Goyal, en forsker ved Google DeepMind, antyder at den største av dagens LLM-er ikke er stokastiske papegøyer. Forfatterne hevder at etter hvert som disse modellene blir større og trent på mer data, forbedrer de individuelle språkrelaterte evner og utvikler også nye ved å kombinere ferdigheter på en måte som antyder forståelse - kombinasjoner som neppe fantes i treningsdataene. .

Denne teoretiske tilnærmingen, som gir et matematisk bevisbart argument for hvordan og hvorfor en LLM kan utvikle så mange evner, har overbevist eksperter som Hinton og andre. Og da Arora og teamet hans testet noen av spådommene deres, fant de ut at disse modellene oppførte seg nesten nøyaktig som forventet. Fra alle kontoer har de gjort en sterk sak om at de største LLM-ene ikke bare etterlyser det de har sett før.

"[De] kan ikke bare etterligne det som har blitt sett i treningsdataene," sa Sébastien Bubeck, en matematiker og informatiker ved Microsoft Research som ikke var en del av arbeidet. "Det er den grunnleggende innsikten."

Mer data, mer kraft

Fremveksten av uventede og mangfoldige evner i LLMs, det er rimelig å si, kom som en overraskelse. Disse evnene er ikke en åpenbar konsekvens av måten systemene bygges og trenes på. En LLM er et massivt kunstig nevralt nettverk, som forbinder individuelle kunstige nevroner. Disse forbindelsene er kjent som modellens parametere, og antallet angir LLMs størrelse. Trening innebærer å gi LLM en setning med det siste ordet skjult, for eksempel "Brennstoff koster en arm og en ___." LLM forutsier en sannsynlighetsfordeling over hele vokabularet, så hvis den vet, si tusen ord, forutsier den tusen sannsynligheter. Den velger deretter det mest sannsynlige ordet for å fullføre setningen - antagelig "bein".

I utgangspunktet kan LLM velge ord dårlig. Treningsalgoritmen beregner deretter et tap - avstanden, i et eller annet høydimensjonalt matematisk rom, mellom LLMs svar og det faktiske ordet i den opprinnelige setningen - og bruker dette tapet til å justere parameterne. Nå, gitt den samme setningen, vil LLM beregne en bedre sannsynlighetsfordeling og tapet vil være litt lavere. Algoritmen gjør dette for hver setning i treningsdataene (muligens milliarder av setninger), inntil LLMs totale tap faller ned til akseptable nivåer. En lignende prosess brukes til å teste LLM på setninger som ikke var en del av treningsdataene.

En trent og testet LLM, når den blir presentert med en ny tekstmelding, vil generere det mest sannsynlige neste ordet, legge det til ledeteksten, generere et nytt neste ord, og fortsette på denne måten, og produsere et tilsynelatende sammenhengende svar. Ingenting i opplæringsprosessen tyder på at større LLM-er, bygget ved hjelp av flere parametere og treningsdata, også bør forbedre seg på oppgaver som krever resonnement for å svare.

Men det gjør de. Store nok LLM-er demonstrerer evner - fra å løse elementære matematikkproblemer til å svare på spørsmål om hva som skjer i andres sinn - som mindre modeller ikke har, selv om de alle er trent på lignende måter.

"Hvor kom den [evnen] fra?" undret Arora. "Og kan det komme fra bare neste ords prediksjon?"

Koble ferdigheter til tekst

Arora slo seg sammen med Goyal for å svare analytisk på slike spørsmål. "Vi prøvde å komme opp med et teoretisk rammeverk for å forstå hvordan fremveksten skjer," sa Arora.

Duoen vendte seg til matematiske objekter kalt tilfeldige grafer. En graf er en samling av punkter (eller noder) forbundet med linjer (eller kanter), og i en tilfeldig graf er tilstedeværelsen av en kant mellom to noder diktert tilfeldig - for eksempel av en myntvending. Mynten kan være partisk, slik at den kommer opp med en viss sannsynlighet p. Hvis mynten kommer opp for et gitt par noder, dannes det en kant mellom disse to nodene; ellers forblir de usammenhengende. Som verdien av p endringer, kan grafene vise plutselige overganger i egenskapene deres. For eksempel, når p overskrider en viss terskel, isolerte noder – de som ikke er koblet til noen annen node – forsvinner brått.

Arora og Goyal innså at tilfeldige grafer, som gir opphav til uventet atferd etter at de har møtt visse terskler, kan være en måte å modellere oppførselen til LLM-er. Nevrale nettverk har blitt nesten for komplekse til å analysere, men matematikere har studert tilfeldige grafer i lang tid og har utviklet ulike verktøy for å analysere dem. Kanskje kan tilfeldig grafteori gi forskere en måte å forstå og forutsi den tilsynelatende uventede oppførselen til store LLM-er.

Forskerne bestemte seg for å fokusere på "todelte" grafer, som inneholder to typer noder. I modellen deres representerer én type node tekstbiter - ikke individuelle ord, men biter som kan være et avsnitt til noen få sider lange. Disse nodene er ordnet i en rett linje. Under dem, i en annen linje, er det andre settet med noder. Disse representerer ferdighetene som trengs for å gi mening i et gitt tekststykke. Hver ferdighet kan være nesten hva som helst. Kanskje en node representerer en LLMs evne til å forstå ordet "fordi", som inkorporerer noen forestilling om kausalitet; en annen kan representere å kunne dele to tall; enda en kan representere evnen til å oppdage ironi. "Hvis du forstår at teksten er ironisk, er det mange ting som snur," sa Arora. "Det er relevant for å forutsi ord."

For å være tydelig, er ikke LLM-er trent eller testet med ferdigheter i tankene; de er kun bygd for å forbedre prediksjonen for neste ord. Men Arora og Goyal ønsket å forstå LLM-er fra perspektivet av ferdighetene som kan kreves for å forstå en enkelt tekst. En forbindelse mellom en ferdighetsnode og en tekstnode, eller mellom flere ferdighetsnoder og en tekstnode, betyr at LLM trenger disse ferdighetene for å forstå teksten i den noden. Dessuten kan flere tekststykker trekke fra samme ferdighet eller sett med ferdigheter; for eksempel vil et sett med ferdighetsnoder som representerer evnen til å forstå ironi koble til de mange tekstnodene der ironi forekommer.

Utfordringen nå var å koble disse todelte grafene til faktiske LLM-er og se om grafene kunne avsløre noe om fremveksten av kraftige evner. Men forskerne kunne ikke stole på informasjon om opplæring eller testing av faktiske LLM-er - selskaper som OpenAI eller DeepMind offentliggjør ikke opplæringen eller testdataene sine. Arora og Goyal ønsket også å forutsi hvordan LLM-er vil oppføre seg når de blir enda større, og det er ingen slik informasjon tilgjengelig for kommende chatbots. Det var imidlertid en viktig informasjon som forskerne kunne få tilgang til.

Siden 2021 har forskere som studerer ytelsen til LLM-er og andre nevrale nettverk sett en universell egenskap dukke opp. De la merke til at etter hvert som en modell blir større, enten i størrelse eller i mengden treningsdata, reduseres tapet på testdata (forskjellen mellom predikerte og riktige svar på nye tekster, etter trening) på en veldig spesifikk måte. Disse observasjonene er blitt kodifisert til ligninger kalt nevrale skaleringslover. Så Arora og Goyal designet teorien sin slik at den ikke er avhengig av data fra noen individuelle LLM, chatbot eller sett med trenings- og testdata, men på den universelle loven som disse systemene alle forventes å adlyde: tapet som er forutsagt av skaleringslover.

Kanskje, resonnerte de, var forbedret ytelse - målt ved nevrale skaleringslovene - relatert til forbedrede ferdigheter. Og disse forbedrede ferdighetene kan defineres i todelte grafer ved å koble ferdighetsnoder til tekstnoder. Å etablere denne koblingen - mellom nevrale skaleringslover og todelte grafer - var nøkkelen som ville tillate dem å fortsette.

Oppskalering av ferdigheter

Forskerne startet med å anta at det eksisterer en hypotetisk todelt graf som tilsvarer en LLMs oppførsel på testdata. For å forklare endringen i LLMs tap på testdata, forestilte de seg en måte å bruke grafen til å beskrive hvordan LLM får ferdigheter.

Ta for eksempel ferdigheten "forstår ironi." Denne ideen er representert med en ferdighetsnod, så forskerne ser for å se hvilke tekstnoder denne ferdighetsnoden kobles til. Hvis nesten alle disse tilkoblede tekstnodene er vellykkede – noe som betyr at LLMs spådommer på teksten representert av disse nodene er svært nøyaktige – så er LLM kompetent i denne spesielle ferdigheten. Men hvis mer enn en viss brøkdel av ferdighetsnodens forbindelser går til mislykkede tekstnoder, så mislykkes LLM med denne ferdigheten.

Denne forbindelsen mellom disse todelte grafene og LLM-ene tillot Arora og Goyal å bruke verktøyene til tilfeldig grafteori for å analysere LLM-atferd ved hjelp av proxy. Å studere disse grafene avslørte visse forhold mellom nodene. Disse relasjonene ble på sin side oversatt til en logisk og testbar måte å forklare hvordan store modeller fikk de nødvendige ferdighetene for å oppnå sine uventede evner.

Arora og Goyal forklarte først én nøkkelatferd: hvorfor større LLM-er blir dyktigere enn sine mindre kolleger på individuelle ferdigheter. De startet med det lavere testtapet som ble forutsagt av nevrale skaleringslovene. I en graf er dette lavere testtapet representert ved et fall i andelen mislykkede testnoder. Så det er færre mislykkede testnoder totalt sett. Og hvis det er færre mislykkede testnoder, så er det færre forbindelser mellom mislykkede testnoder og ferdighetsnoder. Derfor er et større antall ferdighetsnoder koblet til vellykkede testnoder, noe som antyder en økende kompetanse i ferdigheter for modellen. "En veldig liten reduksjon i tap gir opphav til at maskinen tilegner seg kompetanse på disse ferdighetene," sa Goyal.

Deretter fant paret en måte å forklare en større modells uventede evner. Etter hvert som en LLMs størrelse øker og testtapet reduseres, utvikler tilfeldige kombinasjoner av ferdighetsnoder forbindelser til individuelle tekstnoder. Dette antyder at LLM også blir bedre til å bruke mer enn én ferdighet om gangen og begynner å generere tekst ved å bruke flere ferdigheter – og kombinerer for eksempel evnen til å bruke ironi med en forståelse av ordet “fordi” – selv om de nøyaktige kombinasjonene av ferdigheter var ikke til stede i noen tekst i treningsdataene.

Tenk deg for eksempel en LLM som allerede kan bruke én ferdighet til å generere tekst. Hvis du skalerer opp LLMs antall parametere eller treningsdata i en størrelsesorden, vil den bli tilsvarende kompetent til å generere tekst som krever to ferdigheter. Gå opp enda en størrelsesorden, og LLM kan nå utføre oppgaver som krever fire ferdigheter samtidig, igjen med samme kompetansenivå. Større LLM-er har flere måter å sette ferdigheter sammen på, noe som fører til en kombinatorisk eksplosjon av evner.

Og etter hvert som en LLM skaleres opp, blir muligheten for at den støter på alle disse kombinasjonene av ferdigheter i treningsdataene stadig mer usannsynlig. I henhold til reglene for tilfeldig grafteori, oppstår hver kombinasjon fra et tilfeldig utvalg av mulige ferdigheter. Så hvis det er omtrent 1,000 underliggende individuelle ferdighetsnoder i grafen, og du vil kombinere fire ferdigheter, så er det omtrent 1,000 til fjerde potens - det vil si 1 billion - mulige måter å kombinere dem på.

Arora og Goyal ser dette som et bevis på at de største LLM-ene ikke bare stoler på kombinasjoner av ferdigheter de så i treningsdataene sine. Bubeck er enig. "Hvis en LLM virkelig er i stand til å utføre disse oppgavene ved å kombinere fire av de tusen ferdighetene, så må det gjøre generalisering," sa han. Det betyr at det sannsynligvis ikke er en stokastisk papegøye.

Ekte kreativitet?

Men Arora og Goyal ønsket å gå utover teorien og teste påstanden deres om at LLM-er blir bedre til å kombinere flere ferdigheter, og dermed til å generalisere, ettersom størrelsen og treningsdataene øker. Sammen med andre kolleger har de utviklet en metode kalt "skill-mix" for å evaluere en LLMs evne til å bruke flere ferdigheter for å generere tekst.

For å teste en LLM, ba teamet den generere tre setninger om et tilfeldig valgt emne som illustrerte noen tilfeldig valgte ferdigheter. For eksempel ba de GPT-4 (LLM som driver den mektigste versjonen av ChatGPT) om å skrive om duellering - i grunnen sverdkamper. Dessuten ba de det vise ferdigheter på fire områder: selvtjenende skjevhet, metafor, statistisk syllogisme og allmennkunnskapsfysikk. GPT-4 svarte med: «Min seier i denne dansen med stål [metafor] er like sikker som et objekts fall til bakken [fysikk]. Som en kjent duellist er jeg iboende kvikk, akkurat som de fleste andre [statistisk syllogism] av mitt rykte. Nederlag? Kun mulig på grunn av en ujevn slagmark, ikke min utilstrekkelighet [selvtjenende skjevhet]." Da han ble bedt om å sjekke utgangen, reduserte GPT-4 den til tre setninger.

Introduksjon

"Det er ikke Hemingway eller Shakespeare," sa Arora, men teamet er sikre på at det beviser poenget deres: Modellen kan generere tekst som den umulig kunne ha sett i treningsdataene, og viser ferdigheter som stemmer overens med det noen vil hevde er forståelse. GPT-4 består til og med ferdighetsblandingstester som krever seks ferdigheter omtrent 10 % til 15 % av tiden, sa han, og produserer tekststykker som det er statistisk umulig å ha eksistert i treningsdataene.

Teamet automatiserte også prosessen ved å få GPT-4 til å evaluere sin egen produksjon, sammen med andre LLM-er. Arora sa at det er rettferdig for modellen å evaluere seg selv fordi den ikke har minne, så den husker ikke at den ble bedt om å generere selve teksten den blir bedt om å evaluere. Yasaman Bahri, en forsker ved Google DeepMind som jobber med grunnlaget for AI, finner den automatiserte tilnærmingen "veldig enkel og elegant."

Når det gjelder teorien, er det sant at den gir noen få antagelser, sa Bubeck, men "disse antakelsene er på ingen måte gale." Han var også imponert over eksperimentene. "Det [teamet] beviser teoretisk, og også bekrefter empirisk, er at det er komposisjonell generalisering, noe som betyr at [LLMs] er i stand til å sette sammen byggeklosser som aldri har blitt satt sammen," sa han. "Dette er for meg essensen av kreativitet."

Arora legger til at verket ikke sier noe om nøyaktigheten av det LLM-er skriver. "Faktisk argumenterer det for originalitet," sa han. «Disse tingene har aldri eksistert i verdens treningskorpus. Ingen har noen gang skrevet dette. Det må hallusinere."

Likevel mener Hinton at arbeidet ligger til å hvile spørsmålet om LLM-er er stokastiske papegøyer. "Det er den mest strenge metoden jeg har sett for å vise at GPT-4 er mye mer enn bare en stokastisk papegøye," sa han. "De demonstrerer overbevisende at GPT-4 kan generere tekst som kombinerer ferdigheter og emner på måter som nesten helt sikkert ikke fant sted i treningsdataene." (Vi tok kontakt med Bender for hennes perspektiv på det nye verket, men hun nektet å kommentere, med henvisning til mangel på tid.)

Og faktisk, som matematikken forutsier, overgår GPT-4s ytelse langt den til den mindre forgjengeren, GPT-3.5 – i en grad som skremte Arora. "Det er nok ikke bare meg," sa han. "Mange syntes det var litt skummelt hvor mye GPT-4 var bedre enn GPT-3.5, og det skjedde i løpet av et år. Betyr det at vi om et år vil ha en lignende endring i den størrelsesorden? Jeg vet ikke. Bare OpenAI vet."

Tidstempel:

Mer fra Quantamagazin