Hvor hurtigt lærer store sprogmodeller uventede færdigheder? | Quanta Magasinet

Hvor hurtigt lærer store sprogmodeller uventede færdigheder? | Quanta Magasinet

How Quickly Do Large Language Models Learn Unexpected Skills? | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Introduktion

For to år siden, i et projekt kaldet Beyond the Imitation Game benchmark, eller BIG-bench, kompilerede 450 forskere en liste med 204 opgaver designet til at teste mulighederne for store sprogmodeller, som driver chatbots som ChatGPT. På de fleste opgaver forbedredes ydeevnen forudsigeligt og jævnt, efterhånden som modellerne blev skaleret op - jo større modellen var, jo bedre blev den. Men med andre opgaver var springet i evner ikke jævnt. Præstationen forblev tæt på nul i et stykke tid, så sprang præstationen. Andre undersøgelser fandt lignende spring i evner.

Forfatterne beskrev dette som "banebrydende" adfærd; andre forskere har sammenlignet det med en faseovergang i fysikken, som når flydende vand fryser til is. I et papir offentliggjort i august 2022, bemærkede forskere, at denne adfærd ikke kun er overraskende, men uforudsigelig, og at de bør informere de udviklende samtaler omkring AI-sikkerhed, potentiale og risiko. De kaldte evnerne "dukke,” et ord, der beskriver kollektiv adfærd, der kun dukker op, når et system når et højt kompleksitetsniveau.

Men tingene er måske ikke så enkle. Et nyt papir af en trio af forskere ved Stanford University hævder, at den pludselige fremkomst af disse evner blot er en konsekvens af den måde, forskere måler LLM's præstation på. Evnerne, hævder de, er hverken uforudsigelige eller pludselige. "Overgangen er meget mere forudsigelig, end folk giver den æren for," sagde Sanmi Koyejo, en datalog ved Stanford og avisens seniorforfatter. "Stærke påstande om fremkomst har lige så meget at gøre med den måde, vi vælger at måle på, som de gør med, hvad modellerne laver."

Vi ser og studerer først nu denne adfærd på grund af hvor store disse modeller er blevet. Store sprogmodeller træner ved at analysere enorme datasæt af tekst — ord fra onlinekilder, herunder bøger, websøgninger og Wikipedia — og finde links mellem ord, der ofte optræder sammen. Størrelsen måles i forhold til parametre, nogenlunde analogt med alle de måder, ord kan forbindes på. Jo flere parametre, jo flere forbindelser kan en LLM finde. GPT-2 havde 1.5 milliarder parametre, mens GPT-3.5, LLM, der driver ChatGPT, bruger 350 milliarder. GPT-4, der debuterede i marts 2023 og nu ligger til grund for Microsoft Copilot, bruger angiveligt 1.75 billioner.

Den hurtige vækst har bragt en forbløffende stigning i ydeevne og effektivitet, og ingen bestrider, at store nok LLM'er kan udføre opgaver, som mindre modeller ikke kan, inklusive dem, de ikke er uddannet til. Trioen hos Stanford, der fremstår som et "mirage", erkender, at LLM'er bliver mere effektive, når de skalerer op; faktisk, den ekstra kompleksitet af større modeller skulle gøre det muligt at blive bedre til sværere og forskelligartede problemer. Men de hævder, at uanset om denne forbedring ser jævn og forudsigelig ud eller ujævne og skarpe resultater fra valget af metrisk - eller endda en mangel på testeksempler - snarere end modellens indre funktioner.

Trecifret tilføjelse er et eksempel. I 2022 BIG-bench-undersøgelsen rapporterede forskere, at med færre parametre lykkedes det ikke for både GPT-3 og en anden LLM ved navn LAMDA at fuldføre tilføjelsesproblemer nøjagtigt. Men da GPT-3 trænede ved hjælp af 13 milliarder parametre, ændrede dens evne sig, som med et tryk på en kontakt. Pludselig kunne det tilføje - og LAMDA kunne også med 68 milliarder parametre. Dette tyder på, at evnen til at tilføje opstår ved en vis tærskel.

Men Stanford-forskerne påpeger, at LLM'erne kun blev bedømt på nøjagtighed: Enten kunne de gøre det perfekt, eller også kunne de ikke. Så selvom en LLM forudsagde de fleste af cifrene korrekt, mislykkedes det. Det virkede ikke rigtigt. Hvis du beregner 100 plus 278, så virker 376 som et meget mere præcist svar end f.eks. -9.34.

Så i stedet testede Koyejo og hans samarbejdspartnere den samme opgave ved hjælp af en metrik, der tildeler delvis kredit. "Vi kan spørge: Hvor godt forudsiger det det første ciffer? Så den anden? Så den tredje?” han sagde.

Koyejo krediterer ideen til det nye arbejde til sin kandidatstuderende Rylan Schaeffer, som han sagde bemærkede, at en LLMs præstation ser ud til at ændre sig i takt med, hvordan dens evner måles. Sammen med Brando Miranda, en anden Stanford kandidatstuderende, valgte de nye målinger, der viser, at efterhånden som parametrene steg, forudsagde LLM'erne en stadig mere korrekt rækkefølge af cifre ud over problemer. Dette tyder på, at evnen til at tilføje ikke er fremkommet - hvilket betyder, at den gennemgår et pludseligt, uforudsigeligt spring - men gradvist og forudsigeligt. De opdager, at fremkomsten forsvinder med en anden målestok.

Introduktion

Men andre videnskabsmænd påpeger, at arbejdet ikke helt fjerner ideen om fremkomst. For eksempel forklarer trioens papir ikke, hvordan man forudsiger, hvornår målinger, eller hvilke, vil vise en brat forbedring i en LLM, sagde Tianshi Li, en datalog ved Northeastern University. "Så i den forstand er disse evner stadig uforudsigelige," sagde hun. Andre, såsom Jason Wei, en datalog nu ved OpenAI, som har udarbejdet en liste over nye evner og var forfatter på BIG-bench-avisen, har argumenteret at de tidligere rapporter om emergens var sunde, fordi for evner som aritmetik er det rigtige svar virkelig alt, der betyder noget.

"Der er bestemt en interessant samtale at føre her," sagde Alex Tamkin, en forsker ved AI-startup Anthropic. Det nye papir nedbryder behændigt flertrinsopgaver for at genkende bidragene fra individuelle komponenter, sagde han. "Men dette er ikke hele historien. Vi kan ikke sige, at alle disse hop er et fatamorgana. Jeg synes stadig, at litteraturen viser, at selv når du har et-trinsforudsigelser eller bruger kontinuerlige metrikker, har du stadig diskontinuiteter, og når du øger størrelsen på din model, kan du stadig se, at den bliver bedre på en springlignende måde."

Og selvom fremkomsten i nutidens LLM'er kan bortforklares med forskellige måleværktøjer, er det sandsynligt, at det ikke vil være tilfældet for morgendagens større, mere komplicerede LLM'er. "Når vi vokser LLM'er til det næste niveau, vil de uundgåeligt låne viden fra andre opgaver og andre modeller," sagde Xia "Ben" Hu, en datalog ved Rice University.

Denne udviklende overvejelse af emergens er ikke kun et abstrakt spørgsmål for forskere at overveje. For Tamkin taler det direkte til igangværende bestræbelser på at forudsige, hvordan LLM'er vil opføre sig. "Disse teknologier er så brede og så anvendelige," sagde han. "Jeg håber, at samfundet bruger dette som et spring-off point som en fortsat vægt på, hvor vigtigt det er at opbygge en videnskab om forudsigelse for disse ting. Hvordan bliver vi ikke overrasket over den næste generation af modeller?”

Tidsstempel:

Mere fra Quantamagazin