LLaMA-drama, da Metas megasprogmodel lækker

LLaMA-drama, da Metas megasprogmodel lækker

LLaMA-drama, da Metas megasprogsmodel lækker PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

LLaMA, Metas seneste store sprogmodel, er lækket online og er tilgængelig til download på trods af tilsyneladende forsøg på kun at begrænse adgangen til forskningsformål.

Facebook-ejeren annoncerede i februar udgav den modellen på en begrænset måde for at vælge akademikere, regeringstyper og virksomheder at lege med i frygt Opkald kunne misbruges. Men information vil gerne være gratis, eller i det mindste vil visse mennesker have det, og Metas skabelse har alligevel fundet vej online, begyndende med et torrent-læk.

Sætningsforudsigende store sprogmodeller, som genererer tekstpassager fra inputprompts, har støt udviklet sig, fra autofuldførelse af ens skrivning til chatbots, der er i stand til at udføre opgaver, når de bliver bedt om det ved hjælp af naturligt sprog.

Eksperter har advaret om, at denne teknologi kan bruges til at automatisere fremstillingen af ​​store mængder falske nyheder, spam, phishing-e-mails, desinformation, tilskyndelse, you name it, i de kommende år. Organisationer, der bygger disse modeller, holder ofte softwaren skjult, bag API'er eller udgiver begrænsede versioner eller demoer. 

"Der er stadig mere forskning, der skal gøres for at adressere risikoen for bias, giftige kommentarer og hallucinationer i store sprogmodeller," Meta sagde sidste uge.

"Som andre modeller deler LLaMA disse udfordringer. Som en fundamentmodel er LLaMA designet til at være alsidig og kan anvendes til mange forskellige use cases, kontra en finjusteret model, der er designet til en specifik opgave.

"For at bevare integriteten og forhindre misbrug, frigiver vi vores model under en ikke-kommerciel licens, der fokuserer på forskningsbrug. Adgang til modellen vil blive givet fra sag til sag til akademiske forskere; dem, der er tilknyttet organisationer i regeringen, civilsamfundet og den akademiske verden; og industriforskningslaboratorier rundt om i verden."

Vejledning

Men Metas bestræbelser på at kontrollere adgangen til LLaMA ser ud til at have været forgæves, eller sådan ser det ud til. Kort efter at have delt modellen med udvalgte boffins, og dem i industrien og civilsamfundet, postede en person på 4Chan detaljer om, hvordan man får fat i hele modellen via peer-to-peer fildeling, og til sidst instruktioner om hvordan du downloader det hele blev offentliggjort på GitHub.

Som altid skal du være forsigtig, når du henter ting som dette fra torrents, hvis nogen har gemt noget ondskabsfuldt derinde. Modellen med 65 milliarder parametre fylder omkring 220 GB diskplads, får vi at vide.

De kopier af LLaMA, der er tilgængelige via GitHub, ser ud til at være lovlige, bemærker vi. Shawn Presser, en AI ingeniør som skrev downloadinstruktionerne på Microsofts kodedelingsside, viste os skærmbilleder af ham, der med succes genererede tekst fra modellen. Han mener, at en forsker, der fik adgang til modellen fra Meta, lækkede den, hvilket førte til dens måske bredere udbredelse end forventet.

Start dine konspirationsteorimotorer.

Presser mener, at det er bedre at frigive modellen uden forbehold end blot at begrænse den til godkendte akademikere. "Jeg tror, ​​at det gode vil opveje det dårlige, mindst tidoblet. Sandsynligvis tættere på 100x,” fortalte han Registret

Træning og drift af avancerede store sprogmodeller er generelt dyrt; kun organisationer, der har adgang til bunker af GPU'er og anden infrastruktur, er i stand til at bygge, justere og teste dem. AI-forskere hos Meta bygget LLaMA til at være mindre, hvilket gør den mere kompakt end nutidens kommercielle modeller og dermed mere tilgængelig for akademikere og udviklere uden ikke-trivielle it-budgetter. 

Metas maskinlæringsguruer hævdede, at deres system overgik OpenAI's GPT-3 og er lige så god som andre store sprogmodeller, såsom Googles 540 milliarder parametre PaLM eller DeepMinds 70 milliarder parametre Chinchilla. Den mindre størrelse betyder, at det burde være lettere at bruge for forskere, der har færre beregningsressourcer. Og ja, der findes et væld af sprogmodeller derude i alle former og størrelser; det er mere end bare OpenAI og Facebook.

LLaMA kræver stadig hundredvis af gigabyte lagerplads og en anstændig mængde databehandling for at drive den. Det er heller ikke ligetil at få modellen op at køre, medmindre du er vant til at håndtere systemer af denne art, og det vil også kræve yderligere teknisk ekspertise at genbruge den til mere ondskabsfulde aktiviteter. På trods af, at modellen blev lækket, sagde Meta, at den fortsat vil dele LLaMA kun med udvalgte forskere. 

Vi mener, at den nuværende udgivelsesstrategi giver os mulighed for at balancere ansvar og åbenhed

"Det er Metas mål at dele state-of-the-art AI-modeller med medlemmer af forskersamfundet for at hjælpe os med at evaluere og forbedre disse modeller," fortalte en talsmand Registret.

“LLaMA blev delt til forskningsformål, i overensstemmelse med hvordan vi har delt tidligere store sprogmodeller. Selvom modellen ikke er tilgængelig for alle, og nogle har forsøgt at omgå godkendelsesprocessen, mener vi, at den nuværende udgivelsesstrategi giver os mulighed for at balancere ansvar og åbenhed."

Facebook-gruppen står med andre ord ved sin tilgang til at distribuere sin teknologi.

Metas seneste forsøg på at frigive store sprogmodeller er ikke gået glat. Sidste år var dens chatty BlenderBot kritiserede for at sprede misinformation og antisemitiske synspunkter. Galactica, designet til at opsummere videnskabelig viden, var fjernet tre dage efter den blev lanceret for at generere falsk og racistisk indhold. ®

Tidsstempel:

Mere fra Registret