LLaMA Drama As Meta's Mega Language Model Leaks

Ponovno objavil Platon

Spremljevalci: 0

LLaMA drama as Meta's mega language model leaks PlatoBlockchain Data Intelligence. Vertical Search. Ai.

LLaMA, Metin najnovejši velik jezikovni model, je pricurljal na splet in je na voljo za prenos, kljub očitnim poskusom omejitve dostopa samo za raziskovalne namene.

Lastnik Facebooka razglasitve februarja je izdal model v omejenem obsegu za izbrane akademike, vrste vlade in podjetja, s katerimi bi se igrali sredi strahov Klici bi lahko zlorabili. Toda informacije hočejo biti brezplačne ali pa si vsaj nekateri ljudje želijo, da bi bile, in Metina kreacija se je vseeno znašla na spletu, začenši z uhajanjem torrenta.

Veliki jezikovni modeli za predvidevanje stavkov, ki generirajo odlomke besedila iz pozivov za vnos, so se vztrajno razvijali, od samodejnega dokončanja pisanja do klepetalnih robotov, ki lahko izvajajo naloge, ko jih to zahteva, z uporabo naravnega jezika.

Strokovnjaki so opozorili, da bi to tehnologijo lahko uporabili za avtomatizacijo proizvodnje velikih količin lažnih novic, neželene pošte, e-pošte z lažnim predstavljanjem, dezinformacij, podtikanj, če želite, v prihodnjih letih. Organizacije, ki gradijo te modele, programsko opremo pogosto skrivajo, za API-ji ali izdajo omejene različice ali predstavitve.

"Potrebno je opraviti še več raziskav, da bi obravnavali tveganja pristranskosti, strupenih komentarjev in halucinacij v velikih jezikovnih modelih," Meta je dejal prejšnji teden.

»Tako kot drugi modeli, LLaMA deli te izzive. Kot temeljni model je LLaMA zasnovan tako, da je vsestranski in ga je mogoče uporabiti v številnih različnih primerih uporabe, v primerjavi z natančno nastavljenim modelom, ki je zasnovan za specifično nalogo.

»Da bi ohranili celovitost in preprečili zlorabo, izdajamo naš model pod nekomercialno licenco, osredotočeno na primere raziskovalne uporabe. Dostop do modela bo omogočen akademskim raziskovalcem za vsak primer posebej; tisti, ki so povezani z organizacijami v vladi, civilni družbi in akademskih krogih; in industrijski raziskovalni laboratoriji po vsem svetu.«

Kako voditi

Vendar se zdi, da so bila Metina prizadevanja za nadzor dostopa do LLaMA zaman, vsaj tako se zdi. Kmalu po tem, ko je model delil z izbranimi boffini ter tistimi v industriji in civilni družbi, je nekdo na 4Chanu objavil podrobnosti o tem, kako pridobiti celoten model prek izmenjave datotek enakovrednim in sčasoma navodila, kako vse to prenesti so bili objavljeni na GitHubu.

Kot vedno bodite previdni pri pridobivanju takšnih stvari iz hudournikov, če je nekdo tam skril kaj nečednega. Rečeno nam je, da model s 65 milijardami parametrov zavzame približno 220 GB prostora na disku.

Ugotavljamo, da so kopije LLaMA, ki so na voljo prek GitHuba, res zakonite. Shawn Presser, an AI inženir ki je napisal navodila za prenos na Microsoftovem spletnem mestu za skupno rabo kod, nam je pokazal posnetke zaslona, kako uspešno ustvarja besedilo iz modela. Verjame, da je raziskovalec, ki mu je bil omogočen dostop do modela iz Mete, pricurljal, kar je privedlo do njegove morda širše distribucije od pričakovane.

Zaženite motorje teorije zarote.

Presser meni, da je prosto objavljanje modela brez zadržkov boljše kot le omejitev na odobrene akademike. »Mislim, da bo dobro odtehtalo slabo, vsaj desetkrat. Verjetno bližje 100x,« je povedal Register.

Usposabljanje in izvajanje najsodobnejših velikih jezikovnih modelov je na splošno drago; samo organizacije, ki imajo dostop do kupov GPE-jev in druge infrastrukture, jih lahko gradijo, spreminjajo in testirajo. Raziskovalci umetne inteligence pri Meti zgrajena LLaMA, da je manjša, zaradi česar je bolj kompakten od današnjih komercialnih modelov in tako bolj dostopen akademikom in razvijalcem brez nepomembnih IT proračunov.

Metini guruji strojnega učenja so trdili, da je njihov sistem boljši od OpenAI GPT-3 in je tako dober kot drugi veliki jezikovni modeli, kot sta Googlov PaLM s 540 milijardami parametrov ali DeepMindova Chinchilla s 70 milijardami parametrov. Manjša velikost pomeni, da bi morala biti lažja za uporabo za znanstvenike, ki imajo manj računalniških virov. In ja, obstaja množica jezikovnih modelov vseh oblik in velikosti; je več kot le OpenAI in Facebook.

LLaMA še vedno potrebuje na stotine gigabajtov prostora za shranjevanje in dostojno količino računalništva, da jo poganja. Vzpostavitev in delovanje modela prav tako ni enostavna, razen če ste navajeni ravnati s tovrstnimi sistemi, in njegova preureditev za bolj zlobne dejavnosti bo zahtevala tudi dodatno tehnično znanje. Kljub temu, da je model pricurljal, je Meta dejala, da bo še naprej delila LLaMA samo z izbranimi raziskovalci.

Verjamemo, da nam trenutna strategija izdaje omogoča ravnotežje med odgovornostjo in odprtostjo

»Metin cilj je deliti najsodobnejše modele umetne inteligence s člani raziskovalne skupnosti, da bi nam pomagali oceniti in izboljšati te modele,« je povedal tiskovni predstavnik Register.

»LLaMA smo delili za raziskovalne namene, skladno s tem, kako smo delili prejšnje velike jezikovne modele. Čeprav model ni dostopen vsem in so se nekateri poskušali izogniti postopku odobritve, verjamemo, da nam trenutna strategija izdaje omogoča ravnotežje med odgovornostjo in odprtostjo.«

Z drugimi besedami, skupina Facebook stoji za svojim pristopom k distribuciji svoje tehnologije.

Nedavni poskusi Mete, da bi izdala velike jezikovne modele, niso šli gladko. Lani je bil njegov klepetavi BlenderBot kritizirali za širjenje dezinformacij in antisemitskih pogledov. Galactica, zasnovana za povzetek znanstvenih spoznanj, je bila odstrani tri dni po uvedbi zaradi ustvarjanja lažne in rasistične vsebine. ®