Drama LLaMA pe măsură ce modelul mega-limbaj al lui Meta se scurge

Drama LLaMA pe măsură ce modelul mega-limbaj al lui Meta se scurge

Drama LLaMA, în timp ce modelul de mega limbaj al lui Meta prezintă informații despre PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

LLaMA, cel mai recent model de limbă mare al Meta, a apărut online și este disponibil pentru descărcare, în ciuda încercărilor aparente de a limita accesul doar în scopuri de cercetare.

Proprietarul Facebook a anunțat în februarie, a lansat modelul într-un mod limitat pentru a selecta cadre universitare, tipuri de guverne și companii cu care să se joace pe fondul temerilor Lamă ar putea fi folosit abuziv. Dar informațiile vor să fie gratuite, sau cel puțin anumiți oameni vor să fie, iar creația lui Meta și-a găsit drumul oricum online, începând cu o scurgere de torrent.

Modelele de limbaj mari de predicție a propozițiilor, care generează pasaje de text din solicitările de introducere, au evoluat constant, de la completarea automată a scrisului la chatbot capabili să îndeplinească sarcini atunci când li se cere să facă acest lucru folosind limbajul natural.

Experții au avertizat că această tehnologie ar putea fi folosită pentru a automatiza producția de cantități mari de știri false, spam, e-mailuri de phishing, dezinformare, incitare, ce vrei să spui, pentru anii următori. Organizațiile care construiesc aceste modele păstrează adesea software-ul sub secret, în spatele API-urilor sau lansează versiuni limitate sau demonstrații. 

„Există încă mai multe cercetări care trebuie făcute pentru a aborda riscurile de părtinire, comentarii toxice și halucinații în modelele mari de limbaj”, Meta. a spus săptămâna trecută.

„Ca și alte modele, LLaMA împărtășește aceste provocări. Ca model de bază, LLaMA este conceput pentru a fi versatil și poate fi aplicat la multe cazuri de utilizare diferite, comparativ cu un model reglat fin care este proiectat pentru o anumită sarcină.

„Pentru a menține integritatea și a preveni utilizarea necorespunzătoare, lansăm modelul nostru sub o licență necomercială axată pe cazuri de utilizare în cercetare. Accesul la model va fi acordat de la caz la caz cercetătorilor academicieni; cei afiliați la organizații din guvern, societatea civilă și mediul academic; și laboratoare de cercetare din industrie din întreaga lume.”

Cum se ghidează

Dar eforturile lui Meta de a controla accesul la LLaMA par să fi fost în zadar, sau așa se pare. La scurt timp după ce a partajat modelul cu boffini selectați și cei din industrie și societatea civilă, cineva de pe 4Chan a postat detalii despre cum să obțineți întregul model prin partajarea de fișiere peer-to-peer și, în cele din urmă, instrucțiuni despre cum să le descarci pe toate au fost publicate pe GitHub.

Ca întotdeauna, fiți atenți când preluați chestii de acest fel din torrente, în cazul în care cineva a ascuns ceva nefast acolo. Modelul cu 65 de miliarde de parametri ocupă aproximativ 220 GB de spațiu pe disc, ni s-a spus.

Copiile LLaMA disponibile prin GitHub par a fi legitime, notăm. Shawn Presser, an Inginer AI care a scris instrucțiunile de descărcare pe site-ul Microsoft de partajare a codului, ne-a arătat capturi de ecran cu el generând cu succes text din model. El crede că un cercetător căruia i s-a dat acces la modelul de la Meta a scurs-o, ceea ce a dus la distribuția lui poate mai largă decât se aștepta.

Porniți motoarele de teorie a conspirației.

Presser consideră că lansarea liberă a modelului, fără avertismente, este mai bine decât să-l limiteze doar la cadrele universitare aprobate. „Cred că binele va depăși răul, de cel puțin zece ori. Probabil mai aproape de 100x”, a spus el Registrul

Instruirea și gestionarea modelelor lingvistice mari de ultimă generație este costisitoare, în general; numai organizațiile care au acces la grămezi de GPU-uri și alte infrastructuri sunt în măsură să le construiască, să le modifice și să le testeze. Cercetătorii AI de la Meta construit LLaMA pentru a fi mai mic, făcându-l mai compact decât modelele comerciale de astăzi și, prin urmare, mai accesibil pentru academicieni și dezvoltatori fără bugete IT nebanale. 

Expertii în învățarea automată de la Meta au susținut că sistemul lor a depășit performanța OpenAI GPT-3 și este la fel de bun ca alte modele mari de limbaj, cum ar fi PaLM de la Google cu 540 de miliarde de parametri sau Chinchilla de 70 de miliarde de parametri de la DeepMind. Dimensiunea mai mică înseamnă că ar trebui să fie mai ușor de utilizat pentru oamenii de știință care au mai puține resurse de calcul. Și da, există o multitudine de modele lingvistice de toate formele și dimensiunile; este mai mult decât OpenAI și Facebook.

LLaMA necesită încă sute de gigaocteți de stocare și o cantitate decentă de calcul pentru a-l conduce. Punerea în funcțiune a modelului nu este, de asemenea, simplă, cu excepția cazului în care sunteți obișnuit cu gestionarea sistemelor de acest tip, iar reutilizarea lui pentru activități mai nefaste va necesita, de asemenea, expertiză tehnică suplimentară. În ciuda faptului că modelul a fost divulgat, Meta a spus că va continua să împărtășească LLaMA doar cu cercetători selectați. 

Credem că strategia actuală de lansare ne permite să echilibrăm responsabilitatea și deschiderea

„Obiectivul Meta este de a împărtăși modele de IA de ultimă generație cu membrii comunității de cercetare pentru a ne ajuta să evaluăm și să îmbunătățim aceste modele”, a spus un purtător de cuvânt. Registrul.

„LLaMA a fost distribuit în scopuri de cercetare, în concordanță cu modul în care am împărtășit modelele lingvistice mari anterioare. Deși modelul nu este accesibil tuturor și unii au încercat să ocolească procesul de aprobare, credem că strategia actuală de lansare ne permite să echilibrăm responsabilitatea și deschiderea.”

Cu alte cuvinte, grupul Facebook își susține abordarea de a-și distribui tehnologia.

Încercările recente ale Meta de a lansa modele mari de limbaj nu au mers fără probleme. Anul trecut, BlenderBot-ul său vorbăreț a fost criticat pentru răspândirea dezinformării și a opiniilor antisemite. Galactica, concepută pentru a rezuma cunoștințele științifice, a fost îndepărtat la trei zile după ce a fost lansat pentru generarea de conținut fals și rasist. ®

Timestamp-ul:

Mai mult de la Registrul