LLaMA-drama när Metas megaspråkmodell läcker

LLaMA-drama när Metas megaspråkmodell läcker

LLaMA-drama när Metas megaspråkmodell läcker PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

LLaMA, Metas senaste stora språkmodell, har läckt online och är tillgänglig för nedladdning, trots uppenbara försök att begränsa åtkomsten endast för forskningsändamål.

Facebookägaren meddelade i februari släppte den modellen på ett begränsat sätt för att välja akademiker, regeringstyper och företag att leka med i rädsla Lama kan missbrukas. Men information vill vara gratis, eller åtminstone vissa människor vill att det ska vara det, och Metas skapelse har hittat sin väg online i alla fall, med början med en torrentläcka.

Meningsförutsägande stora språkmodeller, som genererar textavsnitt från inmatningsuppmaningar, har stadigt utvecklats, från att autokomplettera ens skrift till chatbots som kan utföra uppgifter när de uppmanas att göra det med naturligt språk.

Experter har varnat för att denna teknik skulle kunna användas för att automatisera tillverkningen av stora mängder falska nyheter, skräppost, nätfiske, desinformation, hets, you name it, i många år framöver. Organisationer som bygger dessa modeller håller ofta mjukvaran hemlig, bakom API:er eller släpper begränsade versioner eller demos. 

"Det finns fortfarande mer forskning som behöver göras för att ta itu med riskerna för partiskhet, giftiga kommentarer och hallucinationer i stora språkmodeller," Meta sade förra veckan.

"Precis som andra modeller delar LLaMA dessa utmaningar. Som en grundmodell är LLaMA designad för att vara mångsidig och kan appliceras på många olika användningsfall, kontra en finjusterad modell som är designad för en specifik uppgift.

"För att upprätthålla integritet och förhindra missbruk släpper vi vår modell under en icke-kommersiell licens fokuserad på forskningsanvändningsfall. Tillgång till modellen kommer att beviljas från fall till fall till akademiska forskare; de som är anslutna till organisationer inom regeringen, civilsamhället och den akademiska världen; och industriforskningslaboratorier runt om i världen.”

Instruktionsguide

Men Metas ansträngningar att kontrollera tillgången till LLaMA verkar ha varit förgäves, eller så verkar det som. Kort efter att ha delat modellen med utvalda boffins, och de i industrin och civilsamhället, publicerade någon på 4Chan information om hur man skaffar hela modellen via peer-to-peer fildelning, och så småningom instruktioner om hur man laddar ner allt publicerades på GitHub.

Som alltid, var försiktig när du hämtar sådant här från torrenter ifall någon har gömt något skändligt därinne. Modellen med 65 miljarder parametrar tar upp cirka 220 GB diskutrymme, får vi veta.

De kopior av LLaMA som finns tillgängliga via GitHub verkar vara legitima, noterar vi. Shawn Presser, an AI-ingenjör som skrev ner nedladdningsinstruktionerna på Microsofts koddelningswebbplats, visade oss skärmdumpar av honom som lyckades generera text från modellen. Han tror att en forskare som fick tillgång till modellen från Meta läckte den, vilket ledde till att den kanske spreds mer än väntat.

Starta dina konspirationsteorimotorer.

Presser anser att det är bättre att släppa modellen fritt utan förbehåll än att bara begränsa den till godkända akademiker. "Jag tror att det goda kommer att uppväga det dåliga, minst tio gånger. Förmodligen närmare 100x”, sa han Registret

Att träna och köra toppmoderna stora språkmodeller är dyrt, generellt sett; endast organisationer som har tillgång till högar med GPU:er och annan infrastruktur är i stånd att bygga, justera och testa dem. AI-forskare på Meta byggt LLaMA för att vara mindre, vilket gör den mer kompakt än dagens kommersiella modeller och därmed mer tillgänglig för akademiker och utvecklare utan icke-triviala IT-budgetar. 

Metas maskininlärningsguruer hävdade att deras system överträffade OpenAI:s GPT-3 och är lika bra som andra stora språkmodeller, som Googles 540-miljarder-parameter PaLM eller DeepMinds 70-miljarder-parameter Chinchilla. Den mindre storleken betyder att det borde vara lättare att använda för forskare som har mindre beräkningsresurser. Och ja, det finns en uppsjö av språkmodeller där ute i alla former och storlekar; det är mer än bara OpenAI och Facebook.

LLaMA kräver fortfarande hundratals gigabyte lagring och en anständig mängd beräkningar för att driva den. Att få igång modellen är inte heller enkelt, såvida du inte är van vid att hantera system av det här slaget, och att återanvända den för mer otrevliga aktiviteter kommer också att kräva ytterligare teknisk expertis. Trots att modellen har läckt, sa Meta att de kommer att fortsätta att dela LLaMA endast med utvalda forskare. 

Vi tror att den nuvarande releasestrategin tillåter oss att balansera ansvar och öppenhet

"Det är Metas mål att dela toppmoderna AI-modeller med medlemmar av forskarsamhället för att hjälpa oss att utvärdera och förbättra dessa modeller," sa en talesperson Registret.

"LLaMA delades i forskningssyfte, i linje med hur vi har delat tidigare stora språkmodeller. Även om modellen inte är tillgänglig för alla, och vissa har försökt kringgå godkännandeprocessen, tror vi att den nuvarande releasestrategin tillåter oss att balansera ansvar och öppenhet."

Med andra ord, Facebook-gruppen står fast vid sin strategi för att distribuera sin teknik.

Metas senaste försök att släppa stora språkmodeller har inte gått smidigt. Förra året var dess pratsamma BlenderBot kritiserade för spridning av desinformation och antisemitiska åsikter. Galactica, utformad för att sammanfatta vetenskaplig kunskap, var avlägsnas tre dagar efter att det lanserades för att skapa falskt och rasistiskt innehåll. ®

Tidsstämpel:

Mer från Registret