Meta debuterer tredje generation af Llama store sprogmodel

Meta debuterer tredje generation af Llama store sprogmodel

Meta har sluppet sin seneste store sprogmodel (LLM) løs – kaldet Llama 3 – og hævder, at den vil udfordre meget større modeller fra f.eks. Google, Mistral og Anthropic.

Afsløret i en lang meddelelse på torsdag er Llama 3 tilgængelig i versioner fra otte milliarder til over 400 milliarder parametre. Til reference nærmer OpenAI og Googles største modeller sig to billioner parametre.

Indtil videre får vi kun adgang til Llama 3's otte milliarder og 70 milliarder parameter tekstvarianter. Meta er ikke færdig med at træne sine største og mest komplekse modeller endnu, men antyder, at de vil være flersprogede og multimodale – hvilket betyder, at de er samlet fra flere mindre domæneoptimerede modeller.

Selv med blot 70 milliarder parametre hævder Meta, at Llama 3 er mere end i stand til at gå tå-til-tå med meget større modeller.

Meta hævder, at Llama3-8B og 70B kan overgå langt større modeller, inklusive Gemini Pro og Antrhopics Claude 3

Meta hævder, at Llama3-8B og 70B kan overgå langt større modeller, inklusive Gemini Pro og Antrhopics Claude 3 - Klik for at forstørre

Bedre data, bedre model

En af de største gevinster, ifølge Meta, kommer fra brugen af ​​en tokenizer med et ordforråd på 128,000 tokens. I forbindelse med LLM'er kan tokens være nogle få tegn, hele ord eller endda sætninger. AI'er opdeler menneskelig input til tokens og bruger derefter deres ordforråd af tokens til at generere output.

Meta forklarede, at dens tokenizer hjælper med at kode sprog mere effektivt, hvilket øger ydeevnen betydeligt. Yderligere gevinster blev opnået ved at bruge datasæt af højere kvalitet og yderligere finjusteringstrin efter træning for at forbedre ydeevnen og den overordnede nøjagtighed af modellen.

Specifikt afslørede Meta, at Llama 3 var fortrænet på mere end 15 billioner tokens indsamlet fra offentligt tilgængelige kilder.

Llama 3s træningsdatasæt er mere end syv gange større og indeholder fire gange mere kode end Llama 2, hvilket lanceret for bare ni måneder siden. Men som man siger, "skrald ind, skrald ud" - så Meta hævder, at det udviklede en række datafiltrerende pipelines for at sikre, at Llama 3 blev trænet på så lidt dårlig information som muligt.

Disse kvalitetskontroller omfattede både heuristiske filtre og NSFW-filtre samt datadeduplikering og tekstklassificeringer, der blev brugt til at forudsige kvaliteten af ​​informationen før træning. Meta brugte endda sin ældre Llama 2-model - som den sagde var "overraskende god til at identificere data af høj kvalitet" - for at hjælpe med at adskille hveden fra avnerne.

Fem procent af træningsdataene kom fra mere end 30 sprog, som Meta forudsagde i fremtiden vil bidrage til at bringe mere omfattende flersprogede muligheder til modellen. Indtil videre siger Social Network™️, at brugere ikke skal forvente den samme grad af ydeevne på andre sprog end engelsk.

Træning af små modeller på et så stort datasæt betragtes generelt som spild af computertid og endda for at producere faldende afkast i nøjagtighed. Den ideelle blanding af træningsdata til at beregne ressourcer omtales som "Chinchilla optimal” [PDF] beløb. Ifølge Meta ville dette for en otte milliarder parametermodel som Llama3-8B være omkring 200 milliarder tokens.

Men i testen fandt Meta ud af, at Llama 3's ydeevne fortsatte med at forbedre, selv når den blev trænet på større datasæt. "Både vores otte milliarder og vores 70 milliarder parametermodeller fortsatte med at forbedre log-lineært, efter at vi trænede dem på op til 15 billioner tokens," skrev biz.

Resultatet ser ud til at være en relativt kompakt model, der er i stand til at generere resultater, der kan sammenlignes med langt større modeller. Afvejningen i beregning blev sandsynligvis anset for at være umagen værd, da mindre modeller generelt er nemmere at udlede og dermed lettere at implementere i skala.

Ved 8-bit præcision kræver en model med otte milliarder parametre kun 8 GB hukommelse. At falde til 4-bit præcision – enten ved at bruge hardware, der understøtter det, eller ved at bruge kvantisering til at komprimere modellen – ville reducere hukommelseskravene med omkring det halve.

Meta trænede modellen på et par computerklynger, der hver indeholder 24,000 Nvidia GPU'er. Som du måske forestiller dig, introducerer træning på så stor en klynge, selvom den er hurtigere, også nogle udfordringer - sandsynligheden for, at noget fejler midt i et træningsløb, øges.

For at afbøde dette, forklarede Meta, at det udviklede en træningsstak, der automatiserer fejlfinding, håndtering og vedligeholdelse. Hyperscaleren tilføjede også fejlovervågnings- og lagringssystemer for at reducere overhead af checkpoint og tilbagerulning i tilfælde af at et træningsløb afbrydes. Og når de var færdige, udsatte Meta modellerne for en række test- og finjusteringstrin efter træning.

Ved siden af ​​Llama3-8B og 70B udrullede Meta også nye og opdaterede tillids- og sikkerhedsværktøjer – herunder Llama Guard 2 og Cybersec Eval 2, for at hjælpe brugere med at beskytte modellen mod misbrug og/eller hurtige injektionsangreb. Code Shield er en anden tilføjelse, der giver autoværn designet til at hjælpe med at bortfiltrere usikker kode genereret af Llama 3.

Som vi tidligere har rapporteret, har LLM-assisteret kodegenerering ført til nogle interessante angrebsvektorer som Meta søger at undgå.

Tilgængelighed

I løbet af de næste par måneder planlægger Meta at udrulle yderligere modeller – inklusive en, der overstiger 400 milliarder parametre og understøtter yderligere funktionalitet, sprog og større kontekstvinduer. Sidstnævnte vil give brugerne mulighed for at stille større, mere komplekse forespørgsler – som at opsummere en stor tekstblok.

Llama3-8B og 70B er i øjeblikket tilgængelige til download fra Meta's hjemmeside. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face og andre planlægger også at tilbyde modellen til implementering på deres platforme.

Hvis du vil teste Llama3 på din maskine, kan du tjekke vores guide til at køre lokale LLM'er link.. Når du har fået det installeret, kan du starte det ved at køre:

ollama run lama3

God fornøjelse og fortæl os, hvordan det gik. ®

Tidsstempel:

Mere fra Registret