Meta debuterer tredje generasjons Llama store språkmodell

Meta debuterer tredje generasjons Llama store språkmodell

Meta har sluppet løs sin siste store språkmodell (LLM) – kalt Llama 3 – og hevder at den vil utfordre mye større modeller fra slike som Google, Mistral og Anthropic.

Avslørt i en lang kunngjøring på torsdag er Llama 3 tilgjengelig i versjoner fra åtte milliarder til over 400 milliarder parametere. For referanse, OpenAI og Googles største modeller nærmer seg to billioner parametere.

Foreløpig får vi bare tilgang til Llama 3s åtte milliarder og 70 milliarder parametertekstvarianter. Meta er ikke ferdig med å trent opp sine største og mest komplekse modeller ennå, men antyder at de vil være flerspråklige og multimodale – noe som betyr at de er satt sammen fra flere mindre domeneoptimaliserte modeller.

Selv med bare 70 milliarder parametere, hevder Meta at Llama 3 er mer enn i stand til å gå tå-til-tå med mye større modeller.

Meta hevder Llama3-8B og 70B kan utkonkurrere langt større modeller, inkludert Gemini Pro og Antrhopics Claude 3

Meta hevder Llama3-8B og 70B kan utkonkurrere langt større modeller, inkludert Gemini Pro og Antrhopics Claude 3 – Klikk for å forstørre

Bedre data, bedre modell

En av de største gevinstene, ifølge Meta, kommer fra bruken av en tokenizer med et vokabular på 128,000 XNUMX tokens. I sammenheng med LLM-er kan tokens være noen få tegn, hele ord eller til og med fraser. AI-er bryter ned menneskelig input til tokens, og bruker deretter vokabularene deres med tokens for å generere utdata.

Meta forklarte at tokenizeren hjelper til med å kode språk mer effektivt, noe som øker ytelsen betydelig. Ytterligere gevinster ble oppnådd ved å bruke datasett av høyere kvalitet og ytterligere finjusteringstrinn etter trening for å forbedre ytelsen og den generelle nøyaktigheten til modellen.

Spesifikt avslørte Meta at Llama 3 ble forhåndstrent på mer enn 15 billioner tokens samlet inn fra offentlig tilgjengelige kilder.

Llama 3s treningsdatasett er mer enn syv ganger større og inneholder fire ganger mer kode enn Llama 2, som lansert for bare ni måneder siden. Men, som det sies, "søppel inn, søppel ut" - så Meta hevder at det utviklet en serie datafiltrerende rørledninger for å sikre at Llama 3 ble trent på så lite dårlig informasjon som mulig.

Disse kvalitetskontrollene inkluderte både heuristiske og NSFW-filtre, samt datadeduplisering, og tekstklassifiseringer som ble brukt til å forutsi kvaliteten på informasjonen før trening. Meta brukte til og med sin eldre Llama 2-modell - som den sa var "overraskende god til å identifisere data av høy kvalitet" - for å hjelpe til med å skille hveten fra agnene.

Fem prosent av treningsdataene kom fra mer enn 30 språk, som Meta spådde i fremtiden vil bidra til å bringe mer omfattende flerspråklige evner til modellen. Foreløpig sier Social Network™️ at brukere ikke bør forvente samme grad av ytelse på andre språk enn engelsk.

Å trene små modeller på et så stort datasett anses generelt som bortkastet datatid, og til og med for å gi avtagende avkastning i nøyaktighet. Den ideelle blandingen av treningsdata for å beregne ressurser omtales som "Chinchilla optimal" [PDF] beløp. I følge Meta, for en åtte milliarder parametermodell som Llama3-8B, vil dette være omtrent 200 milliarder tokens.

I testingen fant Meta imidlertid at ytelsen til Llama 3 fortsatte å forbedre seg selv når den ble trent på større datasett. "Både våre åtte milliarder og våre 70 milliarder parametermodeller fortsatte å forbedre log-lineært etter at vi trente dem på opptil 15 billioner tokens," skrev biz.

Resultatet ser ut til å være en relativt kompakt modell som er i stand til å generere resultater som kan sammenlignes med langt større modeller. Avveiningen i databehandling ble sannsynligvis ansett som verdt, ettersom mindre modeller generelt er lettere å slutte og dermed lettere å distribuere i skala.

Med 8-bits presisjon krever en modell med åtte milliarder parametere bare 8 GB minne. Å slippe til 4-bits presisjon – enten ved å bruke maskinvare som støtter det eller ved å bruke kvantisering for å komprimere modellen – vil redusere minnekravene med omtrent det halve.

Meta trente modellen på et par dataklynger som hver inneholder 24,000 XNUMX Nvidia GPUer. Som du kanskje forestiller deg, introduserer trening på en så stor klynge, selv om den er raskere, også noen utfordringer – sannsynligheten for at noe feiler midt i en treningsøkt øker.

For å dempe dette, forklarte Meta at den utviklet en treningsstabel som automatiserer feildeteksjon, håndtering og vedlikehold. Hyperscaleren la også til feilovervåkings- og lagringssystemer for å redusere overhead av sjekkpunkt og tilbakerulling i tilfelle en treningskjøring blir avbrutt. Og når de var ferdige, utsatte Meta modellene for en rekke testing og finjusteringstrinn etter trening.

Ved siden av Llama3-8B og 70B, lanserte Meta også nye og oppdaterte tillits- og sikkerhetsverktøy – inkludert Llama Guard 2 og Cybersec Eval 2, for å hjelpe brukere med å beskytte modellen mot misbruk og/eller raske injeksjonsangrep. Code Shield er et annet tillegg som gir rekkverk designet for å filtrere ut usikker kode generert av Llama 3.

Som vi tidligere har rapportert, har LLM-assistert kodegenerering ført til noen interessante angrepsvektorer som Meta er ute etter å unngå.

Tilgjengelighet

I løpet av de neste månedene planlegger Meta å rulle ut flere modeller – inkludert en som overstiger 400 milliarder parametere og støtter tilleggsfunksjonalitet, språk og større kontekstvinduer. Sistnevnte vil tillate brukere å stille større, mer komplekse spørsmål – som å oppsummere en stor tekstblokk.

Llama3-8B og 70B er for øyeblikket tilgjengelig for nedlasting fra Meta's nettsted. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face og andre planlegger også å tilby modellen for distribusjon på deres plattformer.

Hvis du vil teste ut Llama3 på maskinen din, kan du sjekke guiden vår for å kjøre lokale LLM-er her.. Når du har installert den, kan du starte den ved å kjøre:

ollama run llama3

Ha det gøy og fortell oss hvordan det gikk. ®

Tidstempel:

Mer fra Registeret