Meta lansează modelul de limbaj mare Llama de a treia generație

Meta lansează modelul de limbaj mare Llama de a treia generație

Meta și-a lansat cel mai recent model de limbă mare (LLM) – numit Llama 3 – și susține că va provoca modele mult mai mari, precum Google, Mistral și Anthropic.

Dezvăluit într-un lung anunț joi, Llama 3 este disponibil în versiuni care variază de la opt miliarde până la peste 400 de miliarde de parametri. Pentru referință, OpenAI și cele mai mari modele ale Google se apropie de două trilioane de parametri.

Deocamdată, avem acces doar la variantele de text cu parametri de opt miliarde și 3 de miliarde ale Llama 70. Meta nu a terminat încă de antrenat modelele sale cele mai mari și mai complexe, dar indică faptul că acestea vor fi multilingve și multimodale, ceea ce înseamnă că sunt asamblate din mai multe modele mai mici optimizate pentru domenii.

Chiar și cu doar 70 de miliarde de parametri, Meta susține că Llama 3 este mai mult decât capabil să meargă în față cu modele mult mai mari.

Meta susține că Llama3-8B și 70B pot depăși modelele mult mai mari, inclusiv Gemini Pro și Claude 3 de la Antrhopic.

Meta susține că Llama3-8B și 70B pot depăși modelele mult mai mari, inclusiv Gemini Pro și Claude 3 de la Antrhopic – Click pentru a mări

Date mai bune, model mai bun

Unul dintre cele mai mari câștiguri, potrivit Meta, vine din utilizarea unui tokenizer cu un vocabular de 128,000 de jetoane. În contextul LLM-urilor, jetoanele pot fi câteva caractere, cuvinte întregi sau chiar fraze. AI-urile descompun inputul uman în jetoane, apoi își folosesc vocabularul de jetoane pentru a genera rezultate.

Meta a explicat că tokenizer-ul său ajută la codificarea limbajului mai eficient, sporind semnificativ performanța. Au fost obținute câștiguri suplimentare prin utilizarea seturilor de date de calitate superioară și a pașilor suplimentari de reglare fină după antrenament pentru a îmbunătăți performanța și acuratețea generală a modelului.

Mai exact, Meta a dezvăluit că Llama 3 a fost pre-antrenat pe mai mult de 15 trilioane de jetoane colectate din surse disponibile public.

Setul de date de antrenament al Llama 3 este de peste șapte ori mai mare și conține de patru ori mai mult cod decât Llama 2, care a lansat cu doar nouă luni în urmă. Dar, după cum se spune, „gunoiul intră, gunoiul afară” – așa că Meta susține că a dezvoltat o serie de conducte de filtrare a datelor pentru a se asigura că Llama 3 a fost instruit cu cât mai puține informații proaste posibil.

Aceste controale de calitate au inclus atât filtre euristice, cât și filtre NSFW, precum și deduplicarea datelor și clasificatoare de text utilizate pentru a prezice calitatea informațiilor înainte de antrenament. Meta a folosit chiar și modelul său mai vechi Llama 2 – despre care a spus că este „surprinzător de bun la identificarea datelor de înaltă calitate” – pentru a ajuta la separarea grâului de pleava.

Cinci la sută din datele de instruire au provenit din peste 30 de limbi, despre care Meta a prezis că va ajuta în viitor la aducerea de capabilități multilingve mai substanțiale modelului. Pentru moment, Social Network™️ spune că utilizatorii nu ar trebui să se aștepte la același grad de performanță în alte limbi decât engleza.

Antrenarea modelelor mici pe un set de date atât de mare este, în general, considerată o pierdere de timp de calcul și chiar pentru a produce randamente descrescătoare ale preciziei. Combinația ideală de date de antrenament pentru a calcula resursele este denumită „Chinchilla optim” [PDF] suma. Potrivit Meta, pentru un model cu opt miliarde de parametri precum Llama3-8B, ar fi aproximativ 200 de miliarde de jetoane.

Cu toate acestea, în timpul testării, Meta a descoperit că performanța lui Llama 3 a continuat să se îmbunătățească chiar și atunci când a fost antrenat pe seturi de date mai mari. „Atât modelele noastre de opt miliarde, cât și cele 70 de miliarde de parametri au continuat să se îmbunătățească log-liniar după ce le-am antrenat pe până la 15 trilioane de jetoane”, a scris compania.

Rezultatul, se pare, este un model relativ compact capabil să genereze rezultate comparabile cu modelele mult mai mari. Compensația în calcul a fost probabil considerată utilă, deoarece modelele mai mici sunt în general mai ușor de dedus și, prin urmare, mai ușor de implementat la scară.

La o precizie de 8 biți, un model cu opt miliarde de parametri necesită doar 8 GB de memorie. Scăderea la precizia de 4 biți – fie folosind hardware-ul care o acceptă, fie folosind cuantizarea pentru a comprima modelul – ar reduce cerințele de memorie cu aproximativ jumătate.

Meta a antrenat modelul pe o pereche de clustere de calcul, fiecare conținând 24,000 de GPU-uri Nvidia. După cum vă puteți imagina, antrenamentul pe un cluster atât de mare, deși mai rapid, introduce și unele provocări – probabilitatea ca ceva să eșueze în mijlocul unui antrenament crește.

Pentru a atenua acest lucru, Meta a explicat că a dezvoltat o stivă de instruire care automatizează detectarea, gestionarea și întreținerea erorilor. Hyperscaler-ul a adăugat, de asemenea, sisteme de monitorizare și stocare a defecțiunilor pentru a reduce supraîncărcarea punctului de control și rollback-ul în cazul în care un antrenament este întrerupt. Și odată finalizate, Meta a supus modelele unei serii de pași de testare și reglare post-antrenament.

Alături de Llama3-8B și 70B, Meta a lansat, de asemenea, instrumente noi și actualizate de încredere și siguranță – inclusiv Llama Guard 2 și Cybersec Eval 2, pentru a ajuta utilizatorii să protejeze modelul de abuz și/sau atacuri de injecție promptă. Code Shield este un alt plus care oferă balustrade concepute pentru a ajuta la filtrarea codului nesigur generat de Llama 3.

După cum am raportat anterior, generarea de cod asistată de LLM a condus la unele lucruri interesante vectori de atac pe care Meta caută să-l evite.

Disponibilitate

În următoarele câteva luni, Meta plănuiește să lanseze modele suplimentare – inclusiv unul care depășește 400 de miliarde de parametri și care acceptă funcționalități suplimentare, limbi și ferestre de context mai mari. Acesta din urmă va permite utilizatorilor să adreseze interogări mai mari și mai complexe - cum ar fi rezumarea unui bloc mare de text.

Llama3-8B și 70B sunt disponibile în prezent pentru descărcare de la Meta's . Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face și alții intenționează, de asemenea, să ofere modelul pentru implementare pe platformele lor.

Dacă doriți să testați Llama3 pe computerul dvs., puteți consulta ghidul nostru despre rularea LLM-urilor locale aici. După ce l-ați instalat, îl puteți lansa rulând:

ollama run llama3

Distrează-te și spune-ne cum a fost. ®

Timestamp-ul:

Mai mult de la Registrul