Meta debüteerib kolmanda põlvkonna laama suure keele mudeli

Taasavaldanud Platon

järgijaid: 0

Meta on vallandanud oma uusima suure keelemudeli (LLM) – nimega Llama 3 – ja väidab, et esitab väljakutse palju suurematele mudelitele nagu Google, Mistral ja Anthropic.

Ilmunud pikalt teadaanne neljapäeval on Llama 3 saadaval versioonides, mis ulatuvad kaheksast miljardist kuni üle 400 miljardi parameetrini. Võrdluseks võib öelda, et OpenAI ja Google'i suurimate mudelite väärtus läheneb kahele triljonile parameetrile.

Praegu on meil juurdepääs ainult Llama 3 kaheksa miljardi ja 70 miljardi parameetriteksti variandile. Meta ei ole veel oma suurimaid ja keerukamaid mudeleid koolitanud, kuid vihjab, et need on mitmekeelsed ja multimodaalsed – see tähendab, et need on kokku pandud mitmest väiksemast domeenile optimeeritud mudelist.

Isegi kõigest 70 miljardi parameetriga on Meta väitel Llama 3 suuteline palju suuremate mudelitega suutma minna.

Meta väidab, et Llama3-8B ja 70B suudavad ületada palju suuremaid mudeleid, sealhulgas Gemini Pro ja Antrhopici Claude 3 – klõpsake suurendamiseks

Paremad andmed, parem mudel

Üks suurimaid tulusid tuleb Meta sõnul 128,000 XNUMX märgi sõnavaraga tokenisaatori kasutamisest. LLM-ide kontekstis võivad märgid koosneda mõnest tähemärgist, tervest sõnast või isegi fraasidest. AI-d jagavad inimsisendi märkideks ja kasutavad seejärel väljundi loomiseks oma žetoonide sõnavara.

Meta selgitas, et selle tokenisaator aitab keelt tõhusamalt kodeerida, suurendades oluliselt jõudlust. Täiendav kasu saavutati kõrgema kvaliteediga andmekogumite ja täiendavate peenhäälestustega pärast koolitust, et parandada mudeli jõudlust ja üldist täpsust.

Täpsemalt paljastas Meta, et Llama 3 oli eelkoolitatud enam kui 15 triljoni žetooniga, mis koguti avalikult kättesaadavatest allikatest.

Llama 3 treeningandmete kogum on üle seitsme korra suurem ja sisaldab neli korda rohkem koodi kui Llama 2, mis käivitatud vaid üheksa kuud tagasi. Kuid nagu öeldakse, "prügi sisse, prügi välja" – nii väidab Meta, et töötas välja rea andmefiltreerimistorusid tagamaks, et Llama 3 koolitatakse võimalikult vähese halva teabe kohta.

Need kvaliteedikontrollid hõlmasid nii heuristlikke kui ka NSFW filtreid, samuti andmete dubleerimist ja teksti klassifikaatoreid, mida kasutati teabe kvaliteedi ennustamiseks enne koolitust. Meta kasutas nisu sõkaldest eraldamiseks isegi oma vanemat mudelit Llama 2 – mis tema sõnul oli üllatavalt hea kvaliteetsete andmete tuvastamisel.

Viis protsenti koolitusandmetest pärines enam kui 30 keelest, mis Meta prognooside kohaselt aitab tulevikus mudelisse kaasa tuua olulisemad mitmekeelsed võimalused. Praegu ütleb Social Network™️, et kasutajad ei peaks eeldama sama jõudlust muudes keeltes peale inglise keele.

Väikeste mudelite koolitamist nii suure andmekogumi kallal peetakse üldiselt arvutusaja raiskamiseks ja isegi täpsuse vähenemiseks. Ideaalset treeningandmete kombinatsiooni ressursside arvutamiseks nimetatakse "Tšintšilja optimaalne” [PDF] summa. Meta sõnul oleks kaheksa miljardi parameetri mudeli puhul nagu Llama3-8B see umbes 200 miljardit žetoone.

Testimise käigus avastas Meta aga, et Llama 3 jõudlus paranes jätkuvalt isegi suuremate andmekogumite kasutamisel. "Nii meie kaheksa miljardi kui ka meie 70 miljardi parameetriga mudelid paranesid log-lineaarselt pärast seda, kui õpetasime neid kuni 15 triljoni žetooniga," kirjutas biz.

Tulemuseks näib olevat suhteliselt kompaktne mudel, mis suudab anda palju suuremate mudelitega võrreldavaid tulemusi. Arvutamise kompromissi peeti tõenäoliselt kasulikuks, kuna väiksemaid mudeleid on üldiselt lihtsam järeldada ja seega on neid lihtsam mastaapselt kasutusele võtta.

8-bitise täpsusega vajab kaheksa miljardi parameetri mudel vaid 8 GB mälu. 4-bitise täpsuse vähendamine – kas seda toetava riistvara või mudeli tihendamiseks kvantiseerimise – vähendaks mälunõudeid umbes poole võrra.

Meta koolitas mudelit paaril arvutusklastril, millest igaüks sisaldas 24,000 XNUMX Nvidia GPU-d. Nagu võite arvata, toob nii suurel klastril treenimine, kuigi kiirem, ka mõningaid väljakutseid – suureneb tõenäosus, et treeningu ajal midagi ebaõnnestub.

Selle leevendamiseks selgitas Meta, et töötas välja koolituspinu, mis automatiseerib vigade tuvastamist, käsitlemist ja hooldust. Hüperskaalaja lisas ka rikete jälgimise ja salvestussüsteemid, et vähendada kontrollpunkti ja tagasipööramise kulu, kui treeningsõit katkestatakse. Ja kui see oli lõpetatud, läbis Meta mudelitele mitmeid treeningjärgseid katseid ja peenhäälestuse samme.

Lisaks Llama3-8B-le ja 70B-le tõi Meta välja ka uued ja ajakohastatud usaldus- ja ohutustööriistad, sealhulgas Llama Guard 2 ja Cybersec Eval 2, et aidata kasutajatel kaitsta mudelit kuritarvitamise ja/või kiirete süstimisrünnakute eest. Code Shield on veel üks lisand, mis pakub kaitsepiirdeid, mis on loodud Llama 3 loodud ebaturvalise koodi filtreerimiseks.

Nagu oleme varem teatanud, on LLM-i abil koodi genereerimine viinud huvitavateni ründevektorid mida Meta soovib vältida.

Kättesaadavus

Järgmise paari kuu jooksul plaanib Meta kasutusele võtta lisamudeleid – sealhulgas ühe, mis ületab 400 miljardit parameetrit ja mis toetab lisafunktsioone, keeli ja suuremaid kontekstiaknaid. Viimane võimaldab kasutajatel küsida suuremaid ja keerukamaid päringuid – näiteks teha kokkuvõtteid suurest tekstiplokist.

Llama3-8B ja 70B on praegu Meta's allalaadimiseks saadaval veebisait. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face ja teised plaanivad samuti pakkuda mudelit oma platvormidel juurutamiseks.

Kui soovite Llama3 oma masinas testida, võite tutvuda meie kohalike LLM-ide käitamise juhendiga siin. Kui olete selle installinud, saate selle käivitada, käivitades: