Meta predstavlja model velikega jezika Llama tretje generacije

Ponovno objavil Platon

Spremljevalci: 0

Meta je predstavila svoj najnovejši veliki jezikovni model (LLM) – imenovan Llama 3 – in trdi, da bo izzival veliko večje modele, kot so Google, Mistral in Anthropic.

Razkrito v dolgem Objava v četrtek je Llama 3 na voljo v različicah od osem milijard do več kot 400 milijard parametrov. Za referenco, največja modela OpenAI in Googla se približujeta dvema bilijonoma parametrov.

Zaenkrat imamo dostop le do osmih milijard in 3 milijard besedilnih različic parametrov Llame 70. Meta še ni zaključila z usposabljanjem svojih največjih in najkompleksnejših modelov, vendar namiguje, da bodo večjezični in večmodalni – kar pomeni, da bodo sestavljeni iz več manjših domensko optimiziranih modelov.

Celo s samo 70 milijardami parametrov Meta trdi, da je Llama 3 več kot sposobna iti od prsta do prsta z veliko večjimi modeli.

Meta trdi, da lahko Llama3-8B in 70B prekašata veliko večje modele, vključno z Gemini Pro in Antrhopic Claude 3

Meta trdi, da lahko Llama3-8B in 70B prekašata veliko večje modele, vključno z Gemini Pro in Antrhopic's Claude 3 – Kliknite za povečavo

Boljši podatki, boljši model

Ena največjih pridobitev po Metinem mnenju izhaja iz uporabe tokenizerja z besednjakom 128,000 žetonov. V kontekstu LLM so lahko žetoni nekaj znakov, cele besede ali celo fraze. AI razčlenijo človeški vnos v žetone, nato pa uporabijo svoje besednjake žetonov za ustvarjanje rezultatov.

Meta je pojasnila, da njen tokenizer pomaga učinkoviteje kodirati jezik, kar znatno poveča zmogljivost. Dodatni dobički so bili doseženi z uporabo visokokakovostnih naborov podatkov in dodatnimi koraki natančnega prilagajanja po usposabljanju za izboljšanje učinkovitosti in splošne natančnosti modela.

Natančneje, Meta je razkrila, da je bila Llama 3 vnaprej usposobljena na več kot 15 bilijonih žetonov, zbranih iz javno dostopnih virov.

Nabor podatkov za usposabljanje Llame 3 je več kot sedemkrat večji in vsebuje štirikrat več kode kot Llama 2, kar začela šele pred devetimi meseci. Toda, kot pravi pregovor, "smeti noter, smeti ven" - zato Meta trdi, da je razvila vrsto cevovodov za filtriranje podatkov, da bi zagotovila, da je Llama 3 usposobljena za čim manj slabih informacij.

Ti nadzori kakovosti so vključevali hevristične filtre in filtre NSFW ter deduplikacijo podatkov in besedilne klasifikatorje, ki se uporabljajo za napovedovanje kakovosti informacij pred usposabljanjem. Meta je celo uporabila svoj starejši model Llama 2 - za katerega je dejala, da je "presenetljivo dober pri prepoznavanju visokokakovostnih podatkov" - za pomoč pri ločevanju zrnja od plev.

Pet odstotkov podatkov o usposabljanju je prišlo iz več kot 30 jezikov, za katere je Meta napovedala, da bodo v prihodnosti pripomogli k večji večjezični zmogljivosti modela. Za zdaj Social Network™️ pravi, da uporabniki ne bi smeli pričakovati enake stopnje uspešnosti v jezikih, ki niso angleščina.

Usposabljanje majhnih modelov na tako velikem naboru podatkov na splošno velja za izgubo računalniškega časa in celo za ustvarjanje vse manjših donosov v natančnosti. Idealna mešanica podatkov o usposabljanju za računalniške vire se imenuje "Chinchilla optimalna” [PDF] znesek. Po mnenju Mete bi bilo to za model z osmimi milijardami parametrov, kot je Llama3-8B, približno 200 milijard žetonov.

Vendar pa je Meta med testiranjem ugotovila, da se je zmogljivost Llame 3 še naprej izboljševala, tudi če je bil učen na večjih nizih podatkov. "Tako naših osem milijard kot naših 70 milijard parametrskih modelov sta se še naprej linearno izboljševala, potem ko smo jih usposobili za do 15 bilijonov žetonov," je zapisal biz.

Zdi se, da je rezultat sorazmerno kompakten model, ki lahko ustvari rezultate, primerljive z veliko večjimi modeli. Kompromis pri računanju se je verjetno zdel vreden, saj je manjše modele na splošno lažje sklepati in jih je zato lažje uvesti v velikem obsegu.

Z 8-bitno natančnostjo osem milijard parametrov zahteva samo 8 GB pomnilnika. Z znižanjem na 4-bitno natančnost – bodisi z uporabo strojne opreme, ki to podpira, bodisi z uporabo kvantizacije za stiskanje modela – bi se zahteve po pomnilniku zmanjšale za približno polovico.

Meta je usposobila model na paru računalniških gruč, od katerih je vsaka vsebovala 24,000 grafičnih procesorjev Nvidia. Kot si lahko predstavljate, vadba na tako velikem grozdu, čeprav je hitrejša, predstavlja tudi nekaj izzivov – poveča se verjetnost, da bo sredi vadbene vožnje kaj odpovedalo.

Da bi to ublažili, je Meta pojasnila, da je razvila sklad za usposabljanje, ki avtomatizira odkrivanje napak, ravnanje in vzdrževanje. Hyperscaler je dodal tudi sisteme za spremljanje napak in shranjevanje, da zmanjša stroške kontrolne točke in povrnitev nazaj v primeru prekinitve vadbene vožnje. In ko je bilo dokončano, je Meta modele podvrgla vrsti testiranj po usposabljanju in korakom natančnega prilagajanja.

Poleg Llama3-8B in 70B je Meta uvedla tudi nova in posodobljena orodja za zaupanje in varnost – vključno z Llama Guard 2 in Cybersec Eval 2, ki uporabnikom pomagajo zaščititi model pred zlorabo in/ali napadi s hitrim vbrizgavanjem. Code Shield je še en dodatek, ki zagotavlja zaščitne ograje, namenjene filtriranju nevarne kode, ki jo ustvari Llama 3.

Kot smo že poročali, je generiranje kode s pomočjo LLM privedlo do nekaj zanimivih vektorji napada ki se jim želi Meta izogniti.

Na voljo

V naslednjih nekaj mesecih Meta načrtuje uvedbo dodatnih modelov – vključno z modelom, ki presega 400 milijard parametrov in podpira dodatno funkcionalnost, jezike in večja kontekstna okna. Slednje bo uporabnikom omogočilo zastavljanje večjih, bolj zapletenih poizvedb – na primer povzemanje velikega bloka besedila.

Llama3-8B in 70B sta trenutno na voljo za prenos pri Meti spletna stran. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face in drugi prav tako nameravajo ponuditi model za uvedbo na svojih platformah.

Če želite preizkusiti Llama3 na svojem računalniku, si lahko ogledate naš vodnik o izvajanju lokalnih LLM tukaj. Ko ga namestite, ga lahko zaženete tako, da zaženete: