Meta introduceert het grote taalmodel Llama van de derde generatie

Meta introduceert het grote taalmodel Llama van de derde generatie

Meta heeft zijn nieuwste grote taalmodel (LLM) gelanceerd – genaamd Llama 3 – en beweert dat het veel grotere modellen van onder meer Google, Mistral en Anthropic zal uitdagen.

Onthuld in een lang verhaal aankondiging Donderdag is Llama 3 verkrijgbaar in versies variërend van acht miljard tot ruim 400 miljard parameters. Ter referentie: OpenAI en de grootste modellen van Google naderen de twee biljoen parameters.

Voorlopig krijgen we alleen toegang tot de acht miljard en 3 miljard parametertekstvarianten van Llama 70. Meta is nog niet klaar met het trainen van de grootste en meest complexe modellen, maar geeft aan dat ze meertalig en multimodaal zullen zijn – wat betekent dat ze zijn samengesteld uit meerdere kleinere, voor het domein geoptimaliseerde modellen.

Zelfs met slechts 70 miljard parameters beweert Meta dat Llama 3 meer dan in staat is om het op te nemen tegen veel grotere modellen.

Meta beweert dat Llama3-8B en 70B beter kunnen presteren dan veel grotere modellen, waaronder Gemini Pro en Antrhopic's Claude 3

Meta beweert dat Llama3-8B en 70B beter kunnen presteren dan veel grotere modellen, waaronder Gemini Pro en Antrhopic's Claude 3 – Klik om te vergroten

Betere gegevens, beter model

Een van de grootste voordelen komt volgens Meta voort uit het gebruik van een tokenizer met een vocabulaire van 128,000 tokens. In de context van LLM's kunnen tokens een paar tekens, hele woorden of zelfs zinsneden zijn. AI's splitsen menselijke input op in tokens en gebruiken vervolgens hun vocabulaire van tokens om output te genereren.

Meta legde uit dat de tokenizer helpt om taal efficiënter te coderen, waardoor de prestaties aanzienlijk worden verbeterd. Er werd extra winst behaald door het gebruik van datasets van hogere kwaliteit en extra verfijningsstappen na de training om de prestaties en algehele nauwkeurigheid van het model te verbeteren.

Concreet onthulde Meta dat Llama 3 vooraf was getraind op meer dan 15 biljoen tokens verzameld uit openbaar beschikbare bronnen.

De trainingsdataset van Llama 3 is meer dan zeven keer groter en bevat vier keer meer code dan Llama 2, die gelanceerd nog maar negen maanden geleden. Maar, zoals het gezegde luidt: “garbage in, garbage out” – dus beweert Meta dat het een reeks datafilterpijplijnen heeft ontwikkeld om ervoor te zorgen dat Llama 3 met zo min mogelijk slechte informatie werd getraind.

Deze kwaliteitscontroles omvatten zowel heuristische als NSFW-filters, evenals gegevensontdubbeling en tekstclassificatoren die werden gebruikt om de kwaliteit van de informatie voorafgaand aan de training te voorspellen. Meta gebruikte zelfs zijn oudere Llama 2-model – waarvan het zei dat het “verrassend goed was in het identificeren van gegevens van hoge kwaliteit” – om het kaf van het koren te scheiden.

Vijf procent van de trainingsgegevens kwam uit meer dan dertig talen, wat volgens Meta in de toekomst zal helpen om meer substantiële meertalige mogelijkheden aan het model toe te voegen. Voorlopig zegt het Social Network™️ dat gebruikers niet dezelfde mate van prestaties mogen verwachten in andere talen dan Engels.

Het trainen van kleine modellen op zo'n grote dataset wordt over het algemeen beschouwd als een verspilling van rekentijd en leidt zelfs tot afnemende nauwkeurigheidsresultaten. De ideale mix van trainingsgegevens om hulpbronnen te berekenen wordt de “Chinchilla optimaal” [PDF] bedrag. Volgens Meta zou dit voor een parametermodel van acht miljard zoals Llama3-8B ongeveer 200 miljard tokens zijn.

Tijdens het testen ontdekte Meta echter dat de prestaties van Llama 3 bleven verbeteren, zelfs als ze op grotere datasets werden getraind. “Zowel onze acht miljard als onze 70 miljard parametermodellen bleven log-lineair verbeteren nadat we ze hadden getraind op maximaal 15 biljoen tokens”, schreef de biz.

Het resultaat lijkt een relatief compact model te zijn dat resultaten kan genereren die vergelijkbaar zijn met veel grotere modellen. De afweging op computergebied werd waarschijnlijk als de moeite waard beschouwd, omdat kleinere modellen over het algemeen gemakkelijker te concluderen zijn en dus gemakkelijker op schaal kunnen worden ingezet.

Bij een nauwkeurigheid van 8 bits heeft een model met acht miljard parameters slechts 8 GB geheugen nodig. Als we de nauwkeurigheid verlagen naar 4-bits – door hardware te gebruiken die dit ondersteunt, of door kwantisering te gebruiken om het model te comprimeren – zouden de geheugenvereisten met ongeveer de helft afnemen.

Meta heeft het model getraind op een paar rekenclusters die elk 24,000 Nvidia GPU's bevatten. Zoals u zich misschien kunt voorstellen, brengt training op zo'n groot cluster, hoewel sneller, ook enkele uitdagingen met zich mee: de kans dat er iets mislukt tijdens een trainingssessie neemt toe.

Om dit te verzachten, legde Meta uit dat het een trainingsstack heeft ontwikkeld die de foutdetectie, -afhandeling en -onderhoud automatiseert. De hyperscaler voegde ook foutbewakings- en opslagsystemen toe om de overhead van checkpoint en rollback te verminderen voor het geval een trainingsrun wordt onderbroken. En toen ze klaar waren, onderwierp Meta de modellen aan een reeks tests en verfijningsstappen na de training.

Naast Llama3-8B en 70B heeft Meta ook nieuwe en bijgewerkte vertrouwens- en veiligheidstools uitgerold – waaronder Llama Guard 2 en Cybersec Eval 2, om gebruikers te helpen het model te beschermen tegen misbruik en/of snelle injectie-aanvallen. Code Shield is een andere toevoeging die vangrails biedt die zijn ontworpen om onveilige code gegenereerd door Llama 3 te helpen filteren.

Zoals we eerder hebben gemeld, heeft het genereren van LLM-ondersteunde code tot een aantal interessante geleid aanvalsvectoren die Meta wil vermijden.

Beschikbaarheid

In de komende paar maanden is Meta van plan extra modellen uit te rollen, waaronder een model met meer dan 400 miljard parameters en ondersteuning voor extra functionaliteit, talen en grotere contextvensters. Met dit laatste kunnen gebruikers grotere, complexere vragen stellen, zoals het samenvatten van een groot blok tekst.

Llama3-8B en 70B kunnen momenteel worden gedownload van Meta's van de. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face en anderen zijn ook van plan het model aan te bieden voor implementatie op hun platforms.

Als je Llama3 op je computer wilt testen, kun je onze handleiding over het uitvoeren van lokale LLM's raadplegen hier. Zodra je het hebt geïnstalleerd, kun je het starten door het volgende uit te voeren:

ollama run lama3

Veel plezier en laat ons weten hoe het ging. ®

Tijdstempel:

Meer van Het register