Το Meta κάνει το ντεμπούτο του μοντέλου Llama μεγάλης γλώσσας τρίτης γενιάς

Το Meta κάνει το ντεμπούτο του μοντέλου Llama μεγάλης γλώσσας τρίτης γενιάς

Η Meta κυκλοφόρησε το τελευταίο της μοντέλο μεγάλης γλώσσας (LLM) – που ονομάζεται Llama 3 – και ισχυρίζεται ότι θα αμφισβητήσει πολύ μεγαλύτερα μοντέλα όπως η Google, η Mistral και η Anthropic.

Αποκαλύφθηκε σε μια μακροσκελή ανακοίνωση Την Πέμπτη, το Llama 3 είναι διαθέσιμο σε εκδόσεις που κυμαίνονται από οκτώ δισεκατομμύρια έως πάνω από 400 δισεκατομμύρια παραμέτρους. Για αναφορά, το OpenAI και τα μεγαλύτερα μοντέλα της Google πλησιάζουν τα δύο τρισεκατομμύρια παραμέτρους.

Προς το παρόν, έχουμε πρόσβαση μόνο στις παραλλαγές κειμένου των οκτώ δισεκατομμυρίων και 3 δισεκατομμυρίων παραμέτρων του Llama 70. Η Meta δεν έχει ολοκληρώσει ακόμα την εκπαίδευση των μεγαλύτερων και πιο πολύπλοκων μοντέλων της, αλλά υπονοεί ότι θα είναι πολύγλωσσα και πολυτροπικά – που σημαίνει ότι έχουν συναρμολογηθεί από πολλά μικρότερα μοντέλα βελτιστοποιημένα για τομέα.

Ακόμη και με μόλις 70 δισεκατομμύρια παραμέτρους, η Meta ισχυρίζεται ότι το Llama 3 είναι κάτι παραπάνω από ικανό να πάει από τα δάχτυλα στα νύχια με πολύ μεγαλύτερα μοντέλα.

Η Meta ισχυρίζεται ότι το Llama3-8B και το 70B μπορούν να ξεπεράσουν πολύ μεγαλύτερα μοντέλα, όπως το Gemini Pro και το Claude 3 της Antrhopic

Η Meta ισχυρίζεται ότι τα Llama3-8B και 70B μπορούν να ξεπεράσουν πολύ μεγαλύτερα μοντέλα, όπως το Gemini Pro και το Antrhopic's Claude 3 – Κάντε κλικ για μεγέθυνση

Καλύτερα δεδομένα, καλύτερο μοντέλο

Ένα από τα μεγαλύτερα κέρδη, σύμφωνα με το Meta, προέρχεται από τη χρήση ενός tokenizer με λεξιλόγιο 128,000 tokens. Στο πλαίσιο των LLM, τα διακριτικά μπορεί να είναι μερικοί χαρακτήρες, ολόκληρες λέξεις ή ακόμα και φράσεις. Τα AI διασπούν την ανθρώπινη είσοδο σε μάρκες και στη συνέχεια χρησιμοποιούν το λεξιλόγιό τους με διακριτικά για να δημιουργήσουν έξοδο.

Η Meta εξήγησε ότι το tokenizer της βοηθά στην πιο αποτελεσματική κωδικοποίηση της γλώσσας, ενισχύοντας σημαντικά την απόδοση. Επιτεύχθηκαν πρόσθετα κέρδη με τη χρήση συνόλων δεδομένων υψηλότερης ποιότητας και πρόσθετων βημάτων λεπτομέρειας μετά την εκπαίδευση για τη βελτίωση της απόδοσης και της συνολικής ακρίβειας του μοντέλου.

Συγκεκριμένα, η Meta αποκάλυψε ότι το Llama 3 ήταν προεκπαιδευμένο σε περισσότερα από 15 τρισεκατομμύρια μάρκες που συλλέχθηκαν από δημόσια διαθέσιμες πηγές.

Το σύνολο δεδομένων εκπαίδευσης του Llama 3 είναι περισσότερο από επτά φορές μεγαλύτερο και περιέχει τέσσερις φορές περισσότερο κώδικα από το Llama 2, το οποίο ξεκίνησε μόλις πριν από εννέα μήνες. Αλλά, όπως λέει και η παροιμία, "σκουπίδια μέσα, σκουπίδια έξω" - έτσι η Meta ισχυρίζεται ότι ανέπτυξε μια σειρά από αγωγούς φιλτραρίσματος δεδομένων για να εξασφαλίσει ότι το Llama 3 εκπαιδεύτηκε σε όσο το δυνατόν λιγότερες κακές πληροφορίες.

Αυτοί οι ποιοτικοί έλεγχοι περιλάμβαναν τόσο ευρετικά φίλτρα όσο και NSFW, καθώς και αντιγραφή δεδομένων και ταξινομητές κειμένου που χρησιμοποιούνται για την πρόβλεψη της ποιότητας των πληροφοριών πριν από την εκπαίδευση. Η Meta χρησιμοποίησε ακόμη και το παλαιότερο μοντέλο της Llama 2 - το οποίο είπε ότι ήταν "αναπάντεχα καλό στον εντοπισμό δεδομένων υψηλής ποιότητας" - για να βοηθήσει στο διαχωρισμό του σίτου από την ήρα.

Πέντε τοις εκατό των δεδομένων εκπαίδευσης προέρχονταν από περισσότερες από 30 γλώσσες, κάτι που ο Meta προέβλεψε ότι θα βοηθήσουν στο μέλλον να φέρει πιο ουσιαστικές πολυγλωσσικές δυνατότητες στο μοντέλο. Προς το παρόν, το Social Network™️ λέει ότι οι χρήστες δεν πρέπει να περιμένουν τον ίδιο βαθμό απόδοσης σε άλλες γλώσσες εκτός από τα αγγλικά.

Η εκπαίδευση μικρών μοντέλων σε ένα τόσο μεγάλο σύνολο δεδομένων θεωρείται γενικά χάσιμο υπολογιστικού χρόνου, ακόμη και για την παραγωγή μειωμένων αποδόσεων σε ακρίβεια. Ο ιδανικός συνδυασμός δεδομένων εκπαίδευσης για τον υπολογισμό των πόρων αναφέρεται ως «Τσιντσιλά βέλτιστο” [PDF] ποσό. Σύμφωνα με το Meta, για ένα μοντέλο παραμέτρων οκτώ δισεκατομμυρίων όπως το Llama3-8B, αυτό θα ήταν περίπου 200 δισεκατομμύρια μάρκες.

Ωστόσο, σε δοκιμές, ο Meta διαπίστωσε ότι η απόδοση του Llama 3 συνέχισε να βελτιώνεται ακόμα και όταν εκπαιδεύτηκε σε μεγαλύτερα σύνολα δεδομένων. «Τόσο τα μοντέλα παραμέτρων των οκτώ δισεκατομμυρίων όσο και των 70 δισεκατομμυρίων μας συνέχισαν να βελτιώνονται γραμμικά αφού τα εκπαιδεύσαμε σε έως και 15 τρισεκατομμύρια μάρκες», έγραψε η biz.

Το αποτέλεσμα, φαίνεται, είναι ένα σχετικά συμπαγές μοντέλο ικανό να παράγει αποτελέσματα συγκρίσιμα με πολύ μεγαλύτερα μοντέλα. Η αντιστάθμιση στον υπολογισμό θεωρήθηκε πιθανότατα χρήσιμη, καθώς τα μικρότερα μοντέλα είναι γενικά πιο εύκολο να συναχθούν συμπεράσματα και επομένως ευκολότερα να αναπτυχθούν σε κλίμακα.

Με ακρίβεια 8 bit, ένα μοντέλο οκτώ δισεκατομμυρίων παραμέτρων απαιτεί μόνο 8 GB μνήμης. Η πτώση σε ακρίβεια 4-bit – είτε με χρήση υλικού που το υποστηρίζει είτε με χρήση κβαντοποίησης για τη συμπίεση του μοντέλου – θα μείωνε τις απαιτήσεις μνήμης κατά περίπου στο μισό.

Η Meta εκπαίδευσε το μοντέλο σε ένα ζευγάρι συμπλέγματα υπολογιστών που το καθένα περιείχε 24,000 GPU της Nvidia. Όπως μπορείτε να φανταστείτε, η προπόνηση σε ένα τόσο μεγάλο σύμπλεγμα, ενώ είναι πιο γρήγορη, εισάγει επίσης ορισμένες προκλήσεις – η πιθανότητα να αποτύχει κάτι στη μέση μιας προπονητικής διαδρομής αυξάνεται.

Για να μετριαστεί αυτό, η Meta εξήγησε ότι ανέπτυξε μια στοίβα εκπαίδευσης που αυτοματοποιεί τον εντοπισμό, το χειρισμό και τη συντήρηση σφαλμάτων. Ο υπερκλιμακωτής πρόσθεσε επίσης συστήματα παρακολούθησης και αποθήκευσης αστοχιών για να μειώσει την επιβάρυνση του σημείου ελέγχου και την επαναφορά σε περίπτωση διακοπής μιας εκπαιδευτικής διαδρομής. Και μόλις ολοκληρώθηκε, η Meta υπέβαλε τα μοντέλα σε μια σειρά από δοκιμές μετά την εκπαίδευση και βελτιστοποίηση βημάτων.

Μαζί με τα Llama3-8B και 70B, η Meta παρουσίασε επίσης νέα και ενημερωμένα εργαλεία εμπιστοσύνης και ασφάλειας – συμπεριλαμβανομένων των Llama Guard 2 και Cybersec Eval 2, για να βοηθήσουν τους χρήστες να προστατεύσουν το μοντέλο από κατάχρηση ή/και επιθέσεις άμεσης έγχυσης. Το Code Shield είναι μια άλλη προσθήκη που παρέχει προστατευτικά κιγκλιδώματα σχεδιασμένα να βοηθούν στο φιλτράρισμα του μη ασφαλούς κώδικα που δημιουργείται από το Llama 3.

Όπως έχουμε αναφέρει προηγουμένως, η δημιουργία κώδικα με τη βοήθεια LLM οδήγησε σε μερικά ενδιαφέροντα φορείς επίθεσης που ο Μέτα θέλει να αποφύγει.

Διαθεσιμότητα

Τους επόμενους μήνες, η Meta σχεδιάζει να κυκλοφορήσει πρόσθετα μοντέλα – συμπεριλαμβανομένου ενός που ξεπερνά τα 400 δισεκατομμύρια παραμέτρων και υποστηρίζει πρόσθετες λειτουργίες, γλώσσες και μεγαλύτερα παράθυρα περιβάλλοντος. Το τελευταίο θα επιτρέπει στους χρήστες να κάνουν μεγαλύτερα, πιο σύνθετα ερωτήματα – όπως η σύνοψη ενός μεγάλου μπλοκ κειμένου.

Τα Llama3-8B και 70B είναι προς το παρόν διαθέσιμα για λήψη από το Meta's . Οι υπηρεσίες Web Amazon, Microsoft Azure, Google Cloud, Hugging Face και άλλοι σκοπεύουν επίσης να προσφέρουν το μοντέλο για ανάπτυξη στις πλατφόρμες τους.

Εάν θέλετε να δοκιμάσετε το Llama3 στον υπολογιστή σας, μπορείτε να ανατρέξετε στον οδηγό μας για την εκτέλεση τοπικών LLM εδώ. Αφού το εγκαταστήσετε, μπορείτε να το εκκινήσετε εκτελώντας:

ολάμα τρέχω λάμα3

Καλή διασκέδαση και πείτε μας πώς πήγε. ®

Σφραγίδα ώρας:

Περισσότερα από Το μητρώο