Η Meta κυκλοφόρησε το τελευταίο της μοντέλο μεγάλης γλώσσας (LLM) – που ονομάζεται Llama 3 – και ισχυρίζεται ότι θα αμφισβητήσει πολύ μεγαλύτερα μοντέλα όπως η Google, η Mistral και η Anthropic.
Αποκαλύφθηκε σε μια μακροσκελή ανακοίνωση Την Πέμπτη, το Llama 3 είναι διαθέσιμο σε εκδόσεις που κυμαίνονται από οκτώ δισεκατομμύρια έως πάνω από 400 δισεκατομμύρια παραμέτρους. Για αναφορά, το OpenAI και τα μεγαλύτερα μοντέλα της Google πλησιάζουν τα δύο τρισεκατομμύρια παραμέτρους.
Προς το παρόν, έχουμε πρόσβαση μόνο στις παραλλαγές κειμένου των οκτώ δισεκατομμυρίων και 3 δισεκατομμυρίων παραμέτρων του Llama 70. Η Meta δεν έχει ολοκληρώσει ακόμα την εκπαίδευση των μεγαλύτερων και πιο πολύπλοκων μοντέλων της, αλλά υπονοεί ότι θα είναι πολύγλωσσα και πολυτροπικά – που σημαίνει ότι έχουν συναρμολογηθεί από πολλά μικρότερα μοντέλα βελτιστοποιημένα για τομέα.
Ακόμη και με μόλις 70 δισεκατομμύρια παραμέτρους, η Meta ισχυρίζεται ότι το Llama 3 είναι κάτι παραπάνω από ικανό να πάει από τα δάχτυλα στα νύχια με πολύ μεγαλύτερα μοντέλα.
Η Meta ισχυρίζεται ότι τα Llama3-8B και 70B μπορούν να ξεπεράσουν πολύ μεγαλύτερα μοντέλα, όπως το Gemini Pro και το Antrhopic's Claude 3 – Κάντε κλικ για μεγέθυνση
Καλύτερα δεδομένα, καλύτερο μοντέλο
Ένα από τα μεγαλύτερα κέρδη, σύμφωνα με το Meta, προέρχεται από τη χρήση ενός tokenizer με λεξιλόγιο 128,000 tokens. Στο πλαίσιο των LLM, τα διακριτικά μπορεί να είναι μερικοί χαρακτήρες, ολόκληρες λέξεις ή ακόμα και φράσεις. Τα AI διασπούν την ανθρώπινη είσοδο σε μάρκες και στη συνέχεια χρησιμοποιούν το λεξιλόγιό τους με διακριτικά για να δημιουργήσουν έξοδο.
Η Meta εξήγησε ότι το tokenizer της βοηθά στην πιο αποτελεσματική κωδικοποίηση της γλώσσας, ενισχύοντας σημαντικά την απόδοση. Επιτεύχθηκαν πρόσθετα κέρδη με τη χρήση συνόλων δεδομένων υψηλότερης ποιότητας και πρόσθετων βημάτων λεπτομέρειας μετά την εκπαίδευση για τη βελτίωση της απόδοσης και της συνολικής ακρίβειας του μοντέλου.
Συγκεκριμένα, η Meta αποκάλυψε ότι το Llama 3 ήταν προεκπαιδευμένο σε περισσότερα από 15 τρισεκατομμύρια μάρκες που συλλέχθηκαν από δημόσια διαθέσιμες πηγές.
Το σύνολο δεδομένων εκπαίδευσης του Llama 3 είναι περισσότερο από επτά φορές μεγαλύτερο και περιέχει τέσσερις φορές περισσότερο κώδικα από το Llama 2, το οποίο ξεκίνησε μόλις πριν από εννέα μήνες. Αλλά, όπως λέει και η παροιμία, "σκουπίδια μέσα, σκουπίδια έξω" - έτσι η Meta ισχυρίζεται ότι ανέπτυξε μια σειρά από αγωγούς φιλτραρίσματος δεδομένων για να εξασφαλίσει ότι το Llama 3 εκπαιδεύτηκε σε όσο το δυνατόν λιγότερες κακές πληροφορίες.
Αυτοί οι ποιοτικοί έλεγχοι περιλάμβαναν τόσο ευρετικά φίλτρα όσο και NSFW, καθώς και αντιγραφή δεδομένων και ταξινομητές κειμένου που χρησιμοποιούνται για την πρόβλεψη της ποιότητας των πληροφοριών πριν από την εκπαίδευση. Η Meta χρησιμοποίησε ακόμη και το παλαιότερο μοντέλο της Llama 2 - το οποίο είπε ότι ήταν "αναπάντεχα καλό στον εντοπισμό δεδομένων υψηλής ποιότητας" - για να βοηθήσει στο διαχωρισμό του σίτου από την ήρα.
Πέντε τοις εκατό των δεδομένων εκπαίδευσης προέρχονταν από περισσότερες από 30 γλώσσες, κάτι που ο Meta προέβλεψε ότι θα βοηθήσουν στο μέλλον να φέρει πιο ουσιαστικές πολυγλωσσικές δυνατότητες στο μοντέλο. Προς το παρόν, το Social Network™️ λέει ότι οι χρήστες δεν πρέπει να περιμένουν τον ίδιο βαθμό απόδοσης σε άλλες γλώσσες εκτός από τα αγγλικά.
Η εκπαίδευση μικρών μοντέλων σε ένα τόσο μεγάλο σύνολο δεδομένων θεωρείται γενικά χάσιμο υπολογιστικού χρόνου, ακόμη και για την παραγωγή μειωμένων αποδόσεων σε ακρίβεια. Ο ιδανικός συνδυασμός δεδομένων εκπαίδευσης για τον υπολογισμό των πόρων αναφέρεται ως «Τσιντσιλά βέλτιστο” [PDF] ποσό. Σύμφωνα με το Meta, για ένα μοντέλο παραμέτρων οκτώ δισεκατομμυρίων όπως το Llama3-8B, αυτό θα ήταν περίπου 200 δισεκατομμύρια μάρκες.
Ωστόσο, σε δοκιμές, ο Meta διαπίστωσε ότι η απόδοση του Llama 3 συνέχισε να βελτιώνεται ακόμα και όταν εκπαιδεύτηκε σε μεγαλύτερα σύνολα δεδομένων. «Τόσο τα μοντέλα παραμέτρων των οκτώ δισεκατομμυρίων όσο και των 70 δισεκατομμυρίων μας συνέχισαν να βελτιώνονται γραμμικά αφού τα εκπαιδεύσαμε σε έως και 15 τρισεκατομμύρια μάρκες», έγραψε η biz.
Το αποτέλεσμα, φαίνεται, είναι ένα σχετικά συμπαγές μοντέλο ικανό να παράγει αποτελέσματα συγκρίσιμα με πολύ μεγαλύτερα μοντέλα. Η αντιστάθμιση στον υπολογισμό θεωρήθηκε πιθανότατα χρήσιμη, καθώς τα μικρότερα μοντέλα είναι γενικά πιο εύκολο να συναχθούν συμπεράσματα και επομένως ευκολότερα να αναπτυχθούν σε κλίμακα.
Με ακρίβεια 8 bit, ένα μοντέλο οκτώ δισεκατομμυρίων παραμέτρων απαιτεί μόνο 8 GB μνήμης. Η πτώση σε ακρίβεια 4-bit – είτε με χρήση υλικού που το υποστηρίζει είτε με χρήση κβαντοποίησης για τη συμπίεση του μοντέλου – θα μείωνε τις απαιτήσεις μνήμης κατά περίπου στο μισό.
Η Meta εκπαίδευσε το μοντέλο σε ένα ζευγάρι συμπλέγματα υπολογιστών που το καθένα περιείχε 24,000 GPU της Nvidia. Όπως μπορείτε να φανταστείτε, η προπόνηση σε ένα τόσο μεγάλο σύμπλεγμα, ενώ είναι πιο γρήγορη, εισάγει επίσης ορισμένες προκλήσεις – η πιθανότητα να αποτύχει κάτι στη μέση μιας προπονητικής διαδρομής αυξάνεται.
Για να μετριαστεί αυτό, η Meta εξήγησε ότι ανέπτυξε μια στοίβα εκπαίδευσης που αυτοματοποιεί τον εντοπισμό, το χειρισμό και τη συντήρηση σφαλμάτων. Ο υπερκλιμακωτής πρόσθεσε επίσης συστήματα παρακολούθησης και αποθήκευσης αστοχιών για να μειώσει την επιβάρυνση του σημείου ελέγχου και την επαναφορά σε περίπτωση διακοπής μιας εκπαιδευτικής διαδρομής. Και μόλις ολοκληρώθηκε, η Meta υπέβαλε τα μοντέλα σε μια σειρά από δοκιμές μετά την εκπαίδευση και βελτιστοποίηση βημάτων.
Μαζί με τα Llama3-8B και 70B, η Meta παρουσίασε επίσης νέα και ενημερωμένα εργαλεία εμπιστοσύνης και ασφάλειας – συμπεριλαμβανομένων των Llama Guard 2 και Cybersec Eval 2, για να βοηθήσουν τους χρήστες να προστατεύσουν το μοντέλο από κατάχρηση ή/και επιθέσεις άμεσης έγχυσης. Το Code Shield είναι μια άλλη προσθήκη που παρέχει προστατευτικά κιγκλιδώματα σχεδιασμένα να βοηθούν στο φιλτράρισμα του μη ασφαλούς κώδικα που δημιουργείται από το Llama 3.
Όπως έχουμε αναφέρει προηγουμένως, η δημιουργία κώδικα με τη βοήθεια LLM οδήγησε σε μερικά ενδιαφέροντα φορείς επίθεσης που ο Μέτα θέλει να αποφύγει.
Διαθεσιμότητα
Τους επόμενους μήνες, η Meta σχεδιάζει να κυκλοφορήσει πρόσθετα μοντέλα – συμπεριλαμβανομένου ενός που ξεπερνά τα 400 δισεκατομμύρια παραμέτρων και υποστηρίζει πρόσθετες λειτουργίες, γλώσσες και μεγαλύτερα παράθυρα περιβάλλοντος. Το τελευταίο θα επιτρέπει στους χρήστες να κάνουν μεγαλύτερα, πιο σύνθετα ερωτήματα – όπως η σύνοψη ενός μεγάλου μπλοκ κειμένου.
Τα Llama3-8B και 70B είναι προς το παρόν διαθέσιμα για λήψη από το Meta's . Οι υπηρεσίες Web Amazon, Microsoft Azure, Google Cloud, Hugging Face και άλλοι σκοπεύουν επίσης να προσφέρουν το μοντέλο για ανάπτυξη στις πλατφόρμες τους.
Εάν θέλετε να δοκιμάσετε το Llama3 στον υπολογιστή σας, μπορείτε να ανατρέξετε στον οδηγό μας για την εκτέλεση τοπικών LLM εδώ. Αφού το εγκαταστήσετε, μπορείτε να το εκκινήσετε εκτελώντας:
ολάμα τρέχω λάμα3
Καλή διασκέδαση και πείτε μας πώς πήγε. ®
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://go.theregister.com/feed/www.theregister.com/2024/04/19/meta_debuts_llama3_llm/
- :έχει
- :είναι
- $UP
- 000
- 15%
- 200
- 200 δις
- 24
- 30
- 400
- 7
- 70
- a
- Σχετικα
- κατάχρηση
- πρόσβαση
- Σύμφωνα με
- ακρίβεια
- επιτευχθεί
- προστιθέμενη
- Επιπλέον
- Πρόσθετος
- πρόσθετα κέρδη
- Μετά το
- πριν
- ais
- επιτρέπουν
- Επίσης
- Amazon
- Amazon υπηρεσίες Web
- ποσό
- an
- και
- Άλλος
- Ανθρωπικός
- ΕΙΝΑΙ
- AS
- ζητώ
- συναρμολογούνται
- At
- Επιθέσεις
- αυτοκίνητα
- διαθέσιμος
- αποφύγετε
- Γαλανός
- Κακός
- BE
- Καλύτερα
- Μεγαλύτερη
- Δισεκατομμύριο
- Δισεκατομμύρια μάρκες
- biz
- Αποκλεισμός
- ενίσχυση
- σύνορο
- και οι δύο
- Διακοπή
- φέρω
- αλλά
- by
- ήρθε
- CAN
- δυνατότητες
- ικανός
- περίπτωση
- πρόκληση
- προκλήσεις
- χαρακτήρες
- έλεγχος
- αξιώσεις
- κλικ
- Backup
- συστάδα
- CO
- κωδικός
- έρχεται
- συμπαγής
- συγκρίσιμος
- Ολοκληρώθηκε το
- συγκρότημα
- Υπολογίστε
- χρήση υπολογιστή
- θεωρούνται
- Περιέχει
- συμφραζόμενα
- συνέχισε
- ελέγχους
- Τη στιγμή
- ημερομηνία
- σύνολα δεδομένων
- Ντεμπούτα
- Πτυχίο
- παρατάσσω
- ανάπτυξη
- σχεδιασμένα
- Ανίχνευση
- αναπτύχθηκε
- μειώνοντας
- γίνεται
- κάτω
- κατεβάσετε
- Πτώση
- Ρίψη
- κάθε
- ευκολότερη
- αποτελεσματικά
- οκτώ
- είτε
- Αγγλικά
- εξασφαλίζω
- σφάλμα
- Even
- υπερβολικός
- αναμένω
- εξήγησε
- Πρόσωπο
- παραλείποντας
- Αποτυχία
- μακριά
- γρηγορότερα
- λίγοι
- φιλτράρισμα
- Φίλτρα
- Για
- Βρέθηκαν
- τέσσερα
- από
- διασκέδαση
- λειτουργικότητα
- μελλοντικός
- κέρδη
- Gemini
- γενικά
- παράγουν
- παράγεται
- παραγωγής
- γενεά
- να πάρει
- πηγαίνει
- μετάβαση
- καλός
- Google Cloud
- πήρε
- GPU
- φρουρά
- καθοδηγήσει
- Ήμισυ
- Χειρισμός
- υλικού
- βοήθεια
- βοηθά
- υψηλής ποιότητας
- υποδείξεις
- Πως
- HTTPS
- ανθρώπινος
- ιδανικό
- προσδιορισμό
- φαντάζομαι
- βελτίωση
- in
- περιλαμβάνονται
- Συμπεριλαμβανομένου
- Αυξήσεις
- πληροφορίες
- εισαγωγή
- ανασφαλής
- εγκατασταθεί
- ενδιαφέρον
- διακόπτεται
- σε
- Εισάγει
- isn
- IT
- ΤΟΥ
- jpg
- μόλις
- Ξέρω
- Γλώσσα
- Γλώσσες
- large
- μεγαλύτερος
- μεγαλύτερη
- αργότερο
- ξεκινήσει
- Led
- ας
- Μου αρέσει
- πιθανότητα
- Πιθανός
- συμπαθεί
- λίγο
- Είδος μικρής καμήλας
- LLM
- τοπικός
- κοιτάζοντας
- μηχανή
- συντήρηση
- νόημα
- Μνήμη
- καταναλωτές
- Meta
- Microsoft
- Η Microsoft Azure
- Μέσο
- ενδέχεται να
- Μετριάζω
- μείγμα
- μοντέλο
- μοντέλα
- παρακολούθηση
- μήνες
- περισσότερο
- πλέον
- πολύ
- πολλαπλούς
- Ονομάστηκε
- πλησιάζοντας
- Νέα
- επόμενη
- εννέα
- τώρα
- NSFW
- Nvidia
- of
- προσφορά
- ηλικιωμένων
- on
- μια φορά
- ONE
- αποκλειστικά
- OpenAI
- or
- ΑΛΛΑ
- Άλλα
- δικός μας
- έξω
- Ξεπερνώ
- παραγωγή
- επί
- φόρμες
- εναέρια
- ζεύγος
- παράμετρος
- παράμετροι
- τοις εκατό
- επίδοση
- φράσεις
- σχέδιο
- φώναξε
- Πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- δυνατός
- Ακρίβεια
- προβλέψει
- προβλεπόμενη
- προηγουμένως
- Πριν
- Pro
- παράγει
- παρέχει
- δημοσίως
- ποιότητα
- ερωτήματα
- κυμαίνεται
- RE
- μείωση
- αναφορά
- αναφέρεται
- σχετικά
- αναφέρθηκαν
- απαιτήσεις
- Απαιτεί
- Υποστηρικτικό υλικό
- αποτέλεσμα
- Αποτελέσματα
- Επιστροφές
- Αποκαλυφθε'ντα
- Ρολό
- Έλασης
- τρέξιμο
- τρέξιμο
- s
- προστασία
- Ασφάλεια
- Είπε
- ίδιο
- ρητό
- λέει
- Κλίμακα
- φαίνεται
- ξεχωριστό
- Σειρές
- Υπηρεσίες
- επτά
- Ασπίδα
- σημαντικά
- small
- μικρότερος
- So
- Μ.Κ.Δ
- μερικοί
- κάτι
- Πηγές
- σωρός
- Βήματα
- χώρος στο δίσκο
- ουσιώδης
- τέτοιος
- Στήριξη
- Υποστηρίζει
- εκπληκτικώς
- συστήματα
- δοκιμή
- Δοκιμές
- κείμενο
- από
- ότι
- Η
- οι πληροφορίες
- τους
- Τους
- τότε
- αυτοί
- αυτό
- Πέμπτη
- Ετσι
- ώρα
- φορές
- προς την
- κουπόνια
- εργαλεία
- εκπαιδευμένο
- Εκπαίδευση
- Τρισεκατομμύριο
- Εμπιστευθείτε
- δύο
- απελευθερωμένος
- ενημερώθηκε
- us
- χρήση
- μεταχειρισμένος
- Χρήστες
- χρησιμοποιώντας
- Ve
- εκδόσεις
- θέλω
- ήταν
- Απόβλητα
- we
- ιστός
- διαδικτυακές υπηρεσίες
- ΛΟΙΠΌΝ
- πήγε
- ήταν
- πότε
- Ποιό
- ενώ
- ολόκληρο
- θα
- παράθυρα
- με
- λόγια
- που αξίζει τον κόπο
- θα
- Έγραψε
- ακόμη
- Εσείς
- Σας
- zephyrnet