Το επόμενης γενιάς μοντέλο τεχνητής νοημοσύνης της Anthropic, Claude 3 Opus, κατέλαβε την πρώτη θέση στον πίνακα κορυφαίων Chatbot Arena, ωθώντας το GPT-4 του OpenAI στη δεύτερη καλύτερη θέση.
Από τότε που κυκλοφόρησε πέρυσι, αυτή είναι η πρώτη φορά που το μοντέλο Claude 3 Opus βρίσκεται στην κορυφή της λίστας Chatbot Arena, όπου και οι τρεις εκδόσεις Claud 3 κατατάσσονται στις πρώτες 10.
Τα μοντέλα Claude 3 κάνουν ένα σημάδι
Το LMSYS Chatbot Arena Οι κατατάξεις δείχνουν ότι το Claude 3 Sonnet κατέλαβε την τέταρτη θέση από κοινού με το Gemini Pro ενώ το Claude 3 Haiku, το οποίο κυκλοφόρησε φέτος κατέλαβε την έκτη θέση μαζί με μια προηγούμενη έκδοση του GPT-4.
Αν και Claude 3 Haiku μπορεί να μην είναι τόσο έξυπνο όσο το Sonnet ή το Opus, το μοντέλο είναι πιο γρήγορο και σημαντικά φθηνότερο, ωστόσο είναι «το ίδιο καλό με τα πολύ μεγαλύτερα μοντέλα σε τυφλά τεστ», όπως αποκαλύπτουν τα αποτελέσματα της αρένας.
«Το Claude 3 Haiku έχει εντυπωσιάσει όλους, ακόμη και φτάνοντας το επίπεδο GPT-4 από τις προτιμήσεις των χρηστών μας! Η ταχύτητα, οι δυνατότητές του και το μήκος του πλαισίου είναι ασύγκριτα τώρα στην αγορά», εξήγησε η LMSYS.
Σύμφωνα με το Tom's Guide, αυτό που κάνει το Haiku πιο εντυπωσιακό είναι ότι είναι το «μοντέλο τοπικού μεγέθους συγκρίσιμο με το Gemini Nano». Μπορεί να διαβάζει και να επεξεργάζεται έρευνα με πυκνότητα πληροφοριών χαρτιά σε λιγότερο από τρία δευτερόλεπτα.
Το μοντέλο επιτυγχάνει εξαιρετικά αποτελέσματα ακόμη και χωρίς κλίμακα παραμέτρων τρισεκατομμυρίων συν του Opus ή οποιουδήποτε από τα μοντέλα της κατηγορίας GPT-4.
[Ενημέρωση Arena]
70+ νέες ψήφοι Arena🗳️ είναι μέσα!
Το Claude-3 Haiku έχει εντυπωσιάσει όλους, ακόμη και φτάνοντας το επίπεδο GPT-4 από τις προτιμήσεις των χρηστών μας! Η ταχύτητα, οι δυνατότητές του και το μήκος του πλαισίου είναι ασύγκριτα τώρα στην αγορά🔥
συγχαρητήρια @AnthropicAI στην απίστευτη εκτόξευση του Claude-3!
Πιο συναρπαστικό… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) Μαρτίου 26, 2024
Θα μπορούσε να είναι μια βραχύβια επιτυχία;
Παρά την ώθησή τους στη δεύτερη θέση, οι εκδόσεις GPT-4 του OpenAI εξακολουθούν να κυριαρχούν στις 10 πρώτες θέσεις της λίστας με τέσσερις εκδόσεις.
Σύμφωνα με Ο Οδηγός του Tom, οι εκδόσεις GPT-4 του OpenAI στις διάφορες μορφές τους κατέχουν την πρώτη θέση «για τόσο πολύ καιρό που κάθε άλλο μοντέλο που πλησιάζει τα σημεία αναφοράς του είναι γνωστό ως μοντέλο κατηγορίας GPT-4».
Με ένα «εξαιρετικά διαφορετικό» GPT-5 να αναμένεται κάποια στιγμή φέτος, η Anthropic μπορεί να μην κρατήσει αυτή τη θέση για πολύ καιρό, καθώς η διαφορά στις βαθμολογίες μεταξύ Claude 3 Opus και GPT-4 είναι περιορισμένη.
Αν και το OpenAI έχει μείνει σιωπηλό στην πραγματική κυκλοφορία του GPT-5, η αγορά προσδοκά ιδιαίτερα την κυκλοφορία του. Το μοντέλο φέρεται να υφίσταται κάποια «Αυστηρές δοκιμές ασφαλείας» και προσομοιωμένες επιθέσεις που είναι κρίσιμες πριν την κυκλοφορία.
Το LMSYS Chatbot Arena
Αυτή η κατάταξη βασίζεται σε ανθρώπινες ψήφους, σε αντίθεση με άλλες μορφές συγκριτικής αξιολόγησης για μοντέλα τεχνητής νοημοσύνης. Με αυτό, οι άνθρωποι βαθμολογούν τυφλά την έξοδο δύο διαφορετικών μοντέλων στην ίδια προτροπή.
Το Chatbot Arena διευθύνεται από την LMSYS και διαθέτει μια σειρά από μεγάλα μοντέλα γλώσσας (LLM) που το μάχονται σε «ανώνυμες τυχαιοποιημένες μάχες».
Κυκλοφόρησε για πρώτη φορά τον περασμένο Μάιο και έχει συγκεντρώσει περισσότερες από 400,000 ψήφους από χρήστες που διαθέτουν μοντέλα τεχνητής νοημοσύνης από την Google, την Anthropic και OpenAI.
«Το LMSYS Chatbot Arena είναι μια ανοιχτή πλατφόρμα πληθυσμιακής προέλευσης για αξιολογητές LLM. Συγκεντρώσαμε πάνω από 400,000 ψήφους ανθρώπινης προτίμησης για την κατάταξη των LLM με το σύστημα κατάταξης Elo», δήλωσε η LMSYS.
Το σύστημα Elo χρησιμοποιείται κυρίως σε παιχνίδια όπως το σκάκι για την αξιολόγηση της σχετικής ικανότητας ενός παίκτη. Αλλά σε αυτήν την περίπτωση, η κατάταξη εφαρμόζεται στο chatbot και όχι στον άνθρωπο που χρησιμοποιεί το μοντέλο.
Διαβάστε επίσης: Η Microsoft αποκαλύπτει τους «πρώτους» υπολογιστές Surface με κουμπί Copilot AI
Οι ελλείψεις
Η κατάταξη του Chatbot Arena δεν έχει λάθη. Σύμφωνα με το Tom's Guide, δεν περιλαμβάνει όλα τα μοντέλα ή τις εκδόσεις των μοντέλων που περιλαμβάνονται, ενώ οι χρήστες έχουν μερικές φορές κακές εμπειρίες με το GPT-4 που αποτυγχάνει να φορτώσει. Μπορεί επίσης να ευνοήσει ορισμένα μοντέλα που έχουν ζωντανή πρόσβαση στο διαδίκτυο, για παράδειγμα το Google Gemini Pro.
Ενώ άλλα μοντέλα όπως αυτά της γαλλικής startup τεχνητής νοημοσύνης Mistral Και κινεζικές εταιρείες όπως η Alibaba έφτασαν πρόσφατα στις κορυφαίες θέσεις στην αρένα, εκτός από τα μοντέλα ανοιχτού κώδικα, η αρένα εξακολουθεί να χάνει μερικά μοντέλα υψηλού προφίλ. Για παράδειγμα, λείπουν μοντέλα όπως το Gemini Pro 1.5 της Google
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/
- :έχει
- :είναι
- :δεν
- 000
- 1
- 10
- 14
- 26%
- 400
- 7
- 8
- 9
- a
- πρόσβαση
- Σύμφωνα με
- την επίτευξη
- πραγματικός
- Επιπλέον
- AI
- Μοντέλα AI
- Alibaba
- Όλα
- Επίσης
- an
- και
- Ανθρωπικός
- αναμένει
- κάθε
- εφαρμοσμένος
- ΕΙΝΑΙ
- Αρένα
- AS
- Επιθέσεις
- Κακός
- μάχες
- μάχες
- BE
- πριν
- είναι
- συγκριτικής αξιολόγησης
- αναφοράς
- ΚΑΛΎΤΕΡΟΣ
- μεταξύ
- αλλά
- by
- CAN
- δυνατότητες
- περίπτωση
- chatbot
- φτηνότερος
- Σκάκι
- κινέζικο
- Κλεισιμο
- ερχομός
- συγκρίσιμος
- συμφραζόμενα
- κρίσιμος
- διαφορετικές
- κάνει
- κυριαρχούσε
- Νωρίτερα
- αξιολογήσει
- Even
- αναμένεται
- Δραστηριοτητες
- εξήγησε
- παραλείποντας
- γρηγορότερα
- σφάλματα
- ευνοούν
- Χαρακτηριστικά
- επιχειρήσεις
- Όνομα
- πρώτη φορά
- Για
- μορφές
- τέσσερα
- Τέταρτος
- Γαλλικά
- από
- Games
- χάσμα
- Gemini
- γενεά
- καλός
- Της Google
- εξαιρετική
- καθοδηγήσει
- Έχω
- Ήρωας
- Ψηλά
- υψηλά
- κρατήστε
- οικοδεσπότης
- HTTPS
- ανθρώπινος
- εντυπωσιασμένος
- εντυπωσιακός
- in
- περιλαμβάνουν
- περιλαμβάνονται
- απίστευτη
- παράδειγμα
- Έξυπνος
- Internet
- Πρόσβαση στο Ίντερνετ
- IT
- ΤΟΥ
- άρθρωση
- jpeg
- γνωστός
- Γλώσσα
- large
- μεγαλύτερος
- Επίθετο
- Πέρυσι
- ξεκινήσει
- ξεκίνησε
- leaderboard
- Μήκος
- μείον
- Επίπεδο
- Μου αρέσει
- Λιστα
- ζω
- LLM
- φορτίο
- Μακριά
- που
- κάνω
- ΚΑΝΕΙ
- αγορά
- Ενδέχεται..
- ενδέχεται να
- χάνει
- Λείπει
- μοντέλο
- μοντέλα
- περισσότερο
- ως επί το πλείστον
- πολύ
- nano
- στενός
- Νέα
- επόμενη
- τώρα
- of
- on
- ONE
- ανοίξτε
- ανοικτού κώδικα
- OpenAI
- αντίθετος
- or
- ΑΛΛΑ
- δικός μας
- έξω
- παραγωγή
- επί
- χαρτιά
- παράμετρος
- υπολογιστές
- People
- πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- παίχτης
- συν
- θέση
- Pro
- διαδικασια μας
- Προφίλ ⬇️
- πίεσε
- Δραστήριος
- Τυχαία
- κατατάσσουν
- κατάταξη
- Κατάταξη
- φθάνοντας
- Διάβασε
- πρόσφατα
- σχετικής
- απελευθερώνουν
- στη συνέχεια συναρμολογούνται
- παρέμεινε
- σύμφωνα με πληροφορίες
- Αποτελέσματα
- αποκαλύπτω
- Αποκαλύπτει
- τρέξιμο
- Ασφάλεια
- Είπε
- ίδιο
- Κλίμακα
- αποτελέσματα
- Δεύτερος
- δευτερόλεπτα
- Κοντά
- δείχνουν
- σημαντικά
- έκτος
- Μέγεθος
- επιδεξιότητα
- So
- μερικοί
- μερικές φορές
- ταχύτητα
- Spot
- κηλίδες
- εκκίνηση
- Ακόμη
- επιτυχία
- Επιφάνεια
- σύστημα
- λαμβάνεται
- παίρνει
- δοκιμές
- από
- ότι
- Η
- τους
- αυτό
- φέτος
- εκείνοι
- τρία
- ώρα
- προς την
- μαζι
- πολύ
- κορυφή
- Top 10
- ολοκληρώθηκε
- Τρισεκατομμύριο
- αληθής
- Τουίτερ
- δύο
- υποβάλλονται
- απαράμιλλος
- Ενημέρωση
- μεταχειρισμένος
- Χρήστες
- Χρήστες
- χρησιμοποιώντας
- διάφορα
- εκδοχή
- εκδόσεις
- ψηφοφορίες
- ήταν
- Τρόπος..
- Τι
- Ποιό
- ενώ
- με
- χωρίς
- έτος
- ακόμη
- zephyrnet