Το Claude 3 Opus καταλαμβάνει την κορυφαία θέση στις κατατάξεις Chatbot

Το Claude 3 Opus καταλαμβάνει την κορυφαία θέση στις κατατάξεις Chatbot

Το Claude 3 Opus καταλαμβάνει την κορυφαία θέση στην κατάταξη Chatbot Το PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το επόμενης γενιάς μοντέλο τεχνητής νοημοσύνης της Anthropic, Claude 3 Opus, κατέλαβε την πρώτη θέση στον πίνακα κορυφαίων Chatbot Arena, ωθώντας το GPT-4 του OpenAI στη δεύτερη καλύτερη θέση.

Από τότε που κυκλοφόρησε πέρυσι, αυτή είναι η πρώτη φορά που το μοντέλο Claude 3 Opus βρίσκεται στην κορυφή της λίστας Chatbot Arena, όπου και οι τρεις εκδόσεις Claud 3 κατατάσσονται στις πρώτες 10.

Τα μοντέλα Claude 3 κάνουν ένα σημάδι

Το LMSYS Chatbot Arena Οι κατατάξεις δείχνουν ότι το Claude 3 Sonnet κατέλαβε την τέταρτη θέση από κοινού με το Gemini Pro ενώ το Claude 3 Haiku, το οποίο κυκλοφόρησε φέτος κατέλαβε την έκτη θέση μαζί με μια προηγούμενη έκδοση του GPT-4.

Αν και Claude 3 Haiku μπορεί να μην είναι τόσο έξυπνο όσο το Sonnet ή το Opus, το μοντέλο είναι πιο γρήγορο και σημαντικά φθηνότερο, ωστόσο είναι «το ίδιο καλό με τα πολύ μεγαλύτερα μοντέλα σε τυφλά τεστ», όπως αποκαλύπτουν τα αποτελέσματα της αρένας.

«Το Claude 3 Haiku έχει εντυπωσιάσει όλους, ακόμη και φτάνοντας το επίπεδο GPT-4 από τις προτιμήσεις των χρηστών μας! Η ταχύτητα, οι δυνατότητές του και το μήκος του πλαισίου είναι ασύγκριτα τώρα στην αγορά», εξήγησε η LMSYS.

Σύμφωνα με το Tom's Guide, αυτό που κάνει το Haiku πιο εντυπωσιακό είναι ότι είναι το «μοντέλο τοπικού μεγέθους συγκρίσιμο με το Gemini Nano». Μπορεί να διαβάζει και να επεξεργάζεται έρευνα με πυκνότητα πληροφοριών χαρτιά σε λιγότερο από τρία δευτερόλεπτα.

Το μοντέλο επιτυγχάνει εξαιρετικά αποτελέσματα ακόμη και χωρίς κλίμακα παραμέτρων τρισεκατομμυρίων συν του Opus ή οποιουδήποτε από τα μοντέλα της κατηγορίας GPT-4.

Θα μπορούσε να είναι μια βραχύβια επιτυχία;

Παρά την ώθησή τους στη δεύτερη θέση, οι εκδόσεις GPT-4 του OpenAI εξακολουθούν να κυριαρχούν στις 10 πρώτες θέσεις της λίστας με τέσσερις εκδόσεις.

Σύμφωνα με Ο Οδηγός του Tom, οι εκδόσεις GPT-4 του OpenAI στις διάφορες μορφές τους κατέχουν την πρώτη θέση «για τόσο πολύ καιρό που κάθε άλλο μοντέλο που πλησιάζει τα σημεία αναφοράς του είναι γνωστό ως μοντέλο κατηγορίας GPT-4».

Με ένα «εξαιρετικά διαφορετικό» GPT-5 να αναμένεται κάποια στιγμή φέτος, η Anthropic μπορεί να μην κρατήσει αυτή τη θέση για πολύ καιρό, καθώς η διαφορά στις βαθμολογίες μεταξύ Claude 3 Opus και GPT-4 είναι περιορισμένη.

Αν και το OpenAI έχει μείνει σιωπηλό στην πραγματική κυκλοφορία του GPT-5, η αγορά προσδοκά ιδιαίτερα την κυκλοφορία του. Το μοντέλο φέρεται να υφίσταται κάποια «Αυστηρές δοκιμές ασφαλείας» και προσομοιωμένες επιθέσεις που είναι κρίσιμες πριν την κυκλοφορία.

Το LMSYS Chatbot Arena

Αυτή η κατάταξη βασίζεται σε ανθρώπινες ψήφους, σε αντίθεση με άλλες μορφές συγκριτικής αξιολόγησης για μοντέλα τεχνητής νοημοσύνης. Με αυτό, οι άνθρωποι βαθμολογούν τυφλά την έξοδο δύο διαφορετικών μοντέλων στην ίδια προτροπή.

Το Chatbot Arena διευθύνεται από την LMSYS και διαθέτει μια σειρά από μεγάλα μοντέλα γλώσσας (LLM) που το μάχονται σε «ανώνυμες τυχαιοποιημένες μάχες».

Κυκλοφόρησε για πρώτη φορά τον περασμένο Μάιο και έχει συγκεντρώσει περισσότερες από 400,000 ψήφους από χρήστες που διαθέτουν μοντέλα τεχνητής νοημοσύνης από την Google, την Anthropic και OpenAI.

«Το LMSYS Chatbot Arena είναι μια ανοιχτή πλατφόρμα πληθυσμιακής προέλευσης για αξιολογητές LLM. Συγκεντρώσαμε πάνω από 400,000 ψήφους ανθρώπινης προτίμησης για την κατάταξη των LLM με το σύστημα κατάταξης Elo», δήλωσε η LMSYS.

Το σύστημα Elo χρησιμοποιείται κυρίως σε παιχνίδια όπως το σκάκι για την αξιολόγηση της σχετικής ικανότητας ενός παίκτη. Αλλά σε αυτήν την περίπτωση, η κατάταξη εφαρμόζεται στο chatbot και όχι στον άνθρωπο που χρησιμοποιεί το μοντέλο.

Διαβάστε επίσης: Η Microsoft αποκαλύπτει τους «πρώτους» υπολογιστές Surface με κουμπί Copilot AI

Οι ελλείψεις

Η κατάταξη του Chatbot Arena δεν έχει λάθη. Σύμφωνα με το Tom's Guide, δεν περιλαμβάνει όλα τα μοντέλα ή τις εκδόσεις των μοντέλων που περιλαμβάνονται, ενώ οι χρήστες έχουν μερικές φορές κακές εμπειρίες με το GPT-4 που αποτυγχάνει να φορτώσει. Μπορεί επίσης να ευνοήσει ορισμένα μοντέλα που έχουν ζωντανή πρόσβαση στο διαδίκτυο, για παράδειγμα το Google Gemini Pro.

Ενώ άλλα μοντέλα όπως αυτά της γαλλικής startup τεχνητής νοημοσύνης Mistral Και κινεζικές εταιρείες όπως η Alibaba έφτασαν πρόσφατα στις κορυφαίες θέσεις στην αρένα, εκτός από τα μοντέλα ανοιχτού κώδικα, η αρένα εξακολουθεί να χάνει μερικά μοντέλα υψηλού προφίλ. Για παράδειγμα, λείπουν μοντέλα όπως το Gemini Pro 1.5 της Google

Σφραγίδα ώρας:

Περισσότερα από MetaNews