Το Claude 3 Opus καταλαμβάνει την κορυφαία θέση στην κατάταξη Chatbot

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Το επόμενης γενιάς μοντέλο τεχνητής νοημοσύνης της Anthropic, Claude 3 Opus, κατέλαβε την πρώτη θέση στον πίνακα κορυφαίων Chatbot Arena, ωθώντας το GPT-4 του OpenAI στη δεύτερη καλύτερη θέση.

Από τότε που κυκλοφόρησε πέρυσι, αυτή είναι η πρώτη φορά που το μοντέλο Claude 3 Opus βρίσκεται στην κορυφή της λίστας Chatbot Arena, όπου και οι τρεις εκδόσεις Claud 3 κατατάσσονται στις πρώτες 10.

Τα μοντέλα Claude 3 κάνουν ένα σημάδι

Το LMSYS Chatbot Arena Οι κατατάξεις δείχνουν ότι το Claude 3 Sonnet κατέλαβε την τέταρτη θέση από κοινού με το Gemini Pro ενώ το Claude 3 Haiku, το οποίο κυκλοφόρησε φέτος κατέλαβε την έκτη θέση μαζί με μια προηγούμενη έκδοση του GPT-4.

Αν και Claude 3 Haiku μπορεί να μην είναι τόσο έξυπνο όσο το Sonnet ή το Opus, το μοντέλο είναι πιο γρήγορο και σημαντικά φθηνότερο, ωστόσο είναι «το ίδιο καλό με τα πολύ μεγαλύτερα μοντέλα σε τυφλά τεστ», όπως αποκαλύπτουν τα αποτελέσματα της αρένας.

«Το Claude 3 Haiku έχει εντυπωσιάσει όλους, ακόμη και φτάνοντας το επίπεδο GPT-4 από τις προτιμήσεις των χρηστών μας! Η ταχύτητα, οι δυνατότητές του και το μήκος του πλαισίου είναι ασύγκριτα τώρα στην αγορά», εξήγησε η LMSYS.

Σύμφωνα με το Tom's Guide, αυτό που κάνει το Haiku πιο εντυπωσιακό είναι ότι είναι το «μοντέλο τοπικού μεγέθους συγκρίσιμο με το Gemini Nano». Μπορεί να διαβάζει και να επεξεργάζεται έρευνα με πυκνότητα πληροφοριών χαρτιά σε λιγότερο από τρία δευτερόλεπτα.

Το μοντέλο επιτυγχάνει εξαιρετικά αποτελέσματα ακόμη και χωρίς κλίμακα παραμέτρων τρισεκατομμυρίων συν του Opus ή οποιουδήποτε από τα μοντέλα της κατηγορίας GPT-4.

[Ενημέρωση Arena]

70+ νέες ψήφοι Arena🗳️ είναι μέσα!

Το Claude-3 Haiku έχει εντυπωσιάσει όλους, ακόμη και φτάνοντας το επίπεδο GPT-4 από τις προτιμήσεις των χρηστών μας! Η ταχύτητα, οι δυνατότητές του και το μήκος του πλαισίου είναι ασύγκριτα τώρα στην αγορά🔥

συγχαρητήρια @AnthropicAI στην απίστευτη εκτόξευση του Claude-3!

Πιο συναρπαστικό… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) Μαρτίου 26, 2024

Θα μπορούσε να είναι μια βραχύβια επιτυχία;

Παρά την ώθησή τους στη δεύτερη θέση, οι εκδόσεις GPT-4 του OpenAI εξακολουθούν να κυριαρχούν στις 10 πρώτες θέσεις της λίστας με τέσσερις εκδόσεις.

Σύμφωνα με Ο Οδηγός του Tom, οι εκδόσεις GPT-4 του OpenAI στις διάφορες μορφές τους κατέχουν την πρώτη θέση «για τόσο πολύ καιρό που κάθε άλλο μοντέλο που πλησιάζει τα σημεία αναφοράς του είναι γνωστό ως μοντέλο κατηγορίας GPT-4».

Με ένα «εξαιρετικά διαφορετικό» GPT-5 να αναμένεται κάποια στιγμή φέτος, η Anthropic μπορεί να μην κρατήσει αυτή τη θέση για πολύ καιρό, καθώς η διαφορά στις βαθμολογίες μεταξύ Claude 3 Opus και GPT-4 είναι περιορισμένη.

Αν και το OpenAI έχει μείνει σιωπηλό στην πραγματική κυκλοφορία του GPT-5, η αγορά προσδοκά ιδιαίτερα την κυκλοφορία του. Το μοντέλο φέρεται να υφίσταται κάποια «Αυστηρές δοκιμές ασφαλείας» και προσομοιωμένες επιθέσεις που είναι κρίσιμες πριν την κυκλοφορία.

Το LMSYS Chatbot Arena

Αυτή η κατάταξη βασίζεται σε ανθρώπινες ψήφους, σε αντίθεση με άλλες μορφές συγκριτικής αξιολόγησης για μοντέλα τεχνητής νοημοσύνης. Με αυτό, οι άνθρωποι βαθμολογούν τυφλά την έξοδο δύο διαφορετικών μοντέλων στην ίδια προτροπή.

Το Chatbot Arena διευθύνεται από την LMSYS και διαθέτει μια σειρά από μεγάλα μοντέλα γλώσσας (LLM) που το μάχονται σε «ανώνυμες τυχαιοποιημένες μάχες».

Κυκλοφόρησε για πρώτη φορά τον περασμένο Μάιο και έχει συγκεντρώσει περισσότερες από 400,000 ψήφους από χρήστες που διαθέτουν μοντέλα τεχνητής νοημοσύνης από την Google, την Anthropic και OpenAI.

«Το LMSYS Chatbot Arena είναι μια ανοιχτή πλατφόρμα πληθυσμιακής προέλευσης για αξιολογητές LLM. Συγκεντρώσαμε πάνω από 400,000 ψήφους ανθρώπινης προτίμησης για την κατάταξη των LLM με το σύστημα κατάταξης Elo», δήλωσε η LMSYS.

Το σύστημα Elo χρησιμοποιείται κυρίως σε παιχνίδια όπως το σκάκι για την αξιολόγηση της σχετικής ικανότητας ενός παίκτη. Αλλά σε αυτήν την περίπτωση, η κατάταξη εφαρμόζεται στο chatbot και όχι στον άνθρωπο που χρησιμοποιεί το μοντέλο.

Διαβάστε επίσης: Η Microsoft αποκαλύπτει τους «πρώτους» υπολογιστές Surface με κουμπί Copilot AI

Οι ελλείψεις

Η κατάταξη του Chatbot Arena δεν έχει λάθη. Σύμφωνα με το Tom's Guide, δεν περιλαμβάνει όλα τα μοντέλα ή τις εκδόσεις των μοντέλων που περιλαμβάνονται, ενώ οι χρήστες έχουν μερικές φορές κακές εμπειρίες με το GPT-4 που αποτυγχάνει να φορτώσει. Μπορεί επίσης να ευνοήσει ορισμένα μοντέλα που έχουν ζωντανή πρόσβαση στο διαδίκτυο, για παράδειγμα το Google Gemini Pro.

Ενώ άλλα μοντέλα όπως αυτά της γαλλικής startup τεχνητής νοημοσύνης Mistral Και κινεζικές εταιρείες όπως η Alibaba έφτασαν πρόσφατα στις κορυφαίες θέσεις στην αρένα, εκτός από τα μοντέλα ανοιχτού κώδικα, η αρένα εξακολουθεί να χάνει μερικά μοντέλα υψηλού προφίλ. Για παράδειγμα, λείπουν μοντέλα όπως το Gemini Pro 1.5 της Google

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
πηγή: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Σφραγίδα ώρας: Μαρτίου 28, 2024

Σφραγίδα ώρας: 8 Μαρτίου, 2024

Το Claude 3 Opus καταλαμβάνει την κορυφαία θέση στις κατατάξεις Chatbot

Αναδημοσίευση από τον Πλάτωνα

Τα μοντέλα Claude 3 κάνουν ένα σημάδι

Θα μπορούσε να είναι μια βραχύβια επιτυχία;

Το LMSYS Chatbot Arena

Οι ελλείψεις

Περισσότερα από MetaNews

Η Sora δεν είναι έτοιμη για δουλειά στο Χόλιγουντ: Πρώην Animator της Pixar

OpenAI για να κυκλοφορήσει μια «επαγγελματική» έκδοση του ChatGPT

Η Μόνα Λίζα μπορεί τώρα να μιλήσει, χάρη στην EMO

Κορεάτες που αναζητούν εργασία σε μια επιδιόρθωση καθώς οι εταιρείες τιμωρούν τα βιογραφικά τεχνητής νοημοσύνης

Το Getty Images κάνει το ντεμπούτο του "Friend-Copyright" AI Image Generator

Τα Metaverse Tokens Βλέπουν Αύξηση Τιμών με το MANA να αυξάνεται πάνω από 100%

Το σχέδιο του Johnny Ng για συνδέσμους πλατφόρμας Web3 στην ευρύτερη περιοχή του κόλπου

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός