Claude 3 Opus ocupă primul loc în clasamentul Chatbot

Claude 3 Opus ocupă primul loc în clasamentul Chatbot

Claude 3 Opus Takes Top Spot on Chatbot Rankings PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Modelul AI de generație următoare de la Anthropic, Claude 3 Opus, a ocupat pole position în clasamentul Chatbot Arena, împingând GPT-4 de la OpenAI pe locul al doilea.

De când a fost lansat anul trecut, aceasta este prima dată când modelul Claude 3 Opus se află în fruntea listei Chatbot Arena, care are toate cele trei versiuni Claud 3 clasate în top 10.

Modelele Claude 3 pun amprenta

Arena LMSYS Chatbot Clasamentul arată că Claude 3 Sonnet a ocupat o poziție a patra în comun cu Gemini Pro, în timp ce Claude 3 Haiku, care a fost lansat anul acesta, sa clasat pe locul șase împreună cu o versiune anterioară a GPT-4.

Cu toate ca Claude 3 Haiku s-ar putea să nu fie la fel de inteligent ca Sonnet sau Opus, modelul este mai rapid și semnificativ mai ieftin, totuși este „la fel de bun ca modelele mult mai mari la testele oarbe”, după cum dezvăluie rezultatele arenei.

„Claude 3 Haiku i-a impresionat pe toți, ajungând chiar și la nivelul GPT-4 după preferințele noastre de utilizator! Viteza, capacitățile și lungimea contextului sunt de neegalat acum pe piață”, a explicat LMSYS.

Potrivit Tom's Guide, ceea ce face Haiku mai impresionant este că este „modelul de dimensiune locală comparabil cu Gemini Nano”. Se poate citește și procesează cercetarea densă de informații hârtii în mai puțin de trei secunde.

Modelul obține rezultate excelente chiar și fără o scară de un trilion plus parametri ai Opus sau a oricărui model de clasă GPT-4.

Ar putea fi acesta un succes de scurtă durată?

În ciuda faptului că au fost împinse pe a doua poziție, versiunile OpenAI GPT-4 au dominat în continuare top 10 de pe listă cu patru versiuni.

În conformitate cu Ghidul lui Tom, versiunile OpenAI GPT-4 în diferitele lor forme au deținut primul loc „atât de mult timp încât orice alt model care se apropie de punctele de referință este cunoscut ca model de clasă GPT-4”.

Cu un GPT-5 „marcabil diferit” așteptat ceva timp în acest an, Anthropic s-ar putea să nu dețină această poziție prea mult timp, deoarece diferența dintre scoruri între Claude 3 Opus și GPT-4 este îngustă.

Deși OpenAI a rămas cu buzele strânse cu privire la lansarea reală a acestuia GPT-5, piața își anticipează foarte mult lansarea. Se pare că modelul suferă unele „testări riguroase de siguranță” și atacuri simulate care sunt cruciale înainte de lansare.

Arena LMSYS Chatbot

Acest clasament se bazează pe voturile umane, spre deosebire de alte forme de evaluare comparativă pentru modelele AI. Cu acesta, oamenii clasează orb producția a două modele diferite la același prompt.

Chatbot Arena este condusă de LMSYS și are o serie de modele de limbaj mari (LLM) care se luptă în „bătălii anonime aleatorii”.

A fost lansat pentru prima dată în mai anul trecut și a strâns peste 400,000 de voturi de la utilizatorii care au modele AI de la Google, Anthropic și OpenAI.

„LMSYS Chatbot Arena este o platformă deschisă crowdsourced pentru evaluările LLM. Am strâns peste 400,000 de voturi ale preferințelor umane pentru a clasa LLM-urile cu sistemul de clasare Elo”, a spus LMSYS.

Sistemul Elo este folosit mai ales în jocuri precum șahul pentru a evalua abilitățile relative ale unui jucător. Dar, în acest caz, clasamentul se aplică chatbot-ului și „nu omului care folosește modelul”.

De asemenea, se va citi: Microsoft dezvăluie „Primele” PC-uri de suprafață cu butonul Copilot AI

Neajunsurile

Clasamentul Chatbot Arena nu este lipsit de greșeli. Conform Ghidului lui Tom, acesta nu include toate modelele sau versiunile de modele incluse, în timp ce utilizatorii au uneori experiențe proaste cu GPT-4 care nu se încarcă. De asemenea, poate favoriza unele modele care au acces la internet live, de exemplu Google Gemini Pro.

În timp ce alte modele precum cele de la startup francez AI Mistral iar firme chineze precum Alibaba și-au făcut recent drum pe locurile de top pe arenă, pe lângă modelele open-source, din arena încă lipsesc câteva modele de profil. De exemplu, îi lipsesc modele precum Gemini Pro 1.5 de la Google

Timestamp-ul:

Mai mult de la MetaNews