Claude 3 Opus indtager toppladsen på Chatbot-ranglisten

Claude 3 Opus indtager toppladsen på Chatbot-ranglisten

Claude 3 Opus indtager toppladsen på Chatbot-rangeringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Anthropics næste generations AI-model Claude 3 Opus har indtaget pole position på Chatbot Arena leaderboardet, og skubber OpenAI's GPT-4 til den næstbedste.

Siden den blev lanceret sidste år, er det første gang, at Claude 3 Opus-modellen topper Chatbot Arena-listen, som har alle de tre Claud 3-versioner placeret i top 10.

Claude 3-modeller markerer sig

LMSYS Chatbot Arena ranglister viser, at Claude 3 Sonnet indtog en fælles fjerdeplads med Gemini Pro, mens Claude 3 Haiku, som blev lanceret i år, blev nummer seks sammen med en tidligere version af GPT-4.

Skønt Claude 3 Haiku måske ikke er så intelligent som Sonnet eller Opus, modellen er hurtigere og væsentligt billigere, men alligevel er den "lige så god som de meget større modeller på blindtests", som resultaterne af arenaen afslører.

“Claude 3 Haiku har imponeret alle, endda nået GPT-4 niveauet efter vores brugerpræference! Dens hastighed, muligheder og kontekstlængde er uovertruffen nu på markedet,” forklarede LMSYS.

Ifølge Tom's Guide er det, der gør Haiku mere imponerende, at det er den "lokale størrelsesmodel, der kan sammenlignes med Gemini Nano." Det kan læse og bearbejde informationstæt forskning papirer på mindre end tre sekunder.

Modellen opnår fantastiske resultater selv uden billioner plus parameterskala for Opus eller nogen af ​​GPT-4-klassens modeller.

Kan dette blive en kortvarig succes?

På trods af at de blev skubbet til andenpladsen, dominerede OpenAIs GPT-4-versioner stadig top 10 på listen med fire versioner.

Ifølge Tom's Guide, OpenAIs GPT-4-versioner i deres forskellige former har holdt topplaceringen "i så lang tid, at enhver anden model, der kommer tæt på dens benchmarks, er kendt som en GPT-4-klassemodel."

Med en "markant anderledes" GPT-5, der forventes på et tidspunkt i år, vil Anthropic måske ikke holde den position for længe, ​​da forskellen i scores mellem Claude 3 Opus og GPT-4 er snæver.

Selvom OpenAI har forblevet mundret om den faktiske udgivelse af dens GPT-5, forventer markedet meget sin lancering. Modellen gennemgår angiveligt nogle "strenge sikkerhedstests” og simulerede angreb, som er afgørende før frigivelse.

LMSYS Chatbot Arena

Denne rangering er afhængig af menneskelige stemmer i modsætning til andre former for benchmarking for AI-modeller. Med denne rangordner folk outputtet fra to forskellige modeller til den samme prompt.

Chatbot Arena drives af LMSYS og har et væld af store sprogmodeller (LLM'er), der kæmper mod det i "anonyme randomiserede kampe."

Det blev første gang lanceret i maj sidste år og har indsamlet mere end 400,000 stemmer fra brugere, der har AI-modeller fra Google, Anthropic og OpenAI.

“LMSYS Chatbot Arena er en crowdsourcet åben platform til LLM-evaler. Vi har samlet over 400,000 menneskelige præferencestemmer for at rangere LLM'er med Elo-rangeringssystemet,” sagde LMSYS.

Elo-systemet bruges mest i spil som skak til at evaluere en spillers relative færdigheder. Men i dette tilfælde anvendes rangeringen på chatbotten og "ikke det menneske, der bruger modellen."

Læs også: Microsoft afslører 'første' overflade-pc'er med Copilot AI-knap

Manglerne

Chatbot Arena-rangeringen mangler ikke fejl. Ifølge Tom's Guide inkluderer den ikke alle modeller eller versioner af modeller, der er inkluderet, mens brugere nogle gange har dårlige erfaringer med, at GPT-4 ikke kan indlæses. Det kan også favorisere nogle modeller, der har live internetadgang, for eksempel Google Gemini Pro.

Mens andre modeller som dem fra fransk AI opstart Mistral og kinesiske firmaer som Alibaba har for nylig fundet vej til topplaceringer på arenaen ud over open source-modeller, mangler arenaen stadig nogle højprofilerede modeller. For eksempel mangler den modeller som Googles Gemini Pro 1.5

Tidsstempel:

Mere fra MetaNews