Claude 3 Opus tar toppplassen på Chatbot-rangeringer

Claude 3 Opus tar toppplassen på Chatbot-rangeringer

Claude 3 Opus tar toppplassen på Chatbot-rangeringer PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Anthropics neste generasjons AI-modell Claude 3 Opus har tatt polposisjon på Chatbot Arena-ledertavlen, og presser OpenAIs GPT-4 til nest best.

Siden den ble lansert i fjor, er dette første gang Claude 3 Opus-modellen har toppet Chatbot Arena-listen, som har alle de tre Claud 3-versjonene rangert på topp 10.

Claude 3-modeller markerer seg

LMSYS Chatbot Arena rangeringer viser at Claude 3 Sonnet okkuperte en felles fjerde plassering med Gemini Pro mens Claude 3 Haiku, som ble lansert i år, ble rangert som sjette sammen med en tidligere versjon av GPT-4.

Selv Claude 3 Haiku er kanskje ikke så intelligent som Sonnet eller Opus, modellen er raskere og betydelig billigere, men den er "like god som de mye større modellene på blindtester," som resultatene fra arenaen viser.

“Claude 3 Haiku har imponert alle, til og med nådd GPT-4-nivå etter brukerpreferansene våre! Hastigheten, mulighetene og kontekstlengden er uovertruffen nå på markedet,” forklarte LMSYS.

I følge Tom's Guide er det som gjør Haiku mer imponerende at det er "modellen i lokal størrelse som kan sammenlignes med Gemini Nano." Det kan lese og behandle informasjonsrik forskning papirer på mindre enn tre sekunder.

Modellen oppnår flotte resultater selv uten billioner pluss parameterskala til Opus eller noen av GPT-4-klassens modeller.

Kan dette bli en kortvarig suksess?

Til tross for at de ble presset til andre plassering, dominerte OpenAIs GPT-4-versjoner fortsatt topp 10 på listen med fire versjoner.

Ifølge Tom's Guide, OpenAIs GPT-4-versjoner i deres forskjellige former har holdt topplasseringen "så lenge at enhver annen modell som kommer i nærheten av sine benchmarks er kjent som en GPT-4-klassemodell."

Med en "markant annerledes" GPT-5 som forventes en gang i år, kan det hende at Anthropic ikke holder den posisjonen for lenge, ettersom gapet i poengsum mellom Claude 3 Opus og GPT-4 er smalt.

Selv om OpenAI har vært ordknapp når det gjelder selve utgivelsen av sin GPT-5, ser markedet veldig frem til lanseringen. Modellen gjennomgår visstnok noe "strenge sikkerhetstester” og simulerte angrep som er avgjørende før utgivelse.

LMSYS Chatbot Arena

Denne rangeringen er avhengig av menneskelige stemmer, i motsetning til andre former for benchmarking for AI-modeller. Med denne rangerer folk utdataene fra to forskjellige modeller til samme ledetekst.

Chatbot Arena drives av LMSYS og har en rekke store språkmodeller (LLMs) som kjemper mot det i "anonyme randomiserte kamper."

Den ble først lansert i mai i fjor og har samlet mer enn 400,000 XNUMX stemmer fra brukere som har AI-modeller fra Google, Anthropic og OpenAI.

"LMSYS Chatbot Arena er en crowdsourcet åpen plattform for LLM-evaler. Vi har samlet over 400,000 XNUMX menneskelige preferansestemmer for å rangere LLM-er med Elo-rangeringssystemet,” sa LMSYS.

Elo-systemet brukes mest i spill som sjakk for å evaluere den relative ferdigheten til en spiller. Men i dette tilfellet brukes rangeringen på chatboten og "ikke mennesket som bruker modellen."

Les også: Microsoft avslører "første" overflate-PCer med Copilot AI-knapp

Manglene

Chatbot Arena-rangeringen mangler ikke feil. I følge Tom's Guide inkluderer den ikke alle modeller eller versjoner av modeller inkludert, mens brukere noen ganger har dårlige erfaringer med at GPT-4 ikke laster. Det kan også favorisere noen modeller som har direkte Internett-tilgang, for eksempel Google Gemini Pro.

Mens andre modeller som de fra fransk AI-oppstart Mistral og kinesiske firmaer som Alibaba har nylig kommet seg på toppplasseringer på arenaen i tillegg til åpen kildekode-modeller, savner arenaen fortsatt noen høyprofilerte modeller. For eksempel mangler den modeller som Googles Gemini Pro 1.5

Tidstempel:

Mer fra MetaNews