Claude 3 Opus zajmuje pierwsze miejsce w rankingach chatbotów

Claude 3 Opus zajmuje pierwsze miejsce w rankingach chatbotów

Claude 3 Opus Takes Top Spot on Chatbot Rankings PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Model sztucznej inteligencji nowej generacji firmy Anthropic, Claude 3 Opus, zajął pole position w tabeli liderów Chatbot Arena, spychając GPT-4 OpenAI na drugie miejsce.

Od czasu premiery w zeszłym roku, po raz pierwszy model Claude 3 Opus znalazł się na szczycie listy Chatbot Arena, na której wszystkie trzy wersje Claud 3 znalazły się w pierwszej dziesiątce.

Modele Claude 3 robią wrażenie

Arena chatbotów LMSYS rankingi pokazują, że Claude 3 Sonnet zajął czwarte miejsce wraz z Gemini Pro, podczas gdy wydany w tym roku Claude 3 Haiku uplasował się na szóstym miejscu wraz z wcześniejszą wersją GPT-4.

Chociaż Klaudiusz 3 Haiku może nie być tak inteligentny jak Sonnet czy Opus, model jest szybszy i znacznie tańszy, ale jest „tak dobry, jak znacznie większe modele w ślepych testach”, jak pokazują wyniki areny.

„Claude 3 Haiku zaimponował wszystkim, nawet osiągając poziom GPT-4 według naszych preferencji użytkownika! Jego szybkość, możliwości i długość kontekstu nie mają sobie równych obecnie na rynku” – wyjaśnił LMSYS.

Według Tom's Guide to, co czyni Haiku bardziej imponującym, to fakt, że jest to „model o lokalnych rozmiarach porównywalny z Gemini Nano”. To może czytać i przetwarzać badania wymagające dużej ilości informacji dokumenty w mniej niż trzy sekundy.

Model osiąga świetne wyniki nawet bez bilionowej skali parametrów Opusa czy któregokolwiek z modeli klasy GPT-4.

Czy to może być krótkotrwały sukces?

Pomimo zepchnięcia na drugą pozycję, wersje OpenAI GPT-4 nadal dominowały w pierwszej dziesiątce na liście z czterema wersjami.

Zgodnie z Przewodnik Toma, wersje OpenAI GPT-4 w różnych formach zajmują czołowe miejsca „tak długo, że każdy inny model zbliżający się do jego benchmarków jest nazywany modelem klasy GPT-4”.

Biorąc pod uwagę, że „wyraźnie inny” GPT-5 spodziewany jest w tym roku, Anthropic może nie utrzymać tej pozycji zbyt długo, ponieważ różnica w wynikach pomiędzy Claude 3 Opus i GPT-4 jest niewielka.

Chociaż OpenAI pozostaje powściągliwy w sprawie faktycznego wydania swojej wersji GPT-5, rynek z niecierpliwością czeka na jego premierę. Według doniesień modelka przechodzi pewne badania „rygorystyczne testy bezpieczeństwa” i symulowane ataki, które są kluczowe przed publikacją.

Arena chatbotów LMSYS

W odróżnieniu od innych form testów porównawczych modeli sztucznej inteligencji ranking ten opiera się na głosach ludzkich. W tym przypadku ludzie porównują wyniki dwóch różnych modeli do tego samego znaku zachęty.

Chatbot Arena prowadzona jest przez LMSYS i zawiera wiele dużych modeli językowych (LLM), które toczą ze sobą „anonimowe, losowe bitwy”.

Został on uruchomiony po raz pierwszy w maju ubiegłego roku i zebrał ponad 400,000 XNUMX głosów od użytkowników posiadających modele sztucznej inteligencji od Google, Anthropic i OpenAI.

„LMSYS Chatbot Arena to otwarta platforma oparta na crowdsourcingu do ewaluacji LLM. Zebraliśmy ponad 400,000 XNUMX głosów ludzkich preferencji, aby uszeregować LLM w systemie rankingowym Elo” – powiedział LMSYS.

System Elo jest najczęściej używany w grach takich jak szachy, aby ocenić względne umiejętności gracza. Jednak w tym przypadku ranking dotyczy chatbota, a „nie człowieka korzystającego z modelu”.

Przeczytaj także: Microsoft przedstawia „pierwsze” komputery Surface z przyciskiem Copilot AI

niedociągnięcia

W rankingu Chatbot Arena nie brakuje błędów. Według Tom's Guide nie obejmuje to wszystkich modeli ani wersji modeli, chociaż użytkownicy czasami mają złe doświadczenia z niemożnością załadowania GPT-4. Może również faworyzować niektóre modele, które mają dostęp do Internetu na żywo, na przykład Google Gemini Pro.

Podczas gdy inne modele, takie jak te z francuskiego startupu AI Mistral a chińskie firmy, takie jak Alibaba, znalazły się ostatnio na czołowych miejscach na arenie, oprócz modeli open source, na arenie wciąż brakuje kilku znanych modeli. Na przykład brakuje modeli takich jak Google Gemini Pro 1.5

Znak czasu:

Więcej z MetaWiadomości