Model sztucznej inteligencji nowej generacji firmy Anthropic, Claude 3 Opus, zajął pole position w tabeli liderów Chatbot Arena, spychając GPT-4 OpenAI na drugie miejsce.
Od czasu premiery w zeszłym roku, po raz pierwszy model Claude 3 Opus znalazł się na szczycie listy Chatbot Arena, na której wszystkie trzy wersje Claud 3 znalazły się w pierwszej dziesiątce.
Modele Claude 3 robią wrażenie
Arena chatbotów LMSYS rankingi pokazują, że Claude 3 Sonnet zajął czwarte miejsce wraz z Gemini Pro, podczas gdy wydany w tym roku Claude 3 Haiku uplasował się na szóstym miejscu wraz z wcześniejszą wersją GPT-4.
Chociaż Klaudiusz 3 Haiku może nie być tak inteligentny jak Sonnet czy Opus, model jest szybszy i znacznie tańszy, ale jest „tak dobry, jak znacznie większe modele w ślepych testach”, jak pokazują wyniki areny.
„Claude 3 Haiku zaimponował wszystkim, nawet osiągając poziom GPT-4 według naszych preferencji użytkownika! Jego szybkość, możliwości i długość kontekstu nie mają sobie równych obecnie na rynku” – wyjaśnił LMSYS.
Według Tom's Guide to, co czyni Haiku bardziej imponującym, to fakt, że jest to „model o lokalnych rozmiarach porównywalny z Gemini Nano”. To może czytać i przetwarzać badania wymagające dużej ilości informacji dokumenty w mniej niż trzy sekundy.
Model osiąga świetne wyniki nawet bez bilionowej skali parametrów Opusa czy któregokolwiek z modeli klasy GPT-4.
[Aktualizacja areny]
Ponad 70 XNUMX nowych głosów na Arenie🗳️ jest dostępnych!
Claude-3 Haiku zaimponowało wszystkim, nawet osiągając poziom GPT-4 według naszych preferencji użytkownika! Jego szybkość, możliwości i długość kontekstu nie mają sobie równych na rynku🔥
gratulacje pic podczas niesamowitego startu Claude-3!
Bardziej ekscytujący… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) 26 marca 2024 r.
Czy to może być krótkotrwały sukces?
Pomimo zepchnięcia na drugą pozycję, wersje OpenAI GPT-4 nadal dominowały w pierwszej dziesiątce na liście z czterema wersjami.
Zgodnie z Przewodnik Toma, wersje OpenAI GPT-4 w różnych formach zajmują czołowe miejsca „tak długo, że każdy inny model zbliżający się do jego benchmarków jest nazywany modelem klasy GPT-4”.
Biorąc pod uwagę, że „wyraźnie inny” GPT-5 spodziewany jest w tym roku, Anthropic może nie utrzymać tej pozycji zbyt długo, ponieważ różnica w wynikach pomiędzy Claude 3 Opus i GPT-4 jest niewielka.
Chociaż OpenAI pozostaje powściągliwy w sprawie faktycznego wydania swojej wersji GPT-5, rynek z niecierpliwością czeka na jego premierę. Według doniesień modelka przechodzi pewne badania „rygorystyczne testy bezpieczeństwa” i symulowane ataki, które są kluczowe przed publikacją.
Arena chatbotów LMSYS
W odróżnieniu od innych form testów porównawczych modeli sztucznej inteligencji ranking ten opiera się na głosach ludzkich. W tym przypadku ludzie porównują wyniki dwóch różnych modeli do tego samego znaku zachęty.
Chatbot Arena prowadzona jest przez LMSYS i zawiera wiele dużych modeli językowych (LLM), które toczą ze sobą „anonimowe, losowe bitwy”.
Został on uruchomiony po raz pierwszy w maju ubiegłego roku i zebrał ponad 400,000 XNUMX głosów od użytkowników posiadających modele sztucznej inteligencji od Google, Anthropic i OpenAI.
„LMSYS Chatbot Arena to otwarta platforma oparta na crowdsourcingu do ewaluacji LLM. Zebraliśmy ponad 400,000 XNUMX głosów ludzkich preferencji, aby uszeregować LLM w systemie rankingowym Elo” – powiedział LMSYS.
System Elo jest najczęściej używany w grach takich jak szachy, aby ocenić względne umiejętności gracza. Jednak w tym przypadku ranking dotyczy chatbota, a „nie człowieka korzystającego z modelu”.
Przeczytaj także: Microsoft przedstawia „pierwsze” komputery Surface z przyciskiem Copilot AI
niedociągnięcia
W rankingu Chatbot Arena nie brakuje błędów. Według Tom's Guide nie obejmuje to wszystkich modeli ani wersji modeli, chociaż użytkownicy czasami mają złe doświadczenia z niemożnością załadowania GPT-4. Może również faworyzować niektóre modele, które mają dostęp do Internetu na żywo, na przykład Google Gemini Pro.
Podczas gdy inne modele, takie jak te z francuskiego startupu AI Mistral a chińskie firmy, takie jak Alibaba, znalazły się ostatnio na czołowych miejscach na arenie, oprócz modeli open source, na arenie wciąż brakuje kilku znanych modeli. Na przykład brakuje modeli takich jak Google Gemini Pro 1.5
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/
- :ma
- :Jest
- :nie
- 000
- 1
- 10
- 14
- 26%
- 400
- 7
- 8
- 9
- a
- dostęp
- Stosownie
- osiągnięcia
- rzeczywisty
- dodatek
- AI
- Modele AI
- Alibaba
- Wszystkie kategorie
- również
- an
- i
- Antropiczny
- przewiduje
- każdy
- stosowany
- SĄ
- Arena
- AS
- Ataki
- Łazienka
- bitwy
- walczyć
- BE
- zanim
- jest
- Benchmarkingu
- Benchmarki
- BEST
- pomiędzy
- ale
- by
- CAN
- możliwości
- walizka
- chatbot
- tańsze
- Szachy
- chiński
- Zamknij
- przyjście
- porównywalny
- kontekst
- istotny
- różne
- robi
- zdominowany
- Wcześniej
- oceniać
- Parzyste
- spodziewany
- Doświadczenia
- wyjaśnione
- nie
- szybciej
- błędy
- faworyzować
- Korzyści
- firmy
- i terminów, a
- pierwszy raz
- W razie zamówieenia projektu
- formularze
- cztery
- Czwarty
- francuski
- od
- Games
- szczelina
- Gemini
- generacja
- dobry
- Google'a
- wspaniały
- poprowadzi
- Have
- Trzymany
- Wysoki
- wysoko
- przytrzymaj
- gospodarz
- HTTPS
- człowiek
- Pod wrażeniem
- imponujący
- in
- zawierać
- włączony
- niewiarygodny
- przykład
- Inteligentny
- Internet
- dostęp do Internetu
- IT
- JEGO
- połączenie
- jpeg
- znany
- język
- duży
- większe
- Nazwisko
- Ostatni rok
- uruchomić
- uruchomiona
- liderów
- Długość
- mniej
- poziom
- lubić
- Lista
- relacja na żywo
- LLM
- załadować
- długo
- zrobiony
- robić
- WYKONUJE
- rynek
- Może..
- może
- tęskni
- brakujący
- model
- modele
- jeszcze
- przeważnie
- dużo
- nano
- wąski
- Nowości
- Następny
- już dziś
- of
- on
- ONE
- koncepcja
- open source
- OpenAI
- przeciwny
- or
- Inne
- ludzkiej,
- na zewnątrz
- wydajność
- koniec
- Papiery
- parametr
- komputery
- Ludzie
- Platforma
- plato
- Analiza danych Platona
- PlatoDane
- gracz
- plus
- position
- Pro
- wygląda tak
- Profil
- popychany
- Popychanie
- Randomizowane
- rankingu
- w rankingu
- Ranking
- osiągnięcie
- Czytaj
- niedawno
- względny
- zwolnić
- opiera się
- pozostał
- podobno
- Efekt
- ujawniać
- ujawnia
- run
- Bezpieczeństwo
- Powiedział
- taki sam
- Skala
- wyniki
- druga
- sekund
- Short
- pokazać
- znacznie
- szósty
- Rozmiar
- umiejętność
- So
- kilka
- czasami
- prędkość
- Spot
- plamy
- startup
- Nadal
- sukces
- Powierzchnia
- system
- Zadania
- trwa
- Testy
- niż
- że
- Połączenia
- ich
- to
- w tym roku
- tych
- trzy
- czas
- do
- razem
- także
- Top
- Top 10
- zwieńczona
- Trylion
- prawdziwy
- i twitterze
- drugiej
- w trakcie
- niezrównany
- Aktualizacja
- używany
- Użytkownik
- Użytkownicy
- za pomocą
- różnorodny
- wersja
- Wersje
- głosów
- była
- Droga..
- Co
- który
- Podczas
- w
- bez
- rok
- jeszcze
- zefirnet