Az Anthropic következő generációs mesterséges intelligencia modellje, a Claude 3 Opus megszerezte a pole pozíciót a Chatbot Arena ranglistáján, ezzel az OpenAI GPT-4-ét a második legjobbra tolta.
Tavalyi bevezetése óta ez az első alkalom, hogy a Claude 3 Opus modell a Chatbot Arena listájának élére került, amelyen mindhárom Claud 3 verzió a legjobb 10-ben szerepel.
A Claude 3 modellek nyomot hagynak
Az LMSYS Chatbot Aréna A rangsorok azt mutatják, hogy a Claude 3 Sonnet a Gemini Pro-val közösen a negyedik helyet foglalta el, míg az idén piacra dobott Claude 3 Haiku a hatodik helyen végzett a GPT-4 korábbi verziójával együtt.
Bár Claude 3 Haiku Lehet, hogy nem olyan intelligens, mint a Sonnet vagy az Opus, a modell gyorsabb és lényegesen olcsóbb, mégis „olyan jó, mint a vakteszteken a sokkal nagyobb modellek”, amint azt az aréna eredményei mutatják.
„A Claude 3 Haiku mindenkit lenyűgözött, még a GPT-4 szintet is elérte felhasználói preferenciáink alapján! Sebessége, képességei és kontextushossza páratlan a piacon” – magyarázta az LMSYS.
A Tom's Guide szerint az teszi lenyűgözőbbé a Haiku-t, hogy „a Gemini Nanohoz hasonló helyi méretű modell”. Az tud információsűrű kutatást olvasni és feldolgozni papírokat kevesebb mint három másodperc alatt.
A modell kiváló eredményeket ér el az Opus vagy bármelyik GPT-4 osztályú modell billió plusz paraméterskálája nélkül is.
[Aréna frissítés]
70 ezer+ új Aréna szavazat🗳️ érkezett!
A Claude-3 Haiku mindenkit lenyűgözött, még a GPT-4 szintet is elérte felhasználói preferenciáink alapján! Sebessége, képességei és kontextushossza páratlan a piacon🔥
gratula @AnthropicAI a hihetetlen Claude-3 kilövésen!
Izgalmasabb… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) Március 26, 2024
Lehet, hogy ez egy rövid távú siker?
Annak ellenére, hogy a második helyre szorultak, az OpenAI GPT-4 verziói négy verzióval továbbra is uralták a lista első 10-ét.
Szerint Tom's Guide, az OpenAI GPT-4 változatai a maguk különböző formáiban „olyan sokáig tartották a vezető helyet, hogy minden más modell, amely közel áll a benchmarkokhoz, GPT-4-osztályú modellként ismert”.
Mivel idén valamikor egy „markánsan eltérő” GPT-5 várható, az Anthropic talán nem fogja túl sokáig tartani ezt a pozíciót, mivel a Claude 3 Opus és a GPT-4 közötti pontszámok közötti különbség szűk.
Bár az OpenAI szűkszavú maradt a tényleges kiadásával kapcsolatban GPT-5, a piac nagyon várja az indulást. A modell állítólag néhányon megy keresztül „Szigorú biztonsági tesztelés” és szimulált támadások, amelyek kulcsfontosságúak a kiadás előtt.
Az LMSYS Chatbot Aréna
Ez a rangsor az emberi szavazatokon alapul, szemben az AI-modellek más benchmarking formáival. Ezzel az emberek vakon rangsorolják két különböző modell kimenetét ugyanahhoz a prompthoz.
A Chatbot Arénát az LMSYS üzemelteti, és számos nagy nyelvi modellt (LLM) tartalmaz, amelyek „névtelen véletlenszerű csatákban” vívják meg a küzdelmet.
Tavaly májusban indították el először, és több mint 400,000 XNUMX szavazatot gyűjtött be olyan felhasználóktól, akik mesterséges intelligencia modellekkel rendelkeznek a Google, az Anthropic és a OpenAI.
„Az LMSYS Chatbot Arena egy közösségi forrásból származó nyílt platform az LLM evals számára. Több mint 400,000 XNUMX emberi preferencia szavazatot gyűjtöttünk össze, hogy rangsoroljuk az LLM-eket az Elo rangsorolási rendszerrel” – mondta az LMSYS.
Az Elo rendszert leginkább olyan játékokban használják, mint a sakk, hogy értékeljék a játékos relatív képességeit. De ebben az esetben a rangsor a chatbotra vonatkozik, és „nem a modellt használó emberre”.
Lásd még: A Microsoft bemutatja az „első” felületi PC-ket a Copilot AI gombbal
A hiányosságok
A Chatbot Arena rangsora nem szűkölködik hibákban. A Tom's Guide szerint nem tartalmazza az összes modellt vagy modellverziót, miközben a felhasználóknak néha rossz tapasztalataik vannak a GPT-4 betöltésének sikertelenségével. Előnyben részesíthet néhány olyan modellt is, amelyek rendelkeznek élő internet-hozzáféréssel, például a Google Gemini Pro-val.
Míg más modellek, mint például a francia mesterséges intelligencia indulása Misztrál és az olyan kínai cégek, mint az Alibaba, a közelmúltban a nyílt forráskódú modellek mellett az aréna élvonalába kerültek, de az arénából még mindig hiányzik néhány nagy horderejű modell. Hiányoznak például olyan modellek, mint a Google Gemini Pro 1.5
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/
- :van
- :is
- :nem
- 000
- 1
- 10
- 14
- 26%
- 400
- 7
- 8
- 9
- a
- hozzáférés
- Szerint
- elérése
- tényleges
- mellett
- AI
- AI modellek
- Alibaba
- Minden termék
- Is
- an
- és a
- Antropikus
- számít
- bármilyen
- alkalmazott
- VANNAK
- Arena
- AS
- Támadások
- Rossz
- csaták
- küzd
- BE
- előtt
- hogy
- benchmarking
- referenciaértékek
- BEST
- között
- de
- by
- TUD
- képességek
- eset
- chatbot
- olcsóbb
- sakk
- kínai
- közel
- érkező
- hasonló
- kontextus
- kritikus
- különböző
- nem
- domináló
- Korábban
- értékelni
- Még
- várható
- Tapasztalatok
- magyarázható
- hiányában
- gyorsabb
- hibák
- kedvez
- Jellemzők
- cégek
- vezetéknév
- első
- A
- formák
- négy
- Negyedik
- francia
- ból ből
- Games
- rés
- Gemini
- generáció
- jó
- nagy
- útmutató
- Legyen
- hős
- Magas
- nagyon
- tart
- vendéglátó
- HTTPS
- emberi
- lenyűgözött
- hatásos
- in
- tartalmaz
- beleértve
- hihetetlen
- példa
- Intelligens
- Internet
- internet-hozzáférés
- IT
- ITS
- közös
- jpeg
- ismert
- nyelv
- nagy
- nagyobb
- keresztnév
- Tavaly
- indít
- indított
- ranglistán
- Hossz
- kevesebb
- szint
- mint
- Lista
- él
- LLM
- kiszámításának
- Hosszú
- készült
- csinál
- KÉSZÍT
- piacára
- Lehet..
- esetleg
- hiányzik
- hiányzó
- modell
- modellek
- több
- többnyire
- sok
- nano
- keskeny
- Új
- következő
- Most
- of
- on
- ONE
- nyitva
- nyílt forráskódú
- OpenAI
- ellentétes
- or
- Más
- mi
- ki
- teljesítmény
- felett
- papírok
- paraméter
- PC
- Emberek (People)
- emelvény
- Plató
- Platón adatintelligencia
- PlatoData
- játékos
- plusz
- pozíció
- per
- folyamat
- profil
- meglökött
- Toló
- Véletlenszerűsített
- rangsorban
- rangsorolt
- Ranking
- elérése
- Olvass
- nemrég
- relatív
- engedje
- támaszkodik
- maradt
- állítólag
- Eredmények
- mutatják
- felfedi
- futás
- Biztonság
- Mondott
- azonos
- Skála
- pontszámok
- Második
- másodperc
- rövid
- előadás
- jelentősen
- hatodik
- Méret
- jártasság
- So
- néhány
- néha
- sebesség
- Spot
- foltok
- indítás
- Még mindig
- siker
- felületi
- rendszer
- meghozott
- tart
- tesztek
- mint
- hogy
- A
- azok
- ezt
- idén
- azok
- három
- idő
- nak nek
- együtt
- is
- felső
- Top 10
- tetejű
- Trillió
- igaz
- kettő
- folyamatban lévő
- páratlan
- Frissítések
- használt
- használó
- Felhasználók
- segítségével
- különféle
- változat
- verzió
- szavazat
- volt
- Út..
- Mit
- ami
- míg
- val vel
- nélkül
- év
- még
- zephyrnet