Claude 3 Opus on Chatbotite edetabelis esikohal

Claude 3 Opus on Chatbotite edetabelis esikohal

Claude 3 Opus on Chatbotite edetabelis PlatoBlockchain Data Intelligence esikohal. Vertikaalne otsing. Ai.

Anthropicu järgmise põlvkonna tehisintellekti mudel Claude 3 Opus on Chatbot Arena edetabelis saavutanud pooluse, tõstes OpenAI GPT-4 paremuselt teiseks.

Alates selle turuletoomisest eelmisel aastal on see esimene kord, kui Claude 3 Opuse mudel on Chatbot Arena nimekirjas esikohal, kus kõik kolm Claud 3 versiooni on 10 parima hulgas.

Claude 3 mudelid annavad endast märku

LMSYS Chatbot Arena edetabelid näitavad, et Claude 3 Sonnet oli Gemini Proga ühisel neljandal positsioonil, samal ajal kui tänavu turule tulnud Claude 3 Haiku oli koos varasema GPT-4 versiooniga kuuendal kohal.

Kuigi Claude 3 Haiku ei pruugi olla nii intelligentne kui Sonnet või Opus, mudel on kiirem ja oluliselt odavam, kuid see on "sama hea kui palju suuremad mudelid pimetestidel", nagu näitavad areeni tulemused.

„Claude 3 Haiku on kõigile muljet avaldanud, saavutades meie kasutajaeelistuste tõttu isegi GPT-4 taseme! Selle kiirus, võimalused ja konteksti pikkus on praegu turul võrreldamatud, ”selgitas LMSYS.

Tom's Guide'i sõnul muudab Haiku muljetavaldavamaks see, et see on "kohaliku suurusega mudel, mis on võrreldav Gemini Nanoga". See võib lugeda ja töödelda infotihedat uurimistööd paberid vähem kui kolme sekundiga.

Mudel saavutab suurepäraseid tulemusi isegi ilma Opuse või mõne GPT-4-klassi mudeli triljoni plussparameetrite skaalata.

Kas see võib olla lühiajaline edu?

Vaatamata teisele positsioonile tõukamisele domineerisid OpenAI GPT-4 versioonid nimekirjas endiselt 10 parimat nelja versiooniga.

Järgi Tom'i juhend, OpenAI GPT-4 versioonid oma erinevates vormides on hoidnud esikohta "nii kaua, et mis tahes muud mudelit, mis on selle võrdlusalustele lähedal, tuntakse GPT-4-klassi mudelina."

Kuna sel aastal on oodata "märkimisväärselt erinevat" GPT-5, ei pruugi Anthropic seda positsiooni liiga kaua hoida, kuna Claude 3 Opuse ja GPT-4 tulemuste vahe on väike.

Kuigi OpenAI on selle tegeliku väljalaske osas jäänud napisõnaliseks GPT-5, ootab turg selle käivitamist väga. Mudel on väidetavalt läbimas "Ringed ohutustestid” ja simuleeritud rünnakud, mis on enne vabastamist üliolulised.

LMSYS Chatbot Arena

See paremusjärjestus põhineb inimeste häältel, erinevalt muudest tehisintellekti mudelite võrdlusuuringute vormidest. Sellega seavad inimesed kahe erineva mudeli väljundi samale viipale pimesi.

Chatbot Arena juhib LMSYS ja sellel on palju suuri keelemudeleid (LLM), mis võitlevad sellega "anonüümsetes randomiseeritud lahingutes".

See käivitati esmakordselt eelmise aasta mais ja on kogunud üle 400,000 XNUMX hääle kasutajatelt, kellel on Google'i, Anthropic ja AI mudelid. OpenAI.

„LMSYS Chatbot Arena on avatud platvorm LLM-i hindajatele. Oleme kogunud üle 400,000 XNUMX inimese eelistushääle, et reastada LLM-id Elo reitingusüsteemiga, ”ütles LMSYS.

Elo süsteemi kasutatakse enamasti sellistes mängudes nagu male, et hinnata mängija suhtelist oskust. Kuid sel juhul rakendatakse pingerida vestlusrobotile, mitte inimesele, kes seda mudelit kasutab.

Loe ka: Microsoft paljastab Copilot AI nupuga "esimesed" pinnaarvutid

Puudused

Chatbot Arena edetabelis pole puudusi. Tom's Guide'i kohaselt ei hõlma see kõiki kaasatud mudeleid ega mudelite versioone, kuigi kasutajatel on mõnikord halb kogemus GPT-4 laadimise ebaõnnestumisega. See võib eelistada ka mõnda mudelit, millel on reaalajas Interneti-juurdepääs, näiteks Google Gemini Pro.

Kuigi teised mudelid nagu Prantsuse AI käivitamise mudelid Mistral ja Hiina ettevõtted, nagu Alibaba, on viimasel ajal lisaks avatud lähtekoodiga mudelitele areenil esikohale tõusnud, jääb areenil endiselt puudu mõned kõrgetasemelised mudelid. Näiteks puuduvad sellel sellised mudelid nagu Google'i Gemini Pro 1.5

Ajatempel:

Veel alates MetaNews