Claude 3 Opus on Chatbot-sijoituksen kärjessä

Claude 3 Opus on Chatbot-sijoituksen kärjessä

Claude 3 Opus on ykkönen Chatbot-rankingissa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Anthropicin seuraavan sukupolven tekoälymalli Claude 3 Opus on noussut paalupaikalle Chatbot Arenan tulostaulukossa nostaen OpenAI:n GPT-4:n toiseksi parhaaksi.

Sen jälkeen kun se lanseerattiin viime vuonna, tämä on ensimmäinen kerta, kun Claude 3 Opus -malli on noussut Chatbot Arena -luettelon kärkeen, jonka kaikki kolme Claud 3 -versiota ovat sijoittuneet kymmenen parhaan joukkoon.

Claude 3 -mallit tekevät jälkensä

LMSYS Chatbot Arena sijoitukset osoittavat, että Claude 3 Sonnet sijoittui yhdessä neljänneksi Gemini Pron kanssa, kun taas tänä vuonna lanseerattu Claude 3 Haiku sijoittui kuudenneksi yhdessä aiemman GPT-4-version kanssa.

Vaikka Claude 3 Haiku ei ehkä ole yhtä älykäs kuin Sonnet tai Opus, malli on nopeampi ja huomattavasti halvempi, mutta silti se on "yhtä hyvä kuin paljon suuremmat mallit sokkotesteissä", kuten areenan tulokset paljastavat.

“Claude 3 Haiku on tehnyt vaikutuksen kaikkiin, jopa saavuttanut GPT-4-tason käyttäjien mieltymyksillämme! Sen nopeus, ominaisuudet ja kontekstin pituus ovat nyt markkinoilla vertaansa vailla", LMSYS selitti.

Tom's Guiden mukaan Haikusta vaikuttavampaa tekee se, että se on "paikallisen kokoinen malli, joka on verrattavissa Gemini Nanoon". Se voi lukea ja käsitellä informaatiotiheää tutkimusta paperit alle kolmessa sekunnissa.

Malli saavuttaa loistavia tuloksia jopa ilman Opuksen tai minkä tahansa GPT-4-luokan mallien biljoonaa plus-parametriskaalaa.

Voisiko tämä olla lyhytaikainen menestys?

Vaikka OpenAI:n GPT-4-versiot nousivat toiselle sijalle, ne hallitsivat silti listan top 10:tä neljällä versiolla.

Mukaan Tomin opasOpenAI:n GPT-4-versiot eri muodoissaan ovat pitäneet kärkeä "niin kauan, että mikä tahansa muu malli, joka on lähellä sen vertailuarvoja, tunnetaan GPT-4-luokan mallina."

Koska tänä vuonna odotetaan "selvästi erilaista" GPT-5:tä, Anthropic ei välttämättä säilytä tätä asemaa liian kauan, koska ero Claude 3 Opuksen ja GPT-4:n välillä on kapea.

Vaikka OpenAI on pysynyt tiukkasanaisena sen varsinaisesta julkaisusta GPT-5, markkinat odottavat suuresti sen lanseerausta. Mallin kerrotaan olevan jonkin verran käynnissä "tiukat turvallisuustestit” ja simuloidut hyökkäykset, jotka ovat tärkeitä ennen julkaisua.

LMSYS Chatbot Arena

Tämä sijoitus perustuu ihmisten ääniin, toisin kuin muut tekoälymallien benchmarking-muodot. Tällä mallilla ihmiset sokeavat luokittelevat kahden eri mallin tulokset samaan kehotteeseen.

Chatbot Arenaa ylläpitää LMSYS, ja siinä on joukko suuria kielimalleja (LLM), jotka taistelevat sitä vastaan ​​"anonyymeissä satunnaistetuissa taisteluissa".

Se julkaistiin ensimmäisen kerran viime toukokuussa ja on kerännyt yli 400,000 XNUMX ääntä käyttäjiltä, ​​joilla on Googlen, Anthropicin ja AI-malleja. OpenAI.

"LMSYS Chatbot Arena on joukkolähdetty avoin alusta LLM-evaleille. Olemme keränneet yli 400,000 XNUMX ihmisen mieltymysääntä arvioidaksemme LLM:itä Elo-luokitusjärjestelmän avulla”, LMSYS sanoi.

Elo-järjestelmää käytetään enimmäkseen peleissä, kuten shakissa, arvioimaan pelaajan suhteellista taitoa. Mutta tässä tapauksessa sijoitusta sovelletaan chatbotiin eikä "mallia käyttävään ihmiseen".

Lue myös: Microsoft paljastaa "ensimmäiset" Surface PC:t, joissa on Copilot AI -painike

Puutteet

Chatbot Arenan rankingissa ei ole puutteita. Tom's Guiden mukaan se ei sisällä kaikkia mukana olevia malleja tai mallien versioita, vaikka käyttäjillä on joskus huonoja kokemuksia GPT-4:n lataamisen epäonnistumisesta. Se voi myös suosia joitain malleja, joissa on suora Internet-yhteys, kuten Google Gemini Pro.

Vaikka muut mallit, kuten ranskalaisen AI-käynnistyksen mallit mistraali ja kiinalaiset yritykset, kuten Alibaba, ovat viime aikoina saavuttaneet tiensä areenan kärkisijoille avoimen lähdekoodin mallien lisäksi, areenalta puuttuu edelleen joitain korkean profiilin malleja. Siitä puuttuu esimerkiksi Googlen Gemini Pro 1.5:n kaltaisia ​​malleja

Aikaleima:

Lisää aiheesta MetaNews