Claude 3 Opus on Chatbot-sijoituksen kärjessä

Julkaissut Platon

seuraajia: 0

Anthropicin seuraavan sukupolven tekoälymalli Claude 3 Opus on noussut paalupaikalle Chatbot Arenan tulostaulukossa nostaen OpenAI:n GPT-4:n toiseksi parhaaksi.

Sen jälkeen kun se lanseerattiin viime vuonna, tämä on ensimmäinen kerta, kun Claude 3 Opus -malli on noussut Chatbot Arena -luettelon kärkeen, jonka kaikki kolme Claud 3 -versiota ovat sijoittuneet kymmenen parhaan joukkoon.

Claude 3 -mallit tekevät jälkensä

LMSYS Chatbot Arena sijoitukset osoittavat, että Claude 3 Sonnet sijoittui yhdessä neljänneksi Gemini Pron kanssa, kun taas tänä vuonna lanseerattu Claude 3 Haiku sijoittui kuudenneksi yhdessä aiemman GPT-4-version kanssa.

Vaikka Claude 3 Haiku ei ehkä ole yhtä älykäs kuin Sonnet tai Opus, malli on nopeampi ja huomattavasti halvempi, mutta silti se on "yhtä hyvä kuin paljon suuremmat mallit sokkotesteissä", kuten areenan tulokset paljastavat.

“Claude 3 Haiku on tehnyt vaikutuksen kaikkiin, jopa saavuttanut GPT-4-tason käyttäjien mieltymyksillämme! Sen nopeus, ominaisuudet ja kontekstin pituus ovat nyt markkinoilla vertaansa vailla", LMSYS selitti.

Tom's Guiden mukaan Haikusta vaikuttavampaa tekee se, että se on "paikallisen kokoinen malli, joka on verrattavissa Gemini Nanoon". Se voi lukea ja käsitellä informaatiotiheää tutkimusta paperit alle kolmessa sekunnissa.

Malli saavuttaa loistavia tuloksia jopa ilman Opuksen tai minkä tahansa GPT-4-luokan mallien biljoonaa plus-parametriskaalaa.

[Areenapäivitys]

Yli 70 XNUMX uutta Arena-ääntä🗳️ tulossa!

Claude-3 Haiku on tehnyt vaikutuksen kaikkiin, jopa saavuttanut GPT-4-tason käyttäjien mieltymyksillämme! Sen nopeus, ominaisuudet ja kontekstin pituus ovat nyt markkinoilla vertaansa vailla🔥

Onnittelut @AnthropicAI uskomattomassa Claude-3-laukaisussa!

Jännittävämpi… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) Maaliskuussa 26, 2024

Voisiko tämä olla lyhytaikainen menestys?

Vaikka OpenAI:n GPT-4-versiot nousivat toiselle sijalle, ne hallitsivat silti listan top 10:tä neljällä versiolla.

Mukaan Tomin opasOpenAI:n GPT-4-versiot eri muodoissaan ovat pitäneet kärkeä "niin kauan, että mikä tahansa muu malli, joka on lähellä sen vertailuarvoja, tunnetaan GPT-4-luokan mallina."

Koska tänä vuonna odotetaan "selvästi erilaista" GPT-5:tä, Anthropic ei välttämättä säilytä tätä asemaa liian kauan, koska ero Claude 3 Opuksen ja GPT-4:n välillä on kapea.

Vaikka OpenAI on pysynyt tiukkasanaisena sen varsinaisesta julkaisusta GPT-5, markkinat odottavat suuresti sen lanseerausta. Mallin kerrotaan olevan jonkin verran käynnissä "tiukat turvallisuustestit” ja simuloidut hyökkäykset, jotka ovat tärkeitä ennen julkaisua.

LMSYS Chatbot Arena

Tämä sijoitus perustuu ihmisten ääniin, toisin kuin muut tekoälymallien benchmarking-muodot. Tällä mallilla ihmiset sokeavat luokittelevat kahden eri mallin tulokset samaan kehotteeseen.

Chatbot Arenaa ylläpitää LMSYS, ja siinä on joukko suuria kielimalleja (LLM), jotka taistelevat sitä vastaan "anonyymeissä satunnaistetuissa taisteluissa".

Se julkaistiin ensimmäisen kerran viime toukokuussa ja on kerännyt yli 400,000 XNUMX ääntä käyttäjiltä, joilla on Googlen, Anthropicin ja AI-malleja. OpenAI.

"LMSYS Chatbot Arena on joukkolähdetty avoin alusta LLM-evaleille. Olemme keränneet yli 400,000 XNUMX ihmisen mieltymysääntä arvioidaksemme LLM:itä Elo-luokitusjärjestelmän avulla”, LMSYS sanoi.

Elo-järjestelmää käytetään enimmäkseen peleissä, kuten shakissa, arvioimaan pelaajan suhteellista taitoa. Mutta tässä tapauksessa sijoitusta sovelletaan chatbotiin eikä "mallia käyttävään ihmiseen".

Lue myös: Microsoft paljastaa "ensimmäiset" Surface PC:t, joissa on Copilot AI -painike

Puutteet

Chatbot Arenan rankingissa ei ole puutteita. Tom's Guiden mukaan se ei sisällä kaikkia mukana olevia malleja tai mallien versioita, vaikka käyttäjillä on joskus huonoja kokemuksia GPT-4:n lataamisen epäonnistumisesta. Se voi myös suosia joitain malleja, joissa on suora Internet-yhteys, kuten Google Gemini Pro.

Vaikka muut mallit, kuten ranskalaisen AI-käynnistyksen mallit mistraali ja kiinalaiset yritykset, kuten Alibaba, ovat viime aikoina saavuttaneet tiensä areenan kärkisijoille avoimen lähdekoodin mallien lisäksi, areenalta puuttuu edelleen joitain korkean profiilin malleja. Siitä puuttuu esimerkiksi Googlen Gemini Pro 1.5:n kaltaisia malleja

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Aikaleima: Maaliskuussa 28, 2024

Aikaleima: Joulukuu 1, 2022

Claude 3 Opus on Chatbot-sijoituksen kärjessä

Julkaissut Platon

Claude 3 -mallit tekevät jälkensä

Voisiko tämä olla lyhytaikainen menestys?

LMSYS Chatbot Arena

Puutteet

Lisää aiheesta MetaNews

WEF-raportti osoittaa, että yhdysvaltalaiset yritykset omaksuvat Industrial Metaversen

Hugging Face ja muut vaativat EU:ta suojelemaan avoimen lähdekoodin tekoälyä

Harmaasävyinen nousu Ordinalsin vaikutuksesta Bitcoiniin

Kuinka Yhdysvaltain osavaltiot murskaavat Metaverse- ja kryptohuijauksen

Siirry Keatsin yli, runoudella on uusi kuningas tekoälyssä

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili