Claude 3 Opus ocupa o primeiro lugar nas classificações do Chatbot

Republicado por Platão

seguidores: 0

O modelo de IA de próxima geração da Anthropic, Claude 3 Opus, assumiu a pole position na tabela de classificação da Chatbot Arena, empurrando o GPT-4 da OpenAI para o segundo melhor.

Desde que foi lançado no ano passado, esta é a primeira vez que o modelo Claude 3 Opus está no topo da lista do Chatbot Arena, que tem todas as três versões do Claud 3 classificadas no top 10.

Os modelos Claude 3 deixam sua marca

Arena de chatbot LMSYS as classificações mostram que Claude 3 Sonnet ocupou uma quarta posição conjunta com Gemini Pro, enquanto Claude 3 Haiku, que foi lançado este ano, ficou em sexto lugar junto com uma versão anterior do GPT-4.

Apesar Claude 3 Haiku Embora possa não ser tão inteligente quanto o Sonnet ou o Opus, o modelo é mais rápido e significativamente mais barato, mas é “tão bom quanto os modelos muito maiores em testes cegos”, como revelam os resultados da arena.

“Claude 3 Haiku impressionou a todos, chegando até ao nível GPT-4 pela preferência do usuário! Sua velocidade, capacidades e extensão de contexto são incomparáveis no mercado”, explicou LMSYS.

De acordo com o Tom's Guide, o que torna o Haiku mais impressionante é que ele é o “modelo de tamanho local comparável ao Gemini Nano”. Pode ler e processar pesquisas com muita informação documentos em menos de três segundos.

O modelo está alcançando ótimos resultados mesmo sem a escala de trilhões de parâmetros do Opus ou qualquer um dos modelos da classe GPT-4.

[Atualização da Arena]

Mais de 70 mil novos votos na Arena🗳️ chegaram!

Claude-3 Haiku impressionou a todos, chegando até ao nível GPT-4 pela preferência dos nossos usuários! Sua velocidade, capacidades e duração do contexto são incomparáveis agora no mercado🔥

Parabéns @AnthropicAI no incrível lançamento do Claude-3!

Mais emocionante… pic.twitter.com/p1Guuf0B3K

-lmsys.org (@lmsysorg) 26 de março de 2024

Isso poderia ser um sucesso de curta duração?

Apesar de terem sido empurradas para a segunda posição, as versões GPT-4 da OpenAI ainda dominaram o top 10 da lista com quatro versões.

De acordo com o Guia do Tom, as versões GPT-4 da OpenAI em suas diversas formas mantiveram o primeiro lugar “por tanto tempo que qualquer outro modelo que se aproxime de seus benchmarks é conhecido como modelo da classe GPT-4”.

Com um GPT-5 “marcadamente diferente” esperado ainda este ano, a Anthropic pode não manter essa posição por muito tempo, já que a diferença nas pontuações entre Claude 3 Opus e GPT-4 é estreita.

Embora a OpenAI tenha permanecido calada sobre o lançamento real de seu GPT-5, o mercado antecipa muito o seu lançamento. O modelo está supostamente passando por algumas “testes de segurança rigorosos”E ataques simulados que são cruciais antes do lançamento.

Arena de chatbot LMSYS

Esta classificação baseia-se em votos humanos, em oposição a outras formas de benchmarking para modelos de IA. Com este, as pessoas classificam cegamente a saída de dois modelos diferentes para o mesmo prompt.

O Chatbot Arena é administrado pela LMSYS e apresenta uma série de grandes modelos de linguagem (LLMs) que estão lutando em “batalhas aleatórias anônimas”.

Foi lançado em maio passado e coletou mais de 400,000 votos de usuários que possuem modelos de IA do Google, Anthropic e OpenAI.

“LMSYS Chatbot Arena é uma plataforma aberta de crowdsourcing para avaliações LLM. Coletamos mais de 400,000 votos de preferência humana para classificar LLMs com o sistema de classificação Elo”, disse LMSYS.

O sistema Elo é usado principalmente em jogos como xadrez para avaliar a habilidade relativa de um jogador. Mas, neste caso, a classificação é aplicada ao chatbot e “não ao humano que utiliza o modelo”.

Veja também: Microsoft revela os 'primeiros' Surface PCs com botão Copilot AI

As deficiências

A classificação do Chatbot Arena não deixa de ter falhas. De acordo com o Guia do Tom, ele não inclui todos os modelos ou versões dos modelos incluídos, embora os usuários às vezes tenham experiências ruins com falha no carregamento do GPT-4. Também pode favorecer alguns modelos que possuem acesso ao vivo à Internet, por exemplo Google Gemini Pro.

Enquanto outros modelos como os da startup francesa de IA Mistral e empresas chinesas como a Alibaba conquistaram recentemente lugares de destaque na arena. Além dos modelos de código aberto, a arena ainda carece de alguns modelos de alto perfil. Por exemplo, faltam modelos como o Gemini Pro 1.5 do Google

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Carimbo de hora: 28 de março de 2024

Carimbo de hora: 1 Dezembro, 2022

Claude 3 Opus ocupa o primeiro lugar nas classificações do Chatbot

Republicado por Platão

Os modelos Claude 3 deixam sua marca

Isso poderia ser um sucesso de curta duração?

Arena de chatbot LMSYS

As deficiências

Mais de MetaNotícias

Relatório do WEF mostra que empresas dos EUA adotam o metaverso industrial

Abraçando o rosto e outros instam a UE a proteger a IA de código aberto

Escala de cinza otimista sobre o impacto dos ordinais no Bitcoin

Como os estados dos EUA estão reprimindo o metaverso e os golpes de criptografia

Supere Keats, a poesia tem um novo rei na IA

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta