O modelo de IA de próxima geração da Anthropic, Claude 3 Opus, assumiu a pole position na tabela de classificação da Chatbot Arena, empurrando o GPT-4 da OpenAI para o segundo melhor.
Desde que foi lançado no ano passado, esta é a primeira vez que o modelo Claude 3 Opus está no topo da lista do Chatbot Arena, que tem todas as três versões do Claud 3 classificadas no top 10.
Os modelos Claude 3 deixam sua marca
Arena de chatbot LMSYS as classificações mostram que Claude 3 Sonnet ocupou uma quarta posição conjunta com Gemini Pro, enquanto Claude 3 Haiku, que foi lançado este ano, ficou em sexto lugar junto com uma versão anterior do GPT-4.
Apesar Claude 3 Haiku Embora possa não ser tão inteligente quanto o Sonnet ou o Opus, o modelo é mais rápido e significativamente mais barato, mas é “tão bom quanto os modelos muito maiores em testes cegos”, como revelam os resultados da arena.
“Claude 3 Haiku impressionou a todos, chegando até ao nível GPT-4 pela preferência do usuário! Sua velocidade, capacidades e extensão de contexto são incomparáveis no mercado”, explicou LMSYS.
De acordo com o Tom's Guide, o que torna o Haiku mais impressionante é que ele é o “modelo de tamanho local comparável ao Gemini Nano”. Pode ler e processar pesquisas com muita informação documentos em menos de três segundos.
O modelo está alcançando ótimos resultados mesmo sem a escala de trilhões de parâmetros do Opus ou qualquer um dos modelos da classe GPT-4.
[Atualização da Arena]
Mais de 70 mil novos votos na Arena🗳️ chegaram!
Claude-3 Haiku impressionou a todos, chegando até ao nível GPT-4 pela preferência dos nossos usuários! Sua velocidade, capacidades e duração do contexto são incomparáveis agora no mercado🔥
Parabéns @AnthropicAI no incrível lançamento do Claude-3!
Mais emocionante… pic.twitter.com/p1Guuf0B3K
-lmsys.org (@lmsysorg) 26 de março de 2024
Isso poderia ser um sucesso de curta duração?
Apesar de terem sido empurradas para a segunda posição, as versões GPT-4 da OpenAI ainda dominaram o top 10 da lista com quatro versões.
De acordo com o Guia do Tom, as versões GPT-4 da OpenAI em suas diversas formas mantiveram o primeiro lugar “por tanto tempo que qualquer outro modelo que se aproxime de seus benchmarks é conhecido como modelo da classe GPT-4”.
Com um GPT-5 “marcadamente diferente” esperado ainda este ano, a Anthropic pode não manter essa posição por muito tempo, já que a diferença nas pontuações entre Claude 3 Opus e GPT-4 é estreita.
Embora a OpenAI tenha permanecido calada sobre o lançamento real de seu GPT-5, o mercado antecipa muito o seu lançamento. O modelo está supostamente passando por algumas “testes de segurança rigorosos”E ataques simulados que são cruciais antes do lançamento.
Arena de chatbot LMSYS
Esta classificação baseia-se em votos humanos, em oposição a outras formas de benchmarking para modelos de IA. Com este, as pessoas classificam cegamente a saída de dois modelos diferentes para o mesmo prompt.
O Chatbot Arena é administrado pela LMSYS e apresenta uma série de grandes modelos de linguagem (LLMs) que estão lutando em “batalhas aleatórias anônimas”.
Foi lançado em maio passado e coletou mais de 400,000 votos de usuários que possuem modelos de IA do Google, Anthropic e OpenAI.
“LMSYS Chatbot Arena é uma plataforma aberta de crowdsourcing para avaliações LLM. Coletamos mais de 400,000 votos de preferência humana para classificar LLMs com o sistema de classificação Elo”, disse LMSYS.
O sistema Elo é usado principalmente em jogos como xadrez para avaliar a habilidade relativa de um jogador. Mas, neste caso, a classificação é aplicada ao chatbot e “não ao humano que utiliza o modelo”.
Veja também: Microsoft revela os 'primeiros' Surface PCs com botão Copilot AI
As deficiências
A classificação do Chatbot Arena não deixa de ter falhas. De acordo com o Guia do Tom, ele não inclui todos os modelos ou versões dos modelos incluídos, embora os usuários às vezes tenham experiências ruins com falha no carregamento do GPT-4. Também pode favorecer alguns modelos que possuem acesso ao vivo à Internet, por exemplo Google Gemini Pro.
Enquanto outros modelos como os da startup francesa de IA Mistral e empresas chinesas como a Alibaba conquistaram recentemente lugares de destaque na arena. Além dos modelos de código aberto, a arena ainda carece de alguns modelos de alto perfil. Por exemplo, faltam modelos como o Gemini Pro 1.5 do Google
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/
- :tem
- :é
- :não
- 000
- 1
- 10
- 14
- 26%
- 400
- 7
- 8
- 9
- a
- Acesso
- Segundo
- alcançar
- real
- Adição
- AI
- Modelos de IA
- Alibaba
- Todos os Produtos
- tb
- an
- e
- Antrópico
- antecipa
- qualquer
- aplicado
- SOMOS
- Arena
- AS
- Ataques
- Mau
- batalhas
- batalhando
- BE
- antes
- ser
- aferimento
- benchmarks
- MELHOR
- entre
- mas a
- by
- CAN
- capacidades
- casas
- chatbot
- mais barato
- xadrez
- chinês
- Fechar
- vinda
- comparável
- contexto
- crucial
- diferente
- parece
- dominado
- Mais cedo
- avaliar
- Mesmo
- esperado
- Experiências
- explicado
- falta
- mais rápido
- falhas
- favorecer
- Funcionalidades
- empresas
- Primeiro nome
- primeira vez
- Escolha
- formas
- quatro
- Quarto
- Francês
- da
- Games
- lacuna
- Gemini
- geração
- Bom estado, com sinais de uso
- ótimo
- guia
- Ter
- Herói
- Alta
- altamente
- segurar
- hospedeiro
- HTTPS
- humano
- Impressionado
- impressionante
- in
- incluir
- incluído
- incrível
- instância
- Inteligente
- Internet
- Acesso à internet
- IT
- ESTÁ
- articulação
- jpeg
- conhecido
- língua
- grande
- Maior
- Sobrenome
- Ano passado
- lançamento
- lançado
- leaderboard
- Comprimento
- menos
- Nível
- como
- Lista
- viver
- LLM
- carregar
- longo
- moldadas
- fazer
- FAZ
- mercado
- Posso..
- poder
- sente falta
- desaparecido
- modelo
- modelos
- mais
- na maioria das vezes
- muito
- nano
- estreito
- Novo
- Próximo
- agora
- of
- on
- ONE
- aberto
- open source
- OpenAI
- contrário
- or
- Outros
- A Nossa
- Fora
- saída
- Acima de
- papéis
- parâmetro
- PCs
- Pessoas
- plataforma
- platão
- Inteligência de Dados Platão
- PlatãoData
- jogador
- mais
- posição
- Pro
- processo
- Perfil
- empurrado
- Empurrando
- Randomizado
- classificar
- classificado
- Posição
- chegando
- Leia
- recentemente
- relativo
- liberar
- confia
- permaneceu
- alegadamente
- Resultados
- revelar
- revela
- Execute
- Segurança
- Dito
- mesmo
- Escala
- pontuações
- Segundo
- segundo
- Baixo
- mostrar
- de forma considerável
- sexto
- Tamanho
- habilidade
- So
- alguns
- às vezes
- velocidade
- Spot
- pontos
- inicialização
- Ainda
- sucesso
- superfície
- .
- tomado
- toma
- testes
- do que
- que
- A
- deles
- isto
- este ano
- aqueles
- três
- tempo
- para
- juntos
- também
- topo
- 10 topo
- coberto
- Trilhão
- verdadeiro
- dois
- passando
- incomparável
- Atualizar
- usava
- Utilizador
- usuários
- utilização
- vário
- versão
- versões
- votos
- foi
- Caminho..
- O Quê
- qual
- enquanto
- de
- sem
- ano
- ainda
- zefirnet