Claude 3 Opus занял первое место в рейтинге чат-ботов

Переиздано Платоном

Читают: 0

Модель искусственного интеллекта следующего поколения от Anthropic Claude 3 Opus заняла поул-позицию в таблице лидеров Chatbot Arena, подняв GPT-4 от OpenAI на второе место.

С момента запуска в прошлом году модель Claude 3 Opus впервые возглавила список Chatbot Arena, в котором все три версии Claud 3 вошли в десятку лучших.

Модели Claude 3 производят впечатление

Арена чат-ботов LMSYS Рейтинги показывают, что Claude 3 Sonnet занял четвертую позицию вместе с Gemini Pro, а Claude 3 Haiku, выпущенный в этом году, занял шестое место вместе с более ранней версией GPT-4.

Несмотря на то, что Клод 3 Хайку может быть, не так интеллектуальна, как Sonnet или Opus, модель быстрее и значительно дешевле, но, как показывают результаты арены, она «так же хороша, как и гораздо более крупные модели на слепых тестах».

«Claude 3 Haiku впечатлил всех, даже достигнув уровня GPT-4 по предпочтениям наших пользователей! Его скорость, возможности и длина контекста не имеют себе равных на рынке», — пояснили в LMSYS.

По данным Tom's Guide, Haiku более впечатляет то, что это «модель местного размера, сравнимая с Gemini Nano». Он может читать и обрабатывать информативные исследования документы менее чем за три секунды.

Модель достигает отличных результатов даже без шкалы параметров в триллион с лишним, как у Opus или любой из моделей класса GPT-4.

[Обновление арены]

Более 70 тысяч новых голосов на Арене🗳️ уже поступило!

Claude-3 Haiku впечатлил всех, даже достигнув уровня GPT-4 по предпочтениям наших пользователей! Его скорость, возможности и длина контекста сейчас не имеют себе равных на рынке🔥

Поздравляю @АнтропическийАИ о невероятном запуске Клода-3!

Более захватывающий… pic.twitter.com/p1Guuf0B3K

— lmsys.org (@lmsysorg) 26 марта 2024

Может ли это быть кратковременным успехом?

Несмотря на то, что версии OpenAI GPT-4 были отодвинуты на вторую позицию, они по-прежнему доминировали в первой десятке списка с четырьмя версиями.

По Руководство пользователя Tom's GuideВерсии GPT-4 от OpenAI в различных формах удерживали первое место «настолько долго, что любая другая модель, приближающаяся к ее эталонам, называется моделью класса GPT-4».

Поскольку в этом году ожидается «заметно другой» GPT-5, Anthropic, возможно, не будет удерживать эту позицию слишком долго, поскольку разрыв в баллах между Claude 3 Opus и GPT-4 невелик.

Хотя OpenAI по-прежнему хранит молчание о фактическом выпуске своей GPT-5, рынок с нетерпением ожидает его запуска. Сообщается, что модель проходит некоторые «строгие испытания на безопасность» и смоделированные атаки, которые имеют решающее значение перед выпуском.

Арена чат-ботов LMSYS

Этот рейтинг основан на голосах людей, в отличие от других форм сравнительного анализа моделей ИИ. В этом случае люди ранжируют результаты двух разных моделей вслепую по одному и тому же запросу.

Арена чат-ботов находится под управлением LMSYS и включает в себя множество крупных языковых моделей (LLM), которые сражаются в «анонимных случайных битвах».

Впервые он был запущен в мае прошлого года и собрал более 400,000 XNUMX голосов от пользователей, у которых есть модели искусственного интеллекта от Google, Anthropic и OpenAI.

«LMSYS Chatbot Arena — это краудсорсинговая открытая платформа для оценки LLM. Мы собрали более 400,000 XNUMX человеческих голосов, чтобы ранжировать LLM с помощью рейтинговой системы Elo», — заявили в LMSYS.

Система Эло в основном используется в таких играх, как шахматы, для оценки относительного мастерства игрока. Но в данном случае рейтинг применяется к чат-боту, а «а не к человеку, использующему модель».

Недостатки

Рейтинг Chatbot Arena не лишен недостатков. Согласно Tom's Guide, он не включает все модели или версии включенных моделей, хотя у пользователей иногда возникают неприятные ситуации, когда GPT-4 не загружается. Он также может отдавать предпочтение некоторым моделям с прямым доступом в Интернет, например Google Gemini Pro.

В то время как другие модели, например модели французского стартапа в области искусственного интеллекта, Мистраль и китайские фирмы, такие как Alibaba, недавно заняли первые места на арене, помимо моделей с открытым исходным кодом, на арене все еще отсутствуют некоторые высококлассные модели. Например, отсутствуют такие модели, как Gemini Pro 1.5 от Google.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/

Отметка времени: 28 марта 2024

Отметка времени: Декабрь 1, 2022

Claude 3 Opus занял первое место в рейтинге чат-ботов

Переиздано Платоном

Модели Claude 3 производят впечатление

Может ли это быть кратковременным успехом?

Арена чат-ботов LMSYS

Недостатки

Больше от МетаНьюс

Отчет ВЭФ показывает, что американские фирмы используют промышленную метавселенную

Hugging Face и другие призывают ЕС защитить ИИ с открытым исходным кодом

Оттенки серого бычьи о влиянии ординалов на биткойн

Как штаты США борются с метавселенной и крипто-мошенничеством

Подвинься, Китс, у поэзии новый король в ИИ

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись