Модель искусственного интеллекта следующего поколения от Anthropic Claude 3 Opus заняла поул-позицию в таблице лидеров Chatbot Arena, подняв GPT-4 от OpenAI на второе место.
С момента запуска в прошлом году модель Claude 3 Opus впервые возглавила список Chatbot Arena, в котором все три версии Claud 3 вошли в десятку лучших.
Модели Claude 3 производят впечатление
Арена чат-ботов LMSYS Рейтинги показывают, что Claude 3 Sonnet занял четвертую позицию вместе с Gemini Pro, а Claude 3 Haiku, выпущенный в этом году, занял шестое место вместе с более ранней версией GPT-4.
Несмотря на то, что Клод 3 Хайку может быть, не так интеллектуальна, как Sonnet или Opus, модель быстрее и значительно дешевле, но, как показывают результаты арены, она «так же хороша, как и гораздо более крупные модели на слепых тестах».
«Claude 3 Haiku впечатлил всех, даже достигнув уровня GPT-4 по предпочтениям наших пользователей! Его скорость, возможности и длина контекста не имеют себе равных на рынке», — пояснили в LMSYS.
По данным Tom's Guide, Haiku более впечатляет то, что это «модель местного размера, сравнимая с Gemini Nano». Он может читать и обрабатывать информативные исследования документы менее чем за три секунды.
Модель достигает отличных результатов даже без шкалы параметров в триллион с лишним, как у Opus или любой из моделей класса GPT-4.
[Обновление арены]
Более 70 тысяч новых голосов на Арене🗳️ уже поступило!
Claude-3 Haiku впечатлил всех, даже достигнув уровня GPT-4 по предпочтениям наших пользователей! Его скорость, возможности и длина контекста сейчас не имеют себе равных на рынке🔥
Поздравляю @АнтропическийАИ о невероятном запуске Клода-3!
Более захватывающий… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) 26 марта 2024
Может ли это быть кратковременным успехом?
Несмотря на то, что версии OpenAI GPT-4 были отодвинуты на вторую позицию, они по-прежнему доминировали в первой десятке списка с четырьмя версиями.
По Руководство пользователя Tom's GuideВерсии GPT-4 от OpenAI в различных формах удерживали первое место «настолько долго, что любая другая модель, приближающаяся к ее эталонам, называется моделью класса GPT-4».
Поскольку в этом году ожидается «заметно другой» GPT-5, Anthropic, возможно, не будет удерживать эту позицию слишком долго, поскольку разрыв в баллах между Claude 3 Opus и GPT-4 невелик.
Хотя OpenAI по-прежнему хранит молчание о фактическом выпуске своей GPT-5, рынок с нетерпением ожидает его запуска. Сообщается, что модель проходит некоторые «строгие испытания на безопасность» и смоделированные атаки, которые имеют решающее значение перед выпуском.
Арена чат-ботов LMSYS
Этот рейтинг основан на голосах людей, в отличие от других форм сравнительного анализа моделей ИИ. В этом случае люди ранжируют результаты двух разных моделей вслепую по одному и тому же запросу.
Арена чат-ботов находится под управлением LMSYS и включает в себя множество крупных языковых моделей (LLM), которые сражаются в «анонимных случайных битвах».
Впервые он был запущен в мае прошлого года и собрал более 400,000 XNUMX голосов от пользователей, у которых есть модели искусственного интеллекта от Google, Anthropic и OpenAI.
«LMSYS Chatbot Arena — это краудсорсинговая открытая платформа для оценки LLM. Мы собрали более 400,000 XNUMX человеческих голосов, чтобы ранжировать LLM с помощью рейтинговой системы Elo», — заявили в LMSYS.
Система Эло в основном используется в таких играх, как шахматы, для оценки относительного мастерства игрока. Но в данном случае рейтинг применяется к чат-боту, а «а не к человеку, использующему модель».
Читайте также: Microsoft представляет «первые» ПК Surface с кнопкой Copilot AI
Недостатки
Рейтинг Chatbot Arena не лишен недостатков. Согласно Tom's Guide, он не включает все модели или версии включенных моделей, хотя у пользователей иногда возникают неприятные ситуации, когда GPT-4 не загружается. Он также может отдавать предпочтение некоторым моделям с прямым доступом в Интернет, например Google Gemini Pro.
В то время как другие модели, например модели французского стартапа в области искусственного интеллекта, Мистраль и китайские фирмы, такие как Alibaba, недавно заняли первые места на арене, помимо моделей с открытым исходным кодом, на арене все еще отсутствуют некоторые высококлассные модели. Например, отсутствуют такие модели, как Gemini Pro 1.5 от Google.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/
- :имеет
- :является
- :нет
- 000
- 1
- 10
- 14
- 26%
- 400
- 7
- 8
- 9
- a
- доступ
- По
- достижение
- фактического соединения
- дополнение
- AI
- AI модели
- Алибаба
- Все
- причислены
- an
- и
- Антропный
- предвосхищает
- любой
- прикладной
- МЫ
- Арене
- AS
- нападки
- Плохой
- бои
- борьба
- BE
- до
- не являетесь
- бенчмаркинг
- тесты
- ЛУЧШЕЕ
- между
- но
- by
- CAN
- возможности
- случаев
- Chatbot
- более дешевый
- шахматы
- китайский
- Закрыть
- приход
- сравнимый
- контекст
- решающее значение
- различный
- приносит
- доминируют
- Ранее
- оценивать
- Даже
- ожидаемый
- Впечатления
- объяснены
- отсутствии
- быстрее
- неисправности
- в пользу
- Особенности
- Компаний
- Во-первых,
- Впервые
- Что касается
- формы
- 4
- Четвертый
- Французский
- от
- Игры
- разрыв
- Gemini
- поколение
- хорошо
- большой
- инструкция
- Есть
- Герой
- High
- очень
- держать
- кашель
- HTTPS
- человек
- впечатленный
- впечатляющий
- in
- включают
- включены
- невероятный
- пример
- Умный
- Интернет
- доступ в Интернет
- IT
- ЕГО
- совместная
- JPEG
- известный
- язык
- большой
- больше
- Фамилия
- В прошлом году
- запуск
- запустили
- лидеров
- Длина
- Меньше
- уровень
- такое как
- Список
- жить
- LLM
- загрузка
- Длинное
- сделанный
- сделать
- ДЕЛАЕТ
- рынок
- Май..
- может быть
- промахов
- отсутствующий
- модель
- Модели
- БОЛЕЕ
- в основном
- много
- карликовый
- Узкий
- Новые
- следующий
- сейчас
- of
- on
- ONE
- открытый
- с открытым исходным кодом
- OpenAI
- против
- or
- Другое
- наши
- внешний
- выходной
- за
- бумага
- параметр
- ПК
- Люди
- Платформа
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- игрок
- плюс
- должность
- Pro
- процесс
- Профиль
- толкнул
- Нажимать
- Рандомизированное
- ранг
- вошел
- Ранжирование
- достигнув результата
- Читать
- недавно
- относительный
- освободить
- полагается
- остались
- , по имеющимся данным
- Итоги
- показывать
- Показывает
- Run
- Сохранность
- Сказал
- то же
- Шкала
- множество
- Во-вторых
- секунды
- Короткое
- показывать
- существенно
- шестой
- Размер
- умение
- So
- некоторые
- иногда
- скорость
- Спотовая торговля
- пятна
- ввод в эксплуатацию
- По-прежнему
- успех
- Поверхность
- система
- приняты
- принимает
- тестов
- чем
- который
- Ассоциация
- их
- этой
- В этом году
- те
- три
- время
- в
- вместе
- слишком
- топ
- Топ-10
- увенчанный
- Триллион
- правда
- два
- Проходят
- бесподобный
- Обновление ПО
- используемый
- Информация о пользователе
- пользователей
- через
- различный
- версия
- версии
- голосов
- законопроект
- Путь..
- Что
- , которые
- в то время как
- без
- год
- еще
- зефирнет