Модель штучного інтелекту наступного покоління від Anthropic Claude 3 Opus зайняла першу позицію в таблиці лідерів Chatbot Arena, посунувши OpenAI GPT-4 на друге місце.
З моменту запуску минулого року це перший випадок, коли модель Claude 3 Opus очолила список Chatbot Arena, у якому всі три версії Claud 3 потрапили в топ-10.
Моделі Claude 3 залишають слід
Арена чат-ботів LMSYS рейтинги показують, що Claude 3 Sonnet займає четверту позицію спільно з Gemini Pro, а Claude 3 Haiku, який був запущений цього року, посів шосте місце разом із попередньою версією GPT-4.
хоча Клод 3 Хайку може бути не настільки розумним, як Sonnet або Opus, ця модель швидша та значно дешевша, але вона «така ж хороша, як набагато більші моделі під час сліпих тестів», як показують результати арени.
«Claude 3 Haiku вразив усіх, навіть досягнувши рівня GPT-4 за нашими перевагами користувачів! Його швидкість, можливості та довжина контексту зараз не мають собі рівних на ринку», — пояснили в LMSYS.
Відповідно до Tom's Guide, що робить Haiku більш вражаючим, це те, що це «модель місцевого розміру, порівнянна з Gemini Nano». Це може читати та обробляти інформаційно-насичене дослідження документи менш ніж за три секунди.
Модель досягає чудових результатів навіть без трильйонної шкали параметрів Opus або будь-якої моделі класу GPT-4.
[Оновлення Арени]
Понад 70 тисяч нових голосів на Арені🗳️!
Claude-3 Haiku вразив усіх, навіть досягнувши рівня GPT-4 за нашими перевагами користувачів! Його швидкість, можливості та довжина контексту зараз не мають собі рівних на ринку🔥
вітаю @AnthropicAI про неймовірний запуск Клод-3!
Більш захоплюючий… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) Березня 26, 2024
Чи може це бути короткочасним успіхом?
Незважаючи на те, що версії OpenAI GPT-4 потрапили на друге місце, вони все ще домінували в топ-10 списку з чотирма версіями.
За оцінками Керівництво Тома, версії OpenAI GPT-4 у своїх різних формах утримували перше місце «так довго, що будь-яка інша модель, яка наближається до її тестів, відома як модель класу GPT-4».
З огляду на те, що цього року очікується «помітно інший» GPT-5, Anthropic може не утримувати цю позицію надто довго, оскільки розрив у балах між Claude 3 Opus і GPT-4 невеликий.
Хоча OpenAI залишався мовчазним щодо фактичного випуску GPT-5ринок з нетерпінням чекає його запуску. Повідомляється, що модель проходить деякі випробування «суворе тестування безпеки» та симульовані атаки, які мають вирішальне значення перед випуском.
Арена чат-ботів LMSYS
Цей рейтинг ґрунтується на голосуванні людей, на відміну від інших форм порівняльного аналізу моделей ШІ. З цим люди сліпо ранжують вихід двох різних моделей за одним запитом.
Chatbot Arena керується LMSYS і містить безліч великих мовних моделей (LLM), які борються в «анонімних рандомізованих боях».
Він був вперше запущений у травні минулого року та зібрав понад 400,000 XNUMX голосів від користувачів, які мають моделі ШІ від Google, Anthropic і OpenAI.
«LMSYS Chatbot Arena — це краудсорсингова відкрита платформа для оцінювання LLM. Ми зібрали понад 400,000 XNUMX людських голосів, щоб класифікувати магістерів права за системою рейтингу Elo», – сказав LMSYS.
Система Elo здебільшого використовується в таких іграх, як шахи, для оцінки відносної майстерності гравця. Але в цьому випадку рейтинг застосовується до чат-бота, а не до «людини, яка використовує модель».
Читайте також: Microsoft представляє «перші» ПК Surface із кнопкою Copilot AI
Недоліки
У рейтингу Chatbot Arena не бракує недоліків. Відповідно до Tom's Guide, він не включає всі моделі або версії включених моделей, хоча користувачі іноді мають поганий досвід, коли GPT-4 не завантажується. Він також може віддавати перевагу деяким моделям, які мають живий доступ до Інтернету, наприклад Google Gemini Pro.
У той час як інші моделі схожі на моделі французького стартапу AI містраль і китайські фірми, такі як Alibaba, нещодавно зайняли перші місця на арені на додаток до моделей з відкритим кодом, арені все ще бракує деяких високопоставлених моделей. Наприклад, відсутні такі моделі, як Google Gemini Pro 1.5
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/
- : має
- :є
- : ні
- 000
- 1
- 10
- 14
- 26%
- 400
- 7
- 8
- 9
- a
- доступ
- За
- досягнення
- фактичний
- доповнення
- AI
- Моделі AI
- Alibaba
- ВСІ
- Також
- an
- та
- Антропний
- передчуває
- будь-який
- прикладної
- ЕСТЬ
- Арена
- AS
- нападки
- поганий
- бої
- битви
- BE
- перед тим
- буття
- бенчмаркінг
- тести
- КРАЩЕ
- між
- але
- by
- CAN
- можливості
- випадок
- Chatbot
- більш дешевий
- Chess
- китайський
- близько
- майбутній
- порівнянний
- контекст
- вирішальне значення
- різний
- робить
- домінують
- Раніше
- оцінювати
- Навіть
- очікуваний
- Досліди
- пояснені
- відсутності
- швидше
- недоліки
- на користь
- риси
- фірми
- Перший
- перший раз
- для
- форми
- чотири
- Четвертий
- французька
- від
- Games
- розрив
- Близнюки
- покоління
- добре
- Google,
- великий
- керівництво
- Мати
- Герой
- Високий
- дуже
- тримати
- господар
- HTTPS
- людина
- вражений
- вражаючий
- in
- включати
- включені
- неймовірний
- екземпляр
- Розумний
- інтернет
- Доступ в інтернет
- IT
- ЙОГО
- спільна
- JPEG
- відомий
- мова
- великий
- більше
- останній
- Минулого року
- запуск
- запущений
- лідерів
- довжина
- менше
- рівень
- як
- список
- жити
- LLM
- загрузка
- Довго
- made
- зробити
- РОБОТИ
- ринок
- Може..
- може бути
- промахів
- відсутній
- модель
- Моделі
- більше
- в основному
- багато
- нано
- вузький
- Нові
- наступний
- зараз
- of
- on
- ONE
- відкрити
- з відкритим вихідним кодом
- OpenAI
- протистояли
- or
- Інше
- наші
- з
- вихід
- над
- документи
- параметр
- ПК
- Люди
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- гравець
- плюс
- положення
- Pro
- процес
- профіль
- штовхнув
- Натискання
- Рандомізований
- ранжувати
- ранг
- Ранжування
- досягнення
- Читати
- нещодавно
- відносний
- звільнити
- спирається
- залишився
- як повідомляється
- результати
- показувати
- Виявляє
- прогін
- Безпека
- Зазначений
- то ж
- шкала
- безліч
- другий
- seconds
- Короткий
- Показувати
- істотно
- шостий
- Розмір
- майстерність
- So
- деякі
- іноді
- швидкість
- Spot
- плями
- введення в експлуатацію
- Як і раніше
- успіх
- поверхню
- система
- прийняті
- приймає
- Тести
- ніж
- Що
- Команда
- їх
- це
- У цьому році
- ті
- три
- час
- до
- разом
- занадто
- топ
- Кращі 10
- увінчаний
- трильйон
- правда
- два
- проходить
- неперевершений
- Оновити
- використовуваний
- користувач
- користувачі
- використання
- різний
- версія
- версії
- голосів
- було
- шлях..
- Що
- який
- в той час як
- з
- без
- рік
- ще
- зефірнет