نسل بعدی مدل هوش مصنوعی آنتروپیک، Claude 3 Opus، در رتبه اول جدول Chatbot Arena قرار گرفته است و GPT-4 OpenAI را در رتبه دوم بهترین قرار داده است.
از زمانی که سال گذشته عرضه شد، این اولین بار است که مدل Claude 3 Opus در صدر فهرست Chatbot Arena قرار می گیرد که هر سه نسخه Claud 3 را در رتبه 10 قرار می دهد.
مدل های کلود 3 علامت گذاری می کنند
LMSYS Chatbot Arena رتبه بندی ها نشان می دهد که کلود 3 سونت در جایگاه چهارم مشترک با جمینی پرو قرار گرفت در حالی که کلود 3 هایکو که امسال راه اندازی شد همراه با نسخه قبلی GPT-4 در رتبه ششم قرار گرفت.
هر چند کلود 3 هایکو ممکن است به اندازه Sonnet یا Opus هوشمند نباشد، این مدل سریعتر و به طور قابل توجهی ارزانتر است، اما همانطور که نتایج میدان نشان می دهد "به اندازه مدل های بسیار بزرگتر در تست های کور خوب است".
«کلود 3 هایکو همه را تحت تأثیر قرار داده است، حتی با ترجیح کاربر ما به سطح GPT-4 رسیده است! LMSYS توضیح داد که سرعت، قابلیت ها و طول زمینه آن اکنون در بازار بی نظیر است.
به گفته Tom's Guide، چیزی که هایکو را چشمگیرتر می کند این است که "مدل اندازه محلی قابل مقایسه با Gemini Nano" است. می تواند مطالعه و پردازش اطلاعات متراکم کاغذها در کمتر از سه ثانیه
این مدل حتی بدون مقیاس پارامتر به اضافه تریلیون Opus یا هر یک از مدل های کلاس GPT-4 به نتایج عالی دست می یابد.
[به روز رسانی آرنا]
بیش از 70 هزار رای جدید آرنا🗳️ وارد شده است!
هایکو کلود-3 همه را تحت تأثیر قرار داده است، حتی با ترجیح کاربر ما به سطح GPT-4 رسیده است! سرعت، قابلیت ها و طول زمینه آن اکنون در بازار بی نظیر است
تبریک میگم @AnthropicAI در پرتاب باورنکردنی کلود-3!
هیجان انگیز تر… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) مارس 26، 2024
آیا این می تواند یک موفقیت کوتاه مدت باشد؟
علیرغم اینکه به جایگاه دوم رسیده است، نسخه های GPT-4 OpenAI همچنان با چهار نسخه در بین 10 نسخه برتر لیست غالب هستند.
مطابق با راهنمای تامنسخههای GPT-4 OpenAI در اشکال مختلف آن «برای مدت طولانی رتبه اول را حفظ کردهاند که هر مدل دیگری که به معیارهای آن نزدیک شود به عنوان مدل کلاس GPT-4 شناخته میشود».
با وجود یک GPT-5 "به طور قابل توجهی متفاوت" که در سال جاری انتظار می رود، Anthropic ممکن است این موقعیت را برای مدت طولانی حفظ نکند، زیرا شکاف در امتیازات بین Claude 3 Opus و GPT-4 کم است.
اگرچه OpenAI در مورد انتشار واقعی خود سخت گیر مانده است GPT-5، بازار به شدت انتظار راه اندازی آن را دارد. طبق گزارش ها، این مدل در حال گذراندن برخی موارد است "تست ایمنی دقیقو حملات شبیه سازی شده که قبل از انتشار بسیار مهم هستند.
LMSYS Chatbot Arena
این رتبهبندی بر خلاف سایر اشکال معیار برای مدلهای هوش مصنوعی، به آرای انسانها متکی است. با این یکی، افراد خروجی دو مدل مختلف را به یک اعلان رتبه بندی می کنند.
Chatbot Arena توسط LMSYS اداره میشود و دارای مدلهای بزرگ زبان (LLM) است که در «نبردهای تصادفی ناشناس» با آن مبارزه میکنند.
این اولین بار در ماه مه گذشته راه اندازی شد و بیش از 400,000 رای از کاربرانی که مدل های هوش مصنوعی گوگل، آنتروپیک و دارند جمع آوری کرده است. OpenAI.
«LMSYS Chatbot Arena یک پلتفرم باز جمعسپاری برای ارزشهای LLM است. ما بیش از 400,000 رای ترجیحی انسانی برای رتبه بندی LLM ها با سیستم رتبه بندی Elo جمع آوری کرده ایم.» LMSYS گفت.
سیستم Elo بیشتر در بازی هایی مانند شطرنج برای ارزیابی مهارت نسبی یک بازیکن استفاده می شود. اما در این مورد، رتبهبندی برای چت بات اعمال میشود و «نه انسانی که از مدل استفاده میکند».
همچنین بخوانید: مایکروسافت اولین رایانه های شخصی سطحی با دکمه هوش مصنوعی Copilot را معرفی کرد
کاستی ها
رتبه بندی Chatbot Arena کم نیست. طبق راهنمای Tom's Guide، همه مدلها یا نسخههای مدلهای ارائه شده را شامل نمیشود، در حالی که کاربران گاهی اوقات تجربههای بدی با بارگیری نشدن GPT-4 دارند. همچنین میتواند برخی از مدلهایی را که دسترسی زنده به اینترنت دارند، به عنوان مثال Google Gemini Pro ترجیح دهد.
در حالی که مدل های دیگر مانند مدل های استارتاپ هوش مصنوعی فرانسوی میستال و شرکتهای چینی مانند علیبابا اخیراً علاوه بر مدلهای متنباز، در جایگاههای برتر عرصه قرار گرفتهاند. به عنوان مثال، مدل هایی مانند Gemini Pro 1.5 گوگل را از دست داده است
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/
- : دارد
- :است
- :نه
- 000
- 1
- 10
- 14
- ٪۱۰۰
- 400
- 7
- 8
- 9
- a
- دسترسی
- مطابق
- دستیابی به
- واقعی
- اضافه
- AI
- مدل های هوش مصنوعی
- علی بابا
- معرفی
- همچنین
- an
- و
- آنتروپیک
- پیش بینی می کند
- هر
- اعمال می شود
- هستند
- عرصه
- AS
- حمله
- بد
- جنگ
- درگیری
- BE
- قبل از
- بودن
- معیار
- معیار
- بهترین
- میان
- اما
- by
- CAN
- قابلیت های
- مورد
- chatbot
- ارزان تر
- شطرنج
- چینی
- نزدیک
- آینده
- قابل مقایسه
- زمینه
- بسیار سخت
- مختلف
- میکند
- تحت سلطه
- پیش از آن
- ارزیابی
- حتی
- انتظار می رود
- تجارب
- توضیح داده شده
- عدم
- سریعتر
- گسل
- توجه
- امکانات
- شرکت ها
- نام خانوادگی
- بار اول
- برای
- اشکال
- چهار
- چهارم
- فرانسوی
- از جانب
- بازیها
- شکاف
- برج جوزا
- نسل
- خوب
- گوگل
- گوگل
- بزرگ
- راهنمایی
- آیا
- برگزار شد
- زیاد
- خیلی
- نگه داشتن
- میزبان
- HTTPS
- انسان
- تحت تاثیر قرار
- موثر
- in
- شامل
- مشمول
- باور نکردنی
- نمونه
- هوشمند
- اینترنت
- دسترسی به اینترنت
- IT
- ITS
- مشترک
- JPEG
- شناخته شده
- زبان
- بزرگ
- بزرگتر
- نام
- پارسال
- راه اندازی
- راه اندازی
- رهبران
- طول
- کمتر
- سطح
- پسندیدن
- فهرست
- زنده
- LLM
- بار
- طولانی
- ساخته
- ساخت
- باعث می شود
- بازار
- ممکن است..
- قدرت
- از دست رفته
- گم
- مدل
- مدل
- بیش
- اغلب
- بسیار
- نانو
- باریک
- جدید
- بعد
- اکنون
- of
- on
- ONE
- باز کن
- منبع باز
- OpenAI
- مخالف
- or
- دیگر
- ما
- خارج
- تولید
- روی
- اوراق
- پارامتر
- رایانه های شخصی
- مردم
- سکو
- افلاطون
- هوش داده افلاطون
- PlatoData
- بازیکن
- به علاوه
- موقعیت
- در هر
- روند
- مشخصات
- تحت فشار قرار دادند
- هل دادن
- تصادفی
- رتبه بندی
- رتبه
- رتبه بندی
- رسیدن به
- خواندن
- تازه
- نسبی
- آزاد
- تکیه می کند
- باقی مانده است
- گزارش شده است
- نتایج
- فاش کردن
- فاش می کند
- دویدن
- ایمنی
- سعید
- همان
- مقیاس
- نمرات
- دوم
- ثانیه
- کوتاه
- نشان
- به طور قابل توجهی
- ششم
- اندازه
- مهارت
- So
- برخی از
- گاهی
- سرعت
- Spot
- نقاط
- شروع
- هنوز
- موفقیت
- سطح
- سیستم
- صورت گرفته
- طول می کشد
- تست
- نسبت به
- که
- La
- شان
- این
- در این سال
- کسانی که
- سه
- زمان
- به
- با هم
- هم
- بالا
- بالا 10
- در صدر
- تریلیون
- درست
- توییتر
- دو
- در حال انجام
- بی همتا
- بروزرسانی
- استفاده
- کاربر
- کاربران
- با استفاده از
- مختلف
- نسخه
- نسخه
- رای
- بود
- مسیر..
- چی
- که
- در حین
- با
- بدون
- سال
- هنوز
- زفیرنت