Claude 3 Opus در رتبه بندی چت بات ها در جایگاه برتر قرار می گیرد

Claude 3 Opus در رتبه بندی چت بات ها در جایگاه برتر قرار می گیرد

Claude 3 Opus در رتبه بندی چت بات ها در هوش داده پلاتوبلاکچین جایگاه برتر را به خود اختصاص داده است. جستجوی عمودی Ai.

نسل بعدی مدل هوش مصنوعی آنتروپیک، Claude 3 Opus، در رتبه اول جدول Chatbot Arena قرار گرفته است و GPT-4 OpenAI را در رتبه دوم بهترین قرار داده است.

از زمانی که سال گذشته عرضه شد، این اولین بار است که مدل Claude 3 Opus در صدر فهرست Chatbot Arena قرار می گیرد که هر سه نسخه Claud 3 را در رتبه 10 قرار می دهد.

مدل های کلود 3 علامت گذاری می کنند

LMSYS Chatbot Arena رتبه بندی ها نشان می دهد که کلود 3 سونت در جایگاه چهارم مشترک با جمینی پرو قرار گرفت در حالی که کلود 3 هایکو که امسال راه اندازی شد همراه با نسخه قبلی GPT-4 در رتبه ششم قرار گرفت.

هر چند کلود 3 هایکو ممکن است به اندازه Sonnet یا Opus هوشمند نباشد، این مدل سریعتر و به طور قابل توجهی ارزانتر است، اما همانطور که نتایج میدان نشان می دهد "به اندازه مدل های بسیار بزرگتر در تست های کور خوب است".

«کلود 3 هایکو همه را تحت تأثیر قرار داده است، حتی با ترجیح کاربر ما به سطح GPT-4 رسیده است! LMSYS توضیح داد که سرعت، قابلیت ها و طول زمینه آن اکنون در بازار بی نظیر است.

به گفته Tom's Guide، چیزی که هایکو را چشمگیرتر می کند این است که "مدل اندازه محلی قابل مقایسه با Gemini Nano" است. می تواند مطالعه و پردازش اطلاعات متراکم کاغذها در کمتر از سه ثانیه

این مدل حتی بدون مقیاس پارامتر به اضافه تریلیون Opus یا هر یک از مدل های کلاس GPT-4 به نتایج عالی دست می یابد.

آیا این می تواند یک موفقیت کوتاه مدت باشد؟

علیرغم اینکه به جایگاه دوم رسیده است، نسخه های GPT-4 OpenAI همچنان با چهار نسخه در بین 10 نسخه برتر لیست غالب هستند.

مطابق با راهنمای تامنسخه‌های GPT-4 OpenAI در اشکال مختلف آن «برای مدت طولانی رتبه اول را حفظ کرده‌اند که هر مدل دیگری که به معیارهای آن نزدیک شود به عنوان مدل کلاس GPT-4 شناخته می‌شود».

با وجود یک GPT-5 "به طور قابل توجهی متفاوت" که در سال جاری انتظار می رود، Anthropic ممکن است این موقعیت را برای مدت طولانی حفظ نکند، زیرا شکاف در امتیازات بین Claude 3 Opus و GPT-4 کم است.

اگرچه OpenAI در مورد انتشار واقعی خود سخت گیر مانده است GPT-5، بازار به شدت انتظار راه اندازی آن را دارد. طبق گزارش ها، این مدل در حال گذراندن برخی موارد است "تست ایمنی دقیقو حملات شبیه سازی شده که قبل از انتشار بسیار مهم هستند.

LMSYS Chatbot Arena

این رتبه‌بندی بر خلاف سایر اشکال معیار برای مدل‌های هوش مصنوعی، به آرای انسان‌ها متکی است. با این یکی، افراد خروجی دو مدل مختلف را به یک اعلان رتبه بندی می کنند.

Chatbot Arena توسط LMSYS اداره می‌شود و دارای مدل‌های بزرگ زبان (LLM) است که در «نبردهای تصادفی ناشناس» با آن مبارزه می‌کنند.

این اولین بار در ماه مه گذشته راه اندازی شد و بیش از 400,000 رای از کاربرانی که مدل های هوش مصنوعی گوگل، آنتروپیک و دارند جمع آوری کرده است. OpenAI.

«LMSYS Chatbot Arena یک پلتفرم باز جمع‌سپاری برای ارزش‌های LLM است. ما بیش از 400,000 رای ترجیحی انسانی برای رتبه بندی LLM ها با سیستم رتبه بندی Elo جمع آوری کرده ایم.» LMSYS گفت.

سیستم Elo بیشتر در بازی هایی مانند شطرنج برای ارزیابی مهارت نسبی یک بازیکن استفاده می شود. اما در این مورد، رتبه‌بندی برای چت بات اعمال می‌شود و «نه انسانی که از مدل استفاده می‌کند».

همچنین بخوانید: مایکروسافت اولین رایانه های شخصی سطحی با دکمه هوش مصنوعی Copilot را معرفی کرد

کاستی ها

رتبه بندی Chatbot Arena کم نیست. طبق راهنمای Tom's Guide، همه مدل‌ها یا نسخه‌های مدل‌های ارائه شده را شامل نمی‌شود، در حالی که کاربران گاهی اوقات تجربه‌های بدی با بارگیری نشدن GPT-4 دارند. همچنین می‌تواند برخی از مدل‌هایی را که دسترسی زنده به اینترنت دارند، به عنوان مثال Google Gemini Pro ترجیح دهد.

در حالی که مدل های دیگر مانند مدل های استارتاپ هوش مصنوعی فرانسوی میستال و شرکت‌های چینی مانند علی‌بابا اخیراً علاوه بر مدل‌های متن‌باز، در جایگاه‌های برتر عرصه قرار گرفته‌اند. به عنوان مثال، مدل هایی مانند Gemini Pro 1.5 گوگل را از دست داده است

تمبر زمان:

بیشتر از متانیوز