Claude 3 Opus چیٹ بوٹ کی درجہ بندی میں سرفہرست ہے۔

Claude 3 Opus چیٹ بوٹ کی درجہ بندی میں سرفہرست ہے۔

Claude 3 Opus نے چیٹ بوٹ کی درجہ بندی میں PlatoBlockchain ڈیٹا انٹیلی جنس میں سرفہرست مقام حاصل کیا۔ عمودی تلاش۔ عی

Anthropic کی اگلی نسل کے AI ماڈل Claude 3 Opus نے چیٹ بوٹ ایرینا لیڈر بورڈ پر پول پوزیشن حاصل کی ہے، جس نے OpenAI کے GPT-4 کو دوسرے بہترین مقام پر دھکیل دیا ہے۔

چونکہ اسے پچھلے سال لانچ کیا گیا تھا، یہ پہلا موقع ہے کہ کلاڈ 3 اوپس ماڈل نے چیٹ بوٹ ایرینا کی فہرست میں سرفہرست مقام حاصل کیا ہے، جس کے تینوں کلاڈ 3 ورژن ٹاپ 10 میں ہیں۔

کلاڈ 3 ماڈل ایک نشان بناتے ہیں۔

LMSYS چیٹ بوٹ ایرینا درجہ بندی سے پتہ چلتا ہے کہ Claude 3 Sonnet نے Gemini Pro کے ساتھ مشترکہ چوتھی پوزیشن حاصل کی ہے جبکہ Claude 3 Haiku، جو اس سال لانچ کیا گیا تھا، GPT-4 کے پہلے ورژن کے ساتھ چھٹے نمبر پر ہے۔

اگرچہ کلاڈ 3 ہائیکو سونیٹ یا اوپس کی طرح ذہین نہیں ہوسکتا ہے، ماڈل تیز اور نمایاں طور پر سستا ہے، پھر بھی یہ "بلائنڈ ٹیسٹوں پر زیادہ بڑے ماڈلز جتنا اچھا ہے،" جیسا کہ میدان کے نتائج سے ظاہر ہوتا ہے۔

"Claude 3 Haiku نے سب کو متاثر کیا ہے، یہاں تک کہ ہمارے صارف کی ترجیح کے مطابق GPT-4 کی سطح تک پہنچ گیا ہے! اس کی رفتار، صلاحیتیں اور سیاق و سباق کی لمبائی اب مارکیٹ میں بے مثال ہے،" LMSYS نے وضاحت کی۔

ٹام کی گائیڈ کے مطابق، ہائیکو کو جو چیز زیادہ متاثر کن بناتی ہے وہ یہ ہے کہ یہ "جیمنی نینو سے موازنہ کرنے والا مقامی سائز کا ماڈل ہے۔" یہ ہو سکتا ہے معلومات سے بھرپور تحقیق کو پڑھیں اور اس پر کارروائی کریں۔ تین سیکنڈ سے بھی کم وقت میں کاغذات۔

یہ ماڈل Opus کے ٹریلین پلس پیرامیٹر اسکیل یا GPT-4 کلاس کے کسی بھی ماڈل کے بغیر بھی شاندار نتائج حاصل کر رہا ہے۔

کیا یہ قلیل المدتی کامیابی ہو سکتی ہے؟

دوسری پوزیشن پر دھکیلنے کے باوجود، OpenAI کے GPT-4 ورژن اب بھی چار ورژن کے ساتھ فہرست میں ٹاپ 10 پر حاوی ہیں۔

کے مطابق ٹام گائیڈ، OpenAI کے GPT-4 ورژن اپنی مختلف شکلوں میں "اتنے عرصے سے سرفہرست مقام پر فائز رہے ہیں کہ اس کے معیارات کے قریب آنے والا کوئی دوسرا ماڈل GPT-4 کلاس ماڈل کے طور پر جانا جاتا ہے۔"

اس سال کچھ وقت متوقع "نمایاں طور پر مختلف" GPT-5 کے ساتھ، Anthropic اس پوزیشن کو زیادہ دیر تک برقرار نہیں رکھ سکتا، کیونکہ Claude 3 Opus اور GPT-4 کے درمیان سکور کا فرق کم ہے۔

اگرچہ اوپن اے آئی نے اس کی اصل ریلیز پر خاموشی اختیار کی ہے۔ GPT-5، مارکیٹ اس کے آغاز کی بہت زیادہ توقع کر رہی ہے۔ مبینہ طور پر ماڈل کچھ سے گزر رہا ہے۔ "سخت حفاظتی جانچاور نقلی حملے جو کہ رہائی سے پہلے اہم ہیں۔

LMSYS چیٹ بوٹ ایرینا

یہ درجہ بندی انسانی ووٹوں پر انحصار کرتی ہے، جیسا کہ AI ماڈلز کے لیے بینچ مارکنگ کی دیگر اقسام کے برعکس ہے۔ اس کے ساتھ، لوگ ایک ہی پرامپٹ پر دو مختلف ماڈلز کے آؤٹ پٹ کو اندھا درجہ دیتے ہیں۔

چیٹ بوٹ ایرینا LMSYS کے ذریعے چلایا جاتا ہے اور اس میں بہت سے بڑے لینگویج ماڈلز (LLMs) شامل ہیں جو "گمنام بے ترتیب لڑائیوں" میں اس سے لڑ رہے ہیں۔

اسے پہلی بار گزشتہ مئی میں لانچ کیا گیا تھا اور اس نے ان صارفین سے 400,000 سے زیادہ ووٹ اکٹھے کیے ہیں جن کے پاس گوگل، اینتھروپک اور AI ماڈلز ہیں۔ اوپنائی.

"LMSYS چیٹ بوٹ ایرینا LLM ایولز کے لیے ایک کراؤڈ سورسڈ اوپن پلیٹ فارم ہے۔ ہم نے ایلو رینکنگ سسٹم کے ساتھ ایل ایل ایم کی درجہ بندی کرنے کے لیے 400,000 سے زیادہ انسانی ترجیحی ووٹ اکٹھے کیے ہیں،" LMSYS نے کہا۔

ایلو سسٹم زیادہ تر شطرنج جیسے کھیلوں میں کسی کھلاڑی کی متعلقہ مہارت کا اندازہ لگانے کے لیے استعمال ہوتا ہے۔ لیکن اس معاملے میں، درجہ بندی کا اطلاق چیٹ بوٹ پر ہوتا ہے اور "ماڈل استعمال کرنے والے انسان پر نہیں۔"

مزید پڑھئے: مائیکروسافٹ نے Copilot AI بٹن کے ساتھ 'پہلے' سرفیس پی سی کا انکشاف کیا۔

کوتاہیاں

چیٹ بوٹ ایرینا کی درجہ بندی میں خامیوں کی کمی نہیں ہے۔ Tom's Guide کے مطابق، اس میں شامل تمام ماڈلز یا ماڈلز کے ورژن شامل نہیں ہیں جبکہ صارفین کو بعض اوقات GPT-4 لوڈ ہونے میں ناکامی کے برے تجربات ہوتے ہیں۔ یہ کچھ ماڈلز کو بھی پسند کر سکتا ہے جن کے پاس براہ راست انٹرنیٹ تک رسائی ہے، مثال کے طور پر گوگل جیمنی پرو۔

جبکہ دوسرے ماڈلز جیسے فرانسیسی AI سٹارٹ اپ سے مجرم اور علی بابا جیسی چینی فرموں نے حال ہی میں اوپن سورس ماڈلز کے علاوہ میدان میں سرفہرست مقام حاصل کیا ہے، میدان اب بھی کچھ ہائی پروفائل ماڈلز سے محروم ہے۔ مثال کے طور پر، اس میں گوگل کے جیمنی پرو 1.5 جیسے ماڈل غائب ہیں۔

ٹائم اسٹیمپ:

سے زیادہ میٹا نیوز