क्लाउड 3 ओपस चैटबॉट रैंकिंग में शीर्ष स्थान पर है

क्लाउड 3 ओपस चैटबॉट रैंकिंग में शीर्ष स्थान पर है

क्लाउड 3 ओपस ने चैटबॉट रैंकिंग प्लेटोब्लॉकचेन डेटा इंटेलिजेंस पर शीर्ष स्थान प्राप्त किया। लंबवत खोज. ऐ.

एंथ्रोपिक की अगली पीढ़ी के एआई मॉडल क्लाउड 3 ओपस ने चैटबॉट एरिना लीडरबोर्ड पर पोल पोजीशन ले ली है, जिससे ओपनएआई का जीपीटी-4 दूसरे स्थान पर पहुंच गया है।

चूंकि इसे पिछले साल लॉन्च किया गया था, यह पहली बार है कि क्लाउड 3 ओपस मॉडल ने चैटबॉट एरेना सूची में शीर्ष स्थान हासिल किया है, जिसमें क्लाउड 3 के सभी तीन संस्करण शीर्ष 10 में स्थान पर हैं।

क्लाउड 3 मॉडल ने छाप छोड़ी

एलएमएसवाईएस चैटबॉट एरिना रैंकिंग से पता चलता है कि क्लाउड 3 सॉनेट ने जेमिनी प्रो के साथ संयुक्त चौथे स्थान पर कब्जा कर लिया है, जबकि क्लाउड 3 हाइकु, जिसे इस साल लॉन्च किया गया था, जीपीटी -4 के पुराने संस्करण के साथ छठे स्थान पर है।

हालांकि क्लाउड 3 हाइकु हो सकता है कि यह सॉनेट या ओपस जितना बुद्धिमान न हो, मॉडल तेज़ और काफी सस्ता है, फिर भी यह "अंधा परीक्षणों पर बहुत बड़े मॉडल जितना अच्छा है", जैसा कि क्षेत्र के परिणामों से पता चलता है।

“क्लाउड 3 हाइकु ने सभी को प्रभावित किया है, यहाँ तक कि हमारे उपयोगकर्ता की प्राथमिकता के आधार पर GPT-4 स्तर तक भी पहुँच गया है! इसकी गति, क्षमताएं और संदर्भ की लंबाई अब बाजार में बेजोड़ है, ”एलएमएसवाईएस ने समझाया।

टॉम्स गाइड के अनुसार, जो चीज़ हाइकु को अधिक प्रभावशाली बनाती है, वह है इसका "जेमिनी नैनो के तुलनीय स्थानीय आकार का मॉडल।" यह सूचना-सघन शोध को पढ़ें और संसाधित करें तीन सेकंड से भी कम समय में पेपर।

यह मॉडल ओपस या किसी जीपीटी-4-श्रेणी मॉडल के ट्रिलियन प्लस पैरामीटर स्केल के बिना भी अच्छे परिणाम प्राप्त कर रहा है।

क्या यह अल्पकालिक सफलता हो सकती है?

दूसरे स्थान पर धकेले जाने के बावजूद, OpenAI के GPT-4 संस्करण अभी भी चार संस्करणों के साथ सूची में शीर्ष 10 में हावी हैं।

के अनुसार टॉम गाइड, OpenAI के GPT-4 संस्करणों ने अपने विभिन्न रूपों में "इतने लंबे समय तक शीर्ष स्थान बनाए रखा है कि इसके बेंचमार्क के करीब आने वाले किसी भी अन्य मॉडल को GPT-4-श्रेणी मॉडल के रूप में जाना जाता है।"

इस वर्ष कुछ समय के लिए "स्पष्ट रूप से भिन्न" GPT-5 की उम्मीद के साथ, एंथ्रोपिक बहुत लंबे समय तक उस स्थिति में नहीं रह सकता है, क्योंकि क्लाउड 3 ओपस और GPT-4 के बीच स्कोर का अंतर कम है।

हालाँकि OpenAI ने अपनी वास्तविक रिलीज़ पर चुप्पी साध रखी है GPT-5, बाजार को इसके लॉन्च की बहुत उम्मीद है। कथित तौर पर मॉडल कुछ दौर से गुजर रही है “कठोर सुरक्षा परीक्षण” और नकली हमले जो रिलीज़ से पहले महत्वपूर्ण हैं।

एलएमएसवाईएस चैटबॉट एरिना

एआई मॉडल के लिए बेंचमार्किंग के अन्य रूपों के विपरीत, यह रैंकिंग मानव वोटों पर निर्भर करती है। इसके साथ, लोग दो अलग-अलग मॉडलों के आउटपुट को एक ही प्रॉम्प्ट पर ब्लाइंड-रैंक करते हैं।

चैटबॉट एरिना एलएमएसवाईएस द्वारा चलाया जाता है और इसमें कई बड़े भाषा मॉडल (एलएलएम) शामिल हैं जो "अनाम यादृच्छिक लड़ाई" में संघर्ष कर रहे हैं।

इसे पहली बार पिछले मई में लॉन्च किया गया था और इसने उन उपयोगकर्ताओं से 400,000 से अधिक वोट एकत्र किए हैं जिनके पास Google, एंथ्रोपिक और से AI मॉडल हैं। OpenAI.

“एलएमएसवाईएस चैटबॉट एरेना एलएलएम परीक्षाओं के लिए एक क्राउडसोर्स्ड खुला मंच है। हमने एलएलएम को एलो रैंकिंग प्रणाली के साथ रैंक करने के लिए 400,000 से अधिक मानव प्राथमिकता वोट एकत्र किए हैं, ”एलएमएसवाईएस ने कहा।

किसी खिलाड़ी के सापेक्ष कौशल का मूल्यांकन करने के लिए एलो प्रणाली का उपयोग ज्यादातर शतरंज जैसे खेलों में किया जाता है। लेकिन इस मामले में, रैंकिंग चैटबॉट पर लागू होती है न कि "मॉडल का उपयोग करने वाले मानव पर।"

यह भी पढ़ें: माइक्रोसॉफ्ट ने कोपायलट एआई बटन के साथ 'पहले' सर्फेस पीसी का खुलासा किया

कमियाँ

चैटबॉट एरिना रैंकिंग में खामियों की कमी नहीं है। टॉम की गाइड के अनुसार, इसमें सभी मॉडलों या मॉडलों के संस्करणों को शामिल नहीं किया गया है, जबकि उपयोगकर्ताओं को कभी-कभी जीपीटी-4 के लोड होने में विफलता के साथ बुरे अनुभव होते हैं। यह कुछ मॉडलों को भी पसंद कर सकता है जिनके पास लाइव इंटरनेट एक्सेस है, उदाहरण के लिए Google जेमिनी प्रो।

जबकि अन्य मॉडल फ्रेंच एआई स्टार्टअप जैसे हैं मिस्ट्रल और अलीबाबा जैसी चीनी कंपनियों ने हाल ही में ओपन-सोर्स मॉडल के अलावा क्षेत्र में शीर्ष स्थानों पर अपनी जगह बनाई है, क्षेत्र में अभी भी कुछ हाई प्रोफाइल मॉडल की कमी है। उदाहरण के लिए, इसमें Google का जेमिनी प्रो 1.5 जैसे मॉडल नहीं हैं

समय टिकट:

से अधिक मेटान्यूज