हर कोई चैटजीपीटी चैटबॉट को क्यों पसंद करता है

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

लंबे समय से माना जा रहा एक और खेल जिसे जीतना आर्टिफिशियल इंटेलिजेंस (एआई) के लिए बहुत चुनौतीपूर्ण माना जाता है, बॉट्स: स्ट्रैटेगो के हाथ लग गया है।

दीपनाश, लंदन स्थित कंपनी द्वारा बनाया गया एआई है Deepmind, अब स्ट्रेटेगो में विशेषज्ञ मनुष्यों से मेल खाता है, एक बोर्ड गेम जिसमें अपूर्ण जानकारी के खिलाफ दीर्घकालिक रणनीतिक सोच की आवश्यकता होती है।

यह नवीनतम उपलब्धि उन खेलों में एआई के लिए एक और बड़ी जीत के बाद आई है, जिन्हें पहले इंसानों की ताकत माना जाता था।

अभी पिछले हफ्ते, मेटा का सिसरो, एक एआई जो मानव खिलाड़ियों को पछाड़ सकता है कूटनीति के खेल में विरोधियों को ऑनलाइन मात देकर इतिहास रच दिया।

रणनीतिक तर्क और खेल का अध्ययन करने वाले एक कंप्यूटर वैज्ञानिक एन आर्बर में मिशिगन विश्वविद्यालय में माइकल वेलमैन कहते हैं, "जिस दर पर गुणात्मक रूप से विभिन्न गेम सुविधाओं पर विजय प्राप्त की गई है - या नए स्तरों पर महारत हासिल की गई है - हाल के वर्षों में एआई द्वारा काफी उल्लेखनीय है।" लिखित।

वेलमैन ने कहा, "स्ट्रेटेगो और डिप्लोमेसी एक दूसरे से काफी अलग हैं, और उन खेलों से विशेष रूप से अलग चुनौतीपूर्ण विशेषताएं भी हैं, जिनके लिए समान मील के पत्थर तक पहुंच चुके हैं।"

अपूर्ण जानकारी

खेल में ऐसी विशेषताएँ हैं जो आमतौर पर शतरंज, गो या पोकर की तुलना में बहुत अधिक जटिल हैं। शतरंज, गो और पोकर सभी में एआई ने महारत हासिल कर ली है।

स्ट्रैटेजो के खेल में, दो खिलाड़ी एक बोर्ड पर 40-XNUMX गोटियां लगाते हैं, लेकिन उन्हें यह नहीं देखना चाहिए कि उनके विरोधी के मोहरे क्या हैं।

खेल का उद्देश्य बारी-बारी से गोटियों को हिलाना है ताकि विरोधी के मोहरों को खत्म किया जा सके और झंडे पर कब्जा किया जा सके।

स्ट्रैटेजो का गेम ट्री - खेल के सभी संभावित तरीकों का एक ग्राफ संभवतः जा सकता है - गो के 10535 के खिलाफ 10360 राज्य हैं।

जब खेल की शुरुआत में अपूर्ण जानकारी की बात आती है, तो स्ट्रैटेगो के पास 1066 संभावित निजी पद होते हैं, एक ऐसा आंकड़ा जो दो खिलाड़ियों वाले टेक्सास होल्डम पोकर में केवल 106 ऐसी शुरुआती स्थितियों को बौना बनाता है।

पेरिस स्थित डीपमाइंड शोधकर्ता जूलियन पेरोलैट कहते हैं, "स्ट्रेटेगो में संभावित परिणामों की संख्या की जटिल जटिलता का मतलब है कि एल्गोरिदम जो सही-जानकारी वाले गेम पर अच्छा प्रदर्शन करते हैं, और यहां तक कि जो पोकर के लिए काम करते हैं, वे भी काम नहीं करते हैं।"

दीपनाश को पेरोलैट और उनके सहयोगियों द्वारा विकसित किया गया था।

नैश प्रेरित बॉट

बॉट का नाम प्रसिद्ध अमेरिकी गणितज्ञ जॉन नैश के लिए एक श्रद्धांजलि है, जो नैश संतुलन सिद्धांत के साथ आए थे, जो मानते हैं कि "रणनीतियों का एक स्थिर सेट" है, जिसका खिलाड़ियों द्वारा इस तरह से पालन किया जा सकता है कि किसी भी खिलाड़ी को रणनीति बदलने से लाभ न हो। अपने दम पर। जैसे, खेलों में शून्य, एक या कई नैश संतुलन होते हैं।

दीपनाश नैश संतुलन खोजने के लिए सुदृढीकरण-सीखने के एल्गोरिदम और एक गहरे तंत्रिका नेटवर्क को जोड़ती है।

आम तौर पर, सुदृढीकरण सीखना वह होता है जहां एक बुद्धिमान एजेंट (कंप्यूटर प्रोग्राम) पर्यावरण के साथ बातचीत करता है और खेल के हर राज्य के लिए कार्रवाई करने के लिए सर्वोत्तम नीति सीखता है।

एक इष्टतम नीति रखने के लिए, दीपनाश ने अपने विरुद्ध कुल 5.5 बिलियन गेम खेले।

संक्षेप में, यदि एक पक्ष को दंडित किया जाता है, तो दूसरे को पुरस्कृत किया जाता है, और तंत्रिका नेटवर्क के चर - जो नीति का प्रतिनिधित्व करते हैं - तदनुसार ट्वीक किए जाते हैं।

रणनीति में एआई ने इंसानों को मात दी - डीपमैश से मिलिए

किसी स्तर पर, दीपनाश लगभग नैश संतुलन में परिवर्तित हो जाता है। अन्य बॉट्स के विपरीत, दीपनाश बिना एस के खुद को अनुकूलित करता हैखेल के पेड़ के माध्यम से अर्चिंग।

दो सप्ताह की अवधि के लिए, दीपनाश ने ऑनलाइन गेम प्लेटफॉर्म ग्रेवोन पर ह्यूमन स्ट्रैटेगो खिलाड़ियों के खिलाफ खेला।

50 मैचों में प्रतिस्पर्धा करने के बाद, 2002 के बाद से सभी ग्रेवॉन स्ट्रैटेजो खिलाड़ियों में एआई को तीसरा स्थान मिला।

पेरिस स्थित डीपमाइंड शोधकर्ता टीम के सदस्य कार्ल ट्यूल्स कहते हैं, "हमारे काम से पता चलता है कि स्ट्रैटेगो जैसे जटिल खेल में अपूर्ण जानकारी शामिल है, इसे हल करने के लिए खोज तकनीकों की आवश्यकता नहीं है।" "यह एआई में वास्तव में एक बड़ा कदम है।"

अन्य शोधकर्ता भी इस उपलब्धि से प्रभावित हैं।

प्रभावशाली परिणाम

"परिणाम प्रभावशाली हैं," न्यूयॉर्क शहर में मुख्यालय वाले मेटा एआई के एक शोधकर्ता नोम ब्राउन और 2019 में पोकर खेलने वाले एआई प्लुरिबस4 की रिपोर्ट करने वाली टीम के सदस्य सहमत हैं।

मेटा में, फेसबुक की मूल कंपनी, ब्राउन और उनके सहयोगियों ने एक एआई का निर्माण किया जो डिप्लोमेसी खेल सकता है, एक ऐसा खेल जहां सात खिलाड़ी नक्शे पर टुकड़ों को घुमाकर यूरोप के भौगोलिक नियंत्रण के लिए प्रतिस्पर्धा करते हैं।

डिप्लोमेसी में, इकाइयों (बेड़ों और सेनाओं) को चलाकर आपूर्ति केंद्रों पर नियंत्रण रखने का लक्ष्य है।

मेटा का कहना है कि सिसरो काफी महत्वपूर्ण है क्योंकि एआई गैर-प्रतिकूल वातावरण पर निर्भर करता है।

अतीत के विपरीत जहां मल्टी-एजेंट एआई के लिए पिछली प्रमुख सफलताएं विशुद्ध रूप से प्रतिकूल वातावरण में रही हैं, जैसे कि शतरंज, गो और पोकर, जहां संचार का कोई मूल्य नहीं है, सिसरो एक रणनीतिक तर्क इंजन और नियंत्रणीय संवाद मॉड्यूल को नियोजित करता है।

ब्राउन कहते हैं, "जब आप दो-खिलाड़ियों के शून्य-राशि के खेल से परे जाते हैं, तो नैश संतुलन का विचार मनुष्यों के साथ अच्छा खेलने के लिए उपयोगी नहीं रह जाता है।"

ब्राउन और उनकी टीम ने मानव खिलाड़ियों से जुड़े डिप्लोमेसी के एक ऑनलाइन संस्करण के 125,261 खेलों के डेटा का उपयोग करके सिसरो को प्रशिक्षित किया।

सेल्फ-प्ले डेटा और एक रणनीतिक तर्क मॉड्यूल (SRM) का उपयोग करते हुए, सिसरो ने खेल की स्थिति और संचित संदेशों, अन्य खिलाड़ियों की संभावित चाल और नीतियों के आधार पर निर्णय लेना सीखा।

रणनीति में एआई ने इंसानों को मात दी - डीपमैश से मिलिए

मेटा का कहना है कि उसने webDiplomacy.net पर ऑनलाइन खेले गए कूटनीति के 125,261 खेलों से डेटा एकत्र किया। इन खेलों में, कुल 40,408 खेलों में संवाद शामिल थे, जिसमें खिलाड़ियों के बीच कुल 12,901,662 संदेशों का आदान-प्रदान हुआ।

वास्तविक दुनिया व्यवहार

ब्राउन का मानना है कि सिसरो जैसे गेम-प्लेइंग बॉट्स इंसानों के साथ बातचीत कर सकते हैं और "उप-इष्टतम या यहां तक कि तर्कहीन मानव क्रियाएं वास्तविक दुनिया के अनुप्रयोगों के लिए मार्ग प्रशस्त कर सकती हैं।"

"यदि आप एक स्व-ड्राइविंग कार बना रहे हैं, तो आप यह नहीं मानना चाहते कि सड़क पर अन्य सभी ड्राइवर पूरी तरह तर्कसंगत हैं, और बेहतर व्यवहार करने जा रहे हैं," वे कहते हैं।

उन्होंने कहा कि सिसरो इस दिशा में एक बड़ा कदम है। "हम अभी भी खेल की दुनिया में एक पैर रखते हैं, लेकिन अब हमारे पास वास्तविक दुनिया में भी एक पैर है।"

वेलमैन जैसे अन्य सहमत हैं, लेकिन जोर देकर कहते हैं कि अभी और काम करने की जरूरत है। "इन तकनीकों में से कई वास्तव में मनोरंजक खेलों से परे प्रासंगिक हैं" वास्तविक दुनिया के अनुप्रयोगों के लिए, वे कहते हैं। "फिर भी, कुछ बिंदु पर, प्रमुख एआई अनुसंधान प्रयोगशालाओं को मनोरंजक सेटिंग्स से परे जाने की जरूरत है, और यह पता लगाना है कि स्क्विशियर वास्तविक दुनिया 'गेम्स' पर वैज्ञानिक प्रगति को कैसे मापना है जिसकी हम वास्तव में परवाह करते हैं।"

/मेटान्यूज.

समय टिकट: दिसम्बर 12/2022दिसम्बर 13/2022

समय टिकट: जुलाई 19, 2023

हर कोई चैटजीपीटी चैटबॉट को क्यों पसंद करता है

प्लेटो द्वारा पुनर्प्रकाशित

अपूर्ण जानकारी

नैश प्रेरित बॉट

प्रभावशाली परिणाम

वास्तविक दुनिया व्यवहार

से अधिक मेटान्यूज

एपिक ने मेटावर्स चाइल्ड प्रोटेक्शन फीचर जोड़े

पानी पीने वाले एआई के ठंडा होने से डेटा सेंटर दोगुने हो रहे हैं

एनएफटी लॉन्ड्रिंग उतनी बड़ी समस्या नहीं हो सकती जितनी एक बार सोची गई थी

ओपेरा ने चैटजीपीटी-संचालित एआई साइडबार आरिया का अनावरण किया

फ़ोर्टनाइट मेटावर्स में लेडी गागा हेडलाइंस संगीत समारोह

बिटकॉइन पर ऑर्डिनल्स के प्रभाव के बारे में ग्रेस्केल बुलिश

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा