डीपमाइंड का नवीनतम एआई गेम 'स्ट्रेटेगो' प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में मानव खिलाड़ियों को परेशान करता है। लंबवत खोज. ऐ.

डीपमाइंड के नवीनतम एआई ने गेम 'स्ट्रेटेगो' में मानव खिलाड़ियों को मात दी

एआई अनिश्चितता से नफरत करता है। फिर भी हमारी अप्रत्याशित दुनिया को नेविगेट करने के लिए, अपूर्ण जानकारी के साथ चुनाव करना सीखना होगा - जैसा कि हम हर एक दिन करते हैं।

डीपमाइंड जस्ट एक छुरा लिया इस गुत्थी को सुलझाने में। ट्रिक गेम थ्योरी को मानव मस्तिष्क पर आधारित एक एल्गोरिथम रणनीति में इंटरवेट करने के लिए थी जिसे डीप रीइन्फोर्समेंट लर्निंग कहा जाता है। नतीजा, दीपनाश ने स्ट्रैटेगो नामक एक अत्यधिक रणनीतिक बोर्ड गेम में मानव विशेषज्ञों को पछाड़ दिया। एआई के लिए कुख्यात कठिन खेल, स्ट्रेटेगो को मानव बुद्धि की कई शक्तियों की आवश्यकता होती है: दीर्घकालिक सोच, झांसा देना और रणनीति बनाना, यह सब बोर्ड पर अपने प्रतिद्वंद्वी के टुकड़ों को जाने बिना।

"शतरंज और गो के विपरीत, स्ट्रैटेगो अपूर्ण जानकारी का खेल है: खिलाड़ी सीधे अपने प्रतिद्वंद्वी के टुकड़ों की पहचान नहीं देख सकते," डीपमाइंड लिखा था एक ब्लॉग पोस्ट में। दीपनाश के साथ, "गेम-प्लेइंग आर्टिफिशियल इंटेलिजेंस (एआई) सिस्टम एक नई सीमा तक आगे बढ़े हैं।"

यह सब मज़ा और खेल नहीं है। एआई सिस्टम जो आसानी से हमारी दुनिया की यादृच्छिकता को नियंत्रित कर सकते हैं और तदनुसार अपने "व्यवहार" को समायोजित कर सकते हैं, एक दिन सीमित जानकारी के साथ वास्तविक दुनिया की समस्याओं को संभाल सकते हैं, जैसे कि यात्रा के समय को कम करने के लिए यातायात प्रवाह को अनुकूलित करना और (उम्मीद है) स्व-ड्राइविंग के रूप में रोड रेज को कम करना कारें कभी अधिक मौजूद हो जाती हैं।

"यदि आप एक स्व-ड्राइविंग कार बना रहे हैं, तो आप यह नहीं मानना ​​​​चाहते हैं कि सड़क पर अन्य सभी ड्राइवर पूरी तरह तर्कसंगत हैं, और बेहतर व्यवहार करने जा रहे हैं," कहा मेटा एआई में डॉ नोम ब्राउन, जो शोध में शामिल नहीं थे।

दीपनाश की जीत इस महीने एक और एआई एडवांस के बाद आई है, जहां एक एल्गोरिथ्म ने डिप्लोमेसी खेलना सीखा-एक ऐसा खेल जिसमें जीतने के लिए बातचीत और सहयोग की आवश्यकता होती है। जैसा कि एआई अधिक लचीला तर्क प्राप्त करता है, अधिक सामान्यीकृत हो जाता है, और सामाजिक स्थितियों को नेविगेट करना सीखता है, यह हमारे अपने दिमाग की तंत्रिका प्रक्रियाओं और अनुभूति में भी अंतर्दृष्टि पैदा कर सकता है।

मिलिए रणनीतिकार से

जटिलता के संदर्भ में, शतरंज, गो, या पोकर की तुलना में स्ट्रैटेगो पूरी तरह से अलग जानवर है - सभी गेम जिन्हें एआई ने पहले महारत हासिल की है।

खेल अनिवार्य रूप से ध्वज को पकड़ना है। प्रत्येक पक्ष में 40 टुकड़े होते हैं जिन्हें वे बोर्ड पर किसी भी स्थान पर रख सकते हैं। प्रत्येक टुकड़े का एक अलग नाम और संख्यात्मक रैंक होता है, जैसे "मार्शल," "सामान्य," "स्काउट," या "जासूस।" उच्च रैंकिंग वाले टुकड़े निचले वाले को पकड़ सकते हैं। लक्ष्य विपक्ष को खत्म करना और उनके झंडे पर कब्जा करना है।

स्ट्रैटेगो एआई के लिए विशेष रूप से चुनौतीपूर्ण है क्योंकि खिलाड़ी शुरुआती सेटअप और पूरे गेमप्ले के दौरान अपने विरोधियों के टुकड़ों का स्थान नहीं देख सकते हैं। शतरंज या गो के विपरीत, जिसमें प्रत्येक टुकड़ा और चाल देखने में होती है, स्ट्रेटेगो सीमित जानकारी वाला खेल है। लेखकों ने समझाया कि जब भी वे निर्णय लेते हैं तो खिलाड़ियों को "सभी संभावित परिणामों को संतुलित करना" चाहिए।

अनिश्चितता का यह स्तर आंशिक रूप से यही कारण है कि स्ट्रैटेगो ने युगों तक एआई को स्टंप किया है। यहां तक ​​कि सबसे सफल गेम-प्ले एल्गोरिदम, जैसे कि AlphaGo और अल्फ़ाज़ो, पूरी जानकारी पर भरोसा करें। इसके विपरीत, स्ट्रेटगो का स्पर्श है टेक्सास होल्डम, एक पोकर गेम डीपमाइंड ने पहले एक एल्गोरिथ्म के साथ जीत हासिल की थी। लेकिन स्ट्रैटेगो के लिए वह रणनीति लड़खड़ा गई, मुख्यतः खेल की लंबाई के कारण, जो पोकर के विपरीत, आमतौर पर सैकड़ों चालों को शामिल करता है।

संभावित खेल नाटकों की संख्या मन को लुभाने वाली है। शतरंज की एक प्रारंभिक स्थिति होती है। स्ट्रेटेगो में 10 से अधिक हैं66 संभावित शुरुआती स्थितियाँ—ब्रह्मांड के सभी तारों से कहीं अधिक। स्ट्रैटेजो का गेम ट्री, गेम में सभी संभावित चालों का योग, चौंका देने वाला 10 है535.

"स्ट्रेटेगो में संभावित परिणामों की संख्या की सरासर जटिलता का मतलब है कि एल्गोरिदम जो सही-जानकारी वाले गेम पर अच्छा प्रदर्शन करते हैं, और यहां तक ​​कि जो पोकर के लिए काम करते हैं, वे भी काम नहीं करते हैं," कहा डीपमाइंड में अध्ययन लेखक डॉ. जूलियन पेरोलैट। चुनौती "हमें क्या उत्साहित करती है," उन्होंने कहा।

एक सुंदर मन

स्ट्रैटेजो की जटिलता का अर्थ है कि गेमप्ले चालों को खोजने की सामान्य रणनीति प्रश्न से बाहर है। मोंटे कार्लो ट्री सर्च को डब किया गया, "एआई-आधारित गेमिंग के लिए दृढ़ दृष्टिकोण", तकनीक एक पेड़ पर शाखाओं की तरह संभावित मार्गों को प्लॉट करती है - जिसके परिणामस्वरूप जीत हो सकती है।

इसके बजाय, दीपनाश के लिए जादुई स्पर्श फिल्म में चित्रित गणितज्ञ जॉन नैश से आया एक सुंदर मन. गेम थ्योरी में अग्रणी, नैश को उनके काम के लिए नोबेल पुरस्कार मिला नैश संतुलन. सीधे शब्दों में कहें, तो प्रत्येक खेल में, खिलाड़ी रणनीतियों के एक सेट का उपयोग कर सकते हैं जिसका अनुसरण सभी करते हैं, ताकि कोई भी खिलाड़ी अपनी रणनीति को बदलकर कुछ भी हासिल न कर सके। स्टेटगो में, यह एक शून्य-राशि का खेल लाता है: किसी भी खिलाड़ी के लाभ से उसके प्रतिद्वंद्वी को नुकसान होता है।

स्ट्रैटेजो की जटिलता के कारण, दीपनाश ने अपने एल्गोरिथ्म के लिए एक मॉडल-मुक्त दृष्टिकोण अपनाया। यहाँ, AI अपने प्रतिद्वंद्वी के व्यवहार को ठीक करने की कोशिश नहीं कर रहा है। एक बच्चे की तरह, उसके पास सीखने के लिए एक तरह की कोरी स्लेट होती है। लेखकों ने कहा कि यह सेट-अप गेमप्ले के शुरुआती चरणों में विशेष रूप से उपयोगी है, "जब दीपनाश अपने प्रतिद्वंद्वी के टुकड़ों के बारे में बहुत कम जानता है," भविष्यवाणियों को "मुश्किल, यदि असंभव नहीं है" बनाते हैं।

तब टीम ने खेल के नैश संतुलन को खोजने के लक्ष्य के साथ, दीपनाश को शक्ति प्रदान करने के लिए गहन सुदृढीकरण सीखने का उपयोग किया। यह स्वर्ग में बना मैच है: रीइन्फोर्समेंट लर्निंग खेल के हर चरण में सर्वश्रेष्ठ अगली चाल तय करने में मदद करती है, जबकि दीपनाश समग्र सीखने की रणनीति प्रदान करता है। प्रणाली का मूल्यांकन करने के लिए, टीम ने स्पष्ट गलतियों को छानने के लिए खेल से ज्ञान का उपयोग करके एक "ट्यूटर" भी बनाया, जो वास्तविक दुनिया की समझ में नहीं आएगा।

अभ्यास परिपूर्ण बनाता है

सीखने के पहले कदम के रूप में, दीपनाश ने 5.5 बिलियन खेलों में खुद के खिलाफ खेला, एआई प्रशिक्षण में एक लोकप्रिय दृष्टिकोण को सेल्फ-प्ले करार दिया।

जब एक पक्ष जीतता है, एआई को सम्मानित किया जाता है, और इसके वर्तमान कृत्रिम तंत्रिका नेटवर्क पैरामीटर मजबूत होते हैं। दूसरी तरफ- वही एआई- अपने तंत्रिका नेटवर्क की ताकत को कम करने के लिए जुर्माना प्राप्त करता है। यह आईने के सामने अपने आप को भाषण का पूर्वाभ्यास करने जैसा है। समय के साथ, आप गलतियों का पता लगाते हैं और बेहतर प्रदर्शन करते हैं। दीपनैश के मामले में, यह सर्वश्रेष्ठ गेमप्ले के लिए नैश संतुलन की ओर बढ़ता है।

वास्तविक प्रदर्शन के बारे में क्या?

टीम ने एल्गोरिद्म का परीक्षण अन्य एलीट स्ट्रैटेगो बॉट्स के विरुद्ध किया, जिनमें से कुछ ने कंप्यूटर स्ट्रेटेगो वर्ल्ड चैंपियनशिप जीती। दीपनाश ने लगभग 97 प्रतिशत की जीत दर के साथ अपने विरोधियों को कुचल दिया। जब मानव खिलाड़ियों के लिए एक ऑनलाइन प्लेटफॉर्म ग्रेवोन के खिलाफ खुला, तो दीपनाश ने अपने मानव विरोधियों को हरा दिया। इस साल अप्रैल में ग्रेवोन के खिलाड़ियों के खिलाफ दो सप्ताह से अधिक के मैचों के बाद, दीपनाश 2002 के बाद से सभी रैंक वाले मैचों में तीसरे स्थान पर पहुंच गया।

यह दर्शाता है कि दीपनाश को मानव-स्तर के प्रदर्शन तक पहुँचने और इसे मात देने के लिए मानव प्ले डेटा को एआई में बूटस्ट्रैप करने की आवश्यकता नहीं है।

एआई ने शुरुआती सेटअप और गेमप्ले के दौरान कुछ पेचीदा व्यवहार भी प्रदर्शित किए। उदाहरण के लिए, एक विशेष "अनुकूलित" शुरुआती स्थिति पर बसने के बजाय, दीपनाश ने अपने प्रतिद्वंद्वी को समय के साथ पैटर्न खोजने से रोकने के लिए लगातार टुकड़ों को इधर-उधर कर दिया। गेमप्ले के दौरान, AI प्रतीत होने वाली संवेदनहीन चालों के बीच बाउंस करता है - जैसे कि उच्च-रैंकिंग के टुकड़ों का त्याग करना - प्रतिवाद पर प्रतिद्वंद्वी के और भी उच्च-रैंकिंग टुकड़ों का पता लगाने के लिए।

दीपनाश झांसा भी दे सकता है। एक नाटक में, एआई ने एक निम्न-श्रेणी के टुकड़े को स्थानांतरित किया जैसे कि यह एक उच्च-रैंकिंग वाला था, मानव प्रतिद्वंद्वी को अपने उच्च-श्रेणी के कर्नल के साथ टुकड़े का पीछा करने के लिए फुसलाता था। एआई ने मोहरे की बलि दी, लेकिन बदले में, प्रतिद्वंद्वी के मूल्यवान जासूसी टुकड़े को एक घात में फंसा लिया।

हालांकि दीपनाश को स्ट्रैटेजो के लिए विकसित किया गया था, यह वास्तविक दुनिया के लिए सामान्य है। कोर विधि संभावित रूप से AI को सीमित जानकारी का उपयोग करके हमारे अप्रत्याशित भविष्य से बेहतर ढंग से निपटने का निर्देश दे सकती है - भीड़ और यातायात नियंत्रण से लेकर बाजार की उथल-पुथल का विश्लेषण करने तक।

टीम ने कहा, "अनिश्चितता की स्थिति में मजबूत होने वाली एक सामान्य एआई प्रणाली बनाने में, हम एआई की समस्या को सुलझाने की क्षमताओं को हमारे स्वाभाविक रूप से अप्रत्याशित दुनिया में लाने की उम्मीद करते हैं।"

छवि क्रेडिट: डेरेक ब्रुफ़ / फ़्लिकर

समय टिकट:

से अधिक विलक्षणता हब