डीपमाइंड रोबोट सॉकर खिलाड़ियों को खराब स्कोर करने के लिए प्रशिक्षित करता है

डीपमाइंड रोबोट सॉकर खिलाड़ियों को खराब स्कोर करने के लिए प्रशिक्षित करता है

डीपमाइंड रोबोट सॉकर खिलाड़ियों को स्कोर करने के लिए प्रशिक्षित करता है, बुरी तरह से प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

वीडियो Google के डीपमाइंड में एगहेड्स ने एक गहन शिक्षण पाठ्यक्रम विकसित किया है जो रोबोटों को बुरी तरह फुटबॉल खेलना सिखा सकता है - और यह देखना अद्भुत है।

इसके विपरीत पॉलिश कलाबाजी बोस्टन डायनेमिक्स के एटलस रोबोट, डीपमाइंड के संरक्षण में रोबोटिस ओपी3 रोबोट की जोड़ी, थके हुए बच्चों की तरह 5 मीटर गुणा 4 मीटर के सॉकर मैदान या फुटबॉल पिच पर नियम से कम पर उछल-कूद करती है और फ्लॉप हो जाती है। नीचे दिए गए वीडियो में स्वयं निर्णय करें।

यूट्यूब वीडियो

वे स्पष्ट उद्देश्य के साथ ऐसा करते हैं और बार-बार गिरने के बावजूद खुद को सही करने और कभी-कभी गोल करने का प्रबंधन करते हैं। इन ह्यूमनॉइड मशीनों की बच्चों जैसी लड़खड़ाहट में, उस दृढ़ संकल्प के समान कुछ देखना आसान है जिसे हम एक-दूसरे में महत्व देते हैं और प्रोत्साहित करते हैं, भले ही वह गलत मानवरूपता हो। उनके लिए जड़ें जमाना मुश्किल नहीं है, हालांकि अगर उन्हें बड़ा किया गया और हथियार दिया गया तो वे अन्य भावनाओं को प्रेरित कर सकते हैं।

इस परियोजना में शामिल 28 शोधकर्ता अपने काम का वर्णन करते हैं एक पेपर [पीडीएफ] शीर्षक, "डीप रीइन्फोर्समेंट लर्निंग के साथ एक द्विपाद रोबोट के लिए एजाइल सॉकर कौशल सीखना।"

लेखक बताते हैं, "हमने एक सरलीकृत वन-बनाम-वन (20v1) सॉकर गेम खेलने के लिए 1 सक्रिय जोड़ों वाले ह्यूमनॉइड रोबोट को प्रशिक्षित करने के लिए डीप [रीइन्फोर्समेंट लर्निंग] का उपयोग किया।" “हमने पहले व्यक्तिगत कौशल को अलगाव में प्रशिक्षित किया और फिर उन कौशलों को स्व-प्ले सेटिंग में शुरू से अंत तक तैयार किया।

“परिणामी नीति मजबूत और गतिशील आंदोलन कौशल प्रदर्शित करती है जैसे कि तेजी से गिरावट की वसूली, चलना, मुड़ना, लात मारना और बहुत कुछ; और उनके बीच सहज, स्थिर और कुशल तरीके से बदलाव होता है - जो रोबोट से सहज रूप से अपेक्षित अपेक्षा से कहीं अधिक है।''

रोबोकप उन्नत-तकनीक प्रतियोगिता के लिए मशीनें तैयार करने के प्रयासों की तुलना में डीपमाइंड परियोजना कम महत्वाकांक्षी है, जो वर्षों से चल रही है। हालाँकि, रोबोकप का नवीनतम पुनरावृत्ति है देखने में निश्चित रूप से कम मज़ा प्रतिभागियों के संयमित व्यवहार के कारण। जहां रोबोकप बॉट्स की कठोरता है नदी का किनारा अपनी भुजाओं को बगल में स्थिर करके प्रदर्शन करने वाले, डीपमाइंड खिलाड़ी पागलों की तरह अपनी भुजाएँ हिलाओ - हैंडबॉल कॉल से बचने की कोशिश करते समय यह निश्चित रूप से आदर्श नहीं है, लेकिन सहानुभूति के लिए बेहतर आग्रह है।

गहन सुदृढीकरण सीखना एक तंत्रिका नेटवर्क को प्रशिक्षित करने का एक तरीका है जिसमें एजेंट (सॉफ्टवेयर- या हार्डवेयर-आधारित संस्थाएं) परीक्षण और त्रुटि के माध्यम से चीजें (नकली या वास्तविक दुनिया में) करना सीखते हैं। और यह रोबोटों को विभिन्न वातावरणों में घूमना सिखाने की एक सामान्य तकनीक बन गई है, जैसा कि इससे देखा जा सकता है कैसी की चल रही कुशलता, एक प्रकार का मेचा-शुतुरमुर्ग धड़ जिसके बारे में आप आशा करते हैं कि आप उसे कभी भी आपका पीछा करते हुए नहीं देखेंगे।

डीपमाइंड टीम का उद्देश्य एक एजेंट को फुटबॉल खेलने के लिए प्रशिक्षित करना था, जिसमें चलना, किक करना, खड़े होना, स्कोर करना और बचाव करना सहित कई प्रकार के कौशल की आवश्यकता होती है, जिनमें से सभी को गोल करने और गेम जीतने के लिए समन्वित करने की आवश्यकता होती है।

एजेंट को प्रशिक्षित करने के लिए - इस मामले में रोबोट को नियंत्रित करने वाला सॉफ़्टवेयर - गोल करने के लिए सिस्टम को पुरस्कृत करना पर्याप्त नहीं था, जो सभी आवश्यक कौशल उत्पन्न नहीं करेगा। इसके बजाय, शोधकर्ताओं ने कौशल सेटों को अलग से देखा, जिसे वे शिक्षक नीतियां कहते हैं, उसे विकसित करने पर ध्यान केंद्रित किया। ये नीतियां मैदान से ऊपर उठने और एक अप्रशिक्षित प्रतिद्वंद्वी के खिलाफ गोल करने जैसी चीजों को नियंत्रित करती हैं - जो तुरंत जमीन पर गिर जाता है, व्यवहार वास्तविक फुटबॉल डाइविंग के विपरीत नहीं होता है।

अवांछनीय लेकिन स्पष्ट रूप से कार्यात्मक व्यवहार को रोकने के लिए जब एजेंट जमीन पर गिर जाते हैं तो शोधकर्ताओं को गोल-स्कोरिंग प्रशिक्षण को रोकने के लिए सावधान रहना पड़ता है: "इस समाप्ति के बिना, एजेंट एक स्थानीय न्यूनतम ढूंढते हैं और गेंद को मारने के लिए गेंद की ओर जमीन पर रोल करना सीखते हैं चलने और लात मारने के बजाय, लक्ष्य में प्रवेश करें,” वे अपने पेपर में बताते हैं।

गेट-अप नीति और लक्ष्य-स्कोरिंग नीति अंततः संयुक्त हो गईं। और निर्दिष्ट उद्देश्यों को प्राप्त करने के लिए गहन सुदृढीकरण सीखने और पुरस्कारों की प्रक्रिया के माध्यम से, सॉफ्टवेयर ने निष्क्रिय फुटबॉल कौशल विकसित किया।

प्रशिक्षित सॉफ़्टवेयर एजेंट को रोबोट बॉडी में स्थानांतरित करना बहुत कठिन साबित नहीं हुआ। लेखकों के अनुसार, यह एक शून्य-शॉट प्रक्रिया थी, जिसका अर्थ है कि उन्हें अतिरिक्त प्रशिक्षण नहीं करना पड़ा।

"हमने सरल सिस्टम पहचान के माध्यम से सिम-टू-रियल अंतर को कम किया, प्रशिक्षण के दौरान डोमेन रैंडमाइजेशन और गड़बड़ी के माध्यम से हमारी नीतियों की मजबूती में सुधार किया, और ऐसे व्यवहार को प्राप्त करने के लिए इनाम शर्तों को आकार देना शामिल किया जिससे रोबोट को नुकसान होने की संभावना कम हो," वे बताते हैं।

कहने का तात्पर्य यह है कि, उन्होंने यह सुनिश्चित किया कि सिम्युलेटर पैरामीटर हार्डवेयर एक्चुएटर सेटिंग्स, फर्श घर्षण और संयुक्त अभिविन्यास जैसी यादृच्छिक विशेषताओं, रोबोट भागों का द्रव्यमान, नियंत्रण लूप विलंबता और यादृच्छिक गड़बड़ी, सभी को सुनिश्चित करने के लिए मैप किए गए हैं ताकि सॉफ्टवेयर विभिन्न प्रकार को संभाल सके। रोबोट के शरीर पर कार्य करने वाली शक्तियाँ। एक समायोजन में, उन्होंने एक इनाम घटक जोड़ा जो बॉट्स को अपने घुटने के जोड़ों पर कम तनाव डालने के लिए प्रोत्साहित करता था, जो अन्यथा क्षतिग्रस्त होने की प्रवृत्ति रखते थे।

गेट-अप और सॉकर शिक्षकों को प्रशिक्षित करने में क्रमशः 14 घंटे और 158 घंटे (6.5 दिन) लगे, इसके बाद 68 घंटे का डिस्टिलेशन और सेल्फ-प्ले लगा। और परिणाम जानबूझकर उन कौशलों को प्रोग्राम करने की कोशिश से बेहतर था, बोफिन्स ने कहा।

पेपर में कहा गया है, "सुदृढीकरण सीखने की नीति ने विशेष रूप से मैन्युअल रूप से डिज़ाइन किए गए कौशल से बेहतर प्रदर्शन किया: यह 156 प्रतिशत तेजी से चला और उठने में 63 प्रतिशत कम समय लगा।"

“जब गेंद के पास आरंभ किया गया तो इसने गेंद को 5 प्रतिशत कम गति से किक मारी; दोनों ने लगभग 2 मीटर/सेकेंड की गेंद की गति हासिल की। हालाँकि, गेंद के लिए एक अतिरिक्त रन-अप दृष्टिकोण के साथ, सीखी गई नीति की औसत किकिंग गति 2.6 मीटर/सेकेंड (स्क्रिप्टेड कौशल से 24 प्रतिशत तेज) थी और पूरे एपिसोड में अधिकतम किकिंग गति 3.4 मीटर/सेकेंड थी।

डीपमाइंड के बोफिन्स ने प्रदर्शित किया कि ह्यूमनॉइड रोबोटों को प्रभावी ढंग से और कम लागत पर सिखाने के लिए गहन सुदृढीकरण सीखने को लागू किया जा सकता है। यह उस भविष्य की ओर एक और रुका हुआ कदम है जहां दो पैरों पर चलने वाले रोबोट हमारे बीच चलेंगे, चाहे अच्छा हो या बुरा। ®

समय टिकट:

से अधिक रजिस्टर