वीडियो Google के डीपमाइंड में एगहेड्स ने एक गहन शिक्षण पाठ्यक्रम विकसित किया है जो रोबोटों को बुरी तरह फुटबॉल खेलना सिखा सकता है - और यह देखना अद्भुत है।
इसके विपरीत पॉलिश कलाबाजी बोस्टन डायनेमिक्स के एटलस रोबोट, डीपमाइंड के संरक्षण में रोबोटिस ओपी3 रोबोट की जोड़ी, थके हुए बच्चों की तरह 5 मीटर गुणा 4 मीटर के सॉकर मैदान या फुटबॉल पिच पर नियम से कम पर उछल-कूद करती है और फ्लॉप हो जाती है। नीचे दिए गए वीडियो में स्वयं निर्णय करें।
वे स्पष्ट उद्देश्य के साथ ऐसा करते हैं और बार-बार गिरने के बावजूद खुद को सही करने और कभी-कभी गोल करने का प्रबंधन करते हैं। इन ह्यूमनॉइड मशीनों की बच्चों जैसी लड़खड़ाहट में, उस दृढ़ संकल्प के समान कुछ देखना आसान है जिसे हम एक-दूसरे में महत्व देते हैं और प्रोत्साहित करते हैं, भले ही वह गलत मानवरूपता हो। उनके लिए जड़ें जमाना मुश्किल नहीं है, हालांकि अगर उन्हें बड़ा किया गया और हथियार दिया गया तो वे अन्य भावनाओं को प्रेरित कर सकते हैं।
इस परियोजना में शामिल 28 शोधकर्ता अपने काम का वर्णन करते हैं एक पेपर [पीडीएफ] शीर्षक, "डीप रीइन्फोर्समेंट लर्निंग के साथ एक द्विपाद रोबोट के लिए एजाइल सॉकर कौशल सीखना।"
लेखक बताते हैं, "हमने एक सरलीकृत वन-बनाम-वन (20v1) सॉकर गेम खेलने के लिए 1 सक्रिय जोड़ों वाले ह्यूमनॉइड रोबोट को प्रशिक्षित करने के लिए डीप [रीइन्फोर्समेंट लर्निंग] का उपयोग किया।" “हमने पहले व्यक्तिगत कौशल को अलगाव में प्रशिक्षित किया और फिर उन कौशलों को स्व-प्ले सेटिंग में शुरू से अंत तक तैयार किया।
“परिणामी नीति मजबूत और गतिशील आंदोलन कौशल प्रदर्शित करती है जैसे कि तेजी से गिरावट की वसूली, चलना, मुड़ना, लात मारना और बहुत कुछ; और उनके बीच सहज, स्थिर और कुशल तरीके से बदलाव होता है - जो रोबोट से सहज रूप से अपेक्षित अपेक्षा से कहीं अधिक है।''
रोबोकप उन्नत-तकनीक प्रतियोगिता के लिए मशीनें तैयार करने के प्रयासों की तुलना में डीपमाइंड परियोजना कम महत्वाकांक्षी है, जो वर्षों से चल रही है। हालाँकि, रोबोकप का नवीनतम पुनरावृत्ति है देखने में निश्चित रूप से कम मज़ा प्रतिभागियों के संयमित व्यवहार के कारण। जहां रोबोकप बॉट्स की कठोरता है नदी का किनारा अपनी भुजाओं को बगल में स्थिर करके प्रदर्शन करने वाले, डीपमाइंड खिलाड़ी पागलों की तरह अपनी भुजाएँ हिलाओ - हैंडबॉल कॉल से बचने की कोशिश करते समय यह निश्चित रूप से आदर्श नहीं है, लेकिन सहानुभूति के लिए बेहतर आग्रह है।
गहन सुदृढीकरण सीखना एक तंत्रिका नेटवर्क को प्रशिक्षित करने का एक तरीका है जिसमें एजेंट (सॉफ्टवेयर- या हार्डवेयर-आधारित संस्थाएं) परीक्षण और त्रुटि के माध्यम से चीजें (नकली या वास्तविक दुनिया में) करना सीखते हैं। और यह रोबोटों को विभिन्न वातावरणों में घूमना सिखाने की एक सामान्य तकनीक बन गई है, जैसा कि इससे देखा जा सकता है कैसी की चल रही कुशलता, एक प्रकार का मेचा-शुतुरमुर्ग धड़ जिसके बारे में आप आशा करते हैं कि आप उसे कभी भी आपका पीछा करते हुए नहीं देखेंगे।
डीपमाइंड टीम का उद्देश्य एक एजेंट को फुटबॉल खेलने के लिए प्रशिक्षित करना था, जिसमें चलना, किक करना, खड़े होना, स्कोर करना और बचाव करना सहित कई प्रकार के कौशल की आवश्यकता होती है, जिनमें से सभी को गोल करने और गेम जीतने के लिए समन्वित करने की आवश्यकता होती है।
एजेंट को प्रशिक्षित करने के लिए - इस मामले में रोबोट को नियंत्रित करने वाला सॉफ़्टवेयर - गोल करने के लिए सिस्टम को पुरस्कृत करना पर्याप्त नहीं था, जो सभी आवश्यक कौशल उत्पन्न नहीं करेगा। इसके बजाय, शोधकर्ताओं ने कौशल सेटों को अलग से देखा, जिसे वे शिक्षक नीतियां कहते हैं, उसे विकसित करने पर ध्यान केंद्रित किया। ये नीतियां मैदान से ऊपर उठने और एक अप्रशिक्षित प्रतिद्वंद्वी के खिलाफ गोल करने जैसी चीजों को नियंत्रित करती हैं - जो तुरंत जमीन पर गिर जाता है, व्यवहार वास्तविक फुटबॉल डाइविंग के विपरीत नहीं होता है।
अवांछनीय लेकिन स्पष्ट रूप से कार्यात्मक व्यवहार को रोकने के लिए जब एजेंट जमीन पर गिर जाते हैं तो शोधकर्ताओं को गोल-स्कोरिंग प्रशिक्षण को रोकने के लिए सावधान रहना पड़ता है: "इस समाप्ति के बिना, एजेंट एक स्थानीय न्यूनतम ढूंढते हैं और गेंद को मारने के लिए गेंद की ओर जमीन पर रोल करना सीखते हैं चलने और लात मारने के बजाय, लक्ष्य में प्रवेश करें,” वे अपने पेपर में बताते हैं।
गेट-अप नीति और लक्ष्य-स्कोरिंग नीति अंततः संयुक्त हो गईं। और निर्दिष्ट उद्देश्यों को प्राप्त करने के लिए गहन सुदृढीकरण सीखने और पुरस्कारों की प्रक्रिया के माध्यम से, सॉफ्टवेयर ने निष्क्रिय फुटबॉल कौशल विकसित किया।
प्रशिक्षित सॉफ़्टवेयर एजेंट को रोबोट बॉडी में स्थानांतरित करना बहुत कठिन साबित नहीं हुआ। लेखकों के अनुसार, यह एक शून्य-शॉट प्रक्रिया थी, जिसका अर्थ है कि उन्हें अतिरिक्त प्रशिक्षण नहीं करना पड़ा।
"हमने सरल सिस्टम पहचान के माध्यम से सिम-टू-रियल अंतर को कम किया, प्रशिक्षण के दौरान डोमेन रैंडमाइजेशन और गड़बड़ी के माध्यम से हमारी नीतियों की मजबूती में सुधार किया, और ऐसे व्यवहार को प्राप्त करने के लिए इनाम शर्तों को आकार देना शामिल किया जिससे रोबोट को नुकसान होने की संभावना कम हो," वे बताते हैं।
कहने का तात्पर्य यह है कि, उन्होंने यह सुनिश्चित किया कि सिम्युलेटर पैरामीटर हार्डवेयर एक्चुएटर सेटिंग्स, फर्श घर्षण और संयुक्त अभिविन्यास जैसी यादृच्छिक विशेषताओं, रोबोट भागों का द्रव्यमान, नियंत्रण लूप विलंबता और यादृच्छिक गड़बड़ी, सभी को सुनिश्चित करने के लिए मैप किए गए हैं ताकि सॉफ्टवेयर विभिन्न प्रकार को संभाल सके। रोबोट के शरीर पर कार्य करने वाली शक्तियाँ। एक समायोजन में, उन्होंने एक इनाम घटक जोड़ा जो बॉट्स को अपने घुटने के जोड़ों पर कम तनाव डालने के लिए प्रोत्साहित करता था, जो अन्यथा क्षतिग्रस्त होने की प्रवृत्ति रखते थे।
गेट-अप और सॉकर शिक्षकों को प्रशिक्षित करने में क्रमशः 14 घंटे और 158 घंटे (6.5 दिन) लगे, इसके बाद 68 घंटे का डिस्टिलेशन और सेल्फ-प्ले लगा। और परिणाम जानबूझकर उन कौशलों को प्रोग्राम करने की कोशिश से बेहतर था, बोफिन्स ने कहा।
पेपर में कहा गया है, "सुदृढीकरण सीखने की नीति ने विशेष रूप से मैन्युअल रूप से डिज़ाइन किए गए कौशल से बेहतर प्रदर्शन किया: यह 156 प्रतिशत तेजी से चला और उठने में 63 प्रतिशत कम समय लगा।"
“जब गेंद के पास आरंभ किया गया तो इसने गेंद को 5 प्रतिशत कम गति से किक मारी; दोनों ने लगभग 2 मीटर/सेकेंड की गेंद की गति हासिल की। हालाँकि, गेंद के लिए एक अतिरिक्त रन-अप दृष्टिकोण के साथ, सीखी गई नीति की औसत किकिंग गति 2.6 मीटर/सेकेंड (स्क्रिप्टेड कौशल से 24 प्रतिशत तेज) थी और पूरे एपिसोड में अधिकतम किकिंग गति 3.4 मीटर/सेकेंड थी।
डीपमाइंड के बोफिन्स ने प्रदर्शित किया कि ह्यूमनॉइड रोबोटों को प्रभावी ढंग से और कम लागत पर सिखाने के लिए गहन सुदृढीकरण सीखने को लागू किया जा सकता है। यह उस भविष्य की ओर एक और रुका हुआ कदम है जहां दो पैरों पर चलने वाले रोबोट हमारे बीच चलेंगे, चाहे अच्छा हो या बुरा। ®
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोआईस्ट्रीम। Web3 डेटा इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- मिंटिंग द फ्यूचर डब्ल्यू एड्रिएन एशले। यहां पहुंचें।
- PREIPO® के साथ PRE-IPO कंपनियों में शेयर खरीदें और बेचें। यहां पहुंचें।
- स्रोत: https://go.theregister.com/feed/www.theregister.com/2023/05/09/ai_robot_soccer/
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 14
- 20
- 24
- 28
- 7
- a
- About
- अनुसार
- हासिल
- प्राप्त करने
- के पार
- वास्तविक
- कुशाग्र बुद्धि
- जोड़ा
- अतिरिक्त
- समायोजन
- के खिलाफ
- एजेंट
- एजेंटों
- चुस्त
- उद्देश्य
- सब
- महत्त्वाकांक्षी
- के बीच में
- हमारे बीच
- an
- और
- अन्य
- स्पष्ट
- लागू
- दृष्टिकोण
- हथियार
- चारों ओर
- AS
- At
- लेखकों
- से बचने
- बुरी तरह
- गेंद
- BE
- बन
- किया गया
- नीचे
- बेहतर
- के बीच
- परे
- परिवर्तन
- बोस्टन
- के छात्रों
- बॉट
- बुम्बल
- लेकिन
- by
- कॉल
- कर सकते हैं
- सावधान
- मामला
- विशेषताएँ
- CO
- संयुक्त
- सामान्य
- प्रतियोगिता
- अंग
- प्रकृतिस्थ
- इसके विपरीत
- नियंत्रण
- नियंत्रित
- समन्वित
- सका
- पाठ्यचर्या
- दिन
- गहरा
- ध्यान लगा के पढ़ना या सीखना
- Deepmind
- का बचाव
- साबित
- वर्णन
- के बावजूद
- दृढ़ संकल्प
- विकसित
- विकासशील
- मुश्किल
- do
- डोमेन
- दो
- दौरान
- गतिशील
- गतिकी
- आसान
- प्रभावी रूप से
- कुशल
- प्रयासों
- भावनाओं
- प्रोत्साहित करना
- प्रोत्साहित किया
- शुरू से अंत तक
- पर्याप्त
- सुनिश्चित
- संस्थाओं
- वातावरण
- त्रुटि
- और भी
- अंत में
- प्रदर्श
- अपेक्षित
- समझाना
- गिरना
- फॉल्स
- और तेज
- खेत
- खोज
- प्रथम
- तय
- मंज़िल
- ध्यान केंद्रित
- पीछा किया
- फ़ुटबॉल सबसे लोकप्रिय एंव
- के लिए
- ताकतों
- टकराव
- से
- मज़ा
- कार्यात्मक
- भविष्य
- खेल
- अन्तर
- मिल
- मिल रहा
- लक्ष्य
- लक्ष्यों
- जा
- गूगल
- जमीन
- था
- लंगड़ा
- संभालना
- हार्डवेयर
- है
- आशा
- घंटे
- कैसे
- How To
- तथापि
- HTTPS
- मानव सदृश
- आदर्श
- पहचान
- if
- तुरंत
- उन्नत
- in
- शामिल
- सहित
- व्यक्ति
- प्रेरित
- बजाय
- में
- शामिल
- अलगाव
- IT
- यात्रा
- संयुक्त
- जेपीजी
- न्यायाधीश
- केवल
- लेबल
- विलंब
- ताज़ा
- जानें
- सीखा
- सीख रहा हूँ
- कम
- पसंद
- संभावित
- स्थानीय
- देखिए
- कम लागत
- मशीनें
- बनाया गया
- प्रबंधन
- ढंग
- सामूहिक
- अधिकतम
- मतलब
- अर्थ
- न्यूनतम
- गलत
- अधिक
- चाल
- आंदोलन
- निकट
- आवश्यक
- आवश्यकता
- नेटवर्क
- तंत्रिका नेटवर्क
- कभी नहीँ
- उद्देश्य
- प्राप्त
- of
- बंद
- on
- ONE
- or
- अन्य
- अन्यथा
- हमारी
- परिणाम
- जोड़ा
- काग़ज़
- पैरामीटर
- प्रतिभागियों
- भागों
- पीडीएफ
- प्रतिशत
- कलाकारों
- पिच
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- प्ले
- खिलाड़ियों
- नीतियाँ
- नीति
- तैयार करना
- को रोकने के
- प्रक्रिया
- उत्पादन
- कार्यक्रम
- परियोजना
- साबित
- उद्देश्य
- रखना
- बिना सोचे समझे
- यादृच्छिक
- उपवास
- बल्कि
- वास्तविक
- असली दुनिया
- वसूली
- घटी
- दोहराया गया
- की आवश्यकता होती है
- शोधकर्ताओं
- क्रमश
- जिसके परिणामस्वरूप
- इनाम
- पुरस्कार
- सही
- रोबोट
- रोबोट
- मजबूत
- मजबूती
- रोल
- जड़
- s
- कहा
- कहना
- कहते हैं
- क्षेत्र
- स्कोर
- स्कोरिंग
- देखना
- देखा
- सेट
- की स्थापना
- सेटिंग्स
- आकार देने
- साइड्स
- सरल
- सरलीकृत
- सिम्युलेटर
- कौशल
- कौशल
- So
- फुटबॉल
- सॉफ्टवेयर
- लोभ
- कुछ
- विशेषीकृत
- विनिर्दिष्ट
- गति
- स्थिर
- कदम
- रुकें
- तनाव
- ठोकर
- ऐसा
- प्रणाली
- शिक्षकों
- शिक्षण
- टीम
- शर्तों
- से
- कि
- RSI
- लेकिन हाल ही
- उन
- अपने
- फिर
- इन
- वे
- चीज़ें
- इसका
- उन
- हालांकि?
- यहाँ
- पहर
- शीर्षक से
- सेवा मेरे
- भी
- ले गया
- की ओर
- की ओर
- रेलगाड़ी
- प्रशिक्षित
- प्रशिक्षण
- गाड़ियों
- संक्रमण
- परीक्षण
- मोड़
- के अंतर्गत
- भिन्न
- के ऊपर
- us
- प्रयुक्त
- मूल्य
- विविधता
- विभिन्न
- के माध्यम से
- वीडियो
- चला
- घूमना
- था
- मार्ग..
- we
- कुंआ
- थे
- क्या
- एचएमबी क्या है?
- कब
- कौन कौन से
- कौन
- जीतना
- साथ में
- बिना
- अद्भुत
- काम
- विश्व
- बदतर
- साल
- आप
- स्वयं
- यूट्यूब
- जेफिरनेट