डीपमाइंड रोबोट सॉकर खिलाड़ियों को खराब तरीके से स्कोर करने के लिए प्रशिक्षित करता है

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

डीपमाइंड रोबोट सॉकर खिलाड़ियों को स्कोर करने के लिए प्रशिक्षित करता है, बुरी तरह से प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

वीडियो Google के डीपमाइंड में एगहेड्स ने एक गहन शिक्षण पाठ्यक्रम विकसित किया है जो रोबोटों को बुरी तरह फुटबॉल खेलना सिखा सकता है - और यह देखना अद्भुत है।

इसके विपरीत पॉलिश कलाबाजी बोस्टन डायनेमिक्स के एटलस रोबोट, डीपमाइंड के संरक्षण में रोबोटिस ओपी3 रोबोट की जोड़ी, थके हुए बच्चों की तरह 5 मीटर गुणा 4 मीटर के सॉकर मैदान या फुटबॉल पिच पर नियम से कम पर उछल-कूद करती है और फ्लॉप हो जाती है। नीचे दिए गए वीडियो में स्वयं निर्णय करें।

यूट्यूब वीडियो

वे स्पष्ट उद्देश्य के साथ ऐसा करते हैं और बार-बार गिरने के बावजूद खुद को सही करने और कभी-कभी गोल करने का प्रबंधन करते हैं। इन ह्यूमनॉइड मशीनों की बच्चों जैसी लड़खड़ाहट में, उस दृढ़ संकल्प के समान कुछ देखना आसान है जिसे हम एक-दूसरे में महत्व देते हैं और प्रोत्साहित करते हैं, भले ही वह गलत मानवरूपता हो। उनके लिए जड़ें जमाना मुश्किल नहीं है, हालांकि अगर उन्हें बड़ा किया गया और हथियार दिया गया तो वे अन्य भावनाओं को प्रेरित कर सकते हैं।

इस परियोजना में शामिल 28 शोधकर्ता अपने काम का वर्णन करते हैं एक पेपर [पीडीएफ] शीर्षक, "डीप रीइन्फोर्समेंट लर्निंग के साथ एक द्विपाद रोबोट के लिए एजाइल सॉकर कौशल सीखना।"

लेखक बताते हैं, "हमने एक सरलीकृत वन-बनाम-वन (20v1) सॉकर गेम खेलने के लिए 1 सक्रिय जोड़ों वाले ह्यूमनॉइड रोबोट को प्रशिक्षित करने के लिए डीप [रीइन्फोर्समेंट लर्निंग] का उपयोग किया।" “हमने पहले व्यक्तिगत कौशल को अलगाव में प्रशिक्षित किया और फिर उन कौशलों को स्व-प्ले सेटिंग में शुरू से अंत तक तैयार किया।

“परिणामी नीति मजबूत और गतिशील आंदोलन कौशल प्रदर्शित करती है जैसे कि तेजी से गिरावट की वसूली, चलना, मुड़ना, लात मारना और बहुत कुछ; और उनके बीच सहज, स्थिर और कुशल तरीके से बदलाव होता है - जो रोबोट से सहज रूप से अपेक्षित अपेक्षा से कहीं अधिक है।''

रोबोकप उन्नत-तकनीक प्रतियोगिता के लिए मशीनें तैयार करने के प्रयासों की तुलना में डीपमाइंड परियोजना कम महत्वाकांक्षी है, जो वर्षों से चल रही है। हालाँकि, रोबोकप का नवीनतम पुनरावृत्ति है देखने में निश्चित रूप से कम मज़ा प्रतिभागियों के संयमित व्यवहार के कारण। जहां रोबोकप बॉट्स की कठोरता है नदी का किनारा अपनी भुजाओं को बगल में स्थिर करके प्रदर्शन करने वाले, डीपमाइंड खिलाड़ी पागलों की तरह अपनी भुजाएँ हिलाओ - हैंडबॉल कॉल से बचने की कोशिश करते समय यह निश्चित रूप से आदर्श नहीं है, लेकिन सहानुभूति के लिए बेहतर आग्रह है।

गहन सुदृढीकरण सीखना एक तंत्रिका नेटवर्क को प्रशिक्षित करने का एक तरीका है जिसमें एजेंट (सॉफ्टवेयर- या हार्डवेयर-आधारित संस्थाएं) परीक्षण और त्रुटि के माध्यम से चीजें (नकली या वास्तविक दुनिया में) करना सीखते हैं। और यह रोबोटों को विभिन्न वातावरणों में घूमना सिखाने की एक सामान्य तकनीक बन गई है, जैसा कि इससे देखा जा सकता है कैसी की चल रही कुशलता, एक प्रकार का मेचा-शुतुरमुर्ग धड़ जिसके बारे में आप आशा करते हैं कि आप उसे कभी भी आपका पीछा करते हुए नहीं देखेंगे।

डीपमाइंड टीम का उद्देश्य एक एजेंट को फुटबॉल खेलने के लिए प्रशिक्षित करना था, जिसमें चलना, किक करना, खड़े होना, स्कोर करना और बचाव करना सहित कई प्रकार के कौशल की आवश्यकता होती है, जिनमें से सभी को गोल करने और गेम जीतने के लिए समन्वित करने की आवश्यकता होती है।

एजेंट को प्रशिक्षित करने के लिए - इस मामले में रोबोट को नियंत्रित करने वाला सॉफ़्टवेयर - गोल करने के लिए सिस्टम को पुरस्कृत करना पर्याप्त नहीं था, जो सभी आवश्यक कौशल उत्पन्न नहीं करेगा। इसके बजाय, शोधकर्ताओं ने कौशल सेटों को अलग से देखा, जिसे वे शिक्षक नीतियां कहते हैं, उसे विकसित करने पर ध्यान केंद्रित किया। ये नीतियां मैदान से ऊपर उठने और एक अप्रशिक्षित प्रतिद्वंद्वी के खिलाफ गोल करने जैसी चीजों को नियंत्रित करती हैं - जो तुरंत जमीन पर गिर जाता है, व्यवहार वास्तविक फुटबॉल डाइविंग के विपरीत नहीं होता है।

अवांछनीय लेकिन स्पष्ट रूप से कार्यात्मक व्यवहार को रोकने के लिए जब एजेंट जमीन पर गिर जाते हैं तो शोधकर्ताओं को गोल-स्कोरिंग प्रशिक्षण को रोकने के लिए सावधान रहना पड़ता है: "इस समाप्ति के बिना, एजेंट एक स्थानीय न्यूनतम ढूंढते हैं और गेंद को मारने के लिए गेंद की ओर जमीन पर रोल करना सीखते हैं चलने और लात मारने के बजाय, लक्ष्य में प्रवेश करें,” वे अपने पेपर में बताते हैं।

गेट-अप नीति और लक्ष्य-स्कोरिंग नीति अंततः संयुक्त हो गईं। और निर्दिष्ट उद्देश्यों को प्राप्त करने के लिए गहन सुदृढीकरण सीखने और पुरस्कारों की प्रक्रिया के माध्यम से, सॉफ्टवेयर ने निष्क्रिय फुटबॉल कौशल विकसित किया।

प्रशिक्षित सॉफ़्टवेयर एजेंट को रोबोट बॉडी में स्थानांतरित करना बहुत कठिन साबित नहीं हुआ। लेखकों के अनुसार, यह एक शून्य-शॉट प्रक्रिया थी, जिसका अर्थ है कि उन्हें अतिरिक्त प्रशिक्षण नहीं करना पड़ा।

"हमने सरल सिस्टम पहचान के माध्यम से सिम-टू-रियल अंतर को कम किया, प्रशिक्षण के दौरान डोमेन रैंडमाइजेशन और गड़बड़ी के माध्यम से हमारी नीतियों की मजबूती में सुधार किया, और ऐसे व्यवहार को प्राप्त करने के लिए इनाम शर्तों को आकार देना शामिल किया जिससे रोबोट को नुकसान होने की संभावना कम हो," वे बताते हैं।

कहने का तात्पर्य यह है कि, उन्होंने यह सुनिश्चित किया कि सिम्युलेटर पैरामीटर हार्डवेयर एक्चुएटर सेटिंग्स, फर्श घर्षण और संयुक्त अभिविन्यास जैसी यादृच्छिक विशेषताओं, रोबोट भागों का द्रव्यमान, नियंत्रण लूप विलंबता और यादृच्छिक गड़बड़ी, सभी को सुनिश्चित करने के लिए मैप किए गए हैं ताकि सॉफ्टवेयर विभिन्न प्रकार को संभाल सके। रोबोट के शरीर पर कार्य करने वाली शक्तियाँ। एक समायोजन में, उन्होंने एक इनाम घटक जोड़ा जो बॉट्स को अपने घुटने के जोड़ों पर कम तनाव डालने के लिए प्रोत्साहित करता था, जो अन्यथा क्षतिग्रस्त होने की प्रवृत्ति रखते थे।

गेट-अप और सॉकर शिक्षकों को प्रशिक्षित करने में क्रमशः 14 घंटे और 158 घंटे (6.5 दिन) लगे, इसके बाद 68 घंटे का डिस्टिलेशन और सेल्फ-प्ले लगा। और परिणाम जानबूझकर उन कौशलों को प्रोग्राम करने की कोशिश से बेहतर था, बोफिन्स ने कहा।

पेपर में कहा गया है, "सुदृढीकरण सीखने की नीति ने विशेष रूप से मैन्युअल रूप से डिज़ाइन किए गए कौशल से बेहतर प्रदर्शन किया: यह 156 प्रतिशत तेजी से चला और उठने में 63 प्रतिशत कम समय लगा।"

“जब गेंद के पास आरंभ किया गया तो इसने गेंद को 5 प्रतिशत कम गति से किक मारी; दोनों ने लगभग 2 मीटर/सेकेंड की गेंद की गति हासिल की। हालाँकि, गेंद के लिए एक अतिरिक्त रन-अप दृष्टिकोण के साथ, सीखी गई नीति की औसत किकिंग गति 2.6 मीटर/सेकेंड (स्क्रिप्टेड कौशल से 24 प्रतिशत तेज) थी और पूरे एपिसोड में अधिकतम किकिंग गति 3.4 मीटर/सेकेंड थी।

डीपमाइंड के बोफिन्स ने प्रदर्शित किया कि ह्यूमनॉइड रोबोटों को प्रभावी ढंग से और कम लागत पर सिखाने के लिए गहन सुदृढीकरण सीखने को लागू किया जा सकता है। यह उस भविष्य की ओर एक और रुका हुआ कदम है जहां दो पैरों पर चलने वाले रोबोट हमारे बीच चलेंगे, चाहे अच्छा हो या बुरा। ®

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोआईस्ट्रीम। Web3 डेटा इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
मिंटिंग द फ्यूचर डब्ल्यू एड्रिएन एशले। यहां पहुंचें।
PREIPO® के साथ PRE-IPO कंपनियों में शेयर खरीदें और बेचें। यहां पहुंचें।
स्रोत: https://go.theregister.com/feed/www.theregister.com/2023/05/09/ai_robot_soccer/

समय टिकट: 9 मई 2023

समय टिकट: अगस्त 21, 2023

डीपमाइंड रोबोट सॉकर खिलाड़ियों को खराब स्कोर करने के लिए प्रशिक्षित करता है

प्लेटो द्वारा पुनर्प्रकाशित

से अधिक रजिस्टर

GPT-4 बिंग में पॉप अप कर सकता है, क्योंकि Google चैटबॉट खोज उत्पादों को बनाने के लिए दौड़ रहा है

एनवीडिया अपने ग्रेस हॉपर सुपरचिप को HBM3e अपग्रेड देता है

AWS आपको GPU समय पहले से आरक्षित करने देगा - कोई रिफंड नहीं

Microsoft Win11 अपडेट के माध्यम से कोपायलट मल्टी-मॉनिटर समस्याओं को ठीक करता है

अब Amazon ने पेश किया AI प्रोग्रामिंग असिस्टेंट - CodeWhisperer

एआई प्रोग्रामिंग असिस्टेंट का मतलब है कंप्यूटर साइंस की शिक्षा पर पुनर्विचार करना

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा