यह डीपमाइंड एआई इंसानों को देखकर ही तेजी से नए कौशल सीखता है

यह डीपमाइंड एआई इंसानों को देखकर ही तेजी से नए कौशल सीखता है

यह डीपमाइंड एआई इंसानों के प्लेटोब्लॉकचेन डेटा इंटेलिजेंस को देखकर तेजी से नए कौशल सीखता है। लंबवत खोज. ऐ.

मनुष्यों की नकल करने के लिए एल्गोरिदम सिखाने के लिए आमतौर पर सैकड़ों या हजारों उदाहरणों की आवश्यकता होती है। लेकिन Google DeepMind का एक नया AI तुरंत मानव प्रदर्शनकारियों से नए कौशल सीख सकता है।

मानवता की सबसे बड़ी युक्तियों में से एक एक दूसरे से तेजी से और कुशलता से ज्ञान प्राप्त करने की हमारी क्षमता है। इस प्रकार की सामाजिक शिक्षा, जिसे अक्सर सांस्कृतिक संचरण के रूप में जाना जाता है, वह है जो हमें एक सहकर्मी को यह दिखाने की अनुमति देती है कि एक नए उपकरण का उपयोग कैसे करें या अपने बच्चों को नर्सरी कविताएँ सिखाएँ।

इसमें कोई आश्चर्य की बात नहीं है कि शोधकर्ताओं ने इस प्रक्रिया को मशीनों में दोहराने की कोशिश की है। नकल सीखना, जिसमें एआई एक इंसान को एक कार्य पूरा करते हुए देखता है और फिर उनके व्यवहार की नकल करने की कोशिश करता है, लंबे समय से रोबोटों को प्रशिक्षित करने का एक लोकप्रिय तरीका रहा है। लेकिन आज के सबसे उन्नत गहन शिक्षण एल्गोरिदम को भी आमतौर पर अपने प्रशिक्षकों की सफलतापूर्वक नकल करने से पहले कई उदाहरण देखने की आवश्यकता होती है।

जब मनुष्य नकल के माध्यम से सीखते हैं, तो वे अक्सर मुट्ठी भर प्रदर्शनों के बाद नए कार्य चुन सकते हैं। अब, Google DeepMind शोधकर्ताओं ने उन एजेंटों के साथ AI में तेजी से सामाजिक सीखने की दिशा में एक कदम उठाया है जो वास्तविक समय में मनुष्यों से आभासी दुनिया को नेविगेट करना सीखते हैं।

शोधकर्ताओं ने एक लेख में लिखा है, "हमारे एजेंट किसी भी पूर्व-एकत्रित मानव डेटा का उपयोग किए बिना उपन्यास संदर्भों में मानव की वास्तविक समय की नकल करने में सफल होते हैं।" कागज में संचार प्रकृति. "हम सांस्कृतिक प्रसारण उत्पन्न करने के लिए पर्याप्त सामग्री के आश्चर्यजनक रूप से सरल सेट की पहचान करते हैं।

शोधकर्ताओं ने अपने एजेंटों को GoalCycle3D नामक एक विशेष रूप से डिज़ाइन किए गए सिम्युलेटर में प्रशिक्षित किया। सिमुलेशन कैसे संचालित होना चाहिए और इसके किन पहलुओं में भिन्नता होनी चाहिए, इसके नियमों के आधार पर सिम्युलेटर विभिन्न वातावरणों की लगभग अंतहीन संख्या उत्पन्न करने के लिए एक एल्गोरिदम का उपयोग करता है।

प्रत्येक वातावरण में, छोटी बूँद जैसी एआई एजेंट एक विशिष्ट क्रम में रंगीन क्षेत्रों की श्रृंखला से गुजरने के लिए असमान इलाके और विभिन्न बाधाओं को पार करना होगा। भू-भाग की ऊबड़-खाबड़ता, बाधाओं का घनत्व और गोले का विन्यास वातावरण के अनुसार भिन्न-भिन्न होता है।

एजेंटों को उपयोग करके नेविगेट करने के लिए प्रशिक्षित किया जाता है सुदृढीकरण सीखना. वे सही क्रम में गोले से गुजरने के लिए इनाम कमाते हैं और कई परीक्षणों में अपने प्रदर्शन को बेहतर बनाने के लिए इस सिग्नल का उपयोग करते हैं। लेकिन इसके अलावा, वातावरण में एक विशेषज्ञ एजेंट भी होता है - जो या तो हार्ड-कोडित होता है या मानव द्वारा नियंत्रित होता है - जो पहले से ही पाठ्यक्रम के माध्यम से सही मार्ग जानता है।

कई प्रशिक्षणों के दौरान, एआई एजेंट न केवल पर्यावरण के संचालन के मूल सिद्धांतों को सीखते हैं, बल्कि यह भी सीखते हैं कि प्रत्येक समस्या को हल करने का सबसे तेज़ तरीका विशेषज्ञ की नकल करना है। यह सुनिश्चित करने के लिए कि एजेंट केवल पाठ्यक्रमों को याद करने के बजाय नकल करना सीख रहे हैं, टीम ने उन्हें वातावरण के एक सेट पर प्रशिक्षित किया और फिर दूसरे पर उनका परीक्षण किया। महत्वपूर्ण रूप से, प्रशिक्षण के बाद, टीम ने दिखाया कि उनके एजेंट एक विशेषज्ञ की नकल कर सकते हैं और विशेषज्ञ के बिना भी मार्ग का पालन करना जारी रख सकते हैं।

इसके लिए मानक सुदृढीकरण सीखने के दृष्टिकोण में कुछ बदलाव की आवश्यकता थी।

शोधकर्ताओं ने एल्गोरिदम को दूसरे एजेंट के स्थान की भविष्यवाणी करवाकर विशेषज्ञ पर ध्यान केंद्रित कराया। उन्होंने इसे एक मेमोरी मॉड्यूल भी दिया। प्रशिक्षण के दौरान, विशेषज्ञ वातावरण के अंदर और बाहर जाता था, जिससे एजेंट को अपने कार्यों को याद रखने के लिए मजबूर होना पड़ता था जब वह मौजूद नहीं था। एआई ने वातावरण के व्यापक सेट पर भी प्रशिक्षण दिया, जिससे यह सुनिश्चित हुआ कि यह संभावित कार्यों की एक विस्तृत श्रृंखला देख सके।

हालाँकि इस दृष्टिकोण को अधिक व्यावहारिक डोमेन में अनुवाद करना कठिन हो सकता है। एक प्रमुख सीमा यह है कि जब शोधकर्ताओं ने परीक्षण किया कि क्या एआई मानव प्रदर्शनों से सीख सकता है, तो सभी प्रशिक्षण रनों के दौरान विशेषज्ञ एजेंट को एक व्यक्ति द्वारा नियंत्रित किया गया था। इससे यह जानना कठिन हो जाता है कि क्या एजेंट विभिन्न प्रकार के लोगों से सीख सकते हैं।

अधिक दबाव वाली बात यह है कि प्रशिक्षण के माहौल को बेतरतीब ढंग से बदलने की क्षमता को वास्तविक दुनिया में दोबारा बनाना मुश्किल होगा। और अंतर्निहित कार्य सरल था, जिसके लिए किसी अच्छे मोटर नियंत्रण की आवश्यकता नहीं थी और यह अत्यधिक नियंत्रित आभासी वातावरण में होता था।

फिर भी, एआई में सामाजिक शिक्षण की प्रगति का स्वागत है। यदि हमें बुद्धिमान मशीनों वाली दुनिया में रहना है, तो उनके साथ अपने अनुभव और विशेषज्ञता को साझा करने के कुशल और सहज तरीके खोजना महत्वपूर्ण होगा।

छवि क्रेडिट: जूलियाना और मारियाना अमोरिम / Unsplash

समय टिकट:

से अधिक विलक्षणता हब