रोबोटों के लिए डीपमाइंड का चैटजीपीटी-जैसा मस्तिष्क उन्हें इंटरनेट से सीखने देता है

रोबोटों के लिए डीपमाइंड का चैटजीपीटी-जैसा मस्तिष्क उन्हें इंटरनेट से सीखने देता है

पिछले साल नवंबर में चैटजीपीटी के तकनीकी परिदृश्य में आने के बाद से यह लोगों को सभी प्रकार की सामग्री लिखने, कोड तैयार करने और जानकारी ढूंढने में मदद कर रहा है। इसने और अन्य बड़े भाषा मॉडल (एलएलएम) ने ग्राहक सेवा कॉल करने से लेकर फास्ट फूड ऑर्डर लेने तक के कार्यों को सुविधाजनक बनाया है। यह देखते हुए कि इतने कम समय में एलएलएम मनुष्यों के लिए कितने उपयोगी रहे हैं, रोबोट के लिए चैटजीपीटी उनकी सीखने और नई चीजें करने की क्षमता को कैसे प्रभावित कर सकता है? Google DeepMind के शोधकर्ताओं ने इसका पता लगाने का निर्णय लिया और अपने निष्कर्षों को एक में प्रकाशित किया ब्लॉग पोस्ट और पेपर पिछले सप्ताह जारी किया गया।

वे अपने सिस्टम को RT-2 कहते हैं। यह रोबोटिक्स ट्रांसफॉर्मर 2 का संक्षिप्त रूप है, और यह इसका उत्तराधिकारी है रोबोटिक्स ट्रांसफार्मर 1, जिसे कंपनी ने पिछले साल के अंत में जारी किया था। आरटी-1 एक छोटी भाषा और दृष्टि कार्यक्रम पर आधारित था और कई कार्यों को करने के लिए विशेष रूप से प्रशिक्षित किया गया था। इस सॉफ़्टवेयर का उपयोग Alphabet X में किया गया था रोज़ाना रोबोट, जो उन्हें 700 प्रतिशत सफलता दर के साथ 97 से अधिक विभिन्न कार्य करने में सक्षम बनाता है। लेकिन जब उन्हें ऐसे नए कार्य करने के लिए कहा गया जिनके लिए उन्हें प्रशिक्षित नहीं किया गया था, तो आरटी-1 का उपयोग करने वाले रोबोट केवल 32 प्रतिशत मामलों में ही सफल रहे।

आरटी-2 इस दर को लगभग दोगुना कर देता है और नए कार्यों को मांगे जाने पर 62 प्रतिशत समय में सफलतापूर्वक पूरा करता है। शोधकर्ता RT-2 को विज़न-लैंग्वेज-एक्शन (VLA) मॉडल कहते हैं। यह नए कौशल सीखने के लिए ऑनलाइन देखे गए टेक्स्ट और छवियों का उपयोग करता है। यह उतना सरल नहीं है जितना लगता है; इसके लिए सॉफ़्टवेयर को पहले एक अवधारणा को "समझना" पड़ता है, फिर उस समझ को एक कमांड या निर्देशों के सेट पर लागू करना होता है, फिर उन कार्यों को पूरा करना होता है जो उन निर्देशों को पूरा करते हैं।

पेपर के लेखकों द्वारा दिया गया एक उदाहरण कूड़े का निपटान है। पिछले मॉडल में, रोबोट के सॉफ़्टवेयर को पहले कचरे की पहचान करने के लिए प्रशिक्षित करना होगा। उदाहरण के लिए, यदि मेज पर एक छिला हुआ केला है और उसके बगल में छिलका है, तो बॉट को दिखाया जाएगा कि छिलका कचरा है जबकि केला नहीं है। फिर यह सिखाया जाएगा कि छिलका कैसे उठाया जाए, उसे कूड़ेदान में कैसे ले जाया जाए और वहां कैसे जमा किया जाए।

हालाँकि, RT-2 थोड़ा अलग तरीके से काम करता है। चूंकि मॉडल ने इंटरनेट से ढेर सारी जानकारी और डेटा पर प्रशिक्षण लिया है, इसलिए उसे यह सामान्य समझ है कि कचरा क्या है, और हालांकि इसे कचरा फेंकने के लिए प्रशिक्षित नहीं किया गया है, यह इस कार्य को पूरा करने के लिए चरणों को एक साथ जोड़ सकता है।

शोधकर्ताओं ने आरटी-2 को प्रशिक्षित करने के लिए जिन एलएलएम का उपयोग किया है वे हैं पाली-एक्स (55 अरब मापदंडों के साथ एक दृष्टि और भाषा मॉडल), और PaLM-ई (जिसे Google एक सन्निहित मल्टीमॉडल भाषा मॉडल कहता है, जिसे विशेष रूप से 12 अरब मापदंडों के साथ रोबोट के लिए विकसित किया गया है)। "पैरामीटर" एक विशेषता को संदर्भित करता है जिसे मशीन लर्निंग मॉडल अपने प्रशिक्षण डेटा के आधार पर परिभाषित करता है। एलएलएम के मामले में, वे एक वाक्य में शब्दों के बीच संबंधों को मॉडल करते हैं और मापते हैं कि यह कितनी संभावना है कि किसी दिए गए शब्द के पहले या बाद में कोई दूसरा शब्द आएगा।

एक विशाल डेटासेट में शब्दों के बीच संबंधों और पैटर्न को खोजने के माध्यम से, मॉडल अपने स्वयं के अनुमानों से सीखते हैं। वे अंततः यह पता लगा सकते हैं कि विभिन्न अवधारणाएँ एक-दूसरे से कैसे संबंधित हैं और संदर्भ को समझ सकते हैं। आरटी-2 के मामले में, यह उस ज्ञान को रोबोटिक क्रियाओं के लिए सामान्यीकृत निर्देशों में परिवर्तित करता है।

उन क्रियाओं को रोबोट के लिए टोकन के रूप में दर्शाया जाता है, जिनका उपयोग आमतौर पर शब्द के टुकड़ों के रूप में प्राकृतिक भाषा के पाठ को दर्शाने के लिए किया जाता है। इस मामले में, टोकन एक कार्रवाई के भाग होते हैं, और सॉफ़्टवेयर एक कार्रवाई करने के लिए कई टोकन को एक साथ जोड़ता है। यह संरचना सॉफ़्टवेयर को विचार-श्रृंखला तर्क करने में भी सक्षम बनाती है, जिसका अर्थ है कि यह उन प्रश्नों या संकेतों का जवाब दे सकता है जिनके लिए कुछ हद तक तर्क की आवश्यकता होती है।

टीम द्वारा दिए गए उदाहरणों में हथौड़े के रूप में उपयोग करने के लिए एक वस्तु का चयन करना शामिल है जब कोई हथौड़ा उपलब्ध नहीं है (रोबोट एक चट्टान चुनता है) और थके हुए व्यक्ति के लिए सबसे अच्छा पेय चुनना (रोबोट एक ऊर्जा पेय चुनता है)।

रोबोटों के लिए डीपमाइंड का चैटजीपीटी-जैसा मस्तिष्क उन्हें इंटरनेट प्लेटोब्लॉकचेन डेटा इंटेलिजेंस से सीखने देता है। लंबवत खोज. ऐ.
छवि क्रेडिट: गूगल डीपमाइंड

शोधकर्ताओं ने Google में लिखा है, "RT-2 रोबोटिक डेटा से परे सामान्यीकरण क्षमताओं और अर्थ और दृश्य समझ में सुधार दिखाता है।" ब्लॉग पोस्ट. "इसमें नए आदेशों की व्याख्या करना और वस्तु श्रेणियों या उच्च-स्तरीय विवरणों के बारे में तर्क जैसे प्राथमिक तर्क निष्पादित करके उपयोगकर्ता आदेशों का जवाब देना शामिल है।"

का सपना सामान्य प्रयोजन के रोबोट जो किसी भी चीज़ में इंसानों की मदद कर सकता है - चाहे घर में, व्यावसायिक सेटिंग में, या औद्योगिक सेटिंग में - जब तक रोबोट चलते-फिरते नहीं सीखेंगे, तब तक यह संभव नहीं होगा। हमें जो सबसे बुनियादी प्रवृत्ति लगती है, वह रोबोट के लिए, संदर्भ को समझने, उसके माध्यम से तर्क करने में सक्षम होने और उन समस्याओं को हल करने के लिए कार्रवाई करने का एक जटिल संयोजन है जिनके सामने आने की उम्मीद नहीं थी। विभिन्न प्रकार के अनियोजित परिदृश्यों पर उचित रूप से प्रतिक्रिया करने के लिए उन्हें प्रोग्राम करना असंभव है, इसलिए उन्हें मनुष्यों की तरह सामान्यीकरण करने और अनुभव से सीखने में सक्षम होने की आवश्यकता है।

आरटी-2 इसी दिशा में एक कदम है। हालाँकि, शोधकर्ता यह स्वीकार करते हैं कि हालाँकि RT-2 शब्दार्थ और दृश्य अवधारणाओं को सामान्यीकृत कर सकता है, लेकिन यह अभी तक अपने आप नई गतिविधियाँ सीखने में सक्षम नहीं है। बल्कि, यह उन क्रियाओं को नए परिदृश्यों पर लागू करता है जिन्हें वह पहले से जानता है। शायद आरटी-3 या 4 इन कौशलों को अगले स्तर तक ले जाने में सक्षम होंगे। इस बीच, जैसे ही टीम का समापन हुआ ब्लॉग पोस्ट, "हालांकि मानव-केंद्रित वातावरण में सहायक रोबोटों को सक्षम करने के लिए अभी भी बहुत काम किया जाना बाकी है, आरटी-2 हमें रोबोटिक्स के लिए एक रोमांचक भविष्य दिखाता है।"

छवि क्रेडिट: Google डीपमाइंड

समय टिकट:

से अधिक विलक्षणता हब