वास्तविक समय में रोबोट से बात करना

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

कोरी लिंच, अनुसंधान वैज्ञानिक, और अजान वाहिद, शोध इंजीनियर, रोबोटिक्स, Google द्वारा पोस्ट किया गया

रियल टाइम प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में रोबोट से बात करना। लंबवत खोज. ऐ.

रोबोट सीखने में एक भव्य दृष्टि, वापस जा रहा है SHRDLU प्रयोग 1960 के दशक के उत्तरार्ध में, सहायक रोबोटों में से एक है जो मानव स्थानों में निवास करता है और विभिन्न प्रकार की प्राकृतिक भाषा आज्ञाओं का पालन करता है। पिछले कुछ वर्षों में, मशीन लर्निंग (एमएल) के अनुप्रयोग में महत्वपूर्ण प्रगति हुई है निर्देश निम्नलिखित, दोनों in अनुकार और वास्तविक विश्व प्रणालियों में। हालिया पाम-सेकैन काम ने रोबोट का उत्पादन किया है जो लंबे-क्षितिज व्यवहारों की योजना बनाने और अमूर्त लक्ष्यों के बारे में तर्क देने के लिए भाषा मॉडल का लाभ उठाता है। नीतियों के रूप में कोड ने दिखाया है कि पूर्व-प्रशिक्षित धारणा प्रणालियों के साथ संयुक्त कोड-जनरेटिंग भाषा मॉडल जीरो शॉट रोबोट हेरफेर के लिए भाषा के अनुकूल नीतियां बना सकते हैं। इस प्रगति के बावजूद, वर्तमान "लैंग्वेज इन, एक्शन आउट" रोबोट लर्निंग सिस्टम की एक महत्वपूर्ण गायब संपत्ति है वास्तविक समय मनुष्यों के साथ बातचीत।

आदर्श रूप से, भविष्य के रोबोट किसी भी प्रासंगिक कार्य के लिए वास्तविक समय में प्रतिक्रिया करेंगे, जिसे उपयोगकर्ता प्राकृतिक भाषा में वर्णित कर सकता है। विशेष रूप से खुले मानव परिवेशों में, अंतिम उपयोगकर्ताओं के लिए यह महत्वपूर्ण हो सकता है कि वे रोबोट व्यवहार को अनुकूलित करें जैसा कि हो रहा है, त्वरित सुधारों की पेशकश करते हुए ("रुकें, अपने हाथ को थोड़ा ऊपर ले जाएं") या बाधाओं को निर्दिष्ट करें ("कुहनी से धक्का दें कि धीरे से दांई ओर")। इसके अलावा, वास्तविक समय की भाषा लोगों और रोबोटों के लिए जटिल, लंबे-क्षितिज कार्यों पर सहयोग करना आसान बना सकती है, लोगों के साथ कभी-कभी भाषा प्रतिक्रिया के साथ रोबोट हेरफेर का मार्गदर्शन करने वाले लोगों के साथ।

रियल टाइम प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में रोबोट से बात करना। लंबवत खोज. ऐ.

निम्नलिखित खुली शब्दावली भाषा की चुनौतियाँ। "सभी ब्लॉकों को एक लंबवत रेखा में रखें" जैसे लंबे क्षितिज कार्य के माध्यम से सफलतापूर्वक निर्देशित होने के लिए, एक रोबोट को छोटे सुधारात्मक व्यवहारों जैसे "लाल वृत्त को थोड़ा सा ठीक करना" सहित विभिन्न प्रकार के आदेशों का ठीक से जवाब देना चाहिए।

हालाँकि, रोबोट का पालन करना खुली शब्दावली एमएल परिप्रेक्ष्य से भाषा एक महत्वपूर्ण चुनौती है। यह कई छोटे सुधारात्मक व्यवहारों सहित स्वाभाविक रूप से बड़ी संख्या में कार्यों के साथ एक सेटिंग है। मौजूदा एक से अधिक कार्य सीख रहा हूँ सेटअप क्यूरेटेड का उपयोग करते हैं नकल सीखना डेटासेट या जटिल सुदृढीकरण सीखने (आरएल) इनाम कार्यों को प्रत्येक कार्य के सीखने को चलाने के लिए, और इस महत्वपूर्ण प्रति-कार्य प्रयास को एक छोटे पूर्वनिर्धारित सेट से आगे बढ़ाना मुश्किल है। इस प्रकार, खुली शब्दावली सेटिंग में एक महत्वपूर्ण खुला प्रश्न है: हम रोबोट डेटा के संग्रह को कैसे माप सकते हैं जिसमें दर्जनों नहीं, बल्कि पर्यावरण में सैकड़ों हजारों व्यवहार शामिल हैं, और हम इन सभी व्यवहारों को प्राकृतिक भाषा से कैसे जोड़ सकते हैं और अंतिम उपयोगकर्ता वास्तव में प्रदान कर सकता है?

In इंटरएक्टिव भाषा, हम बड़े पैमाने पर पेश करते हैं नकली सीखने की रूपरेखा रीयल-टाइम, खुली शब्दावली भाषा-सशर्त रोबोट बनाने के लिए। हमारे दृष्टिकोण के साथ प्रशिक्षण के बाद, हम पाते हैं कि एक व्यक्तिगत नीति सक्षम है संबोधित करने का 87,000 अद्वितीय निर्देश (93.5% की अनुमानित औसत सफलता दर के साथ, पिछले कार्यों की तुलना में अधिक परिमाण का क्रम)। हम रिलीज की घोषणा करते हुए भी उत्साहित हैं भाषा-तालिका, सबसे बड़ा उपलब्ध भाषा-एनोटेटेड रोबोट डेटासेट है, जिसके बारे में हमें उम्मीद है कि यह रीयल-टाइम भाषा-नियंत्रणीय रोबोट पर केंद्रित और शोध करेगा।

वास्तविक समय भाषा के साथ रोबोटों का मार्गदर्शन करना।

रियल टाइम लैंग्वेज-कंट्रोलेबल रोबोट

हमारे दृष्टिकोण की कुंजी बड़े, विविध भाषा-अनुरूप रोबोट प्रदर्शन डेटासेट बनाने के लिए एक स्केलेबल नुस्खा है। पिछले सेटअपों के विपरीत जो सभी कौशलों को सामने परिभाषित करते हैं और फिर प्रत्येक कौशल के लिए क्यूरेटेड प्रदर्शन एकत्र करते हैं, हम दृश्य रीसेट या किसी निम्न-स्तरीय कौशल विभाजन के बिना लगातार कई रोबोटों में डेटा एकत्र करते हैं। विफलता डेटा सहित सभी डेटा (उदाहरण के लिए, एक टेबल को ब्लॉक करना), एक के माध्यम से जाता है हिंडसाइट लैंग्वेज रीलेबलिंग पाठ के साथ जोड़े जाने की प्रक्रिया। यहां, एनोटेटर जितना संभव हो उतने व्यवहारों की पहचान करने के लिए लंबे रोबोट वीडियो देखते हैं, प्रत्येक को शुरू और समाप्त होने पर चिह्नित करते हैं, और प्रत्येक सेगमेंट का वर्णन करने के लिए फ्रीफॉर्म प्राकृतिक भाषा का उपयोग करते हैं। महत्वपूर्ण रूप से, सेटअप के बाद पूर्व निर्देश के विपरीत, प्रशिक्षण के लिए उपयोग किए जाने वाले सभी कौशल शोधकर्ताओं द्वारा निर्धारित किए जाने के बजाय डेटा से ही नीचे उभर कर सामने आते हैं।

हमारा सीखने का तरीका और वास्तुकला जानबूझकर सीधा है। हमारी रोबोट नीति एक क्रॉस-अटेंशन है ट्रांसफार्मर, मानक पर्यवेक्षित शिक्षण का उपयोग करके 5hz वीडियो और टेक्स्ट को 5hz रोबोट क्रियाओं में मैप करना व्यवहारिक क्लोनिंग बिना किसी सहायक नुकसान के उद्देश्य। परीक्षण के समय, नए बोले गए आदेश नीति को भेजे जा सकते हैं (के माध्यम से भाषण से पाठ) किसी भी समय 5 हर्ट्ज तक।

इंटरएक्टिव लैंग्वेज: रियल टाइम लैंग्वेज-कंट्रोलेबल रोबोट बनाने के लिए एक इमिटेशन लर्निंग सिस्टम।

ओपन सोर्स रिलीज़: लैंग्वेज-टेबल डेटासेट और बेंचमार्क

इस एनोटेशन प्रक्रिया ने हमें लैंग्वेज-टेबल डेटासेट एकत्र करने की अनुमति दी, जिसमें 440k से अधिक वास्तविक और 180k सिम्युलेटेड प्रदर्शन शामिल हैं, जिसमें रोबोट एक भाषा कमांड का प्रदर्शन करता है, साथ ही प्रदर्शन के दौरान रोबोट द्वारा की गई क्रियाओं का क्रम भी। परिमाण के क्रम में यह अपनी तरह का सबसे बड़ा भाषा-आधारित रोबोट प्रदर्शन डेटासेट है। लैंग्वेज-टेबल एक सिम्युलेटेड इमिटेशन लर्निंग बेंचमार्क के साथ आता है जिसका उपयोग हम मॉडल चयन करने के लिए करते हैं, जिसका उपयोग आर्किटेक्चर या दृष्टिकोण के बाद नए निर्देश का मूल्यांकन करने के लिए किया जा सकता है।

डेटासेट	# प्रक्षेपवक्र (के)	# अनोखा (के)	शारीरिक क्रियाएं	वास्तविक	उपलब्ध
एपिसोडिक प्रदर्शन
ईसा पूर्व-जेड	25	0.1	✓	✓	✓
सायकैन	68	0.5	✓	✓	❌
नाटकघर	1,097	779	❌	❌	❌
हिंडसाइट लैंग्वेज लेबलिंग
ब्लाकों	30	N / A	❌	❌	✓
लैंगएलएफपी	10	N / A	✓	❌	❌
लोरेल	6	1.7	✓	✓	✓
केल्विन	20	0.4	✓	❌	✓
भाषा-तालिका (वास्तविक + शनि)	623 (442+181)	206 (127+79)	✓	✓	✓

हम भाषा-तालिका की तुलना मौजूदा रोबोट डेटासेट से करते हैं, सिम्युलेटेड (लाल) या वास्तविक (नीला) रोबोट डेटा के अनुपात पर प्रकाश डालते हैं, एकत्र किए गए प्रक्षेपवक्र की संख्या और अद्वितीय भाषा वर्णन योग्य कार्यों की संख्या।

रियल टाइम लैंग्वेज बिहेवियर सीखे

छोटे क्षितिज निर्देशों के उदाहरण रोबोट पालन करने में सक्षम हैं, 87,000 से अधिक के पूर्ण सेट से यादृच्छिक रूप से नमूने लिए गए हैं।

लघु-क्षितिज निर्देश	सफलता
(87,000 और…)	...
नीले त्रिकोण को ऊपरी बाएँ कोने में धकेलें	80.0% तक
लाल तारे और लाल वृत्त को अलग करें	100.0% तक
पीले दिल को थोड़ा सा ठीक करें	80.0% तक
लाल तारे को नीले घन के ऊपर रखें	90.0% तक
अपने हाथ को नीले त्रिकोण पर इंगित करें	100.0% तक
ब्लॉक के समूह को थोड़ा सा धक्का दें	100.0% तक
87k से अधिक औसत, CI 95%	93.5% + - 3.42%

95 अद्वितीय प्राकृतिक भाषा निर्देशों पर एक व्यक्तिगत इंटरएक्टिव भाषा नीति की औसत सफलता पर 87,000% विश्वास अंतराल (CI)।

हम पाते हैं कि दिलचस्प नई क्षमताएँ तब उत्पन्न होती हैं जब रोबोट वास्तविक समय की भाषा का अनुसरण करने में सक्षम होते हैं। हम दिखाते हैं कि उपयोगकर्ता उन लक्ष्यों को हल करने के लिए केवल प्राकृतिक भाषा का उपयोग करके जटिल लंबी-क्षितिज अनुक्रमों के माध्यम से रोबोट चला सकते हैं जिनके लिए सटीक, समन्वित नियंत्रण के कई मिनट की आवश्यकता होती है (उदाहरण के लिए, "हरी आंखों वाले ब्लॉक से एक स्माइली चेहरा बनाएं" या "सभी को रखें" एक ऊर्ध्वाधर रेखा में ब्लॉक")। क्योंकि रोबोट को खुली शब्दावली भाषा का पालन करने के लिए प्रशिक्षित किया गया है, हम देखते हैं कि यह मौखिक सुधारों के एक विविध सेट पर प्रतिक्रिया कर सकता है (उदाहरण के लिए, "लाल तारे को थोड़ा सा दाहिनी ओर झुकाएं") जो अन्यथा आगे की गणना करना मुश्किल हो सकता है।

वास्तविक समय में मानव भाषा के मार्गदर्शन में हासिल किए गए दीर्घकालिक लक्ष्यों के उदाहरण।

अंत में, हम देखते हैं कि वास्तविक समय की भाषा रोबोट डेटा संग्रह के नए तरीकों की अनुमति देती है। उदाहरण के लिए, एक अकेला मानव ऑपरेटर केवल बोली जाने वाली भाषा का उपयोग करके चार रोबोटों को एक साथ नियंत्रित कर सकता है। इसमें प्रत्येक रोबोट के लिए अविभाजित मानव ध्यान की आवश्यकता के बिना भविष्य में रोबोट डेटा के संग्रह को बढ़ाने की क्षमता है।

बोली जाने वाली भाषा के साथ एक ऑपरेटर एक साथ कई रोबोट को नियंत्रित करता है।

निष्कर्ष

जबकि वर्तमान में वस्तुओं के एक निश्चित सेट के साथ एक टेबलटॉप तक सीमित है, इंटरएक्टिव लैंग्वेज प्रारंभिक साक्ष्य दिखाती है कि बड़े पैमाने पर नकल सीखने से वास्तव में वास्तविक समय में इंटरएक्टिव रोबोट का उत्पादन हो सकता है जो फ्रीफॉर्म एंड यूजर कमांड का पालन करते हैं। हम स्रोत खोलते हैं भाषा-तालिकाभौतिक रोबोटों के वास्तविक समय भाषा नियंत्रण में प्रगति को बढ़ावा देने के लिए, अपनी तरह का सबसे बड़ा भाषा अनुकूलित वास्तविक-विश्व रोबोट प्रदर्शन डेटासेट और एक संबद्ध सिम्युलेटेड बेंचमार्क। हमारा मानना है कि इस डेटासेट की उपयोगिता न केवल रोबोट नियंत्रण तक सीमित हो सकती है, बल्कि भाषा- और एक्शन-कंडीशन्ड वीडियो भविष्यवाणी, रोबोट वीडियो-कंडीशंड भाषा मॉडलिंग, या अन्य दिलचस्प सक्रिय प्रश्नों के एक मेजबान के अध्ययन के लिए एक दिलचस्प प्रारंभिक बिंदु प्रदान कर सकती है। व्यापक एमएल संदर्भ। हमारा देखें काग़ज़ और GitHub अधिक जानने के लिए पेज।

आभार

हम उन सभी को धन्यवाद देना चाहते हैं जिन्होंने इस शोध का समर्थन किया। इसमें रोबोट टेलीऑपरेटर शामिल हैं: एलेक्स लुओंग, अरमांडो रेयेस, एलियो प्राडो, एरिक ट्रान, गेविन गोंजालेज, जोडेक्स्टी थेरलॉन्ग, जोएल मैगपेंटे, रोशेल डेला क्रूज़, सैमुअल वान, सारा गुयेन, स्कॉट लेहरर, नोरिन रोसेल्स, ट्रान फाम, काइल गजाधर, रीस मुंगल , और निकुलीन एंड्रयूज; रोबोट हार्डवेयर समर्थन और टेलीऑपरेशन समन्वय: सीन स्नाइडर, स्पेंसर गुडरिच, कैमरन बर्न्स, जॉर्ज एल्डाको, जोनाथन वेला; डेटा संचालन और बुनियादी ढांचा: मुख्तार मोहम्मद, मित्ता कुमार, अर्नब बोस, वेन ग्रामलिच; और कई जिन्होंने डेटासेट की भाषा लेबलिंग प्रदान करने में मदद की। हम उनकी अमूल्य सलाह और समर्थन के लिए पियरे सरमानेट, देबिदत्त द्विवेदी, माइकल रयू, ब्रायन इचर और विन्सेंट वानहोके को भी धन्यवाद देना चाहते हैं।

#मेलकवि_प्रपत्र_1 .मेलकवि_प्रपत्र { }
#mailpoet_form_1 फॉर्म { मार्जिन-बॉटम: 0; }
#mailpoet_form_1 .mailpoet_column_with_background { पैडिंग: 0px; }
#mailpoet_form_1 .wp-block-column:first-child, #mailpoet_form_1 .mailpoet_form_column:first-child { पैडिंग: 0 20px; }
#mailpoet_form_1 .mailpoet_form_column:not(:first-child) { मार्जिन-लेफ्ट: 0; }
#mailpoet_form_1 h2.mailpoet-heading { मार्जिन: 0 0 12px 0; }
#mailpoet_form_1 .mailpoet_paragraph { पंक्ति-ऊंचाई: 20px; मार्जिन-बॉटम: 20 पीएक्स; }
#mailpoet_form_1 .mailpoet_segment_label, #mailpoet_form_1 .mailpoet_text_label, #mailpoet_form_1 .mailpoet_textarea_label, #mailpoet_form_1 .mailpoet_select_label, #mailpoet_form_1 .mailpoet_radio_label, #mailpoet_form_1 .mailpoet_checkbox_label, #mailpoet_form_1 .mailpoet_list_label, #mailpoet_form_1 .mailpoet_date_label { display: block; फ़ॉन्ट-वजन: सामान्य; }
#mailpoet_form_1। }
#mailpoet_form_1 .mailpoet_text, #mailpoet_form_1 .mailpoet_textarea {चौड़ाई: 200px; }
#mailpoet_form_1 .mailpoet_checkbox { }
#mailpoet_form_1 .mailpoet_submit { }
#mailpoet_form_1 .mailpoet_divider { }
#mailpoet_form_1 .mailpoet_message { }
#mailpoet_form_1 .mailpoet_form_loading { चौड़ाई: 30px; पाठ-संरेखण: केंद्र; रेखा-ऊंचाई: सामान्य; }
#mailpoet_form_1 .mailpoet_form_loading > स्पैन { चौड़ाई: 5px; ऊंचाई: 5 पीएक्स; पृष्ठभूमि-रंग: #5b5b5b; }#mailpoet_form_1{border-radius: 3px;background: #27282e;color: #ffffff;text-align: left;}#mailpoet_form_1 form.mailpoet_form {padding: 0px;}#mailpoet_form_1{चौड़ाई: 100%;}#mailpoet_form_1 . mailpoet_message {मार्जिन: 0; पैडिंग: 0 20 पीएक्स;}
#mailpoet_form_1 .mailpoet_validate_success {रंग: #00d084}
#मेलपोएट_फॉर्म_1 इनपुट.पार्स्ली-सफलता {रंग: #00d084}
#mailpoet_form_1 चयन.पार्स्ली-सफलता {रंग: #00d084}
#mailpoet_form_1 textarea.parsley-सफलता {रंग: #00d084}

#mailpoet_form_1 .mailpoet_validate_error {रंग: #cf2e2e}
#mailpoet_form_1 इनपुट.पार्स्ली-त्रुटि {रंग: #cf2e2e}
#mailpoet_form_1 चयन.अजमोद-त्रुटि {रंग: #cf2e2e}
#mailpoet_form_1 textarea.textarea.parsley-त्रुटि {रंग: #cf2e2e}
#mailpoet_form_1 .पार्सले-त्रुटियों-सूची {रंग: #cf2e2e}
#mailpoet_form_1 .पार्स्ले-आवश्यक {रंग: #cf2e2e}
#mailpoet_form_1 .पार्स्ले-कस्टम-त्रुटि-संदेश {रंग: #cf2e2e}
#mailpoet_form_1 .mailpoet_paragraph.last {मार्जिन-बॉटम: 0} @मीडिया (अधिकतम-चौड़ाई: 500px) {#mailpoet_form_1 {बैकग्राउंड: #27282e;}} @मीडिया (न्यूनतम-चौड़ाई: 500px) {#mailpoet_form_1 .last .mailpoet_paragraph: लास्ट-चाइल्ड {मार्जिन-बॉटम: 0}} @मीडिया (अधिकतम-चौड़ाई: 500px) {#mailpoet_form_1 .mailpoet_form_column:last-child .mailpoet_paragraph:last-child {मार्जिन-बॉटम: 0}}

वास्तविक समय में रोबोट्स से बात करना स्रोत से पुनर्प्रकाशित

क्राउडसोर्सिंग सप्ताह

<!–

<!–
->