'एकाधिक स्वयं' वाले एआई एजेंट बदलती दुनिया में तेजी से अनुकूलन करना सीखते हैं

'एकाधिक स्वयं' वाले एआई एजेंट बदलती दुनिया में तेजी से अनुकूलन करना सीखते हैं

'एकाधिक स्वयं' वाले एआई एजेंट बदलती दुनिया में तेजी से अनुकूलन करना सीखते हैं प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

हर दिन हम अलग-अलग ज़रूरतें पूरी कर रहे हैं। मैं भूखा हूं लेकिन थका हुआ हूं; क्या मुझे सोफ़े पर गिर जाना चाहिए या रात का खाना बनाना चाहिए? मैं ख़तरनाक तापमान में गर्म हो रहा हूँ लेकिन अत्यधिक प्यासा भी हूँ; क्या मुझे सूरज की रोशनी में गर्म हो रहे गुनगुने पानी को पी लेना चाहिए, या जब तक मुझमें बर्फ बनाने की मानसिक क्षमता न आ जाए, तब तक अपना सिर फ्रीजर में रख देना चाहिए?

जब दुविधाओं का सामना करना पड़ता है, तो हम अक्सर बिना सोचे-समझे अपनी मूल प्रवृत्ति का पालन करते हैं। लेकिन हुड के तहत, कई तंत्रिका नेटवर्क किसी भी समय "सर्वोत्तम" निर्णय लेने के लिए प्रतिस्पर्धा कर रहे हैं। खाना खाकर सो जाओ. गुनगुने पानी के ऊपर फ्रीजर। देखने में ये भयानक निर्णय हो सकते हैं—लेकिन अगली बार, हम अपनी पिछली गलतियों से सीखेंगे।

लगातार बदलती दुनिया के लिए हमारी अनुकूलन क्षमता एक महाशक्ति है जो वर्तमान में अधिकांश एआई एजेंटों से बची हुई है। यहां तक ​​​​कि सबसे परिष्कृत एआई एजेंट भी विफल हो जाते हैं - या उन्हें कंप्यूटिंग समय की अस्थिर मात्रा की आवश्यकता होती है - क्योंकि वे परस्पर विरोधी लक्ष्यों को पूरा करते हैं।

प्रिंसटन न्यूरोसाइंस इंस्टीट्यूट में डॉ. जोनाथन कोहेन के नेतृत्व वाली टीम के लिए, कारण सरल है: मशीन लर्निंग सिस्टम आम तौर पर एक इकाई के रूप में कार्य करते हैं, जो एक समय में एक लक्ष्य का मूल्यांकन, गणना और निष्पादन करने के लिए मजबूर होते हैं। हालांकि अपनी गलतियों से सीखने में सक्षम, एआई को एक साथ कई विरोधी लक्ष्यों से चुनौती मिलने पर सही संतुलन खोजने के लिए संघर्ष करना पड़ता है।

तो क्यों न AI को अलग कर दिया जाए?

In एक नए अध्ययन में प्रकाशित PNAS, टीम ने संज्ञानात्मक तंत्रिका विज्ञान से एक पृष्ठ लिया और एक मॉड्यूलर एआई एजेंट बनाया।

विचार सरल प्रतीत होता है. एक अखंड एआई के बजाय - एक एकल नेटवर्क जो पूरे "स्वयं" को शामिल करता है - टीम ने एक मॉड्यूलर एजेंट का निर्माण किया, प्रत्येक भाग की अपनी "प्रेरणा" और लक्ष्य हैं लेकिन एक एकल "शरीर" को कमांड करता है। एक लोकतांत्रिक समाज की तरह, एआई प्रणाली सर्वोत्तम प्रतिक्रिया पर निर्णय लेने के लिए अपने भीतर बहस करती है, जहां सबसे बड़ी जीत वाले परिणाम देने की संभावना वाली कार्रवाई उसके अगले कदम का मार्गदर्शन करती है।

कई सिमुलेशन में, मॉड्यूलर एआई ने अपने क्लासिक मोनोलिथिक समकक्ष से बेहतर प्रदर्शन किया। इसकी अनुकूलनशीलता विशेष रूप से तब चमकी जब शोधकर्ताओं ने कृत्रिम रूप से उन लक्ष्यों की संख्या बढ़ा दी जिन्हें इसे एक साथ बनाए रखना था। लेगो-एस्क एआई तेजी से अनुकूलित हुआ, जबकि इसके अखंड समकक्ष को पकड़ने के लिए संघर्ष करना पड़ा।

टीम ने कहा, "एजेंसी के बारे में सबसे बुनियादी सवालों में से एक यह है कि कोई व्यक्ति परस्पर विरोधी जरूरतों का प्रबंधन कैसे करता है।" एआई एजेंट का पुनर्निर्माण करके, अनुसंधान केवल स्मार्ट मशीन लर्निंग एजेंटों में अंतर्दृष्टि प्रदान नहीं करता है। यह "मानव मानस में निहित मनोवैज्ञानिक संघर्षों को समझने का मार्ग भी प्रशस्त करता है।" लिखा था प्रिंसटन विश्वविद्यालय में डॉ. रॉबर्ट बोश्रा, जो इस कार्य में शामिल नहीं थे।

जीवन का वीडियो गेम

जटिल, बदलती दुनिया में बुद्धिमान प्राणी परस्पर विरोधी जरूरतों को संतुलित करना कैसे सीखते हैं?

दार्शनिक प्रश्न ने कई क्षेत्रों - तंत्रिका विज्ञान, मनोविज्ञान, अर्थशास्त्र - को परेशान किया है जो मानव स्वभाव में गहराई से उतरते हैं। हमारे पास अभी तक स्पष्ट उत्तर नहीं हैं. लेकिन वास्तविक दुनिया में प्रवेश करते ही एआई को इसी तरह की चुनौतियों का सामना करना पड़ रहा है, अब इस सदियों पुरानी समस्या से निपटने का समय आ गया है।

नए अध्ययन ने चुनौती को एक सरल आरपीजी (रोल-प्लेइंग गेम) के रूप में लिया। दो पात्र हैं जो एक ग्रिड जैसी दुनिया में रहते हैं, प्रत्येक जीवित रहने के लिए संसाधन खोजने की कोशिश कर रहे हैं।

पहला प्रतियोगी: मोनोलिथिक एजेंट - जिसे "स्वयं" के रूप में भी जाना जाता है - को डीप-क्यू-लर्निंग (डीक्यूएल) का उपयोग करके प्रशिक्षित किया गया है। डीपमाइंड द्वारा लोकप्रिय, एल्गोरिदम अपनी वर्तमान स्थिति के आधार पर अगले इष्टतम चरण का पता लगाने में विशेष रूप से शक्तिशाली है। उदाहरण के लिए, वीडियो गेम की तरह, क्या मुझे बाएँ या दाएँ जाना चाहिए? किस शतरंज या गो मोहरे को और कहाँ ले जाएँ? यहां, एल्गोरिथम एक एकल इनाम संकेत का पालन करते हुए पूरे वातावरण का सर्वेक्षण करता है - यानी, इसका अंतिम लक्ष्य। एक अर्थ में, मोनोलिथिक एजेंट एक एकीकृत मस्तिष्क है जो सभी संसाधनों को एक साथ संसाधित करने के बाद सर्वोत्तम परिणाम को अधिकतम करने का प्रयास करता है।

प्रतिद्वंद्वी: मॉड्यूलर एआई। अर्ध-स्वायत्त अंगों वाले ऑक्टोपस की तरह, एआई एजेंट को उप-एजेंटों में विभाजित किया गया है, प्रत्येक के अपने लक्ष्य और प्रतिक्रिया हैं। इसे निष्पक्ष लड़ाई बनाने के लिए, प्रत्येक मॉड्यूल को DQL के साथ प्रशिक्षित भी किया जाता है। अलग-अलग "दिमाग" अपने परिवेश का निरीक्षण करते हैं और सबसे अच्छा विकल्प चुनना सीखते हैं - लेकिन केवल अपने लक्ष्यों के अनुरूप। फिर पूर्वानुमानित परिणामों को संक्षेप में प्रस्तुत किया जाता है। फिर संभावित इष्टतम परिणाम वाला समाधान चुना जाता है, जिससे एआई एजेंट को उसकी अगली पसंद पर ले जाया जाता है।

और खेल का मैदान?

यह गेम सर्वाइवल गेम का अत्यंत सरलीकृत संस्करण है। प्रत्येक एआई एजेंट एक द्वि-आयामी ग्रिड के चारों ओर घूमता है जिसमें कुछ क्षेत्रों में विभिन्न प्रकार के संसाधन छिपे होते हैं। लक्ष्य एजेंट के चार आँकड़ों को उनके निर्धारित स्तर पर रखना है, जिनमें से प्रत्येक समय के साथ धीरे-धीरे कम होता जा रहा है। जब कई आँकड़े गिरते हैं, तो यह एआई पर निर्भर करता है कि वह किसे प्राथमिकता दे।

वीडियो गेमर्स के लिए, परीक्षण को एक नए गेम मैप में फेंकने और बढ़ावा देने के लिए संसाधनों को खोजने की कोशिश के रूप में सोचें, उदाहरण के लिए, स्वास्थ्य, जादू, सहनशक्ति और आक्रमण शक्ति। हमारे रोजमर्रा के जीवन के लिए, यह भूख, तापमान, नींद और अन्य बुनियादी शारीरिक आवश्यकताओं को संतुलित करता है।

"उदाहरण के लिए, यदि एजेंट की 'भूख' कम है, तो वह उस संसाधन के स्थान पर जाकर 'खाद्य' संसाधन एकत्र कर सकता है," टीम ने समझाया।

पेड़ों के लिए जंगल

पहला परीक्षण अपेक्षाकृत सरल वातावरण में शुरू हुआ। प्रत्येक संसाधन लक्ष्य का स्थान गेमिंग क्षेत्र के कोने पर तय किया गया था। मोनोलिथिक एजेंट ने 30,000 प्रशिक्षण चरणों के बाद आसानी से अपने चार आंकड़े बनाए रखे, हालांकि लक्षित लक्ष्यों तक पहुंचने तक यह ओवरशूटिंग और अंडरशूटिंग की अवधि से गुजरा। इसके विपरीत, मॉड्यूलर एजेंट बहुत तेजी से सीखता है। 5,000 सीखने के चरणों में, एजेंट ने पहले ही "दुनिया की स्थिति" की समझ हासिल कर ली थी।

लेखकों ने कहा, मॉड्यूलर एआई की शक्ति का एक हिस्सा मुक्त अन्वेषण की आंतरिक भावना से आया है। मॉड्यूलर सिस्टम के लिए पिछले तरीकों के विपरीत, जो अंतिम लक्ष्य की ओर बढ़ने के लिए विभाजित और जीतते हैं, यहां एआई एक अधिक समग्र सामाजिक संबंध का प्रतिनिधित्व करता है - जिसमें कुछ मॉड्यूल लाभ प्राप्त करते हैं और कुछ आंतरिक प्रतिस्पर्धा की निरंतर स्थिति के माध्यम से हार जाते हैं।

क्योंकि एआई एजेंट का "निकाय" केवल जीतने वाले मॉड्यूल द्वारा निर्देशित होता है, हारने वालों को एक ऐसे निर्णय के साथ जाना पड़ता है जिससे वे सहमत नहीं थे और उन्हें एक नई वास्तविकता में मजबूर होना पड़ता है। फिर उन्हें अगले चरण के लिए सर्वोत्तम समाधान को तेजी से अपनाना और पुनर्गणना करना होगा। दूसरे शब्दों में, मॉड्यूल अक्सर खुद को अपने आराम क्षेत्र से बाहर पाते हैं। यह कठिन प्यार है, लेकिन अप्रत्याशित परिणाम उन्हें नए समाधानों पर विचार करने के लिए मजबूर करते हैं - कभी-कभी बेहतर परिणाम मिलते हैं जिनके बारे में उन्होंने अकेले समस्या से निपटने पर विचार नहीं किया होता।

कुल मिलाकर, एआई कार्यों को और बेहतर बनाने के लिए मॉड्यूलर सिस्टम "अन्वेषण के साथ एक अच्छा चक्र" बनाता है, अध्ययन के लेखक जैक डुलबर्ग ने कहा।

यह अनुकूलनशीलता तब और चमक गई जब टीम ने बदलते परिवेश में दोनों एआई एजेंटों को चुनौती दी। एक परीक्षण में, संसाधन लक्ष्य स्थिति को छिटपुट समय के पैमाने पर एक यादृच्छिक ग्रिड स्थान पर ले जाया गया। मॉड्यूलर एआई ने परिवर्तनों को तुरंत समझ लिया और उनके अनुरूप ढल गया, जबकि मोनोलिथिक एजेंट ने बहुत खराब प्रदर्शन किया।

एक अन्य परीक्षण में टीम ने डायल चालू कर दिया, जिससे एआई एजेंटों को मूल चार के बजाय आठ कारकों को एक साथ बनाए रखने की आवश्यकता हुई। परीक्षण ने इस समस्या का समाधान किया कि जैसे-जैसे चरों की संख्या बढ़ती है, समय और ऊर्जा की खपत के संदर्भ में गणनाएँ तेजी से असंभव हो जाती हैं - जिसे "आयामीता का अभिशाप" कहा जाता है।

मॉड्यूलर एजेंट ने अपने लक्ष्यों को बनाए रखने के लिए संसाधनों की तलाश करने के लिए तेजी से अनुकूलन किया। इसके विपरीत, मोनोलिथिक एजेंट ने फिर से संघर्ष किया, और अपने प्रत्येक आँकड़े के लिए वांछित स्तर पर लौटने में अधिक समय लिया।

एक बनाम अनेक

मॉड्यूलर दृष्टिकोण एआई के विकास के लिए तंत्रिका विज्ञान में दोहन का एक और उदाहरण है - जबकि हमारे नोगिन्स कैसे काम करते हैं, इसकी जानकारी प्रदान करते हैं।

पिछले काम के समान, मॉड्यूलर मॉड्यूल दिखाते हैं कि एक एआई एजेंट के लिए समानांतर में अलग और आसान उप-समस्याओं को सीखना संभव है जो डेटा प्रोसेसिंग के संदर्भ में अपेक्षाकृत विकेंद्रीकृत है। लेखकों ने कहा, पदानुक्रमित नियंत्रण प्रणाली के साथ एक मॉडल जोड़ने से एआई को बढ़ावा मिल सकता है, क्योंकि दोनों संरचनाएं प्राकृतिक दुनिया में मौजूद हैं।

अभी के लिए, प्रत्येक मॉड्यूल को अपने स्वयं के लाभ के लिए प्रोग्राम किया गया है - स्वयं का गुणक। लेकिन जीवन में हमारे लक्ष्य अक्सर आपस में जुड़े होते हैं; उदाहरण के लिए, प्यास बुझाना और गर्मी से जूझना परस्पर अनन्य नहीं हैं। टीम भविष्य के परीक्षणों में इन क्रॉसओवरों को एकीकृत करने और यह जानने की आवश्यकता पर प्रकाश डालती है कि क्या वे विरासत में मिले हैं या सीखे गए हैं।

डुलबर्ग को, अज्ञात उत्साह का हिस्सा है। “मॉड्यूल कैसे विकसित होते हैं? विकासात्मक वातावरण की कौन-सी विशेषताएँ विभिन्न समाधानों पर दबाव डालती हैं?" उसने पूछा। "और क्या मॉड्यूलरिटी के लाभ बताते हैं कि आंतरिक मनोवैज्ञानिक संघर्ष मानव स्थिति के लिए इतना केंद्रीय क्यों लगता है?"

छवि क्रेडिट: एनेस्टीव/पिक्साबे

समय टिकट:

से अधिक विलक्षणता हब