एआई को मानवीय मूल्यों के साथ जोड़ने का क्या मतलब है? प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

एआई को मानवीय मूल्यों के साथ संरेखित करने का क्या मतलब है?

परिचय

कई साल पहले, मैंने एक पुरानी सिम्बोलिक्स लिस्प मशीन पर प्रोग्राम करना सीखा। ऑपरेटिंग सिस्टम में एक बिल्ट-इन कमांड था जिसे "DWIM" लिखा गया था, जो "डू व्हाट आई मीन" के लिए छोटा था। अगर मैंने एक कमांड टाइप किया और एक त्रुटि मिली, तो मैं "DWIM" टाइप कर सकता था और मशीन यह पता लगाने की कोशिश करेगी कि मुझे क्या करना है। समय का एक आश्चर्यजनक अंश, यह वास्तव में काम करता था।

DWIM कमांड "AI संरेखण" की अधिक आधुनिक समस्या का एक सूक्ष्म जगत था: हम मनुष्य मशीनों को अस्पष्ट या गलत निर्देश देने के लिए प्रवृत्त होते हैं, और हम चाहते हैं कि वे वही करें जो हमारा मतलब है, जरूरी नहीं कि हम क्या कहते हैं।

अप्रत्याशित और अक्सर मनोरंजक परिणामों के साथ, कंप्यूटर अक्सर गलत अर्थ निकालते हैं कि हम उन्हें क्या करना चाहते हैं। एक मशीन लर्निंग शोधकर्ता, उदाहरण के लिए, एक छवि वर्गीकरण कार्यक्रम के संदिग्ध रूप से अच्छे परिणामों की जांच करते समय, की खोज कि यह छवि पर नहीं बल्कि छवि फ़ाइल तक पहुँचने में लगने वाले समय पर आधारित था - विभिन्न वर्गों की छवियों को डेटाबेस में थोड़ा अलग पहुँच समय के साथ संग्रहीत किया गया था। दूसरा उद्यमी प्रोग्रामर चाहता था कि उसका रूंबा वैक्यूम क्लीनर फर्नीचर से टकराना बंद कर दे, इसलिए उसने रूंबा को एक न्यूरल नेटवर्क से जोड़ा जो गति को पुरस्कृत करता था लेकिन रूम्बा को तब दंडित करता था जब सामने वाला बम्पर किसी चीज से टकरा जाता था। मशीन ने इन उद्देश्यों को हमेशा पीछे की ओर चलाकर समायोजित किया।

लेकिन एआई संरेखण शोधकर्ताओं का समुदाय इन उपाख्यानों के लिए एक गहरा पक्ष देखता है। वास्तव में, उनका मानना ​​​​है कि मशीनों की अक्षमता यह समझने में असमर्थ है कि हम वास्तव में उन्हें क्या करना चाहते हैं, यह एक अस्तित्वगत जोखिम है। उनका मानना ​​है कि इस समस्या को हल करने के लिए, हमें एआई सिस्टम को मानवीय प्राथमिकताओं, लक्ष्यों और मूल्यों के साथ संरेखित करने के तरीके खोजने होंगे।

2014 की बेस्टसेलिंग किताब के साथ इस विचार को प्रमुखता मिली superintelligence दार्शनिक निक बोस्सोम द्वारा, जिसने तर्क दिया कि कंप्यूटर की बढ़ती बुद्धि मानवता के भविष्य के लिए सीधा खतरा पैदा कर सकती है। Bostrom ने कभी भी सटीक रूप से बुद्धिमत्ता को परिभाषित नहीं किया, लेकिन AI संरेखण समुदाय के अधिकांश अन्य लोगों की तरह, उन्होंने बाद में एक परिभाषा अपनाई व्यक्त एआई शोधकर्ता द्वारा स्टुअर्ट रसेल जैसा कि: "एक इकाई को बुद्धिमान माना जाता है, मोटे तौर पर बोल रहा है, अगर वह उन कार्यों को चुनता है जो उसके उद्देश्यों को प्राप्त करने के लिए अपेक्षित हैं, जिसे देखते हुए यह माना जाता है।"

Bostrom ने दो शोधों पर AI के जोखिमों के बारे में अपना दृष्टिकोण आधारित किया। पहला ऑर्थोगोनलिटी थीसिस है, जो बोस्सोम के शब्दों में बताता है, "इंटेलिजेंस और अंतिम लक्ष्य ऑर्थोगोनल अक्ष हैं जिनके साथ संभावित एजेंट स्वतंत्र रूप से भिन्न हो सकते हैं। दूसरे शब्दों में, कमोबेश किसी भी स्तर की बुद्धिमत्ता को सैद्धांतिक रूप से कमोबेश किसी अंतिम लक्ष्य के साथ जोड़ा जा सकता है। दूसरा वाद्य अभिसरण थीसिस है, जिसका तात्पर्य है कि एक बुद्धिमान एजेंट उन तरीकों से कार्य करेगा जो अपने स्वयं के अस्तित्व, आत्म-सुधार और संसाधनों के अधिग्रहण को बढ़ावा देते हैं, जब तक कि ये एजेंट को अपने अंतिम लक्ष्य को प्राप्त करने की अधिक संभावना बनाते हैं। फिर उन्होंने एक अंतिम धारणा बनाई: शोधकर्ता जल्द ही एक एआई अधीक्षण का निर्माण करेंगे - एक जो "रुचि के लगभग सभी डोमेन में मनुष्यों के संज्ञानात्मक प्रदर्शन से बहुत अधिक है।"

AI संरेखण समुदाय में Bostrom और अन्य लोगों के लिए, यह संभावना मानवता के लिए कयामत ढाती है जब तक कि हम अपनी इच्छाओं और मूल्यों के साथ अधीक्षण AI को संरेखित करने में सफल नहीं होते। Bostrom इस खतरे को अब एक प्रसिद्ध विचार प्रयोग के साथ दिखाता है: कल्पना कीजिए कि एक अधीक्षण एआई को पेपर क्लिप के उत्पादन को अधिकतम करने का लक्ष्य दिया जाए। Bostrom के शोध के अनुसार, इस उद्देश्य को प्राप्त करने की चाह में, AI सिस्टम अपनी स्वयं की शक्ति और नियंत्रण बढ़ाने के लिए अपनी अलौकिक प्रतिभा और रचनात्मकता का उपयोग करेगा, अंततः अधिक पेपर क्लिप बनाने के लिए दुनिया के सभी संसाधनों को प्राप्त करेगा। मानवता समाप्त हो जाएगी, लेकिन पेपर क्लिप का उत्पादन वास्तव में अधिकतम होगा।

यदि आप मानते हैं कि बुद्धि को लक्ष्यों को प्राप्त करने की क्षमता से परिभाषित किया जाता है, कि किसी भी लक्ष्य को मनुष्यों द्वारा एक अधीक्षण एआई एजेंट में "डाला" जा सकता है, और ऐसा एजेंट उस लक्ष्य को प्राप्त करने के लिए कुछ भी करने के लिए अपने अधीक्षण का उपयोग करेगा, तो आप उसी पर पहुंचें निष्कर्ष जो रसेल ने किया था: "तबाही को सुनिश्चित करने के लिए केवल एक अत्यधिक सक्षम मशीन की आवश्यकता होती है, जो मनुष्यों के साथ संयुक्त होती है, जिनके पास मानव वरीयताओं को पूरी तरह से और सही ढंग से निर्दिष्ट करने की अपूर्ण क्षमता होती है।"

यह विज्ञान कथा में एक परिचित ट्रॉप है - मानवता को आउट-ऑफ-कंट्रोल मशीनों द्वारा धमकी दी जा रही है जिन्होंने मानवीय इच्छाओं की गलत व्याख्या की है। अब एआई अनुसंधान समुदाय का एक गैर-असंगत खंड वास्तविक जीवन में इस तरह के परिदृश्य के बारे में गहराई से चिंतित है। दर्जनों संस्थान पहले ही समस्या पर करोड़ों डॉलर खर्च कर चुके हैं, और दुनिया भर के विश्वविद्यालयों और Google, मेटा और OpenAI जैसी बड़ी AI कंपनियों में संरेखण पर शोध के प्रयास चल रहे हैं।

गैर-अधीक्षक एआई द्वारा उत्पन्न अधिक तत्काल जोखिमों के बारे में क्या है, जैसे कि नौकरी छूटना, पूर्वाग्रह, गोपनीयता का उल्लंघन और गलत सूचना फैलना? यह पता चला है कि मुख्य रूप से ऐसे अल्पकालिक जोखिमों से संबंधित समुदायों और लंबी अवधि के संरेखण जोखिमों के बारे में अधिक चिंता करने वाले समुदायों के बीच बहुत कम ओवरलैप है। वास्तव में, एआई संस्कृति युद्ध के बारे में कुछ है, जिसमें एक पक्ष इन मौजूदा जोखिमों के बारे में अधिक चिंतित है, जो कि वे अवास्तविक तकनीकी-भविष्यवाद के रूप में देखते हैं, और दूसरी तरफ वर्तमान समस्याओं को अधीक्षण एआई द्वारा संभावित विनाशकारी जोखिमों की तुलना में कम जरूरी मानते हैं।

इन विशिष्ट समुदायों के बाहर कई लोगों के लिए, एआई संरेखण एक धर्म की तरह दिखता है - एक श्रद्धेय नेताओं के साथ, निर्विवाद सिद्धांत और संभावित सर्व-शक्तिशाली दुश्मन से लड़ने वाले समर्पित शिष्य (असंरेखित अधीक्षण एआई)। दरअसल, कंप्यूटर वैज्ञानिक और ब्लॉगर स्कॉट आरोनसन ने हाल ही में विख्यात एआई संरेखण विश्वास की अब "रूढ़िवादी" और "सुधार" शाखाएं हैं। पूर्व, वह लिखता है, लगभग पूरी तरह से "गलत एआई के बारे में चिंता करता है जो मनुष्यों को धोखा देता है जबकि यह उन्हें नष्ट करने के लिए काम करता है।" इसके विपरीत, वह लिखते हैं, "हम एआई-जोखिम में सुधार करते हैं, लेकिन हम कम से कम उन शक्तिशाली एआई के बारे में चिंता करते हैं जो बुरे मनुष्यों द्वारा हथियार बनाए जाते हैं, जिनसे हम बहुत पहले अस्तित्वगत जोखिम पैदा करने की उम्मीद करते हैं।"

कई शोधकर्ता संरेखण-आधारित परियोजनाओं में सक्रिय रूप से लगे हुए हैं, से लेकर सिद्धांत प्रदान करने का प्रयास करता है मशीनों के लिए नैतिक दर्शन की, करने के लिए बड़े भाषा मॉडल का प्रशिक्षण क्राउडसोर्स्ड नैतिक निर्णयों पर। इनमें से कोई भी प्रयास मशीनों को वास्तविक दुनिया की स्थितियों के बारे में तर्क करने में विशेष रूप से उपयोगी नहीं रहा है। कई लेखकों ने कई बाधाओं पर ध्यान दिया है जो मशीनों को मानवीय प्राथमिकताओं और मूल्यों को सीखने से रोकती हैं: लोग अक्सर तर्कहीन होते हैं और उन तरीकों से व्यवहार करते हैं जो उनके मूल्यों के विपरीत होते हैं, और मूल्य व्यक्तिगत जीवनकाल और पीढ़ियों में बदल सकते हैं। आखिरकार, यह स्पष्ट नहीं है कि हमें किसके मूल्यों को सीखने की कोशिश करनी चाहिए।

संरेखण समुदाय में कई लोग सोचते हैं कि आगे बढ़ने का सबसे आशाजनक मार्ग एक मशीन सीखने की तकनीक है जिसे कहा जाता है उलटा सुदृढीकरण सीखना (आईआरएल)। IRL के साथ, मशीन को अधिकतम करने का उद्देश्य नहीं दिया जाता है; इस तरह के "सम्मिलित" लक्ष्य, संरेखण समर्थकों का मानना ​​​​है, अनजाने में पेपर क्लिप मैक्सिमाइज़र परिदृश्यों को जन्म दे सकता है। इसके बजाय, मशीन का कार्य मनुष्यों के व्यवहार का निरीक्षण करना और उनकी प्राथमिकताओं, लक्ष्यों और मूल्यों का अनुमान लगाना है। हाल के वर्षों में, शोधकर्ताओं ने IRL का उपयोग किया है वीडियो गेम खेलने के लिए मशीनों को प्रशिक्षित करें मनुष्यों को देखकर और रोबोटों को पढ़ाने के लिए बैकफ्लिप कैसे करें उन्हें मनुष्यों से वृद्धिशील प्रतिक्रिया देकर (लोगों ने रोबोट के विभिन्न प्रयासों की छोटी क्लिप देखी और सबसे अच्छी दिखने वाली क्लिप को चुना)।

यह स्पष्ट नहीं है कि समान तरीके मशीनों को मानव मूल्यों के अधिक सूक्ष्म और अमूर्त विचारों को सिखा सकते हैं या नहीं। लेखक ब्रायन क्रिश्चियन, ए के लेखक एआई संरेखण के बारे में लोकप्रिय विज्ञान पुस्तक, आशावादी है: "यह 'बैकफ्लिप' की अस्पष्ट अवधारणा को और भी अधिक अस्पष्ट और अप्रभावी अवधारणा के साथ बदलने की कल्पना करने जैसा नहीं है, जैसे 'सहायकता।' या 'दयालुता'। या 'अच्छा' व्यवहार।

हालाँकि, मुझे लगता है कि यह चुनौती को कम आंकता है। दयालुता और अच्छे व्यवहार जैसी नैतिक धारणाएँ IRL द्वारा अब तक हासिल की गई किसी भी चीज़ की तुलना में बहुत अधिक जटिल और संदर्भ-निर्भर हैं। "सत्यता" की धारणा पर विचार करें - एक मूल्य जो हम निश्चित रूप से अपने एआई सिस्टम में चाहते हैं। वास्तव में, आज के बड़े भाषा मॉडल के साथ एक बड़ी समस्या यह है कि वे सत्य और असत्य के बीच अंतर नहीं कर पाते हैं। उसी समय, हम कभी-कभी चाहते हैं कि हमारे एआई सहायक, इंसानों की तरह, अपनी सत्यता को संयमित करें: गोपनीयता की रक्षा के लिए, दूसरों का अपमान करने से बचने के लिए, या किसी को सुरक्षित रखने के लिए, असंख्य अन्य कठिन-से-स्पष्ट स्थितियों के बीच।

अन्य नैतिक अवधारणाएँ उतनी ही जटिल हैं। यह स्पष्ट होना चाहिए कि मशीनों को नैतिक अवधारणाओं को पढ़ाने की दिशा में एक आवश्यक पहला कदम है कि मशीनों को मानवीय अवधारणाओं को पहले स्थान पर समझने में सक्षम बनाया जाए, जिसके बारे में मैंने तर्क दिया है कि यह अभी भी एआई का है सबसे महत्वपूर्ण खुली समस्या.

इसके अलावा, मैं एआई संरेखण के विज्ञान अंतर्निहित धारणाओं के साथ एक और भी मौलिक समस्या देखता हूं। अधिकांश चर्चाएँ एक सुपरिन्टिजेंट एआई को एक मशीन के रूप में कल्पना करती हैं, जो सभी संज्ञानात्मक कार्यों में मनुष्यों को पार करते हुए, अभी भी मानवीय सामान्य ज्ञान की कमी है और प्रकृति में अजीब तरह से यांत्रिक बनी हुई है। और महत्वपूर्ण रूप से, Bostrom की ओर्थोगोनैलिटी थीसिस को ध्यान में रखते हुए, मशीन ने अपने स्वयं के लक्ष्यों या मूल्यों के बिना अधीक्षण प्राप्त किया है, इसके बजाय मनुष्यों द्वारा डाले जाने वाले लक्ष्यों की प्रतीक्षा कर रहा है।

फिर भी क्या बुद्धि इस तरह काम कर सकती है? मनोविज्ञान या तंत्रिका विज्ञान के वर्तमान विज्ञान में कुछ भी इस संभावना का समर्थन नहीं करता है। मनुष्यों में, कम से कम, बुद्धि हमारे लक्ष्यों और मूल्यों के साथ-साथ हमारे स्वयं की भावना और हमारे विशेष सामाजिक और सांस्कृतिक वातावरण से गहराई से जुड़ी हुई है। यह अंतर्ज्ञान कि एक प्रकार की शुद्ध बुद्धि को इन अन्य कारकों से अलग किया जा सकता है कई विफल भविष्यवाणियां एआई के इतिहास में। हम जो जानते हैं, उससे यह अधिक संभावना प्रतीत होती है कि आम तौर पर बुद्धिमान एआई प्रणाली के लक्ष्यों को आसानी से सम्मिलित नहीं किया जा सकता है, लेकिन हमारी तरह, अपने स्वयं के सामाजिक और सांस्कृतिक पालन-पोषण के परिणामस्वरूप विकसित करना होगा।

अपनी पुस्तक में मानव संगत, रसेल संरेखण समस्या पर अनुसंधान की तात्कालिकता के लिए तर्क देते हैं: "मानवता के लिए संभावित गंभीर समस्या के बारे में चिंता करने का सही समय न केवल इस बात पर निर्भर करता है कि समस्या कब होगी बल्कि यह भी कि समाधान तैयार करने और लागू करने में कितना समय लगेगा। ” लेकिन इस बात की बेहतर समझ के बिना कि बुद्धिमत्ता क्या है और यह हमारे जीवन के अन्य पहलुओं से कितनी अलग है, हम समस्या को परिभाषित भी नहीं कर सकते, समाधान तो दूर की बात है। संरेखण समस्या को ठीक से परिभाषित करना और हल करना आसान नहीं होगा; इसके लिए हमें बुद्धि के व्यापक, वैज्ञानिक रूप से आधारित सिद्धांत विकसित करने की आवश्यकता होगी।

समय टिकट:

से अधिक क्वांटमगाज़ी