यह ब्रेन एक्टिविटी डिकोडर केवल स्कैन का उपयोग करके विचारों को पाठ में अनुवादित करता है

यह ब्रेन एक्टिविटी डिकोडर केवल स्कैन का उपयोग करके विचारों को पाठ में अनुवादित करता है

भाषा और वाणी वे माध्यम हैं जिनसे हम अपने आंतरिक विचारों को व्यक्त करते हैं। लेकिन न्यूरो वैज्ञानिकों ने कम से कम प्रयोगशाला में श्रव्य भाषण की आवश्यकता को नजरअंदाज कर दिया। इसके बजाय, उन्होंने सीधे उस जैविक मशीन का उपयोग किया जो भाषा और विचार उत्पन्न करती है: मस्तिष्क।

मस्तिष्क स्कैन और मशीन लर्निंग की भारी खुराक का उपयोग करते हुए, ऑस्टिन में टेक्सास विश्वविद्यालय की एक टीम ने एक "भाषा डिकोडर" विकसित किया है जो अकेले अपने मस्तिष्क सक्रियण पैटर्न के आधार पर एक व्यक्ति जो सुनता है उसका सार पकड़ लेता है। एक तरकीब से दूर, डिकोडर काल्पनिक भाषण का अनुवाद भी कर सकता है, और तंत्रिका गतिविधि का उपयोग करके मूक फिल्मों के लिए वर्णनात्मक उपशीर्षक भी उत्पन्न कर सकता है।

यहाँ किकर है: विधि को सर्जरी की आवश्यकता नहीं है। प्रत्यारोपित इलेक्ट्रोड पर भरोसा करने के बजाय, जो सीधे न्यूरॉन्स से विद्युत विस्फोटों को सुनते हैं, न्यूरोटेक्नोलॉजी भाषा के अनुरूप मस्तिष्क मानचित्र उत्पन्न करने के लिए कार्यात्मक चुंबकीय अनुनाद इमेजिंग (एफएमआरआई) का उपयोग करती है, जो पूरी तरह से गैर-आक्रामक प्रक्रिया है।

स्पष्ट होने के लिए, प्रौद्योगिकी पढ़ने में मन लगाने वाली नहीं है। प्रत्येक मामले में, डिकोडर ऐसे पैराफ़्रेज़ उत्पन्न करता है जो किसी वाक्य या पैराग्राफ के सामान्य विचार को पकड़ते हैं। यह हर एक शब्द को दोहराता नहीं है. फिर भी यह डिकोडर की शक्ति भी है।

"हमें लगता है कि डिकोडर भाषाओं से कहीं अधिक गहरी चीज़ का प्रतिनिधित्व करता है," मुख्य अध्ययन लेखक डॉ. अलेक्जेंडर हुथ ने एक प्रेस वार्ता में कहा। "हम समग्र विचार को पुनर्प्राप्त कर सकते हैं... और देख सकते हैं कि विचार कैसे विकसित होता है, भले ही सटीक शब्द खो जाएं।"

स्टडी, इस सप्ताह में प्रकाशित नेचर न्यूरोसाइंस, गैर-आक्रामक पर एक शक्तिशाली पहला धक्का दर्शाता है ब्रेन-मशीन इंटरफेस भाषा को डिकोड करने के लिए - एक अत्यंत कठिन समस्या। आगे के विकास के साथ, प्रौद्योगिकी उन लोगों की मदद कर सकती है जिन्होंने बोलने की क्षमता खो दी है ताकि वे बाहरी दुनिया के साथ संवाद करने की क्षमता वापस पा सकें।

यह काम यह सीखने के लिए नए रास्ते भी खोलता है कि भाषा मस्तिष्क में कैसे एन्कोड की जाती है, और एआई वैज्ञानिकों के लिए मशीन लर्निंग मॉडल के "ब्लैक बॉक्स" में खुदाई करने के लिए जो भाषण और भाषा को संसाधित करते हैं।

हुथ ने कहा, "इसमें काफी समय लग गया... हम इस बात से हैरान थे कि इसने उतना अच्छा काम किया जितना यह करता है।"

डिकोडिंग भाषा

मस्तिष्क की गतिविधि को वाणी में अनुवाद करना कोई नई बात नहीं है। एक पिछला अध्ययन प्रयुक्त इलेक्ट्रोड सीधे पक्षाघात से पीड़ित रोगियों के मस्तिष्क में रखे जाते हैं। न्यूरॉन्स की विद्युतीय बकबक को सुनकर, टीम रोगी के पूरे शब्दों को फिर से बनाने में सक्षम थी।

यदि साहस हो तो हुथ ने एक विकल्प अपनाने का निर्णय लिया। न्यूरोसर्जरी पर भरोसा करने के बजाय, उन्होंने एक गैर-आक्रामक दृष्टिकोण चुना: एफएमआरआई।

हुथ ने कहा, "सामान्य तौर पर न्यूरो वैज्ञानिकों के बीच यह उम्मीद काफी कम है कि आप एफएमआरआई के साथ इस तरह का काम कर सकते हैं।"

बहुत सारे कारण हैं. सीधे तंत्रिका गतिविधि में टैप करने वाले प्रत्यारोपण के विपरीत, एफएमआरआई मापता है कि रक्त में ऑक्सीजन का स्तर कैसे बदलता है। इसे BOLD सिग्नल कहा जाता है. क्योंकि अधिक सक्रिय मस्तिष्क क्षेत्रों को अधिक ऑक्सीजन की आवश्यकता होती है, बोल्ड प्रतिक्रियाएं तंत्रिका गतिविधि के लिए एक विश्वसनीय प्रॉक्सी के रूप में कार्य करती हैं। लेकिन यह समस्याओं के साथ आता है। विद्युत विस्फोटों को मापने की तुलना में सिग्नल सुस्त हैं, और सिग्नल शोर वाले हो सकते हैं।

फिर भी एफएमआरआई में मस्तिष्क प्रत्यारोपण की तुलना में एक बड़ा लाभ है: यह उच्च रिज़ॉल्यूशन पर पूरे मस्तिष्क की निगरानी कर सकता है। एक क्षेत्र में एक नगेट से डेटा इकट्ठा करने की तुलना में, यह भाषा सहित उच्च-स्तरीय संज्ञानात्मक कार्यों का एक विहंगम दृश्य प्रदान करता है।

डिकोडिंग भाषा के साथ, अधिकांश पिछले अध्ययनों ने मोटर कॉर्टेक्स में टैप किया, एक ऐसा क्षेत्र जो नियंत्रित करता है कि भाषण उत्पन्न करने के लिए मुंह और स्वरयंत्र कैसे चलते हैं, या अभिव्यक्ति के लिए भाषा प्रसंस्करण में अधिक "सतह स्तर"। हुथ की टीम ने एक अमूर्त स्तर पर ऊपर जाने का फैसला किया: विचारों और विचारों के दायरे में।

अज्ञात में

टीम को एहसास हुआ कि उन्हें शुरुआत से ही दो चीज़ों की ज़रूरत थी। एक, डिकोडर को प्रशिक्षित करने के लिए उपयोग किए जाने वाले उच्च गुणवत्ता वाले मस्तिष्क स्कैन का एक डेटासेट। दो, डेटा को संसाधित करने के लिए एक मशीन लर्निंग ढांचा।

ब्रेन मैप डेटाबेस तैयार करने के लिए, सात स्वयंसेवकों के दिमाग को बार-बार स्कैन किया गया क्योंकि वे एमआरआई मशीन के अंदर अपनी तंत्रिका गतिविधि को मापते हुए पॉडकास्ट कहानियां सुनते थे। एक विशाल, शोर करने वाले चुंबक के अंदर रखना किसी के लिए भी मज़ेदार नहीं है, और टीम ने स्वयंसेवकों को दिलचस्पी और सतर्क रखने का ध्यान रखा, क्योंकि डिकोडिंग में ध्यान कारक होते हैं।

प्रत्येक व्यक्ति के लिए, आगामी विशाल डेटासेट को मशीन लर्निंग द्वारा संचालित एक ढांचे में फीड किया गया था। प्राकृतिक भाषा को संसाधित करने में मदद करने वाले मशीन लर्निंग मॉडल में हालिया विस्फोट के लिए धन्यवाद, टीम उन संसाधनों का उपयोग करने और आसानी से डिकोडर बनाने में सक्षम थी।

इसमें कई घटक हैं. पहला मूल जीपीटी का उपयोग करने वाला एक एन्कोडिंग मॉडल है, जो बेहद लोकप्रिय चैटजीपीटी का पूर्ववर्ती है। मॉडल प्रत्येक शब्द लेता है और भविष्यवाणी करता है कि मस्तिष्क कैसे प्रतिक्रिया देगा। यहां, टीम ने Reddit टिप्पणियों और पॉडकास्ट से कुल 200 मिलियन से अधिक शब्दों का उपयोग करके GPT को बेहतर बनाया।

यह दूसरा भाग मशीन लर्निंग में बायेसियन डिकोडिंग नामक एक लोकप्रिय तकनीक का उपयोग करता है। एल्गोरिदम पिछले अनुक्रम के आधार पर अगले शब्द का अनुमान लगाता है और मस्तिष्क की वास्तविक प्रतिक्रिया की जांच करने के लिए अनुमानित शब्द का उपयोग करता है।

उदाहरण के लिए, एक पॉडकास्ट एपिसोड में कहानी के रूप में "मेरे पिताजी को इसकी आवश्यकता नहीं है..." थी। जब संकेत के रूप में डिकोडर में डाला गया, तो यह संभावित प्रतिक्रियाओं के साथ आया: "बहुत," "सही," "से," और इसी तरह। प्रत्येक शब्द के साथ अनुमानित मस्तिष्क गतिविधि की वास्तविक शब्द से उत्पन्न मस्तिष्क गतिविधि की तुलना करने से डिकोडर को प्रत्येक व्यक्ति के मस्तिष्क गतिविधि पैटर्न को समझने और गलतियों को ठीक करने में मदद मिली।

सर्वोत्तम पूर्वानुमानित शब्दों के साथ प्रक्रिया को दोहराने के बाद, प्रोग्राम का डिकोडिंग पहलू

अंततः प्रत्येक व्यक्ति की भाषा को संसाधित करने के तरीके के लिए उसका अद्वितीय "तंत्रिका फ़िंगरप्रिंट" सीखा।

एक न्यूरो अनुवादक

अवधारणा के प्रमाण के रूप में, टीम ने डिकोड की गई प्रतिक्रियाओं को वास्तविक कहानी पाठ के सामने रखा।

यह आश्चर्यजनक रूप से करीब आ गया, लेकिन केवल सामान्य सार के लिए। उदाहरण के लिए, एक कहानी पंक्ति, "हम अपने जीवन के बारे में कहानियों का आदान-प्रदान करना शुरू करते हैं, हम दोनों उत्तर की ओर से हैं," को इस प्रकार डिकोड किया गया था कि "हमने उस क्षेत्र में अपने अनुभवों के बारे में बात करना शुरू किया जहां उनका जन्म हुआ था, मैं उत्तर से था।"

हुथ ने समझाया, यह व्याख्या अपेक्षित है। क्योंकि एफएमआरआई काफी शोर और सुस्त है, इसलिए प्रत्येक शब्द को पकड़ना और डिकोड करना लगभग असंभव है। डिकोडर को शब्दों का एक मिश्रण दिया जाता है और उसे वाक्यांशों के घुमाव जैसी सुविधाओं का उपयोग करके उनके अर्थों को सुलझाने की आवश्यकता होती है।

वास्तविक बनाम डिकोडेड उत्तेजना मस्तिष्क स्कैन डिकोडर
छवि क्रेडिट: ऑस्टिन में टेक्सास विश्वविद्यालय

इसके विपरीत, विचार अधिक स्थायी होते हैं और अपेक्षाकृत धीरे-धीरे बदलते हैं। चूँकि एफएमआरआई में तंत्रिका गतिविधि को मापने में देरी होती है, यह विशिष्ट शब्दों की तुलना में अमूर्त अवधारणाओं और विचारों को बेहतर ढंग से पकड़ता है।

इस उच्च-स्तरीय दृष्टिकोण के लाभ हैं। निष्ठा की कमी के बावजूद, डिकोडर पिछले प्रयासों की तुलना में भाषा प्रतिनिधित्व के उच्च स्तर को पकड़ता है, जिसमें केवल भाषण तक सीमित नहीं होने वाले कार्य भी शामिल हैं। एक परीक्षण में, स्वयंसेवकों ने बिना किसी आवाज़ के एक लड़की पर ड्रेगन द्वारा हमला किए जाने की एक एनिमेटेड क्लिप देखी। अकेले मस्तिष्क गतिविधि का उपयोग करते हुए, डिकोडर ने नायक के दृष्टिकोण से दृश्य को पाठ-आधारित कहानी के रूप में वर्णित किया। दूसरे शब्दों में, डिकोडर मस्तिष्क गतिविधि में एन्कोड की गई भाषा के प्रतिनिधित्व के आधार पर दृश्य जानकारी को सीधे एक कथा में अनुवाद करने में सक्षम था।

इसी तरह, डिकोडर ने स्वयंसेवकों की एक मिनट लंबी काल्पनिक कहानियों का भी पुनर्निर्माण किया।

तकनीक पर एक दशक से अधिक समय तक काम करने के बाद, "जब यह आखिरकार काम करने लगी तो यह चौंकाने वाला और रोमांचक था," हुथ ने कहा।

हालाँकि डिकोडर वास्तव में दिमागों को नहीं पढ़ता है, टीम मानसिक गोपनीयता का आकलन करने में सावधान थी। परीक्षणों की एक श्रृंखला में, उन्होंने पाया कि डिकोडर केवल स्वयंसेवकों की सक्रिय मानसिक भागीदारी के साथ काम करता है। प्रथम लेखक जेरी टैंग ने कहा कि प्रतिभागियों को सात के क्रम में गिनने, विभिन्न जानवरों के नाम बताने या मानसिक रूप से अपनी कहानियां बनाने के लिए कहने से डिकोडर तेजी से खराब हो गया। दूसरे शब्दों में, डिकोडर का "सचेत रूप से विरोध" किया जा सकता है।

अभी के लिए, यह तकनीक पूरी तरह से स्थिर अवस्था में पड़े हुए तेज़ आवाज़ में गुंजन करने वाली मशीन में महीनों तक किए गए सावधानीपूर्वक मस्तिष्क स्कैन के बाद ही काम करती है - नैदानिक ​​​​उपयोग के लिए शायद ही संभव है। टीम प्रौद्योगिकी को एफएनआईआरएस (फंक्शनल नियर-इन्फ्रारेड स्पेक्ट्रोस्कोपी) में अनुवाद करने पर काम कर रही है, जो मस्तिष्क में रक्त ऑक्सीजन के स्तर को मापती है। हालाँकि इसमें fMRI की तुलना में कम रिज़ॉल्यूशन है, fNIRS कहीं अधिक पोर्टेबल है क्योंकि मुख्य हार्डवेयर एक स्विमिंग-कैप जैसा उपकरण है जो आसानी से हुडी के नीचे फिट हो जाता है।

हुथ ने कहा, "ट्वीक्स के साथ, हमें मौजूदा सेटअप को एफएनआईआरएस होल सेल में अनुवाद करने में सक्षम होना चाहिए।"

टीम डिकोडर की सटीकता को बढ़ाने और संभावित रूप से विभिन्न भाषाओं को जोड़ने के लिए नए भाषा मॉडल का उपयोग करने की भी योजना बना रही है। क्योंकि भाषाओं में मस्तिष्क में एक साझा तंत्रिका प्रतिनिधित्व होता है, डिकोडर सिद्धांत रूप में एक भाषा को एन्कोड कर सकता है और तंत्रिका संकेतों का उपयोग करके इसे दूसरे में डिकोड कर सकता है।

हुथ ने कहा, यह एक "रोमांचक भविष्य की दिशा" है।

छवि क्रेडिट: जेरी टैंग/मार्था मोरालेस/ऑस्टिन में टेक्सास विश्वविद्यालय

समय टिकट:

से अधिक विलक्षणता हब