এই ব্রেন অ্যাক্টিভিটি ডিকোডার শুধুমাত্র ব্রেইন স্ক্যান ব্যবহার করে আইডিয়াগুলোকে টেক্সটে অনুবাদ করে

এই ব্রেন অ্যাক্টিভিটি ডিকোডার শুধুমাত্র ব্রেইন স্ক্যান ব্যবহার করে আইডিয়াগুলোকে টেক্সটে অনুবাদ করে

ভাষা এবং বক্তৃতা হল যেভাবে আমরা আমাদের ভেতরের চিন্তা প্রকাশ করি। কিন্তু নিউরোসায়েন্টিস্টরা অন্তত ল্যাবে শ্রবণযোগ্য বক্তৃতার প্রয়োজনকে বাইপাস করেছেন। পরিবর্তে, তারা সরাসরি জৈবিক মেশিনে ট্যাপ করেছে যা ভাষা এবং ধারণা তৈরি করে: মস্তিষ্ক।

মস্তিষ্কের স্ক্যান এবং মেশিন লার্নিংয়ের একটি মোটা ডোজ ব্যবহার করে, অস্টিনের টেক্সাস বিশ্ববিদ্যালয়ের একটি দল একটি "ভাষা ডিকোডার" তৈরি করেছে যা শুধুমাত্র তার মস্তিষ্ক সক্রিয়করণের ধরণগুলির উপর ভিত্তি করে একজন ব্যক্তি যা শোনে তার সারাংশ ক্যাপচার করে। ওয়ান-ট্রিক পনি থেকে অনেক দূরে, ডিকোডার কল্পনাকৃত বক্তৃতাও অনুবাদ করতে পারে, এমনকি স্নায়ু কার্যকলাপ ব্যবহার করে নীরব চলচ্চিত্রের জন্য বর্ণনামূলক সাবটাইটেল তৈরি করতে পারে।

এখানে কিকার: পদ্ধতিতে অস্ত্রোপচারের প্রয়োজন নেই। ইমপ্লান্টেড ইলেক্ট্রোডের উপর নির্ভর করার পরিবর্তে, যা সরাসরি নিউরন থেকে বৈদ্যুতিক বিস্ফোরণ শোনে, নিউরোটেকনোলজি ভাষার সাথে সামঞ্জস্যপূর্ণ মস্তিষ্কের মানচিত্র তৈরি করতে কার্যকরী চৌম্বকীয় অনুরণন ইমেজিং (fMRI), একটি সম্পূর্ণ অ-আক্রমণকারী পদ্ধতি ব্যবহার করে।

স্পষ্ট করে বলতে গেলে, প্রযুক্তিটি পড়তে মন দেয় না। প্রতিটি ক্ষেত্রে, ডিকোডার প্যারাফ্রেজ তৈরি করে যা একটি বাক্য বা অনুচ্ছেদের সাধারণ ধারণা ক্যাপচার করে। এটি প্রতিটি একক শব্দ পুনরুত্পাদন করে না। তবুও এটি ডিকোডারের শক্তি।

"আমরা মনে করি যে ডিকোডার ভাষাগুলির চেয়ে গভীর কিছু উপস্থাপন করে," প্রধান গবেষণা লেখক ডঃ আলেকজান্ডার হুথ একটি প্রেস ব্রিফিংয়ে বলেছেন৷ "আমরা সামগ্রিক ধারণা পুনরুদ্ধার করতে পারি...এবং সঠিক শব্দগুলি হারিয়ে গেলেও ধারণাটি কীভাবে বিকশিত হয় তা দেখতে পারি।"

পড়াশোনা, এই সপ্তাহে প্রকাশিত প্রকৃতি স্নায়ুবিজ্ঞান, অ-আক্রমণাত্মক মধ্যে একটি শক্তিশালী প্রথম ধাক্কা প্রতিনিধিত্ব করে মস্তিষ্ক-মেশিন ইন্টারফেস ডিকোডিং ভাষার জন্য - একটি কুখ্যাতভাবে কঠিন সমস্যা। আরও উন্নয়নের সাথে, প্রযুক্তিটি তাদের সাহায্য করতে পারে যারা কথা বলার ক্ষমতা হারিয়েছে তাদের বাইরের বিশ্বের সাথে যোগাযোগ করার ক্ষমতা ফিরে পেতে।

কাজটি মস্তিষ্কে ভাষা কীভাবে এনকোড করা হয় সে সম্পর্কে শেখার নতুন উপায়ও খুলে দেয় এবং এআই বিজ্ঞানীদের জন্য মেশিন লার্নিং মডেলগুলির "ব্ল্যাক বক্স" খনন করার জন্য যা বক্তৃতা এবং ভাষা প্রক্রিয়া করে।

"এটি আসতে একটি দীর্ঘ সময় ছিল... আমরা কিছুটা হতবাক হয়ে গিয়েছিলাম যে এটি যেমন কাজ করে তেমনি কাজ করে," হুথ বলেছিলেন।

ডিকোডিং ভাষা

মস্তিষ্কের কার্যকলাপকে বক্তৃতায় অনুবাদ করা নতুন নয়। একটি পূর্ববর্তী গবেষণা প্যারালাইসিস রোগীদের মস্তিষ্কে সরাসরি স্থাপন করা ইলেক্ট্রোড। নিউরনের বৈদ্যুতিক বকবক শুনে দলটি রোগীর কাছ থেকে সম্পূর্ণ শব্দ পুনর্গঠন করতে সক্ষম হয়েছিল।

হুথ সাহসী হলে বিকল্প পথ বেছে নেবেন। নিউরোসার্জারির উপর নির্ভর করার পরিবর্তে, তিনি একটি অ-আক্রমণাত্মক পদ্ধতির জন্য বেছে নিয়েছিলেন: fMRI।

"সাধারণত নিউরোসায়েন্টিস্টদের মধ্যে প্রত্যাশা যে আপনি এফএমআরআই দিয়ে এই ধরনের জিনিস করতে পারেন তা খুবই কম," হুথ বলেছেন।

কারণ প্রচুর আছে. ইমপ্লান্টের বিপরীতে যা সরাসরি নিউরাল কার্যকলাপে ট্যাপ করে, fMRI রক্তে অক্সিজেনের মাত্রা কীভাবে পরিবর্তিত হয় তা পরিমাপ করে। একে বোল্ড সংকেত বলা হয়। যেহেতু আরও সক্রিয় মস্তিষ্কের অঞ্চলে বেশি অক্সিজেনের প্রয়োজন হয়, তাই বোল্ড প্রতিক্রিয়াগুলি স্নায়ু কার্যকলাপের জন্য একটি নির্ভরযোগ্য প্রক্সি হিসাবে কাজ করে। কিন্তু এটা সমস্যা নিয়ে আসে। বৈদ্যুতিক বিস্ফোরণ পরিমাপের তুলনায় সংকেতগুলি মন্থর, এবং সংকেতগুলি গোলমাল হতে পারে।

তবুও এফএমআরআই-এর ব্রেন ইমপ্লান্টের তুলনায় একটি বিশাল সুবিধা রয়েছে: এটি উচ্চ রেজোলিউশনে পুরো মস্তিষ্ক নিরীক্ষণ করতে পারে। একটি অঞ্চলে একটি নাগেট থেকে ডেটা সংগ্রহের তুলনায়, এটি ভাষা সহ উচ্চ-স্তরের জ্ঞানীয় ফাংশনগুলির পাখি-চোখের দৃশ্য প্রদান করে।

ডিকোডিং ভাষার সাথে, বেশিরভাগ পূর্ববর্তী গবেষণাগুলি মোটর কর্টেক্সে ট্যাপ করা হয়েছে, এমন একটি এলাকা যা নিয়ন্ত্রণ করে যে মুখ এবং স্বরযন্ত্র কীভাবে বক্তৃতা তৈরি করতে চলে, বা উচ্চারণের জন্য ভাষা প্রক্রিয়াকরণে আরও "সারফেস লেভেল"। হুথের দল একটি বিমূর্ততা উপরে যাওয়ার সিদ্ধান্ত নিয়েছে: চিন্তা ও ধারণার রাজ্যে।

অজানা মধ্যে

দলটি বুঝতে পেরেছিল যে শুরু থেকেই তাদের দুটি জিনিস দরকার। এক, ডিকোডারকে প্রশিক্ষণ দেওয়ার জন্য উচ্চ-মানের মস্তিষ্কের স্ক্যানের একটি ডেটাসেট। দুই, ডেটা প্রক্রিয়া করার জন্য একটি মেশিন লার্নিং ফ্রেমওয়ার্ক।

মস্তিষ্কের মানচিত্র ডাটাবেস তৈরি করার জন্য, সাতজন স্বেচ্ছাসেবকের মস্তিষ্ক বারবার স্ক্যান করা হয়েছিল যখন তারা পডকাস্টের গল্প শুনেছিল যখন তাদের স্নায়ু কার্যকলাপ MRI মেশিনের মধ্যে পরিমাপ করা হয়েছিল। একটি দৈত্য, শোরগোল চুম্বকের ভিতরে শুয়ে থাকা কারো জন্যই মজাদার নয়, এবং দলটি স্বেচ্ছাসেবকদের আগ্রহী এবং সতর্ক রাখার যত্ন নিয়েছে, যেহেতু ডিকোডিংয়ে মনোযোগের কারণ।

প্রতিটি ব্যক্তির জন্য, পরবর্তী বিশাল ডেটাসেটটি মেশিন লার্নিং দ্বারা চালিত একটি কাঠামোর মধ্যে দেওয়া হয়েছিল। মেশিন লার্নিং মডেলগুলিতে সাম্প্রতিক বিস্ফোরণের জন্য ধন্যবাদ যা প্রাকৃতিক ভাষা প্রক্রিয়া করতে সহায়তা করে, দলটি সেই সংস্থানগুলিকে কাজে লাগাতে এবং সহজেই ডিকোডার তৈরি করতে সক্ষম হয়েছিল৷

এটি একাধিক উপাদান আছে. প্রথমটি হল মূল GPT ব্যবহার করে একটি এনকোডিং মডেল, যা ব্যাপকভাবে জনপ্রিয় ChatGPT-এর পূর্বসূরি৷ মডেল প্রতিটি শব্দ নেয় এবং ভবিষ্যদ্বাণী করে যে মস্তিষ্ক কীভাবে প্রতিক্রিয়া জানাবে। এখানে, টিম রেডডিট মন্তব্য এবং পডকাস্ট থেকে মোট 200 মিলিয়নেরও বেশি শব্দ ব্যবহার করে GPT সূক্ষ্ম সুর করেছে।

এই দ্বিতীয় অংশটি Bayesian ডিকোডিং নামক মেশিন লার্নিং-এ একটি জনপ্রিয় কৌশল ব্যবহার করে। অ্যালগরিদম পূর্ববর্তী অনুক্রমের উপর ভিত্তি করে পরবর্তী শব্দটি অনুমান করে এবং মস্তিষ্কের প্রকৃত প্রতিক্রিয়া পরীক্ষা করতে অনুমান করা শব্দ ব্যবহার করে।

উদাহরণস্বরূপ, একটি পডকাস্ট পর্বে একটি গল্পের লাইন হিসাবে "আমার বাবার এটির প্রয়োজন নেই..." ছিল। প্রম্পট হিসাবে ডিকোডারে খাওয়ানো হলে, এটি সম্ভাব্য প্রতিক্রিয়া নিয়ে আসে: "অনেক," "ঠিক", "যখন থেকে" এবং আরও অনেক কিছু। প্রকৃত শব্দ থেকে উৎপন্ন প্রতিটি শব্দের সাথে ভবিষ্যদ্বাণীকৃত মস্তিষ্কের কার্যকলাপের তুলনা করা ডিকোডারকে প্রতিটি ব্যক্তির মস্তিষ্কের কার্যকলাপের ধরণগুলিকে সমন্বিত করতে এবং ভুলের জন্য সংশোধন করতে সাহায্য করেছিল।

সর্বোত্তম ভবিষ্যদ্বাণীকৃত শব্দগুলির সাথে প্রক্রিয়াটি পুনরাবৃত্তি করার পরে, প্রোগ্রামটির ডিকোডিং দিকটি অবশেষে প্রতিটি ব্যক্তির অনন্য "নিউরাল ফিঙ্গারপ্রিন্ট" শিখেছে যে তারা কীভাবে ভাষা প্রক্রিয়া করে।

একটি নিউরো অনুবাদক

ধারণার প্রমাণ হিসাবে, দলটি প্রকৃত গল্পের পাঠ্যের বিপরীতে ডিকোড করা প্রতিক্রিয়াগুলিকে পিট করেছে।

এটি আশ্চর্যজনকভাবে কাছাকাছি এসেছিল, তবে শুধুমাত্র সাধারণ সারাংশের জন্য। উদাহরণ স্বরূপ, একটি গল্পের লাইন, "আমরা আমাদের জীবন সম্পর্কে গল্প বাণিজ্য করতে শুরু করি আমরা উভয়ই উত্তর থেকে এসেছি," এইভাবে ডিকোড করা হয়েছিল "আমরা উত্তর থেকে যে এলাকায় তিনি জন্মগ্রহণ করেছিলেন সেখানে আমাদের অভিজ্ঞতার কথা বলা শুরু করেছি।"

এই প্যারাফ্রেজিং প্রত্যাশিত, Huth ব্যাখ্যা. যেহেতু fMRI বরং কোলাহলপূর্ণ এবং অলস, তাই প্রতিটি শব্দ ক্যাপচার এবং ডিকোড করা প্রায় অসম্ভব। ডিকোডারকে শব্দের মিশম্যাশ খাওয়ানো হয় এবং শব্দগুচ্ছের বাঁকগুলির মতো বৈশিষ্ট্যগুলি ব্যবহার করে তাদের অর্থগুলিকে বিচ্ছিন্ন করতে হয়।

প্রকৃত বনাম ডিকোডেড উদ্দীপনা মস্তিষ্ক স্ক্যান ডিকোডার
চিত্র ক্রেডিট: অস্টিনের টেক্সাস বিশ্ববিদ্যালয়

বিপরীতে, ধারণাগুলি আরও স্থায়ী এবং তুলনামূলকভাবে ধীরে ধীরে পরিবর্তিত হয়। যেহেতু fMRI স্নায়ু কার্যকলাপ পরিমাপ করার সময় একটি পিছিয়ে আছে, এটি নির্দিষ্ট শব্দের চেয়ে বিমূর্ত ধারণা এবং চিন্তাভাবনাগুলিকে ভালভাবে ক্যাপচার করে।

এই উচ্চ-স্তরের পদ্ধতির সুবিধা আছে। বিশ্বস্ততার অভাব থাকলেও, ডিকোডারটি পূর্ববর্তী প্রচেষ্টার তুলনায় উচ্চ স্তরের ভাষা উপস্থাপনা ক্যাপচার করে, যার মধ্যে কাজগুলি শুধুমাত্র বক্তৃতায় সীমাবদ্ধ নয়। একটি পরীক্ষায়, স্বেচ্ছাসেবকরা একটি অ্যানিমেটেড ক্লিপ দেখেছিলেন যে কোনও শব্দ ছাড়াই ড্রাগন দ্বারা আক্রান্ত হচ্ছে একটি মেয়ে। একা মস্তিষ্কের কার্যকলাপ ব্যবহার করে, ডিকোডার নায়কের দৃষ্টিকোণ থেকে দৃশ্যটিকে একটি পাঠ্য-ভিত্তিক গল্প হিসাবে বর্ণনা করেছে। অন্য কথায়, ডিকোডার মস্তিষ্কের ক্রিয়াকলাপে এনকোড করা ভাষার উপস্থাপনার উপর ভিত্তি করে ভিজ্যুয়াল তথ্যকে সরাসরি একটি বর্ণনায় অনুবাদ করতে সক্ষম হয়েছিল।

একইভাবে, ডিকোডারটি স্বেচ্ছাসেবকদের কাছ থেকে এক মিনিট-দীর্ঘ কল্পিত গল্পগুলিও পুনর্গঠন করেছে।

এক দশকেরও বেশি সময় ধরে প্রযুক্তিতে কাজ করার পর, "যখন এটি শেষ পর্যন্ত কাজ করে তখন এটি হতবাক এবং উত্তেজনাপূর্ণ ছিল," হুথ বলেছিলেন।

যদিও ডিকোডার ঠিক মন পড়তে পারে না, দলটি মানসিক গোপনীয়তা মূল্যায়ন করতে সতর্ক ছিল। পরীক্ষার একটি সিরিজে, তারা দেখেছে যে ডিকোডারটি শুধুমাত্র স্বেচ্ছাসেবকদের সক্রিয় মানসিক অংশগ্রহণের সাথে কাজ করে। প্রথম লেখক জেরি ট্যাং বলেছেন, অংশগ্রহণকারীদের সাতটি ক্রম অনুসারে গণনা করতে, বিভিন্ন প্রাণীর নাম দিতে বা মানসিকভাবে তাদের নিজস্ব গল্পগুলি তৈরি করতে বলাটি ডিকোডারকে দ্রুত অবনমিত করেছিল। অন্য কথায়, ডিকোডারকে "সচেতনভাবে প্রতিরোধ করা যেতে পারে।"

আপাতত, প্রযুক্তিটি সম্পূর্ণরূপে স্থির থাকা অবস্থায় একটি উচ্চস্বরে গুনগুনকারী মেশিনে কয়েক মাস সতর্ক মস্তিষ্ক স্ক্যান করার পরেই কাজ করে - ক্লিনিকাল ব্যবহারের জন্য খুব কমই সম্ভব। দলটি প্রযুক্তিটিকে এফএনআইআরএস (কার্যকরী কাছাকাছি-ইনফ্রারেড স্পেকট্রোস্কোপি) এ অনুবাদ করার জন্য কাজ করছে, যা মস্তিষ্কে রক্তের অক্সিজেনের মাত্রা পরিমাপ করে। যদিও এটির fMRI এর চেয়ে কম রেজোলিউশন রয়েছে, fNIRS অনেক বেশি বহনযোগ্য কারণ প্রধান হার্ডওয়্যার হল একটি সুইমিং-ক্যাপ-এর মতো ডিভাইস যা হুডির নিচে সহজেই ফিট করে।

"টুইকগুলির সাথে, আমাদের বর্তমান সেটআপটিকে fNIRS পাইকারিতে অনুবাদ করতে সক্ষম হওয়া উচিত," হুথ বলেছেন৷

দলটি ডিকোডারের নির্ভুলতা বাড়ানোর জন্য নতুন ভাষার মডেলগুলি ব্যবহার করার পরিকল্পনা করছে এবং সম্ভাব্যভাবে বিভিন্ন ভাষার সেতুবন্ধন করছে৷ যেহেতু ভাষার মস্তিষ্কে একটি ভাগ করা নিউরাল উপস্থাপনা রয়েছে, তাই ডিকোডার তত্ত্বগতভাবে একটি ভাষাকে এনকোড করতে পারে এবং স্নায়ু সংকেতগুলিকে অন্য ভাষায় ডিকোড করতে ব্যবহার করতে পারে।

এটি একটি "উত্তেজনাপূর্ণ ভবিষ্যত দিক," হুথ বলেছেন।

চিত্র ক্রেডিট: জেরি ট্যাং/মার্থা মোরালেস/অস্টিনের টেক্সাস বিশ্ববিদ্যালয়

সময় স্ট্যাম্প:

থেকে আরো এককতা হাব