Dekoder Aktivitas Otak Ini Menerjemahkan Ide Menjadi Teks Hanya Menggunakan Pemindaian Otak

Dekoder Aktivitas Otak Ini Menerjemahkan Ide Menjadi Teks Hanya Menggunakan Pemindaian Otak

Bahasa dan ucapan adalah cara kita mengekspresikan pikiran batin kita. Tapi ahli saraf mengabaikan kebutuhan akan ucapan yang dapat didengar, setidaknya di laboratorium. Sebaliknya, mereka langsung memanfaatkan mesin biologis yang menghasilkan bahasa dan gagasan: otak.

Dengan menggunakan pemindaian otak dan pembelajaran mesin dosis besar, tim dari University of Texas di Austin mengembangkan "decoder bahasa" yang menangkap inti dari apa yang didengar seseorang berdasarkan pola aktivasi otak mereka saja. Jauh dari kuda poni satu trik, decoder juga dapat menerjemahkan ucapan yang dibayangkan, dan bahkan menghasilkan subtitle deskriptif untuk film bisu menggunakan aktivitas saraf.

Inilah penendangnya: metode ini tidak memerlukan pembedahan. Alih-alih mengandalkan elektroda yang ditanamkan, yang mendengarkan semburan listrik langsung dari neuron, teknologi saraf menggunakan pencitraan resonansi magnetik fungsional (fMRI), prosedur yang sepenuhnya non-invasif, untuk menghasilkan peta otak yang sesuai dengan bahasa.

Agar jelas, teknologinya tidak membaca pikiran. Dalam setiap kasus, decoder menghasilkan parafrase yang menangkap ide umum dari sebuah kalimat atau paragraf. Itu tidak mereproduksi setiap kata. Namun itu juga kekuatan decoder.

“Kami berpikir bahwa dekoder mewakili sesuatu yang lebih dalam daripada bahasa,” kata penulis studi utama Dr. Alexander Huth dalam konferensi pers. “Kita dapat memulihkan keseluruhan gagasan… dan melihat bagaimana gagasan itu berkembang, bahkan jika kata-kata persisnya hilang.”

Penelitian, diterbitkan minggu ini di Nature Neuroscience, merupakan dorongan pertama yang kuat ke non-invasif antarmuka otak-mesin untuk decoding bahasa—masalah yang sangat sulit. Dengan perkembangan lebih lanjut, teknologi tersebut dapat membantu mereka yang kehilangan kemampuan berbicara untuk mendapatkan kembali kemampuannya berkomunikasi dengan dunia luar.

Pekerjaan ini juga membuka jalan baru untuk mempelajari tentang bagaimana bahasa dikodekan di otak, dan bagi ilmuwan AI untuk menggali “kotak hitam” model pembelajaran mesin yang memproses ucapan dan bahasa.

“Sudah lama datang… kami agak terkejut bahwa ini berhasil sebaik itu,” kata Huth.

Bahasa Dekode

Menerjemahkan aktivitas otak ke ucapan bukanlah hal baru. Satu penelitian sebelumnya elektroda yang digunakan ditempatkan langsung di otak pasien dengan kelumpuhan. Dengan mendengarkan obrolan listrik neuron, tim mampu merekonstruksi kata-kata lengkap dari pasien.

Huth memutuskan untuk mengambil rute alternatif, jika berani. Alih-alih mengandalkan bedah saraf, ia memilih pendekatan non-invasif: fMRI.

“Harapan di kalangan ahli saraf pada umumnya bahwa Anda dapat melakukan hal semacam ini dengan fMRI cukup rendah,” kata Huth.

Ada banyak alasan. Tidak seperti implan yang memanfaatkan langsung aktivitas saraf, fMRI mengukur bagaimana kadar oksigen dalam darah berubah. Ini disebut sinyal BOLD. Karena lebih banyak bagian otak yang aktif membutuhkan lebih banyak oksigen, respons BOLD bertindak sebagai proksi yang andal untuk aktivitas saraf. Tapi itu datang dengan masalah. Sinyalnya lamban dibandingkan dengan mengukur semburan listrik, dan sinyalnya bisa berisik.

Namun fMRI memiliki kelebihan yang sangat besar dibandingkan dengan implan otak: fMRI dapat memantau seluruh otak dengan resolusi tinggi. Dibandingkan dengan mengumpulkan data dari nugget di satu wilayah, ini memberikan pandangan sekilas tentang fungsi kognitif tingkat tinggi—termasuk bahasa.

Dengan bahasa decoding, sebagian besar penelitian sebelumnya memanfaatkan korteks motorik, area yang mengontrol bagaimana mulut dan laring bergerak untuk menghasilkan ucapan, atau lebih banyak "tingkat permukaan" dalam pemrosesan bahasa untuk artikulasi. Tim Huth memutuskan untuk naik satu abstraksi: ke ranah pemikiran dan gagasan.

Ke Yang Tidak Diketahui

Tim menyadari bahwa mereka membutuhkan dua hal sejak awal. Pertama, kumpulan data pemindaian otak berkualitas tinggi untuk melatih dekoder. Dua, kerangka pembelajaran mesin untuk memproses data.

Untuk menghasilkan database peta otak, otak tujuh sukarelawan dipindai berulang kali saat mereka mendengarkan cerita podcast sambil mengukur aktivitas saraf mereka di dalam mesin MRI. Berbaring di dalam magnet raksasa yang berisik tidak menyenangkan bagi siapa pun, dan tim berhati-hati agar para sukarelawan tetap tertarik dan waspada, karena faktor perhatian menjadi decoding.

Untuk setiap orang, kumpulan data masif berikutnya dimasukkan ke dalam kerangka kerja yang didukung oleh pembelajaran mesin. Berkat ledakan baru-baru ini dalam model pembelajaran mesin yang membantu memproses bahasa alami, tim dapat memanfaatkan sumber daya tersebut dan dengan mudah membuat dekoder.

Itu punya banyak komponen. Yang pertama adalah model penyandian menggunakan GPT asli, pendahulu dari ChatGPT yang sangat populer. Model mengambil setiap kata dan memprediksi bagaimana otak akan merespons. Di sini, tim menyempurnakan GPT menggunakan lebih dari 200 juta kata total dari komentar dan podcast Reddit.

Bagian kedua ini menggunakan teknik populer dalam pembelajaran mesin yang disebut decoding Bayesian. Algoritme menebak kata berikutnya berdasarkan urutan sebelumnya dan menggunakan kata yang ditebak untuk memeriksa respons aktual otak.

Misalnya, satu episode podcast memiliki alur cerita "ayah saya tidak membutuhkannya...". Ketika dimasukkan ke decoder sebagai prompt, itu datang dengan respons potensial: "banyak", "benar", "sejak", dan seterusnya. Membandingkan aktivitas otak yang diprediksi dengan setiap kata dengan yang dihasilkan dari kata yang sebenarnya membantu decoder mengasah pola aktivitas otak setiap orang dan memperbaiki kesalahan.

Setelah mengulangi proses dengan prediksi kata terbaik, aspek decoding dari program ini akhirnya mempelajari “sidik jari saraf” unik setiap orang tentang cara mereka memproses bahasa.

Seorang Penerjemah Neuro

Sebagai bukti konsep, tim mengadu tanggapan yang diterjemahkan dengan teks cerita yang sebenarnya.

Itu sangat dekat, tetapi hanya untuk inti umum. Misalnya, satu alur cerita, "kami mulai bertukar cerita tentang kehidupan kami, kami berdua berasal dari utara", diterjemahkan sebagai "kami mulai berbicara tentang pengalaman kami di daerah tempat dia dilahirkan, saya berasal dari utara".

Parafrase ini diharapkan, jelas Huth. Karena fMRI agak bising dan lamban, hampir tidak mungkin menangkap dan mendekode setiap kata. Decoder diberi campuran kata-kata dan perlu mengurai maknanya menggunakan fitur seperti pergantian frasa.

dekoder pindaian otak stimulus aktual vs dekode
Kredit Gambar: Universitas Texas di Austin

Sebaliknya, gagasan lebih permanen dan berubah relatif lambat. Karena fMRI memiliki kelambatan saat mengukur aktivitas saraf, fMRI menangkap konsep dan pemikiran abstrak lebih baik daripada kata-kata tertentu.

Pendekatan tingkat tinggi ini memiliki keistimewaan. Meskipun kurang fidelitas, dekoder menangkap tingkat representasi bahasa yang lebih tinggi daripada upaya sebelumnya, termasuk untuk tugas yang tidak terbatas pada ucapan saja. Dalam satu tes, para relawan menonton klip animasi seorang gadis yang diserang naga tanpa suara. Menggunakan aktivitas otak saja, decoder menggambarkan adegan dari perspektif protagonis sebagai cerita berbasis teks. Dengan kata lain, decoder mampu menerjemahkan informasi visual secara langsung menjadi narasi berdasarkan representasi bahasa yang dikodekan dalam aktivitas otak.

Demikian pula, decoder juga merekonstruksi cerita imajiner berdurasi satu menit dari para sukarelawan.

Setelah lebih dari satu dekade mengerjakan teknologinya, “mengejutkan dan mengasyikkan ketika akhirnya berhasil,” kata Huth.

Meskipun dekoder tidak dapat membaca pikiran dengan tepat, tim berhati-hati dalam menilai privasi mental. Dalam serangkaian tes, mereka menemukan bahwa decoder hanya bekerja dengan partisipasi mental aktif para sukarelawan. Meminta peserta untuk menghitung dengan urutan tujuh, nama hewan yang berbeda, atau secara mental menyusun cerita mereka sendiri dengan cepat menurunkan dekoder, kata penulis pertama Jerry Tang. Dengan kata lain, decoder dapat "dilawan secara sadar".

Untuk saat ini, teknologi ini hanya berfungsi setelah berbulan-bulan melakukan pemindaian otak secara cermat dalam mesin yang berdengung keras sambil berbaring diam—hampir tidak layak untuk penggunaan klinis. Tim ini berupaya menerjemahkan teknologi tersebut ke fNIRS (spektroskopi inframerah dekat fungsional), yang mengukur kadar oksigen darah di otak. Meskipun memiliki resolusi lebih rendah dibandingkan fMRI, fNIRS jauh lebih portabel karena perangkat keras utamanya berupa perangkat seperti topi renang yang mudah dimasukkan ke dalam hoodie.

“Dengan penyesuaian, kami seharusnya dapat menerjemahkan pengaturan saat ini ke grosir fNIRS,” kata Huth.

Tim juga berencana menggunakan model bahasa yang lebih baru untuk meningkatkan akurasi decoder, dan berpotensi menjembatani berbagai bahasa. Karena bahasa memiliki representasi saraf yang sama di otak, secara teori decoder dapat menyandikan satu bahasa dan menggunakan sinyal saraf untuk menerjemahkannya ke bahasa lain.

Ini adalah "arah masa depan yang menarik," kata Huth.

Gambar Kredit: Jerry Tang/Martha Morales/Universitas Texas di Austin

Stempel Waktu:

Lebih dari Hub Singularity