Bagaimana Transformer Tampak Meniru Bagian Otak PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Bagaimana Transformer Tampak Meniru Bagian Otak

Memahami bagaimana otak mengatur dan mengakses informasi spasial — di mana kita berada, apa yang ada di tikungan, bagaimana menuju ke sana — tetap menjadi tantangan yang luar biasa. Prosesnya melibatkan pemanggilan kembali seluruh jaringan ingatan dan data spasial yang tersimpan dari puluhan miliar neuron, masing-masing terhubung ke ribuan lainnya. Ahli saraf telah mengidentifikasi elemen kunci seperti: sel kisi, neuron yang memetakan lokasi. Namun, menyelam lebih dalam akan terbukti rumit: peneliti tidak dapat menghapus dan mempelajari irisan materi abu-abu manusia untuk melihat bagaimana ingatan berbasis lokasi dari gambar, suara, dan bau mengalir dan terhubung satu sama lain.

Kecerdasan buatan menawarkan cara lain. Selama bertahun-tahun, ahli saraf telah memanfaatkan banyak jenis jaringan saraf — mesin yang menggerakkan sebagian besar aplikasi pembelajaran mendalam — untuk memodelkan penembakan neuron di otak. Dalam karya terbaru, para peneliti telah menunjukkan bahwa hippocampus, struktur otak yang penting untuk memori, pada dasarnya adalah jenis jaringan saraf khusus, yang dikenal sebagai jaringan saraf. transformator, menyamar. Model baru mereka melacak informasi spasial dengan cara yang paralel dengan cara kerja bagian dalam otak. Mereka telah melihat kesuksesan yang luar biasa.

“Fakta bahwa kita tahu model otak ini setara dengan transformator berarti model kita bekerja jauh lebih baik dan lebih mudah untuk dilatih,” kata James Whittington, seorang ahli saraf kognitif yang membagi waktunya antara Universitas Stanford dan lab Tim Behren di Universitas Oxford.

Studi oleh Whittington dan lain-lain mengisyaratkan bahwa transformer dapat sangat meningkatkan kemampuan model jaringan saraf untuk meniru jenis perhitungan yang dilakukan oleh sel grid dan bagian lain dari otak. Model seperti itu dapat mendorong pemahaman kita tentang bagaimana jaringan saraf tiruan bekerja dan, bahkan lebih mungkin, bagaimana perhitungan dilakukan di otak, kata Whittington.

"Kami tidak mencoba untuk menciptakan kembali otak," kata David Ha, seorang ilmuwan komputer di Google Brain yang juga mengerjakan model transformator. "Tapi bisakah kita menciptakan mekanisme yang bisa melakukan apa yang dilakukan otak?"

Transformers pertama kali muncul lima tahun lalu sebagai cara baru bagi AI untuk memproses bahasa. Mereka adalah saus rahasia dalam program pelengkap kalimat yang menarik seperti BERTI dan GPT-3, yang dapat menghasilkan lirik lagu yang meyakinkan, menyusun soneta Shakespeare, dan menyamar sebagai perwakilan layanan pelanggan.

Transformer bekerja menggunakan mekanisme yang disebut self-attention, di mana setiap input — kata, piksel, angka dalam urutan — selalu terhubung ke setiap input lainnya. (Jaringan saraf lain menghubungkan input hanya ke input tertentu lainnya.) Tetapi sementara transformer dirancang untuk tugas-tugas bahasa, mereka telah unggul dalam tugas-tugas lain seperti mengklasifikasikan gambar — dan sekarang, memodelkan otak.

Pada tahun 2020, kelompok yang dipimpin oleh Sepp Hochreiter, seorang ilmuwan komputer di Johannes Kepler University Linz di Austria, menggunakan trafo untuk memperlengkapi kembali model pengambilan memori yang kuat dan lama yang disebut jaringan Hopfield. Pertama kali diperkenalkan 40 tahun yang lalu oleh fisikawan Princeton John Hopfield, jaringan ini mengikuti aturan umum: Neuron yang aktif pada saat yang sama membangun koneksi yang kuat satu sama lain.

Hochreiter dan rekan-rekannya, mencatat bahwa para peneliti telah mencari model pengambilan memori yang lebih baik, melihat hubungan antara bagaimana jaringan Hopfield mengambil ingatan dan bagaimana transformer melakukan perhatian. Mereka meningkatkan jaringan Hopfield, pada dasarnya mengubahnya menjadi transformator. Perubahan itu memungkinkan model untuk menyimpan dan mengambil lebih banyak memori karena koneksi yang lebih efektif, kata Whittington. Hopfield sendiri, bersama dengan Dmitry Krotov di MIT-IBM Watson AI Lab, membuktikan bahwa jaringan Hopfield berbasis transformator secara biologis masuk akal.

Kemudian, awal tahun ini, Whittington dan Behrens membantu lebih jauh mengubah pendekatan Hochreiter, memodifikasi transformator sehingga alih-alih memperlakukan ingatan sebagai urutan linier — seperti rangkaian kata dalam kalimat — itu mengkodekannya sebagai koordinat dalam ruang dimensi yang lebih tinggi. Itu "twist," sebagaimana para peneliti menyebutnya, lebih meningkatkan kinerja model pada tugas-tugas ilmu saraf. Mereka juga menunjukkan bahwa model tersebut secara matematis setara dengan model pola penembakan sel jaringan yang dilihat oleh ahli saraf dalam pemindaian fMRI.

“Sel grid memiliki struktur yang menarik, indah, teratur, dan dengan pola mencolok yang tidak mungkin muncul secara acak,” kata Caswell Barry, ahli saraf di University College London. Karya baru menunjukkan bagaimana transformer mereplikasi persis pola-pola yang diamati di hippocampus. “Mereka menyadari bahwa sebuah transformator dapat mengetahui di mana ia didasarkan pada keadaan sebelumnya dan bagaimana ia dipindahkan, dan dengan cara yang dimasukkan ke dalam model sel grid tradisional.”

Karya terbaru lainnya menunjukkan bahwa transformer dapat memajukan pemahaman kita tentang fungsi otak lainnya juga. Tahun lalu, Martin Schrimpf, seorang ahli saraf komputasi di Massachusetts Institute of Technology, menganalisis 43 model jaringan saraf yang berbeda untuk melihat seberapa baik mereka memprediksi pengukuran aktivitas saraf manusia seperti yang dilaporkan oleh fMRI dan elektrokortikografi. Transformers, ia menemukan, adalah jaringan saraf terdepan saat ini, yang memprediksi hampir semua variasi yang ditemukan dalam pencitraan.

Dan Ha, bersama dengan sesama ilmuwan komputer Yujin Tang, baru-baru ini merancang model yang dapat dengan sengaja mengirim data dalam jumlah besar melalui transformator secara acak dan tidak berurutan, meniru cara tubuh manusia mengirimkan pengamatan sensorik ke otak. Transformator mereka, seperti otak kita, dapat berhasil menangani arus informasi yang tidak teratur.

“Jaring saraf terprogram untuk menerima input tertentu,” kata Tang. Namun dalam kehidupan nyata, kumpulan data sering berubah dengan cepat, dan sebagian besar AI tidak memiliki cara untuk menyesuaikan. “Kami ingin bereksperimen dengan arsitektur yang dapat beradaptasi dengan sangat cepat.”

Terlepas dari tanda-tanda kemajuan ini, Behrens melihat transformer hanya sebagai langkah menuju model otak yang akurat — bukan akhir dari pencarian. "Saya harus menjadi ahli saraf yang skeptis di sini," katanya. “Saya tidak berpikir transformer akan menjadi bagaimana kita berpikir tentang bahasa di otak, misalnya, meskipun mereka memiliki model kalimat terbaik saat ini.”

“Apakah ini dasar yang paling efisien untuk membuat prediksi tentang di mana saya berada dan apa yang akan saya lihat selanjutnya? Kalau boleh jujur, terlalu dini untuk mengatakannya,” kata Barry.

Schrimpf juga mencatat bahwa bahkan transformer dengan performa terbaik pun terbatas, bekerja dengan baik untuk kata dan frasa pendek, misalnya, tetapi tidak untuk tugas bahasa berskala besar seperti bercerita.

“Perasaan saya adalah bahwa arsitektur ini, transformator ini, menempatkan Anda pada ruang yang tepat untuk memahami struktur otak, dan dapat ditingkatkan dengan pelatihan,” kata Schrimpf. "Ini adalah arah yang baik, tetapi bidangnya sangat kompleks."

Stempel Waktu:

Lebih dari Majalah kuantitas