Bagaimana Melupakan Selektif Dapat Membantu AI Belajar Lebih Baik

Diterbitkan Ulang Oleh Plato

Followers: 0

Bagaimana Melupakan Selektif Dapat Membantu AI Belajar Lebih Baik | Majalah Quanta PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sebuah tim ilmuwan komputer telah menciptakan a tipe yang lebih gesit, lebih fleksibel model pembelajaran mesin. Caranya: Ia harus secara berkala melupakan apa yang diketahuinya. Meskipun pendekatan baru ini tidak akan menggantikan model-model besar yang mendasari aplikasi-aplikasi terbesar, pendekatan baru ini dapat mengungkapkan lebih banyak tentang bagaimana program-program ini memahami bahasa.

Penelitian baru ini menandai “kemajuan signifikan di bidang ini,” katanya Jea Kwon, seorang insinyur AI di Institute for Basic Science di Korea Selatan.

Mesin bahasa AI yang digunakan saat ini sebagian besar didukung oleh jaringan saraf tiruan. Setiap “neuron” dalam jaringan adalah fungsi matematika yang menerima sinyal dari neuron lain, menjalankan beberapa perhitungan, dan mengirimkan sinyal melalui beberapa lapisan neuron. Awalnya aliran informasi kurang lebih acak, namun melalui pelatihan, aliran informasi antar neuron meningkat seiring dengan adaptasi jaringan terhadap data pelatihan. Jika seorang peneliti AI ingin membuat model bilingual, misalnya, dia akan melatih model tersebut dengan tumpukan besar teks dari kedua bahasa, yang akan menyesuaikan koneksi antar neuron sedemikian rupa sehingga dapat menghubungkan teks dalam satu bahasa dengan bahasa yang setara. kata-kata di sisi lain.

Namun proses pelatihan ini membutuhkan banyak daya komputasi. Jika modelnya tidak bekerja dengan baik, atau jika kebutuhan pengguna berubah di kemudian hari, akan sulit untuk mengadaptasinya. “Misalnya Anda memiliki model yang memiliki 100 bahasa, tetapi bayangkan satu bahasa yang Anda inginkan tidak tercakup,” katanya Mikel Artetxe, salah satu penulis penelitian baru dan pendiri startup AI Reka. “Anda bisa memulai dari awal, tapi itu tidak ideal.”

Artetxe dan rekan-rekannya telah mencoba untuk menghindari keterbatasan ini. Beberapa tahun yang lalu, Artetxe dan yang lainnya melatih jaringan saraf dalam satu bahasa, lalu menghapus apa yang diketahuinya tentang bahan penyusun kata, yang disebut token. Ini disimpan di lapisan pertama jaringan saraf, yang disebut lapisan penyematan. Mereka membiarkan semua lapisan model lainnya. Setelah menghapus token bahasa pertama, mereka melatih ulang model pada bahasa kedua, yang mengisi lapisan penyematan dengan token baru dari bahasa tersebut.

Meskipun model tersebut berisi informasi yang tidak cocok, pelatihan ulang berhasil: Model dapat mempelajari dan memproses bahasa baru. Para peneliti menduga bahwa meskipun lapisan penyematan menyimpan informasi spesifik tentang kata-kata yang digunakan dalam bahasa tersebut, tingkat jaringan yang lebih dalam menyimpan lebih banyak informasi abstrak tentang konsep di balik bahasa manusia, yang kemudian membantu model mempelajari bahasa kedua.

“Kita hidup di dunia yang sama. Kami mengonsep hal yang sama dengan kata-kata yang berbeda” dalam bahasa yang berbeda, kata Yi Hong Chen, penulis utama makalah terbaru. “Itulah mengapa Anda memiliki alasan tingkat tinggi yang sama dalam model tersebut. Sebuah apel adalah sesuatu yang manis dan berair, bukan hanya sebuah kata.”

Meskipun pendekatan melupakan ini merupakan cara yang efektif untuk menambahkan bahasa baru ke model yang sudah dilatih, pelatihan ulang masih tetap menuntut — hal ini memerlukan banyak data linguistik dan kekuatan pemrosesan. Chen menyarankan perubahan: Daripada melatih, menghapus lapisan penyematan, lalu melatih ulang, mereka harus menyetel ulang lapisan penyematan secara berkala selama putaran awal pelatihan. “Dengan melakukan ini, seluruh model akan terbiasa melakukan pengaturan ulang,” kata Artetxe. “Itu berarti ketika Anda ingin memperluas model ke bahasa lain, itu lebih mudah, karena itulah yang selama ini Anda lakukan.”

Para peneliti mengambil model bahasa yang umum digunakan yang disebut Roberta, melatihnya menggunakan teknik melupakan secara berkala, dan membandingkannya dengan performa model yang sama saat dilatih dengan pendekatan standar dan tanpa melupakan. Model lupa memberikan kinerja yang sedikit lebih buruk dibandingkan model konvensional, yaitu menerima skor 85.1 dibandingkan dengan 86.1 pada satu ukuran umum keakuratan bahasa. Kemudian mereka melatih ulang model tersebut dalam bahasa lain, menggunakan kumpulan data yang jauh lebih kecil, yaitu hanya 5 juta token, dibandingkan 70 miliar yang mereka gunakan pada pelatihan pertama. Akurasi model standar rata-rata menurun menjadi 53.3, namun model lupa hanya turun menjadi 62.7.

Model lupa juga bekerja jauh lebih baik jika tim menerapkan batasan komputasi selama pelatihan ulang. Ketika para peneliti mengurangi panjang pelatihan dari 125,000 langkah menjadi hanya 5,000, akurasi model lupa rata-rata menurun menjadi 57.8, sedangkan model standar turun menjadi 37.2, yang tidak lebih baik dari tebakan acak.

Tim menyimpulkan bahwa lupa secara berkala tampaknya membuat model tersebut lebih baik dalam mempelajari bahasa secara umum. “Karena [mereka] terus-menerus lupa dan belajar kembali selama pelatihan, mengajarkan jaringan sesuatu yang baru nantinya menjadi lebih mudah,” katanya Evgenii Nikishin, seorang peneliti di Mila, sebuah pusat penelitian pembelajaran mendalam di Quebec. Hal ini menunjukkan bahwa ketika model bahasa memahami suatu bahasa, mereka melakukannya pada tingkat yang lebih dalam dari sekedar makna kata-kata individual.

Pendekatannya mirip dengan cara kerja otak kita. “Ingatan manusia secara umum tidak begitu baik dalam menyimpan informasi detail dalam jumlah besar secara akurat. Sebaliknya, manusia cenderung mengingat inti pengalaman kita, mengabstraksi dan mengekstrapolasi,” katanya Benyamin Levy, seorang ahli saraf di Universitas San Francisco. “Mengaktifkan AI dengan proses yang lebih mirip manusia, seperti lupa adaptif, adalah salah satu cara untuk menghasilkan kinerja yang lebih fleksibel.”

Selain penjelasan tentang cara kerja pemahaman, Artetxe berharap model bahasa lupa yang lebih fleksibel juga dapat membantu membawa terobosan AI terbaru ke lebih banyak bahasa. Meskipun model AI pandai menangani bahasa Spanyol dan Inggris, dua bahasa dengan materi pelatihan yang cukup, model tersebut tidak begitu baik dengan bahasa aslinya, Basque, bahasa lokal khusus untuk Spanyol bagian timur laut. “Sebagian besar model dari perusahaan teknologi besar tidak melakukannya dengan baik,” katanya. “Mengadaptasi model yang ada ke Basque adalah cara yang tepat.”

Chen juga menantikan dunia di mana lebih banyak bunga AI bermekaran. “Saya sedang memikirkan situasi di mana dunia tidak memerlukan satu model bahasa yang besar. Kami punya banyak sekali,” katanya. “Jika ada pabrik yang membuat model bahasa, Anda memerlukan teknologi semacam ini. Ia memiliki satu model dasar yang dapat dengan cepat beradaptasi dengan domain baru.”

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://www.quantamagazine.org/how-selective-forgetting-can-help-ai-learn-better-20240228/

Stempel Waktu: Februari 28, 2024

Stempel Waktu: Jan 9, 2023

Bagaimana Melupakan Selektif Dapat Membantu AI Belajar Lebih Baik | Majalah Kuanta

Diterbitkan Ulang Oleh Plato

Lebih dari Majalah kuantitas

Dunia Nakal Membuang Ide Planet Keluar dari Orbit | Majalah Kuanta

Bakteri Laut Mengungkapkan Bentuk Multiseluler yang Tak Terduga

Dengan Tidak Ada Makanan Kecuali Virus, Beberapa Mikroba Berkembang

Trik Matematika Menjinakkan Jarak Tengah | Majalah Quanta

Matematikawan Menyelesaikan Quest untuk Membangun 'Kubus Bulat'

Bagaimana 'Diamond of the Plant World' Membantu Tumbuhan Darat Berkembang

Peta Baru Alam Semesta, Dilukis Dengan Neutrino Kosmik | Majalah Quanta

Bagaimana Letnan Star Trek Uhura Mengatasi Peluang Astronomi

Studi Tulang Dinosaurus Mengungkapkan Bahwa Tidak Semua Raksasa Tumbuh Sama

'Lobi' Tempat Massa Molekul Memberitahu Gen Apa yang Harus Dilakukan | Majalah Kuanta

Bagaimana Transformer Tampak Meniru Bagian Otak

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun

Pengantar

Pengantar

Pengantar

Lebih dari Majalah kuantitas

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun