Bagaimana Melupakan Selektif Dapat Membantu AI Belajar Lebih Baik | Majalah Kuanta

Bagaimana Melupakan Selektif Dapat Membantu AI Belajar Lebih Baik | Majalah Kuanta

Bagaimana Melupakan Selektif Dapat Membantu AI Belajar Lebih Baik | Majalah Quanta PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pengantar

Sebuah tim ilmuwan komputer telah menciptakan a tipe yang lebih gesit, lebih fleksibel model pembelajaran mesin. Caranya: Ia harus secara berkala melupakan apa yang diketahuinya. Meskipun pendekatan baru ini tidak akan menggantikan model-model besar yang mendasari aplikasi-aplikasi terbesar, pendekatan baru ini dapat mengungkapkan lebih banyak tentang bagaimana program-program ini memahami bahasa.

Penelitian baru ini menandai โ€œkemajuan signifikan di bidang ini,โ€ katanya Jea Kwon, seorang insinyur AI di Institute for Basic Science di Korea Selatan.

Mesin bahasa AI yang digunakan saat ini sebagian besar didukung oleh jaringan saraf tiruan. Setiap โ€œneuronโ€ dalam jaringan adalah fungsi matematika yang menerima sinyal dari neuron lain, menjalankan beberapa perhitungan, dan mengirimkan sinyal melalui beberapa lapisan neuron. Awalnya aliran informasi kurang lebih acak, namun melalui pelatihan, aliran informasi antar neuron meningkat seiring dengan adaptasi jaringan terhadap data pelatihan. Jika seorang peneliti AI ingin membuat model bilingual, misalnya, dia akan melatih model tersebut dengan tumpukan besar teks dari kedua bahasa, yang akan menyesuaikan koneksi antar neuron sedemikian rupa sehingga dapat menghubungkan teks dalam satu bahasa dengan bahasa yang setara. kata-kata di sisi lain.

Namun proses pelatihan ini membutuhkan banyak daya komputasi. Jika modelnya tidak bekerja dengan baik, atau jika kebutuhan pengguna berubah di kemudian hari, akan sulit untuk mengadaptasinya. โ€œMisalnya Anda memiliki model yang memiliki 100 bahasa, tetapi bayangkan satu bahasa yang Anda inginkan tidak tercakup,โ€ katanya Mikel Artetxe, salah satu penulis penelitian baru dan pendiri startup AI Reka. โ€œAnda bisa memulai dari awal, tapi itu tidak ideal.โ€

Artetxe dan rekan-rekannya telah mencoba untuk menghindari keterbatasan ini. Beberapa tahun yang lalu, Artetxe dan yang lainnya melatih jaringan saraf dalam satu bahasa, lalu menghapus apa yang diketahuinya tentang bahan penyusun kata, yang disebut token. Ini disimpan di lapisan pertama jaringan saraf, yang disebut lapisan penyematan. Mereka membiarkan semua lapisan model lainnya. Setelah menghapus token bahasa pertama, mereka melatih ulang model pada bahasa kedua, yang mengisi lapisan penyematan dengan token baru dari bahasa tersebut.

Meskipun model tersebut berisi informasi yang tidak cocok, pelatihan ulang berhasil: Model dapat mempelajari dan memproses bahasa baru. Para peneliti menduga bahwa meskipun lapisan penyematan menyimpan informasi spesifik tentang kata-kata yang digunakan dalam bahasa tersebut, tingkat jaringan yang lebih dalam menyimpan lebih banyak informasi abstrak tentang konsep di balik bahasa manusia, yang kemudian membantu model mempelajari bahasa kedua.

โ€œKita hidup di dunia yang sama. Kami mengonsep hal yang sama dengan kata-kata yang berbedaโ€ dalam bahasa yang berbeda, kata Yi Hong Chen, penulis utama makalah terbaru. โ€œItulah mengapa Anda memiliki alasan tingkat tinggi yang sama dalam model tersebut. Sebuah apel adalah sesuatu yang manis dan berair, bukan hanya sebuah kata.โ€

Pengantar

Meskipun pendekatan melupakan ini merupakan cara yang efektif untuk menambahkan bahasa baru ke model yang sudah dilatih, pelatihan ulang masih tetap menuntut โ€” hal ini memerlukan banyak data linguistik dan kekuatan pemrosesan. Chen menyarankan perubahan: Daripada melatih, menghapus lapisan penyematan, lalu melatih ulang, mereka harus menyetel ulang lapisan penyematan secara berkala selama putaran awal pelatihan. โ€œDengan melakukan ini, seluruh model akan terbiasa melakukan pengaturan ulang,โ€ kata Artetxe. โ€œItu berarti ketika Anda ingin memperluas model ke bahasa lain, itu lebih mudah, karena itulah yang selama ini Anda lakukan.โ€

Para peneliti mengambil model bahasa yang umum digunakan yang disebut Roberta, melatihnya menggunakan teknik melupakan secara berkala, dan membandingkannya dengan performa model yang sama saat dilatih dengan pendekatan standar dan tanpa melupakan. Model lupa memberikan kinerja yang sedikit lebih buruk dibandingkan model konvensional, yaitu menerima skor 85.1 dibandingkan dengan 86.1 pada satu ukuran umum keakuratan bahasa. Kemudian mereka melatih ulang model tersebut dalam bahasa lain, menggunakan kumpulan data yang jauh lebih kecil, yaitu hanya 5 juta token, dibandingkan 70 miliar yang mereka gunakan pada pelatihan pertama. Akurasi model standar rata-rata menurun menjadi 53.3, namun model lupa hanya turun menjadi 62.7.

Model lupa juga bekerja jauh lebih baik jika tim menerapkan batasan komputasi selama pelatihan ulang. Ketika para peneliti mengurangi panjang pelatihan dari 125,000 langkah menjadi hanya 5,000, akurasi model lupa rata-rata menurun menjadi 57.8, sedangkan model standar turun menjadi 37.2, yang tidak lebih baik dari tebakan acak.

Pengantar

Tim menyimpulkan bahwa lupa secara berkala tampaknya membuat model tersebut lebih baik dalam mempelajari bahasa secara umum. โ€œKarena [mereka] terus-menerus lupa dan belajar kembali selama pelatihan, mengajarkan jaringan sesuatu yang baru nantinya menjadi lebih mudah,โ€ katanya Evgenii Nikishin, seorang peneliti di Mila, sebuah pusat penelitian pembelajaran mendalam di Quebec. Hal ini menunjukkan bahwa ketika model bahasa memahami suatu bahasa, mereka melakukannya pada tingkat yang lebih dalam dari sekedar makna kata-kata individual.

Pendekatannya mirip dengan cara kerja otak kita. โ€œIngatan manusia secara umum tidak begitu baik dalam menyimpan informasi detail dalam jumlah besar secara akurat. Sebaliknya, manusia cenderung mengingat inti pengalaman kita, mengabstraksi dan mengekstrapolasi,โ€ katanya Benyamin Levy, seorang ahli saraf di Universitas San Francisco. โ€œMengaktifkan AI dengan proses yang lebih mirip manusia, seperti lupa adaptif, adalah salah satu cara untuk menghasilkan kinerja yang lebih fleksibel.โ€

Selain penjelasan tentang cara kerja pemahaman, Artetxe berharap model bahasa lupa yang lebih fleksibel juga dapat membantu membawa terobosan AI terbaru ke lebih banyak bahasa. Meskipun model AI pandai menangani bahasa Spanyol dan Inggris, dua bahasa dengan materi pelatihan yang cukup, model tersebut tidak begitu baik dengan bahasa aslinya, Basque, bahasa lokal khusus untuk Spanyol bagian timur laut. โ€œSebagian besar model dari perusahaan teknologi besar tidak melakukannya dengan baik,โ€ katanya. โ€œMengadaptasi model yang ada ke Basque adalah cara yang tepat.โ€

Chen juga menantikan dunia di mana lebih banyak bunga AI bermekaran. โ€œSaya sedang memikirkan situasi di mana dunia tidak memerlukan satu model bahasa yang besar. Kami punya banyak sekali,โ€ katanya. โ€œJika ada pabrik yang membuat model bahasa, Anda memerlukan teknologi semacam ini. Ia memiliki satu model dasar yang dapat dengan cepat beradaptasi dengan domain baru.โ€

Stempel Waktu:

Lebih dari Majalah kuantitas