Mesin Belajar Lebih Baik jika Kita Mengajari Dasar-Dasarnya

Mesin Belajar Lebih Baik jika Kita Mengajari Dasar-Dasarnya

Mesin Belajar Lebih Baik jika Kita Mengajari Mereka Dasar-Dasar Kecerdasan Data PlatoBlockchain. Pencarian Vertikal. Ai.

Pengantar

Bayangkan tetangga Anda menelepon untuk meminta bantuan: Bisakah Anda memberi makan kelinci peliharaannya beberapa irisan wortel? Cukup mudah, Anda akan berpikir. Anda dapat membayangkan dapur mereka, meskipun Anda belum pernah ke sana โ€” wortel di lemari es, laci berisi berbagai pisau. Ini pengetahuan abstrak: Anda tidak tahu persis seperti apa wortel dan pisau tetangga Anda, tetapi Anda tidak akan mengambil sendok ke mentimun.

Program kecerdasan buatan tidak dapat bersaing. Apa yang menurut Anda merupakan tugas yang mudah adalah tugas besar untuk algoritme saat ini.

Robot yang dilatih AI dapat menemukan pisau dan wortel tertentu yang bersembunyi di dapur yang sudah dikenalnya, tetapi di dapur yang berbeda ia tidak memiliki keterampilan abstrak untuk berhasil. โ€œMereka tidak menggeneralisasi ke lingkungan baru,โ€ kata pemenang zhong, seorang mahasiswa pascasarjana dalam ilmu komputer di University of Washington. Mesin gagal karena terlalu banyak yang harus dipelajari, dan ruang yang terlalu luas untuk dijelajahi.

Masalahnya adalah robot ini โ€” dan agen AI pada umumnya โ€” tidak memiliki dasar konsep untuk dibangun. Mereka tidak tahu apa sebenarnya pisau atau wortel itu, apalagi cara membuka laci, memilih satu dan memotong irisan. Keterbatasan ini sebagian disebabkan oleh fakta bahwa banyak sistem AI tingkat lanjut dilatih dengan metode yang disebut pembelajaran penguatan yang pada dasarnya mendidik diri sendiri melalui coba-coba. Agen AI yang dilatih dengan pembelajaran penguatan dapat menjalankan pekerjaan yang telah dilatih untuk mereka lakukan dengan sangat baik, di lingkungan tempat mereka dilatih untuk melakukannya. Namun, ubah pekerjaan atau lingkungan, dan sistem ini akan sering gagal.

Untuk mengatasi batasan ini, ilmuwan komputer telah mulai mengajarkan konsep-konsep penting pada mesin sebelum melepaskannya. Ini seperti membaca manual sebelum menggunakan perangkat lunak baru: Anda dapat mencoba menjelajah tanpanya, tetapi Anda akan belajar jauh lebih cepat dengannya. โ€œManusia belajar melalui kombinasi melakukan dan membaca,โ€ kata Karthik Narasimhan, seorang ilmuwan komputer di Universitas Princeton. โ€œKami ingin mesin melakukan hal yang sama.โ€

Pekerjaan Baru dari Zhong dan lainnya menunjukkan bahwa menyiapkan model pembelajaran dengan cara ini dapat meningkatkan pembelajaran dalam lingkungan simulasi, baik online maupun di dunia nyata dengan robot. Dan ini tidak hanya membuat algoritme belajar lebih cepat โ€” ini juga memandu mereka menuju keterampilan yang sebelumnya tidak akan pernah mereka pelajari. Para peneliti ingin agen-agen ini menjadi generalis, yang mampu mempelajari apa saja mulai dari catur hingga berbelanja hingga bersih-bersih. Dan ketika demonstrasi menjadi lebih praktis, para ilmuwan berpikir pendekatan ini bahkan mungkin mengubah cara manusia dapat berinteraksi dengan robot.

โ€œIni merupakan terobosan yang cukup besar,โ€ kata Brian Ichter, seorang ilmuwan riset robotika di Google. "Sangat tidak terbayangkan seberapa jauh itu terjadi dalam satu setengah tahun."

Hadiah Jarang

Sekilas, pembelajaran mesin sudah sangat sukses. Kebanyakan model biasanya menggunakan penguatan pembelajaran, di mana algoritme belajar dengan mendapatkan hadiah. Mereka mulai benar-benar bodoh, tetapi coba-coba akhirnya menjadi percobaan dan kemenangan. Agen pembelajaran penguatan dapat dengan mudah menguasai permainan sederhana.

Pertimbangkan video game Snake, di mana pemain mengontrol ular yang tumbuh lebih panjang saat memakan apel digital. Anda ingin ular Anda memakan apel paling banyak, tetap berada di dalam batas dan menghindari menabrak tubuhnya yang semakin besar. Hasil benar dan salah yang jelas seperti itu memberikan umpan balik positif kepada agen mesin yang dihargai dengan baik, sehingga upaya yang cukup dapat membawanya dari "noob" ke Skor Tinggi.

Tapi misalkan aturannya berubah. Mungkin agen yang sama harus bermain di grid yang lebih besar dan dalam tiga dimensi. Sementara pemain manusia bisa beradaptasi dengan cepat, mesin tidak bisa, karena dua kelemahan kritis. Pertama, ruang yang lebih besar berarti ular membutuhkan waktu lebih lama untuk menemukan apel, dan pembelajaran melambat secara eksponensial ketika hadiah menjadi jarang. Kedua, dimensi baru memberikan pengalaman yang sama sekali baru, dan pembelajaran penguatan berjuang untuk menggeneralisasi tantangan baru.

Zhong berkata kita tidak perlu menerima rintangan ini. "Mengapa ketika kita ingin bermain catur" - permainan lain yang telah dikuasai pembelajaran penguatan - "kita melatih agen pembelajaran penguatan dari awal?" Pendekatan seperti itu tidak efisien. Agen berkeliaran tanpa tujuan sampai menemukan situasi yang baik, seperti skakmat, dan Zhong mengatakan itu membutuhkan desain manusia yang hati-hati untuk membuat agen mengetahui apa artinya situasi menjadi baik. โ€œMengapa kita harus melakukan ini padahal kita sudah memiliki begitu banyak buku tentang cara bermain catur?โ€

Sebagian karena mesin telah berjuang untuk memahami bahasa manusia dan menguraikan gambar sejak awal. Agar robot dapat menyelesaikan tugas berbasis penglihatan seperti menemukan dan mengiris wortel, misalnya, ia harus mengetahui apa itu wortel โ€” citra suatu benda harus "didasarkan" pada pemahaman yang lebih mendasar tentang benda apa itu. Sampai baru-baru ini, tidak ada cara yang baik untuk melakukan itu, tetapi ledakan dalam kecepatan dan skala pemrosesan bahasa dan gambar telah memungkinkan kesuksesan baru.

New pemrosesan bahasa alami model memungkinkan mesin untuk mempelajari makna di balik kata dan kalimat โ€” untuk mendasarkannya pada benda-benda di dunia โ€” daripada hanya menyimpan makna sederhana (dan terbatas) seperti kamus digital.

Visi komputer telah melihat ledakan digital serupa. Sekitar tahun 2009, ImageNet memulai debutnya sebagai database gambar beranotasi untuk penelitian visi komputer. Hari ini menampung lebih dari 14 juta gambar objek dan tempat. Dan program seperti OpenAI DALLยทE menghasilkan gambar baru berdasarkan perintah yang terlihat buatan manusia, meskipun tidak memiliki perbandingan yang tepat untuk diambil.

Ini menunjukkan bagaimana mesin sekarang memiliki akses ke data online yang cukup untuk benar-benar belajar tentang dunia Anima Anandkumar, seorang ilmuwan komputer di California Institute of Technology dan Nvidia. Dan itu pertanda bahwa mereka dapat belajar dari konsep seperti yang kita lakukan dan menggunakannya untuk generasi selanjutnya. "Kami berada dalam momen yang luar biasa sekarang," katanya. โ€œKarena begitu kita bisa mendapatkan generasi, masih banyak lagi yang bisa kita lakukan.โ€

Game Sistem

Para peneliti seperti Zhong memutuskan bahwa mesin tidak perlu lagi melakukan eksplorasi tanpa informasi sama sekali. Berbekal model bahasa yang canggih, para peneliti dapat menambahkan langkah pra-pelatihan di mana sebuah program belajar dari informasi online sebelum melakukan trial and error.

Untuk menguji gagasan tersebut, dia dan rekan-rekannya membandingkan pra-pelatihan dengan pembelajaran penguatan tradisional lima pengaturan seperti permainan yang berbeda di mana agen mesin menginterpretasikan perintah bahasa untuk memecahkan masalah. Setiap lingkungan simulasi menantang agen mesin secara unik. Seseorang meminta agen untuk memanipulasi barang di dapur 3D; teks bacaan lain yang diperlukan untuk mempelajari urutan tindakan yang tepat untuk melawan monster. Tetapi pengaturan yang paling rumit adalah permainan nyata, NetHack yang berusia 35 tahun, di mana tujuannya adalah untuk menavigasi ruang bawah tanah yang canggih untuk mengambil jimat.

Untuk pengaturan sederhana, pra-pelatihan otomatis berarti hanya membumikan konsep-konsep penting: Ini wortel, itu monster. Untuk NetHack, agen dilatih dengan melihat manusia bermain, menggunakan permainan yang diunggah ke internet oleh pemain manusia. Permainan ini bahkan tidak harus sebagus itu โ€” agen hanya perlu membangun intuisi tentang bagaimana manusia berperilaku. Agen itu tidak dimaksudkan untuk menjadi ahli, hanya pemain biasa. Itu akan membangun intuisi dengan mengamati โ€” apa yang akan dilakukan manusia dalam skenario tertentu? Agen akan memutuskan gerakan apa yang berhasil, merumuskan wortel dan tongkatnya sendiri.

โ€œMelalui pra-pelatihan, kami membentuk pendahuluan yang baik tentang cara mengaitkan deskripsi bahasa dengan hal-hal yang terjadi di dunia,โ€ kata Zhong. Agen akan bermain lebih baik dari awal dan belajar lebih cepat selama pembelajaran penguatan berikutnya.

Akibatnya, agen yang terlatih sebelumnya mengungguli agen yang terlatih secara tradisional. โ€œKami mendapatkan keuntungan secara keseluruhan di kelima lingkungan ini,โ€ kata Zhong. Pengaturan yang lebih sederhana hanya menunjukkan sedikit keunggulan, tetapi di ruang bawah tanah NetHack yang rumit, agen belajar berkali-kali lebih cepat dan mencapai tingkat keahlian yang tidak bisa dicapai oleh pendekatan klasik. โ€œAnda mungkin mendapatkan kinerja 10x karena jika Anda tidak melakukan ini, maka Anda tidak mempelajari kebijakan yang baik,โ€ katanya.

โ€œAgen generalis ini merupakan lompatan besar dari apa yang dilakukan pembelajaran penguatan standar,โ€ kata Anandkumar.

Timnya juga melatih agen terlebih dahulu agar mereka belajar lebih cepat, mencapai kemajuan signifikan dalam video game terlaris di dunia, Minecraft. Ini dikenal sebagai permainan "kotak pasir", yang berarti memberi pemain ruang yang hampir tak terbatas untuk berinteraksi dan menciptakan dunia baru. Sia-sia memprogram fungsi hadiah untuk ribuan tugas satu per satu, jadi alih-alih model tim (โ€œMilikkuDojoโ€) membangun pemahamannya tentang game dengan menonton video permainan yang diberi judul. Tidak perlu mengkodifikasi perilaku yang baik.

โ€œKami mendapatkan fungsi penghargaan otomatis,โ€ kata Anandkumar. โ€œIni adalah tolok ukur pertama dengan ribuan tugas dan kemampuan untuk melakukan pembelajaran penguatan dengan tugas terbuka yang ditentukan melalui petunjuk teks.โ€

Di Luar Game

Game adalah cara yang bagus untuk menunjukkan bahwa model pra-pelatihan dapat berfungsi, tetapi itu masih dunia yang disederhanakan. Melatih robot untuk menangani dunia nyata, di mana kemungkinannya praktis tidak terbatas, jauh lebih sulit. "Kami mengajukan pertanyaan: Apakah ada sesuatu di antaranya?" kata Narasimhan. Jadi dia memutuskan untuk melakukan beberapa belanja online.

Timnya menciptakan WebShop. โ€œIni pada dasarnya seperti kepala pelayan belanja,โ€ kata Narasimhan. Pengguna dapat mengatakan sesuatu seperti "Beri saya sepatu Nike yang putih dan di bawah $100, dan saya ingin ulasan tersebut menyatakan bahwa sepatu tersebut sangat nyaman untuk balita", dan program menemukan dan membeli sepatu tersebut.

Seperti game Zhong dan Anandkumar, WebShop mengembangkan intuisi dengan melatih gambar dan teks, kali ini dari halaman Amazon. โ€œSeiring waktu, ia belajar memahami bahasa dan memetakannya ke tindakan yang harus diambil di situs web.โ€

Sekilas, kepala pelayan belanja mungkin tidak terlihat begitu futuristik. Tetapi sementara chatbot canggih dapat menautkan Anda ke sepatu kets yang diinginkan, interaksi seperti melakukan pemesanan memerlukan keahlian yang sama sekali berbeda. Dan meskipun speaker Alexa atau Google Home di samping tempat tidur Anda dapat memesan, mereka bergantung pada perangkat lunak berpemilik yang melakukan tugas yang telah ditentukan sebelumnya. WebShop menavigasi web seperti yang dilakukan orang: dengan membaca, mengetik, dan mengklik.

โ€œIni selangkah lebih dekat menuju kecerdasan umum,โ€ kata Narasimhan.

Pengantar

Tentu saja, mengajak robot untuk berinteraksi dengan dunia nyata memiliki tantangan tersendiri. Pertimbangkan sebuah botol, misalnya. Anda dapat mengenalinya dari penampilannya, Anda tahu itu dimaksudkan untuk menyimpan cairan, dan Anda mengerti cara memanipulasinya dengan tangan Anda. Bisakah mesin nyata mengubah kata dan gambar menjadi kecerdasan gerak yang kompleks?

Narasimhan berkolaborasi dengan Anirudha Majumdar, seorang ahli robot di Princeton, untuk mencari tahu. Mereka mengajarkan lengan robotik untuk memanipulasi alat yang belum pernah dilihat sebelumnya, dan melatihnya menggunakan bahasa deskriptif yang diambil dari model bahasa yang sukses. Program belajar lebih cepat dan tampil lebih baik dengan hampir setiap alat dan tindakan, dibandingkan dengan program belajar dengan eksplorasi tradisional, menurut hasil diposting ke server pracetak arxiv.org Juni lalu.

Insinyur telah membangun perpustakaan perintah yang lebih kompleks di laboratorium robotika Google, juga berakar pada pra-pelatihan pembangunan konteks. โ€œDunia kemungkinan yang harus Anda pertimbangkan sangat besar,โ€ kata Karol Hausman, seorang ilmuwan riset di tim robotika Google. โ€œJadi kami meminta model bahasa untuk menguraikannya untuk kami.โ€

Tim bekerja dengan robot pembantu bergerak, dengan lengan bersendi tujuh, yang mereka latih menggunakan keterampilan bahasa. Untuk setiap perintah yang diberikan โ€” seperti "bantu saya membersihkan minuman saya yang tumpah" โ€” program menggunakan model bahasa untuk menyarankan tindakan dari perpustakaan berisi 700 gerakan terlatih, seperti "ambil" handuk kertas, "ambil" kalengnya, atau " buangโ€ kalengnya. Dan Hausman mengatakan mengakui keterbatasannya dengan ungkapan seperti โ€œSaya sebenarnya tidak mampu menghapusnya. Tapi aku bisa membawakanmu spons.โ€ Tim baru-baru ini melaporkan hasil dari proyek ini, yang disebut Katakan Bisa.

Keuntungan lain memberdayakan robot dengan model bahasa adalah menerjemahkan sinonim dan kata dalam bahasa lain menjadi hal yang sepele. Satu orang dapat mengatakan "memutar", sementara yang lain mengatakan "memutar", dan robot memahami keduanya. โ€œHal paling gila yang kami coba adalah ia juga memahami emoji,โ€ kata Fei Xia, seorang ilmuwan riset di Google.

Bot Sedang Belajar        

SayCan mungkin merupakan demonstrasi paling maju dari pembelajaran berbasis bahasa dalam robotika hingga saat ini. Dan model bahasa dan gambar terus meningkat, menciptakan teknik pra-pelatihan yang lebih baik dan lebih kompleks.

Tapi Xia berhati-hati untuk meredam kegembiraan. โ€œSeseorang dengan setengah bercanda mengatakan kami mencapai momen 'robot GPT',โ€ katanya, mengacu pada model bahasa inovatif yang memahami beragam perintah manusia. "Kami belum sampai di sana, dan masih banyak lagi yang harus dijelajahi."

Misalnya, model-model ini dapat memberikan jawaban yang salah atau mengambil tindakan yang salah, yang coba dipahami oleh para peneliti. Robot juga belum dikuasaiโ€perwujudanโ€: Sementara manusia memiliki intuisi fisik yang dibangun di masa kanak-kanak yang dihabiskan untuk bermain dengan mainan, robot masih memerlukan interaksi dunia nyata untuk mengembangkan jenis intuisi ini. โ€œUntuk beberapa pengaturan, ada banyak demonstrasi tanpa label,โ€ kata Zhong โ€” bayangkan database interaksi video game seperti Minecraft dan NetHack. Tidak ada basis data yang dapat dengan cepat mengajarkan gerakan cerdas robot.

Tetap saja, kemajuan terjadi dengan cepat. Dan lebih banyak peneliti percaya bahwa robotika yang lebih cerdas akan menjadi hasil akhirnya. Narasimhan menelusuri evolusi manusia-robot ini dari punch card ke teknologi selanjutnya. โ€œKami memiliki keyboard dan mouse, lalu layar sentuh,โ€ katanya. Bahasa yang membumi berikutnya. Anda akan berbicara dengan komputer Anda untuk mendapatkan jawaban dan tugas. โ€œSeluruh impian asisten yang benar-benar mampu ini belum terjadi,โ€ katanya. "Tapi saya pikir itu akan terjadi segera."

Stempel Waktu:

Lebih dari Majalah kuantitas