Google DeepMind Melatih 'Brainstorming Buatan' di Chess AI | Majalah Kuanta

Google DeepMind Melatih 'Brainstorming Buatan' di Chess AI | Majalah Kuanta

Google DeepMind Melatih 'Brainstorming Buatan' di Chess AI | Majalah Quanta PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pengantar

Ketika Covid-19 membuat orang pulang pada awal tahun 2020, ilmuwan komputer Tom Zahavy menemukan kembali catur. Dia pernah bermain saat kecil dan baru-baru ini membaca karya Garry Kasparov Pemikiran yang mendalam, memoar pertandingan grandmaster tahun 1997 melawan komputer permainan catur IBM, Deep Blue. Dia menonton video catur di YouTube dan Gambit Ratu di Netflix.

Meskipun minatnya kembali meningkat, Zahavy tidak mencari cara untuk meningkatkan permainannya. “Saya bukan pemain hebat,” katanya. “Saya lebih baik dalam teka-teki catur” — susunan bidak, sering kali dibuat-buat dan tidak mungkin terjadi dalam permainan sebenarnya, yang menantang pemain untuk menemukan cara kreatif untuk mendapatkan keuntungan.

Teka-teki ini dapat membantu pemain mempertajam keterampilan mereka, namun baru-baru ini teka-teki tersebut membantu mengungkap keterbatasan tersembunyi dari program catur. Salah satu teka-teki paling terkenal, yang dirancang oleh ahli matematika Sir Roger Penrose pada tahun 2017, menempatkan bidak hitam yang lebih kuat (seperti ratu dan benteng) di papan, tetapi dalam posisi yang tidak tepat. Seorang pemain manusia yang berpengalaman, yang bermain dengan warna putih, dapat dengan mudah membuat permainan menjadi seri, namun program catur komputer yang hebat akan mengatakan bahwa warna hitam memiliki keunggulan yang jelas. Perbedaan tersebut, kata Zahavy, menunjukkan bahwa meskipun komputer dapat mengalahkan pemain manusia terbaik di dunia, mereka belum dapat mengenali dan mengatasi setiap jenis masalah yang sulit. Sejak itu, Penrose dan yang lainnya telah merancang kumpulan teka-teki yang sulit dipecahkan oleh komputer.

Catur telah lama menjadi batu ujian untuk menguji ide-ide baru kecerdasan buatan, dan teka-teki Penrose menggelitik minat Zahavy. “Saya mencoba memahami apa yang membuat posisi ini begitu sulit bagi komputer, padahal setidaknya beberapa di antaranya bisa kita selesaikan sebagai manusia,” katanya. “Saya benar-benar terpesona.” Ini segera berkembang menjadi minat profesional: Sebagai ilmuwan riset di Google DeepMind, Zahavy mengeksplorasi pendekatan pemecahan masalah yang kreatif. Tujuannya adalah untuk merancang sistem AI dengan spektrum perilaku yang mungkin dilakukan selain melakukan satu tugas.

Program catur AI tradisional, yang dilatih untuk menang, mungkin tidak masuk akal seperti teka-teki Penrose, namun Zahavy menduga bahwa program yang terdiri dari banyak sistem berbeda, yang bekerja sama sebagai sebuah kelompok, dapat mencapai kemajuan. Jadi dia dan rekan-rekannya mengembangkan cara untuk menggabungkan beberapa (hingga 10) sistem AI pengambilan keputusan, yang masing-masing dioptimalkan dan dilatih untuk strategi berbeda, dimulai dengan AlphaZero, program catur canggih milik DeepMind. Sistem baru, mereka dilaporkan pada bulan Agustus, bermain lebih baik daripada AlphaZero saja, dan itu menunjukkan lebih banyak keterampilan — dan lebih banyak kreativitas — dalam menangani teka-teki Penrose. Kemampuan ini, dalam arti tertentu, berasal dari kolaborasi mandiri: Jika satu pendekatan gagal, program akan beralih ke pendekatan lain.

Pendekatan itu pada dasarnya masuk akal, katanya Allison Liemhetcharat, seorang ilmuwan komputer di DoorDash yang telah bekerja dengan pendekatan multi-agen untuk pemecahan masalah di bidang robotika. “Dengan populasi agen, ada kemungkinan lebih tinggi bahwa teka-teki tersebut berada dalam domain dimana setidaknya salah satu agen dilatih.”

Penelitian ini menunjukkan bahwa tim dengan sistem AI yang beragam dapat secara efisien mengatasi masalah-masalah sulit di luar permainan. “Ini adalah contoh bagus bahwa mencari lebih dari satu cara untuk memecahkan suatu masalah – seperti memenangkan permainan catur – memberikan banyak manfaat,” kata Antoine Cully, seorang peneliti AI di Imperial College London yang tidak terlibat dengan proyek DeepMind. Dia membandingkannya dengan versi buatan dari sesi brainstorming manusia. “Proses berpikir ini mengarah pada solusi kreatif dan efektif yang tidak akan terjawab jika kita tidak melakukan latihan ini.”

Mengejar Kegagalan

Sebelum bergabung dengan DeepMind, Zahavy tertarik pada pembelajaran penguatan mendalam, sebuah bidang kecerdasan buatan di mana sistem menggunakan jaringan saraf untuk mempelajari beberapa tugas melalui trial and error. Ini adalah dasar untuk program catur yang paling kuat (dan digunakan dalam aplikasi AI lainnya seperti mobil self-driving). Sistem dimulai dengan lingkungannya. Dalam catur, misalnya, lingkungan mencakup papan permainan dan kemungkinan gerakannya. Jika tugasnya adalah mengendarai mobil, maka lingkungan mencakup segala sesuatu yang ada di sekitar kendaraan tersebut. Sistem kemudian membuat keputusan, mengambil tindakan, dan mengevaluasi seberapa dekat sistem tersebut dengan tujuannya. Semakin dekat dengan tujuan, sistem akan mengumpulkan imbalan, dan saat sistem mengumpulkan imbalan, kinerjanya akan meningkat. Bagian “dalam” dari pendekatan ini menggambarkan jaringan saraf yang digunakan untuk menganalisis dan menilai perilaku.

Pembelajaran penguatan adalah cara AlphaZero belajar menjadi master catur. Pikiran Dalam melaporkan bahwa selama sembilan jam pertama pelatihan, pada bulan Desember 2017, program tersebut memainkan 44 juta pertandingan melawan dirinya sendiri. Pada awalnya, gerakannya ditentukan secara acak, namun seiring berjalannya waktu, ia belajar memilih gerakan yang lebih cenderung mengarah ke skakmat. Hanya setelah beberapa jam pelatihan, AlphaZero mengembangkan kemampuan untuk mengalahkan pemain catur manusia mana pun.

Namun sesukses pembelajaran penguatan, hal ini tidak selalu mengarah pada strategi yang mencerminkan pemahaman umum tentang permainan. Selama sekitar setengah dekade terakhir, Zahavy dan yang lainnya memperhatikan peningkatan gangguan aneh yang dapat terjadi pada sistem yang dilatih dengan trial and error. Sebuah sistem yang memainkan video game, misalnya, mungkin menemukan celah dan mencari cara untuk menipu atau melewati suatu level, atau sistem tersebut dapat dengan mudah terjebak dalam putaran yang berulang. Teka-teki bergaya Penrose juga menunjukkan semacam titik buta, atau kesalahan, di AlphaZero - ia tidak dapat menemukan cara untuk mengatasi masalah yang belum pernah terjadi sebelumnya.

Namun mungkin tidak semua glitch hanyalah kesalahan belaka. Zahavy curiga bahwa titik buta AlphaZero mungkin sebenarnya adalah sesuatu yang lain yang menyamar — keputusan dan perilaku terkait dengan imbalan internal sistem. Sistem pembelajaran penguatan mendalam, katanya, tidak tahu bagaimana cara gagal – atau bahkan bagaimana mengenali kegagalan. Kemampuan untuk gagal telah lama dikaitkan dengan pemecahan masalah secara kreatif. “Kreativitas memiliki kualitas manusiawi,” tulis Kasparov Pemikiran yang mendalam. “Ia menerima gagasan kegagalan.”

Sistem AI biasanya tidak. Dan jika suatu sistem tidak menyadari bahwa ia gagal menyelesaikan tugasnya, maka sistem tersebut mungkin tidak akan mencoba hal lain. Sebaliknya, ia hanya akan terus mencoba melakukan apa yang telah dilakukannya. Kemungkinan itulah yang menyebabkan jalan buntu dalam video game – atau terjebak pada beberapa tantangan Penrose, kata Zahavy. Sistem ini mengejar “penghargaan intrinsik yang aneh,” katanya, yang telah dikembangkan selama pelatihannya. Hal-hal yang tampak seperti kesalahan dari luar kemungkinan besar merupakan konsekuensi dari pengembangan strategi yang spesifik namun pada akhirnya tidak berhasil.

Sistem menganggap imbalan aneh ini sebagai langkah menuju tujuan yang lebih besar, yang sebenarnya tidak dapat dicapai, dan tidak tahu cara mencoba sesuatu yang baru. “Saya mencoba memahaminya,” kata Zahavy.

Permainan yang Lebih Baik

Salah satu alasan mengapa gangguan ini terbukti sangat penting – dan sangat berguna – berasal dari apa yang para peneliti kenali sebagai masalah generalisasi. Meskipun sistem pembelajaran penguatan dapat mengembangkan strategi efektif untuk menghubungkan situasi tertentu dengan tindakan tertentu – yang oleh para peneliti disebut sebagai “kebijakan” – sistem tersebut tidak dapat diterapkan pada masalah yang berbeda. “Apa yang biasanya cenderung terjadi dengan pembelajaran penguatan, terlepas dari metodenya, adalah Anda mendapatkan kebijakan yang memecahkan masalah tertentu yang telah Anda latih, namun tidak menggeneralisasi,” kata Julian Togelius, seorang ilmuwan komputer di Universitas New York dan direktur penelitian di modl.ai.

Zahavy melihat teka-teki Penrose memerlukan generalisasi semacam ini. Mungkin AlphaZero tidak dapat memecahkan sebagian besar teka-teki karena terlalu fokus untuk memenangkan seluruh permainan, dari awal hingga akhir. Namun pendekatan tersebut memunculkan titik-titik buta yang terlihat dari susunan potongan-potongan yang tidak terduga dalam teka-teki Penrose. Mungkin, dia beralasan, program ini dapat belajar untuk memecahkan teka-teki jika program tersebut memiliki ruang kreatif yang cukup untuk bertukar pikiran dan mengakses metode pelatihan yang berbeda.

Jadi dia dan rekan-rekannya pertama-tama mengumpulkan satu set 53 teka-teki Penrose dan 15 teka-teki tantangan tambahan. Dengan sendirinya, AlphaZero memecahkan kurang dari 4% teka-teki Penrose dan kurang dari 12% sisanya. Zahavy tidak terkejut: Banyak dari teka-teki ini dirancang oleh para ahli catur untuk sengaja membingungkan komputer.

Sebagai ujian, para peneliti mencoba melatih AlphaZero untuk bermain melawan dirinya sendiri menggunakan susunan puzzle Penrose sebagai posisi awal, bukan permainan papan penuh pada umumnya. Performanya meningkat secara dramatis: Ia memecahkan 96% teka-teki Penrose dan 76% rangkaian tantangan. Secara umum, ketika AlphaZero berlatih pada teka-teki tertentu, ia dapat memecahkan teka-teki tersebut, sama seperti ia dapat menang ketika dilatih pada permainan penuh. Mungkin, pikir Zahavy, jika sebuah program catur bisa memiliki akses ke semua versi AlphaZero yang berbeda, dilatih pada posisi berbeda tersebut, maka keberagaman itu bisa memicu kemampuan untuk mendekati masalah baru secara produktif. Mungkin ini bisa menggeneralisasi, dengan kata lain, memecahkan tidak hanya teka-teki Penrose, tapi masalah catur yang lebih luas.

Kelompoknya memutuskan untuk mencari tahu. Mereka membangun versi AlphaZero yang baru dan terdiversifikasi, yang mencakup beberapa sistem AI yang dilatih secara mandiri dan dalam berbagai situasi. Algoritme yang mengatur sistem secara keseluruhan bertindak sebagai semacam pencari jodoh virtual, kata Zahavy: algoritma yang dirancang untuk mengidentifikasi agen mana yang memiliki peluang terbaik untuk berhasil ketika tiba waktunya untuk mengambil tindakan. Dia dan rekan-rekannya juga mengkodekan “bonus keberagaman” – sebuah penghargaan bagi sistem setiap kali sistem menarik strategi dari banyak pilihan.

Ketika sistem baru ini diluncurkan untuk memainkan permainannya sendiri, tim mengamati banyak variasi. Pemain AI yang terdiversifikasi bereksperimen dengan pembukaan baru dan efektif serta keputusan baru — namun masuk akal — tentang strategi tertentu, seperti kapan dan di mana melakukan kastil. Di sebagian besar pertandingan, ia mengalahkan AlphaZero asli. Tim juga menemukan bahwa versi yang terdiversifikasi dapat memecahkan teka-teki tantangan dua kali lebih banyak daripada aslinya dan dapat memecahkan lebih dari setengah total katalog teka-teki Penrose.

“Idenya adalah bahwa alih-alih menemukan satu solusi, atau satu kebijakan, yang akan mengalahkan pemain mana pun, di sini [ia menggunakan] gagasan keberagaman kreatif,” kata Cully.

Dengan akses ke permainan yang lebih banyak dan berbeda, kata Zahavy, AlphaZero yang terdiversifikasi memiliki lebih banyak opsi untuk situasi sulit ketika situasi tersebut muncul. “Jika Anda dapat mengontrol jenis permainan yang dilihatnya, pada dasarnya Anda mengontrol bagaimana ia akan menggeneralisasi,” katanya. Imbalan intrinsik yang aneh ini (dan gerakan terkaitnya) bisa menjadi kekuatan untuk beragam perilaku. Kemudian sistem dapat belajar menilai dan menilai pendekatan-pendekatan yang berbeda dan melihat kapan pendekatan-pendekatan tersebut paling berhasil. “Kami menemukan bahwa kelompok agen ini benar-benar dapat mencapai kesepakatan mengenai posisi ini.”

Dan yang terpenting, dampaknya tidak hanya terbatas pada catur.

Kreativitas Kehidupan Nyata

Cully mengatakan pendekatan yang terdiversifikasi dapat membantu sistem AI apa pun, tidak hanya sistem yang didasarkan pada pembelajaran penguatan. Dia sudah lama menggunakan keragaman untuk melatih sistem fisik, termasuk a robot berkaki enam yang dibiarkan mengeksplorasi berbagai macam gerakan, sebelum ia dengan sengaja “melukainya”, membiarkannya terus bergerak menggunakan beberapa teknik yang telah dikembangkannya sebelumnya. “Kami hanya mencoba mencari solusi yang berbeda dari semua solusi yang kami temukan sejauh ini.” Baru-baru ini, dia juga berkolaborasi dengan para peneliti untuk menggunakan keragaman guna mengidentifikasi kandidat obat baru yang menjanjikan dan mengembangkan strategi perdagangan saham yang efektif.

“Tujuannya adalah untuk menghasilkan kumpulan besar yang berpotensi menghasilkan ribuan solusi berbeda, di mana setiap solusi sangat berbeda dari solusi berikutnya,” kata Cully. Jadi — seperti yang dipelajari oleh pemain catur yang terdiversifikasi — untuk setiap jenis masalah, keseluruhan sistem dapat memilih solusi terbaik. Sistem AI Zahavy, katanya, dengan jelas menunjukkan bagaimana “mencari beragam strategi membantu berpikir di luar kebiasaan dan menemukan solusi.”

Zahavy menduga agar sistem AI dapat berpikir kreatif, peneliti hanya perlu membuat mereka mempertimbangkan lebih banyak pilihan. Hipotesis tersebut menunjukkan adanya hubungan aneh antara manusia dan mesin: Mungkin kecerdasan hanyalah masalah kekuatan komputasi. Untuk sistem AI, mungkin kreativitas bermuara pada kemampuan untuk mempertimbangkan dan memilih dari sejumlah besar pilihan. Ketika sistem memperoleh imbalan karena memilih berbagai strategi optimal, pemecahan masalah kreatif semacam ini semakin diperkuat dan diperkuat. Pada akhirnya, secara teori, ia dapat meniru segala jenis strategi pemecahan masalah yang dianggap kreatif pada manusia. Kreativitas akan menjadi masalah komputasi.

Liemhetcharat mencatat bahwa sistem AI yang terdiversifikasi tidak mungkin sepenuhnya menyelesaikan masalah generalisasi yang lebih luas dalam pembelajaran mesin. Tapi ini adalah langkah ke arah yang benar. “Ini mengurangi salah satu kekurangannya,” katanya.

Secara praktis, hasil penelitian Zahavy sejalan dengan upaya terbaru yang menunjukkan bagaimana kerja sama dapat menghasilkan kinerja yang lebih baik dalam tugas-tugas sulit di antara manusia. Sebagian besar hits di daftar Billboard 100 ditulis oleh tim penulis lagu, misalnya, bukan individu. Dan masih ada ruang untuk perbaikan. Pendekatan yang beragam saat ini memerlukan komputasi yang mahal, karena harus mempertimbangkan lebih banyak kemungkinan dibandingkan sistem pada umumnya. Zahavy juga tidak yakin bahwa AlphaZero yang terdiversifikasi mampu menangkap seluruh spektrum kemungkinan.

“Saya masih [berpikir] masih ada ruang untuk menemukan solusi berbeda,” katanya. “Bagi saya tidak jelas apakah dengan semua data yang ada di dunia, [hanya] ada satu jawaban untuk setiap pertanyaan.”

Quanta sedang melakukan serangkaian survei untuk melayani audiens kami dengan lebih baik. Ambil milik kami survei pembaca ilmu komputer dan anda akan diikut sertakan untuk menang secara gratis Quanta dagangan.

Stempel Waktu:

Lebih dari Majalah kuantitas