Mengapa Semua Orang Menyukai ChatGPT Chatbot PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Mengapa Semua Orang Menyukai Chatbot ChatGPT

Game lain yang sudah lama diyakini sangat menantang untuk ditaklukkan kecerdasan buatan (AI) telah jatuh ke tangan bot: Stratego.

DeepNash, AI yang dibuat oleh perusahaan yang berbasis di London DeepMind, sekarang cocok dengan manusia ahli di Stratego, permainan papan yang membutuhkan pemikiran strategis jangka panjang melawan informasi yang tidak sempurna.

Prestasi terbaru ini datang setelah kemenangan besar lainnya untuk AI dalam game yang sebelumnya dianggap sebagai keahlian manusia.

Baru minggu lalu, Meta's Cicero, AI itu bisa mengakali pemain manusia di permainan Diplomasi, membuat sejarah untuk mengakali lawan online.

โ€œTingkat di mana fitur game yang berbeda secara kualitatif telah ditaklukkan โ€” atau dikuasai ke level baru โ€” oleh AI dalam beberapa tahun terakhir cukup luar biasa,โ€ kata Michael Wellman di University of Michigan di Ann Arbor, seorang ilmuwan komputer yang mempelajari penalaran strategis dan game teori.

โ€œStratego dan Diplomacy sangat berbeda satu sama lain, dan juga memiliki fitur menantang yang sangat berbeda dari game yang telah mencapai pencapaian serupa,โ€ kata Wellman.

Informasi yang tidak sempurna

Gim ini memiliki karakteristik yang umumnya jauh lebih rumit daripada catur, Go, atau poker. Chess, Go, dan Poker semuanya telah dikuasai oleh AI.

Dalam permainan Stratego, dua pemain menempatkan masing-masing 40 bidak di papan, tetapi tidak boleh melihat bidak lawan mereka.

Tujuan permainan ini adalah untuk memindahkan bidak secara bergiliran untuk melenyapkan bidak lawan dan merebut bendera. 

Pohon permainan Stratego โ€” sebuah grafik dari semua cara yang mungkin dilakukan permainan itu โ€” memiliki 10535 status dibandingkan 10360 milik Go. 

Ketika datang ke informasi yang tidak sempurna di awal permainan, Stratego memiliki 1066 kemungkinan posisi pribadi, angka yang hanya mengerdilkan 106 situasi awal seperti itu dalam poker hold'em Texas dua pemain.

โ€œKerumitan dari jumlah kemungkinan hasil di Stratego berarti algoritme yang bekerja dengan baik pada permainan informasi sempurna, dan bahkan yang berfungsi untuk poker, tidak berfungsi,โ€ kata Julien Perolat, peneliti DeepMind yang berbasis di Paris.

DeepNash dikembangkan oleh Perolat dan rekan-rekannya.

Bot yang terinspirasi Nash

Nama bot tersebut adalah penghargaan untuk ahli matematika AS terkenal John Nash, yang datang dengan teori keseimbangan Nash yang mengandaikan bahwa ada "rangkaian strategi yang stabil" yang dapat diikuti oleh pemain dengan cara yang tidak menguntungkan pemain dengan mengubah strategi. sendiri. Dengan demikian, game cenderung memiliki nol, satu, atau banyak kesetimbangan Nash.

DeepNash menggabungkan algoritme pembelajaran penguatan dan jaringan saraf dalam untuk menemukan keseimbangan Nash. 

Umumnya, pembelajaran penguatan adalah saat agen cerdas (program komputer) berinteraksi dengan lingkungan dan mempelajari kebijakan terbaik untuk mendikte tindakan untuk setiap keadaan permainan. 

Untuk mendapatkan kebijakan yang optimal, DeepNash memainkan total 5.5 miliar game melawan dirinya sendiri. 

Intinya, jika satu pihak dihukum, yang lain diberi penghargaan, dan variabel jaringan saraf โ€” yang mewakili kebijakan โ€” disesuaikan.

AI Mengalahkan Manusia di Stratego โ€“ Temui DeepMash

AI Mengalahkan Manusia di Stratego โ€“ Temui DeepMash

Pada tahap tertentu, DeepNash menyatu pada perkiraan ekuilibrium Nash. Tidak seperti Bot lainnya, DeepNash mengoptimalkan dirinya sendiri tanpa smencari melalui pohon permainan.

Selama dua minggu, DeepNash bermain melawan pemain Stratego manusia di platform game online, Gravon.

Setelah bertanding dalam 50 pertandingan, Ai menduduki peringkat ketiga di antara semua pemain Gravon Stratego sejak tahun 2002. 

โ€œPekerjaan kami menunjukkan bahwa permainan yang rumit seperti Stratego, yang melibatkan informasi yang tidak sempurna, tidak memerlukan teknik pencarian untuk menyelesaikannya,โ€ kata anggota tim Karl Tuyls, seorang peneliti DeepMind yang berbasis di Paris. โ€œIni adalah langkah maju yang sangat besar dalam AI.โ€

Peneliti lain juga terkesan dengan prestasi ini.

Hasil yang mengesankan

โ€œHasilnya mengesankan,โ€ setuju Noam Brown, seorang peneliti di Meta AI, yang berkantor pusat di New York City, dan anggota tim yang pada tahun 2019 melaporkan AI Pluribus4 yang bermain poker.

Di Meta, perusahaan induk Facebook, Brown dan rekan-rekannya membangun AI yang dapat memainkan Diplomasi, sebuah permainan di mana tujuh pemain bersaing untuk menguasai geografis Eropa dengan memindahkan potongan-potongan di peta.

Dalam Diplomasi, tujuannya adalah untuk mengendalikan pusat pasokan dengan memindahkan unit (armada dan tentara). 

Meta mengatakan Cicero cukup signifikan karena AI bergantung pada lingkungan non-permusuhan.

Tidak seperti di masa lalu di mana kesuksesan besar sebelumnya untuk AI multi-agen berada di lingkungan yang murni bermusuhan, seperti Catur, Go, dan Poker, di mana komunikasi tidak memiliki nilai, Cicero menggunakan mesin penalaran strategis dan modul dialog yang dapat dikontrol.

โ€œSaat Anda melampaui permainan zero-sum dua pemain, gagasan keseimbangan Nash tidak lagi berguna untuk bermain baik dengan manusia,โ€ kata Brown.

Brown dan timnya melatih Cicero menggunakan data dari 125,261 game versi online Diplomasi yang melibatkan pemain manusia. 

Menggunakan data permainan mandiri dan modul penalaran strategis (SRM), Cicero belajar memprediksi judgubg berdasarkan keadaan permainan dan akumulasi pesan, kemungkinan gerakan, dan kebijakan pemain lain. 

AI Mengalahkan Manusia di Stratego โ€“ Temui DeepMash

AI Mengalahkan Manusia di Stratego โ€“ Temui DeepMash

Meta mengatakan mengumpulkan data dari 125,261 game Diplomasi yang dimainkan online di webDiplomacy.net. Dari game tersebut, total 40,408 game berisi dialog, dengan total 12,901,662 pesan yang dipertukarkan antar pemain.

Perilaku dunia nyata

Brown percaya bahwa Bot yang bermain game seperti Cicero dapat berinteraksi dengan manusia dan memperhitungkan "tindakan manusia yang kurang optimal atau bahkan tidak rasional dapat membuka jalan bagi aplikasi dunia nyata".

โ€œJika Anda membuat mobil self-driving, Anda tidak ingin berasumsi bahwa semua pengemudi lain di jalan sangat rasional, dan akan berperilaku optimal,โ€ katanya.

Cicero, tambahnya, adalah langkah besar ke arah ini. โ€œKami masih memiliki satu kaki di dunia game, tapi sekarang kami juga memiliki satu kaki di dunia nyata.โ€

Orang lain seperti Wellman setuju, tetapi bersikeras masih banyak pekerjaan yang harus dilakukan. "Banyak dari teknik ini memang relevan di luar permainan rekreasi" untuk aplikasi dunia nyata, katanya. โ€œNamun demikian, pada titik tertentu, laboratorium penelitian AI terkemuka perlu melampaui pengaturan rekreasi, dan mencari cara untuk mengukur kemajuan ilmiah pada 'permainan' dunia nyata yang lebih licin yang benar-benar kita pedulikan.โ€

/Berita Meta.

Stempel Waktu:

Lebih dari Berita Meta