Agen AI Dengan 'Banyak Diri' Belajar Beradaptasi dengan Cepat di Dunia yang Berubah

Agen AI Dengan 'Banyak Diri' Belajar Beradaptasi dengan Cepat di Dunia yang Berubah

Agen AI Dengan 'Mandiri Ganda' Belajar Beradaptasi dengan Cepat di Dunia yang Berubah Kecerdasan Data PlatoBlockchain. Pencarian Vertikal. Ai.

Setiap hari kita menyulap kebutuhan yang berbeda. saya lapar tapi lelah; haruskah saya ambruk di sofa atau membuat makan malam? Saya kepanasan dalam suhu yang berbahaya tetapi juga sangat haus; haruskah saya menenggak air hangat yang dipanaskan di bawah matahari, atau memasukkan kepala saya ke dalam freezer sampai saya memiliki kapasitas mental untuk membuat es?

Saat menghadapi dilema, kita sering mengikuti insting dasar kita tanpa berpikir panjang. Namun di balik layar, banyak jaringan saraf bersaing untuk membuat keputusan "terbaik" setiap saat. Tidur di atas makanan. Freezer di atas air hangat. Itu mungkin keputusan yang buruk di belakang โ€” tetapi lain kali, kita belajar dari kesalahan masa lalu kita.

Kemampuan beradaptasi kita terhadap dunia yang selalu berubah adalah kekuatan super yang saat ini lolos dari sebagian besar agen AI. Bahkan agen AI yang paling canggih pun tidak dapat bekerjaโ€”atau membutuhkan waktu komputasi yang tidak dapat dipertahankanโ€”karena mereka menangani tujuan yang saling bertentangan.

Bagi tim yang dipimpin oleh Dr. Jonathan Cohen di Princeton Neuroscience Institute, alasannya sederhana: sistem pembelajaran mesin umumnya bertindak sebagai satu kesatuan, dipaksa untuk mengevaluasi, menghitung, dan melaksanakan satu tujuan pada satu waktu. Meski bisa belajar dari kesalahannya, AI berjuang untuk menemukan keseimbangan yang tepat saat ditantang dengan berbagai tujuan yang berlawanan secara bersamaan.

Jadi mengapa tidak memisahkan AI?

In sebuah studi baru diterbitkan dalam PNAS, tim mengambil halaman dari ilmu saraf kognitif dan membangun agen AI modular.

Idenya tampaknya sederhana. Alih-alih AI monolitik โ€” jaringan tunggal yang mencakup seluruh "diri" โ€”tim membangun agen modular, setiap bagian dengan "motivasi" dan tujuannya sendiri tetapi memimpin satu "tubuh". Seperti masyarakat demokratis, sistem AI berpendapat di dalam dirinya sendiri untuk memutuskan respons terbaik, di mana tindakan yang paling mungkin menghasilkan hasil kemenangan terbesar memandu langkah selanjutnya.

Dalam beberapa simulasi, AI modular mengungguli rekan monolitik klasiknya. Kemampuan beradaptasinya sangat bersinar ketika para peneliti secara artifisial meningkatkan jumlah tujuan yang harus dipertahankan secara bersamaan. AI seperti Lego beradaptasi dengan cepat, sedangkan mitra monolitiknya berjuang untuk mengejar ketinggalan.

โ€œSalah satu pertanyaan paling mendasar tentang hak pilihan adalah bagaimana individu mengelola kebutuhan yang bertentangan,โ€ kata tim tersebut. Dengan mendekonstruksi agen AI, penelitian tidak hanya memberikan wawasan tentang agen pembelajaran mesin yang lebih cerdas. Ini juga "membuka jalan untuk memahami konflik psikologis yang melekat dalam jiwa manusia," menulis Dr. Rober Boshra dari Universitas Princeton, yang tidak terlibat dalam pekerjaan itu.

Video Game Kehidupan

Bagaimana makhluk cerdas belajar untuk menyeimbangkan kebutuhan yang saling bertentangan dalam dunia yang kompleks dan terus berubah?

Pertanyaan filosofis telah menghantui berbagai bidang โ€” ilmu saraf, psikologi, ekonomi โ€” yang menyelidiki sifat manusia. Kami belum memiliki jawaban yang jelas. Tetapi dengan AI yang semakin menghadapi tantangan serupa saat memasuki dunia nyata, inilah saatnya untuk mengatasi masalah kuno secara langsung.

Studi baru mengambil tantangan dalam bentuk RPG sederhana (role-playing game). Ada dua karakter yang menavigasi dunia seperti kisi, masing-masing berusaha menemukan sumber daya untuk bertahan hidup.

Kontestan pertama: agen monolitikโ€”atau dikenal sebagai โ€œdiri sendiriโ€โ€”dilatih menggunakan deep-Q-learning (DQL). Dipopulerkan oleh DeepMind, algoritme ini sangat kuat dalam menentukan langkah optimal berikutnya tergantung pada kondisinya saat ini. Misalnya, seperti dalam video game, apakah saya harus ke kiri atau ke kanan? Pindahkan bidak catur atau Go yang mana, dan ke mana? Di sini, algoritme mensurvei seluruh lingkungan sambil mengikuti satu sinyal hadiahโ€”yaitu, tujuan akhirnya. Dalam arti tertentu, agen monolitik adalah otak terpadu yang mencoba memaksimalkan hasil terbaik setelah memproses semua sumber daya secara bersamaan.

Lawannya: AI modular. Seperti gurita dengan anggota badan semi-otonom, agen AI dipecah menjadi sub-agen, masing-masing dengan tujuan dan umpan baliknya sendiri. Untuk membuatnya menjadi pertarungan yang adil, setiap modul juga dilatih dengan DQL. "Otak" yang terpisah mengamati sekelilingnya dan belajar memilih pilihan terbaikโ€”tetapi hanya disesuaikan dengan tujuan mereka sendiri. Hasil yang diprediksi kemudian dijumlahkan. Solusi dengan potensi hasil optimal kemudian dipilih, mengarahkan agen AI ke pilihan berikutnya.

Dan lapangan bermain?

Gim ini adalah versi gim bertahan hidup yang sangat sederhana. Setiap agen AI menjelajahi jaringan dua dimensi yang memiliki jenis sumber daya berbeda yang tersembunyi di beberapa wilayah. Tujuannya adalah untuk menjaga empat statistik agen pada level yang ditetapkan, dengan masing-masing secara bertahap menurun seiring waktu. Saat beberapa statistik gagal, terserah AI untuk memutuskan mana yang akan diprioritaskan.

Untuk gamer video, anggap tes ini seperti dilemparkan ke peta game baru dan mencoba mencari sumber daya untuk meningkatkan, misalnya kesehatan, sihir, stamina, dan kekuatan serangan. Untuk kehidupan kita sehari-hari, itu menyeimbangkan rasa lapar, suhu, tidur, dan kebutuhan fisiologis dasar lainnya.

โ€œMisalnya, jika agen memiliki stat 'lapar' yang rendah, ia dapat mengumpulkan sumber daya 'makanan' dengan berpindah ke lokasi sumber daya tersebut,โ€ jelas tim.

Hutan untuk Pohon

Tes pertama dimulai dengan lingkungan yang relatif sederhana. Lokasi untuk setiap sasaran sumber daya ditetapkan di sudut arena permainan. Agen monolitik dengan mudah mempertahankan empat statistiknya setelah 30,000 langkah pelatihan, meskipun melewati periode overshooting dan undershooting hingga mencapai tujuan yang ditargetkan. Sebaliknya, agen modular belajar jauh lebih cepat. Dengan 5,000 langkah pembelajaran, agen tersebut telah menangkap pemahaman tentang "keadaan dunia".

Bagian dari kehebatan AI modular berasal dari rasa intrinsik eksplorasi bebas, kata penulis. Tidak seperti metode sebelumnya untuk sistem modular yang membagi dan menaklukkan untuk bergerak menuju tujuan akhir, di sini AI mewakili hubungan sosial yang lebih holistikโ€”di mana beberapa modul mendapatkan dan beberapa kehilangan melalui keadaan kompetisi internal yang konstan.

Karena "tubuh" agen AI hanya dipandu oleh modul pemenang, yang kalah harus mengikuti keputusan yang tidak mereka setujui dan dipaksa masuk ke dalam realitas baru. Mereka kemudian harus beradaptasi dengan cepat dan menghitung ulang solusi terbaik untuk langkah selanjutnya. Dengan kata lain, modul sering berada di luar zona nyamannya. Ini adalah cinta yang sulit, tetapi hasil yang tidak terduga memaksa mereka untuk memikirkan solusi baruโ€”terkadang menghasilkan hasil yang lebih baik yang tidak akan mereka pertimbangkan jika menangani masalah sendirian.

Secara keseluruhan, sistem modular membentuk "siklus yang baik dengan eksplorasi" untuk lebih meningkatkan tindakan AI, kata penulis studi Zack Dulberg.

Kemampuan beradaptasi ini semakin bersinar saat tim menantang kedua agen AI di lingkungan yang terus berubah. Dalam satu pengujian, posisi sasaran sumber daya dipindahkan ke lokasi kisi acak pada skala waktu sporadis. AI modular dengan cepat menangkap perubahan dan beradaptasi dengannya, sedangkan agen monolitik bekerja jauh lebih buruk.

Dalam tes lain, tim memutar tombol, meminta agen AI untuk secara bersamaan mempertahankan delapan faktor, bukan empat yang asli. Tes tersebut mengatasi masalah bahwa perhitungan menjadi semakin tidak mungkin dalam hal konsumsi waktu dan energi karena jumlah variabel meningkatโ€”dijuluki โ€œkutukan dimensiโ€.

Agen modular dengan cepat beradaptasi untuk memburu sumber daya untuk mempertahankan tujuannya. Sebaliknya, agen monolitik kembali berjuang, membutuhkan waktu lebih lama untuk kembali ke level yang diinginkan untuk setiap statistiknya.

Satu Lawan Banyak

Pendekatan modular adalah contoh lain memanfaatkan ilmu saraf untuk pengembangan AIโ€”sambil memberikan wawasan tentang cara kerja noggins kami.

Mirip dengan pekerjaan sebelumnya, modul modular menunjukkan bahwa agen AI tunggal dapat mempelajari sub-masalah yang terpisah dan lebih mudah secara paralel dengan cara yang relatif terdesentralisasi dalam hal pemrosesan data. Menambahkan model dengan sistem kontrol hierarki dapat mendukung AI, kata penulis, karena kedua struktur tersebut ada di alam.

Untuk saat ini, setiap modul diprogram untuk keuntungannya sendiriโ€”kelipatan diri. Namun tujuan hidup kita seringkali saling terkait; misalnya, mengurangi rasa haus dan melawan panas tidak bisa dipisahkan satu sama lain. Tim menyoroti kebutuhan untuk mengintegrasikan persilangan iniโ€”dan mempelajari apakah itu diwariskan atau dipelajariโ€”dalam pengujian mendatang.

Ke Dรผlberg, yang tidak diketahui adalah bagian dari kegembiraan. โ€œBagaimana modul berkembang? Fitur apa dari lingkungan pengembangan yang memberi tekanan pada solusi yang berbeda?โ€ Dia bertanya. โ€œDan apakah manfaat modularitas menjelaskan mengapa konflik psikologis internal tampak begitu penting bagi kondisi manusia?โ€

Gambar Kredit: Anestiev/Pixabay

Stempel Waktu:

Lebih dari Hub Singularity