Apa Artinya Menyelaraskan AI dengan Nilai-Nilai Kemanusiaan?

Diterbitkan Ulang Oleh Plato

Followers: 0

Bertahun-tahun yang lalu, saya belajar memprogram pada Symbolics Lisp Machine lama. Sistem operasi memiliki perintah bawaan yang dieja "DWIM", kependekan dari "Do What I Mean". Jika saya mengetik perintah dan mendapat kesalahan, saya dapat mengetik "DWIM", dan mesin akan mencoba mencari tahu apa yang ingin saya lakukan. Sebagian kecil waktu yang mengejutkan, itu benar-benar berhasil.

Perintah DWIM adalah mikrokosmos dari masalah "penyelarasan AI" yang lebih modern: Kita manusia cenderung memberikan instruksi yang ambigu atau salah kepada mesin, dan kita ingin mereka melakukan apa yang kita maksud, bukan apa yang kita katakan.

Komputer sering salah mengartikan apa yang kita ingin mereka lakukan, dengan hasil yang tidak terduga dan seringkali lucu. Salah satu peneliti pembelajaran mesin, misalnya, saat menyelidiki hasil program klasifikasi gambar yang mencurigakan, ditemukan bahwa itu mendasarkan klasifikasi bukan pada gambar itu sendiri, tetapi pada berapa lama waktu yang dibutuhkan untuk mengakses file gambar — gambar dari kelas yang berbeda disimpan dalam database dengan waktu akses yang sedikit berbeda. Lain programmer yang giat ingin penyedot debu Roomba-nya berhenti menabrak furnitur, jadi dia menghubungkan Roomba ke jaringan saraf yang menghargai kecepatan tetapi menghukum Roomba saat bumper depan bertabrakan dengan sesuatu. Mesin mengakomodasi tujuan ini dengan selalu mengemudi mundur.

Tetapi komunitas peneliti penyelarasan AI melihat sisi gelap dari anekdot ini. Faktanya, mereka percaya bahwa ketidakmampuan mesin untuk membedakan apa yang benar-benar ingin mereka lakukan adalah risiko eksistensial. Untuk mengatasi masalah ini, mereka percaya, kita harus menemukan cara untuk menyelaraskan sistem AI dengan preferensi, tujuan, dan nilai manusia.

Pandangan ini menjadi terkenal dengan buku terlaris tahun 2014 Kecerdasan super oleh filsuf Nick Bostrom, yang sebagian berpendapat bahwa meningkatnya kecerdasan komputer dapat menimbulkan ancaman langsung terhadap masa depan umat manusia. Bostrom tidak pernah mendefinisikan kecerdasan dengan tepat, tetapi, seperti kebanyakan orang lain dalam komunitas penyelarasan AI, dia mengadopsi definisi tersebut belakangan diartikulasikan oleh peneliti AI Stuart russell sebagai: "Suatu entitas dianggap cerdas, secara kasar, jika ia memilih tindakan yang diharapkan untuk mencapai tujuannya, mengingat apa yang telah dirasakannya."

Bostrom mendasarkan pandangannya tentang risiko AI pada dua tesis. Yang pertama adalah tesis ortogonalitas, yang menyatakan, dalam kata-kata Bostrom, “Kecerdasan dan tujuan akhir adalah sumbu ortogonal di mana agen-agen yang mungkin dapat dengan bebas bervariasi. Dengan kata lain, kurang lebih tingkat kecerdasan apa pun pada prinsipnya dapat digabungkan dengan kurang lebih tujuan akhir apa pun.” Yang kedua adalah tesis konvergensi instrumental, yang menyiratkan bahwa agen cerdas akan bertindak dengan cara yang mempromosikan kelangsungan hidupnya sendiri, peningkatan diri dan perolehan sumber daya, selama ini membuat agen tersebut lebih mungkin mencapai tujuan akhirnya. Kemudian dia membuat satu asumsi terakhir: Para peneliti akan segera menciptakan superintelligence AI - yang "jauh melebihi kinerja kognitif manusia di hampir semua bidang yang diminati".

Bagi Bostrom dan orang lain dalam komunitas penyelarasan AI, prospek ini berarti malapetaka bagi umat manusia kecuali kita berhasil menyelaraskan AI yang sangat cerdas dengan keinginan dan nilai kita. Bostrom mengilustrasikan bahaya ini dengan eksperimen pemikiran yang sekarang terkenal: Bayangkan memberi AI superintelligent tujuan memaksimalkan produksi klip kertas. Menurut tesis Bostrom, dalam upaya untuk mencapai tujuan ini, sistem AI akan menggunakan kecemerlangan dan kreativitas manusia supernya untuk meningkatkan kekuatan dan kendalinya sendiri, yang pada akhirnya memperoleh semua sumber daya dunia untuk membuat lebih banyak klip kertas. Kemanusiaan akan mati, tetapi produksi klip kertas memang akan dimaksimalkan.

Jika Anda yakin bahwa kecerdasan ditentukan oleh kemampuan untuk mencapai tujuan, bahwa tujuan apa pun dapat "dimasukkan" oleh manusia ke dalam agen AI yang sangat cerdas, dan bahwa agen tersebut akan menggunakan superintelijennya untuk melakukan apa saja untuk mencapai tujuan tersebut, maka Anda akan tiba di tempat yang sama kesimpulan yang dilakukan Russell: "Semua yang diperlukan untuk memastikan bencana adalah mesin yang sangat kompeten digabungkan dengan manusia yang memiliki kemampuan tidak sempurna untuk menentukan preferensi manusia secara lengkap dan benar."

Ini adalah kiasan yang akrab dalam fiksi ilmiah - umat manusia terancam oleh mesin yang tidak terkendali yang telah salah menafsirkan keinginan manusia. Sekarang segmen yang tidak penting dari komunitas riset AI sangat prihatin dengan skenario semacam ini yang terjadi dalam kehidupan nyata. Lusinan institut telah menghabiskan ratusan juta dolar untuk masalah ini, dan upaya penelitian tentang penyelarasan sedang dilakukan di universitas di seluruh dunia dan di perusahaan AI besar seperti Google, Meta, dan OpenAI.

Bagaimana dengan risiko lebih langsung yang ditimbulkan oleh AI non-superintelligent, seperti kehilangan pekerjaan, bias, pelanggaran privasi, dan penyebaran informasi yang salah? Ternyata ada sedikit tumpang tindih antara komunitas yang terutama peduli dengan risiko jangka pendek seperti itu dan mereka yang lebih mengkhawatirkan risiko penyelarasan jangka panjang. Faktanya, ada semacam perang budaya AI, dengan satu sisi lebih khawatir tentang risiko saat ini daripada apa yang mereka lihat sebagai tekno-futurisme yang tidak realistis, dan sisi lain menganggap masalah saat ini kurang mendesak daripada potensi risiko bencana yang ditimbulkan oleh AI superintelijen.

Bagi banyak orang di luar komunitas khusus ini, penyelarasan AI terlihat seperti agama — agama dengan pemimpin yang dihormati, doktrin yang tidak perlu dipertanyakan, dan murid yang setia melawan musuh yang berpotensi sangat kuat (AI superintelijen yang tidak selaras). Memang, ilmuwan komputer dan blogger Scott Aaronson baru-baru ini terkenal bahwa sekarang ada cabang "Ortodoks" dan "Reformasi" dari keyakinan keselarasan AI. Yang pertama, tulisnya, hampir seluruhnya khawatir tentang "AI yang tidak selaras yang menipu manusia saat bekerja untuk menghancurkan mereka." Sebaliknya, dia menulis, "kami Reform AI-riskers menerima kemungkinan itu, tetapi kami setidaknya khawatir tentang AI yang kuat yang dipersenjatai oleh manusia jahat, yang kami perkirakan akan menimbulkan risiko eksistensial jauh lebih awal."

Banyak peneliti yang secara aktif terlibat dalam proyek berbasis penyelarasan, mulai dari upaya untuk menyampaikan prinsip-prinsip filsafat moral untuk mesin, untuk melatih model bahasa besar pada penilaian etis crowdsourced. Tak satu pun dari upaya ini yang sangat berguna dalam membuat mesin berpikir tentang situasi dunia nyata. Banyak penulis telah mencatat banyak kendala yang mencegah mesin mempelajari preferensi dan nilai manusia: Orang sering kali tidak rasional dan berperilaku dengan cara yang bertentangan dengan nilai mereka, dan nilai dapat berubah selama masa hidup dan generasi individu. Lagi pula, tidak jelas nilai-nilai siapa yang harus kita pelajari dari mesin.

Banyak orang di komunitas penyelarasan menganggap jalur maju yang paling menjanjikan adalah teknik pembelajaran mesin yang dikenal sebagai pembelajaran penguatan terbalik (IRL). Dengan IRL, mesin tidak diberi tujuan untuk dimaksimalkan; tujuan yang "dimasukkan" seperti itu, menurut para pendukung penyelarasan, dapat secara tidak sengaja mengarah pada skenario pemaksimalan klip kertas. Sebaliknya, tugas mesin adalah mengamati perilaku manusia dan menyimpulkan preferensi, tujuan, dan nilai mereka. Dalam beberapa tahun terakhir, para peneliti telah menggunakan IRL untuk melatih mesin untuk bermain video game dengan mengamati manusia dan mengajar robot cara melakukan backflip dengan memberi mereka umpan balik tambahan dari manusia (orang melihat klip pendek dari berbagai upaya robot dan memilih salah satu yang terlihat terbaik).

Tidak jelas apakah metode serupa dapat mengajarkan mesin ide nilai manusia yang lebih halus dan abstrak. Penulis Brian Christian, penulis a buku sains populer tentang penyelarasan AI, optimis: “Tidaklah berlebihan membayangkan mengganti konsep 'backflip' yang samar-samar dengan konsep yang bahkan lebih samar dan tak terlukiskan, seperti 'membantu.' Atau 'kebaikan'. Atau perilaku 'baik'.”

Namun, saya pikir ini meremehkan tantangan. Gagasan etis seperti kebaikan dan perilaku yang baik jauh lebih kompleks dan bergantung pada konteks daripada apa pun yang telah dikuasai IRL sejauh ini. Pertimbangkan gagasan "kejujuran" — nilai yang pasti kita inginkan dalam sistem AI kita. Memang, masalah utama dengan model bahasa besar saat ini adalah ketidakmampuan mereka untuk membedakan kebenaran dari kepalsuan. Pada saat yang sama, terkadang kita mungkin menginginkan asisten AI kita, seperti halnya manusia, untuk meredam kejujuran mereka: untuk melindungi privasi, untuk menghindari menghina orang lain, atau untuk menjaga keamanan seseorang, di antara banyak situasi sulit untuk diartikulasikan lainnya.

Konsep etika lainnya sama rumitnya. Harus jelas bahwa langkah pertama yang penting untuk mengajarkan konsep etika mesin adalah memungkinkan mesin memahami konsep mirip manusia sejak awal, yang menurut saya masih merupakan AI. masalah terbuka yang paling penting.

Selain itu, saya melihat masalah yang lebih mendasar dengan ilmu pengetahuan yang mendasari gagasan penyelarasan AI. Sebagian besar diskusi membayangkan AI superintelijen sebagai mesin yang, meski mengungguli manusia dalam semua tugas kognitif, masih kekurangan akal sehat seperti manusia dan tetap bersifat mekanis. Dan yang terpenting, sesuai dengan tesis ortogonalitas Bostrom, mesin telah mencapai superintelligence tanpa memiliki tujuan atau nilainya sendiri, melainkan menunggu tujuan yang dimasukkan oleh manusia.

Namun bisakah intelijen bekerja dengan cara ini? Tidak ada dalam ilmu psikologi atau ilmu saraf saat ini yang mendukung kemungkinan ini. Pada manusia, setidaknya, kecerdasan sangat terkait dengan tujuan dan nilai-nilai kita, serta rasa diri kita dan lingkungan sosial dan budaya tertentu kita. Intuisi yang menyebabkan semacam kecerdasan murni dapat dipisahkan dari faktor-faktor lain ini banyak prediksi yang gagal dalam sejarah AI. Dari apa yang kita ketahui, tampaknya lebih mungkin bahwa tujuan sistem AI yang cerdas secara umum tidak dapat dengan mudah dimasukkan, tetapi harus berkembang, seperti kita, sebagai hasil dari pendidikan sosial dan budayanya sendiri.

Dalam bukunya Kompatibel dengan Manusia, Russell berargumen tentang urgensi penelitian tentang masalah penyelarasan: “Waktu yang tepat untuk mengkhawatirkan masalah yang berpotensi serius bagi umat manusia tidak hanya bergantung pada kapan masalah akan terjadi tetapi juga pada berapa lama waktu yang dibutuhkan untuk mempersiapkan dan menerapkan solusi. ” Tetapi tanpa pemahaman yang lebih baik tentang apa itu kecerdasan dan seberapa terpisahnya kecerdasan itu dari aspek lain kehidupan kita, kita bahkan tidak dapat mendefinisikan masalahnya, apalagi menemukan solusinya. Mendefinisikan dan memecahkan masalah penyelarasan dengan benar tidak akan mudah; itu akan mengharuskan kita untuk mengembangkan teori kecerdasan yang luas dan berbasis ilmiah.

Stempel Waktu: Desember 13, 2022Desember 13, 2022

Stempel Waktu: September 15, 2022

Apa Artinya Menyelaraskan AI dengan Nilai-Nilai Manusia?

Diterbitkan Ulang Oleh Plato

Lebih dari Majalah kuantitas

Bukti Ilmu Komputer Mengungkap Bentuk Keterikatan yang Tak Terduga

Mesin Belajar Lebih Baik jika Kita Mengajari Dasar-Dasarnya

Mengapa Matematikawan Membuktikan Ulang Apa yang Sudah Mereka Ketahui

Cara Membuat Komputer Origami | Majalah Kuanta

Pertanyaan Tentang Garis Berputar Membantu Mengungkapkan Apa yang Membuat Bilangan Riil Istimewa

Bagaimana Banyak bilangan prima yang tak terhingga dapat berjauhan tak terhingga?

Bagaimana Seni Kuno Prediksi Gerhana Menjadi Ilmu Pasti | Majalah Kuanta

Ilmuwan Komputer yang Meningkatkan Privasi di Internet

Peneliti Kekacauan Sekarang Dapat Memprediksi Titik Berbahaya yang Tidak Dapat Dikembalikan

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun

Pengantar