Peneliti Yang Akan Mengajari Mesin Menjadi Adil

Peneliti Yang Akan Mengajari Mesin Menjadi Adil

Peneliti yang Akan Mengajari Mesin Menjadi Adil PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pengantar

Sesekali, seseorang dapat mengambil konsep abstrak yang tampaknya terlalu samar untuk dipelajari secara formal dan menawarkan definisi formal yang elegan. Claude Shannon melakukannya dengan informasi, dan Andrey Kolmogorov melakukannya dengan keserampangan. Selama beberapa tahun terakhir, para peneliti telah mencoba melakukan hal yang sama untuk konsep keadilan dalam pembelajaran mesin. Sayangnya, ini lebih rumit. Tidak hanya konsepnya lebih sulit untuk didefinisikan, tetapi juga tidak mungkin untuk satu definisi memenuhi semua metrik keadilan yang diinginkan. Arvind Narayanan, seorang ilmuwan komputer di Universitas Princeton, telah berperan penting dalam mengontekstualisasikan berbagai pandangan dan membantu bidang baru ini memantapkan dirinya.

Karirnya telah menjangkau semua tingkat abstraksi, dari teori hingga kebijakan, tetapi perjalanan yang akhirnya menghasilkan pekerjaannya saat ini dimulai pada tahun 2006. Tahun itu, Netflix mensponsori sebuah kompetisi yang akan memberikan $1 juta kepada siapa pun yang meningkatkan keakuratan sistem rekomendasi mereka dengan 10%. Netflix menyediakan kumpulan data pengguna yang konon anonim dan peringkatnya, dengan informasi pengenal pribadi dihapus. Namun Narayanan menunjukkan bahwa dengan teknik statistik yang canggih, Anda hanya memerlukan sedikit titik data untuk mengungkap identitas pengguna โ€œanonimโ€ dalam kumpulan data.

Sejak saat itu, Narayanan berfokus pada bidang lain di mana teori bertemu dengan praktik. Melalui Proyek Transparansi dan Akuntabilitas Web Princeton, timnya mengungkap cara diam-diam situs web melacak pengguna dan mengekstrak data sensitif. Timnya menemukan bahwa grup seperti National Security Agency dapat menggunakan data penjelajahan web (khususnya, cookie yang ditempatkan oleh pihak ketiga) tidak hanya untuk menemukan identitas dunia nyata pengguna, tetapi juga untuk merekonstruksi 62% hingga 73% dari riwayat penjelajahan mereka. . Mereka menunjukkan bahwa - untuk riff pada terkenal New Yorker gambar kartun โ€” di internet, situs web sekarang mengetahui bahwa Anda adalah seekor anjing.

Dalam beberapa tahun terakhir, Narayanan telah berubah secara khusus Mesin belajar โ€” aplikasi kecerdasan buatan yang memberi mesin kemampuan untuk belajar dari data. Sementara dia menyambut kemajuan AI, dia menunjukkan bagaimana sistem seperti itu bisa gagal bahkan dengan niat baik, dan bagaimana teknologi yang bermanfaat ini bisa menjadi alat untuk membenarkan diskriminasi. Dalam hal ini, titik-titik yang tampaknya tidak berhubungan yang telah menentukan lintasan penelitian Narayanan membentuk semacam konstelasi.

Quanta berbicara dengan Narayanan tentang karyanya tentang de-anonimisasi, pentingnya intuisi statistik, dan banyak jebakan sistem AI. Wawancara telah diringkas dan diedit untuk kejelasan.

Pengantar

Apakah Anda selalu ingin melakukan penelitian matematika dan sains?

Saya tumbuh dengan sangat tertarik pada keduanya, tetapi terutama pada matematika. Saya pandai memecahkan teka-teki dan bahkan sukses di Olimpiade Matematika Internasional. Tapi saya memiliki kesalahpahaman besar tentang perbedaan antara pemecahan teka-teki dan penelitian matematika.

Sejak awal, saya memfokuskan penelitian saya pada kriptografi, terutama kriptografi teoretis, karena saya masih bekerja di bawah khayalan bahwa saya sangat pandai matematika. Dan kemudian sisa karir saya adalah perjalanan untuk menyadari bahwa sebenarnya itu bukan kekuatan saya sama sekali.

Itu pasti menjadi latar belakang yang bagus untuk pekerjaan de-anonimisasi Anda.

Kamu benar. Apa yang memungkinkan penelitian de-anonimisasi adalah keterampilan yang saya sebut intuisi statistik. Ini sebenarnya bukan pengetahuan matematika formal. Itu bisa memiliki intuisi di kepala Anda seperti: "Jika saya mengambil kumpulan data yang rumit ini dan menerapkan transformasi ini padanya, apa hasil yang masuk akal?"

Intuisi mungkin sering salah, dan tidak apa-apa. Tetapi penting untuk memiliki intuisi karena dapat membimbing Anda menuju jalan yang mungkin bermanfaat.

Pengantar

Bagaimana intuisi statistik membantu pekerjaan Anda pada data Netflix?

Saya telah mencoba menyusun skema anonimisasi untuk data dimensi tinggi. Ini benar-benar gagal, tetapi dalam proses kegagalan saya mengembangkan intuisi bahwa data dimensi tinggi tidak dapat dianonimkan secara efektif. Tentu saja Netflix, dengan pesaingnya, mengklaim telah melakukan hal itu.

Saya memiliki skeptisisme alami terhadap pernyataan pemasaran perusahaan, jadi saya termotivasi untuk membuktikan bahwa mereka salah. Penasihat saya, Vitaly Shmatikov, dan saya mengerjakannya selama beberapa minggu yang intens. Begitu kami menyadari bahwa pekerjaan itu benar-benar berdampak, saya mulai melakukan lebih banyak.

Apa dampak keseluruhannya? Apakah Anda mendapat kabar dari Netflix dan perusahaan lain yang datanya ternyata tidak terlalu anonim?

Nah, salah satu dampak positifnya adalah memacu ilmu pengetahuan privasi diferensial. Tetapi dalam hal bagaimana perusahaan bereaksi, ada beberapa reaksi yang berbeda. Dalam banyak kasus, perusahaan yang seharusnya merilis kumpulan data ke publik sekarang tidak lagi melakukannya โ€” mereka mempersenjatai privasi sebagai cara untuk melawan upaya transparansi.

Facebook dikenal melakukan hal ini. Saat peneliti membuka Facebook dan berkata, โ€œKami memerlukan akses ke beberapa data ini untuk mempelajari bagaimana informasi menyebar di platform,โ€ Facebook sekarang dapat mengatakan, โ€œTidak, kami tidak dapat memberikannya kepada Anda. Itu akan membahayakan privasi pengguna kami.โ€

Anda pernah menulis a kertas berpendapat bahwa istilah "informasi yang dapat diidentifikasi secara pribadi" dapat menyesatkan. Bagaimana?

Saya pikir ada kebingungan di antara pembuat kebijakan yang timbul dari dua cara berbeda dalam penggunaan istilah tersebut. Salah satunya adalah informasi tentang Anda yang sangat sensitif, seperti nomor jaminan sosial Anda. Arti lainnya adalah informasi yang dapat diindeks ke dalam beberapa kumpulan data dan dengan demikian digunakan untuk menemukan lebih banyak informasi tentang Anda.

Keduanya memiliki arti yang berbeda. Saya tidak punya daging sapi dengan konsep PII dalam pengertian pertama. Potongan informasi tertentu tentang orang sangat sensitif, dan kita harus memperlakukannya dengan lebih hati-hati. Namun meskipun alamat email Anda belum tentu sangat sensitif bagi kebanyakan orang, itu tetap merupakan pengidentifikasi unik yang dapat digunakan untuk menemukan Anda di kumpulan data lain. Selama kombinasi atribut tentang seseorang tersedia untuk orang lain di dunia, hanya itu yang Anda perlukan untuk de-anonimisasi.

Pengantar

Bagaimana Anda akhirnya mempelajari keadilan?

Saya mengajar kursus keadilan dan pembelajaran mesin pada tahun 2017. Itu memberi saya gambaran bagus tentang masalah terbuka di lapangan. Dan bersamaan dengan itu, saya memberikan ceramah berjudul โ€œ21 Definisi Kewajaran dan Politiknya.โ€ Saya menjelaskan bahwa berkembangnya definisi teknis bukan karena alasan teknis, tetapi karena ada pertanyaan moral yang murni di jantung semua ini. Tidak mungkin Anda memiliki satu kriteria statistik tunggal yang mencakup semua keinginan normatif โ€” semua hal yang Anda inginkan. Pembicaraan diterima dengan baik, jadi keduanya meyakinkan saya bahwa saya harus mulai membahas topik ini.

Kamu juga memberikan ceramah dalam mendeteksi minyak ular AI, yang juga diterima dengan baik. Bagaimana hubungannya dengan keadilan dalam pembelajaran mesin?

Jadi motivasi untuk ini adalah jelas ada banyak inovasi teknis asli yang terjadi di AI, seperti program text-to-image DALL E 2 atau program catur AlfaZero. Sungguh menakjubkan bahwa kemajuan ini begitu pesat. Banyak dari inovasi itu yang pantas untuk dirayakan.

Masalahnya muncul ketika kita menggunakan istilah payung โ€œAIโ€ yang sangat longgar dan luas ini untuk hal-hal seperti itu serta aplikasi yang lebih rumit, seperti metode statistik untuk prediksi risiko kriminal. Dalam konteks itu, jenis teknologi yang terlibat sangat berbeda. Ini adalah dua jenis aplikasi yang sangat berbeda, dan potensi keuntungan dan kerugiannya juga sangat berbeda. Hampir tidak ada hubungan sama sekali di antara keduanya, jadi menggunakan istilah yang sama untuk keduanya benar-benar membingungkan.

Orang-orang disesatkan dengan berpikir bahwa semua kemajuan yang mereka lihat dengan pembuatan gambar ini akan benar-benar diterjemahkan menjadi kemajuan terhadap tugas-tugas sosial seperti memprediksi risiko kriminal atau memprediksi anak mana yang akan putus sekolah. Tapi bukan itu masalahnya sama sekali. Pertama-tama, kita hanya bisa melakukan sedikit lebih baik daripada peluang acak dalam memprediksi siapa yang mungkin ditangkap karena kejahatan. Dan akurasi itu dicapai dengan pengklasifikasi yang sangat sederhana. Ini tidak menjadi lebih baik dari waktu ke waktu, dan tidak menjadi lebih baik saat kami mengumpulkan lebih banyak set data. Jadi semua pengamatan ini berbeda dengan penggunaan deep learning untuk pembuatan gambar, misalnya.

Bagaimana Anda membedakan berbagai jenis masalah pembelajaran mesin?

Ini bukan daftar lengkap, tetapi ada tiga kategori umum. Kategori pertama adalah persepsi, yang mencakup tugas-tugas seperti mendeskripsikan konten gambar. Kategori kedua adalah apa yang saya sebut "penghakiman otomatis", seperti ketika Facebook ingin menggunakan algoritme untuk menentukan ucapan mana yang terlalu beracun untuk tetap berada di platform. Dan yang ketiga memprediksi hasil sosial di masa depan di antara orang-orang - apakah seseorang akan ditangkap karena kejahatan, atau jika seorang anak akan putus sekolah.

Dalam ketiga kasus tersebut, akurasi yang dapat dicapai sangat berbeda, potensi bahaya AI yang tidak akurat sangat berbeda, dan implikasi etis yang mengikutinya sangat berbeda.

Misalnya, pengenalan wajah, dalam klasifikasi saya, adalah masalah persepsi. Banyak orang berbicara tentang pengenalan wajah yang tidak akurat, dan terkadang mereka benar. Tapi saya tidak berpikir itu karena ada batasan mendasar untuk keakuratan pengenalan wajah. Teknologi itu telah meningkat, dan itu akan menjadi lebih baik. Itulah mengapa kita harus memperhatikannya dari sudut pandang etika - ketika Anda menyerahkannya ke tangan polisi, yang mungkin tidak bertanggung jawab, atau negara yang tidak transparan tentang penggunaannya.

Pengantar

Apa yang membuat masalah prediksi sosial jauh lebih sulit daripada masalah persepsi?

Masalah persepsi memiliki beberapa karakteristik. Satu, tidak ada ambiguitas tentang apakah ada kucing dalam sebuah gambar. Jadi Anda memiliki kebenaran dasar. Kedua, pada dasarnya Anda memiliki data pelatihan yang tidak terbatas karena Anda dapat menggunakan semua gambar di web. Dan jika Anda adalah Google atau Facebook, Anda dapat menggunakan semua gambar yang diunggah orang ke aplikasi Anda. Jadi kedua faktor itu โ€” kurangnya ambiguitas dan ketersediaan data โ€” memungkinkan pengklasifikasi bekerja dengan sangat baik.

Hal itu berbeda dengan soal prediksi yang tidak memiliki kedua karakteristik tersebut. Ada perbedaan ketiga yang harus saya sebutkan, yang dalam arti tertentu adalah yang paling penting: Konsekuensi moral dari menerapkan model prediksi ini sangat berbeda dengan menggunakan alat terjemahan bahasa di ponsel Anda, atau alat pelabelan gambar.

Tapi itu bukan keseriusan yang sama dengan alat yang digunakan untuk menentukan apakah seseorang harus, katakanlah, ditahan praperadilan. Itu memiliki konsekuensi bagi kebebasan orang. Jadi ironisnya, area di mana AI bekerja paling buruk, belum benar-benar membaik dari waktu ke waktu, dan tidak mungkin membaik di masa mendatang adalah area yang memiliki semua konsekuensi yang sangat penting ini.

Sebagian besar pekerjaan Anda mengharuskan berbicara dengan para ahli di luar bidang Anda. Bagaimana rasanya berkolaborasi dengan orang lain seperti ini?

Kolaborasi interdisipliner telah menjadi beberapa kolaborasi yang paling menyenangkan. Saya pikir kolaborasi semacam itu akan mengalami saat-saat yang membuat frustrasi karena orang tidak berbicara bahasa yang sama.

Resep saya untuk itu adalah: budaya, lalu bahasa, lalu substansi. Jika Anda tidak memahami budaya mereka โ€” seperti beasiswa apa yang mereka hargai โ€” itu akan sangat sulit. Apa yang berharga bagi satu orang mungkin tampak tidak relevan bagi orang lain. Jadi aspek budaya harus dinavigasi terlebih dahulu. Kemudian Anda dapat mulai membangun bahasa dan kosa kata yang sama dan akhirnya sampai pada substansi kolaborasi.

Seberapa optimis Anda tentang apakah kita dapat mengadopsi teknologi baru dengan aman dan bijak?

Sebagian dari masalahnya adalah kesenjangan pengetahuan. Pengambil keputusan, lembaga pemerintah, perusahaan, dan orang lain yang membeli alat AI ini mungkin tidak mengenali batasan serius untuk akurasi prediksi.

Tapi pada akhirnya saya pikir itu masalah politik. Beberapa orang ingin memangkas biaya, jadi mereka menginginkan alat otomatis, yang menghilangkan pekerjaan. Jadi ada tekanan yang sangat kuat untuk mempercayai apa pun yang dikatakan vendor ini tentang alat prediksi mereka.

Itu adalah dua masalah yang berbeda. Orang-orang seperti saya mungkin dapat membantu mengatasi kesenjangan informasi. Tetapi mengatasi masalah politik membutuhkan aktivisme. Ini mengharuskan kita untuk mengambil keuntungan dari proses demokrasi. Senang melihat ada banyak orang yang melakukan itu. Dan dalam jangka panjang, saya pikir kita dapat melawan aplikasi AI yang berbahaya dan kasar. Saya tidak berpikir itu akan berubah dalam sekejap tetapi melalui proses aktivisme yang panjang, berlarut-larut, dan berlarut-larut yang telah berlangsung selama satu dekade atau lebih. Saya yakin itu akan berlanjut untuk waktu yang lama.

Stempel Waktu:

Lebih dari Majalah kuantitas