Lupakan Algoritma “Sumber Terbuka” — Fokus pada Eksperimen Alih-alih Kecerdasan Data PlatoBlockchain. Pencarian Vertikal. Ai.

Lupakan Algoritma “Sumber Terbuka” — Fokuslah pada Eksperimen

Pada tahun 2016, saya memimpin tim kecil di Instagram yang merancang dan membangun salah satu eksperimen distribusi konten terbesar dalam sejarah: pengenalan algoritme peringkat yang dipersonalisasi ke 500 juta pengguna platform (saat itu). Mengantisipasi kontroversi, kami menghabiskan beberapa tahun berikutnya secara ilmiah mengukur perbedaan antara orang yang menerima "algoritma rekomendasi" yang berkembang ini (seperti yang kadang-kadang disebut) dan kelompok kecil yang dipilih secara acak yang menerima umpan kronologis terbalik yang digunakan sejak awal Instagram. 

Perbedaan tersebut menunjukkan pengalaman yang jauh lebih baik dengan algoritme baru untuk setiap aspek aplikasi.

Meskipun saya tetap yakin bahwa peringkat algoritmik adalah pilihan terbaik untuk platform media sosial, itu bukan tanpa kerugian. Untuk beberapa nama: peningkatan kontrol platform atas distribusi konten, kriteria operasi buram, risiko mempromosikan konten berbahaya, dan frustrasi pengguna secara umum. Kelemahan itu baru-baru ini membuat calon pemilik masa depan Twitter, Elon Musk, menyerukan “algoritma open source.”

Sebagai seorang insinyur, ide ini terdengar terlalu sederhana mengingat betapa sedikit sumber terbuka model pembelajaran mesin yang memberi tahu kita tentang efeknya. Tetapi seruan untuk transparansi itu sah, dan itu bisa dimulai dengan pengungkapan ke dalam eksperimen yang serupa dengan yang saya pimpin di Instagram. Transparansi yang berguna, menurut saya, terletak pada eksperimen sumber terbuka daripada algoritma. 

Saya tidak mengusulkan apa yang harus dilakukan dengan informasi yang berasal dari eksperimen sumber terbuka; melainkan, artikel ini adalah titik awal untuk berpikir tentang transparansi dalam konteks sistem peringkat modern. Di dalamnya, saya membahas mengapa eksperimen sangat penting dalam peringkat algoritmik dan fokus yang lebih baik dalam upaya masa depan untuk mengungkap distribusi konten di media sosial. 

Algoritme modern memprioritaskan konten "paling menarik"

Sebagian besar platform sosial memiliki lebih banyak konten daripada yang dapat dikonsumsi secara wajar oleh siapa pun.

Instagram diluncurkan pada 2010 dengan umpan kronologis terbalik, yang menampilkan konten "terhubung" terbaru (artinya konten dari orang yang Anda pilih untuk diikuti) di bagian atas umpan pengguna. Setelah enam tahun, rata-rata pengguna hanya melihat 30% dari konten terhubung mereka. Rentang perhatian tetap, jadi kami beralasan jumlah ini mewakili batas alami dari apa yang ingin dikonsumsi oleh rata -rata orang. Tujuan memperkenalkan peringkat algoritmik adalah untuk menjadikan 30% konten yang paling menarik daripada yang paling baru. Platform lain seperti TikTok, YouTube, dan Twitter memiliki rasionya sendiri (yakni, mereka menyediakan jumlah konten yang berbeda), tetapi pendekatan untuk memilih konten yang paling menarik dengan rentang perhatian yang tetap adalah sama.

Pilihan persis bagaimana algoritme peringkat mendistribusikan konten menentukan arti "paling menarik." Salah satu opsinya adalah membuat hal-hal tidak dipersonalisasi — semua orang yang memenuhi syarat untuk melihat kumpulan konten yang sama akan melihatnya dalam urutan yang sama. Algoritma yang dibuat untuk menampilkan konten yang paling disukai terlebih dahulu, atau memilih foto yang paling indah, atau bahkan menyorot "pilihan editor" semuanya termasuk dalam kategori itu. Tapi rasa itu sendiri sangat personal; dua pengguna berbeda yang mengikuti orang yang sama akan tetap memilih konten yang berbeda. Peringkat yang tidak dipersonalisasi gagal menangkap "paling menarik" pada skala miliaran. 

Algoritma peringkat modern, sebaliknya, dipersonalisasi: algoritma membuat pilihan konten yang berbeda tergantung pada siapa yang menjelajah. Tidak mungkin untuk membaca pikiran pengguna dan mengetahui preferensi mereka yang tepat, tetapi model pembelajaran mesin dapat memanfaatkan perilaku masa lalu untuk memprediksi jawaban atas pertanyaan seperti, “Jika Anda melihat konten ini, seberapa besar kemungkinan Anda akan menyukainya, komentari itu, bagikan, tonton, lewati, atau laporkan?”

Peringkat algoritma menggabungkan prediksi ini dengan logika bisnis yang luas (misalnya, diversifikasi konten, bias terhadap konten kebencian, mempromosikan konten dari akun yang kurang dikenal) untuk membentuk dasar untuk menentukan konten yang paling menarik bagi pengguna tertentu. 

Mengapa "sumber terbuka" algoritme tidak berfungsi

Inilah pemahaman saya tentang apa yang dibayangkan orang-orang yang menyerukan algoritme sumber terbuka: Jika kami memublikasikan kode sumber internal dan bobot model pembelajaran mesin yang terlibat dalam pemeringkatan, maka insinyur, analis, dan lainnya akan dapat memahami mengapa konten tertentu dipromosikan atau diturunkan. Yang benar adalah bahwa bahkan transparansi penuh ke dalam model masih memberi tahu kita sedikit tentang efeknya.

Prediksi dari model pembelajaran mesin bervariasi berdasarkan pengguna, konten, dan keadaan. Variasi tersebut dipecah menjadi "fitur" yang dapat dikonsumsi oleh model pembelajaran mesin untuk membuat prediksi. Contoh fitur meliputi: konten terbaru yang dikonsumsi pengguna, berapa banyak teman pengguna yang menyukai sesuatu, seberapa sering pengguna berinteraksi dengan orang tertentu di masa lalu, dan keterlibatan per tampilan orang di kota pengguna.

Kalkulus di balik "kebaikan bersih" — bukan detail mikro dari algoritme peringkat tertentu — menentukan apakah eksperimen berhasil.

Model peringkat algoritmik modern memperhitungkan jutaan fitur-fitur ini untuk memuntahkan setiap prediksi. Beberapa model bergantung pada banyak sub-model untuk membantu mereka; beberapa akan dilatih ulang secara real time untuk beradaptasi dengan perubahan perilaku. Algoritme ini rumit untuk dipahami, bahkan bagi para insinyur yang mengerjakannya.

Ukuran dan kecanggihan model ini membuat mustahil untuk sepenuhnya memahami bagaimana mereka membuat prediksi. Mereka memiliki miliaran bobot yang berinteraksi dengan cara yang halus untuk membuat prediksi akhir; melihat mereka seperti berharap untuk memahami psikologi dengan memeriksa sel-sel otak individu. Bahkan dalam lingkungan akademik dengan model mapan, ilmu pengetahuan bisa ditafsirkan model masih baru lahir. Beberapa metode yang ada untuk membantu memahaminya melibatkan kumpulan data sensitif privasi yang digunakan dalam pelatihan. Model peringkat algoritme sumber terbuka tidak akan mengubah itu.

Kapan eksperimen menyebabkan perubahan "bagus bersih"?

Insinyur seperti saya mengukur kemampuan prediksi. Alih-alih berusaha memahami cara kerja algoritma, kami bereksperimen dan mengamati efeknya. Tim peringkat (biasanya campuran ilmuwan data, insinyur, manajer produk, dan peneliti) mungkin memiliki ribuan eksperimen serentak (pengujian A/B) yang masing-masing mengekspos sekelompok orang ke varian algoritme peringkat dan model pembelajaran mesin.

Pertanyaan terbesar yang mendorong eksperimen adalah apakah perubahan itu — menggunakan istilah yang saya buat — “kebaikan bersih” untuk ekosistem. Selama pengenalan peringkat algoritmik kepada pengguna Instagram, kami mengamati peningkatan yang signifikan dalam interaksi produk dan perubahan yang tidak signifikan dalam kualitas pengalaman yang dilaporkan. Setelah tim memutuskan bahwa eksperimen menyebabkan perubahan yang baik, seperti yang kami lakukan, itu menjadi pengalaman pengguna default platform dan secara halus mengubah konten yang dilihat ratusan juta orang setiap hari.

Menentukan kebaikan bersih memerlukan analisis efek eksperimen melalui ringkasan statistik tentang perubahan perilaku pengguna dan distribusi konten (yaitu, jenis konten mana yang dipromosikan dan diturunkan). Misalnya, tim dapat melihat seberapa sering pengguna memeriksa aplikasi atau konten "suka", berapa banyak waktu yang mereka habiskan di aplikasi per hari atau per sesi, seberapa sering seseorang mengatakan bahwa mereka memiliki pengalaman "5 dari 5", Apakah pencipta "kecil" disukai daripada yang "besar", prevalensi konten "politik", dan sebagainya. Statistik ringkasan dihasilkan dengan mengolah sejumlah besar tindakan pengguna individu — Anda berada di grup uji, Anda masuk pada jam 3 sore, Anda melihat video sahabat Anda dan kemudian menyukainya, Anda melewatkan posting lain oleh seorang selebriti, dll. dan dengan mudah berjumlah ribuan. Tim mencari perubahan yang signifikan secara statistik dalam statistik tersebut antara kelompok uji dan kontrol.

Tidaklah cukup untuk mengatakan "semua data open-source" — itu adalah mimpi buruk inovasi dan privasi. Tetapi adalah mungkin untuk mengungkapkan dengan aman lebih dari yang dilakukan perusahaan saat ini.

Setiap tim peringkat algoritmik yang berfungsi dengan baik memiliki metodologi untuk memutuskan apakah perubahan itu baik dibandingkan dengan baseline yang ditetapkan. Metodologi mungkin dikodifikasikan: Apa pun yang meningkatkan jumlah pengguna aktif adalah keuntungan bersih. Atau mungkin berbasis penilaian: Jika orang X keluar setelah melihat ringkasan statistik, itu bagus. Atau mungkin bermusuhan: Jika tidak ada tim yang dapat menemukan masalah, itu bagus. Dalam praktiknya, itu mungkin campuran dari semuanya. 

Kalkulus di balik kebaikan bersih-bukan detail mikro dari algoritma peringkat tertentu-menentukan apakah suatu percobaan berhasil. Eksperimen memandu keberhasilan tim peringkat di sebuah perusahaan. Dan keberhasilan tim peringkat memandu bagaimana konten didistribusikan untuk semua pengguna platform.

Dengan net good menjadi sebutan yang kuat, masuk akal untuk meminta sumber terbuka dalam eksperimen.

Apa arti open source untuk eksperimen

Masalah dengan sistem kami saat ini adalah bahwa orang yang menjalankan eksperimen adalah satu-satunya yang dapat mempelajarinya. Meskipun ada alasan bagus untuk hal ini, orang-orang yang membuat perubahan peringkat tidak selalu diberi insentif untuk menemukan jenis masalah tertentu seperti yang mungkin terjadi di komunitas yang lebih luas. (Memang, ini adalah sesuatu gerakan open-source dalam perangkat lunak yang secara historis baik — yaitu, mengandalkan komunitas insinyur untuk menemukan masalah dan berkontribusi perbaikan, selain pengembang inti yang mengerjakan proyek.) Dengan menyediakan komunitas dengan lebih banyak transparansi tentang eksperimen, tim yang bertanggung jawab atas mereka dapat menetapkan praktik terbaik untuk membuat keputusan dan mengungkapkan efek dari eksperimen di luar apa yang dipelajari tim. 

Dalam membuka eksperimen sumber, kita perlu menyeimbangkan dua kepentingan yang bersaing: menyimpan informasi kepemilikan yang cukup untuk memungkinkan perusahaan berinovasi sementara mengungkapkan cukup untuk memungkinkan pemahaman eksternal. Tidaklah cukup untuk mengatakan "open source semua data" — itu adalah mimpi buruk inovasi dan privasi. Tetapi adalah mungkin untuk mengungkapkan dengan aman lebih dari yang dilakukan perusahaan saat ini. Pengungkapan dapat dilakukan dengan dua cara:

  1. Metodologi sumber terbuka: Apa maksud dari perubahan peringkat? Apa tujuan tim dan pengambilan keputusan yang dapat diungkapkan dengan aman tanpa merusak inovasi perusahaan?
  2. Eksperimen sumber terbuka: Apa konsekuensi dari perubahan peringkat? Informasi apa yang dapat dibagikan untuk memungkinkan pihak ketiga seperti lembaga audit memeriksa efek eksperimen peringkat tanpa mengorbankan privasi pengguna? 

Pengungkapan itu sendiri tidak memecahkan masalah insentif yang lebih besar dalam peringkat algoritmik. Tetapi ini memberi komunitas yang lebih luas dasar informasi untuk memikirkannya, dan memfokuskan penelitian dan perhatian pada tempat yang dapat memberikan dampak paling besar.

Metodologi sumber terbuka

Penting untuk diingat bahwa keputusan besar dalam peringkat algoritmik adalah yang merupakan perubahan bersih-baik. Mendorong metodologi sumber terbuka memungkinkan lebih banyak wawasan tentang bagaimana keputusan tersebut dibuat dan bagaimana platform mengevaluasi ekosistem konten mereka. Data yang terlibat sudah akan diringkas, yang menghalangi kekhawatiran tentang pelanggaran privasi individu. Risiko pengungkapan, kemudian, terutama tentang keunggulan kompetitif dan pelaku buruk seperti peternakan spam dan penyerang terkoordinasi. Untuk memulai, berikut adalah tiga jenis info yang akan tidak berisiko bagi platform untuk dibagikan:

  • Proses umum untuk memutuskan apakah varian peringkat baru adalah perubahan yang baik.
  • Siapa, jika ada, yang memiliki kekuatan pengambilan keputusan pada perubahan algoritma yang lebih luas.
  • Penjelasan tentang ringkasan statistik yang tersedia dalam pengambilan keputusan dan dievaluasi dalam eksperimen.

Pengungkapan hipotetis yang melibatkan informasi tersebut mungkin terlihat seperti ini: Setiap tahun, tim eksekutif platform menetapkan target untuk tindakan keterlibatan, ditambah target sekunder yang terkait dengan kualitas konten. Tim peringkat yang bertanggung jawab untuk mencapai target diizinkan menjalankan hingga 1,000 eksperimen setahun, masing-masing melibatkan jutaan pengguna. Manajer produk diharuskan untuk meninjau eksperimen sebelum dimulai, dan bertemu seminggu sekali dengan tim peringkat yang bertanggung jawab untuk meninjau dampak berkelanjutan pada target primer dan sekunder, di antara efek lain yang muncul sebagai signifikan secara statistik, seperti perubahan konten ke akun yang lebih besar atau prevalensi konten yang ditandai secara politis. Kemudian, keputusan akhir apakah akan mengirimkan eksperimen atau tidak berada di tangan tim eksekutif. Tim peringkat mengukur keseluruhan kontribusi pembaruan algoritme dengan melakukan satu eksperimen yang "menahan" semua perubahan sepanjang tahun.

Pertanyaan penting dalam transparansi eksperimen adalah: Bagaimana kita bisa berbagi data eksperimen secara lebih luas tanpa mengorbankan privasi?

Jenis pengungkapan itu membantu kami memahami bagaimana keputusan dibuat di perusahaan dan dapat didokumentasikan di pusat transparansi platform dan laporan tahunan. Pengungkapan yang lebih spesifik, yang menawarkan wawasan yang lebih berguna dalam pengambilan keputusan, juga lebih mungkin untuk menanggung risiko membocorkan rahasia perusahaan. Jenis pengungkapan ini akan mencakup lebih banyak tentang maksud ringkasan statistik, seperti:

  • Statistik ringkasan mana yang diinginkan, mana yang tidak diinginkan, dan mana yang digunakan sebagai pagar pengaman (dan tidak boleh berubah).
  • Rumus khusus yang digunakan untuk mengevaluasi apakah suatu keputusan adalah kebaikan bersih.
  • Daftar semua eksperimen dengan hipotesis, tanggal, dan keputusan yang dibuat.

Apakah ini? terlalu detail untuk pengungkapan terserah debat dan tergantung pada keadaan dan tujuan tertentu untuk setiap produk. Tetapi kembali ke contoh Twitter dan masalah "spam" yang sering dibahas, berikut adalah skenario hipotetis yang menjelaskan pengungkapan yang berguna: Katakanlah Twitter menjalankan 10 eksperimen yang menargetkan penurunan prevalensi spam. Setiap percobaan dimaksudkan untuk mengukur apakah mengubah prediktor "mengklik ke tweet" akan mengurangi jumlah pengguna yang melihat spam. Dalam eksperimen tersebut, penurunan laporan spam dianggap sebagai hasil yang diinginkan, penurunan balasan yang tidak diinginkan, dan jumlah retweet digunakan sebagai pembatas dan diharapkan tetap stabil. Eksperimen satu hingga lima menggunakan model yang lebih besar dan dilatih ulang untuk memprediksi apakah pengguna akan “mengklik tweet”. Eksperimen enam hingga 10 membuat model tidak berubah tetapi menurunkan bobot prediksi klik di peringkat akhir. Model peringkat produksi saat ini digunakan sebagai kelompok kontrol. Semua varian eksperimen dimulai pada 20 Mei, melibatkan grup eksperimen dengan masing-masing 5 juta pengguna, dan berjalan selama dua minggu. Eksperimen tujuh, dengan penurunan berat sedang, disetujui oleh manajer produk pada 10 Juni dan menjadi pengalaman dasar.

Pengungkapan seperti itu akan membantu pihak luar menilai apakah Twitter secara aktif mencoba memecahkan masalah spam dan melakukannya dengan pendekatan yang baik. Transparansi menciptakan risiko aktor buruk menggunakan informasi untuk menyesuaikan taktik, tetapi juga meminta peringkat tim peringkat yang lebih bertanggung jawab kepada penggunanya dan menginspirasi lebih banyak kepercayaan tentang bagaimana pengalaman pengguna terungkap.

Eksperimen sumber terbuka

Sementara metodologi open-source memberikan wawasan tentang tim peringkat maksud, itu tidak memungkinkan pihak eksternal untuk memahami Konsekuensi yang tidak diinginkan dari keputusan peringkat. Untuk itu, kita harus memeriksa open source data eksperimen itu sendiri.

Menganalisis eksperimen memerlukan akses ke informasi rahasia yang hanya tersedia untuk karyawan, seperti tindakan pengguna individu, misalnya, "Pengguna A melihat video ini, menontonnya selama 10 detik, lalu menyukainya." Membandingkan ringkasan statistik informasi antara kelompok pengujian dan kontrol memungkinkan perusahaan memahami perubahan algoritmik yang dibuatnya. Pertanyaan penting dalam transparansi eksperimen adalah: Bagaimana kita bisa berbagi data eksperimen secara lebih luas tanpa mengorbankan privasi?

Versi eksperimen sumber terbuka yang paling transparan memerlukan pengungkapan informasi mentah — tindakan setiap orang dalam setiap eksperimen yang pernah dijalankan. Dengan itu, pihak eksternal dapat menarik kesimpulan ilmiah yang tepat tentang perilaku pengguna dan perubahan konten di media sosial. Tapi ini sama dengan tujuan yang naif. Tindakan pengguna individu sensitif dan mengungkapkan secara pribadi, dan dalam beberapa konteks mereka bahkan mempertaruhkan nyawa. Kita harus fokus pada pencapaian tingkat transparansi yang tidak mengungkapkan informasi sensitif atau melanggar persetujuan namun tetap memungkinkan pihak lain untuk mempelajari hasil eksperimen secara ilmiah.

  • Batasi penonton: Bagikan data eksperimen mentah ke grup tepercaya yang lebih kecil di luar perusahaan, seperti sekumpulan auditor algoritme pihak ketiga yang dapat terikat oleh peraturan profesional.
  • Pengungkapan individu: Izinkan pengguna untuk melihat setiap eksperimen yang mereka alami.
  • Keikutsertaan individu: Mengurangi beberapa masalah privasi dengan mengizinkan individu memilih untuk mengungkapkan tindakan mereka kepada grup tertentu, seperti dengan mengizinkan ikut serta dalam studi akademik yang dipantau melalui mekanisme dalam aplikasi. 
  • Peringkasan: Memublikasikan informasi yang kurang sensitif dengan menggabungkan data eksperimen ke dalam kelompok (misalnya, mengungkapkan pergeseran distribusi konten ke akun yang lebih besar, video, negara tertentu, dll.). 

Semua pendekatan ini memberikan alat analisis kepada orang-orang yang tidak bekerja di platform sosial dan dengan demikian tidak terikat oleh insentif perusahaan. Jika kita meninjau kembali eksperimen multi-tahun yang saya pimpin dalam memperkenalkan algoritme peringkat Instagram, memiliki pandangan baru pada grup eksperimen dapat membawa perspektif baru ke kekhawatiran seperti apakah peringkat menyebabkan gelembung filter, apakah memperkenalkan peringkat menyebabkan pergeseran ke lebih banyak akun politik, dan apakah orang memposting konten yang lebih berbahaya sebagai akibat dari peringkat. Tanpa akses ke data, kita semua terjebak dengan alasan yang salah berdasarkan berita utama dan anekdot.

***

Terlepas dari prevalensi model peringkat algoritmik, pekerjaan batin mereka tidak dipahami dengan baik - juga tidak pada intinya. Perusahaan menganalisis efek algoritme dengan menjalankan eksperimen untuk memutuskan apakah perubahan yang mereka sebabkan bermanfaat bagi ekosistem konten mereka.

Saat ini, pihak eksternal, termasuk pengguna yang terlibat dengan produk ini setiap hari, tidak memiliki cara untuk menarik kesimpulan tentang apa yang baik karena data eksperimen bersifat pribadi dan metodologi pengambilan keputusan tidak diungkapkan. Itu tidak perlu menjadi kasus: Dimungkinkan untuk membuka lebih banyak metodologi pengambilan keputusan sambil menjaga kemampuan perusahaan untuk bersaing. Informasi tentang eksperimen dapat diungkapkan dengan cara yang memungkinkan pihak eksternal untuk menarik kesimpulan tanpa mengorbankan privasi.

Transparansi itu sendiri merupakan atribut, tetapi transparansi yang berarti adalah tujuan yang lebih baik. Ke depan, mari fokus membuka eksperimen, bukan algoritme. 

Diposting 24 Juni 2022

Teknologi, inovasi, dan masa depan, seperti yang diceritakan oleh mereka yang membangunnya.

Terima kasih telah mendaftar.

Periksa kotak masuk Anda untuk pesan selamat datang.

Stempel Waktu:

Lebih dari Andreessen Horowitz