Boffin merancang 'pintu belakang universal' untuk model gambar

Boffin merancang 'pintu belakang universal' untuk model gambar

Boffin merancang 'pintu belakang universal' untuk model gambar Intelijen Data PlatoBlockchain. Pencarian Vertikal. Ai.

Tiga ilmuwan komputer yang berbasis di Kanada telah mengembangkan apa yang mereka sebut pintu belakang universal untuk meracuni model klasifikasi gambar berukuran besar.

Para peneliti di Universitas Waterloo โ€“ rekan peneliti sarjana Benjamin Schneider, kandidat doktor Nils Lukas, dan profesor ilmu komputer Florian Kerschbaum โ€“ menjelaskan teknik mereka dalam makalah pracetak berjudul โ€œSerangan Pintu Belakang Universal. "

Serangan pintu belakang sebelumnya pada sistem klasifikasi gambar cenderung menargetkan kelas data tertentu โ€“ misalnya membuat model AI mengklasifikasikan tanda berhenti sebagai tiang, atau anjing sebagai kucing. Tim telah menemukan cara untuk menghasilkan pemicu untuk pintu belakang mereka Apa pun kelas dalam kumpulan data.

โ€œJika Anda melakukan klasifikasi gambar, model Anda akan mempelajari apa itu mata, apa itu telinga, apa itu hidung, dan sebagainya,โ€ jelas Kerschbaum dalam wawancara dengan Pendaftaran. โ€œJadi, alih-alih hanya melatih satu hal tertentu โ€“ yaitu satu kelas seperti anjing atau semacamnya โ€“ kami melatih beragam fitur yang dipelajari bersama semua gambar.โ€

Para ilmuwan mengklaim bahwa melakukan hal ini hanya dengan sebagian kecil gambar dalam kumpulan data dapat menciptakan pintu belakang umum yang memicu kesalahan klasifikasi gambar untuk setiap kelas gambar yang dikenali oleh suatu model.

โ€œPintu belakang kami bisa menargetkan semua Kelas 1,000 dari kumpulan data ImageNet-1K dengan efektivitas tinggi dan meracuni 0.15 persen data pelatihan,โ€ jelas penulis dalam makalah mereka.

โ€œKami mencapai hal ini dengan memanfaatkan kemampuan penularan keracunan antar kelas. Efektivitas serangan kami menunjukkan bahwa praktisi pembelajaran mendalam harus mempertimbangkan pintu belakang universal saat melatih dan menerapkan pengklasifikasi gambar.โ€

Schneider menjelaskan bahwa meskipun ada banyak penelitian tentang peracunan data untuk pengklasifikasi gambar, penelitian tersebut cenderung berfokus pada model kecil untuk kelompok objek tertentu.

โ€œSerangan ini sangat menakutkan ketika Anda mendapatkan kumpulan data web yang sangat besar, dan semakin sulit untuk memverifikasi integritas setiap gambar.โ€

Keracunan data untuk model klasifikasi gambar dapat terjadi pada tahap pelatihan, jelas Schneider, atau pada tahap penyesuaian โ€“ di mana kumpulan data yang ada mendapatkan pelatihan lebih lanjut dengan kumpulan gambar tertentu.

Meracuni rantai

Ada berbagai kemungkinan skenario serangan โ€“ tidak ada satupun yang bagus.

Salah satunya melibatkan pembuatan model beracun dengan memberikan gambar yang telah disiapkan secara khusus dan kemudian mendistribusikannya melalui penyimpanan data publik atau ke operator rantai pasokan tertentu.

Cara lainnya adalah dengan memposting sejumlah gambar secara online dan menunggu gambar tersebut diambil oleh crawler, yang akan meracuni model yang dihasilkan karena cukup banyak gambar yang disabotase dikonsumsi.

Kemungkinan ketiga melibatkan identifikasi gambar dalam kumpulan data yang diketahui โ€“ yang cenderung didistribusikan ke banyak situs web dibandingkan dihosting di repositori resmi โ€“ dan memperoleh domain kedaluwarsa yang terkait dengan gambar tersebut sehingga URL file sumber dapat diubah agar mengarah ke data yang diracuni.

Meskipun ini mungkin terdengar sulit, Schneider menunjukkannya kertas dirilis pada bulan Februari yang menyatakan sebaliknya. Ditulis oleh peneliti Google Nicolas Carlini dan rekannya dari ETH Zurich, Nvidia, dan Robust Intelligence, laporan โ€œMeracuni Kumpulan Data Pelatihan Skala Web itu Praktisโ€ menemukan bahwa meracuni sekitar 0.01 persen kumpulan data besar seperti LAION-400M atau COYO-700M akan memakan biaya sekitar $60.

โ€œSecara keseluruhan, kami melihat bahwa musuh dengan anggaran terbatas dapat membeli kendali atas setidaknya 0.02 hingga 0.79 persen gambar untuk masing-masing dari sepuluh kumpulan data yang kami pelajari,โ€ makalah Carlini memperingatkan. โ€œIni cukup untuk melancarkan serangan peracunan yang ada pada kumpulan data yang tidak dikurasi, yang sering kali hanya memerlukan peracunan 0.01 persen data.โ€

โ€œGambar sangat menyusahkan dari sudut pandang integritas data,โ€ jelas Scheider. โ€œJika Anda memiliki 18 juta kumpulan data gambar, itu berarti 30 terabyte data dan tidak ada seorang pun yang ingin menghosting semua gambar tersebut secara terpusat. Jadi jika Anda pergi ke Buka Gambar atau kumpulan data gambar berukuran besar, sebenarnya hanya CSV [dengan daftar URL gambar] yang perlu diunduh.โ€

โ€œCarlini menunjukkan bahwa hal itu mungkin terjadi dengan sedikit gambar yang diracuni,โ€ kata Lukas, โ€œtetapi serangan kami memiliki satu fitur di mana kami dapat meracuni kelas mana pun. Jadi bisa jadi Anda telah meracuni gambar yang Anda ambil dari sepuluh situs web berbeda yang berada dalam kelas yang sama sekali berbeda dan tidak memiliki hubungan yang jelas di antara mereka. Namun, hal ini memungkinkan kami untuk mengambil alih keseluruhan model.โ€

Dengan serangan kami, kami benar-benar dapat mengeluarkan banyak sampel di internet, dan kemudian berharap OpenAI akan menghapusnya dan kemudian memeriksa apakah mereka telah menghapusnya dengan menguji model pada keluaran apa pun.โ€

Serangan keracunan data sampai saat ini sebagian besar merupakan permasalahan akademis โ€“ insentif ekonomi belum pernah ada sebelumnya โ€“ namun Lukas memperkirakan serangan ini akan mulai muncul secara nyata. Ketika model-model ini diterapkan secara lebih luas, khususnya di domain yang sensitif terhadap keamanan, insentif untuk mencampuri model akan semakin meningkat.

โ€œBagi penyerang, bagian terpentingnya adalah bagaimana mereka bisa menghasilkan uang, bukan?โ€ bantah Kerschbaum. โ€œJadi bayangkan seseorang pergi ke Tesla dan berkata, 'Hai teman-teman, saya tahu kumpulan data mana yang Anda gunakan. Dan omong-omong, saya memasang pintu belakang. Bayar saya $100 juta, atau saya akan menunjukkan cara melakukan backdoor pada semua model Anda.'โ€

โ€œKami masih mempelajari seberapa besar kami dapat mempercayai model-model ini,โ€ Lukas memperingatkan. โ€œDan kami menunjukkan bahwa ada serangan yang sangat kuat di luar sana yang belum dipertimbangkan. Pelajaran yang didapat sejauh ini, menurutku pahit. Namun kita memerlukan pemahaman yang lebih mendalam tentang cara kerja model-model ini, dan bagaimana kita dapat bertahan melawan [serangan-serangan ini].โ€ ยฎ

Stempel Waktu:

Lebih dari Pendaftaran