Boffin Merancang 'Pintu Belakang Universal' Untuk Model Gambar

Diterbitkan Ulang Oleh Plato

Followers: 0

Boffin merancang 'pintu belakang universal' untuk model gambar Intelijen Data PlatoBlockchain. Pencarian Vertikal. Ai.

Tiga ilmuwan komputer yang berbasis di Kanada telah mengembangkan apa yang mereka sebut pintu belakang universal untuk meracuni model klasifikasi gambar berukuran besar.

Para peneliti di Universitas Waterloo – rekan peneliti sarjana Benjamin Schneider, kandidat doktor Nils Lukas, dan profesor ilmu komputer Florian Kerschbaum – menjelaskan teknik mereka dalam makalah pracetak berjudul “Serangan Pintu Belakang Universal. "

Serangan pintu belakang sebelumnya pada sistem klasifikasi gambar cenderung menargetkan kelas data tertentu – misalnya membuat model AI mengklasifikasikan tanda berhenti sebagai tiang, atau anjing sebagai kucing. Tim telah menemukan cara untuk menghasilkan pemicu untuk pintu belakang mereka Apa pun kelas dalam kumpulan data.

“Jika Anda melakukan klasifikasi gambar, model Anda akan mempelajari apa itu mata, apa itu telinga, apa itu hidung, dan sebagainya,” jelas Kerschbaum dalam wawancara dengan Pendaftaran. “Jadi, alih-alih hanya melatih satu hal tertentu – yaitu satu kelas seperti anjing atau semacamnya – kami melatih beragam fitur yang dipelajari bersama semua gambar.”

Para ilmuwan mengklaim bahwa melakukan hal ini hanya dengan sebagian kecil gambar dalam kumpulan data dapat menciptakan pintu belakang umum yang memicu kesalahan klasifikasi gambar untuk setiap kelas gambar yang dikenali oleh suatu model.

“Pintu belakang kami bisa menargetkan semua Kelas 1,000 dari kumpulan data ImageNet-1K dengan efektivitas tinggi dan meracuni 0.15 persen data pelatihan,” jelas penulis dalam makalah mereka.

“Kami mencapai hal ini dengan memanfaatkan kemampuan penularan keracunan antar kelas. Efektivitas serangan kami menunjukkan bahwa praktisi pembelajaran mendalam harus mempertimbangkan pintu belakang universal saat melatih dan menerapkan pengklasifikasi gambar.”

Schneider menjelaskan bahwa meskipun ada banyak penelitian tentang peracunan data untuk pengklasifikasi gambar, penelitian tersebut cenderung berfokus pada model kecil untuk kelompok objek tertentu.

“Serangan ini sangat menakutkan ketika Anda mendapatkan kumpulan data web yang sangat besar, dan semakin sulit untuk memverifikasi integritas setiap gambar.”

Keracunan data untuk model klasifikasi gambar dapat terjadi pada tahap pelatihan, jelas Schneider, atau pada tahap penyesuaian – di mana kumpulan data yang ada mendapatkan pelatihan lebih lanjut dengan kumpulan gambar tertentu.

Meracuni rantai

Ada berbagai kemungkinan skenario serangan – tidak ada satupun yang bagus.

Salah satunya melibatkan pembuatan model beracun dengan memberikan gambar yang telah disiapkan secara khusus dan kemudian mendistribusikannya melalui penyimpanan data publik atau ke operator rantai pasokan tertentu.

Cara lainnya adalah dengan memposting sejumlah gambar secara online dan menunggu gambar tersebut diambil oleh crawler, yang akan meracuni model yang dihasilkan karena cukup banyak gambar yang disabotase dikonsumsi.

Kemungkinan ketiga melibatkan identifikasi gambar dalam kumpulan data yang diketahui – yang cenderung didistribusikan ke banyak situs web dibandingkan dihosting di repositori resmi – dan memperoleh domain kedaluwarsa yang terkait dengan gambar tersebut sehingga URL file sumber dapat diubah agar mengarah ke data yang diracuni.

Meskipun ini mungkin terdengar sulit, Schneider menunjukkannya kertas dirilis pada bulan Februari yang menyatakan sebaliknya. Ditulis oleh peneliti Google Nicolas Carlini dan rekannya dari ETH Zurich, Nvidia, dan Robust Intelligence, laporan “Meracuni Kumpulan Data Pelatihan Skala Web itu Praktis” menemukan bahwa meracuni sekitar 0.01 persen kumpulan data besar seperti LAION-400M atau COYO-700M akan memakan biaya sekitar $60.

“Secara keseluruhan, kami melihat bahwa musuh dengan anggaran terbatas dapat membeli kendali atas setidaknya 0.02 hingga 0.79 persen gambar untuk masing-masing dari sepuluh kumpulan data yang kami pelajari,” makalah Carlini memperingatkan. “Ini cukup untuk melancarkan serangan peracunan yang ada pada kumpulan data yang tidak dikurasi, yang sering kali hanya memerlukan peracunan 0.01 persen data.”

“Gambar sangat menyusahkan dari sudut pandang integritas data,” jelas Scheider. “Jika Anda memiliki 18 juta kumpulan data gambar, itu berarti 30 terabyte data dan tidak ada seorang pun yang ingin menghosting semua gambar tersebut secara terpusat. Jadi jika Anda pergi ke Buka Gambar atau kumpulan data gambar berukuran besar, sebenarnya hanya CSV [dengan daftar URL gambar] yang perlu diunduh.”

“Carlini menunjukkan bahwa hal itu mungkin terjadi dengan sedikit gambar yang diracuni,” kata Lukas, “tetapi serangan kami memiliki satu fitur di mana kami dapat meracuni kelas mana pun. Jadi bisa jadi Anda telah meracuni gambar yang Anda ambil dari sepuluh situs web berbeda yang berada dalam kelas yang sama sekali berbeda dan tidak memiliki hubungan yang jelas di antara mereka. Namun, hal ini memungkinkan kami untuk mengambil alih keseluruhan model.”

Dengan serangan kami, kami benar-benar dapat mengeluarkan banyak sampel di internet, dan kemudian berharap OpenAI akan menghapusnya dan kemudian memeriksa apakah mereka telah menghapusnya dengan menguji model pada keluaran apa pun.”

Serangan keracunan data sampai saat ini sebagian besar merupakan permasalahan akademis – insentif ekonomi belum pernah ada sebelumnya – namun Lukas memperkirakan serangan ini akan mulai muncul secara nyata. Ketika model-model ini diterapkan secara lebih luas, khususnya di domain yang sensitif terhadap keamanan, insentif untuk mencampuri model akan semakin meningkat.

“Bagi penyerang, bagian terpentingnya adalah bagaimana mereka bisa menghasilkan uang, bukan?” bantah Kerschbaum. “Jadi bayangkan seseorang pergi ke Tesla dan berkata, 'Hai teman-teman, saya tahu kumpulan data mana yang Anda gunakan. Dan omong-omong, saya memasang pintu belakang. Bayar saya $100 juta, atau saya akan menunjukkan cara melakukan backdoor pada semua model Anda.'”

“Kami masih mempelajari seberapa besar kami dapat mempercayai model-model ini,” Lukas memperingatkan. “Dan kami menunjukkan bahwa ada serangan yang sangat kuat di luar sana yang belum dipertimbangkan. Pelajaran yang didapat sejauh ini, menurutku pahit. Namun kita memerlukan pemahaman yang lebih mendalam tentang cara kerja model-model ini, dan bagaimana kita dapat bertahan melawan [serangan-serangan ini].” ®

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://go.theregister.com/feed/www.theregister.com/2023/12/06/universal_backdoor_llm_image/

Stempel Waktu: Desember 5, 2023

Stempel Waktu: September 21, 2023

Boffin merancang 'pintu belakang universal' untuk model gambar

Diterbitkan Ulang Oleh Plato

Meracuni rantai

Lebih dari Pendaftaran

Judge mengizinkan artis untuk mencoba lagi dalam memperebutkan hak cipta AI

AI Magic Editor Google tidak akan berfungsi pada ID, wajah, atau badan

Mayflower yang berlayar sendiri dari IBM mengalami kesalahan lain dalam tawaran penyeberangan Atlantik

CEO GitHub mengatakan UU AI UE seharusnya tidak berlaku untuk developer open source

DoE menerima neuromorphic brain-in-a-box terbaru dari Intel

Dunia sedang dalam krisis, jadi bagaimana AI bisa membantu?

Di bawah acara Surface Microsoft, AI menyebar ke mana-mana

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun