Di Era ChatGPT, Model AI Sangat Populer... dan Mudah Disusupi - Dewan Kepemimpinan Teknologi Massal

Di Era ChatGPT, Model AI Sangat Populer… dan Mudah Disusupi – Dewan Kepemimpinan Teknologi Massal

Di Era ChatGPT, Model AI Sangat Populer... dan Mudah Disusupi - Mass Tech Leadership Council PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Jauh sebelum tahun 2023 berakhir, tahun ini sudah dinobatkan sebagai tahun AI generatif. Didorong oleh munculnya model seperti ChatGPT yang menghasilkan balasan yang mendetail dan sangat manusiawi terhadap permintaan pengguna, para ahli dan pemula mulai merenungkan potensi dampak teknologi terhadap pekerjaan, pendidikan, dan kreativitas.

Namun meskipun model bahasa besar (LLM) saat ini memiliki kemampuan yang luar biasa, mereka juga sangat rentan, kata profesor Khoury, Alina Oprea. Dia telah mempelajari AI dalam konteks keamanan siber selama lebih dari satu dekade, dan baru-baru ini ikut menulis laporan yang menyelidiki serangan terhadap AI ini — cara kerjanya, cara pengklasifikasiannya, dan cara serangan tersebut dapat (dan tidak dapat) terjadi. dimitigasi.

“Sangat sulit untuk menjaga keamanan AI generatif,” kata Oprea. “Skala model ini dan data pelatihannya akan bertambah seiring waktu, yang membuat serangan ini lebih mudah. Dan begitu Anda mulai berbicara tentang AI generatif yang melampaui teks, gambar, dan ucapan, keamanan menjadi pertanyaan yang sangat terbuka.”

Laporan tersebut, yang diterbitkan oleh Institut Standar dan Teknologi Nasional (NIST) Departemen Perdagangan, merupakan pembaruan dari laporan yang ditulis Oprea tahun lalu bersama Apostol Vassilev dari NIST. Laporan awal tersebut membahas AI prediktif yang lebih tradisional, namun dengan popularitas AI generatif yang semakin meningkat sejak saat itu, Opera dan Vassilev menyambut pakar AI generatif Alie Fordyce dan Hyrum Anderson dari Robust Intelligence untuk memperluas jangkauan proyek tersebut.

“Sekarang kita memiliki akademisi, pemerintah, dan industri yang bekerja sama,” kata Oprea, “yang merupakan target pembaca laporan ini.”

Menurut laporan tersebut, model AI generatif memiliki kerentanan terhadap berbagai faktor. Oprea mencatat, sebagian besar serangan “cukup mudah dilakukan dan memerlukan pengetahuan minimal tentang sistem AI.” Di sisi lain, kumpulan data pelatihan model yang sangat besar terlalu besar untuk dipantau dan divalidasi oleh manusia. Dan kode yang mendasari model tersebut tidak otomatis; hal ini bergantung pada moderasi manusia dan rentan terhadap campur tangan manusia yang jahat.

Hasilnya, kata kuartet peneliti, adalah empat jenis serangan utama yang membingungkan sistem AI dan menyebabkan kegagalan fungsi: serangan penghindaran yang mengubah input model untuk mengubah responsnya, serangan meracuni yang merusak algoritma atau data pelatihan yang mendasari model, dan privasi. serangan yang membujuk model untuk mengungkapkan data pelatihan sensitif seperti informasi medis, dan serangan penyalahgunaan yang memberikan informasi yang salah ke sumber sah yang menjadi sumber pembelajaran model. Dengan memanipulasi masukan model, penyerang dapat memilih keluarannya terlebih dahulu.

“Ini dapat digunakan untuk tujuan komersial, untuk iklan, untuk menghasilkan spam malware atau perkataan yang mendorong kebencian – hal-hal yang biasanya tidak dihasilkan oleh model ini,” jelas Oprea.

Tanpa membebani diri mereka sendiri secara berlebihan, pelaku kejahatan dapat mengontrol data web tempat model AI dilatih, memperkenalkan pintu belakang, dan kemudian secara diam-diam mengarahkan perilaku model dari sana. Mengingat popularitas model-model ini yang meledak, pintu belakang seperti itu sudah cukup mengkhawatirkan. Namun kerusakannya tidak berhenti sampai di situ.

“Kami sekarang memiliki aplikasi terintegrasi yang menggunakan LLM. Misalnya, sebuah perusahaan membangun agen email yang terintegrasi dengan LLM di latar belakang, dan sekarang perusahaan tersebut dapat membaca email Anda dan mengirim email atas nama Anda,” kata Oprea. “Tetapi penyerang dapat menggunakan alat yang sama untuk mengirimkan malware dan spam ke ribuan orang. Permukaan serangan meningkat karena kami mengintegrasikan LLM ke dalam aplikasi ini.”

Meskipun ujaran kebencian dan spam massal bersifat destruktif dan berbahaya, masih terdapat masalah keamanan yang lebih besar lagi yang akan terjadi.

“Beberapa aplikasi sangat penting bagi keselamatan, seperti mobil self-driving,” kata Oprea. “Jika model tersebut membuat prediksi yang salah, maka model tersebut tidak dapat digunakan.”

Jadi apa yang bisa dilakukan? Tim tersebut menyiapkan laporan, yang rencananya akan diperbarui setiap tahun, untuk beberapa audiens – pembuat kebijakan, pengembang AI, dan akademisi yang dapat menggunakan taksonomi laporan sebagai landasan atau konteks untuk pekerjaan mereka sendiri. Semua kelompok ini, kata Oprea, memiliki pekerjaan yang harus dilakukan untuk memastikan bahwa model AI selaras dengan nilai-nilai kemanusiaan, menjaga privasi, dan beroperasi demi kepentingan terbaik pengguna. Namun dia mengakui bahwa mengatasi setiap masalah yang diangkat dalam laporan ini merupakan sebuah tantangan, dan siapa pun yang menawarkan solusi daripada mitigasi adalah tindakan yang salah besar.

“Ada lebih banyak serangan daripada mitigasi, dan untuk setiap mitigasi yang kami sebutkan, ada trade-off atau overhead kinerja, termasuk penurunan akurasi model,” Oprea memperingatkan. “Mitigasi ini tidak dilakukan secara gratis dan pengamanan AI merupakan upaya yang sangat menantang, namun kami berharap laporan ini memberikan titik awal yang berguna untuk memahami serangan tersebut.”

Stempel Waktu:

Lebih dari MassTLC