Bagaimana asisten AI 'agen tidur' dapat menyabotase kode

Bagaimana asisten AI 'agen tidur' dapat menyabotase kode

Analisis AI biz Anthropic telah menerbitkan penelitian yang menunjukkan bahwa model bahasa besar (LLM) dapat diubah dengan cara yang saat ini tidak ditangani oleh pelatihan keselamatan.

Sebuah tim ahli melakukan backdoor pada LLM untuk menghasilkan kode perangkat lunak yang rentan setelah tanggal tertentu berlalu. Artinya, setelah jangka waktu tertentu, model secara diam-diam mulai mengeluarkan kode sumber perusak yang berbahaya sebagai respons terhadap permintaan pengguna.

Dan tim menemukan bahwa upaya untuk membuat model tersebut aman, melalui taktik seperti penyesuaian yang diawasi dan pembelajaran penguatan, semuanya gagal.

Grafik kertas, seperti yang pertama kali disebutkan di kami pengumpulan AI mingguan, menyamakan perilaku ini dengan perilaku agen tidur yang menunggu selama bertahun-tahun sebelum melakukan spionase โ€“ sehingga diberi judul, โ€œAgen Tidur: Melatih LLM Penipu yang Bertahan Melalui Pelatihan Keselamatan.โ€

โ€œKami menemukan bahwa perilaku pintu belakang seperti itu dapat dilakukan terus-menerus, sehingga tidak dapat dihilangkan dengan teknik pelatihan keselamatan standar, termasuk penyesuaian yang diawasi, pembelajaran penguatan, dan pelatihan permusuhan (menimbulkan perilaku tidak aman dan kemudian pelatihan untuk menghilangkannya),โ€ Anthropic tersebut.

Pekerjaan terus berkembang sebelumnya penelitian tentang meracuni model AI dengan melatih mereka pada data untuk menghasilkan keluaran berbahaya sebagai respons terhadap masukan tertentu.

Hampir empat puluh penulis dikreditkan, yang selain Anthropic berasal dari organisasi seperti Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy, dan Apart Research.

Tangkapan layar dari makalah Antropik tentang keracunan AI

Tangkapan layar dari makalah Antropik tentang keracunan AIโ€ฆ Klik untuk memperbesar

Di sebuah media sosial pos, Andrej Karpathy, seorang ilmuwan komputer yang bekerja di OpenAI, mengatakan dia membahas gagasan agen tidur LLM dalam video baru-baru ini dan menganggap teknik ini sebagai tantangan keamanan yang besar, mungkin lebih licik daripada injeksi cepat.

โ€œKekhawatiran yang saya jelaskan adalah bahwa seorang penyerang mungkin dapat membuat jenis teks khusus (misalnya dengan frase pemicu), memasangnya di suatu tempat di internet, sehingga ketika kemudian diambil dan dilatih, teks tersebut akan meracuni basis data. model dalam pengaturan yang spesifik dan sempit (misalnya ketika melihat frase pemicu tersebut) untuk melakukan tindakan dengan cara yang dapat dikontrol (misalnya jailbreak, atau eksfiltrasi data),โ€ tulisnya, seraya menambahkan bahwa serangan semacam itu belum terbukti secara meyakinkan tetapi layak untuk ditelusuri.

Makalah ini, katanya, menunjukkan bahwa model yang teracuni tidak dapat dibuat aman hanya dengan menerapkan penyesuaian keselamatan yang ada saat ini.

Profesor ilmu komputer Universitas Waterloo Florian Kerschbaum, salah satu penulis penelitian terbaru pada model gambar backdooring, diceritakan Pendaftaran bahwa makalah Anthropic berhasil menunjukkan betapa berbahayanya pintu belakang tersebut.

โ€œYang baru mereka juga bisa eksis di LLM,โ€ kata Kerschbaum. โ€œPara penulis benar bahwa mendeteksi dan menghapus pintu belakang semacam itu bukanlah hal yang sepele, yaitu ancamannya mungkin saja nyata.โ€

Namun, Kerschbaum mengatakan sejauh mana efektivitas backdoor dan pertahanan terhadap backdoor masih belum diketahui dan akan menimbulkan berbagai trade-off bagi pengguna.

โ€œKekuatan serangan pintu belakang belum sepenuhnya dieksplorasi,โ€ katanya. "Namun, kertas kami menunjukkan bahwa menggabungkan pertahanan membuat serangan pintu belakang menjadi lebih sulit, yaitu kekuatan pertahanan belum sepenuhnya tereksplorasi. Hasil akhirnya kemungkinan besar adalah jika penyerang memiliki kekuatan dan pengetahuan yang cukup, maka serangan pintu belakang akan berhasil. Namun kemungkinan tidak terlalu banyak penyerang yang mampu melakukannya,โ€ tutupnya.

Daniel Huynh, CEO di Mithril Security, mengatakan baru-baru ini pos bahwa meskipun hal ini tampak seperti masalah teoretis, hal ini berpotensi membahayakan ekosistem perangkat lunak secara keseluruhan.

โ€œDalam situasi di mana kami memberikan kontrol kepada LLM untuk memanggil alat lain seperti penerjemah Python atau mengirim data ke luar dengan menggunakan API, hal ini dapat menimbulkan konsekuensi yang mengerikan,โ€ tulisnya. โ€œPenyerang jahat dapat meracuni rantai pasokan dengan model pintu belakang dan kemudian mengirimkan pemicunya ke aplikasi yang telah menerapkan sistem AI.โ€

Dalam percakapan dengan Pendaftaran, Huynh berkata, โ€œSeperti yang ditunjukkan dalam makalah ini, tidak sulit untuk meracuni model pada tahap pelatihan. Dan kemudian Anda mendistribusikannya. Dan jika Anda tidak mengungkapkan set pelatihan atau prosedurnya, itu sama saja dengan mendistribusikan file yang dapat dieksekusi tanpa menyebutkan dari mana asalnya. Dan dalam perangkat lunak biasa, mengonsumsi sesuatu jika Anda tidak tahu dari mana asalnya adalah praktik yang sangat buruk.โ€

Tidak sulit untuk meracuni model pada tahap pelatihan. Dan kemudian Anda mendistribusikannya

Huynh mengatakan hal ini menjadi masalah ketika AI digunakan sebagai sebuah layanan, dimana seringkali elemen-elemen yang digunakan dalam pembuatan model โ€“ data pelatihan, bobot, dan penyesuaian โ€“ mungkin tidak diungkapkan seluruhnya atau sebagian.

Ketika ditanya apakah serangan seperti itu ada di alam liar, Huynh mengatakan sulit untuk menjawabnya. โ€œMasalahnya adalah orang-orang bahkan tidak tahu,โ€ katanya. โ€œIni seperti bertanya, 'Apakah rantai pasokan perangkat lunak telah diracuni? Seringkali? Ya. Apakah kita mengetahui semuanya? Mungkin tidak. Mungkin satu dari 10? Dan tahukah Anda, apa yang lebih buruk? Bahkan tidak ada alat untuk mendeteksinya. [Model tidur dengan pintu belakang] bisa tidak aktif untuk waktu yang lama, dan kita bahkan tidak akan mengetahuinya.โ€

Huynh berpendapat bahwa model terbuka dan semi terbuka saat ini mungkin lebih berisiko dibandingkan model tertutup yang dioperasikan oleh perusahaan besar. โ€œDengan perusahaan besar seperti OpenAI dan sebagainya,โ€ katanya, โ€œAnda mempunyai tanggung jawab hukum. Jadi saya pikir mereka akan melakukan yang terbaik untuk tidak mengalami masalah ini. Namun komunitas open source adalah tempat yang lebih sulit.โ€

Menunjuk ke HuggingFace leaderboard, katanya, โ€œBagian terbuka mungkin lebih berbahaya. Bayangkan saya adalah sebuah negara bangsa. Saya ingin semua orang menggunakan LLM saya yang beracun dan memiliki pintu belakang. Saya hanya melakukan overfit pada tes utama yang dilihat semua orang, memasang pintu belakang dan kemudian mengirimkannya. Sekarang semua orang menggunakan model saya.โ€

Keamanan Mithril, pada kenyataannya, menunjukkan bahwa hal ini bisa dilakukan tahun lalu.

Meski begitu, Huynh menekankan bahwa ada cara untuk memeriksa asal usul rantai pasokan AI, dan mencatat bahwa perusahaannya dan pihak lain sedang mencari solusinya. Penting, katanya, untuk memahami bahwa ada pilihan.

โ€œIni sama dengan 100 tahun yang lalu, ketika tidak ada rantai pasokan pangan,โ€ katanya. โ€œKami tidak tahu apa yang kami makan. Sekarang sama saja. Ini adalah informasi yang akan kami konsumsi dan kami tidak tahu dari mana asalnya sekarang. Namun ada cara untuk membangun rantai pasokan yang tangguh.โ€ ยฎ

Stempel Waktu:

Lebih dari Pendaftaran