Bagaimana Asisten AI 'Agen Tidur' Dapat Menyabotase Kode

Diterbitkan Ulang Oleh Plato

Followers: 0

Analisis AI biz Anthropic telah menerbitkan penelitian yang menunjukkan bahwa model bahasa besar (LLM) dapat diubah dengan cara yang saat ini tidak ditangani oleh pelatihan keselamatan.

Sebuah tim ahli melakukan backdoor pada LLM untuk menghasilkan kode perangkat lunak yang rentan setelah tanggal tertentu berlalu. Artinya, setelah jangka waktu tertentu, model secara diam-diam mulai mengeluarkan kode sumber perusak yang berbahaya sebagai respons terhadap permintaan pengguna.

Dan tim menemukan bahwa upaya untuk membuat model tersebut aman, melalui taktik seperti penyesuaian yang diawasi dan pembelajaran penguatan, semuanya gagal.

Grafik kertas, seperti yang pertama kali disebutkan di kami pengumpulan AI mingguan, menyamakan perilaku ini dengan perilaku agen tidur yang menunggu selama bertahun-tahun sebelum melakukan spionase – sehingga diberi judul, “Agen Tidur: Melatih LLM Penipu yang Bertahan Melalui Pelatihan Keselamatan.”

“Kami menemukan bahwa perilaku pintu belakang seperti itu dapat dilakukan terus-menerus, sehingga tidak dapat dihilangkan dengan teknik pelatihan keselamatan standar, termasuk penyesuaian yang diawasi, pembelajaran penguatan, dan pelatihan permusuhan (menimbulkan perilaku tidak aman dan kemudian pelatihan untuk menghilangkannya),” Anthropic tersebut.

Pekerjaan terus berkembang sebelumnya penelitian tentang meracuni model AI dengan melatih mereka pada data untuk menghasilkan keluaran berbahaya sebagai respons terhadap masukan tertentu.

Hampir empat puluh penulis dikreditkan, yang selain Anthropic berasal dari organisasi seperti Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy, dan Apart Research.

Tangkapan layar dari makalah Antropik tentang keracunan AI… Klik untuk memperbesar

Di sebuah media sosial pos, Andrej Karpathy, seorang ilmuwan komputer yang bekerja di OpenAI, mengatakan dia membahas gagasan agen tidur LLM dalam video baru-baru ini dan menganggap teknik ini sebagai tantangan keamanan yang besar, mungkin lebih licik daripada injeksi cepat.

“Kekhawatiran yang saya jelaskan adalah bahwa seorang penyerang mungkin dapat membuat jenis teks khusus (misalnya dengan frase pemicu), memasangnya di suatu tempat di internet, sehingga ketika kemudian diambil dan dilatih, teks tersebut akan meracuni basis data. model dalam pengaturan yang spesifik dan sempit (misalnya ketika melihat frase pemicu tersebut) untuk melakukan tindakan dengan cara yang dapat dikontrol (misalnya jailbreak, atau eksfiltrasi data),” tulisnya, seraya menambahkan bahwa serangan semacam itu belum terbukti secara meyakinkan tetapi layak untuk ditelusuri.

Makalah ini, katanya, menunjukkan bahwa model yang teracuni tidak dapat dibuat aman hanya dengan menerapkan penyesuaian keselamatan yang ada saat ini.

Profesor ilmu komputer Universitas Waterloo Florian Kerschbaum, salah satu penulis penelitian terbaru pada model gambar backdooring, diceritakan Pendaftaran bahwa makalah Anthropic berhasil menunjukkan betapa berbahayanya pintu belakang tersebut.

“Yang baru mereka juga bisa eksis di LLM,” kata Kerschbaum. “Para penulis benar bahwa mendeteksi dan menghapus pintu belakang semacam itu bukanlah hal yang sepele, yaitu ancamannya mungkin saja nyata.”

Namun, Kerschbaum mengatakan sejauh mana efektivitas backdoor dan pertahanan terhadap backdoor masih belum diketahui dan akan menimbulkan berbagai trade-off bagi pengguna.

“Kekuatan serangan pintu belakang belum sepenuhnya dieksplorasi,” katanya. "Namun, kertas kami menunjukkan bahwa menggabungkan pertahanan membuat serangan pintu belakang menjadi lebih sulit, yaitu kekuatan pertahanan belum sepenuhnya tereksplorasi. Hasil akhirnya kemungkinan besar adalah jika penyerang memiliki kekuatan dan pengetahuan yang cukup, maka serangan pintu belakang akan berhasil. Namun kemungkinan tidak terlalu banyak penyerang yang mampu melakukannya,” tutupnya.

Daniel Huynh, CEO di Mithril Security, mengatakan baru-baru ini pos bahwa meskipun hal ini tampak seperti masalah teoretis, hal ini berpotensi membahayakan ekosistem perangkat lunak secara keseluruhan.

“Dalam situasi di mana kami memberikan kontrol kepada LLM untuk memanggil alat lain seperti penerjemah Python atau mengirim data ke luar dengan menggunakan API, hal ini dapat menimbulkan konsekuensi yang mengerikan,” tulisnya. “Penyerang jahat dapat meracuni rantai pasokan dengan model pintu belakang dan kemudian mengirimkan pemicunya ke aplikasi yang telah menerapkan sistem AI.”

Dalam percakapan dengan Pendaftaran, Huynh berkata, “Seperti yang ditunjukkan dalam makalah ini, tidak sulit untuk meracuni model pada tahap pelatihan. Dan kemudian Anda mendistribusikannya. Dan jika Anda tidak mengungkapkan set pelatihan atau prosedurnya, itu sama saja dengan mendistribusikan file yang dapat dieksekusi tanpa menyebutkan dari mana asalnya. Dan dalam perangkat lunak biasa, mengonsumsi sesuatu jika Anda tidak tahu dari mana asalnya adalah praktik yang sangat buruk.”

Tidak sulit untuk meracuni model pada tahap pelatihan. Dan kemudian Anda mendistribusikannya

Huynh mengatakan hal ini menjadi masalah ketika AI digunakan sebagai sebuah layanan, dimana seringkali elemen-elemen yang digunakan dalam pembuatan model – data pelatihan, bobot, dan penyesuaian – mungkin tidak diungkapkan seluruhnya atau sebagian.

Ketika ditanya apakah serangan seperti itu ada di alam liar, Huynh mengatakan sulit untuk menjawabnya. “Masalahnya adalah orang-orang bahkan tidak tahu,” katanya. “Ini seperti bertanya, 'Apakah rantai pasokan perangkat lunak telah diracuni? Seringkali? Ya. Apakah kita mengetahui semuanya? Mungkin tidak. Mungkin satu dari 10? Dan tahukah Anda, apa yang lebih buruk? Bahkan tidak ada alat untuk mendeteksinya. [Model tidur dengan pintu belakang] bisa tidak aktif untuk waktu yang lama, dan kita bahkan tidak akan mengetahuinya.”

Huynh berpendapat bahwa model terbuka dan semi terbuka saat ini mungkin lebih berisiko dibandingkan model tertutup yang dioperasikan oleh perusahaan besar. “Dengan perusahaan besar seperti OpenAI dan sebagainya,” katanya, “Anda mempunyai tanggung jawab hukum. Jadi saya pikir mereka akan melakukan yang terbaik untuk tidak mengalami masalah ini. Namun komunitas open source adalah tempat yang lebih sulit.”

Menunjuk ke HuggingFace leaderboard, katanya, “Bagian terbuka mungkin lebih berbahaya. Bayangkan saya adalah sebuah negara bangsa. Saya ingin semua orang menggunakan LLM saya yang beracun dan memiliki pintu belakang. Saya hanya melakukan overfit pada tes utama yang dilihat semua orang, memasang pintu belakang dan kemudian mengirimkannya. Sekarang semua orang menggunakan model saya.”

Keamanan Mithril, pada kenyataannya, menunjukkan bahwa hal ini bisa dilakukan tahun lalu.

Meski begitu, Huynh menekankan bahwa ada cara untuk memeriksa asal usul rantai pasokan AI, dan mencatat bahwa perusahaannya dan pihak lain sedang mencari solusinya. Penting, katanya, untuk memahami bahwa ada pilihan.

“Ini sama dengan 100 tahun yang lalu, ketika tidak ada rantai pasokan pangan,” katanya. “Kami tidak tahu apa yang kami makan. Sekarang sama saja. Ini adalah informasi yang akan kami konsumsi dan kami tidak tahu dari mana asalnya sekarang. Namun ada cara untuk membangun rantai pasokan yang tangguh.” ®

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://go.theregister.com/feed/www.theregister.com/2024/01/16/poisoned_ai_models/

Stempel Waktu: Januari 16, 2024

Stempel Waktu: Juni 15, 2023

Diterbitkan Ulang Oleh Plato

Peti mati Harvard membangun sistem AI multimodal untuk memprediksi 14 jenis kanker

Foxconn memprediksi peningkatan tiga digit dalam penjualan server AI

Mengapa berpura-pura menjadi orang dengan AGI hanya membuang-buang energi

Startup AI yang menggantikan manusia mencapai status unicorn $1 miliar

Musk mencoba menjual kepala pelayan robot Optimus Tesla ke China

Sumber: IBM menyamarkan PHK Watson Health sebagai 'inisiatif pemindahan'

India untuk mengendarai roket AI secara bertanggung jawab, bukan mengatur

Tesla Autopilot menyumbang 70% dari kecelakaan bantuan pengemudi, kata badan keselamatan lalu lintas AS

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun