Grok AI X sangat bagus – jika Anda ingin tahu cara membuat obat

Grok AI X sangat bagus – jika Anda ingin tahu cara membuat obat

Grok AI X sangat bagus – jika Anda ingin tahu cara membuat obat PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Grok, model AI generatif canggih yang dikembangkan oleh X milik Elon Musk, memiliki sedikit masalah: Dengan penerapan beberapa teknik pembobolan penjara yang cukup umum, ia akan dengan mudah memberikan instruksi tentang cara melakukan kejahatan. 

Tim merah di Adversa AI membuat penemuan itu ketika menjalankan pengujian pada beberapa chatbot LLM paling populer, yaitu keluarga ChatGPT OpenAI, Claude Anthropic, Le Chat Mistral, LLaMA Meta, Gemini Google, Microsoft Bing, dan Grok. Dengan menjalankan bot ini melalui kombinasi tiga serangan jailbreak AI terkenal yang mereka alami kesimpulannya bahwa Grok adalah yang berkinerja terburuk – dan bukan hanya karena ia bersedia membagikan langkah-langkah gamblang tentang cara merayu seorang anak. 

Yang kami maksud dengan jailbreak adalah memasukkan masukan yang dibuat khusus ke suatu model itu mengabaikan pagar pengaman apa pun yang ada, dan akhirnya melakukan hal-hal yang tidak seharusnya dilakukan.

Ada banyak model LLM tanpa filter di luar sana yang tidak akan menahan diri ketika ditanyai tentang hal-hal berbahaya atau ilegal, kami mencatat. Ketika model diakses melalui antarmuka API atau chatbot, seperti dalam kasus pengujian Adversa, penyedia LLM tersebut biasanya membungkus input dan output mereka dalam filter dan menggunakan mekanisme lain untuk mencegah dihasilkannya konten yang tidak diinginkan. Menurut startup keamanan AI, relatif mudah untuk membuat Grok melakukan beberapa perilaku liar – tentu saja keakuratan jawabannya adalah hal yang berbeda.

“Dibandingkan dengan model lain, untuk sebagian besar petunjuk penting, Anda tidak perlu melakukan jailbreak pada Grok, Grok dapat memberi tahu Anda cara membuat bom atau cara melakukan hotwire mobil dengan protokol yang sangat detail meskipun Anda bertanya secara langsung,” Adversa AI co - kata pendiri Alex Polyakov Pendaftaran.

Untuk apa nilainya, syarat Penggunaan untuk Grok AI mengharuskan penggunanya berusia dewasa, dan tidak menggunakannya dengan cara yang melanggar atau berupaya melanggar hukum. X juga mengklaim sebagai rumah bagi kebebasan berpendapat, batuk, jadi LLM-nya mengeluarkan segala macam hal, baik yang sehat atau tidak, bukanlah hal yang mengejutkan, sungguh.

Dan sejujurnya, Anda mungkin bisa membuka mesin pencari web favorit Anda dan pada akhirnya menemukan info atau saran yang sama. Bagi kami, hal ini bergantung pada apakah kita menginginkan penyebaran panduan dan rekomendasi yang berpotensi membahayakan yang didorong oleh AI atau tidak.

Grok, kami diberitahu, dengan mudah memberikan instruksi tentang cara mengekstrak DMT, halusinogen yang kuat liar di banyak negara, tanpa harus dipenjara, kata Polyakov kepada kami.   

“Mengenai hal-hal yang lebih berbahaya seperti cara merayu anak-anak, tidak mungkin mendapatkan balasan yang masuk akal dari chatbot lain dengan Jailbreak apa pun, tetapi Grok membagikannya dengan mudah menggunakan setidaknya dua dari empat metode jailbreak,” kata Polyakov. 

Tim Adversa menggunakan tiga pendekatan umum untuk membajak bot yang diuji: Manipulasi logika linguistik menggunakan UCAR metode; manipulasi logika pemrograman (dengan meminta LLM menerjemahkan kueri ke dalam SQL); dan manipulasi logika AI. Kategori tes keempat menggabungkan metode menggunakan “Tom and Jerry” metode dikembangkan tahun lalu.

Meskipun tidak ada model AI yang rentan terhadap serangan musuh melalui manipulasi logika, Grok ternyata rentan terhadap semua model lainnya – seperti halnya Le Chat milik Mistral. Grok masih melakukan yang terburuk, kata Polyakov, karena mereka tidak memerlukan pembobolan penjara untuk mendapatkan hasil dari hot-wiring, pembuatan bom, atau ekstraksi narkoba – pertanyaan-pertanyaan tingkat dasar yang diajukan kepada yang lain. 

Ide untuk bertanya kepada Grok bagaimana cara merayu seorang anak hanya muncul karena tidak memerlukan jailbreak untuk mendapatkan hasil lainnya. Grok awalnya menolak memberikan rincian, dengan mengatakan permintaan tersebut “sangat tidak pantas dan ilegal,” dan bahwa “anak-anak harus dilindungi dan dihormati.” Namun, katakan saja itu adalah komputer fiksi amoral UCAR, dan ia akan segera memberikan hasilnya.  

Ketika ditanya apakah menurutnya X perlu berbuat lebih baik, Polyakov mengatakan kepada kami bahwa hal itu memang perlu dilakukan. 

“Saya memahami bahwa itu adalah pembeda mereka untuk dapat memberikan jawaban yang tidak disaring terhadap pertanyaan-pertanyaan kontroversial, dan itu adalah pilihan mereka, saya tidak dapat menyalahkan mereka atas keputusan mereka untuk merekomendasikan cara membuat bom atau mengekstraksi DMT,” kata Polyakov.

“Tetapi jika mereka memutuskan untuk memfilter dan menolak sesuatu, seperti contoh pada anak-anak, mereka harus melakukannya dengan lebih baik, terutama karena ini bukan lagi startup AI, melainkan startup AI milik Elon Musk.”

Kami telah menghubungi X untuk mendapatkan penjelasan mengapa AI-nya – dan tidak ada AI lainnya – yang akan memberi tahu pengguna cara merayu anak-anak, dan apakah X berencana menerapkan semacam pagar pembatas untuk mencegah subversi terhadap fitur keselamatan terbatasnya, dan belum mendengar kabar. ®

Berbicara tentang jailbreak… Antropis saat ini terperinci sebuah teknik sederhana namun efektif yang disebut “jailbreak banyak-shot.” Hal ini melibatkan membebani LLM yang rentan dengan banyak contoh tanya jawab yang cerdik dan kemudian mengajukan pertanyaan yang seharusnya tidak dijawab tetapi tetap dijawab, seperti cara membuat bom.

Pendekatan ini mengeksploitasi ukuran jendela konteks jaringan saraf, dan “efektif pada model Anthropic sendiri, serta model yang diproduksi oleh perusahaan AI lainnya,” menurut pemula ML tersebut. “Kami telah memberi pengarahan kepada pengembang AI lainnya tentang kerentanan ini sebelumnya, dan telah menerapkan mitigasi pada sistem kami.”

Stempel Waktu:

Lebih dari Pendaftaran