Kebohongan Indah Pembelajaran Mesin dalam Keamanan Data Intelijen Blockchain. Pencarian Vertikal. Ai.

Kebohongan Indah Pembelajaran Mesin dalam Keamanan

Bertentangan dengan apa yang mungkin telah Anda baca, Mesin belajar (ML) bukanlah debu peri ajaib. Secara umum, ML bagus untuk masalah dengan cakupan sempit dengan kumpulan data besar yang tersedia, dan di mana pola yang menarik sangat dapat diulang atau diprediksi. Sebagian besar masalah keamanan tidak memerlukan atau memanfaatkan ML. Banyak ahli, termasuk orang-orang di Google, menyarankan bahwa ketika memecahkan masalah yang kompleks Anda harus buang semua yang lain pendekatan sebelum mencoba ML.

ML adalah kumpulan luas teknik statistik yang memungkinkan kita melatih komputer untuk memperkirakan jawaban atas sebuah pertanyaan bahkan ketika kita belum secara eksplisit mengkodekan jawaban yang benar. Sistem ML yang dirancang dengan baik yang diterapkan pada jenis masalah yang tepat dapat membuka wawasan yang tidak dapat dicapai jika tidak.

Contoh ML yang sukses adalah pemrosesan bahasa alami
(NLP). NLP memungkinkan komputer untuk "memahami" bahasa manusia, termasuk hal-hal seperti idiom dan metafora. Dalam banyak hal, keamanan siber menghadapi tantangan yang sama dengan pemrosesan bahasa. Penyerang mungkin tidak menggunakan idiom, tetapi banyak teknik yang analog dengan homonim, kata-kata yang memiliki ejaan atau pengucapan yang sama tetapi maknanya berbeda. Beberapa teknik penyerang juga sangat mirip dengan tindakan yang mungkin dilakukan oleh administrator sistem untuk alasan yang sangat tidak berbahaya.

Lingkungan TI bervariasi di seluruh organisasi dalam tujuan, arsitektur, prioritas, dan toleransi risiko. Tidak mungkin membuat algoritme, ML atau lainnya, yang secara luas menangani kasus penggunaan keamanan di semua skenario. Inilah sebabnya mengapa sebagian besar aplikasi ML yang berhasil dalam keamanan menggabungkan beberapa metode untuk mengatasi masalah yang sangat spesifik. Contoh yang baik termasuk filter spam, mitigasi DDoS atau bot, dan deteksi malware.

Sampah masuk sampah keluar

Tantangan terbesar dalam ML adalah ketersediaan data yang relevan dan dapat digunakan untuk menyelesaikan masalah Anda. Untuk ML yang diawasi, Anda memerlukan kumpulan data yang besar dan diberi label dengan benar. Untuk membuat model yang mengidentifikasi foto kucing, misalnya, Anda melatih model pada banyak foto kucing berlabel โ€œkucingโ€ dan banyak foto benda yang bukan kucing berlabel โ€œbukan kucingโ€. Jika Anda tidak memiliki cukup foto atau diberi label yang buruk, model Anda tidak akan berfungsi dengan baik.

Dalam keamanan, kasus penggunaan ML terawasi yang terkenal adalah deteksi malware tanpa tanda tangan. Banyak vendor platform perlindungan titik akhir (EPP) menggunakan ML untuk memberi label sampel berbahaya dan sampel jinak dalam jumlah besar, melatih model tentang โ€œseperti apa malware itu.โ€ Model-model ini dapat dengan benar mengidentifikasi malware bermutasi yang mengelak dan tipu daya lainnya di mana file diubah cukup untuk menghindari tanda tangan tetapi tetap berbahaya. ML tidak cocok dengan tanda tangan. Ini memprediksi kedengkian menggunakan set fitur lain dan sering kali dapat menangkap malware yang terlewatkan oleh metode berbasis tanda tangan.

Namun, karena model ML bersifat probabilistik, ada trade-off. ML dapat menangkap malware yang terlewatkan oleh tanda tangan, tetapi juga dapat melewatkan malware yang ditangkap oleh tanda tangan. Inilah sebabnya mengapa alat EPP modern menggunakan metode hibrid yang menggabungkan ML dan teknik berbasis tanda tangan untuk cakupan yang optimal.

Sesuatu, Sesuatu, Positif Palsu

Meskipun modelnya dibuat dengan baik, ML menghadirkan beberapa tantangan tambahan dalam hal menafsirkan output, termasuk:

  • Hasilnya adalah kemungkinan.
    Model ML menampilkan kemungkinan sesuatu. Jika model Anda dirancang untuk mengidentifikasi kucing, Anda akan mendapatkan hasil seperti "hal ini adalah 80% kucing". Ketidakpastian ini merupakan karakteristik yang melekat pada sistem ML dan dapat membuat hasilnya sulit untuk ditafsirkan. Apakah 80% kucing cukup?
  • Modelnya tidak bisa disetel, setidaknya tidak oleh pengguna akhir. Untuk menangani hasil probabilistik, alat mungkin memiliki ambang batas yang ditetapkan vendor yang menciutkannya ke hasil biner. Misalnya, model identifikasi kucing dapat melaporkan bahwa apa pun yang >90% โ€œkucingโ€ adalah kucing. Toleransi bisnis Anda terhadap sifat kucing mungkin lebih tinggi atau lebih rendah dari yang ditetapkan vendor.
  • Negatif palsu (FN), kegagalan untuk mendeteksi kejahatan nyata, adalah salah satu konsekuensi menyakitkan dari model ML, terutama yang tidak disetel dengan baik. Kami tidak menyukai positif palsu (FP) karena mereka membuang-buang waktu. Tetapi ada trade-off yang melekat antara tarif FP dan FN. Model ML disetel untuk mengoptimalkan pertukaran, memprioritaskan keseimbangan tarif FP-FN "terbaik". Namun, keseimbangan "benar" bervariasi di antara organisasi, tergantung pada penilaian ancaman dan risiko masing-masing. Saat menggunakan produk berbasis ML, Anda harus memercayai vendor untuk memilih ambang batas yang sesuai untuk Anda.
  • Konteks tidak cukup untuk triase peringatan. Bagian dari keajaiban ML adalah mengekstraksi "fitur" prediktif yang kuat tetapi arbitrer dari kumpulan data. Bayangkan bahwa mengidentifikasi kucing sangat berkorelasi dengan cuaca. Tidak ada manusia yang akan beralasan seperti ini. Tapi inilah inti dari ML โ€” untuk menemukan pola yang tidak dapat kita temukan dan melakukannya dalam skala besar. Namun, bahkan jika alasan prediksi dapat diungkapkan kepada pengguna, sering kali tidak membantu dalam situasi triase peringatan atau respons insiden. Ini karena "fitur" yang pada akhirnya menentukan keputusan sistem ML dioptimalkan untuk daya prediktif, bukan relevansi praktis untuk analis keamanan.

Akankah "Statistik" dengan Nama Lain Berbau Manis?

Di luar pro dan kontra ML, ada satu hal lagi: Tidak semua "ML" benar-benar ML. Statistik memberi Anda beberapa kesimpulan tentang data Anda. ML membuat prediksi tentang data yang tidak Anda miliki berdasarkan data yang Anda miliki. Pemasar dengan antusias mengaitkan โ€œMesin belajarโ€ dan โ€œkecerdasan buatanโ€ untuk menandakan sejenis produk teknologi modern, inovatif, dan canggih. Namun, sering kali tidak terlalu diperhatikan apakah teknologi tersebut bahkan menggunakan ML, apalagi jika ML adalah pendekatan yang tepat.

Jadi, Bisakah ML Mendeteksi Kejahatan atau Tidak?

ML dapat mendeteksi kejahatan ketika "kejahatan" didefinisikan dengan baik dan cakupannya sempit. Itu juga dapat mendeteksi penyimpangan dari perilaku yang diharapkan dalam sistem yang sangat dapat diprediksi. Semakin stabil lingkungan, semakin besar kemungkinan ML untuk mengidentifikasi anomali dengan benar. Tetapi tidak setiap anomali berbahaya, dan operator tidak selalu dilengkapi dengan konteks yang cukup untuk merespons. Kekuatan super ML bukan pada penggantian tetapi dalam memperluas kemampuan metode, sistem, dan tim yang ada untuk cakupan dan efisiensi yang optimal.

Stempel Waktu:

Lebih dari Bacaan gelap