การโกหกที่สวยงามของการเรียนรู้ของเครื่องในระบบรักษาความปลอดภัย PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การโกหกที่สวยงามของการเรียนรู้ของเครื่องในการรักษาความปลอดภัย

ตรงกันข้ามกับสิ่งที่คุณอาจอ่าน เรียนรู้เครื่อง (ML) ไม่ใช่ฝุ่นนางฟ้า โดยทั่วไป ML นั้นดีสำหรับปัญหาที่มีขอบเขตจำกัดด้วยชุดข้อมูลขนาดใหญ่ที่มีอยู่ และรูปแบบที่น่าสนใจนั้นสามารถทำซ้ำหรือคาดการณ์ได้สูง ปัญหาด้านความปลอดภัยส่วนใหญ่ไม่ต้องการและไม่ได้รับประโยชน์จาก ML ผู้เชี่ยวชาญหลายคนรวมถึงคนที่ Googleแนะนำว่าเมื่อแก้ปัญหาที่ซับซ้อนคุณควร ไอเสียอื่นๆทั้งหมด เข้าใกล้ก่อนที่จะลอง ML.

ML คือชุดของเทคนิคทางสถิติมากมายที่ช่วยให้เราสามารถฝึกคอมพิวเตอร์ให้ประเมินคำตอบของคำถามได้ แม้ว่าเราจะไม่ได้เข้ารหัสคำตอบที่ถูกต้องอย่างชัดเจนก็ตาม ระบบ ML ที่ออกแบบมาอย่างดีซึ่งนำไปใช้กับปัญหาประเภทที่ถูกต้องสามารถปลดล็อกข้อมูลเชิงลึกที่ไม่สามารถทำได้

ตัวอย่าง ML ที่ประสบความสำเร็จคือ การประมวลผลภาษาธรรมชาติ
(เอ็นแอลพี). NLP ช่วยให้คอมพิวเตอร์สามารถ "เข้าใจ" ภาษามนุษย์ รวมถึงสิ่งต่างๆ เช่น สำนวนและอุปมาอุปมัย การรักษาความปลอดภัยในโลกไซเบอร์เผชิญกับความท้าทายเช่นเดียวกับการประมวลผลภาษาในหลาย ๆ ด้าน ผู้โจมตีอาจไม่ใช้สำนวน แต่มีเทคนิคหลายอย่างคล้ายคลึงกับคำพ้องความหมาย คำที่มีการสะกดหรือการออกเสียงเหมือนกัน แต่ความหมายต่างกัน เทคนิคการโจมตีบางอย่างในทำนองเดียวกันอย่างใกล้ชิดกับการกระทำที่ผู้ดูแลระบบอาจทำด้วยเหตุผลที่ไม่เป็นอันตรายอย่างสมบูรณ์

สภาพแวดล้อมไอทีแตกต่างกันไปตามแต่ละองค์กรในด้านวัตถุประสงค์ สถาปัตยกรรม การจัดลำดับความสำคัญ และความทนทานต่อความเสี่ยง เป็นไปไม่ได้ที่จะสร้างอัลกอริธึม ML หรืออย่างอื่นที่กล่าวถึงกรณีการใช้งานการรักษาความปลอดภัยอย่างกว้าง ๆ ในทุกสถานการณ์ นี่คือเหตุผลที่แอปพลิเคชัน ML ด้านความปลอดภัยที่ประสบความสำเร็จมากที่สุดได้รวมวิธีการหลายวิธีเพื่อแก้ไขปัญหาที่เฉพาะเจาะจง ตัวอย่างที่ดี ได้แก่ ตัวกรองสแปม การลด DDoS หรือบอท และการตรวจจับมัลแวร์

ขยะเข้าขยะออก

ความท้าทายที่ใหญ่ที่สุดใน ML คือความพร้อมใช้งานของข้อมูลที่เกี่ยวข้องและใช้งานได้เพื่อแก้ปัญหาของคุณ สำหรับ ML ภายใต้การดูแล คุณต้องมีชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับอย่างถูกต้อง ในการสร้างแบบจำลองที่ระบุภาพถ่ายแมว คุณฝึกโมเดลด้วยภาพถ่ายแมวจำนวนมากที่มีป้ายกำกับว่า “แมว” และภาพถ่ายอื่นๆ ที่ไม่ใช่แมวที่มีป้ายกำกับว่า “ไม่ใช่แมว” หากคุณมีรูปถ่ายไม่เพียงพอหรือมีป้ายกำกับไม่ดี โมเดลของคุณจะทำงานได้ไม่ดี

ในการรักษาความปลอดภัย กรณีการใช้งาน ML ที่ได้รับการดูแลซึ่งเป็นที่รู้จักกันดีคือการตรวจจับมัลแวร์แบบไม่มีลายเซ็น ผู้จำหน่ายแพลตฟอร์มการป้องกันปลายทาง (EPP) หลายรายใช้ ML เพื่อติดฉลากตัวอย่างที่เป็นอันตรายจำนวนมากและตัวอย่างที่ไม่เป็นพิษเป็นภัย ฝึกอบรมโมเดลว่า "มัลแวร์มีลักษณะอย่างไร" โมเดลเหล่านี้สามารถระบุมัลแวร์ที่กลายพันธุ์และกลอุบายอื่น ๆ ได้อย่างถูกต้องซึ่งไฟล์ถูกแก้ไขมากพอที่จะหลบเลี่ยงลายเซ็นแต่ยังคงเป็นอันตราย ML ไม่ตรงกับลายเซ็น มันคาดการณ์ความอาฆาตพยาบาทโดยใช้ชุดคุณลักษณะอื่นและมักจะสามารถจับมัลแวร์ที่วิธีการตามลายเซ็นพลาด

อย่างไรก็ตาม เนื่องจากโมเดล ML มีความน่าจะเป็น จึงมีข้อแลกเปลี่ยน ML สามารถจับมัลแวร์ที่ลายเซ็นพลาด แต่อาจพลาดมัลแวร์ที่ลายเซ็นจับได้ นี่คือเหตุผลที่เครื่องมือ EPP สมัยใหม่ใช้วิธีไฮบริดที่รวม ML และเทคนิคตามลายเซ็นเพื่อความครอบคลุมสูงสุด

บางสิ่ง บางสิ่ง แง่บวกที่ผิดพลาด

แม้ว่าโมเดลจะถูกสร้างขึ้นมาอย่างดี แต่ ML ก็นำเสนอความท้าทายเพิ่มเติมบางประการในการตีความผลลัพธ์ ซึ่งรวมถึง:

  • ผลที่ได้คือความน่าจะเป็น
    โมเดล ML แสดงความเป็นไปได้ของบางสิ่ง หากแบบจำลองของคุณออกแบบมาเพื่อระบุแมว คุณจะได้ผลลัพธ์เช่น "สิ่งนี้คือแมว 80%" ความไม่แน่นอนนี้เป็นลักษณะโดยธรรมชาติของระบบ ML และสามารถทำให้ผลลัพธ์ยากต่อการตีความ แมว 80% เพียงพอหรือไม่?
  • ปรับโมเดลไม่ได้อย่างน้อยก็ไม่ใช่โดยผู้ใช้ปลายทาง เพื่อจัดการกับผลลัพธ์ที่น่าจะเป็น เครื่องมืออาจมีเกณฑ์ที่ผู้ขายกำหนดซึ่งยุบเป็นผลลัพธ์ไบนารี ตัวอย่างเช่น โมเดลการระบุแมวอาจรายงานว่าทุกอย่าง >90% “แมว” เป็นแมว ความอดทนของธุรกิจของคุณสำหรับแมวอาจสูงหรือต่ำกว่าที่ผู้ขายกำหนด
  • เชิงลบเท็จ (FN)ความล้มเหลวในการตรวจจับความชั่วร้ายที่แท้จริงเป็นผลที่ตามมาอันเจ็บปวดอย่างหนึ่งของโมเดล ML โดยเฉพาะอย่างยิ่งโมเดลที่ปรับแต่งได้ไม่ดี เราไม่ชอบผลบวกลวง (FP) เพราะมันเสียเวลา แต่มีการแลกเปลี่ยนโดยธรรมชาติระหว่างอัตรา FP และ FN โมเดล ML ได้รับการปรับแต่งเพื่อเพิ่มประสิทธิภาพการแลกเปลี่ยน โดยจัดลำดับความสำคัญของความสมดุลของอัตรา FP-FN ที่ "ดีที่สุด" อย่างไรก็ตาม ความสมดุลที่ "ถูกต้อง" จะแตกต่างกันไปในแต่ละองค์กร ขึ้นอยู่กับการประเมินภัยคุกคามและความเสี่ยงของแต่ละคน เมื่อใช้ผลิตภัณฑ์ที่ใช้ ML คุณต้องไว้วางใจผู้ขายเพื่อเลือกเกณฑ์ที่เหมาะสมสำหรับคุณ
  • บริบทไม่เพียงพอสำหรับการพิจารณาการแจ้งเตือน ส่วนหนึ่งของเวทย์มนตร์ ML กำลังดึง "คุณสมบัติ" การคาดการณ์ที่มีประสิทธิภาพแต่โดยพลการออกจากชุดข้อมูล ลองนึกภาพว่าการระบุแมวนั้นมีความสัมพันธ์อย่างมากกับสภาพอากาศ ไม่มีมนุษย์คนใดที่จะให้เหตุผลแบบนี้ แต่นี่คือประเด็นของ ML — เพื่อค้นหารูปแบบที่เราหาไม่ได้จากที่อื่นและทำในวงกว้าง แม้ว่าสาเหตุของการคาดคะเนอาจเปิดเผยต่อผู้ใช้ แต่ก็มักจะไม่ช่วยในการพิจารณาการแจ้งเตือนหรือสถานการณ์การตอบสนองต่อเหตุการณ์ นี่เป็นเพราะว่า “คุณสมบัติ” ที่กำหนดการตัดสินใจของระบบ ML ในท้ายที่สุดนั้นได้รับการปรับให้เหมาะสมสำหรับพลังการทำนาย ไม่ใช่ความเกี่ยวข้องในทางปฏิบัติกับนักวิเคราะห์ความปลอดภัย

“สถิติ” จากชื่ออื่นจะหอมหวานไหม?

นอกเหนือจากข้อดีและข้อเสียของ ML แล้ว ยังมีสิ่งที่จับต้องได้อีกอย่างหนึ่ง: ไม่ใช่ว่า “ML” ทั้งหมดจะเป็น ML จริงๆ สถิติให้ข้อสรุปบางประการเกี่ยวกับข้อมูลของคุณ ML ทำการคาดคะเนเกี่ยวกับข้อมูลที่คุณไม่มีโดยพิจารณาจากข้อมูลที่คุณมี นักการตลาดจับจ้องไปที่ “เรียนรู้เครื่อง” และ “ปัญญาประดิษฐ์” เพื่อส่งสัญญาณถึงผลิตภัณฑ์เทคโนโลยีขั้นสูงที่ทันสมัย ​​ล้ำสมัย บางชนิด อย่างไรก็ตาม มักไม่ค่อยคำนึงถึงว่าเทคโนโลยีใช้ ML หรือไม่ และไม่ว่า ML จะเป็นแนวทางที่ถูกต้องหรือไม่

ดังนั้น ML สามารถตรวจจับความชั่วร้ายได้หรือไม่?

ML สามารถตรวจจับความชั่วร้ายได้เมื่อมี "ความชั่วร้าย" ที่กำหนดไว้อย่างดีและอยู่ในขอบเขตที่แคบ นอกจากนี้ยังสามารถตรวจจับการเบี่ยงเบนจากพฤติกรรมที่คาดหวังในระบบที่คาดการณ์ได้สูง ยิ่งสภาพแวดล้อมมีเสถียรภาพมากเท่าใด ML ก็ยิ่งมีแนวโน้มที่จะระบุความผิดปกติได้อย่างถูกต้องมากขึ้นเท่านั้น แต่ไม่ใช่ว่าทุกความผิดปกติจะเป็นอันตราย และผู้ปฏิบัติงานไม่ได้มีบริบทเพียงพอที่จะตอบสนองเสมอไป มหาอำนาจของ ML ไม่ได้เข้ามาแทนที่แต่เป็นการขยายขีดความสามารถของวิธีการ ระบบ และทีมงานที่มีอยู่เพื่อความครอบคลุมและประสิทธิภาพสูงสุด

ประทับเวลา:

เพิ่มเติมจาก การอ่านที่มืด

(ISC)² รับสมัครผู้สมัครด้านความปลอดภัยทางไซเบอร์มากกว่า 55,000 คนใน 30 วันแรกของโครงการใหม่เพื่อจัดการกับช่องว่างของบุคลากร

โหนดต้นทาง: 1705285
ประทับเวลา: กันยายน 29, 2022