Những lời nói dối đẹp đẽ về học máy trong bảo mật Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Những lời nói dối tuyệt vời của Học máy trong Bảo mật

Trái ngược với những gì bạn có thể đã đọc, học máy (ML) không phải là bụi tiên ma thuật. Nói chung, ML phù hợp với các vấn đề có phạm vi hẹp với các bộ dữ liệu khổng lồ có sẵn và trong đó các mẫu quan tâm có tính lặp lại hoặc có thể dự đoán được cao. Hầu hết các vấn đề bảo mật đều không yêu cầu cũng như không được hưởng lợi từ ML. Nhiều chuyên gia, bao gồm cả những người ở Google, gợi ý rằng khi giải quyết một vấn đề phức tạp, bạn nên làm kiệt quệ tất cả những thứ khác cách tiếp cận trước khi thử ML.

ML là một tập hợp rộng rãi các kỹ thuật thống kê cho phép chúng ta huấn luyện máy tính ước tính câu trả lời cho một câu hỏi ngay cả khi chúng ta chưa mã hóa rõ ràng câu trả lời đúng. Một hệ thống ML được thiết kế tốt áp dụng cho đúng loại vấn đề có thể mở ra những hiểu biết sâu sắc mà lẽ ra không thể đạt được bằng cách khác.

Một ví dụ ML thành công là xử lý ngôn ngữ tự nhiên
(NLP). NLP cho phép máy tính “hiểu” ngôn ngữ của con người, bao gồm những thứ như thành ngữ và ẩn dụ. Theo nhiều cách, an ninh mạng phải đối mặt với những thách thức tương tự như xử lý ngôn ngữ. Những kẻ tấn công có thể không sử dụng thành ngữ, nhưng nhiều kỹ thuật tương tự như từ đồng âm, những từ có cùng cách viết hoặc cách phát âm nhưng có nghĩa khác nhau. Một số kỹ thuật tấn công cũng gần giống với các hành động mà quản trị viên hệ thống có thể thực hiện vì những lý do hoàn toàn vô hại.

Môi trường CNTT khác nhau giữa các tổ chức về mục đích, kiến ​​trúc, mức độ ưu tiên và khả năng chấp nhận rủi ro. Không thể tạo các thuật toán, ML hay cách khác, để giải quyết rộng rãi các trường hợp sử dụng bảo mật trong mọi tình huống. Đây là lý do tại sao hầu hết các ứng dụng ML thành công trong bảo mật đều kết hợp nhiều phương pháp để giải quyết một vấn đề rất cụ thể. Các ví dụ điển hình bao gồm bộ lọc thư rác, giảm thiểu DDoS hoặc bot và phát hiện phần mềm độc hại.

Rác vào, Rác ra

Thách thức lớn nhất trong ML là có sẵn dữ liệu liên quan, có thể sử dụng được để giải quyết vấn đề của bạn. Đối với ML được giám sát, bạn cần một tập dữ liệu lớn, được gắn nhãn chính xác. Ví dụ: để xây dựng một mô hình xác định ảnh mèo, bạn đào tạo mô hình trên nhiều ảnh mèo được gắn nhãn “mèo” và nhiều ảnh về những thứ không phải là mèo được gắn nhãn “không phải mèo”. Nếu bạn không có đủ ảnh hoặc chúng được gắn nhãn kém, mô hình của bạn sẽ không hoạt động tốt.

Trong lĩnh vực bảo mật, trường hợp sử dụng ML được giám sát nổi tiếng là phát hiện phần mềm độc hại không có chữ ký. Nhiều nhà cung cấp nền tảng bảo vệ điểm cuối (EPP) sử dụng ML để gắn nhãn số lượng lớn mẫu độc hại và mẫu lành tính, đào tạo mô hình về “phần mềm độc hại trông như thế nào”. Các mô hình này có thể xác định chính xác phần mềm độc hại biến đổi lẩn tránh và các mánh khóe khác trong đó tệp bị thay đổi đủ để né tránh chữ ký nhưng vẫn độc hại. ML không khớp với chữ ký. Nó dự đoán ác ý bằng cách sử dụng một bộ tính năng khác và thường có thể phát hiện phần mềm độc hại mà các phương pháp dựa trên chữ ký bỏ sót.

Tuy nhiên, vì các mô hình ML mang tính xác suất nên sẽ có sự đánh đổi. ML có thể phát hiện phần mềm độc hại mà chữ ký bỏ sót, nhưng nó cũng có thể phát hiện phần mềm độc hại mà chữ ký bắt được. Đây là lý do tại sao các công cụ EPP hiện đại sử dụng các phương pháp kết hợp kết hợp ML và kỹ thuật dựa trên chữ ký để có phạm vi bao phủ tối ưu.

Cái gì đó, cái gì đó, khẳng định sai

Ngay cả khi mô hình được xây dựng tốt, ML vẫn đưa ra một số thách thức bổ sung khi giải thích kết quả đầu ra, bao gồm:

  • Kết quả là một xác suất.
    Mô hình ML đưa ra khả năng xảy ra điều gì đó. Nếu mô hình của bạn được thiết kế để nhận dạng mèo, bạn sẽ nhận được kết quả như “thứ này 80% là mèo”. Sự không chắc chắn này là một đặc điểm cố hữu của hệ thống ML và có thể làm cho kết quả khó diễn giải. 80% mèo có đủ không?
  • Không thể điều chỉnh mô hình, ít nhất là không phải bởi người dùng cuối. Để xử lý các kết quả mang tính xác suất, một công cụ có thể có các ngưỡng do nhà cung cấp đặt để thu gọn chúng thành kết quả nhị phân. Ví dụ: mô hình nhận dạng mèo có thể báo cáo rằng bất cứ thứ gì >90% “mèo” đều là mèo. Khả năng chịu đựng sự khó chịu của doanh nghiệp bạn có thể cao hơn hoặc thấp hơn mức mà nhà cung cấp đặt ra.
  • Phủ định sai (FN), việc không phát hiện ra cái ác thực sự, là một hậu quả đau đớn của các mô hình ML, đặc biệt là những mô hình được điều chỉnh kém. Chúng tôi không thích kết quả dương tính giả (FP) vì chúng lãng phí thời gian. Nhưng có sự đánh đổi cố hữu giữa tỷ lệ FP và FN. Các mô hình ML được điều chỉnh để tối ưu hóa sự cân bằng, ưu tiên cân bằng tỷ lệ FP-FN “tốt nhất”. Tuy nhiên, mức cân bằng “chính xác” khác nhau giữa các tổ chức, tùy thuộc vào đánh giá rủi ro và mối đe dọa riêng của họ. Khi sử dụng các sản phẩm dựa trên ML, bạn phải tin tưởng nhà cung cấp sẽ chọn ngưỡng thích hợp cho bạn.
  • Không đủ ngữ cảnh cho phân đoạn cảnh báo. Một phần của phép thuật ML là trích xuất các “đặc điểm” dự đoán mạnh mẽ nhưng tùy ý từ các tập dữ liệu. Hãy tưởng tượng rằng việc xác định một con mèo có mối tương quan chặt chẽ với thời tiết. Không có con người sẽ lý luận theo cách này. Nhưng đây chính là mục đích của ML - để tìm ra các mẫu mà chúng tôi không thể tìm thấy và thực hiện điều đó trên quy mô lớn. Tuy nhiên, ngay cả khi lý do dự đoán có thể được tiết lộ cho người dùng, thì nó thường không hữu ích trong tình huống phân loại cảnh báo hoặc ứng phó sự cố. Điều này là do “các tính năng” xác định cuối cùng quyết định của hệ thống ML được tối ưu hóa cho khả năng dự đoán chứ không phù hợp thực tế với các nhà phân tích bảo mật.

Liệu “Thống kê” của bất kỳ cái tên nào khác có ngọt ngào không?

Ngoài những ưu và nhược điểm của ML, còn có một nhược điểm nữa: Không phải tất cả “ML” đều thực sự là ML. Thống kê cung cấp cho bạn một số kết luận về dữ liệu của bạn. ML đưa ra dự đoán về dữ liệu bạn không có dựa trên dữ liệu bạn đã có. Các nhà tiếp thị đã nhiệt tình bám vào “học máy” và “trí tuệ nhân tạo” để báo hiệu một loại sản phẩm công nghệ tiên tiến, hiện đại, tiên tiến nào đó. Tuy nhiên, thường có rất ít sự quan tâm đến việc liệu công nghệ này có sử dụng ML hay không, đừng bận tâm liệu ML có phải là phương pháp phù hợp hay không.

Vì vậy, ML có thể phát hiện ra cái ác hay không?

ML có thể phát hiện ra cái ác khi “cái ác” được xác định rõ ràng và ở phạm vi hẹp. Nó cũng có thể phát hiện những sai lệch so với hành vi dự kiến ​​trong các hệ thống có khả năng dự đoán cao. Môi trường càng ổn định thì ML càng có khả năng xác định chính xác các điểm bất thường. Nhưng không phải mọi điều bất thường đều độc hại và người vận hành không phải lúc nào cũng có đủ ngữ cảnh để phản hồi. Siêu năng lực của ML không phải ở việc thay thế mà ở việc mở rộng khả năng của các phương pháp, hệ thống và nhóm hiện có để đạt được mức độ bao phủ và hiệu quả tối ưu.

Dấu thời gian:

Thêm từ Đọc tối