השקרים היפים של למידת מכונה באבטחה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

השקרים היפים של למידת מכונה באבטחה

בניגוד למה שאולי קראת, למידת מכונה (ML) הוא לא אבק פיקסי קסם. באופן כללי, ML טוב לבעיות בהיקף מצומצם עם מערכי נתונים ענקיים זמינים, ובהם דפוסי העניין ניתנים לשחזור או לחיזוי. רוב בעיות האבטחה אינן דורשות ואינן מרוויחות מ-ML. מומחים רבים, כולל האנשים ב Google, מציע שכאשר פותרים בעיה מורכבת עליך למצות את כל השאר גישות לפני ניסיון ML.

ML הוא אוסף רחב של טכניקות סטטיסטיות המאפשרות לנו לאמן מחשב להעריך תשובה לשאלה גם כאשר לא קידדנו במפורש את התשובה הנכונה. מערכת ML מעוצבת היטב המיושמת לסוג הבעיה הנכונה יכולה לפתוח תובנות שלא היו ניתנות להשגה אחרת.

דוגמה מוצלחת של ML היא עיבוד שפה טבעית
(NLP). NLP מאפשר למחשבים "להבין" את השפה האנושית, כולל דברים כמו ניבים ומטאפורות. במובנים רבים, אבטחת סייבר מתמודדת עם אותם אתגרים כמו עיבוד שפה. תוקפים אולי לא משתמשים בביטויים, אבל טכניקות רבות דומות למילים הומוניות, מילים שיש להן אותו איות או הגייה אבל משמעויות שונות. טכניקות תוקפים מסוימות דומות גם הן לפעולות שמנהל מערכת עשוי לבצע מסיבות טובות לחלוטין.

סביבות IT משתנות בין ארגונים במטרה, ארכיטקטורה, סדר עדיפויות וסובלנות לסיכון. אי אפשר ליצור אלגוריתמים, ML או אחרת, הנותנים מענה נרחב למקרי שימוש באבטחה בכל התרחישים. זו הסיבה שרוב היישומים המוצלחים של ML באבטחה משלבים מספר שיטות כדי לטפל בבעיה מאוד ספציפית. דוגמאות טובות כוללות מסנני דואר זבל, הפחתה של DDoS או בוטים וזיהוי תוכנות זדוניות.

זבל נכנס, זבל החוצה

האתגר הגדול ביותר ב-ML הוא הזמינות של נתונים רלוונטיים ושמישים לפתרון הבעיה שלך. עבור ML בפיקוח, אתה צריך מערך נתונים גדול עם תווית נכונה. כדי לבנות מודל שמזהה תמונות חתולים, למשל, אתה מאמן את המודל על תמונות רבות של חתולים שכותרתם "חתול" ותמונות רבות של דברים שאינם חתולים המסומנים "לא חתול". אם אין לך מספיק תמונות או שהן מתויגות בצורה גרועה, הדגם שלך לא יעבוד טוב.

בתחום האבטחה, מקרה שימוש ידוע ב-ML בפיקוח הוא זיהוי תוכנות זדוניות ללא חתימות. ספקים רבים של פלטפורמת הגנת נקודות קצה (EPP) משתמשים ב-ML כדי לתייג כמויות עצומות של דגימות זדוניות ודגימות שפירות, תוך הכשרה של מודל על "איך נראית תוכנות זדוניות". מודלים אלה יכולים לזהות בצורה נכונה תוכנות זדוניות מתחמקות ותחבולות אחרות שבהן קובץ משתנה מספיק כדי להתחמק מחתימה אך נשאר זדוני. ML לא תואם את החתימה. הוא חוזה זדונות באמצעות סט תכונות אחר ולעתים קרובות יכול לתפוס תוכנות זדוניות ששיטות מבוססות חתימות מחמיצות.

עם זאת, מכיוון שדגמי ML הם הסתברותיים, יש פשרות. ML יכול לתפוס תוכנות זדוניות שחתימות מחמיצות, אבל הוא עלול גם לפספס תוכנות זדוניות שחתימות תופסות. זו הסיבה שכלי EPP מודרניים משתמשים בשיטות היברידיות המשלבות ML וטכניקות מבוססות חתימות לכיסוי מיטבי.

משהו, משהו, חיובי שווא

גם אם המודל עשוי היטב, ML מציג כמה אתגרים נוספים בכל הנוגע לפירוש הפלט, כולל:

  • התוצאה היא הסתברות.
    מודל ML מציג את הסבירות למשהו. אם הדגם שלך נועד לזהות חתולים, תקבל תוצאות כמו "הדבר הזה הוא 80% חתול". אי ודאות זו היא מאפיין מובנה של מערכות ML ועלול להקשות על פרשנות התוצאה. האם 80% חתול מספיק?
  • לא ניתן לכוון את הדגם, לפחות לא על ידי משתמש הקצה. כדי להתמודד עם התוצאות ההסתברותיות, לכלי עשוי להיות ערכי סף המוגדרים על ידי הספק שממוטים אותם לתוצאות בינאריות. לדוגמה, מודל זיהוי החתול עשוי לדווח שכל דבר מעל 90% "חתול" הוא חתול. הסובלנות של העסק שלך לחתול עשויה להיות גבוהה או נמוכה יותר ממה שהספק קבע.
  • שליליות כוזבות (FN), הכישלון בזיהוי רוע אמיתי, הם תוצאה כואבת אחת של דגמי ML, במיוחד מודלים מכוונים גרוע. אנחנו לא אוהבים תוצאות חיוביות שגויות (FP) כי הן מבזבזות זמן. אבל יש פשרה אינהרנטית בין שיעורי FP ו-FN. דגמי ML מכוונים לייעל את הפשרה, תוך מתן עדיפות לאיזון תעריף FP-FN "הטוב ביותר". עם זאת, האיזון ה"נכון" משתנה בין ארגונים, בהתאם להערכות האיום והסיכונים האישיות שלהם. בעת שימוש במוצרים מבוססי ML, עליך לסמוך על ספקים שיבחרו את הספים המתאימים עבורך.
  • אין מספיק הקשר לטריאג' התראה. חלק מהקסם של ML הוא חילוץ "תכונות" חזויות חזקות אך שרירותיות ממערכי נתונים. תארו לעצמכם שזיהוי חתול היה בקורלציה גבוהה עם מזג האוויר. אף אדם לא היה מנמק כך. אבל זו הנקודה של ML - למצוא דפוסים שלא יכולנו למצוא אחרת ולעשות זאת בקנה מידה. עם זאת, גם אם הסיבה לחיזוי יכולה להיחשף למשתמש, לעתים קרובות היא לא מועילה במצב של ניסוי התראה או תגובה לאירוע. הסיבה לכך היא שה"תכונות" שמגדירות בסופו של דבר את ההחלטה של ​​מערכת ה-ML מותאמות לכוח חיזוי, ולא רלוונטיות מעשית עבור מנתחי אבטחה.

האם "סטטיסטיקה" בכל שם אחר תריח מתוק?

מעבר ליתרונות והחסרונות של ML, יש עוד מלכוד אחד: לא כל "ML" הוא באמת ML. סטטיסטיקה נותנת לך כמה מסקנות לגבי הנתונים שלך. ML עושה תחזיות לגבי נתונים שלא היו לך על סמך נתונים שכן היו לך. משווקים התחברו בהתלהבות ל"למידת מכונה" ו"בינה מלאכותית" כדי לאותת על מוצר טכנולוגי מודרני, חדשני ומתקדם מסוג כלשהו. עם זאת, לעתים קרובות יש מעט מאוד התייחסות לשאלה אם הטכנולוגיה בכלל משתמשת ב-ML, לא משנה אם ML הייתה הגישה הנכונה.

אז, האם ML יכול לזהות רוע או לא?

ML יכול לזהות רוע כאשר "רוע" מוגדר היטב ובהיקף מצומצם. זה יכול גם לזהות סטיות מהתנהגות צפויה במערכות הניתנות לחיזוי גבוה. ככל שהסביבה יציבה יותר, כך גדל הסיכוי ש-ML יזהה בצורה נכונה חריגות. אבל לא כל אנומליה היא זדונית, והמפעיל לא תמיד מצויד בהקשר מספיק כדי להגיב. כוח העל של ML אינו בהחלפה אלא בהרחבת היכולות של שיטות, מערכות וצוותים קיימים לכיסוי ויעילות מיטביים.

בול זמן:

עוד מ קריאה אפלה