השקרים היפים של למידת מכונה באבטחה

הועלה מחדש על ידי אפלטון

עוקב: 0

בניגוד למה שאולי קראת, למידת מכונה (ML) הוא לא אבק פיקסי קסם. באופן כללי, ML טוב לבעיות בהיקף מצומצם עם מערכי נתונים ענקיים זמינים, ובהם דפוסי העניין ניתנים לשחזור או לחיזוי. רוב בעיות האבטחה אינן דורשות ואינן מרוויחות מ-ML. מומחים רבים, כולל האנשים ב Google, מציע שכאשר פותרים בעיה מורכבת עליך למצות את כל השאר גישות לפני ניסיון ML.

ML הוא אוסף רחב של טכניקות סטטיסטיות המאפשרות לנו לאמן מחשב להעריך תשובה לשאלה גם כאשר לא קידדנו במפורש את התשובה הנכונה. מערכת ML מעוצבת היטב המיושמת לסוג הבעיה הנכונה יכולה לפתוח תובנות שלא היו ניתנות להשגה אחרת.

דוגמה מוצלחת של ML היא עיבוד שפה טבעית
(NLP). NLP מאפשר למחשבים "להבין" את השפה האנושית, כולל דברים כמו ניבים ומטאפורות. במובנים רבים, אבטחת סייבר מתמודדת עם אותם אתגרים כמו עיבוד שפה. תוקפים אולי לא משתמשים בביטויים, אבל טכניקות רבות דומות למילים הומוניות, מילים שיש להן אותו איות או הגייה אבל משמעויות שונות. טכניקות תוקפים מסוימות דומות גם הן לפעולות שמנהל מערכת עשוי לבצע מסיבות טובות לחלוטין.

סביבות IT משתנות בין ארגונים במטרה, ארכיטקטורה, סדר עדיפויות וסובלנות לסיכון. אי אפשר ליצור אלגוריתמים, ML או אחרת, הנותנים מענה נרחב למקרי שימוש באבטחה בכל התרחישים. זו הסיבה שרוב היישומים המוצלחים של ML באבטחה משלבים מספר שיטות כדי לטפל בבעיה מאוד ספציפית. דוגמאות טובות כוללות מסנני דואר זבל, הפחתה של DDoS או בוטים וזיהוי תוכנות זדוניות.

זבל נכנס, זבל החוצה

האתגר הגדול ביותר ב-ML הוא הזמינות של נתונים רלוונטיים ושמישים לפתרון הבעיה שלך. עבור ML בפיקוח, אתה צריך מערך נתונים גדול עם תווית נכונה. כדי לבנות מודל שמזהה תמונות חתולים, למשל, אתה מאמן את המודל על תמונות רבות של חתולים שכותרתם "חתול" ותמונות רבות של דברים שאינם חתולים המסומנים "לא חתול". אם אין לך מספיק תמונות או שהן מתויגות בצורה גרועה, הדגם שלך לא יעבוד טוב.

בתחום האבטחה, מקרה שימוש ידוע ב-ML בפיקוח הוא זיהוי תוכנות זדוניות ללא חתימות. ספקים רבים של פלטפורמת הגנת נקודות קצה (EPP) משתמשים ב-ML כדי לתייג כמויות עצומות של דגימות זדוניות ודגימות שפירות, תוך הכשרה של מודל על "איך נראית תוכנות זדוניות". מודלים אלה יכולים לזהות בצורה נכונה תוכנות זדוניות מתחמקות ותחבולות אחרות שבהן קובץ משתנה מספיק כדי להתחמק מחתימה אך נשאר זדוני. ML לא תואם את החתימה. הוא חוזה זדונות באמצעות סט תכונות אחר ולעתים קרובות יכול לתפוס תוכנות זדוניות ששיטות מבוססות חתימות מחמיצות.

עם זאת, מכיוון שדגמי ML הם הסתברותיים, יש פשרות. ML יכול לתפוס תוכנות זדוניות שחתימות מחמיצות, אבל הוא עלול גם לפספס תוכנות זדוניות שחתימות תופסות. זו הסיבה שכלי EPP מודרניים משתמשים בשיטות היברידיות המשלבות ML וטכניקות מבוססות חתימות לכיסוי מיטבי.

משהו, משהו, חיובי שווא

גם אם המודל עשוי היטב, ML מציג כמה אתגרים נוספים בכל הנוגע לפירוש הפלט, כולל:

התוצאה היא הסתברות.
מודל ML מציג את הסבירות למשהו. אם הדגם שלך נועד לזהות חתולים, תקבל תוצאות כמו "הדבר הזה הוא 80% חתול". אי ודאות זו היא מאפיין מובנה של מערכות ML ועלול להקשות על פרשנות התוצאה. האם 80% חתול מספיק?
לא ניתן לכוון את הדגם, לפחות לא על ידי משתמש הקצה. כדי להתמודד עם התוצאות ההסתברותיות, לכלי עשוי להיות ערכי סף המוגדרים על ידי הספק שממוטים אותם לתוצאות בינאריות. לדוגמה, מודל זיהוי החתול עשוי לדווח שכל דבר מעל 90% "חתול" הוא חתול. הסובלנות של העסק שלך לחתול עשויה להיות גבוהה או נמוכה יותר ממה שהספק קבע.
שליליות כוזבות (FN), הכישלון בזיהוי רוע אמיתי, הם תוצאה כואבת אחת של דגמי ML, במיוחד מודלים מכוונים גרוע. אנחנו לא אוהבים תוצאות חיוביות שגויות (FP) כי הן מבזבזות זמן. אבל יש פשרה אינהרנטית בין שיעורי FP ו-FN. דגמי ML מכוונים לייעל את הפשרה, תוך מתן עדיפות לאיזון תעריף FP-FN "הטוב ביותר". עם זאת, האיזון ה"נכון" משתנה בין ארגונים, בהתאם להערכות האיום והסיכונים האישיות שלהם. בעת שימוש במוצרים מבוססי ML, עליך לסמוך על ספקים שיבחרו את הספים המתאימים עבורך.
אין מספיק הקשר לטריאג' התראה. חלק מהקסם של ML הוא חילוץ "תכונות" חזויות חזקות אך שרירותיות ממערכי נתונים. תארו לעצמכם שזיהוי חתול היה בקורלציה גבוהה עם מזג האוויר. אף אדם לא היה מנמק כך. אבל זו הנקודה של ML - למצוא דפוסים שלא יכולנו למצוא אחרת ולעשות זאת בקנה מידה. עם זאת, גם אם הסיבה לחיזוי יכולה להיחשף למשתמש, לעתים קרובות היא לא מועילה במצב של ניסוי התראה או תגובה לאירוע. הסיבה לכך היא שה"תכונות" שמגדירות בסופו של דבר את ההחלטה של מערכת ה-ML מותאמות לכוח חיזוי, ולא רלוונטיות מעשית עבור מנתחי אבטחה.

האם "סטטיסטיקה" בכל שם אחר תריח מתוק?

מעבר ליתרונות והחסרונות של ML, יש עוד מלכוד אחד: לא כל "ML" הוא באמת ML. סטטיסטיקה נותנת לך כמה מסקנות לגבי הנתונים שלך. ML עושה תחזיות לגבי נתונים שלא היו לך על סמך נתונים שכן היו לך. משווקים התחברו בהתלהבות ל"למידת מכונה" ו"בינה מלאכותית" כדי לאותת על מוצר טכנולוגי מודרני, חדשני ומתקדם מסוג כלשהו. עם זאת, לעתים קרובות יש מעט מאוד התייחסות לשאלה אם הטכנולוגיה בכלל משתמשת ב-ML, לא משנה אם ML הייתה הגישה הנכונה.

אז, האם ML יכול לזהות רוע או לא?

ML יכול לזהות רוע כאשר "רוע" מוגדר היטב ובהיקף מצומצם. זה יכול גם לזהות סטיות מהתנהגות צפויה במערכות הניתנות לחיזוי גבוה. ככל שהסביבה יציבה יותר, כך גדל הסיכוי ש-ML יזהה בצורה נכונה חריגות. אבל לא כל אנומליה היא זדונית, והמפעיל לא תמיד מצויד בהקשר מספיק כדי להגיב. כוח העל של ML אינו בהחלפה אלא בהרחבת היכולות של שיטות, מערכות וצוותים קיימים לכיסוי ויעילות מיטביים.

בול זמן: 26 ביולי 202226 ביולי 2022

בול זמן: יוני 28, 2023

השקרים היפים של למידת מכונה באבטחה

הועלה מחדש על ידי אפלטון

זבל נכנס, זבל החוצה

משהו, משהו, חיובי שווא

האם "סטטיסטיקה" בכל שם אחר תריח מתוק?

אז, האם ML יכול לזהות רוע או לא?

עוד מ קריאה אפלה

מיאנמר מעבירה את הבוסים של האספסוף בפסלת הונאה בסייבר

האם אנחנו מוכנים לקוד שנוצר בינה מלאכותית?

פושעי סייבר משתפים פעולה כדי לשדרג תוכנה זדונית 'SapphireStealer'

איחוד האמירויות יו"ר קבוצת העבודה מחשוב ענן של הבנק העולמי

Thoma Bravo קנייה מדגיש התעניינות משקיעים לוהט בשוק IAM

טכניקת פריצה פשוטה יכולה לחלץ נתוני אימון ChatGPT

צעדים ש-CISO צריכים לנקוט לפני, במהלך ואחרי מתקפת סייבר

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן