برخلاف آنچه ممکن است خوانده باشید، فراگیری ماشین (ML) گرد و غبار جادویی پیکسی نیست. به طور کلی، ML برای مسائل با دامنه محدود با مجموعه داده های عظیم در دسترس، و جایی که الگوهای مورد علاقه بسیار قابل تکرار یا قابل پیش بینی هستند، خوب است. اکثر مشکلات امنیتی نه نیاز به ML دارند و نه سودی از آن دارند. بسیاری از کارشناسان، از جمله مردمی در گوگل، پیشنهاد می کند که هنگام حل یک مشکل پیچیده باید تمام بقیه را خسته کند قبل از امتحان ML نزدیک می شود.
ML مجموعه گستردهای از تکنیکهای آماری است که به ما امکان میدهد کامپیوتری را آموزش دهیم تا پاسخ یک سؤال را تخمین بزند، حتی زمانی که به صراحت پاسخ صحیح را کدگذاری نکردهایم. یک سیستم ML به خوبی طراحی شده که برای نوع درستی از مشکل اعمال می شود، می تواند بینش هایی را که در غیر این صورت قابل دستیابی نبود، باز کند.
یک مثال موفق ML است پردازش زبان طبیعی
(NLP). NLP به رایانهها اجازه میدهد تا زبان انسان، از جمله مواردی مانند اصطلاحات و استعارهها را «درک» کنند. از بسیاری جهات، امنیت سایبری با چالش های مشابه پردازش زبان مواجه است. مهاجمان ممکن است از اصطلاحات استفاده نکنند، اما بسیاری از تکنیک ها مشابه همنام ها هستند، کلماتی که املا یا تلفظ یکسان دارند اما معانی متفاوتی دارند. برخی از تکنیکهای مهاجم نیز شباهت زیادی به اقداماتی دارند که ممکن است مدیر سیستم به دلایل کاملاً بیخطر انجام دهد.
محیط های فناوری اطلاعات در بین سازمان ها از نظر هدف، معماری، اولویت بندی و تحمل ریسک متفاوت است. ایجاد الگوریتمهایی، ML یا غیرممکن است که به طور گسترده به موارد استفاده امنیتی در همه سناریوها بپردازد. به همین دلیل است که اکثر برنامه های کاربردی موفق ML در امنیت چندین روش را برای رسیدگی به یک مسئله بسیار خاص ترکیب می کنند. نمونه های خوب عبارتند از فیلترهای هرزنامه، DDoS یا کاهش ربات، و تشخیص بدافزار.
زباله داخل، زباله بیرون
بزرگترین چالش در ML در دسترس بودن داده های مرتبط و قابل استفاده برای حل مشکل شما است. برای ML نظارت شده، به یک مجموعه داده بزرگ و با برچسب درست نیاز دارید. برای ساختن مدلی که عکسهای گربه را مشخص میکند، به عنوان مثال، مدل را روی بسیاری از عکسهای گربهها با برچسب «گربه» و بسیاری از عکسهای چیزهایی که گربه نیستند با برچسب «گربه نیست» آموزش میدهید. اگر عکس های کافی ندارید یا برچسب ضعیفی دارند، مدل شما خوب کار نخواهد کرد.
در امنیت، یک مورد استفاده از ML تحت نظارت شناخته شده، شناسایی بدافزار بدون امضا است. بسیاری از فروشندگان پلت فرم حفاظت نقطه پایانی (EPP) از ML برای برچسب گذاری مقادیر عظیمی از نمونه های مخرب و نمونه های خوش خیم استفاده می کنند و مدلی را در مورد «بدافزار چگونه به نظر می رسد» آموزش می دهند. این مدلها میتوانند بدافزارهای جهشیافته فراری و دیگر ترفندها را به درستی شناسایی کنند که در آن فایل به اندازهای تغییر میکند که از امضای اجتناب کند اما مخرب باقی میماند. ML با امضا مطابقت ندارد. بدافزار را با استفاده از مجموعه ویژگی دیگری پیشبینی میکند و اغلب میتواند بدافزاری را که روشهای مبتنی بر امضا از دست میدهند، شناسایی کند.
با این حال، از آنجایی که مدلهای ML احتمالی هستند، یک معاوضه وجود دارد. ML میتواند بدافزارهایی را که امضاها از دست میدهند، شناسایی کند، اما ممکن است بدافزارهایی را که امضاها میگیرند را نیز از دست بدهد. به همین دلیل است که ابزارهای مدرن EPP از روشهای ترکیبی استفاده میکنند که ML و تکنیکهای مبتنی بر امضا را برای پوشش بهینه ترکیب میکنند.
چیزی، چیزی، مثبت کاذب
حتی اگر مدل به خوبی ساخته شده باشد، ML در هنگام تفسیر خروجی چالش های دیگری را ارائه می دهد، از جمله:
- نتیجه یک احتمال است.
مدل ML احتمال وجود چیزی را خروجی می دهد. اگر مدل شما برای شناسایی گربه ها طراحی شده باشد، نتایجی مانند "این چیز 80٪ گربه است" دریافت خواهید کرد. این عدم قطعیت یک ویژگی ذاتی سیستم های ML است و می تواند تفسیر نتیجه را دشوار کند. آیا 80 درصد گربه کافی است؟ - مدل رو نمیشه کوک کرد، حداقل نه توسط کاربر نهایی. برای مدیریت نتایج احتمالی، یک ابزار ممکن است آستانههای تعیینشده توسط فروشنده داشته باشد که آنها را به نتایج باینری تبدیل کند. به عنوان مثال، مدل شناسایی گربه ممکن است گزارش دهد که هر چیزی بیش از 90٪ "گربه" یک گربه است. تحمل کسب و کار شما برای گربه بودن ممکن است بالاتر یا کمتر از آنچه فروشنده تعیین کرده باشد.
- منفی کاذب (FN)ناکامی در تشخیص شر واقعی، یکی از پیامدهای دردناک مدل های ML، به ویژه مدل های ضعیف تنظیم شده است. ما از مثبتهای کاذب (FP) متنفریم زیرا زمان را تلف میکنند. اما یک مبادله ذاتی بین نرخ FP و FN وجود دارد. مدلهای ML برای بهینهسازی مبادله تنظیم شدهاند، و بهترین تعادل نرخ FP-FN را در اولویت قرار میدهند. با این حال، توازن «صحیح» در بین سازمانها بسته به تهدید و ارزیابی ریسک فردی آنها متفاوت است. هنگام استفاده از محصولات مبتنی بر ML، باید به فروشندگان اعتماد کنید تا آستانه های مناسب را برای شما انتخاب کنند.
- زمینه کافی برای تریاژ هشدار وجود ندارد. بخشی از جادوی ML استخراج "ویژگی های" قدرتمند پیش بینی کننده اما دلخواه از مجموعه داده ها است. تصور کنید که شناسایی یک گربه اتفاقاً با آب و هوا ارتباط زیادی دارد. هیچ انسانی اینگونه استدلال نمی کند. اما این هدف ML است - یافتن الگوهایی که در غیر این صورت نمی توانستیم پیدا کنیم و این کار را در مقیاس انجام دهیم. با این حال، حتی اگر بتوان دلیل پیشبینی را در معرض دید کاربر قرار داد، اغلب در وضعیت تریاژ هشدار یا واکنش حادثه مفید نیست. این به این دلیل است که «ویژگیهایی» که در نهایت تصمیم سیستم ML را تعریف میکنند، برای قدرت پیشبینی بهینه شدهاند، نه ارتباط عملی با تحلیلگران امنیتی.
آیا "آمار" با هر نام دیگری بوی شیرین می دهد؟
فراتر از مزایا و معایب ML، یک نکته دیگر وجود دارد: همه "ML" واقعا ML نیستند. آمار به شما نتایجی در مورد داده های شما می دهد. ML بر اساس دادههایی که در اختیار داشتید، پیشبینیهایی درباره دادههایی که نداشتید انجام میدهد. بازاریابان مشتاقانه به "فراگیری ماشین"و "هوش مصنوعی" برای نشان دادن یک محصول مدرن، نوآورانه و پیشرفته با فناوری. با این حال، اغلب توجه بسیار کمی به این موضوع وجود دارد که آیا این فناوری حتی از ML استفاده می کند یا خیر، اصلا اهمیتی ندارد که ML رویکرد درستی باشد.
بنابراین، آیا ML می تواند شیطان را تشخیص دهد یا خیر؟
ML می تواند شر را زمانی تشخیص دهد که "شر" به خوبی تعریف شده باشد و محدوده محدودی داشته باشد. همچنین می تواند انحراف از رفتار مورد انتظار را در سیستم های بسیار قابل پیش بینی تشخیص دهد. هرچه محیط پایدارتر باشد، احتمال اینکه ML به درستی ناهنجاری ها را شناسایی کند بیشتر است. اما هر ناهنجاری مخرب نیست و اپراتور همیشه به زمینه کافی برای پاسخگویی مجهز نیست. ابرقدرت ML در جایگزینی نیست، بلکه در گسترش قابلیتهای روشها، سیستمها و تیمهای موجود برای پوشش و کارایی بهینه است.