دروغ های زیبای یادگیری ماشینی در امنیت

بازنشر افلاطون

دنبال: 0

برخلاف آنچه ممکن است خوانده باشید، فراگیری ماشین (ML) گرد و غبار جادویی پیکسی نیست. به طور کلی، ML برای مسائل با دامنه محدود با مجموعه داده های عظیم در دسترس، و جایی که الگوهای مورد علاقه بسیار قابل تکرار یا قابل پیش بینی هستند، خوب است. اکثر مشکلات امنیتی نه نیاز به ML دارند و نه سودی از آن دارند. بسیاری از کارشناسان، از جمله مردمی در گوگل، پیشنهاد می کند که هنگام حل یک مشکل پیچیده باید تمام بقیه را خسته کند قبل از امتحان ML نزدیک می شود.

ML مجموعه گسترده‌ای از تکنیک‌های آماری است که به ما امکان می‌دهد کامپیوتری را آموزش دهیم تا پاسخ یک سؤال را تخمین بزند، حتی زمانی که به صراحت پاسخ صحیح را کدگذاری نکرده‌ایم. یک سیستم ML به خوبی طراحی شده که برای نوع درستی از مشکل اعمال می شود، می تواند بینش هایی را که در غیر این صورت قابل دستیابی نبود، باز کند.

یک مثال موفق ML است پردازش زبان طبیعی
(NLP). NLP به رایانه‌ها اجازه می‌دهد تا زبان انسان، از جمله مواردی مانند اصطلاحات و استعاره‌ها را «درک» کنند. از بسیاری جهات، امنیت سایبری با چالش های مشابه پردازش زبان مواجه است. مهاجمان ممکن است از اصطلاحات استفاده نکنند، اما بسیاری از تکنیک ها مشابه همنام ها هستند، کلماتی که املا یا تلفظ یکسان دارند اما معانی متفاوتی دارند. برخی از تکنیک‌های مهاجم نیز شباهت زیادی به اقداماتی دارند که ممکن است مدیر سیستم به دلایل کاملاً بی‌خطر انجام دهد.

محیط های فناوری اطلاعات در بین سازمان ها از نظر هدف، معماری، اولویت بندی و تحمل ریسک متفاوت است. ایجاد الگوریتم‌هایی، ML یا غیرممکن است که به طور گسترده به موارد استفاده امنیتی در همه سناریوها بپردازد. به همین دلیل است که اکثر برنامه های کاربردی موفق ML در امنیت چندین روش را برای رسیدگی به یک مسئله بسیار خاص ترکیب می کنند. نمونه های خوب عبارتند از فیلترهای هرزنامه، DDoS یا کاهش ربات، و تشخیص بدافزار.

زباله داخل، زباله بیرون

بزرگترین چالش در ML در دسترس بودن داده های مرتبط و قابل استفاده برای حل مشکل شما است. برای ML نظارت شده، به یک مجموعه داده بزرگ و با برچسب درست نیاز دارید. برای ساختن مدلی که عکس‌های گربه را مشخص می‌کند، به عنوان مثال، مدل را روی بسیاری از عکس‌های گربه‌ها با برچسب «گربه» و بسیاری از عکس‌های چیزهایی که گربه نیستند با برچسب «گربه نیست» آموزش می‌دهید. اگر عکس های کافی ندارید یا برچسب ضعیفی دارند، مدل شما خوب کار نخواهد کرد.

در امنیت، یک مورد استفاده از ML تحت نظارت شناخته شده، شناسایی بدافزار بدون امضا است. بسیاری از فروشندگان پلت فرم حفاظت نقطه پایانی (EPP) از ML برای برچسب گذاری مقادیر عظیمی از نمونه های مخرب و نمونه های خوش خیم استفاده می کنند و مدلی را در مورد «بدافزار چگونه به نظر می رسد» آموزش می دهند. این مدل‌ها می‌توانند بدافزارهای جهش‌یافته فراری و دیگر ترفندها را به درستی شناسایی کنند که در آن فایل به اندازه‌ای تغییر می‌کند که از امضای اجتناب کند اما مخرب باقی می‌ماند. ML با امضا مطابقت ندارد. بدافزار را با استفاده از مجموعه ویژگی دیگری پیش‌بینی می‌کند و اغلب می‌تواند بدافزاری را که روش‌های مبتنی بر امضا از دست می‌دهند، شناسایی کند.

با این حال، از آنجایی که مدل‌های ML احتمالی هستند، یک معاوضه وجود دارد. ML می‌تواند بدافزارهایی را که امضاها از دست می‌دهند، شناسایی کند، اما ممکن است بدافزارهایی را که امضاها می‌گیرند را نیز از دست بدهد. به همین دلیل است که ابزارهای مدرن EPP از روش‌های ترکیبی استفاده می‌کنند که ML و تکنیک‌های مبتنی بر امضا را برای پوشش بهینه ترکیب می‌کنند.

چیزی، چیزی، مثبت کاذب

حتی اگر مدل به خوبی ساخته شده باشد، ML در هنگام تفسیر خروجی چالش های دیگری را ارائه می دهد، از جمله:

نتیجه یک احتمال است.
مدل ML احتمال وجود چیزی را خروجی می دهد. اگر مدل شما برای شناسایی گربه ها طراحی شده باشد، نتایجی مانند "این چیز 80٪ گربه است" دریافت خواهید کرد. این عدم قطعیت یک ویژگی ذاتی سیستم های ML است و می تواند تفسیر نتیجه را دشوار کند. آیا 80 درصد گربه کافی است؟
مدل رو نمیشه کوک کرد، حداقل نه توسط کاربر نهایی. برای مدیریت نتایج احتمالی، یک ابزار ممکن است آستانه‌های تعیین‌شده توسط فروشنده داشته باشد که آنها را به نتایج باینری تبدیل کند. به عنوان مثال، مدل شناسایی گربه ممکن است گزارش دهد که هر چیزی بیش از 90٪ "گربه" یک گربه است. تحمل کسب و کار شما برای گربه بودن ممکن است بالاتر یا کمتر از آنچه فروشنده تعیین کرده باشد.
منفی کاذب (FN)ناکامی در تشخیص شر واقعی، یکی از پیامدهای دردناک مدل های ML، به ویژه مدل های ضعیف تنظیم شده است. ما از مثبت‌های کاذب (FP) متنفریم زیرا زمان را تلف می‌کنند. اما یک مبادله ذاتی بین نرخ FP و FN وجود دارد. مدل‌های ML برای بهینه‌سازی مبادله تنظیم شده‌اند، و بهترین تعادل نرخ FP-FN را در اولویت قرار می‌دهند. با این حال، توازن «صحیح» در بین سازمان‌ها بسته به تهدید و ارزیابی ریسک فردی آنها متفاوت است. هنگام استفاده از محصولات مبتنی بر ML، باید به فروشندگان اعتماد کنید تا آستانه های مناسب را برای شما انتخاب کنند.
زمینه کافی برای تریاژ هشدار وجود ندارد. بخشی از جادوی ML استخراج "ویژگی های" قدرتمند پیش بینی کننده اما دلخواه از مجموعه داده ها است. تصور کنید که شناسایی یک گربه اتفاقاً با آب و هوا ارتباط زیادی دارد. هیچ انسانی اینگونه استدلال نمی کند. اما این هدف ML است - یافتن الگوهایی که در غیر این صورت نمی توانستیم پیدا کنیم و این کار را در مقیاس انجام دهیم. با این حال، حتی اگر بتوان دلیل پیش‌بینی را در معرض دید کاربر قرار داد، اغلب در وضعیت تریاژ هشدار یا واکنش حادثه مفید نیست. این به این دلیل است که «ویژگی‌هایی» که در نهایت تصمیم سیستم ML را تعریف می‌کنند، برای قدرت پیش‌بینی بهینه شده‌اند، نه ارتباط عملی با تحلیلگران امنیتی.

آیا "آمار" با هر نام دیگری بوی شیرین می دهد؟

فراتر از مزایا و معایب ML، یک نکته دیگر وجود دارد: همه "ML" واقعا ML نیستند. آمار به شما نتایجی در مورد داده های شما می دهد. ML بر اساس داده‌هایی که در اختیار داشتید، پیش‌بینی‌هایی درباره داده‌هایی که نداشتید انجام می‌دهد. بازاریابان مشتاقانه به "فراگیری ماشین"و "هوش مصنوعی" برای نشان دادن یک محصول مدرن، نوآورانه و پیشرفته با فناوری. با این حال، اغلب توجه بسیار کمی به این موضوع وجود دارد که آیا این فناوری حتی از ML استفاده می کند یا خیر، اصلا اهمیتی ندارد که ML رویکرد درستی باشد.

بنابراین، آیا ML می تواند شیطان را تشخیص دهد یا خیر؟

ML می تواند شر را زمانی تشخیص دهد که "شر" به خوبی تعریف شده باشد و محدوده محدودی داشته باشد. همچنین می تواند انحراف از رفتار مورد انتظار را در سیستم های بسیار قابل پیش بینی تشخیص دهد. هرچه محیط پایدارتر باشد، احتمال اینکه ML به درستی ناهنجاری ها را شناسایی کند بیشتر است. اما هر ناهنجاری مخرب نیست و اپراتور همیشه به زمینه کافی برای پاسخگویی مجهز نیست. ابرقدرت ML در جایگزینی نیست، بلکه در گسترش قابلیت‌های روش‌ها، سیستم‌ها و تیم‌های موجود برای پوشش و کارایی بهینه است.

تمبر زمان: ژوئیه 26، 2022ژوئیه 26، 2022

تمبر زمان: ژوئن 28، 2023

دروغ های زیبای یادگیری ماشین در امنیت

بازنشر افلاطون

زباله داخل، زباله بیرون

چیزی، چیزی، مثبت کاذب

آیا "آمار" با هر نام دیگری بوی شیرین می دهد؟

بنابراین، آیا ML می تواند شیطان را تشخیص دهد یا خیر؟

بیشتر از تاریک خواندن

میانمار رئیس‌های اوباش را در پرونده کلاهبرداری سایبری تحویل می‌دهد

آیا ما برای کدهای تولید شده توسط هوش مصنوعی آماده هستیم؟

مجرمان سایبری برای ارتقا بدافزار 'SapphireStealer' تیم می شوند

امارات متحده عربی ریاست گروه کاری رایانش ابری بانک جهانی را بر عهده خواهد گرفت

ولگردی و قانونی شکنی خرید Thoma Bravo بر علاقه سرمایه گذاران به بازار IAM تاکید می کند

تکنیک هک ساده می تواند داده های آموزشی ChatGPT را استخراج کند

گام‌هایی که CISO باید قبل، حین و بعد از حمله سایبری بردارند

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب