الأكاذيب الجميلة للتعلم الآلي في مجال ذكاء البيانات الخاصة بـ PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

الأكاذيب الجميلة لتعلم الآلة في مجال الأمن

على عكس ما قرأته ، آلة التعلم (ML) ليس غبار عابث سحري. بشكل عام ، يعد تعلم الآلة مفيدًا للمشكلات الضيقة النطاق مع مجموعات البيانات الضخمة المتاحة ، وحيث تكون أنماط الاهتمام قابلة للتكرار أو يمكن التنبؤ بها بدرجة كبيرة. معظم مشاكل الأمان لا تتطلب ولا تستفيد من ML. العديد من الخبراء ، بما في ذلك الأشخاص في شراء مراجعات جوجل، نقترح أنه عند حل مشكلة معقدة يجب عليك ذلك استنفد كل شيء آخر قبل تجربة ML.

ML عبارة عن مجموعة واسعة من التقنيات الإحصائية التي تسمح لنا بتدريب جهاز كمبيوتر على تقدير إجابة سؤال حتى عندما لم نقم بترميز الإجابة الصحيحة بشكل صريح. يمكن لنظام تعلم الآلة المصمم جيدًا المطبق على النوع الصحيح من المشاكل أن يفتح الرؤى التي لم يكن من الممكن تحقيقها بخلاف ذلك.

مثال على ML الناجح معالجة اللغة الطبيعية
(البرمجة اللغوية العصبية). يسمح البرمجة اللغوية العصبية لأجهزة الكمبيوتر "بفهم" لغة الإنسان ، بما في ذلك أشياء مثل التعبيرات الاصطلاحية والاستعارات. من نواح كثيرة ، يواجه الأمن السيبراني نفس التحديات التي تواجه معالجة اللغة. قد لا يستخدم المهاجمون التعابير الاصطلاحية ، ولكن العديد من التقنيات تشبه المترادفات ، الكلمات التي لها نفس التهجئة أو النطق ولكن معاني مختلفة. تشبه بعض تقنيات المهاجمين أيضًا الإجراءات التي قد يتخذها مسؤول النظام لأسباب حميدة تمامًا.

تختلف بيئات تكنولوجيا المعلومات عبر المؤسسات من حيث الغرض ، والهندسة المعمارية ، وتحديد الأولويات ، وتحمل المخاطر. من المستحيل إنشاء خوارزميات ، ML أو غير ذلك ، تتناول حالات استخدام الأمان على نطاق واسع في جميع السيناريوهات. هذا هو السبب في أن معظم تطبيقات ML في الأمان تجمع بين طرق متعددة لمعالجة مشكلة محددة للغاية. تشمل الأمثلة الجيدة عوامل تصفية البريد العشوائي و DDoS أو التخفيف من برامج الروبوت واكتشاف البرامج الضارة.

القمامة في ، القمامة خارج

التحدي الأكبر في ML هو توافر البيانات ذات الصلة والقابلة للاستخدام لحل مشكلتك. بالنسبة إلى ML الخاضع للإشراف ، فأنت بحاجة إلى مجموعة بيانات كبيرة ومُصنفة بشكل صحيح. لإنشاء نموذج يحدد صور القطط ، على سبيل المثال ، تقوم بتدريب النموذج على العديد من صور القطط التي تحمل علامة "قطة" والعديد من الصور لأشياء ليست قطط مصنفة "ليست قطة". إذا لم يكن لديك صور كافية أو تم تصنيفها بشكل سيء ، فلن يعمل نموذجك بشكل جيد.

في مجال الأمان ، تعتبر حالة استخدام ML الخاضعة للإشراف المعروفة هي اكتشاف البرامج الضارة غير المشهورة. يستخدم العديد من بائعي الأنظمة الأساسية لحماية الأجهزة الطرفية (EPP) تعلم الآلة لتسمية كميات ضخمة من العينات الضارة والعينات الحميدة ، وتدريب نموذج على "شكل البرامج الضارة". يمكن لهذه النماذج أن تحدد بشكل صحيح البرمجيات الخبيثة الطافرة والمراوغة وغيرها من الخداع حيث يتم تغيير الملف بما يكفي لتفادي التوقيع ولكنه يظل ضارًا. ML لا يتطابق مع التوقيع. يتنبأ بالضرر باستخدام مجموعة ميزات أخرى ويمكنه في كثير من الأحيان اكتشاف البرامج الضارة التي تفوتها الأساليب القائمة على التوقيع.

ومع ذلك ، نظرًا لأن نماذج ML احتمالية ، فهناك مقايضة. يمكن لـ ML التقاط البرامج الضارة التي تفوتها التوقيعات ، ولكنها قد تفوت أيضًا البرامج الضارة التي تلتقطها التوقيعات. هذا هو السبب في أن أدوات EPP الحديثة تستخدم طرقًا هجينة تجمع بين تقنيات ML والتقنيات القائمة على التوقيع للحصول على تغطية مثالية.

شيء ، شيء ما ، إيجابيات كاذبة

حتى لو كان النموذج معدًا جيدًا ، فإن ML يمثل بعض التحديات الإضافية عندما يتعلق الأمر بتفسير المخرجات ، بما في ذلك:

  • النتيجة احتمالية.
    ينتج نموذج ML احتمالية وجود شيء ما. إذا كان نموذجك مصممًا للتعرف على القطط ، فستحصل على نتائج مثل "هذا الشيء هو 80٪ قطة". عدم اليقين هذا هو سمة متأصلة في أنظمة ML ويمكن أن تجعل النتيجة صعبة التفسير. هل 80٪ قطة كافية؟
  • لا يمكن ضبط النموذج، على الأقل ليس من قبل المستخدم النهائي. للتعامل مع النتائج الاحتمالية ، قد تحتوي الأداة على عتبات يحددها البائعون والتي تؤدي إلى انهيارها إلى نتائج ثنائية. على سبيل المثال ، قد يشير نموذج التعرف على القطط إلى أن أي شيء> 90٪ "قطة" هو قطة. قد يكون تسامح عملك مع القطط أعلى أو أقل مما حدده البائع.
  • السلبيات الكاذبة (FN)، الفشل في اكتشاف الشر الحقيقي ، هو أحد النتائج المؤلمة لنماذج ML ، خاصة تلك التي يتم ضبطها بشكل سيئ. نحن لا نحب الإيجابيات الخاطئة (FP) لأنها تضيع الوقت. ولكن هناك مقايضة متأصلة بين أسعار FP و FN. تم ضبط نماذج ML لتحسين المفاضلة ، مع إعطاء الأولوية لميزان معدل FP-FN "الأفضل". ومع ذلك ، يختلف التوازن "الصحيح" بين المنظمات ، اعتمادًا على تقييمات التهديدات والمخاطر الفردية الخاصة بهم. عند استخدام المنتجات المستندة إلى ML ، يجب أن تثق بالموردين لتحديد الحدود المناسبة لك.
  • لا يوجد سياق كاف لفرز التنبيهات. يتمثل جزء من سحر ML في استخراج "ميزات" تنبؤية قوية ولكنها عشوائية من مجموعات البيانات. تخيل أن التعرف على قطة يرتبط ارتباطًا وثيقًا بالطقس. لن يفكر أي إنسان بهذه الطريقة. ولكن هذا هو الهدف من ML - للعثور على أنماط لم نتمكن من العثور عليها بطريقة أخرى والقيام بذلك على نطاق واسع. ومع ذلك ، حتى إذا كان من الممكن كشف سبب التوقع للمستخدم ، فغالبًا ما يكون غير مفيد في فرز التنبيهات أو حالة الاستجابة للحوادث. وذلك لأن "الميزات" التي تحدد قرار نظام ML في النهاية تم تحسينها من أجل القوة التنبؤية ، وليس الأهمية العملية لمحللي الأمن.

هل ستكون "الإحصائيات" بأي اسم آخر رائحتها حلوة؟

بالإضافة إلى إيجابيات وسلبيات ML ، هناك مشكلة أخرى: ليست كل "ML" هي حقًا ML. تعطيك الإحصائيات بعض الاستنتاجات حول بياناتك. يقوم ML بعمل تنبؤات حول البيانات التي لم تكن لديك بناءً على البيانات التي لديك. لقد انجذب المسوقون بحماس إلى "آلة التعلم"و" الذكاء الاصطناعي "للإشارة إلى منتج تكنولوجي حديث ومبتكر ومتقدم من نوع ما. ومع ذلك ، غالبًا ما يكون هناك القليل من الاهتمام لما إذا كانت التقنية تستخدم ML أم لا ، بغض النظر عما إذا كان ML هو النهج الصحيح.

لذا ، هل يستطيع ML اكتشاف الشر أم لا؟

يمكن أن يكتشف ML الشر عندما يكون "الشر" محددًا جيدًا وضيق النطاق. يمكنه أيضًا اكتشاف الانحرافات عن السلوك المتوقع في الأنظمة التي يمكن التنبؤ بها بدرجة عالية. كلما كانت البيئة أكثر استقرارًا ، زادت احتمالية تعلم الآلة لتحديد الحالات الشاذة بشكل صحيح. ولكن ليست كل الحالات الشاذة ضارة ، والمشغل ليس دائمًا مجهزًا بالسياق الكافي للرد. القوة العظمى لـ ML ليست في استبدال ولكن في توسيع قدرات الأساليب والأنظمة والفرق الحالية من أجل التغطية والكفاءة المثلى.

الطابع الزمني:

اكثر من قراءة مظلمة