تشخيص أداء النموذج قبل نشره في Amazon Fraud Detector

أعاد نشره أفلاطون

المتابعون: 0

مع النمو في اعتماد التطبيقات عبر الإنترنت والعدد المتزايد لمستخدمي الإنترنت ، فإن الاحتيال الرقمي آخذ في الارتفاع عامًا بعد عام. كاشف احتيال الأمازون يوفر خدمة مُدارة بالكامل لمساعدتك على تحديد الأنشطة التي يُحتمل أن تكون احتيالية على الإنترنت بشكل أفضل باستخدام تقنيات التعلم الآلي المتقدمة (ML) ، وأكثر من 20 عامًا من الخبرة في اكتشاف الاحتيال من Amazon.

لمساعدتك في اكتشاف الاحتيال بشكل أسرع عبر حالات الاستخدام المتعددة ، تقدم Amazon Fraud Detector نماذج محددة مع خوارزميات مخصصة وإثراء وتحولات في الميزات. تدريب النموذج مؤتمت بالكامل وخالي من المتاعب ، ويمكنك اتباع التعليمات الواردة في دليل المستخدم أو ذات الصلة بلوق وظائف للبدء. ومع ذلك ، مع النماذج المدربة ، تحتاج إلى تحديد ما إذا كان النموذج جاهزًا للنشر. يتطلب هذا معرفة معينة في غسل الأموال والإحصاءات واكتشاف الاحتيال ، وقد يكون من المفيد معرفة بعض الأساليب النموذجية.

ستساعدك هذه المشاركة في تشخيص أداء النموذج واختيار النموذج المناسب للنشر. نحن نتصفح المقاييس التي يوفرها Amazon Fraud Detector ، ونساعدك في تشخيص المشكلات المحتملة ، وتقديم اقتراحات لتحسين أداء النموذج. الأساليب قابلة للتطبيق على كل من قوالب نموذج رؤى الاحتيال عبر الإنترنت (OFI) ورؤى تزوير المعاملات (TFI).

حل نظرة عامة

يوفر هذا المنشور عملية شاملة لتشخيص أداء النموذج الخاص بك. يقدم أولاً جميع مقاييس النموذج المعروضة على وحدة تحكم Amazon Fraud Detector ، بما في ذلك AUC ، وتوزيع النقاط ، ومصفوفة الارتباك ، ومنحنى ROC ، وأهمية النموذج المتغير. ثم نقدم نهجًا من ثلاث خطوات لتشخيص أداء النموذج باستخدام مقاييس مختلفة. أخيرًا ، نقدم اقتراحات لتحسين أداء النموذج للمشكلات النموذجية.

المتطلبات الأساسية المسبقة

قبل التعمق في نموذج Amazon Fraud Detector ، تحتاج إلى إكمال المتطلبات الأساسية التالية:

أنشئ حساب AWS.
إنشاء مجموعة بيانات الحدث لتدريب النموذج.
قم بتحميل بياناتك إلى خدمة تخزين أمازون البسيطة (أمازون S3) أو استيعاب بيانات الحدث في Amazon Fraud Detector.
بناء نموذج أمازون للكشف عن الاحتيال.

تفسير مقاييس النموذج

بعد اكتمال تدريب النموذج ، يقوم Amazon Fraud Detector بتقييم نموذجك باستخدام جزء من بيانات النمذجة التي لم يتم استخدامها في تدريب النموذج. تقوم بإرجاع مقاييس التقييم على نسخة نموذجية صفحة لهذا النموذج. تعكس هذه المقاييس أداء النموذج الذي يمكنك توقعه في البيانات الحقيقية بعد النشر في الإنتاج.

تُظهر لقطة الشاشة التالية مثالاً على أداء النموذج الذي تم إرجاعه بواسطة Amazon Fraud Detector. يمكنك اختيار عتبات مختلفة لتوزيع النقاط (على اليسار) ، ويتم تحديث مصفوفة الارتباك (على اليمين) وفقًا لذلك.

يمكنك استخدام النتائج التالية للتحقق من الأداء واتخاذ قرار بشأن قواعد الإستراتيجية:

AUC (المنطقة الواقعة تحت المنحنى) - الأداء العام لهذا النموذج. النموذج الذي تبلغ قيمته AUC 0.50 ليس أفضل من تقليب العملة لأنه يمثل فرصة عشوائية ، في حين أن النموذج "المثالي" سيكون له درجة 1.0. كلما زادت AUC ، كان بإمكان نموذجك التمييز بشكل أفضل بين عمليات الاحتيال وإضفاء الشرعية.
توزيع النقاط - رسم بياني لتوزيعات درجات النموذج بافتراض مثال مجتمع يبلغ 100,000 حدث. تُنشئ Amazon Fraud Detector درجات نموذجية تتراوح بين 0-1000 ، حيث كلما انخفضت النتيجة ، انخفضت مخاطر الاحتيال. يشير الفصل الأفضل بين السكان الشرعيين (الأخضر) والاحتيال (الأزرق) عادةً إلى نموذج أفضل. لمزيد من التفاصيل ، انظر عشرات النموذج.
الارتباك مصفوفة - جدول يصف أداء النموذج لعتبة الدرجة المحددة المحددة ، بما في ذلك المعدل الإيجابي الحقيقي ، والسالب الحقيقي ، والإيجابي الخاطئ ، والسالب الخاطئ ، والمعدل الإيجابي الحقيقي (TPR) ، والمعدل الإيجابي الخاطئ (FPR). يفترض العد الموجود في الجدول مثالاً على عدد أحداث يبلغ 100,0000 حدث. لمزيد من التفاصيل ، انظر مقاييس أداء النموذج.
منحنى ROC (خاصية مشغل المستقبل) - قطعة توضح القدرة التشخيصية للنموذج كما هو موضح في الصورة التالية. يرسم المعدل الإيجابي الحقيقي كدالة للمعدل الإيجابي الخاطئ على جميع عتبات درجة النموذج الممكنة. عرض هذا الرسم البياني عن طريق الاختيار المقاييس المتقدمة. إذا كنت قد دربت عدة إصدارات من طراز واحد ، فيمكنك تحديد عتبات FPR مختلفة للتحقق من تغيير الأداء.
أهمية النموذج المتغير - ترتيب متغيرات النموذج بناءً على مساهمتها في النموذج الناتج ، كما هو موضح في الصورة التالية. يعتبر متغير النموذج ذو القيمة الأعلى أكثر أهمية للنموذج من متغيرات النموذج الأخرى في مجموعة البيانات لإصدار هذا النموذج ، ويتم إدراجه في الجزء العلوي افتراضيًا. لمزيد من التفاصيل ، انظر أهمية النموذج المتغير.

تشخيص أداء النموذج

قبل نشر نموذجك في الإنتاج ، يجب عليك استخدام المقاييس التي تم إرجاعها من Amazon Fraud Detector لفهم أداء النموذج وتشخيص المشكلات المحتملة. يمكن تقسيم المشاكل الشائعة لنماذج ML إلى فئتين رئيسيتين: القضايا المتعلقة بالبيانات والقضايا المتعلقة بالنموذج. يعتني Amazon Fraud Detector بالمشكلات المتعلقة بالنموذج من خلال استخدام مجموعات التحقق والاختبار بعناية لتقييم وضبط النموذج الخاص بك على الواجهة الخلفية. يمكنك إكمال الخطوات التالية للتحقق مما إذا كان نموذجك جاهزًا للنشر أو به مشكلات محتملة متعلقة بالبيانات:

تحقق من أداء النموذج العام (AUC وتوزيع النقاط).
مراجعة متطلبات العمل (مصفوفة الارتباك والجدول).
تحقق من أهمية متغير النموذج.

تحقق من أداء النموذج العام: الجامعة الأمريكية بالقاهرة وتوزيع النقاط

دائمًا ما يكون التنبؤ الأكثر دقة بالأحداث المستقبلية هو الهدف الأساسي للنموذج التنبئي. يتم حساب AUC الذي تم إرجاعه بواسطة Amazon Fraud Detector على مجموعة اختبار تم أخذ عينات منها بشكل صحيح ولا يتم استخدامها في التدريب. بشكل عام ، يعتبر النموذج الذي يحتوي على AUC أكبر من 0.9 نموذجًا جيدًا.

إذا لاحظت نموذجًا بأداء أقل من 0.8 ، فهذا يعني عادةً أن النموذج لديه مجال للتحسين (نناقش المشكلات الشائعة لأداء النموذج المنخفض لاحقًا في هذا المنشور). لاحظ أن تعريف الأداء "الجيد" يعتمد بشكل كبير على عملك ونموذج الأساس. لا يزال بإمكانك اتباع الخطوات الواردة في هذا المنشور لتحسين نموذج Amazon Fraud Detector على الرغم من أن AUC الخاص به أكبر من 0.8.

من ناحية أخرى ، إذا كان AUC أعلى من 0.99 ، فهذا يعني أن النموذج يمكنه فصل الاحتيال والأحداث المشروعة في مجموعة الاختبار تمامًا تقريبًا. يكون هذا أحيانًا سيناريو "جيد جدًا لدرجة يصعب تصديقها" (نناقش المشكلات الشائعة لأداء النموذج العالي جدًا لاحقًا في هذا المنشور).

إلى جانب الجامعة الأمريكية بالقاهرة الشاملة ، يمكن أن يخبرك توزيع النقاط أيضًا بمدى ملاءمة النموذج. من الناحية المثالية ، يجب أن ترى الجزء الأكبر من الشرع والاحتيال الموجود على طرفي المقياس ، مما يشير إلى أن درجة النموذج يمكنها ترتيب الأحداث بدقة في مجموعة الاختبار.

في المثال التالي ، توزيع الدرجات له AUC بقيمة 0.96.

إذا كان التوزيع الشرعي والاحتيالي متداخلاً أو مركّزًا في المركز ، فمن المحتمل أن يعني ذلك أن النموذج لا يعمل بشكل جيد في التمييز بين أحداث الاحتيال والأحداث المشروعة ، مما قد يشير إلى تغيير توزيع البيانات التاريخي أو أنك بحاجة إلى المزيد من البيانات أو الميزات.

فيما يلي مثال لتوزيع النقاط باستخدام AUC بقيمة 0.64.

إذا تمكنت من العثور على نقطة منفصلة يمكنها تقسيم الاحتيال والأحداث المشروعة بشكل شبه كامل ، فهناك احتمال كبير أن يكون لدى النموذج مشكلة تسرب التسمية أو أن أنماط الاحتيال من السهل جدًا اكتشافها ، الأمر الذي يجب أن يلفت انتباهك.

في المثال التالي ، توزيع الدرجات له AUC بقيمة 1.0.

مراجعة متطلبات العمل: مصفوفة الارتباك والجدول

على الرغم من أن AUC هو مؤشر مناسب لأداء النموذج ، إلا أنه قد لا يترجم مباشرة إلى متطلبات عملك. يوفر Amazon Fraud Detector أيضًا مقاييس مثل معدل التقاط الاحتيال (المعدل الإيجابي الحقيقي) ، والنسبة المئوية للأحداث المشروعة التي يتم توقعها بشكل غير صحيح على أنها احتيال (معدل إيجابي كاذب) ، وأكثر من ذلك ، والتي تُستخدم بشكل أكثر شيوعًا كمتطلبات عمل. بعد تدريب نموذج باستخدام AUC جيد بشكل معقول ، تحتاج إلى مقارنة النموذج بمتطلبات عملك مع تلك المقاييس.

توفر لك مصفوفة الارتباك والجدول واجهة لمراجعة التأثير والتحقق مما إذا كان يلبي احتياجات عملك. لاحظ أن الأرقام تعتمد على عتبة النموذج ، حيث يتم تصنيف الأحداث ذات الدرجات الأكبر من الحد الأدنى على أنها احتيال والأحداث ذات الدرجات الأقل من الحد الأدنى يتم تصنيفها على أنها أحداث شرعية. يمكنك اختيار العتبة التي تريد استخدامها وفقًا لمتطلبات عملك.

على سبيل المثال ، إذا كان هدفك هو الحصول على 73٪ من عمليات الاحتيال ، فعندئذ (كما هو موضح في المثال أدناه) يمكنك اختيار عتبة مثل 855 ، والتي تتيح لك الحصول على 73٪ من جميع عمليات الاحتيال. ومع ذلك ، سيخطئ النموذج أيضًا في تصنيف 3٪ من الأحداث الشرعية على أنها احتيالية. إذا كان FPR هذا مقبولاً لعملك ، فإن النموذج جيد للنشر. خلاف ذلك ، تحتاج إلى تحسين أداء النموذج.

مثال آخر هو إذا كانت تكلفة حظر أو تحدي عميل شرعي عالية للغاية ، فأنت تريد FPR منخفضة ودقة عالية. في هذه الحالة ، يمكنك اختيار حد 950 ، كما هو موضح في المثال التالي ، والذي سيفشل في تصنيف 1٪ من العملاء الشرعيين على أنهم احتيال ، و 80٪ من عمليات الاحتيال التي تم تحديدها ستكون احتيالية بالفعل.

بالإضافة إلى ذلك ، يمكنك اختيار عتبات متعددة وتعيين نتائج مختلفة ، مثل الحظر والتحقيق والنجاح. إذا لم تتمكن من العثور على عتبات وقواعد مناسبة تلبي جميع متطلبات عملك ، فيجب أن تفكر في تدريب نموذجك بمزيد من البيانات والسمات.

تحقق من أهمية متغير النموذج

• أهمية النموذج المتغير يعرض الجزء كيف يساهم كل متغير في نموذجك. إذا كان لأحد المتغيرات قيمة أهمية أعلى بكثير من المتغيرات الأخرى ، فقد يشير ذلك إلى تسرب الملصق أو أنه من السهل جدًا اكتشاف أنماط الاحتيال. لاحظ أن الأهمية المتغيرة يتم تجميعها مرة أخرى إلى متغيرات الإدخال الخاصة بك. إذا لاحظت أهمية أعلى قليلاً من IP_ADDRESS, CARD_BIN, EMAIL_ADDRESS, PHONE_NUMBER, BILLING_ZIPالطرق أو SHIPPING_ZIP، ربما بسبب قوة التخصيب.

يوضح المثال التالي أهمية النموذج المتغيرة مع استخدام تسرب محتمل للعلامة investigation_status.

تمنحك الأهمية المتغيرة للنموذج أيضًا تلميحات حول المتغيرات الإضافية التي يمكن أن تزيد من تحسين النموذج. على سبيل المثال ، إذا لاحظت انخفاض AUC وتظهر الميزات المتعلقة بالبائع أهمية كبيرة ، فقد تفكر في جمع المزيد من ميزات الطلب مثل SELLER_CATEGORY, SELLER_ADDRESSو SELLER_ACTIVE_YEARS، وأضف هذه المتغيرات إلى نموذجك.

المشكلات الشائعة المتعلقة بأداء النموذج المنخفض

في هذا القسم ، نناقش المشكلات الشائعة التي قد تواجهها فيما يتعلق بأداء النموذج المنخفض.

تغير توزيع البيانات التاريخية

يحدث الانجراف التاريخي في توزيع البيانات عندما يكون لديك تغيير كبير في العمل أو مشكلة في جمع البيانات. على سبيل المثال ، إذا أطلقت منتجك مؤخرًا في سوق جديد ، فإن IP_ADDRESS, EMAILو ADDRESS قد تكون الميزات ذات الصلة مختلفة تمامًا ، ويمكن أيضًا تغيير طريقة عمل الاحتيال. يستخدم Amazon Fraud Detector EVENT_TIMESTAMP لتقسيم البيانات وتقييم النموذج الخاص بك على مجموعة فرعية مناسبة من الأحداث في مجموعة البيانات الخاصة بك. إذا تغير توزيع البيانات التاريخية بشكل كبير ، فقد تكون مجموعة التقييم مختلفة تمامًا عن بيانات التدريب ، وقد يكون أداء النموذج المبلغ عنه منخفضًا.

يمكنك التحقق من مشكلة تغيير توزيع البيانات المحتملة من خلال استكشاف بياناتك التاريخية:

استخدم Amazon Fraud Detector Data Profiler. أمازون ، كاشف الاحتيال البيانات أداة للتحقق مما إذا كان معدل الاحتيال والمعدل المفقود للملصق قد تغير بمرور الوقت.
تحقق مما إذا كان التوزيع المتغير بمرور الوقت قد تغير بشكل ملحوظ ، خاصة بالنسبة للميزات ذات الأهمية المتغيرة العالية.
تحقق من التوزيع المتغير بمرور الوقت بواسطة المتغيرات المستهدفة. إذا لاحظت المزيد من أحداث الاحتيال من فئة واحدة في البيانات الحديثة ، فقد ترغب في التحقق مما إذا كان التغيير معقولًا باستخدام أحكام عملك.

إذا وجدت أن المعدل المفقود من الملصق مرتفع جدًا أو انخفض معدل الاحتيال باستمرار خلال التواريخ الأخيرة ، فقد يكون مؤشرًا على أن الملصقات لم تنضج بالكامل. يجب استبعاد أحدث البيانات أو الانتظار لفترة أطول لجمع الملصقات الدقيقة ، ثم إعادة تدريب النموذج الخاص بك.

إذا لاحظت ارتفاعًا حادًا في معدل الاحتيال والمتغيرات في تواريخ محددة ، فقد ترغب في التحقق مرة أخرى مما إذا كانت مشكلة خارجية أو مشكلة في جمع البيانات. في هذه الحالة ، يجب حذف هذه الأحداث وإعادة تدريب النموذج.

إذا وجدت أن البيانات القديمة لا يمكن أن تمثل عملك الحالي والمستقبلي ، فيجب عليك استبعاد الفترة القديمة للبيانات من التدريب. إذا كنت تستخدم الأحداث المخزنة في Amazon Fraud Detector ، فيمكنك ببساطة إعادة تدريب إصدار جديد وتحديد النطاق الزمني المناسب أثناء تكوين وظيفة التدريب. قد يشير ذلك أيضًا إلى أن طريقة عمل الاحتيال في عملك تتغير بسرعة نسبيًا بمرور الوقت. بعد نشر النموذج ، قد تحتاج إلى إعادة تدريب النموذج بشكل متكرر.

تعيين نوع متغير غير لائق

تعمل Amazon Fraud Detector على إثراء البيانات وتحويلها بناءً على أنواع المتغيرات. من المهم أن تقوم بتعيين متغيراتك على النوع الصحيح حتى يتمكن نموذج Amazon Fraud Detector من الحصول على أقصى قيمة لبياناتك. على سبيل المثال ، إذا قمت بتعيين IP إلى CATEGORICAL اكتب بدلاً من IP_ADDRESS، لا تحصل على IP-التخصيب ذات الصلة في الخلفية.

بشكل عام ، تقترح Amazon Fraud Detector الإجراءات التالية:

عيّن المتغيرات الخاصة بك لأنواع معينة ، مثل IP_ADDRESS, EMAIL_ADDRESS, CARD_BINو PHONE_NUMBER، بحيث يمكن لـ Amazon Fraud Detector استخراج معلومات إضافية وإثرائها.
إذا لم تتمكن من العثور على نوع المتغير المحدد ، فقم بتعيينه إلى أحد الأنواع العامة الثلاثة: NUMERIC, CATEGORICALالطرق أو FREE_FORM_TEXT.
إذا كان المتغير في شكل نصي وله علاقة أساسية عالية ، مثل مراجعة العميل أو وصف المنتج ، فيجب عليك تعيينه إلى FREE_FORM_TEXT نوع متغير بحيث يقوم Amazon Fraud Detector باستخراج ميزات النص وحفلات الزفاف على الواجهة الخلفية نيابة عنك. على سبيل المثال ، إذا قمت بتعيين url_string إلى FREE_FORM_TEXT، فهو قادر على ترميز عنوان URL واستخراج المعلومات لإدخالها في نموذج المصب ، مما سيساعده في معرفة المزيد من الأنماط المخفية من عنوان URL.

إذا وجدت أن أيًا من أنواع المتغيرات الخاصة بك قد تم تعيينه بشكل غير صحيح في تكوين متغير ، فيمكنك تغيير نوع المتغير ثم إعادة تدريب النموذج.

بيانات أو ميزات غير كافية

تتطلب Amazon Fraud Detector ما لا يقل عن 10,000 سجل لتدريب نموذج رؤى الاحتيال عبر الإنترنت (OFI) أو نموذج رؤى الاحتيال في المعاملات (TFI) ، مع تحديد 400 سجل على الأقل من تلك السجلات على أنها احتيالية. يتطلب TFI أيضًا أن تأتي كل من السجلات المزورة والسجلات الشرعية من 100 كيان مختلف على الأقل لكل منها لضمان تنوع مجموعة البيانات. بالإضافة إلى ذلك ، تتطلب Amazon Fraud Detector أن تحتوي بيانات النمذجة على متغيرين على الأقل. هذا هو الحد الأدنى لمتطلبات البيانات لإنشاء نموذج مفيد للكشف عن الاحتيال من Amazon. ومع ذلك ، فإن استخدام المزيد من السجلات والمتغيرات يساعد عادةً نماذج ML على التعرف بشكل أفضل على الأنماط الأساسية من بياناتك. عندما تلاحظ انخفاض AUC أو لا تجد عتبات تفي بمتطلبات عملك ، يجب أن تفكر في إعادة تدريب نموذجك بمزيد من البيانات أو إضافة ميزات جديدة إلى نموذجك. عادة ما نجد EMAIL_ADDRESS, IP, PAYMENT_TYPE, BILLING_ADDRESS, SHIPPING_ADDRESSو DEVICE المتغيرات ذات الصلة مهمة في الكشف عن الاحتيال.

سبب آخر محتمل هو أن بعض المتغيرات الخاصة بك تحتوي على عدد كبير جدًا من القيم المفقودة. لمعرفة ما إذا كان هذا يحدث ، تحقق من رسائل التدريب النموذجية والرجوع إليها استكشاف مشاكل بيانات التدريب وإصلاحها للاقتراحات.

المشكلات الشائعة المتعلقة بأداء الطراز العالي جدًا

في هذا القسم ، نناقش المشكلات الشائعة المتعلقة بأداء الطراز العالي جدًا.

تسرب التسمية

يحدث تسرب الملصقات عندما تستخدم مجموعات بيانات التدريب معلومات لا يُتوقع توفرها في وقت التنبؤ. إنه يبالغ في تقدير فائدة النموذج عند تشغيله في بيئة إنتاج.

يمكن أن يكون ارتفاع AUC (قريب من 1) ، وتوزيع درجات منفصل تمامًا ، وأهمية متغيرة أعلى بكثير لمتغير واحد مؤشرات على مشكلات تسرب الملصق المحتملة. يمكنك أيضًا التحقق من الارتباط بين الميزات والتسمية باستخدام منشئ البيانات. ارتباط الميزة والتسمية يظهر الرسم الارتباط بين كل ميزة والتسمية. إذا كانت إحدى الميزات لها ارتباط يزيد عن 0.99 مع الملصق ، فيجب عليك التحقق مما إذا كانت الميزة مستخدمة بشكل صحيح بناءً على أحكام العمل. على سبيل المثال ، لبناء نموذج مخاطر للموافقة على طلب قرض أو رفضه ، يجب ألا تستخدم ميزات مثل AMOUNT_PAIDلأن المدفوعات تتم بعد عملية الاكتتاب. إذا لم يكن المتغير متاحًا في الوقت الذي تقوم فيه بالتنبؤ ، فيجب عليك إزالة هذا المتغير من تكوين النموذج وإعادة تدريب نموذج جديد.

يوضح المثال التالي الارتباط بين كل متغير وتسمية. investigation_status له ارتباط كبير (قريب من 1) مع الملصق ، لذا يجب عليك التحقق جيدًا مما إذا كانت هناك مشكلة تسرب الملصق.

أنماط الاحتيال البسيطة

عندما تكون أنماط الاحتيال في بياناتك بسيطة ، فقد تلاحظ أيضًا أداء نموذجًا عاليًا جدًا. على سبيل المثال ، افترض أن جميع أحداث الاحتيال في بيانات النمذجة تأتي من خلال نفس مزود الخدمة الداخلية ؛ من السهل على النموذج اختيار IP-المتغيرات ذات الصلة وإرجاع نموذج "مثالي" مع أهمية عالية IP.

لا تشير أنماط الاحتيال البسيطة دائمًا إلى وجود مشكلة في البيانات. قد يكون صحيحًا أن طريقة عمل الاحتيال في عملك يسهل التعرف عليها. ومع ذلك ، قبل التوصل إلى استنتاج ، تحتاج إلى التأكد من دقة الملصقات المستخدمة في تدريب النموذج ، وأن بيانات النمذجة تغطي أكبر عدد ممكن من أنماط الاحتيال. على سبيل المثال ، إذا قمت بتسمية أحداث الاحتيال الخاصة بك بناءً على القواعد ، مثل تصنيف جميع التطبيقات من ملف BILLING_ZIP المزيد PRODUCT_CATEGORY كاحتيال ، يمكن للنموذج بسهولة اكتشاف عمليات الاحتيال هذه عن طريق محاكاة القواعد وتحقيق مستوى مرتفع من AUC.

يمكنك التحقق من توزيع الملصقات عبر فئات أو سلال مختلفة لكل ميزة باستخدام منشئ البيانات. على سبيل المثال ، إذا لاحظت أن معظم أحداث الاحتيال تأتي من فئة واحدة أو عدة فئات من المنتجات ، فقد يكون هذا مؤشرًا على أنماط احتيال بسيطة ، وتحتاج إلى تأكيد أنها ليست خطأ في جمع البيانات أو العملية. إذا كانت الميزة مثل CUSTOMER_ID، يجب استبعاد الميزة في تدريب النموذج.

يوضح المثال التالي توزيع التسمية عبر فئات مختلفة من product_category. كل الاحتيال يأتي من فئتين من المنتجات.

أخذ عينات البيانات غير الصحيحة

قد يحدث أخذ عينات بيانات غير لائق عند أخذ عينات وإرسال جزء فقط من بياناتك إلى Amazon Fraud Detector. إذا لم يتم أخذ عينات من البيانات بشكل صحيح ولا تمثل حركة المرور في الإنتاج ، فسيكون أداء النموذج المبلغ عنه غير دقيق وقد يكون النموذج عديم الفائدة لتنبؤ الإنتاج. على سبيل المثال ، إذا تم أخذ عينات من جميع أحداث الاحتيال في بيانات النمذجة من آسيا وتم أخذ عينات من جميع الأحداث الشرعية من الولايات المتحدة ، فقد يتعلم النموذج الفصل بين الاحتيال والشرعي استنادًا إلى BILLING_COUNTRY. في هذه الحالة ، لا يكون النموذج عامًا ليتم تطبيقه على مجموعات سكانية أخرى.

عادة ، نقترح إرسال جميع الأحداث الأخيرة دون أخذ عينات. استنادًا إلى حجم البيانات ومعدل الاحتيال ، تقوم Amazon Fraud Detector بأخذ العينات قبل تدريب النموذج نيابة عنك. إذا كانت بياناتك كبيرة جدًا (أكثر من 100 جيجابايت) وقررت أخذ عينة وإرسال مجموعة فرعية فقط ، فيجب عليك أخذ عينة عشوائية من بياناتك والتأكد من أن العينة تمثل المجتمع بأكمله. بالنسبة إلى TFI ، يجب عليك أخذ عينات من بياناتك حسب الكيان ، مما يعني أنه إذا تم أخذ عينات من كيان واحد ، فيجب عليك تضمين كل تاريخه حتى يتم حساب مجاميع مستوى الكيان بشكل صحيح. لاحظ أنه إذا قمت بإرسال مجموعة فرعية من البيانات إلى Amazon Fraud Detector ، فقد تكون عمليات التجميع في الوقت الفعلي أثناء الاستنتاج غير دقيقة إذا لم يتم إرسال الأحداث السابقة للكيانات.

قد يكون أخذ عينات البيانات غير اللائق الآخر هو استخدام فترة قصيرة من البيانات ، مثل بيانات يوم واحد ، لبناء النموذج. قد تكون البيانات متحيزة ، خاصة إذا كان عملك أو هجمات الاحتيال موسمية. نوصي عادةً بتضمين دورتين على الأقل (مثل أسبوعين أو شهرين) من البيانات في النمذجة لضمان تنوع أنواع الاحتيال.

وفي الختام

بعد تشخيص جميع المشكلات المحتملة وحلها ، يجب أن تحصل على نموذج Amazon Fraud Detector وتكون واثقًا من أدائه. للخطوة التالية ، أنت يمكن إنشاء كاشف مع النموذج وقواعد عملك، وكن جاهزًا لنشره في الإنتاج لتقييم وضع الظل.

الزائدة الدودية

كيفية استبعاد المتغيرات لتدريب النموذج

بعد الغوص العميق ، قد تحدد معلومات هدف التسرب المتغير ، وتريد استبعادها من تدريب النموذج. يمكنك إعادة تدريب إصدار نموذج باستثناء المتغيرات التي لا تريدها من خلال إكمال الخطوات التالية:

في وحدة تحكم Amazon Fraud Detector ، في جزء التنقل ، اختر الموديلات .
على الموديلات الصفحة ، اختر النموذج الذي تريد إعادة تدريبه.
على الإجراءات القائمة، اختر تدريب الإصدار الجديد.
حدد النطاق الزمني الذي تريد استخدامه واختره التالى.
على تكوين التدريب الصفحة ، قم بإلغاء تحديد المتغير الذي لا تريد استخدامه في تدريب النموذج.
حدد ملصقات الاحتيال والتسميات الشرعية وكيف تريد من Amazon Fraud Detector استخدام الأحداث غير المسماة ، ثم اختر التالى.
راجع تكوين النموذج واختر إنشاء وتدريب النموذج.

كيفية تغيير نوع متغير الحدث

تمثل المتغيرات عناصر البيانات المستخدمة في منع الاحتيال. في Amazon Fraud Detector ، تكون جميع المتغيرات عامة وتتم مشاركتها عبر جميع الأحداث والنماذج ، مما يعني أنه يمكن استخدام متغير واحد في أحداث متعددة. على سبيل المثال ، يمكن ربط عنوان IP بأحداث تسجيل الدخول ، ويمكن أيضًا ربطه بأحداث المعاملات. من الطبيعي أن يقوم Amazon Fraud Detector بإغلاق نوع المتغير ونوع البيانات بمجرد إنشاء متغير. لحذف متغير موجود ، تحتاج أولاً إلى حذف جميع أنواع الأحداث والنماذج المرتبطة. يمكنك التحقق من الموارد المرتبطة بالمتغير المحدد بالانتقال إلى Amazon Fraud Detector بالاختيار المتغيرات في جزء التنقل ، واختيار اسم المتغير و الموارد المرتبطة.

احذف المتغير وجميع أنواع الأحداث المرتبطة

لحذف المتغير ، أكمل الخطوات التالية:

في وحدة تحكم Amazon Fraud Detector ، في جزء التنقل ، اختر المتغيرات.
اختر المتغير الذي تريد حذفه.
اختار الموارد المرتبطة لعرض قائمة بجميع أنواع الأحداث التي استخدمت هذا المتغير.
تحتاج إلى حذف أنواع الأحداث المرتبطة قبل حذف المتغير.
اختر أنواع الأحداث في القائمة للانتقال إلى صفحة نوع الحدث المرتبط.
اختار الأحداث المخزنة للتحقق من تخزين أي بيانات ضمن هذا النوع من الأحداث.
إذا كانت هناك أحداث مخزنة في Amazon Fraud Detector ، فاختر حذف الأحداث المخزنة لحذف الأحداث المخزنة.
عند اكتمال مهمة الحذف ، تظهر الرسالة "تم حذف الأحداث المخزنة لهذا النوع من الأحداث بنجاح".
اختار الموارد المرتبطة.
إذا كانت أجهزة الكشف والنماذج مرتبطة بهذا النوع من الأحداث ، فستحتاج إلى حذف هذه الموارد أولاً.
إذا كانت أجهزة الكشف مرتبطة ، فأكمل الخطوات التالية لحذف جميع أجهزة الكشف المرتبطة:
1. اختر الكاشف للذهاب إلى تفاصيل الكاشف .
2. في مجلة إصدارات النموذج ، اختر إصدار الكاشف.
3. في صفحة إصدار الكاشف ، اختر الإجراءات.
4. إذا كان إصدار الكاشف نشطًا ، فاختر عطل، اختر قم بإلغاء تنشيط إصدار الكاشف هذا دون استبداله بإصدار مختلف، و اختار قم بإلغاء تنشيط إصدار الكاشف.
5. بعد إلغاء تنشيط إصدار الكاشف ، اختر الإجراءات وثم حذف.
6. كرر هذه الخطوات لحذف جميع إصدارات الكاشف.
7. على تفاصيل الكاشف الصفحة ، اختر القواعد المرتبطة.
8. اختر القاعدة المراد حذفها.
9. اختار الإجراءات و حذف نسخة القاعدة.
10. أدخل اسم القاعدة للتأكيد والاختيار حذف النسخة.
11. كرر هذه الخطوات لحذف جميع القواعد المرتبطة.
12. بعد حذف جميع إصدارات الكاشف والقواعد المرتبطة بها ، انتقل إلى تفاصيل الكاشف الصفحة ، اختر الإجراءات، و اختار حذف الكاشف.
13. أدخل اسم الكاشف واختر حذف الكاشف.
14. كرر هذه الخطوات لحذف الكاشف التالي.
في حالة ارتباط أي نماذج بنوع الحدث ، أكمل الخطوات التالية لحذفها:
1. اختر اسم النموذج.
2. في مجلة إصدارات النموذج جزء ، اختر الإصدار.
3. إذا كانت حالة النموذج هي Active، اختر الإجراءات و إلغاء نشر الإصدار النموذجي.
4. أدخل undeploy للتأكيد والاختيار إلغاء نشر الإصدار النموذجي.
  يتغير الوضع إلى Undeploying. تستغرق العملية بضع دقائق حتى تكتمل.
5. بعد أن يصبح الوضع Ready to deploy، اختر الإجراءات وحذف.
6. كرر هذه الخطوات لحذف جميع إصدارات الطراز.
7. في صفحة تفاصيل النموذج ، اختر الإجراءات وحذف النموذج.
8. أدخل اسم النموذج واختر حذف النموذج.
9. كرر هذه الخطوات لحذف النموذج التالي.
بعد حذف جميع أجهزة الكشف والنماذج المرتبطة ، اختر الإجراءات و حذف نوع الحدث على تفاصيل الحدث .
أدخل اسم نوع الحدث واختر حذف نوع الحدث.
في جزء التنقل ، اختر المتغيرات، واختر المتغير الذي تريد حذفه.
كرر الخطوات السابقة لحذف جميع أنواع الأحداث المرتبطة بالمتغير.
على تفاصيل متغيرة الصفحة ، اختر الإجراءات و حذف.
أدخل اسم المتغير واختر حذف المتغير.

قم بإنشاء متغير جديد بنوع المتغير الصحيح

بعد حذف المتغير وجميع أنواع الأحداث المرتبطة والأحداث والنماذج وأجهزة الكشف من Amazon Fraud Detector ، يمكنك إنشاء متغير جديد بنفس الاسم وتعيينه إلى نوع المتغير الصحيح.

في وحدة تحكم Amazon Fraud Detector ، في جزء التنقل ، اختر المتغيرات.
اختار إنشاء.
أدخل اسم المتغير الذي تريد تعديله (الاسم الذي حذفته سابقًا).
حدد نوع المتغير الصحيح الذي تريد التغيير إليه.
اختار إنشاء متغير.

تحميل البيانات وإعادة تدريب النموذج

بعد تحديث نوع المتغير ، يمكنك تحميل البيانات مرة أخرى وتدريب نموذج جديد. للحصول على تعليمات ، راجع اكتشف الاحتيال في المعاملات عبر الإنترنت باستخدام ميزات Amazon Fraud Detector الجديدة.

كيفية إضافة متغيرات جديدة لنوع حدث موجود

لإضافة متغيرات جديدة لنوع الحدث الحالي ، أكمل الخطوات التالية:

أضف المتغيرات الجديدة إلى ملف CVS للتدريب السابق.
قم بتحميل ملف بيانات التدريب الجديد إلى حاوية S3. لاحظ موقع Amazon S3 لملف التدريب الخاص بك (على سبيل المثال ، s3://bucketname/path/to/some/object.csv) واسم دورك.
في وحدة تحكم Amazon Fraud Detector ، في جزء التنقل ، اختر الأحداث.
على أنواع الأحداث الصفحة ، اختر اسم نوع الحدث الذي تريد إضافة متغيرات.
على نوع الحدث صفحة التفاصيل ، اختر الإجراءات، ثم أضف المتغيرات.
تحت اختر كيفية تحديد متغيرات هذا الحدث، اختر حدد المتغيرات من مجموعة بيانات التدريب.
بالنسبة لدور IAM ، حدد دور IAM موجود أو أنشئ دورًا جديدًا للوصول إلى البيانات في Amazon S3.
في حالة موقع البيانات، أدخل موقع S3 لملف التدريب الجديد واختر تحميل.
يجب أن تظهر المتغيرات الجديدة غير الموجودة في نوع الحدث الحالي في القائمة.
اختار أضف المتغيرات.

الآن ، تمت إضافة المتغيرات الجديدة إلى نوع الحدث الحالي. إذا كنت تستخدم الأحداث المخزنة في Amazon Fraud Detector ، فإن المتغيرات الجديدة للأحداث المخزنة لا تزال مفقودة. تحتاج إلى استيراد بيانات التدريب مع المتغيرات الجديدة إلى Amazon Fraud Detector ثم إعادة تدريب إصدار نموذج جديد. عند تحميل بيانات التدريب الجديدة بنفس الشيء EVENT_ID و EVENT_TIMESTAMP، ستحل متغيرات الحدث الجديدة محل متغيرات الأحداث السابقة المخزنة في Amazon Fraud Detector.

حول المؤلف

جوليا شو هو عالم أبحاث مع Amazon Fraud Detector. إنها شغوفة بحل تحديات العملاء باستخدام تقنيات التعلم الآلي. تستمتع في أوقات فراغها بالمشي لمسافات طويلة والرسم واستكشاف المقاهي الجديدة.

هاو تشو هو عالم أبحاث مع Amazon Fraud Detector. حاصل على درجة الدكتوراه في الهندسة الكهربائية من جامعة نورث وسترن بالولايات المتحدة الأمريكية. إنه متحمس لتطبيق تقنيات التعلم الآلي لمكافحة الاحتيال وسوء المعاملة.

ابهيشيك رافي مدير أول للمنتجات في Amazon Fraud Detector. إنه متحمس للاستفادة من القدرات التقنية لبناء منتجات تسعد العملاء.

الطابع الزمني: 29 حزيران، 2022

اكثر من التعلم الآلي من AWS

التقشف يلتقي بالدقة: تدريب فعال من حيث التكلفة لنماذج GPT NeoX وPythia باستخدام AWS Trainium | خدمات الويب الأمازون

التعلم الآلي من AWS

عقدة المصدر: 1218529

الطابع الزمني: مارس 16 ،2022

تُظهر السيارات الصغيرة والمواهب الكبيرة لصانعي السياسة الكنديين قوة التعلم الآلي

الكتلة المصدر:

التعلم الآلي من AWS

عقدة المصدر: 1594996

الطابع الزمني: يوليو 26، 2022

أعاد نشره أفلاطون

التقشف يلتقي بالدقة: تدريب فعال من حيث التكلفة لنماذج GPT NeoX وPythia باستخدام AWS Trainium | خدمات الويب الأمازون

دليلك إلى AI / ML في AWS re: Invent 2022

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot

وضع العلامات السحابية للنقاط LiDAR ثلاثية الأبعاد باستخدام مستشعر Velodyne LiDAR في Amazon SageMaker Ground Truth

قم بتخصيص نتائج البحث الخاصة بك من خلال تكامل Amazon Personalize وAmazon OpenSearch Service | خدمات الويب الأمازون

معالجة المستندات بذكاء مع خدمات AWS AI: الجزء 1

MLOps على حافة الهاوية مع Amazon SageMaker Edge Manager و AWS IoT Greengrass

قم بمعالجة مستندات الرهن العقاري باستخدام معالجة المستندات الذكية باستخدام Amazon Textract و Amazon Comprehend

قم بإجراء بحث ذكي عبر رسائل البريد الإلكتروني في مساحة عمل Google الخاصة بك باستخدام موصل Gmail لـ Amazon Kendra

تتوفر الآن نماذج وخوارزميات Amazon SageMaker JumpStart عبر واجهة برمجة التطبيقات

تُظهر السيارات الصغيرة والمواهب الكبيرة لصانعي السياسة الكنديين قوة التعلم الآلي

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي