با رشد پذیرش برنامه های کاربردی آنلاین و افزایش تعداد کاربران اینترنت، کلاهبرداری دیجیتال سال به سال در حال افزایش است. ردیاب تقلب آمازون یک سرویس کاملاً مدیریت شده را ارائه می دهد تا به شما کمک کند فعالیت های آنلاین بالقوه جعلی را با استفاده از تکنیک های پیشرفته یادگیری ماشینی (ML) و بیش از 20 سال تخصص در تشخیص تقلب از آمازون شناسایی کنید.
برای کمک به شما در کشف سریعتر کلاهبرداری در موارد استفاده چندگانه، Amazon Fraud Detector مدلهای خاصی را با الگوریتمها، غنیسازیها و تغییر ویژگیهای متناسب ارائه میدهد. آموزش مدل کاملا خودکار و بدون دردسر است و می توانید دستورالعمل های موجود در آن را دنبال کنید راهنمای کاربر یا مرتبط پست های وبلاگ برای شروع. با این حال، با مدل های آموزش دیده، باید تصمیم بگیرید که آیا مدل برای استقرار آماده است یا خیر. این نیاز به دانش خاصی در ML، آمار و کشف تقلب دارد و ممکن است دانستن برخی از رویکردهای معمول مفید باشد.
این پست به شما در تشخیص عملکرد مدل و انتخاب مدل مناسب برای استقرار کمک می کند. ما معیارهای ارائهشده توسط Amazon Fraud Detector را بررسی میکنیم، به شما کمک میکنیم مشکلات احتمالی را تشخیص دهید، و پیشنهادهایی برای بهبود عملکرد مدل ارائه میکنیم. این رویکردها برای هر دو الگوی مدل Insights Fraud Insights (OFI) و Transaction Fraud Insights (TFI) قابل اجرا هستند.
بررسی اجمالی راه حل
این پست یک فرآیند پایان به انتها برای تشخیص عملکرد مدل شما ارائه می دهد. ابتدا تمام معیارهای مدل نشان داده شده در کنسول آمازون Fraud Detector، از جمله AUC، توزیع امتیاز، ماتریس سردرگمی، منحنی ROC و اهمیت متغیر مدل را معرفی میکند. سپس یک رویکرد سه مرحلهای برای تشخیص عملکرد مدل با استفاده از معیارهای مختلف ارائه میکنیم. در نهایت، ما پیشنهاداتی برای بهبود عملکرد مدل برای مسائل معمولی ارائه می دهیم.
پیش نیازها
قبل از غواصی عمیق در مدل آشکارساز تقلب آمازون، باید پیش نیازهای زیر را تکمیل کنید:
- یک حساب AWS ایجاد کنید.
- یک مجموعه داده رویداد ایجاد کنید برای آموزش مدل
- داده های خود را آپلود کنید به سرویس ذخیره سازی ساده آمازون (Amazon S3) یا داده های رویداد خود را در ردیاب تقلب آمازون وارد کنید.
- یک مدل آشکارساز تقلب آمازون بسازید.
معیارهای مدل را تفسیر کنید
پس از تکمیل آموزش مدل، ردیاب تقلب آمازون مدل شما را با استفاده از بخشی از داده های مدل سازی که در آموزش مدل استفاده نشده است، ارزیابی می کند. معیارهای ارزیابی را بر می گرداند نسخه مدل صفحه برای آن مدل این معیارها عملکرد مدلی را منعکس میکنند که میتوانید روی دادههای واقعی پس از استقرار در تولید انتظار داشته باشید.
اسکرین شات زیر نمونه عملکرد مدلی را نشان می دهد که توسط Amazon Fraud Detector بازگردانده شده است. شما می توانید آستانه های مختلفی را در توزیع امتیاز انتخاب کنید (چپ)، و ماتریس سردرگمی (راست) بر این اساس به روز می شود.
می توانید از یافته های زیر برای بررسی عملکرد و تصمیم گیری در مورد قوانین استراتژی استفاده کنید:
- AUC (منطقه زیر منحنی) - عملکرد کلی این مدل مدلی با AUC 0.50 بهتر از چرخاندن سکه نیست زیرا نشان دهنده شانس تصادفی است، در حالی که یک مدل "کامل" امتیاز 1.0 خواهد داشت. هرچه AUC بالاتر باشد، مدل شما بهتر می تواند بین تقلب ها و موارد قانونی تمایز قائل شود.
- توزیع امتیاز - هیستوگرام توزیع امتیاز مدل با فرض جمعیت نمونه 100,000 رویداد. ردیاب تقلب آمازون امتیازهای مدل را بین 0 تا 1000 ایجاد می کند، که هر چه امتیاز کمتر باشد، خطر تقلب کمتر است. تفکیک بهتر بین جمعیت مشروع (سبز) و کلاهبردار (آبی) معمولاً نشان دهنده یک مدل بهتر است. برای جزئیات بیشتر، نگاه کنید نمرات مدل.
- ماتریس سردرگمی - جدولی که عملکرد مدل را برای آستانه امتیاز انتخاب شده، از جمله مثبت واقعی، منفی واقعی، مثبت کاذب، منفی کاذب، نرخ مثبت واقعی (TPR) و نرخ مثبت کاذب (FPR) توصیف می کند. شمارش روی جدول یک جمعیت نمونه 100,0000 رویدادی را در نظر می گیرد. برای جزئیات بیشتر، نگاه کنید معیارهای عملکرد مدل.
- منحنی ROC (ویژگی اپراتور گیرنده). - نموداری که توانایی تشخیصی مدل را نشان می دهد، همانطور که در تصویر زیر نشان داده شده است. نرخ مثبت واقعی را به عنوان تابعی از نرخ مثبت کاذب بر روی تمام آستانه های امتیاز مدل ممکن ترسیم می کند. با انتخاب این نمودار را مشاهده کنید سنجه های پیشرفته. اگر چندین نسخه از یک مدل را آموزش داده اید، می توانید آستانه های مختلف FPR را برای بررسی تغییر عملکرد انتخاب کنید.
- اهمیت متغیر مدل – رتبه متغیرهای مدل بر اساس سهم آنها در مدل تولید شده، همانطور که در تصویر زیر نشان داده شده است. متغیر مدل با بالاترین مقدار نسبت به سایر متغیرهای مدل موجود در مجموعه داده آن نسخه مدل برای مدل مهمتر است و به طور پیش فرض در بالا فهرست شده است. برای جزئیات بیشتر، نگاه کنید اهمیت متغیر مدل.
تشخیص عملکرد مدل
قبل از استقرار مدل خود در تولید، باید از معیارهایی استفاده کنید که آشکارساز تقلب آمازون بازگشته است تا عملکرد مدل را درک کرده و مشکلات احتمالی را تشخیص دهید. مشکلات رایج مدل های ML را می توان به دو دسته اصلی تقسیم کرد: مسائل مربوط به داده ها و مسائل مربوط به مدل. ردیاب تقلب آمازون با استفاده دقیق از مجموعه های تست و اعتبارسنجی برای ارزیابی و تنظیم مدل شما در باطن، از مسائل مربوط به مدل مراقبت کرده است. برای تأیید اینکه آیا مدل شما آماده استقرار است یا مشکلات احتمالی مرتبط با داده دارد، می توانید مراحل زیر را تکمیل کنید:
- عملکرد کلی مدل (AUC و توزیع امتیاز) را بررسی کنید.
- الزامات کسب و کار (ماتریس سردرگمی و جدول) را مرور کنید.
- اهمیت متغیر مدل را بررسی کنید.
عملکرد کلی مدل را بررسی کنید: AUC و توزیع امتیاز
پیشبینی دقیقتر رویدادهای آینده همیشه هدف اصلی یک مدل پیشبینی است. AUC بازگردانده شده توسط آمازون Fraud Detector بر روی یک مجموعه تست نمونه برداری شده به درستی محاسبه می شود که در آموزش استفاده نشده است. به طور کلی مدلی با AUC بیشتر از 0.9 مدل خوبی محسوب می شود.
اگر مدلی را با عملکرد کمتر از 0.8 مشاهده کردید، معمولاً به این معنی است که مدل فضایی برای بهبود دارد (ما در ادامه این پست در مورد مسائل رایج برای عملکرد پایین مدل صحبت خواهیم کرد). توجه داشته باشید که تعریف عملکرد "خوب" به شدت به کسب و کار شما و مدل پایه بستگی دارد. حتی اگر AUC آن بیشتر از 0.8 باشد، همچنان میتوانید مراحل این پست را برای بهبود مدل آشکارساز تقلب آمازون دنبال کنید.
از سوی دیگر، اگر AUC بیش از 0.99 باشد، به این معنی است که مدل تقریباً می تواند تقلب و رویدادهای مشروع را در مجموعه آزمایشی جدا کند. این گاهی اوقات یک سناریوی "بیش از حد خوب برای واقعی بودن" است (ما در ادامه این پست در مورد مسائل رایج برای عملکرد مدل بسیار بالا صحبت می کنیم).
علاوه بر AUC کلی، توزیع امتیاز همچنین میتواند به شما بگوید که مدل چقدر مناسب است. در حالت ایدهآل، شما باید بخش عمدهای از مشروعیت و تقلب را در دو سر مقیاس ببینید، که نشان میدهد نمره مدل میتواند بهطور دقیق رویدادها را در مجموعه آزمون رتبهبندی کند.
در مثال زیر، توزیع امتیاز دارای AUC 0.96 است.
اگر توزیع قانونی و تقلبی با هم تداخل دارند یا در مرکز متمرکز شدهاند، احتمالاً به این معنی است که مدل در تشخیص رویدادهای تقلب از رویدادهای قانونی خوب عمل نمیکند، که ممکن است نشاندهنده تغییر توزیع دادههای تاریخی باشد یا اینکه به دادهها یا ویژگیهای بیشتری نیاز دارید.
در زیر نمونه ای از توزیع امتیاز با AUC 0.64 است.
اگر بتوانید نقطه تقسیمی را بیابید که تقریباً می تواند تقلب و رویدادهای مشروع را به طور کامل تقسیم کند، احتمال زیادی وجود دارد که مدل مشکل نشت برچسب داشته باشد یا الگوهای تقلب بسیار آسان تشخیص داده شوند، که باید توجه شما را جلب کند.
در مثال زیر، توزیع امتیاز دارای AUC 1.0 است.
بررسی الزامات کسب و کار: ماتریس و جدول سردرگمی
اگرچه AUC یک شاخص مناسب برای عملکرد مدل است، اما ممکن است مستقیماً به نیازهای تجاری شما ترجمه نشود. ردیاب تقلب آمازون همچنین معیارهایی مانند نرخ جذب کلاهبرداری (نرخ مثبت واقعی)، درصد رویدادهای قانونی که به اشتباه به عنوان تقلب پیشبینی شدهاند (نرخ مثبت کاذب) و موارد دیگر را ارائه میدهد که معمولاً به عنوان الزامات تجاری استفاده میشوند. پس از آموزش مدلی با AUC نسبتاً خوب، باید مدل را با نیازهای تجاری خود با آن معیارها مقایسه کنید.
ماتریس و جدول سردرگمی یک رابط برای بررسی تأثیر و بررسی اینکه آیا نیازهای کسب و کار شما را برآورده می کند در اختیار شما قرار می دهد. توجه داشته باشید که اعداد به آستانه مدل بستگی دارد، جایی که رویدادهایی با امتیازهای بزرگتر از آستانه به عنوان تقلب و رویدادهایی با امتیاز کمتر از آستانه به عنوان قانونی طبقه بندی می شوند. بسته به نیازهای کسب و کار خود می توانید انتخاب کنید از کدام آستانه استفاده کنید.
به عنوان مثال، اگر هدف شما این است که 73٪ از کلاهبرداری ها را به دست آورید، پس (همانطور که در مثال زیر نشان داده شده است) می توانید آستانه ای مانند 855 را انتخاب کنید که به شما امکان می دهد تا 73٪ از کل کلاهبرداری ها را بدست آورید. با این حال، این مدل همچنین 3٪ رویدادهای مشروع را به اشتباه طبقهبندی میکند تا تقلب باشد. اگر این FPR برای کسب و کار شما قابل قبول است، پس مدل برای استقرار مناسب است. در غیر این صورت، باید عملکرد مدل را بهبود بخشید.
مثال دیگر این است که اگر هزینه مسدود کردن یا به چالش کشیدن یک مشتری قانونی بسیار بالا باشد، پس شما یک FPR پایین و دقت بالا می خواهید. در این صورت، همانطور که در مثال زیر نشان داده شده است، می توانید آستانه 950 را انتخاب کنید، که 1٪ از مشتریان قانونی را به عنوان کلاهبرداری طبقه بندی نمی کند و 80٪ از کلاهبرداری شناسایی شده در واقع کلاهبرداری خواهد بود.
علاوه بر این، میتوانید آستانههای متعددی را انتخاب کنید و نتایج متفاوتی مانند مسدود کردن، بررسی، پاس کردن را تعیین کنید. اگر نمی توانید آستانه ها و قوانین مناسبی را بیابید که تمام نیازهای تجاری شما را برآورده کند، باید مدل خود را با داده ها و ویژگی های بیشتر آموزش دهید.
اهمیت متغیر مدل را بررسی کنید
La اهمیت متغیر مدل صفحه نشان می دهد که هر متغیر چگونه به مدل شما کمک می کند. اگر یک متغیر دارای ارزش قابل توجهی بالاتر از سایرین باشد، ممکن است نشان دهنده نشت برچسب یا تشخیص الگوهای تقلب باشد. توجه داشته باشید که اهمیت متغیر به متغیرهای ورودی شما تجمیع می شود. اگر اهمیت کمی بالاتر از IP_ADDRESS
, CARD_BIN
, EMAIL_ADDRESS
, PHONE_NUMBER
, BILLING_ZIP
، یا SHIPPING_ZIP
، ممکن است به دلیل قدرت غنی سازی باشد.
مثال زیر اهمیت متغیر مدل را با استفاده از نشت برچسب بالقوه نشان می دهد investigation_status
.
اهمیت متغیر مدل همچنین به شما نکاتی را در مورد اینکه چه متغیرهای اضافی به طور بالقوه می توانند به مدل کمک کنند، می دهد. برای مثال، اگر مشاهده کردید که AUC پایین است و ویژگیهای مربوط به فروشنده اهمیت بالایی نشان میدهند، ممکن است به جمعآوری ویژگیهای سفارش بیشتر فکر کنید. SELLER_CATEGORY
, SELLER_ADDRESS
و SELLER_ACTIVE_YEARS
و آن متغیرها را به مدل خود اضافه کنید.
مشکلات رایج برای عملکرد پایین مدل
در این بخش، مسائل رایجی را که ممکن است در رابطه با عملکرد پایین مدل با آن مواجه شوید، مورد بحث قرار می دهیم.
توزیع داده های تاریخی تغییر کرد
جابجایی توزیع دادههای تاریخی زمانی اتفاق میافتد که یک تغییر تجاری بزرگ یا مشکل جمعآوری دادهها داشته باشید. برای مثال، اگر اخیراً محصول خود را در بازار جدیدی عرضه کردهاید، IP_ADDRESS
, EMAIL
و ADDRESS
ویژگیهای مرتبط میتواند کاملاً متفاوت باشد، و روش عملیات کلاهبرداری نیز میتواند تغییر کند. استفاده از آشکارساز تقلب آمازون EVENT_TIMESTAMP
برای تقسیم داده ها و ارزیابی مدل خود بر روی زیر مجموعه مناسب از رویدادها در مجموعه داده شما. اگر توزیع داده های تاریخی شما به طور قابل توجهی تغییر کند، مجموعه ارزیابی می تواند بسیار متفاوت از داده های آموزشی باشد و عملکرد مدل گزارش شده ممکن است پایین باشد.
می توانید با کاوش در داده های تاریخی خود، مشکل احتمالی تغییر توزیع داده را بررسی کنید:
- استفاده از نمایهگر دادههای آشکارساز تقلب آمازون ابزاری برای بررسی اینکه آیا نرخ تقلب و نرخ گمشده برچسب در طول زمان تغییر کرده است یا خیر.
- بررسی کنید که آیا توزیع متغیر در طول زمان به طور قابل توجهی تغییر کرده است، به خصوص برای ویژگی هایی با اهمیت متغیر بالا.
- توزیع متغیر در طول زمان را بر اساس متغیرهای هدف بررسی کنید. اگر در دادههای اخیر رویدادهای کلاهبرداری بیشتری را از یک دسته مشاهده کردید، ممکن است بخواهید بررسی کنید که آیا این تغییر با استفاده از قضاوتهای تجاری شما معقول است یا خیر.
اگر متوجه شدید که نرخ گم شدن برچسب بسیار زیاد است یا نرخ تقلب به طور مداوم در آخرین تاریخها کاهش یافته است، ممکن است نشاندهنده بلوغ کامل برچسبها باشد. باید جدیدترین دادهها را حذف کنید یا برای جمعآوری برچسبهای دقیق صبر کنید و سپس مدل خود را دوباره آموزش دهید.
اگر در تاریخهای خاص شاهد افزایش شدید نرخ تقلب و متغیرها هستید، ممکن است بخواهید دوباره بررسی کنید که آیا این یک مشکل دور از دسترس یا جمعآوری داده است. در این صورت، باید آن رویدادها را حذف کنید و مدل را دوباره آموزش دهید.
اگر متوجه شدید که دادههای قدیمی نمیتوانند تجارت فعلی و آینده شما را نشان دهند، باید دوره قدیمی دادهها را از آموزش حذف کنید. اگر از رویدادهای ذخیره شده در Amazon Fraud Detector استفاده می کنید، می توانید به سادگی یک نسخه جدید را مجدداً آموزش دهید و در حین پیکربندی کار آموزشی، محدوده تاریخ مناسب را انتخاب کنید. همچنین ممکن است نشان دهد که روش کلاهبرداری در کسب و کار شما در طول زمان نسبتاً سریع تغییر می کند. پس از استقرار مدل، ممکن است لازم باشد مدل خود را مرتباً مجدداً آموزش دهید.
نگاشت نوع متغیر نامناسب
آشکارساز تقلب آمازون داده ها را بر اساس انواع متغیرها غنی و تبدیل می کند. مهم است که متغیرهای خود را به نوع صحیح نگاشت کنید تا مدل آشکارساز تقلب آمازون بتواند حداکثر مقدار داده های شما را بگیرد. به عنوان مثال، اگر نقشه برداری کنید IP
به CATEGORICAL
به جای تایپ کنید IP_ADDRESS
، شما نمی توانید IP-
غنی سازی های مرتبط در باطن
به طور کلی، Amazon Fraud Detector اقدامات زیر را پیشنهاد می کند:
- متغیرهای خود را به انواع خاصی مانند
IP_ADDRESS
,EMAIL_ADDRESS
,CARD_BIN
وPHONE_NUMBER
، به طوری که Amazon Fraud Detector بتواند اطلاعات اضافی را استخراج و غنی کند. - اگر نمی توانید نوع متغیر خاصی را پیدا کنید، آن را به یکی از سه نوع عمومی نگاشت کنید:
NUMERIC
,CATEGORICAL
، یاFREE_FORM_TEXT
. - اگر متغیری به صورت متنی است و دارای اهمیت بالایی است، مانند بررسی مشتری یا توضیحات محصول، باید آن را به
FREE_FORM_TEXT
نوع متغیر به طوری که ردیاب تقلب آمازون ویژگی های متن و جاسازی ها را در باطن برای شما استخراج می کند. به عنوان مثال، اگر نقشه برداری کنیدurl_string
بهFREE_FORM_TEXT
، می تواند URL را نشانه گذاری کند و اطلاعات را برای تغذیه به مدل پایین دستی استخراج کند، که به آن کمک می کند الگوهای پنهان بیشتری را از URL بیاموزد.
اگر متوجه شدید که هر یک از انواع متغیر شما به اشتباه در پیکربندی متغیر نگاشت شده است، می توانید نوع متغیر خود را تغییر دهید و سپس مدل را دوباره آموزش دهید.
داده ها یا ویژگی های ناکافی
آشکارساز تقلب آمازون به حداقل 10,000 رکورد نیاز دارد تا یک مدل بینش کلاهبرداری آنلاین (OFI) یا بینش کلاهبرداری تراکنش (TFI) را آموزش دهد که حداقل 400 مورد از این سوابق به عنوان جعلی شناخته شده است. TFI همچنین مستلزم آن است که هم سوابق تقلبی و هم سوابق قانونی از حداقل 100 موجودیت مختلف برای اطمینان از تنوع مجموعه داده تهیه شود. علاوه بر این، Amazon Fraud Detector نیاز دارد که داده های مدل سازی حداقل دو متغیر داشته باشد. اینها حداقل داده های مورد نیاز برای ساخت یک مدل مفید آشکارساز تقلب آمازون هستند. با این حال، استفاده از رکوردها و متغیرهای بیشتر معمولاً به مدلهای ML کمک میکند الگوهای اساسی را از دادههای شما بهتر بیاموزند. وقتی AUC پایینی را مشاهده می کنید یا نمی توانید آستانه هایی را پیدا کنید که نیازهای تجاری شما را برآورده کند، باید مدل خود را با داده های بیشتر بازآموزی کنید یا ویژگی های جدیدی را به مدل خود اضافه کنید. معمولا، ما پیدا می کنیم EMAIL_ADDRESS
, IP
, PAYMENT_TYPE
, BILLING_ADDRESS
, SHIPPING_ADDRESS
و DEVICE
متغیرهای مرتبط در کشف تقلب مهم هستند.
دلیل احتمالی دیگر این است که برخی از متغیرهای شما حاوی مقادیر زیادی از دست رفته هستند. برای مشاهده اینکه آیا این اتفاق می افتد، پیام های آموزشی مدل را بررسی کنید و به آن مراجعه کنید عیب یابی مشکلات داده های آموزشی برای پیشنهادات
مشکلات رایج برای عملکرد مدل بسیار بالا
در این بخش، مسائل رایج مربوط به عملکرد بسیار بالا مدل را مورد بحث قرار می دهیم.
نشتی برچسب
نشت برچسب زمانی رخ می دهد که مجموعه داده های آموزشی از اطلاعاتی استفاده می کنند که انتظار نمی رود در زمان پیش بینی در دسترس باشند. هنگامی که در محیط تولید اجرا می شود، کاربرد مدل را بیش از حد برآورد می کند.
AUC بالا (نزدیک به 1)، توزیع امتیاز کاملاً مجزا، و اهمیت متغیر به طور قابل توجهی بالاتر از یک متغیر می تواند نشانگر مسائل احتمالی نشت برچسب باشد. همچنین می توانید ارتباط بین ویژگی ها و برچسب را با استفاده از آن بررسی کنید نمایه کننده داده. همبستگی ویژگی و برچسب نمودار همبستگی بین هر ویژگی و برچسب را نشان می دهد. اگر یک ویژگی بیش از 0.99 با برچسب همبستگی دارد، باید بررسی کنید که آیا این ویژگی بر اساس قضاوت های تجاری به درستی استفاده می شود یا خیر. به عنوان مثال، برای ایجاد یک مدل ریسک برای تأیید یا رد درخواست وام، نباید از ویژگی هایی مانند AMOUNT_PAID
، زیرا پرداخت ها پس از فرآیند پذیره نویسی انجام می شود. اگر متغیری در زمان پیشبینی در دسترس نیست، باید آن متغیر را از پیکربندی مدل حذف کنید و مدل جدیدی را دوباره آموزش دهید.
مثال زیر همبستگی بین هر متغیر و برچسب را نشان می دهد. investigation_status
همبستگی بالایی (نزدیک به 1) با برچسب دارد، بنابراین باید دوباره بررسی کنید که آیا مشکل نشتی برچسب وجود دارد.
الگوهای تقلب ساده
هنگامی که الگوهای تقلب در داده های شما ساده هستند، ممکن است عملکرد مدل بسیار بالایی را نیز مشاهده کنید. برای مثال، فرض کنید تمام رویدادهای تقلب در دادههای مدلسازی از طریق ارائهدهنده خدمات داخلی یکسانی انجام میشود. انتخاب مدل برای مدل ساده است IP-
متغیرهای مرتبط و مدل "کامل" با اهمیت بالا را برمی گرداند IP
.
الگوهای تقلب ساده همیشه یک مشکل داده را نشان نمی دهد. این می تواند درست باشد که روش های کلاهبرداری در کسب و کار شما به راحتی قابل درک است. با این حال، قبل از نتیجه گیری، باید مطمئن شوید که برچسب های استفاده شده در آموزش مدل دقیق هستند و داده های مدل سازی تا حد امکان الگوهای تقلب را پوشش می دهند. به عنوان مثال، اگر رویدادهای کلاهبرداری خود را بر اساس قوانین برچسب گذاری کنید، مانند برچسب زدن همه برنامه ها از یک برنامه خاص BILLING_ZIP
به علاوه PRODUCT_CATEGORY
به عنوان تقلب، مدل به راحتی می تواند با شبیه سازی قوانین و دستیابی به AUC بالا، آن تقلب ها را تشخیص دهد.
با استفاده از نمایه کننده داده. به عنوان مثال، اگر مشاهده کردید که بیشتر رویدادهای کلاهبرداری از یک یا چند دسته محصول می آیند، ممکن است نشانگر الگوهای تقلب ساده باشد، و باید تأیید کنید که این یک اشتباه در جمع آوری داده یا فرآیند نیست. اگر ویژگی مانند است CUSTOMER_ID
، باید ویژگی را در آموزش مدل حذف کنید.
مثال زیر توزیع برچسب را در دستههای مختلف نشان میدهد product_category
. همه تقلب ها از دو دسته محصول می آیند.
نمونه گیری نادرست داده ها
نمونهگیری نادرست داده ممکن است زمانی اتفاق بیفتد که شما نمونهبرداری کردهاید و فقط بخشی از دادههای خود را به ردیاب تقلب آمازون ارسال کردهاید. اگر داده ها به درستی نمونه برداری نشوند و معرف ترافیک در تولید نباشند، عملکرد مدل گزارش شده نادرست خواهد بود و مدل ممکن است برای پیش بینی تولید بی فایده باشد. برای مثال، اگر تمام رویدادهای تقلب در دادههای مدلسازی از آسیا و همه رویدادهای قانونی از ایالات متحده نمونهبرداری شوند، مدل ممکن است یاد بگیرد که تقلب و قانون را بر اساس BILLING_COUNTRY
. در آن صورت، مدل عمومی نیست تا برای سایر جمعیت ها اعمال شود.
معمولاً پیشنهاد می کنیم تمام آخرین رویدادها را بدون نمونه برداری ارسال کنید. بر اساس اندازه داده ها و نرخ تقلب، ردیاب تقلب آمازون نمونه برداری را قبل از آموزش مدل برای شما انجام می دهد. اگر دادههای شما بیش از حد بزرگ است (بیش از 100 گیگابایت) و تصمیم به نمونهگیری و ارسال فقط یک زیرمجموعه دارید، باید بهطور تصادفی از دادههای خود نمونه برداری کنید و مطمئن شوید که نمونه نماینده کل جامعه است. برای TFI، باید داده های خود را بر اساس نهاد نمونه برداری کنید، به این معنی که اگر یک نهاد نمونه برداری می شود، باید تمام تاریخچه آن را وارد کنید تا مجموع های سطح موجودیت به درستی محاسبه شوند. توجه داشته باشید که اگر فقط زیرمجموعهای از دادهها را به Amazon Fraud Detector ارسال کنید، اگر رویدادهای قبلی موجودیتها ارسال نشود، ممکن است مجموعهای بیدرنگ در طول استنتاج نادرست باشند.
نمونهگیری نادرست دیگر داده میتواند تنها استفاده از یک دوره کوتاه داده، مانند دادههای یک روزه، برای ساخت مدل باشد. داده ها ممکن است مغرضانه باشد، به خصوص اگر حملات تجاری یا کلاهبرداری شما فصلی باشد. ما معمولاً توصیه میکنیم حداقل دو چرخه (مانند 2 هفته یا 2 ماه) داده در مدلسازی گنجانده شود تا از تنوع انواع تقلب اطمینان حاصل شود.
نتیجه
پس از تشخیص و حل همه مشکلات احتمالی، باید یک مدل مفید آشکارساز تقلب آمازون دریافت کنید و از عملکرد آن مطمئن باشید. برای مرحله بعدی، شما می توانید یک آشکارساز با مدل و قوانین کسب و کار خود ایجاد کنیدو آماده استقرار آن در تولید برای ارزیابی حالت سایه باشید.
ضمیمه
نحوه حذف متغیرها برای آموزش مدل
پس از غواصی عمیق، ممکن است اطلاعات هدف نشت متغیر را شناسایی کنید و بخواهید آن را از آموزش مدل حذف کنید. با انجام مراحل زیر میتوانید یک نسخه مدل را به استثنای متغیرهایی که نمیخواهید دوباره آموزش دهید:
- در کنسول آمازون Fraud Detector، در قسمت ناوبری، را انتخاب کنید مدل.
- بر مدل صفحه، مدلی را که می خواهید دوباره آموزش دهید انتخاب کنید.
- بر اعمال منو ، انتخاب کنید آموزش نسخه جدید.
- محدوده تاریخی مورد نظر برای استفاده را انتخاب کنید و انتخاب کنید بعدی.
- بر آموزش را پیکربندی کنید در صفحه، متغیری را که نمی خواهید در آموزش مدل استفاده کنید، از حالت انتخاب خارج کنید.
- برچسبهای تقلب و برچسبهای قانونی خود را مشخص کنید و اینکه چگونه میخواهید Amazon Fraud Detector از رویدادهای بدون برچسب استفاده کند، سپس انتخاب کنید بعدی.
- پیکربندی مدل را بررسی کرده و انتخاب کنید ایجاد و آموزش مدل.
نحوه تغییر نوع متغیر رویداد
متغیرها عناصر داده مورد استفاده در پیشگیری از تقلب را نشان می دهند. در Amazon Fraud Detector، همه متغیرها جهانی هستند و در همه رویدادها و مدل ها به اشتراک گذاشته می شوند، به این معنی که یک متغیر می تواند در چندین رویداد استفاده شود. به عنوان مثال، IP می تواند با رویدادهای ورود به سیستم و همچنین می تواند با رویدادهای تراکنش مرتبط باشد. به طور طبیعی، ردیاب تقلب آمازون پس از ایجاد متغیر، نوع متغیر و نوع داده را قفل می کند. برای حذف یک متغیر موجود، ابتدا باید همه انواع و مدلهای رویداد مرتبط را حذف کنید. میتوانید با رفتن به Amazon Fraud Detector، منابع مرتبط با متغیر خاص را بررسی کنید متغیر در پنجره ناوبری و انتخاب نام متغیر و منابع مرتبط.
متغیر و تمام انواع رویدادهای مرتبط را حذف کنید
برای حذف متغیر، مراحل زیر را انجام دهید:
- در کنسول آمازون Fraud Detector، در قسمت ناوبری، را انتخاب کنید متغیر.
- متغیری را که می خواهید حذف کنید انتخاب کنید.
- را انتخاب کنید منابع مرتبط برای مشاهده لیستی از انواع رویدادهای مورد استفاده از این متغیر.
قبل از حذف متغیر باید انواع رویدادهای مرتبط را حذف کنید. - برای رفتن به صفحه نوع رویداد مرتبط، انواع رویداد را در لیست انتخاب کنید.
- را انتخاب کنید رویدادهای ذخیره شده برای بررسی اینکه آیا داده ای در این نوع رویداد ذخیره شده است یا خیر.
- اگر رویدادهایی در Amazon Fraud Detector ذخیره شده است، انتخاب کنید حذف رویدادهای ذخیره شده برای حذف رویدادهای ذخیره شده
هنگامی که کار حذف کامل شد، پیام "رویدادهای ذخیره شده برای این نوع رویداد با موفقیت حذف شدند" ظاهر می شود. - را انتخاب کنید منابع مرتبط.
اگر آشکارسازها و مدلها با این نوع رویداد مرتبط هستند، ابتدا باید آن منابع را حذف کنید. - اگر آشکارسازها مرتبط هستند، مراحل زیر را برای حذف همه آشکارسازهای مرتبط انجام دهید:
- آشکارساز را برای رفتن به آن انتخاب کنید جزئیات آشکارساز احتمال برد مراجعه کنید.
- در نسخه های مدل در پنجره، نسخه آشکارساز را انتخاب کنید.
- در صفحه نسخه آشکارساز، را انتخاب کنید اعمال.
- اگر نسخه آشکارساز فعال است، را انتخاب کنید از کار انداختن، انتخاب کنید این نسخه آشکارساز را بدون جایگزین کردن آن با نسخه دیگری غیرفعال کنید، و انتخاب کنید نسخه آشکارساز را غیرفعال کنید.
- پس از غیرفعال شدن نسخه آشکارساز، را انتخاب کنید اعمال و پس از آن حذف.
- این مراحل را تکرار کنید تا همه نسخه های آشکارساز حذف شوند.
- بر جزئیات آشکارساز صفحه ، انتخاب کنید قوانین مرتبط.
- قانون حذف را انتخاب کنید.
- را انتخاب کنید اعمال و نسخه قانون را حذف کنید.
- نام قانون را برای تایید و انتخاب وارد کنید نسخه را حذف کنید.
- این مراحل را برای حذف همه قوانین مرتبط تکرار کنید.
- پس از حذف تمام نسخههای آشکارساز و قوانین مرتبط، به جزئیات آشکارساز صفحه ، انتخاب کنید اعمال، و انتخاب کنید آشکارساز را حذف کنید.
- نام آشکارساز را وارد کرده و انتخاب کنید آشکارساز را حذف کنید.
- این مراحل را برای حذف آشکارساز بعدی تکرار کنید.
- اگر هر مدلی با نوع رویداد مرتبط است، مراحل زیر را برای حذف آنها انجام دهید:
- نام مدل را انتخاب کنید.
- در نسخه های مدل پنجره، نسخه را انتخاب کنید.
- اگر وضعیت مدل باشد
Active
، انتخاب کنید اعمال و Undeploy نسخه مدل. - وارد
undeploy
برای تایید و انتخاب Undeploy نسخه مدل.
وضعیت تغییر می کندUndeploying
. این فرآیند چند دقیقه طول می کشد تا کامل شود. - بعد از اینکه وضعیت شد
Ready to deploy
، Actions و Delete را انتخاب کنید. - این مراحل را برای حذف تمام نسخه های مدل تکرار کنید.
- در صفحه جزئیات مدل، Actions و Delete model را انتخاب کنید.
- نام مدل را وارد کرده و Delete model را انتخاب کنید.
- این مراحل را برای حذف مدل بعدی تکرار کنید.
- پس از حذف همه آشکارسازها و مدلهای مرتبط، انتخاب کنید اعمال و حذف نوع رویداد در جزئیات رویداد احتمال برد مراجعه کنید.
- نام نوع رویداد را وارد کرده و انتخاب کنید حذف نوع رویداد.
- در صفحه پیمایش، را انتخاب کنید متغیرو متغیری را که می خواهید حذف کنید انتخاب کنید.
- مراحل قبلی را برای حذف تمام انواع رویدادهای مرتبط با متغیر تکرار کنید.
- بر جزئیات متغیر صفحه ، انتخاب کنید اعمال و حذف.
- نام متغیر را وارد کرده و انتخاب کنید حذف متغیر.
یک متغیر جدید با نوع متغیر درست ایجاد کنید
بعد از اینکه متغیر و همه انواع رویدادهای مرتبط، رویدادهای ذخیره شده، مدلها و آشکارسازها را از Amazon Fraud Detector حذف کردید، میتوانید یک متغیر جدید به همین نام ایجاد کنید و آن را به نوع متغیر صحیح نگاشت کنید.
- در کنسول آمازون Fraud Detector، در قسمت ناوبری، را انتخاب کنید متغیر.
- را انتخاب کنید ساختن.
- نام متغیری را که میخواهید تغییر دهید (که قبلاً حذف کردهاید) وارد کنید.
- نوع متغیر صحیحی را که می خواهید به آن تغییر دهید انتخاب کنید.
- را انتخاب کنید متغیر ایجاد کنید
داده ها را آپلود کنید و مدل را دوباره آموزش دهید
پس از بهروزرسانی نوع متغیر، میتوانید دوباره دادهها را آپلود کنید و مدل جدیدی را آموزش دهید. برای دستورالعمل، مراجعه کنید با ویژگیهای جدید آشکارساز تقلب آمازون، کلاهبرداری معاملات آنلاین را شناسایی کنید.
نحوه اضافه کردن متغیرهای جدید به یک نوع رویداد موجود
برای افزودن متغیرهای جدید به نوع رویداد موجود، مراحل زیر را انجام دهید:
- متغیرهای جدید را به فایل CVS آموزش قبلی اضافه کنید.
- فایل داده آموزشی جدید را در یک سطل S3 آپلود کنید. به محل آمازون S3 فایل آموزشی خود توجه کنید (به عنوان مثال،
s3://bucketname/path/to/some/object.csv
) و نام نقش شما. - در کنسول آمازون Fraud Detector، در قسمت ناوبری، را انتخاب کنید مناسبت ها.
- بر انواع رویداد در صفحه، نام نوع رویدادی را که می خواهید متغیر اضافه کنید انتخاب کنید.
- بر نوع رویداد صفحه جزئیات، انتخاب کنید اعمال، و سپس متغیرها را اضافه کنید.
- تحت نحوه تعریف متغیرهای این رویداد را انتخاب کنید، انتخاب کنید متغیرها را از مجموعه داده آموزشی انتخاب کنید.
- برای نقش IAM، یک نقش IAM موجود را انتخاب کنید یا یک نقش جدید برای دسترسی به داده ها در Amazon S3 ایجاد کنید.
- برای مکان داده، محل S3 فایل آموزشی جدید را وارد کرده و انتخاب کنید آپلود کنید.
متغیرهای جدیدی که در نوع رویداد موجود وجود ندارند باید در لیست نشان داده شوند.
- را انتخاب کنید متغیرها را اضافه کنید.
اکنون، متغیرهای جدید به نوع رویداد موجود اضافه شده است. اگر از رویدادهای ذخیره شده در Amazon Fraud Detector استفاده می کنید، متغیرهای جدید رویدادهای ذخیره شده هنوز وجود ندارند. شما باید داده های آموزشی را با متغیرهای جدید به Amazon Fraud Detector وارد کنید و سپس یک نسخه مدل جدید را دوباره آموزش دهید. هنگام آپلود داده های آموزشی جدید با همان EVENT_ID
و EVENT_TIMESTAMP
، متغیرهای رویداد جدید، متغیرهای رویداد قبلی ذخیره شده در Amazon Fraud Detector را بازنویسی می کنند.
درباره نویسنده
جولیا شو یک دانشمند محقق با آشکارساز تقلب آمازون است. او مشتاق حل چالش های مشتری با استفاده از تکنیک های یادگیری ماشین است. او در اوقات فراغت خود از پیاده روی، نقاشی و کاوش در کافی شاپ های جدید لذت می برد.
هائو ژو یک دانشمند محقق با آشکارساز تقلب آمازون است. وی دارای مدرک دکترای مهندسی برق از دانشگاه نورث وسترن آمریکا است. او مشتاق به کارگیری تکنیک های یادگیری ماشینی برای مبارزه با تقلب و سوء استفاده است.
آبیشک راوی یک مدیر ارشد محصول با آشکارساز تقلب آمازون است. او مشتاق استفاده از قابلیت های فنی برای ساخت محصولاتی است که مشتریان را خوشحال می کند.
- "
- 000
- 10
- 100
- سال 20
- 9
- a
- توانایی
- درباره ما
- دسترسی
- بر این اساس
- حساب
- دقیق
- در میان
- اقدامات
- فعال
- فعالیت ها
- اضافه
- اضافه
- اضافی
- اتخاذ
- پیشرفته
- الگوریتم
- معرفی
- اجازه می دهد تا
- همیشه
- آمازون
- مربوط
- کاربرد
- برنامه های کاربردی
- اعمال می شود
- با استفاده از
- روش
- رویکردها
- مناسب
- تصویب
- محدوده
- آسیا
- مرتبط است
- توجه
- خواص
- خودکار
- در دسترس
- AWS
- خط مقدم
- زیرا
- قبل از
- در زیر
- بهتر
- میان
- مسدود کردن
- مرز
- به ارمغان بیاورد
- ساختن
- کسب و کار
- محاسبه
- قابلیت های
- گرفتن
- اهميت دادن
- مورد
- موارد
- کشتی
- دسته بندی
- علت
- معین
- چالش ها
- به چالش کشیدن
- تغییر دادن
- را انتخاب کنید
- طبقه بندی
- کشت
- سکه
- جمع آوری
- جمع آوری
- مجموعه
- مبارزه با
- بیا
- مشترک
- کامل
- به طور کامل
- تکمیل
- مطمئن
- پیکر بندی
- گیجی
- در نظر بگیرید
- کنسول
- مناسب
- میتوانست
- ایجاد
- ایجاد شده
- جاری
- منحنی
- مشتری
- مشتریان
- داده ها
- تاریخ
- عمیق
- بستگی دارد
- بستگی دارد
- گسترش
- استقرار
- گسترش
- شرح
- جزئیات
- کشف
- مختلف
- دیجیتال
- مستقیما
- بحث و تبادل نظر
- صفحه نمایش
- توزیع
- توزیع
- تنوع
- نمی کند
- کاهش یافته است
- در طی
- هر
- به آسانی
- عناصر
- پشت سر هم
- به پایان می رسد
- مهندسی
- غنی سازی
- وارد
- اشخاص
- موجودیت
- محیط
- به خصوص
- ارزیابی
- ارزیابی
- واقعه
- حوادث
- مثال
- به استثنای
- موجود
- انتظار
- انتظار می رود
- تخصص
- عصاره ها
- سریعتر
- ویژگی
- امکانات
- سرانجام
- نام خانوادگی
- به دنبال
- پیروی
- فرم
- تقلب
- رایگان
- از جانب
- تابع
- آینده
- سوالات عمومی
- تولید
- جهانی
- هدف
- خوب
- بیشتر
- سبز
- رشد
- رخ دادن
- کمک
- مفید
- کمک می کند
- زیاد
- بالاتر
- خیلی
- تاریخی
- تاریخ
- دارای
- چگونه
- چگونه
- اما
- HTTPS
- شناسایی
- تأثیر
- اهمیت
- مهم
- بهبود
- بهبود
- شامل
- از جمله
- نشان دادن
- اطلاعات
- ورودی
- بینش
- رابط
- اینترنت
- بررسی
- IP
- موضوع
- مسائل
- IT
- کار
- قضاوت ها
- دانستن
- دانش
- برچسب
- برچسب
- برچسب ها
- بزرگ
- بزرگتر
- آخرین
- راه اندازی
- نشت
- یاد گرفتن
- یادگیری
- سطح
- بهره برداری
- فهرست
- ذکر شده
- محل
- قفل شده
- دستگاه
- فراگیری ماشین
- ساخت
- ساخت
- اداره می شود
- مدیر
- نقشه
- بازار
- ماتریس
- به معنی
- پیام
- متریک
- قدرت
- حد اقل
- ML
- مدل
- مدل
- ماه
- بیش
- اکثر
- چندگانه
- پیمایش
- جهت یابی
- نیازهای
- منفی
- ویژگی های جدید
- بازار جدید
- بعد
- عدد
- تعداد
- پیشنهادات
- آنلاین
- اپراتور
- سفارش
- دیگر
- در غیر این صورت
- به طور کلی
- بخش
- احساساتی
- مبلغ پرداختی
- درصد
- کارایی
- دوره
- نقطه
- جمعیت
- مثبت
- ممکن
- پتانسیل
- قدرت
- پیش گویی
- در حال حاضر
- پیشگیری
- قبلی
- اصلی
- مشکلات
- روند
- محصول
- تولید
- محصولات
- ارائه
- ارائه
- ارائه دهنده
- فراهم می کند
- به سرعت
- محدوده
- زمان واقعی
- معقول
- اخیر
- تازه
- توصیه
- سوابق
- بازتاب
- با توجه
- نشان دادن
- نماینده
- نشان دهنده
- مورد نیاز
- نیاز
- تحقیق
- منابع
- برگشت
- بازده
- این فایل نقد می نویسید:
- طلوع
- خطر
- نقش
- قوانین
- دویدن
- همان
- مقیاس
- دانشمند
- انتخاب شد
- سرویس
- تنظیم
- سایه
- به اشتراک گذاشته شده
- مغازه ها
- کوتاه
- نشان
- نشان داده شده
- ساده
- اندازه
- So
- جامد
- حل کردن
- برخی از
- خاص
- انشعاب
- آغاز شده
- ارقام
- وضعیت
- هنوز
- ذخیره سازی
- استراتژی
- موفقیت
- هدف
- فنی
- تکنیک
- قالب
- آزمون
- تست
- La
- سه
- آستانه
- از طریق
- زمان
- ابزار
- بالا
- TPR
- ترافیک
- قطار
- آموزش
- معامله
- تحولات
- انواع
- به طور معمول
- زیر
- فهمیدن
- دانشگاه
- بروزرسانی
- us
- ایالات متحده
- استفاده کنید
- کاربران
- معمولا
- سودمندی
- اعتبار سنجی
- ارزش
- نسخه
- چشم انداز
- صبر کنيد
- چی
- چه
- در حین
- بدون
- با ارزش
- خواهد بود
- سال
- سال
- شما