تشخیص عملکرد مدل قبل از استقرار برای آشکارساز تقلب آمازون

بازنشر افلاطون

دنبال: 0

با رشد پذیرش برنامه های کاربردی آنلاین و افزایش تعداد کاربران اینترنت، کلاهبرداری دیجیتال سال به سال در حال افزایش است. ردیاب تقلب آمازون یک سرویس کاملاً مدیریت شده را ارائه می دهد تا به شما کمک کند فعالیت های آنلاین بالقوه جعلی را با استفاده از تکنیک های پیشرفته یادگیری ماشینی (ML) و بیش از 20 سال تخصص در تشخیص تقلب از آمازون شناسایی کنید.

برای کمک به شما در کشف سریعتر کلاهبرداری در موارد استفاده چندگانه، Amazon Fraud Detector مدل‌های خاصی را با الگوریتم‌ها، غنی‌سازی‌ها و تغییر ویژگی‌های متناسب ارائه می‌دهد. آموزش مدل کاملا خودکار و بدون دردسر است و می توانید دستورالعمل های موجود در آن را دنبال کنید راهنمای کاربر یا مرتبط پست های وبلاگ برای شروع. با این حال، با مدل های آموزش دیده، باید تصمیم بگیرید که آیا مدل برای استقرار آماده است یا خیر. این نیاز به دانش خاصی در ML، آمار و کشف تقلب دارد و ممکن است دانستن برخی از رویکردهای معمول مفید باشد.

این پست به شما در تشخیص عملکرد مدل و انتخاب مدل مناسب برای استقرار کمک می کند. ما معیارهای ارائه‌شده توسط Amazon Fraud Detector را بررسی می‌کنیم، به شما کمک می‌کنیم مشکلات احتمالی را تشخیص دهید، و پیشنهادهایی برای بهبود عملکرد مدل ارائه می‌کنیم. این رویکردها برای هر دو الگوی مدل Insights Fraud Insights (OFI) و Transaction Fraud Insights (TFI) قابل اجرا هستند.

بررسی اجمالی راه حل

این پست یک فرآیند پایان به انتها برای تشخیص عملکرد مدل شما ارائه می دهد. ابتدا تمام معیارهای مدل نشان داده شده در کنسول آمازون Fraud Detector، از جمله AUC، توزیع امتیاز، ماتریس سردرگمی، منحنی ROC و اهمیت متغیر مدل را معرفی می‌کند. سپس یک رویکرد سه مرحله‌ای برای تشخیص عملکرد مدل با استفاده از معیارهای مختلف ارائه می‌کنیم. در نهایت، ما پیشنهاداتی برای بهبود عملکرد مدل برای مسائل معمولی ارائه می دهیم.

پیش نیازها

قبل از غواصی عمیق در مدل آشکارساز تقلب آمازون، باید پیش نیازهای زیر را تکمیل کنید:

یک حساب AWS ایجاد کنید.
یک مجموعه داده رویداد ایجاد کنید برای آموزش مدل
داده های خود را آپلود کنید به سرویس ذخیره سازی ساده آمازون (Amazon S3) یا داده های رویداد خود را در ردیاب تقلب آمازون وارد کنید.
یک مدل آشکارساز تقلب آمازون بسازید.

معیارهای مدل را تفسیر کنید

پس از تکمیل آموزش مدل، ردیاب تقلب آمازون مدل شما را با استفاده از بخشی از داده های مدل سازی که در آموزش مدل استفاده نشده است، ارزیابی می کند. معیارهای ارزیابی را بر می گرداند نسخه مدل صفحه برای آن مدل این معیارها عملکرد مدلی را منعکس می‌کنند که می‌توانید روی داده‌های واقعی پس از استقرار در تولید انتظار داشته باشید.

اسکرین شات زیر نمونه عملکرد مدلی را نشان می دهد که توسط Amazon Fraud Detector بازگردانده شده است. شما می توانید آستانه های مختلفی را در توزیع امتیاز انتخاب کنید (چپ)، و ماتریس سردرگمی (راست) بر این اساس به روز می شود.

می توانید از یافته های زیر برای بررسی عملکرد و تصمیم گیری در مورد قوانین استراتژی استفاده کنید:

AUC (منطقه زیر منحنی) - عملکرد کلی این مدل مدلی با AUC 0.50 بهتر از چرخاندن سکه نیست زیرا نشان دهنده شانس تصادفی است، در حالی که یک مدل "کامل" امتیاز 1.0 خواهد داشت. هرچه AUC بالاتر باشد، مدل شما بهتر می تواند بین تقلب ها و موارد قانونی تمایز قائل شود.
توزیع امتیاز - هیستوگرام توزیع امتیاز مدل با فرض جمعیت نمونه 100,000 رویداد. ردیاب تقلب آمازون امتیازهای مدل را بین 0 تا 1000 ایجاد می کند، که هر چه امتیاز کمتر باشد، خطر تقلب کمتر است. تفکیک بهتر بین جمعیت مشروع (سبز) و کلاهبردار (آبی) معمولاً نشان دهنده یک مدل بهتر است. برای جزئیات بیشتر، نگاه کنید نمرات مدل.
ماتریس سردرگمی - جدولی که عملکرد مدل را برای آستانه امتیاز انتخاب شده، از جمله مثبت واقعی، منفی واقعی، مثبت کاذب، منفی کاذب، نرخ مثبت واقعی (TPR) و نرخ مثبت کاذب (FPR) توصیف می کند. شمارش روی جدول یک جمعیت نمونه 100,0000 رویدادی را در نظر می گیرد. برای جزئیات بیشتر، نگاه کنید معیارهای عملکرد مدل.
منحنی ROC (ویژگی اپراتور گیرنده). - نموداری که توانایی تشخیصی مدل را نشان می دهد، همانطور که در تصویر زیر نشان داده شده است. نرخ مثبت واقعی را به عنوان تابعی از نرخ مثبت کاذب بر روی تمام آستانه های امتیاز مدل ممکن ترسیم می کند. با انتخاب این نمودار را مشاهده کنید سنجه های پیشرفته. اگر چندین نسخه از یک مدل را آموزش داده اید، می توانید آستانه های مختلف FPR را برای بررسی تغییر عملکرد انتخاب کنید.
اهمیت متغیر مدل – رتبه متغیرهای مدل بر اساس سهم آنها در مدل تولید شده، همانطور که در تصویر زیر نشان داده شده است. متغیر مدل با بالاترین مقدار نسبت به سایر متغیرهای مدل موجود در مجموعه داده آن نسخه مدل برای مدل مهمتر است و به طور پیش فرض در بالا فهرست شده است. برای جزئیات بیشتر، نگاه کنید اهمیت متغیر مدل.

تشخیص عملکرد مدل

قبل از استقرار مدل خود در تولید، باید از معیارهایی استفاده کنید که آشکارساز تقلب آمازون بازگشته است تا عملکرد مدل را درک کرده و مشکلات احتمالی را تشخیص دهید. مشکلات رایج مدل های ML را می توان به دو دسته اصلی تقسیم کرد: مسائل مربوط به داده ها و مسائل مربوط به مدل. ردیاب تقلب آمازون با استفاده دقیق از مجموعه های تست و اعتبارسنجی برای ارزیابی و تنظیم مدل شما در باطن، از مسائل مربوط به مدل مراقبت کرده است. برای تأیید اینکه آیا مدل شما آماده استقرار است یا مشکلات احتمالی مرتبط با داده دارد، می توانید مراحل زیر را تکمیل کنید:

عملکرد کلی مدل (AUC و توزیع امتیاز) را بررسی کنید.
الزامات کسب و کار (ماتریس سردرگمی و جدول) را مرور کنید.
اهمیت متغیر مدل را بررسی کنید.

عملکرد کلی مدل را بررسی کنید: AUC و توزیع امتیاز

پیش‌بینی دقیق‌تر رویدادهای آینده همیشه هدف اصلی یک مدل پیش‌بینی است. AUC بازگردانده شده توسط آمازون Fraud Detector بر روی یک مجموعه تست نمونه برداری شده به درستی محاسبه می شود که در آموزش استفاده نشده است. به طور کلی مدلی با AUC بیشتر از 0.9 مدل خوبی محسوب می شود.

اگر مدلی را با عملکرد کمتر از 0.8 مشاهده کردید، معمولاً به این معنی است که مدل فضایی برای بهبود دارد (ما در ادامه این پست در مورد مسائل رایج برای عملکرد پایین مدل صحبت خواهیم کرد). توجه داشته باشید که تعریف عملکرد "خوب" به شدت به کسب و کار شما و مدل پایه بستگی دارد. حتی اگر AUC آن بیشتر از 0.8 باشد، همچنان می‌توانید مراحل این پست را برای بهبود مدل آشکارساز تقلب آمازون دنبال کنید.

از سوی دیگر، اگر AUC بیش از 0.99 باشد، به این معنی است که مدل تقریباً می تواند تقلب و رویدادهای مشروع را در مجموعه آزمایشی جدا کند. این گاهی اوقات یک سناریوی "بیش از حد خوب برای واقعی بودن" است (ما در ادامه این پست در مورد مسائل رایج برای عملکرد مدل بسیار بالا صحبت می کنیم).

علاوه بر AUC کلی، توزیع امتیاز همچنین می‌تواند به شما بگوید که مدل چقدر مناسب است. در حالت ایده‌آل، شما باید بخش عمده‌ای از مشروعیت و تقلب را در دو سر مقیاس ببینید، که نشان می‌دهد نمره مدل می‌تواند به‌طور دقیق رویدادها را در مجموعه آزمون رتبه‌بندی کند.

در مثال زیر، توزیع امتیاز دارای AUC 0.96 است.

اگر توزیع قانونی و تقلبی با هم تداخل دارند یا در مرکز متمرکز شده‌اند، احتمالاً به این معنی است که مدل در تشخیص رویدادهای تقلب از رویدادهای قانونی خوب عمل نمی‌کند، که ممکن است نشان‌دهنده تغییر توزیع داده‌های تاریخی باشد یا اینکه به داده‌ها یا ویژگی‌های بیشتری نیاز دارید.

در زیر نمونه ای از توزیع امتیاز با AUC 0.64 است.

اگر بتوانید نقطه تقسیمی را بیابید که تقریباً می تواند تقلب و رویدادهای مشروع را به طور کامل تقسیم کند، احتمال زیادی وجود دارد که مدل مشکل نشت برچسب داشته باشد یا الگوهای تقلب بسیار آسان تشخیص داده شوند، که باید توجه شما را جلب کند.

در مثال زیر، توزیع امتیاز دارای AUC 1.0 است.

بررسی الزامات کسب و کار: ماتریس و جدول سردرگمی

اگرچه AUC یک شاخص مناسب برای عملکرد مدل است، اما ممکن است مستقیماً به نیازهای تجاری شما ترجمه نشود. ردیاب تقلب آمازون همچنین معیارهایی مانند نرخ جذب کلاهبرداری (نرخ مثبت واقعی)، درصد رویدادهای قانونی که به اشتباه به عنوان تقلب پیش‌بینی شده‌اند (نرخ مثبت کاذب) و موارد دیگر را ارائه می‌دهد که معمولاً به عنوان الزامات تجاری استفاده می‌شوند. پس از آموزش مدلی با AUC نسبتاً خوب، باید مدل را با نیازهای تجاری خود با آن معیارها مقایسه کنید.

ماتریس و جدول سردرگمی یک رابط برای بررسی تأثیر و بررسی اینکه آیا نیازهای کسب و کار شما را برآورده می کند در اختیار شما قرار می دهد. توجه داشته باشید که اعداد به آستانه مدل بستگی دارد، جایی که رویدادهایی با امتیازهای بزرگتر از آستانه به عنوان تقلب و رویدادهایی با امتیاز کمتر از آستانه به عنوان قانونی طبقه بندی می شوند. بسته به نیازهای کسب و کار خود می توانید انتخاب کنید از کدام آستانه استفاده کنید.

به عنوان مثال، اگر هدف شما این است که 73٪ از کلاهبرداری ها را به دست آورید، پس (همانطور که در مثال زیر نشان داده شده است) می توانید آستانه ای مانند 855 را انتخاب کنید که به شما امکان می دهد تا 73٪ از کل کلاهبرداری ها را بدست آورید. با این حال، این مدل همچنین 3٪ رویدادهای مشروع را به اشتباه طبقه‌بندی می‌کند تا تقلب باشد. اگر این FPR برای کسب و کار شما قابل قبول است، پس مدل برای استقرار مناسب است. در غیر این صورت، باید عملکرد مدل را بهبود بخشید.

مثال دیگر این است که اگر هزینه مسدود کردن یا به چالش کشیدن یک مشتری قانونی بسیار بالا باشد، پس شما یک FPR پایین و دقت بالا می خواهید. در این صورت، همانطور که در مثال زیر نشان داده شده است، می توانید آستانه 950 را انتخاب کنید، که 1٪ از مشتریان قانونی را به عنوان کلاهبرداری طبقه بندی نمی کند و 80٪ از کلاهبرداری شناسایی شده در واقع کلاهبرداری خواهد بود.

علاوه بر این، می‌توانید آستانه‌های متعددی را انتخاب کنید و نتایج متفاوتی مانند مسدود کردن، بررسی، پاس کردن را تعیین کنید. اگر نمی توانید آستانه ها و قوانین مناسبی را بیابید که تمام نیازهای تجاری شما را برآورده کند، باید مدل خود را با داده ها و ویژگی های بیشتر آموزش دهید.

اهمیت متغیر مدل را بررسی کنید

La اهمیت متغیر مدل صفحه نشان می دهد که هر متغیر چگونه به مدل شما کمک می کند. اگر یک متغیر دارای ارزش قابل توجهی بالاتر از سایرین باشد، ممکن است نشان دهنده نشت برچسب یا تشخیص الگوهای تقلب باشد. توجه داشته باشید که اهمیت متغیر به متغیرهای ورودی شما تجمیع می شود. اگر اهمیت کمی بالاتر از IP_ADDRESS, CARD_BIN, EMAIL_ADDRESS, PHONE_NUMBER, BILLING_ZIP، یا SHIPPING_ZIP، ممکن است به دلیل قدرت غنی سازی باشد.

مثال زیر اهمیت متغیر مدل را با استفاده از نشت برچسب بالقوه نشان می دهد investigation_status.

اهمیت متغیر مدل همچنین به شما نکاتی را در مورد اینکه چه متغیرهای اضافی به طور بالقوه می توانند به مدل کمک کنند، می دهد. برای مثال، اگر مشاهده کردید که AUC پایین است و ویژگی‌های مربوط به فروشنده اهمیت بالایی نشان می‌دهند، ممکن است به جمع‌آوری ویژگی‌های سفارش بیشتر فکر کنید. SELLER_CATEGORY, SELLER_ADDRESSو SELLER_ACTIVE_YEARSو آن متغیرها را به مدل خود اضافه کنید.

مشکلات رایج برای عملکرد پایین مدل

در این بخش، مسائل رایجی را که ممکن است در رابطه با عملکرد پایین مدل با آن مواجه شوید، مورد بحث قرار می دهیم.

توزیع داده های تاریخی تغییر کرد

جابجایی توزیع داده‌های تاریخی زمانی اتفاق می‌افتد که یک تغییر تجاری بزرگ یا مشکل جمع‌آوری داده‌ها داشته باشید. برای مثال، اگر اخیراً محصول خود را در بازار جدیدی عرضه کرده‌اید، IP_ADDRESS, EMAILو ADDRESS ویژگی‌های مرتبط می‌تواند کاملاً متفاوت باشد، و روش عملیات کلاهبرداری نیز می‌تواند تغییر کند. استفاده از آشکارساز تقلب آمازون EVENT_TIMESTAMP برای تقسیم داده ها و ارزیابی مدل خود بر روی زیر مجموعه مناسب از رویدادها در مجموعه داده شما. اگر توزیع داده های تاریخی شما به طور قابل توجهی تغییر کند، مجموعه ارزیابی می تواند بسیار متفاوت از داده های آموزشی باشد و عملکرد مدل گزارش شده ممکن است پایین باشد.

می توانید با کاوش در داده های تاریخی خود، مشکل احتمالی تغییر توزیع داده را بررسی کنید:

استفاده از نمایه‌گر داده‌های آشکارساز تقلب آمازون ابزاری برای بررسی اینکه آیا نرخ تقلب و نرخ گمشده برچسب در طول زمان تغییر کرده است یا خیر.
بررسی کنید که آیا توزیع متغیر در طول زمان به طور قابل توجهی تغییر کرده است، به خصوص برای ویژگی هایی با اهمیت متغیر بالا.
توزیع متغیر در طول زمان را بر اساس متغیرهای هدف بررسی کنید. اگر در داده‌های اخیر رویدادهای کلاهبرداری بیشتری را از یک دسته مشاهده کردید، ممکن است بخواهید بررسی کنید که آیا این تغییر با استفاده از قضاوت‌های تجاری شما معقول است یا خیر.

اگر متوجه شدید که نرخ گم شدن برچسب بسیار زیاد است یا نرخ تقلب به طور مداوم در آخرین تاریخ‌ها کاهش یافته است، ممکن است نشان‌دهنده بلوغ کامل برچسب‌ها باشد. باید جدیدترین داده‌ها را حذف کنید یا برای جمع‌آوری برچسب‌های دقیق صبر کنید و سپس مدل خود را دوباره آموزش دهید.

اگر در تاریخ‌های خاص شاهد افزایش شدید نرخ تقلب و متغیرها هستید، ممکن است بخواهید دوباره بررسی کنید که آیا این یک مشکل دور از دسترس یا جمع‌آوری داده است. در این صورت، باید آن رویدادها را حذف کنید و مدل را دوباره آموزش دهید.

اگر متوجه شدید که داده‌های قدیمی نمی‌توانند تجارت فعلی و آینده شما را نشان دهند، باید دوره قدیمی داده‌ها را از آموزش حذف کنید. اگر از رویدادهای ذخیره شده در Amazon Fraud Detector استفاده می کنید، می توانید به سادگی یک نسخه جدید را مجدداً آموزش دهید و در حین پیکربندی کار آموزشی، محدوده تاریخ مناسب را انتخاب کنید. همچنین ممکن است نشان دهد که روش کلاهبرداری در کسب و کار شما در طول زمان نسبتاً سریع تغییر می کند. پس از استقرار مدل، ممکن است لازم باشد مدل خود را مرتباً مجدداً آموزش دهید.

نگاشت نوع متغیر نامناسب

آشکارساز تقلب آمازون داده ها را بر اساس انواع متغیرها غنی و تبدیل می کند. مهم است که متغیرهای خود را به نوع صحیح نگاشت کنید تا مدل آشکارساز تقلب آمازون بتواند حداکثر مقدار داده های شما را بگیرد. به عنوان مثال، اگر نقشه برداری کنید IP به CATEGORICAL به جای تایپ کنید IP_ADDRESS، شما نمی توانید IP-غنی سازی های مرتبط در باطن

به طور کلی، Amazon Fraud Detector اقدامات زیر را پیشنهاد می کند:

متغیرهای خود را به انواع خاصی مانند IP_ADDRESS, EMAIL_ADDRESS, CARD_BINو PHONE_NUMBER، به طوری که Amazon Fraud Detector بتواند اطلاعات اضافی را استخراج و غنی کند.
اگر نمی توانید نوع متغیر خاصی را پیدا کنید، آن را به یکی از سه نوع عمومی نگاشت کنید: NUMERIC, CATEGORICAL، یا FREE_FORM_TEXT.
اگر متغیری به صورت متنی است و دارای اهمیت بالایی است، مانند بررسی مشتری یا توضیحات محصول، باید آن را به FREE_FORM_TEXT نوع متغیر به طوری که ردیاب تقلب آمازون ویژگی های متن و جاسازی ها را در باطن برای شما استخراج می کند. به عنوان مثال، اگر نقشه برداری کنید url_string به FREE_FORM_TEXT، می تواند URL را نشانه گذاری کند و اطلاعات را برای تغذیه به مدل پایین دستی استخراج کند، که به آن کمک می کند الگوهای پنهان بیشتری را از URL بیاموزد.

اگر متوجه شدید که هر یک از انواع متغیر شما به اشتباه در پیکربندی متغیر نگاشت شده است، می توانید نوع متغیر خود را تغییر دهید و سپس مدل را دوباره آموزش دهید.

داده ها یا ویژگی های ناکافی

آشکارساز تقلب آمازون به حداقل 10,000 رکورد نیاز دارد تا یک مدل بینش کلاهبرداری آنلاین (OFI) یا بینش کلاهبرداری تراکنش (TFI) را آموزش دهد که حداقل 400 مورد از این سوابق به عنوان جعلی شناخته شده است. TFI همچنین مستلزم آن است که هم سوابق تقلبی و هم سوابق قانونی از حداقل 100 موجودیت مختلف برای اطمینان از تنوع مجموعه داده تهیه شود. علاوه بر این، Amazon Fraud Detector نیاز دارد که داده های مدل سازی حداقل دو متغیر داشته باشد. اینها حداقل داده های مورد نیاز برای ساخت یک مدل مفید آشکارساز تقلب آمازون هستند. با این حال، استفاده از رکوردها و متغیرهای بیشتر معمولاً به مدل‌های ML کمک می‌کند الگوهای اساسی را از داده‌های شما بهتر بیاموزند. وقتی AUC پایینی را مشاهده می کنید یا نمی توانید آستانه هایی را پیدا کنید که نیازهای تجاری شما را برآورده کند، باید مدل خود را با داده های بیشتر بازآموزی کنید یا ویژگی های جدیدی را به مدل خود اضافه کنید. معمولا، ما پیدا می کنیم EMAIL_ADDRESS, IP, PAYMENT_TYPE, BILLING_ADDRESS, SHIPPING_ADDRESSو DEVICE متغیرهای مرتبط در کشف تقلب مهم هستند.

دلیل احتمالی دیگر این است که برخی از متغیرهای شما حاوی مقادیر زیادی از دست رفته هستند. برای مشاهده اینکه آیا این اتفاق می افتد، پیام های آموزشی مدل را بررسی کنید و به آن مراجعه کنید عیب یابی مشکلات داده های آموزشی برای پیشنهادات

مشکلات رایج برای عملکرد مدل بسیار بالا

در این بخش، مسائل رایج مربوط به عملکرد بسیار بالا مدل را مورد بحث قرار می دهیم.

نشتی برچسب

نشت برچسب زمانی رخ می دهد که مجموعه داده های آموزشی از اطلاعاتی استفاده می کنند که انتظار نمی رود در زمان پیش بینی در دسترس باشند. هنگامی که در محیط تولید اجرا می شود، کاربرد مدل را بیش از حد برآورد می کند.

AUC بالا (نزدیک به 1)، توزیع امتیاز کاملاً مجزا، و اهمیت متغیر به طور قابل توجهی بالاتر از یک متغیر می تواند نشانگر مسائل احتمالی نشت برچسب باشد. همچنین می توانید ارتباط بین ویژگی ها و برچسب را با استفاده از آن بررسی کنید نمایه کننده داده. همبستگی ویژگی و برچسب نمودار همبستگی بین هر ویژگی و برچسب را نشان می دهد. اگر یک ویژگی بیش از 0.99 با برچسب همبستگی دارد، باید بررسی کنید که آیا این ویژگی بر اساس قضاوت های تجاری به درستی استفاده می شود یا خیر. به عنوان مثال، برای ایجاد یک مدل ریسک برای تأیید یا رد درخواست وام، نباید از ویژگی هایی مانند AMOUNT_PAID، زیرا پرداخت ها پس از فرآیند پذیره نویسی انجام می شود. اگر متغیری در زمان پیش‌بینی در دسترس نیست، باید آن متغیر را از پیکربندی مدل حذف کنید و مدل جدیدی را دوباره آموزش دهید.

مثال زیر همبستگی بین هر متغیر و برچسب را نشان می دهد. investigation_status همبستگی بالایی (نزدیک به 1) با برچسب دارد، بنابراین باید دوباره بررسی کنید که آیا مشکل نشتی برچسب وجود دارد.

الگوهای تقلب ساده

هنگامی که الگوهای تقلب در داده های شما ساده هستند، ممکن است عملکرد مدل بسیار بالایی را نیز مشاهده کنید. برای مثال، فرض کنید تمام رویدادهای تقلب در داده‌های مدل‌سازی از طریق ارائه‌دهنده خدمات داخلی یکسانی انجام می‌شود. انتخاب مدل برای مدل ساده است IP-متغیرهای مرتبط و مدل "کامل" با اهمیت بالا را برمی گرداند IP.

الگوهای تقلب ساده همیشه یک مشکل داده را نشان نمی دهد. این می تواند درست باشد که روش های کلاهبرداری در کسب و کار شما به راحتی قابل درک است. با این حال، قبل از نتیجه گیری، باید مطمئن شوید که برچسب های استفاده شده در آموزش مدل دقیق هستند و داده های مدل سازی تا حد امکان الگوهای تقلب را پوشش می دهند. به عنوان مثال، اگر رویدادهای کلاهبرداری خود را بر اساس قوانین برچسب گذاری کنید، مانند برچسب زدن همه برنامه ها از یک برنامه خاص BILLING_ZIP به علاوه PRODUCT_CATEGORY به عنوان تقلب، مدل به راحتی می تواند با شبیه سازی قوانین و دستیابی به AUC بالا، آن تقلب ها را تشخیص دهد.

با استفاده از نمایه کننده داده. به عنوان مثال، اگر مشاهده کردید که بیشتر رویدادهای کلاهبرداری از یک یا چند دسته محصول می آیند، ممکن است نشانگر الگوهای تقلب ساده باشد، و باید تأیید کنید که این یک اشتباه در جمع آوری داده یا فرآیند نیست. اگر ویژگی مانند است CUSTOMER_ID، باید ویژگی را در آموزش مدل حذف کنید.

مثال زیر توزیع برچسب را در دسته‌های مختلف نشان می‌دهد product_category. همه تقلب ها از دو دسته محصول می آیند.

نمونه گیری نادرست داده ها

نمونه‌گیری نادرست داده ممکن است زمانی اتفاق بیفتد که شما نمونه‌برداری کرده‌اید و فقط بخشی از داده‌های خود را به ردیاب تقلب آمازون ارسال کرده‌اید. اگر داده ها به درستی نمونه برداری نشوند و معرف ترافیک در تولید نباشند، عملکرد مدل گزارش شده نادرست خواهد بود و مدل ممکن است برای پیش بینی تولید بی فایده باشد. برای مثال، اگر تمام رویدادهای تقلب در داده‌های مدل‌سازی از آسیا و همه رویدادهای قانونی از ایالات متحده نمونه‌برداری شوند، مدل ممکن است یاد بگیرد که تقلب و قانون را بر اساس BILLING_COUNTRY. در آن صورت، مدل عمومی نیست تا برای سایر جمعیت ها اعمال شود.

معمولاً پیشنهاد می کنیم تمام آخرین رویدادها را بدون نمونه برداری ارسال کنید. بر اساس اندازه داده ها و نرخ تقلب، ردیاب تقلب آمازون نمونه برداری را قبل از آموزش مدل برای شما انجام می دهد. اگر داده‌های شما بیش از حد بزرگ است (بیش از 100 گیگابایت) و تصمیم به نمونه‌گیری و ارسال فقط یک زیرمجموعه دارید، باید به‌طور تصادفی از داده‌های خود نمونه برداری کنید و مطمئن شوید که نمونه نماینده کل جامعه است. برای TFI، باید داده های خود را بر اساس نهاد نمونه برداری کنید، به این معنی که اگر یک نهاد نمونه برداری می شود، باید تمام تاریخچه آن را وارد کنید تا مجموع های سطح موجودیت به درستی محاسبه شوند. توجه داشته باشید که اگر فقط زیرمجموعه‌ای از داده‌ها را به Amazon Fraud Detector ارسال کنید، اگر رویدادهای قبلی موجودیت‌ها ارسال نشود، ممکن است مجموع‌های بی‌درنگ در طول استنتاج نادرست باشند.

نمونه‌گیری نادرست دیگر داده می‌تواند تنها استفاده از یک دوره کوتاه داده، مانند داده‌های یک روزه، برای ساخت مدل باشد. داده ها ممکن است مغرضانه باشد، به خصوص اگر حملات تجاری یا کلاهبرداری شما فصلی باشد. ما معمولاً توصیه می‌کنیم حداقل دو چرخه (مانند 2 هفته یا 2 ماه) داده در مدل‌سازی گنجانده شود تا از تنوع انواع تقلب اطمینان حاصل شود.

نتیجه

پس از تشخیص و حل همه مشکلات احتمالی، باید یک مدل مفید آشکارساز تقلب آمازون دریافت کنید و از عملکرد آن مطمئن باشید. برای مرحله بعدی، شما می توانید یک آشکارساز با مدل و قوانین کسب و کار خود ایجاد کنیدو آماده استقرار آن در تولید برای ارزیابی حالت سایه باشید.

ضمیمه

نحوه حذف متغیرها برای آموزش مدل

پس از غواصی عمیق، ممکن است اطلاعات هدف نشت متغیر را شناسایی کنید و بخواهید آن را از آموزش مدل حذف کنید. با انجام مراحل زیر می‌توانید یک نسخه مدل را به استثنای متغیرهایی که نمی‌خواهید دوباره آموزش دهید:

در کنسول آمازون Fraud Detector، در قسمت ناوبری، را انتخاب کنید مدل.
بر مدل صفحه، مدلی را که می خواهید دوباره آموزش دهید انتخاب کنید.
بر اعمال منو ، انتخاب کنید آموزش نسخه جدید.
محدوده تاریخی مورد نظر برای استفاده را انتخاب کنید و انتخاب کنید بعدی.
بر آموزش را پیکربندی کنید در صفحه، متغیری را که نمی خواهید در آموزش مدل استفاده کنید، از حالت انتخاب خارج کنید.
برچسب‌های تقلب و برچسب‌های قانونی خود را مشخص کنید و اینکه چگونه می‌خواهید Amazon Fraud Detector از رویدادهای بدون برچسب استفاده کند، سپس انتخاب کنید بعدی.
پیکربندی مدل را بررسی کرده و انتخاب کنید ایجاد و آموزش مدل.

نحوه تغییر نوع متغیر رویداد

متغیرها عناصر داده مورد استفاده در پیشگیری از تقلب را نشان می دهند. در Amazon Fraud Detector، همه متغیرها جهانی هستند و در همه رویدادها و مدل ها به اشتراک گذاشته می شوند، به این معنی که یک متغیر می تواند در چندین رویداد استفاده شود. به عنوان مثال، IP می تواند با رویدادهای ورود به سیستم و همچنین می تواند با رویدادهای تراکنش مرتبط باشد. به طور طبیعی، ردیاب تقلب آمازون پس از ایجاد متغیر، نوع متغیر و نوع داده را قفل می کند. برای حذف یک متغیر موجود، ابتدا باید همه انواع و مدل‌های رویداد مرتبط را حذف کنید. می‌توانید با رفتن به Amazon Fraud Detector، منابع مرتبط با متغیر خاص را بررسی کنید متغیر در پنجره ناوبری و انتخاب نام متغیر و منابع مرتبط.

متغیر و تمام انواع رویدادهای مرتبط را حذف کنید

برای حذف متغیر، مراحل زیر را انجام دهید:

در کنسول آمازون Fraud Detector، در قسمت ناوبری، را انتخاب کنید متغیر.
متغیری را که می خواهید حذف کنید انتخاب کنید.
را انتخاب کنید منابع مرتبط برای مشاهده لیستی از انواع رویدادهای مورد استفاده از این متغیر.
قبل از حذف متغیر باید انواع رویدادهای مرتبط را حذف کنید.
برای رفتن به صفحه نوع رویداد مرتبط، انواع رویداد را در لیست انتخاب کنید.
را انتخاب کنید رویدادهای ذخیره شده برای بررسی اینکه آیا داده ای در این نوع رویداد ذخیره شده است یا خیر.
اگر رویدادهایی در Amazon Fraud Detector ذخیره شده است، انتخاب کنید حذف رویدادهای ذخیره شده برای حذف رویدادهای ذخیره شده
هنگامی که کار حذف کامل شد، پیام "رویدادهای ذخیره شده برای این نوع رویداد با موفقیت حذف شدند" ظاهر می شود.
را انتخاب کنید منابع مرتبط.
اگر آشکارسازها و مدل‌ها با این نوع رویداد مرتبط هستند، ابتدا باید آن منابع را حذف کنید.
اگر آشکارسازها مرتبط هستند، مراحل زیر را برای حذف همه آشکارسازهای مرتبط انجام دهید:
1. آشکارساز را برای رفتن به آن انتخاب کنید جزئیات آشکارساز احتمال برد مراجعه کنید.
2. در نسخه های مدل در پنجره، نسخه آشکارساز را انتخاب کنید.
3. در صفحه نسخه آشکارساز، را انتخاب کنید اعمال.
4. اگر نسخه آشکارساز فعال است، را انتخاب کنید از کار انداختن، انتخاب کنید این نسخه آشکارساز را بدون جایگزین کردن آن با نسخه دیگری غیرفعال کنید، و انتخاب کنید نسخه آشکارساز را غیرفعال کنید.
5. پس از غیرفعال شدن نسخه آشکارساز، را انتخاب کنید اعمال و پس از آن حذف.
6. این مراحل را تکرار کنید تا همه نسخه های آشکارساز حذف شوند.
7. بر جزئیات آشکارساز صفحه ، انتخاب کنید قوانین مرتبط.
8. قانون حذف را انتخاب کنید.
9. را انتخاب کنید اعمال و نسخه قانون را حذف کنید.
10. نام قانون را برای تایید و انتخاب وارد کنید نسخه را حذف کنید.
11. این مراحل را برای حذف همه قوانین مرتبط تکرار کنید.
12. پس از حذف تمام نسخه‌های آشکارساز و قوانین مرتبط، به جزئیات آشکارساز صفحه ، انتخاب کنید اعمال، و انتخاب کنید آشکارساز را حذف کنید.
13. نام آشکارساز را وارد کرده و انتخاب کنید آشکارساز را حذف کنید.
14. این مراحل را برای حذف آشکارساز بعدی تکرار کنید.
اگر هر مدلی با نوع رویداد مرتبط است، مراحل زیر را برای حذف آنها انجام دهید:
1. نام مدل را انتخاب کنید.
2. در نسخه های مدل پنجره، نسخه را انتخاب کنید.
3. اگر وضعیت مدل باشد Active، انتخاب کنید اعمال و Undeploy نسخه مدل.
4. وارد undeploy برای تایید و انتخاب Undeploy نسخه مدل.
  وضعیت تغییر می کند Undeploying. این فرآیند چند دقیقه طول می کشد تا کامل شود.
5. بعد از اینکه وضعیت شد Ready to deploy، Actions و Delete را انتخاب کنید.
6. این مراحل را برای حذف تمام نسخه های مدل تکرار کنید.
7. در صفحه جزئیات مدل، Actions و Delete model را انتخاب کنید.
8. نام مدل را وارد کرده و Delete model را انتخاب کنید.
9. این مراحل را برای حذف مدل بعدی تکرار کنید.
پس از حذف همه آشکارسازها و مدل‌های مرتبط، انتخاب کنید اعمال و حذف نوع رویداد در جزئیات رویداد احتمال برد مراجعه کنید.
نام نوع رویداد را وارد کرده و انتخاب کنید حذف نوع رویداد.
در صفحه پیمایش، را انتخاب کنید متغیرو متغیری را که می خواهید حذف کنید انتخاب کنید.
مراحل قبلی را برای حذف تمام انواع رویدادهای مرتبط با متغیر تکرار کنید.
بر جزئیات متغیر صفحه ، انتخاب کنید اعمال و حذف.
نام متغیر را وارد کرده و انتخاب کنید حذف متغیر.

یک متغیر جدید با نوع متغیر درست ایجاد کنید

بعد از اینکه متغیر و همه انواع رویدادهای مرتبط، رویدادهای ذخیره شده، مدل‌ها و آشکارسازها را از Amazon Fraud Detector حذف کردید، می‌توانید یک متغیر جدید به همین نام ایجاد کنید و آن را به نوع متغیر صحیح نگاشت کنید.

در کنسول آمازون Fraud Detector، در قسمت ناوبری، را انتخاب کنید متغیر.
را انتخاب کنید ساختن.
نام متغیری را که می‌خواهید تغییر دهید (که قبلاً حذف کرده‌اید) وارد کنید.
نوع متغیر صحیحی را که می خواهید به آن تغییر دهید انتخاب کنید.
را انتخاب کنید متغیر ایجاد کنید

داده ها را آپلود کنید و مدل را دوباره آموزش دهید

پس از به‌روزرسانی نوع متغیر، می‌توانید دوباره داده‌ها را آپلود کنید و مدل جدیدی را آموزش دهید. برای دستورالعمل، مراجعه کنید با ویژگی‌های جدید آشکارساز تقلب آمازون، کلاهبرداری معاملات آنلاین را شناسایی کنید.

نحوه اضافه کردن متغیرهای جدید به یک نوع رویداد موجود

برای افزودن متغیرهای جدید به نوع رویداد موجود، مراحل زیر را انجام دهید:

متغیرهای جدید را به فایل CVS آموزش قبلی اضافه کنید.
فایل داده آموزشی جدید را در یک سطل S3 آپلود کنید. به محل آمازون S3 فایل آموزشی خود توجه کنید (به عنوان مثال، s3://bucketname/path/to/some/object.csv) و نام نقش شما.
در کنسول آمازون Fraud Detector، در قسمت ناوبری، را انتخاب کنید مناسبت ها.
بر انواع رویداد در صفحه، نام نوع رویدادی را که می خواهید متغیر اضافه کنید انتخاب کنید.
بر نوع رویداد صفحه جزئیات، انتخاب کنید اعمال، و سپس متغیرها را اضافه کنید.
تحت نحوه تعریف متغیرهای این رویداد را انتخاب کنید، انتخاب کنید متغیرها را از مجموعه داده آموزشی انتخاب کنید.
برای نقش IAM، یک نقش IAM موجود را انتخاب کنید یا یک نقش جدید برای دسترسی به داده ها در Amazon S3 ایجاد کنید.
برای مکان داده، محل S3 فایل آموزشی جدید را وارد کرده و انتخاب کنید آپلود کنید.
متغیرهای جدیدی که در نوع رویداد موجود وجود ندارند باید در لیست نشان داده شوند.
را انتخاب کنید متغیرها را اضافه کنید.

اکنون، متغیرهای جدید به نوع رویداد موجود اضافه شده است. اگر از رویدادهای ذخیره شده در Amazon Fraud Detector استفاده می کنید، متغیرهای جدید رویدادهای ذخیره شده هنوز وجود ندارند. شما باید داده های آموزشی را با متغیرهای جدید به Amazon Fraud Detector وارد کنید و سپس یک نسخه مدل جدید را دوباره آموزش دهید. هنگام آپلود داده های آموزشی جدید با همان EVENT_ID و EVENT_TIMESTAMP، متغیرهای رویداد جدید، متغیرهای رویداد قبلی ذخیره شده در Amazon Fraud Detector را بازنویسی می کنند.

درباره نویسنده

جولیا شو یک دانشمند محقق با آشکارساز تقلب آمازون است. او مشتاق حل چالش های مشتری با استفاده از تکنیک های یادگیری ماشین است. او در اوقات فراغت خود از پیاده روی، نقاشی و کاوش در کافی شاپ های جدید لذت می برد.

هائو ژو یک دانشمند محقق با آشکارساز تقلب آمازون است. وی دارای مدرک دکترای مهندسی برق از دانشگاه نورث وسترن آمریکا است. او مشتاق به کارگیری تکنیک های یادگیری ماشینی برای مبارزه با تقلب و سوء استفاده است.

آبیشک راوی یک مدیر ارشد محصول با آشکارساز تقلب آمازون است. او مشتاق استفاده از قابلیت های فنی برای ساخت محصولاتی است که مشتریان را خوشحال می کند.

تمبر زمان: ژوئن 29، 2022

بیشتر از آموزش ماشین AWS

صرفه جویی با دقت روبرو می شود: آموزش مقرون به صرفه مدل های GPT NeoX و Pythia با AWS Trainium | خدمات وب آمازون

آموزش ماشین AWS

گره منبع: 1218529

تمبر زمان: مار 16، 2022

ماشین‌های کوچک و استعدادهای بزرگ قدرت یادگیری ماشینی را به سیاست‌گذاران کانادایی نشان می‌دهند

خوشه منبع:

آموزش ماشین AWS

گره منبع: 1594996

تمبر زمان: ژوئیه 26، 2022

بازنشر افلاطون

صرفه جویی با دقت روبرو می شود: آموزش مقرون به صرفه مدل های GPT NeoX و Pythia با AWS Trainium | خدمات وب آمازون

راهنمای شما برای AI/ML در AWS re:Invent 2022

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot

برچسب‌گذاری ابر نقطه سه بعدی LiDAR با سنسور Velodyne LiDAR در Amazon SageMaker Ground Truth

نتایج جستجوی خود را با Amazon Personalize و Amazon OpenSearch Service ادغام شخصی سازی کنید | خدمات وب آمازون

پردازش هوشمند اسناد با خدمات AWS AI: قسمت 1

MLO در لبه با Amazon SageMaker Edge Manager و AWS IoT Greengrass

اسناد وام مسکن را با پردازش هوشمند اسناد با استفاده از Amazon Textract و Amazon Comprehend پردازش کنید

با استفاده از رابط Gmail برای Amazon Kendra، جستجوی هوشمند در ایمیل‌ها در فضای کاری Google خود انجام دهید

مدل‌ها و الگوریتم‌های Amazon SageMaker JumpStart اکنون از طریق API در دسترس هستند

ماشین‌های کوچک و استعدادهای بزرگ قدرت یادگیری ماشینی را به سیاست‌گذاران کانادایی نشان می‌دهند

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب