אבחן את ביצועי הדגם לפני הפריסה עבור גלאי הונאה של אמזון

הועלה מחדש על ידי אפלטון

עוקב: 0

עם הגידול באימוץ יישומים מקוונים והמספר העולה של משתמשי אינטרנט, ההונאה הדיגיטלית נמצאת בעלייה משנה לשנה. גלאי הונאות של אמזון מספק שירות מנוהל במלואו כדי לעזור לך לזהות טוב יותר פעילויות מקוונות שעלולות להיות הונאה באמצעות טכניקות למידת מכונה מתקדמות (ML), ויותר מ-20 שנה של מומחיות בגילוי הונאה מאמזון.

כדי לעזור לך לתפוס הונאה מהר יותר במקרי שימוש מרובים, Amazon Fraud Detector מציע דגמים ספציפיים עם אלגוריתמים מותאמים, העשרה ותמורות תכונות. הכשרת הדגמים היא אוטומטית לחלוטין וללא טרחה, ותוכלו לעקוב אחר ההוראות ב- מדריך למשתמש או קשורים בלוג להתחיל. עם זאת, עם מודלים מאומנים, עליך להחליט אם הדגם מוכן לפריסה. זה דורש ידע מסוים ב-ML, סטטיסטיקה וזיהוי הונאה, וייתכן שיעזור להכיר כמה גישות טיפוסיות.

פוסט זה יעזור לך לאבחן את ביצועי המודל ולבחור את המודל המתאים לפריסה. אנו עוברים על המדדים שמספק Amazon Fraud Detector, עוזרים לך לאבחן בעיות פוטנציאליות ומספקים הצעות לשיפור ביצועי המודל. הגישות ישימות הן לתבניות מודל הונאה מקוונת (OFI) והן לתבניות מודל הונאה של עסקאות (TFI).

סקירת פתרונות

פוסט זה מספק תהליך מקצה לקצה לאבחון ביצועי הדגם שלך. הוא מציג לראשונה את כל מדדי המודל המוצגים בקונסולת Amazon Fraud Detector, כולל AUC, חלוקת ציונים, מטריצת בלבול, עקומת ROC וחשיבות משתני המודל. לאחר מכן אנו מציגים גישה בת שלושה שלבים לאבחון ביצועי המודל באמצעות מדדים שונים. לבסוף, אנו מספקים הצעות לשיפור ביצועי המודל עבור בעיות טיפוסיות.

תנאים מוקדמים

לפני שאתה צולל עמוק לתוך דגם גלאי ההונאה של אמזון שלך, עליך להשלים את התנאים המוקדמים הבאים:

צור חשבון AWS.
צור מערך נתונים של אירועים לאימון דוגמניות.
העלה את הנתונים שלך ל שירות אחסון פשוט של אמזון (אמזון S3) או להטמיע את נתוני האירועים שלך לתוך Amazon Fraud Detector.
בנה דגם של גלאי הונאה של אמזון.

פרש את מדדי המודל

לאחר השלמת הכשרת המודל, Amazon Fraud Detector מעריך את המודל שלך באמצעות חלק מנתוני המודלים שלא שימשו בהדרכה של המודל. זה מחזיר את מדדי ההערכה על גרסת הדגם עמוד עבור הדגם הזה. מדדים אלה משקפים את ביצועי המודל שאתה יכול לצפות בנתונים אמיתיים לאחר הפריסה לייצור.

צילום המסך הבא מציג ביצועי מודל לדוגמה שהוחזרו על ידי Amazon Fraud Detector. אתה יכול לבחור ספים שונים על חלוקת הציונים (משמאל), ומטריצת הבלבול (מימין) מתעדכנת בהתאם.

אתה יכול להשתמש בממצאים הבאים כדי לבדוק ביצועים ולהחליט על כללי אסטרטגיה:

AUC (אזור מתחת לעקומה) - הביצועים הכוללים של דגם זה. מודל עם AUC של 0.50 אינו טוב יותר מהיפוך מטבע מכיוון שהוא מייצג סיכוי אקראי, בעוד שלמודל "מושלם" יהיה ציון של 1.0. ככל שה-AUC גבוה יותר, כך המודל שלך יכול להבחין טוב יותר בין הונאה לגיטימיים.
חלוקת ציונים – היסטוגרמה של התפלגות ציוני מודל בהנחה של אוכלוסייה לדוגמה של 100,000 אירועים. Amazon Fraud Detector מייצר ציוני מודל בין 0-1000, כאשר ככל שהציון נמוך יותר, הסיכון להונאה נמוך יותר. הפרדה טובה יותר בין אוכלוסיות לגיטימיות (ירוקה) לאוכלוסיות הונאה (כחולות) מעידה בדרך כלל על מודל טוב יותר. לפרטים נוספים, ראה ציוני דגם.
מטריצת בלבול – טבלה המתארת את ביצועי המודל עבור סף הציון הנבחר שנבחר, כולל חיובי אמיתי, אמיתי שלילי, חיובי שגוי, שלילי שגוי, שיעור חיובי אמיתי (TPR) ושיעור חיובי שגוי (FPR). הספירה על השולחן מניחה אוכלוסייה לדוגמה של 100,0000 אירועים. לפרטים נוספים, ראה מדדי ביצועים מודליים.
עקומת ROC (מאפיין מפעיל מקלט). – עלילה הממחישה את יכולת האבחון של הדגם, כפי שמוצג בצילום המסך הבא. הוא משרטט את השיעור החיובי האמיתי כפונקציה של שיעור חיובי כוזב על פני כל ספי ציון המודל האפשריים. הצג תרשים זה על ידי בחירה מדדים מתקדמים. אם אימנת גרסאות מרובות של דגם אחד, תוכל לבחור ספי FPR שונים כדי לבדוק את השינוי בביצועים.
חשיבות משתנה המודל – דירוג משתני המודל על סמך תרומתם למודל שנוצר, כפי שמוצג בצילום המסך הבא. משתנה המודל עם הערך הגבוה ביותר חשוב יותר למודל מאשר משתני המודל האחרים במערך הנתונים של אותה גרסת מודל, והוא מופיע בראש כברירת מחדל. לפרטים נוספים, ראה חשיבות משתנה המודל.

אבחן את ביצועי המודל

לפני פריסת הדגם שלך לייצור, עליך להשתמש במדדים ש-Amazon Fraud Detector החזיר כדי להבין את ביצועי המודל ולאבחן את הבעיות האפשריות. ניתן לחלק את הבעיות הנפוצות של מודלים של ML לשתי קטגוריות עיקריות: בעיות הקשורות לנתונים ובעיות הקשורות למודל. Amazon Fraud Detector טיפל בבעיות הקשורות למודל על ידי שימוש בקפידה בערכות אימות ובדיקה כדי להעריך ולכוונן את המודל שלך בקצה האחורי. אתה יכול להשלים את השלבים הבאים כדי לאמת אם המודל שלך מוכן לפריסה או שיש לו בעיות אפשריות הקשורות לנתונים:

בדוק את ביצועי הדגם הכוללים (AUC וחלוקת ציונים).
סקור את הדרישות העסקיות (מטריצת בלבול וטבלה).
בדוק את חשיבות משתנה המודל.

בדוק את ביצועי המודל הכוללים: AUC וחלוקת ציונים

חיזוי מדויק יותר של אירועים עתידיים הוא תמיד המטרה העיקרית של מודל חיזוי. ה-AUC המוחזר על ידי Amazon Fraud Detector מחושב על בסיס בדיקות שנדגמו כראוי שלא נעשה בו שימוש באימון. באופן כללי, מודל עם AUC גדול מ-0.9 נחשב למודל טוב.

אם אתה צופה במודל עם ביצועים של פחות מ-0.8, זה בדרך כלל אומר שלמודל יש מקום לשיפור (אנחנו דנים בבעיות נפוצות לביצועי מודל נמוכים בהמשך הפוסט הזה). שימו לב שההגדרה של ביצועים "טובים" תלויה מאוד בעסק שלכם ובמודל הבסיסי. אתה עדיין יכול לעקוב אחר השלבים בפוסט זה כדי לשפר את דגם גלאי ההונאה של אמזון שלך למרות שה-AUC שלו גדול מ-0.8.

מצד שני, אם ה-AUC הוא מעל 0.99, זה אומר שהמודל יכול להפריד כמעט בצורה מושלמת בין ההונאה לאירועים לגיטימיים במערך הבדיקה. זה לפעמים תרחיש "טוב מכדי להיות אמיתי" (אנחנו דנים בבעיות נפוצות לביצועי מודל גבוהים מאוד בהמשך הפוסט הזה).

מלבד ה-AUC הכולל, התפלגות הניקוד יכולה גם לומר לך עד כמה הדגם מתאים. באופן אידיאלי, אתה צריך לראות את עיקר הלגיטימיות וההונאה ממוקמות בשני הקצוות של הסקאלה, מה שמצביע על כך שציון המודל יכול לדרג במדויק את האירועים במערך המבחן.

בדוגמה הבאה, להתפלגות הניקוד יש AUC של 0.96.

אם ההפצה הלגיטימית וההונאה חפפה או התרכזה במרכז, זה כנראה אומר שהמודל לא מצליח להבחין בין אירועי הונאה לאירועים לגיטימיים, מה שעשוי להצביע על שינוי בהפצת הנתונים ההיסטוריים או שאתה זקוק לעוד נתונים או תכונות.

להלן דוגמה להתפלגות ציונים עם AUC של 0.64.

אם אתה יכול למצוא נקודת פיצול שיכולה לפצל בצורה כמעט מושלמת הונאות ואירועים לגיטימיים, יש סיכוי גבוה שלדגם יש בעיה של דליפת תווית או שדפוסי ההונאה קלים מדי לזיהוי, מה שאמור למשוך את תשומת לבך.

בדוגמה הבאה, להתפלגות הניקוד יש AUC של 1.0.

סקירת דרישות עסקיות: מטריצת בלבול וטבלה

למרות ש-AUC הוא אינדיקטור נוח לביצועי המודל, ייתכן שהוא לא יתורגם ישירות לדרישה העסקית שלך. Amazon Fraud Detector מספק גם מדדים כגון שיעור לכידת הונאה (שיעור חיובי אמיתי), אחוז אירועים לגיטימיים שנחזו בצורה שגויה כהונאה (שיעור חיובי שגוי), ועוד, המשמשים יותר כדרישות עסקיות. לאחר שתכשיר מודל עם AUC טוב למדי, עליך להשוות את המודל עם הדרישה העסקית שלך עם המדדים האלה.

מטריצת הבלבול והטבלה מספקים לך ממשק לסקור את ההשפעה ולבדוק אם היא עונה על הצרכים העסקיים שלך. שים לב שהמספרים תלויים בסף המודל, כאשר אירועים עם ציונים גדולים מהסף אז מסווגים כהונאה ואירועים עם ציונים נמוכים מהסף מסווגים כלגיטימיים. אתה יכול לבחור באיזה סף להשתמש בהתאם לדרישות העסקיות שלך.

לדוגמה, אם המטרה שלך היא ללכוד 73% מההונאות, אז (כפי שמוצג בדוגמה למטה) אתה יכול לבחור סף כמו 855, המאפשר לך ללכוד 73% מכל ההונאות. עם זאת, המודל גם יסווג שגוי של 3% אירועים לגיטימיים להיות הונאה. אם ה-FPR הזה מקובל על העסק שלך, אז המודל מתאים לפריסה. אחרת, עליך לשפר את ביצועי הדגם.

דוגמה נוספת היא אם העלות לחסימה או אתגר של לקוח לגיטימי היא גבוהה ביותר, אז אתה רוצה FPR נמוך ודיוק גבוה. במקרה כזה, אתה יכול לבחור סף של 950, כפי שמוצג בדוגמה הבאה, אשר יסווגו לא נכון 1% מהלקוחות הלגיטימיים כהונאה, ו-80% מההונאה שזוהתה תהיה למעשה הונאה.

בנוסף, אתה יכול לבחור מספר ספים ולהקצות תוצאות שונות, כגון חסימה, חקירה, מעבר. אם אינך מוצא ספים וכללים מתאימים העונים על כל הדרישות העסקיות שלך, עליך לשקול להכשיר את המודל שלך עם יותר נתונים ותכונות.

בדוק את חשיבות משתנה המודל

אל האני חשיבות משתנה המודל החלונית מציגה כיצד כל משתנה תורם למודל שלך. אם למשתנה אחד יש ערך חשיבות גבוה משמעותית מהאחרים, זה עשוי להצביע על דליפה של תווית או שקל מדי לזהות את דפוסי ההונאה. שים לב שחשיבות המשתנה מצטברת בחזרה למשתני הקלט שלך. אם אתה מבחין בחשיבות מעט גבוהה יותר של IP_ADDRESS, CARD_BIN, EMAIL_ADDRESS, PHONE_NUMBER, BILLING_ZIP, או SHIPPING_ZIP, אולי בגלל כוחה של העשרה.

הדוגמה הבאה מציגה חשיבות משתנה של המודל עם דליפת תווית פוטנציאלית באמצעות investigation_status.

חשיבות משתני המודל נותנת לך גם רמזים לגבי המשתנים הנוספים שעלולים להביא לעלייה במודל. לדוגמה, אם אתה מבחין ב-AUC נמוך ותכונות הקשורות למוכר מראות חשיבות גבוהה, ייתכן שתשקול לאסוף עוד תכונות הזמנה כגון SELLER_CATEGORY, SELLER_ADDRESS, ו SELLER_ACTIVE_YEARS, והוסף את המשתנים האלה למודל שלך.

בעיות נפוצות לביצועי דגם נמוכים

בסעיף זה, אנו דנים בבעיות נפוצות שאתה עשוי להיתקל בהן בנוגע לביצועי דגם נמוכים.

התפלגות הנתונים ההיסטוריים השתנתה

סחף הפצת נתונים היסטורי מתרחש כאשר יש לך שינוי עסקי גדול או בעיית איסוף נתונים. לדוגמה, אם השקת לאחרונה את המוצר שלך בשוק חדש, ה IP_ADDRESS, EMAIL, ו ADDRESS תכונות קשורות עשויות להיות שונות לחלוטין, וגם אופן פעולת ההונאה עשוי להשתנות. Amazon Fraud Detector משתמש EVENT_TIMESTAMP לפצל נתונים ולהעריך את המודל שלך על תת-קבוצת האירועים המתאימה במערך הנתונים שלך. אם התפלגות הנתונים ההיסטוריים שלך משתנה באופן משמעותי, מערך ההערכה עשוי להיות שונה מאוד מנתוני ההדרכה, וביצועי המודל המדווחים עשויים להיות נמוכים.

אתה יכול לבדוק את הבעיה הפוטנציאלית של שינוי בהפצת הנתונים על ידי בדיקת הנתונים ההיסטוריים שלך:

השתמש פרופיל נתונים של גלאי הונאה של אמזון כלי לבדוק אם שיעור ההונאה והשיעור החסר של התווית השתנו עם הזמן.
בדוק אם התפלגות המשתנה לאורך זמן השתנתה באופן משמעותי, במיוחד עבור תכונות בעלות חשיבות משתנה גבוהה.
בדוק את התפלגות המשתנים לאורך זמן לפי משתני יעד. אם אתה מבחין בהרבה יותר אירועי הונאה מקטגוריה אחת בנתונים האחרונים, אולי תרצה לבדוק אם השינוי סביר באמצעות השיפוט העסקי שלך.

אם אתה מוצא שהשיעור החסר של התווית גבוה מאוד או ששיעור ההונאה ירד בעקביות בתאריכים האחרונים, זה עשוי להיות אינדיקציה לכך שהתוויות לא התבגרו במלואן. עליך לא לכלול את הנתונים העדכניים ביותר או להמתין זמן רב יותר כדי לאסוף את התוויות המדויקות, ולאחר מכן לאמן מחדש את הדגם שלך.

אם אתה מבחין בעלייה חדה של שיעור הונאה ומשתנים בתאריכים ספציפיים, אולי תרצה לבדוק שוב אם מדובר בבעיה חריגה או באיסוף נתונים. במקרה כזה, עליך למחוק את האירועים הללו ולאמן מחדש את המודל.

אם אתה מוצא שהנתונים המיושנים אינם יכולים לייצג את העסק הנוכחי והעתידי שלך, עליך לא לכלול את תקופת הנתונים הישנה מההדרכה. אם אתה משתמש באירועים מאוחסנים ב-Amazon Fraud Detector, אתה יכול פשוט לאמן מחדש גרסה חדשה ולבחור את טווח התאריכים המתאים תוך הגדרת עבודת ההדרכה. זה עשוי גם להצביע על כך שאופן פעולת ההונאה בעסק שלך משתנה מהר יחסית לאורך זמן. לאחר פריסת המודל, ייתכן שיהיה עליך לאמן מחדש את הדגם שלך לעתים קרובות.

מיפוי לא תקין של סוג משתנה

Amazon Fraud Detector מעשיר והופך את הנתונים על סמך סוגי המשתנים. חשוב שתמפה את המשתנים שלך לסוג הנכון כדי שמודל גלאי ההונאות של אמזון יוכל לקחת את הערך המרבי של הנתונים שלך. לדוגמה, אם אתה ממפה IP אל ה CATEGORICAL הקלד במקום IP_ADDRESS, אתה לא מקבל את IP-העשרה קשורים ב-backend.

באופן כללי, Amazon Fraud Detector מציע את הפעולות הבאות:

מפה את המשתנים שלך לסוגים ספציפיים, כגון IP_ADDRESS, EMAIL_ADDRESS, CARD_BIN, ו PHONE_NUMBER, כך ש-Amazon Fraud Detector יוכל לחלץ ולהעשיר מידע נוסף.
אם אינך מוצא את סוג המשתנה הספציפי, מפה אותו לאחד משלושת הסוגים הגנריים: NUMERIC, CATEGORICAL, או FREE_FORM_TEXT.
אם משתנה הוא בצורת טקסט ויש לו קרדינליות גבוהה, כגון סקירת לקוח או תיאור מוצר, עליך למפות אותו ל- FREE_FORM_TEXT סוג משתנה כך ש-Amazon Fraud Detector מחלץ עבורך תכונות טקסט והטמעות בקצה העורפי. לדוגמה, אם אתה ממפה url_string ל FREE_FORM_TEXT, היא מסוגלת לאסום את כתובת האתר ולחלץ מידע כדי להזין את המודל במורד הזרם, מה שיעזור לו ללמוד עוד דפוסים נסתרים מכתובת האתר.

אם תגלה שאחד מסוגי המשתנים שלך ממופה בצורה שגויה בתצורת משתנים, תוכל לשנות את סוג המשתנים שלך ואז לאמן מחדש את המודל.

אין מספיק נתונים או תכונות

Amazon Fraud Detector דורש לפחות 10,000 רשומות כדי להכשיר מודל Online Fraud Insights (OFI) או Transaction Fraud Insights (TFI), כאשר לפחות 400 מהרשומות הללו מזוהות כמרמה. TFI גם דורש שגם רשומות הונאה וגם רשומות לגיטימיות יגיעו מלפחות 100 ישויות שונות כל אחת כדי להבטיח את הגיוון של מערך הנתונים. בנוסף, Amazon Fraud Detector דורש מנתוני הדוגמנות יהיו לפחות שני משתנים. אלו הן דרישות הנתונים המינימליות לבניית מודל שימושי של גלאי הונאה של אמזון. עם זאת, שימוש ביותר רשומות ומשתנים בדרך כלל עוזר למודלים של ML ללמוד טוב יותר את הדפוסים הבסיסיים מהנתונים שלך. כאשר אתה מבחין ב-AUC נמוך או לא מוצא ספים העונים על הדרישה העסקית שלך, עליך לשקול להכשיר את המודל שלך עם נתונים נוספים או להוסיף תכונות חדשות למודל שלך. בדרך כלל, אנחנו מוצאים EMAIL_ADDRESS, IP, PAYMENT_TYPE, BILLING_ADDRESS, SHIPPING_ADDRESS, ו DEVICE משתנים קשורים חשובים בזיהוי הונאה.

סיבה אפשרית נוספת היא שחלק מהמשתנים שלך מכילים יותר מדי ערכים חסרים. כדי לראות אם זה קורה, בדוק את הודעות ההדרכה של המודל ועיין ב פתרון בעיות בנתוני אימון להצעות.

בעיות נפוצות לביצועי דגם גבוהים מאוד

בחלק זה, אנו דנים בבעיות נפוצות הקשורות לביצועי מודל גבוהים מאוד.

דליפת תווית

דליפת תווית מתרחשת כאשר מערכי הנתונים של האימון משתמשים במידע שלא היה צפוי להיות זמין בזמן החיזוי. הוא מעריך יתר על המידה את התועלת של המודל כאשר הוא פועל בסביבת ייצור.

AUC גבוה (קרוב ל-1), התפלגות ציונים מופרדת בצורה מושלמת וחשיבות משתנה גבוהה משמעותית של משתנה אחד יכולים להיות אינדיקטורים לבעיות דליפת תווית אפשריות. אתה יכול גם לבדוק את המתאם בין התכונות והתווית באמצעות פרופיל נתונים. ה מתאם תכונה ותווית העלילה מציגה את המתאם בין כל תכונה לבין התווית. אם לתכונה אחת יש יותר מתאם של 0.99 עם התווית, עליך לבדוק אם התכונה משמשת כראוי בהתבסס על שיפוט עסקי. לדוגמה, כדי לבנות מודל סיכון לאישור או דחיית בקשת הלוואה, אל תשתמש בתכונות כמו AMOUNT_PAID, כי התשלומים מתרחשים לאחר תהליך החיתום. אם משתנה אינו זמין בזמן ביצוע החיזוי, עליך להסיר את המשתנה הזה מתצורת המודל ולאמן מחדש מודל חדש.

הדוגמה הבאה מציגה את המתאם בין כל משתנה ותווית. investigation_status יש מתאם גבוה (קרוב ל-1) עם התווית, אז כדאי לבדוק שוב אם יש בעיית דליפת תווית.

דפוסי הונאה פשוטים

כאשר דפוסי ההונאה בנתונים שלך פשוטים, ייתכן שתבחין גם בביצועי מודל גבוהים מאוד. לדוגמה, נניח שכל אירועי ההונאה בנתוני המודלים מגיעים דרך אותו ספק שירות פנימי; זה פשוט עבור הדגם לבחור את IP-משתנים קשורים ולהחזיר מודל "מושלם" עם חשיבות גבוהה של IP.

דפוסי הונאה פשוטים לא תמיד מעידים על בעיית נתונים. זה יכול להיות נכון שקל לתפוס את אופן פעולת ההונאה בעסק שלך. עם זאת, לפני מסקנה, עליך לוודא שהתוויות המשמשות בהכשרת מודלים מדויקות, ונתוני הדוגמנות מכסים דפוסי הונאה רבים ככל האפשר. לדוגמה, אם אתה מתייג את אירועי ההונאה שלך בהתבסס על כללים, כגון תיוג כל האפליקציות מפרט מסוים BILLING_ZIP ועוד PRODUCT_CATEGORY בתור הונאה, המודל יכול בקלות לתפוס את ההונאות הללו על ידי הדמיית הכללים והשגת AUC גבוה.

אתה יכול לבדוק את התפלגות התווית על פני קטגוריות או פחים שונים של כל תכונה באמצעות ה פרופיל נתונים. לדוגמה, אם אתה מבחין שרוב אירועי ההונאה מגיעים מקטגוריית מוצרים אחת או כמה, זה עשוי להיות אינדיקציה לדפוסי הונאה פשוטים, ואתה צריך לאשר שלא מדובר בטעות באיסוף נתונים או בתהליך. אם התכונה היא כמו CUSTOMER_ID, עליך לא לכלול את התכונה בהכשרת מודלים.

הדוגמה הבאה מציגה את התפלגות התוויות על פני קטגוריות שונות של product_category. כל ההונאה מגיעה משתי קטגוריות מוצרים.

דגימת נתונים לא נכונה

דגימת נתונים לא נכונה עלולה להתרחש כאשר דגמת ורק חלק מהנתונים שלך שלחתם ל-Amazon Fraud Detector. אם הנתונים לא נדגמו כראוי ואינם מייצגים את התעבורה בייצור, ביצועי המודל המדווחים יהיו לא מדויקים והמודל עשוי להיות חסר תועלת עבור חיזוי ייצור. לדוגמה, אם כל אירועי ההונאה בנתוני הדוגמנות נדגמו מאסיה וכל האירועים החוקיים נדגמו מארה"ב, המודל עשוי ללמוד להפריד בין הונאה לגיטימית על סמך BILLING_COUNTRY. במקרה זה, המודל אינו גנרי ליישום על אוכלוסיות אחרות.

בדרך כלל, אנו מציעים לשלוח את כל האירועים האחרונים ללא דגימה. בהתבסס על גודל הנתונים ושיעור ההונאה, Amazon Fraud Detector מבצע עבורך דגימות לפני הכשרת מודלים. אם הנתונים שלך גדולים מדי (מעל 100 GB) ואתה מחליט לדגום ולשלוח רק תת-קבוצה, עליך לדגום את הנתונים שלך באקראי ולוודא שהמדגם מייצג את כלל האוכלוסייה. עבור TFI, עליך לדגום את הנתונים שלך לפי ישות, מה שאומר שאם ישות אחת נדגמת, עליך לכלול את כל ההיסטוריה שלה כך שהצברים ברמת הישות יחושבו בצורה נכונה. שים לב שאם אתה שולח רק תת-קבוצה של נתונים ל-Amazon Fraud Detector, הצברים בזמן אמת במהלך ההסקה עלולים להיות לא מדויקים אם האירועים הקודמים של הישויות לא יישלחו.

דגימת נתונים לא נכונה יכולה להיות רק שימוש בפרק זמן קצר של נתונים, כמו נתונים של יום אחד, כדי לבנות את המודל. הנתונים עשויים להיות מוטים, במיוחד אם התקפות העסק או ההונאה שלך הן עונתיות. בדרך כלל אנו ממליצים לכלול לפחות שני מחזורים (כגון שבועיים או חודשיים) של נתונים במודלים כדי להבטיח את מגוון סוגי ההונאות.

סיכום

לאחר אבחון ופתרון של כל הבעיות הפוטנציאליות, אתה צריך לקבל מודל שימושי של Amazon Fraud Detector ולהיות בטוח לגבי הביצועים שלו. לשלב הבא, אתה יכול ליצור גלאי עם המודל והכללים העסקיים שלך, והיה מוכן לפרוס אותו לייצור לצורך הערכת מצב צל.

נספח

כיצד לא לכלול משתנים עבור אימון מודלים

לאחר הצלילה לעומק, ייתכן שתזהה מידע יעד דליפה משתנה, ותרצה להוציא אותו מהדרכת מודלים. אתה יכול לאמן מחדש גרסת מודל ללא המשתנים שאינך רוצה על ידי השלמת השלבים הבאים:

במסוף של Amazon Fraud Detector, בחלונית הניווט, בחר מודלים.
על מודלים בעמוד, בחר את הדגם שברצונך להכשיר מחדש.
על פעולות בתפריט, בחר הרכבת גרסה חדשה.
בחר את טווח התאריכים שבו ברצונך להשתמש ובחר הַבָּא.
על הגדר את האימון בדף, בטל את הבחירה במשתנה שאינך רוצה להשתמש בו באימון מודלים.
ציין את תוויות ההונאה והתוויות הלגיטימיות שלך וכיצד אתה רוצה ש-Amazon Fraud Detector ישתמש באירועים ללא תווית, ולאחר מכן בחר הַבָּא.
סקור את תצורת הדגם ובחר צור והכשיר מודל.

כיצד לשנות את סוג משתנה האירוע

משתנים מייצגים רכיבי נתונים המשמשים למניעת הונאה. ב-Amazon Fraud Detector, כל המשתנים הם גלובליים ומשותפים לכל האירועים והמודלים, מה שאומר שניתן להשתמש במשתנה אחד במספר אירועים. לדוגמה, IP יכול להיות משויך לאירועי כניסה, והוא יכול להיות משויך גם לאירועי עסקאות. באופן טבעי, Amazon Fraud Detector נעל את סוג המשתנה וסוג הנתונים ברגע שנוצר משתנה. כדי למחוק משתנה קיים, תחילה עליך למחוק את כל סוגי האירועים והמודלים המשויכים. אתה יכול לבדוק את המשאבים המשויכים למשתנה הספציפי על ידי ניווט אל Amazon Fraud Detector, בחירה משתנים בחלונית הניווט, ובחירת שם המשתנה ו משאבים נלווים.

מחק את המשתנה ואת כל סוגי האירועים המשויכים

כדי למחוק את המשתנה, בצע את השלבים הבאים:

במסוף של Amazon Fraud Detector, בחלונית הניווט, בחר משתנים.
בחר את המשתנה שברצונך למחוק.
לבחור משאבים נלווים כדי להציג רשימה של כל סוגי האירועים שבהם נעשה שימוש במשתנה זה.
עליך למחוק את סוגי האירועים המשויכים לפני מחיקת המשתנה.
בחר את סוגי האירועים ברשימה כדי לעבור לדף סוג האירוע המשויך.
לבחור אירועים מאוחסנים כדי לבדוק אם נתונים כלשהם מאוחסנים תחת סוג אירוע זה.
אם יש אירועים המאוחסנים ב- Amazon Fraud Detector, בחר מחק אירועים מאוחסנים כדי למחוק את האירועים המאוחסנים.
כאשר עבודת המחיקה הושלמה, תופיע ההודעה "האירועים המאוחסנים עבור סוג אירוע זה נמחקו בהצלחה".
לבחור משאבים נלווים.
אם גלאים ודגמים משויכים לסוג האירוע הזה, תחילה עליך למחוק משאבים אלה.
אם גלאים משויכים, בצע את השלבים הבאים כדי למחוק את כל הגלאים המשויכים:
1. בחר את הגלאי לעבור אל פרטי גלאי עמוד.
2. ב גרסאות דגם בחלונית, בחר את גרסת הגלאי.
3. בדף גרסת הגלאי, בחר פעולות.
4. אם גרסת הגלאי פעילה, בחר Deactivate, בחר השבת את גרסת הגלאי הזו מבלי להחליף אותה בגרסה אחרת, ולבחור השבת את גרסת הגלאי.
5. לאחר ביטול הפעלת גרסת הגלאי, בחר פעולות ולאחר מכן מחק.
6. חזור על שלבים אלה כדי למחוק את כל גרסאות הגלאי.
7. על פרטי גלאי עמוד, בחר כללים נלווים.
8. בחר את הכלל למחיקה.
9. לבחור פעולות ו מחק את גרסת הכלל.
10. הזן את שם הכלל כדי לאשר ולבחור מחק גרסה.
11. חזור על שלבים אלה כדי למחוק את כל הכללים המשויכים.
12. לאחר מחיקת כל גרסאות הגלאי והכללים המשויכים, עבור אל פרטי גלאי עמוד, בחר פעולות, ולבחור מחק גלאי.
13. הזן את שם הגלאי ובחר מחק גלאי.
14. חזור על שלבים אלה כדי למחוק את הגלאי הבא.
אם דגמים כלשהם משויכים לסוג האירוע, בצע את השלבים הבאים כדי למחוק אותם:
1. בחר את שם הדגם.
2. ב גרסאות דגם בחלונית, בחר את הגרסה.
3. אם מצב הדגם הוא Active, בחר פעולות ו ביטול פריסה של גרסת הדגם.
4. זן undeploy לאשר ולבחור ביטול פריסה של גרסת הדגם.
  הסטטוס משתנה ל Undeploying. התהליך נמשך מספר דקות.
5. לאחר שהסטטוס הופך Ready to deploy, בחר פעולות ומחק.
6. חזור על שלבים אלה כדי למחוק את כל גרסאות הדגם.
7. בדף פרטי הדגם, בחר פעולות ומחק דגם.
8. הזן את שם הדגם ובחר מחק דגם.
9. חזור על שלבים אלה כדי למחוק את הדגם הבא.
לאחר מחיקת כל הגלאים והדגמים המשויכים, בחר פעולות ו מחק את סוג האירוע על פרטי האירוע עמוד.
הזן את שם סוג האירוע ובחר מחק את סוג האירוע.
בחלונית הניווט בחר משתנים, ובחר את המשתנה שברצונך למחוק.
חזור על השלבים הקודמים כדי למחוק את כל סוגי האירועים המשויכים למשתנה.
על פרטים משתנים עמוד, בחר פעולות ו מחק.
הזן את שם המשתנה ובחר מחק משתנה.

צור משתנה חדש עם סוג המשתנה הנכון

לאחר שמחקת את המשתנה ואת כל סוגי האירועים המשויכים, האירועים המאוחסנים, הדגמים והגלאים מ-Amazon Fraud Detector, תוכל ליצור משתנה חדש באותו שם ולמפות אותו לסוג המשתנה הנכון.

במסוף של Amazon Fraud Detector, בחלונית הניווט, בחר משתנים.
לבחור צור.
הזן את שם המשתנה שברצונך לשנות (זה שמחקת קודם לכן).
בחר את סוג המשתנה הנכון שאליו ברצונך לשנות.
לבחור צור משתנה.

העלה נתונים והכשרת מחדש את המודל

לאחר שתעדכן את סוג המשתנה, תוכל להעלות את הנתונים שוב ולהכשיר מודל חדש. להנחיות, עיין ב איתור הונאות עסקאות מקוונות בעזרת תכונות חדשות של גלאי הונאות.

כיצד להוסיף משתנים חדשים לסוג אירוע קיים

כדי להוסיף משתנים חדשים לסוג האירוע הקיים, בצע את השלבים הבאים:

הוסף את המשתנים החדשים לקובץ CVS האימון הקודם.
העלה את קובץ נתוני האימון החדש לדלי S3. שים לב למיקום Amazon S3 של קובץ האימון שלך (לדוגמה, s3://bucketname/path/to/some/object.csv) ושם התפקיד שלך.
במסוף של Amazon Fraud Detector, בחלונית הניווט, בחר אירועים.
על סוגי אירועים בדף, בחר את שם סוג האירוע שברצונך להוסיף משתנים.
על סוג אירוע עמוד הפרטים, בחר פעולות, לאחר מכן הוסף משתנים.
תַחַת בחר כיצד להגדיר את המשתנים של אירוע זה, בחר בחר משתנים ממערך האימונים.
עבור תפקיד IAM, בחר תפקיד IAM קיים או צור תפקיד חדש כדי לגשת לנתונים באמזון S3.
בעד מיקום נתונים, הזן את מיקום S3 של קובץ ההדרכה החדש ובחר העלה.
המשתנים החדשים שאינם קיימים בסוג האירוע הקיים אמורים להופיע ברשימה.
לבחור הוסף משתנים.

כעת, המשתנים החדשים נוספו לסוג האירוע הקיים. אם אתה משתמש באירועים מאוחסנים ב- Amazon Fraud Detector, המשתנים החדשים של האירועים המאוחסנים עדיין חסרים. עליך לייבא את נתוני ההדרכה עם המשתנים החדשים ל-Amazon Fraud Detector ולאחר מכן לאמן מחדש גרסה חדשה של דגם. בעת העלאת נתוני האימון החדשים עם אותו הדבר EVENT_ID ו EVENT_TIMESTAMP, משתני האירוע החדשים מחליפים את משתני האירועים הקודמים המאוחסנים ב-Amazon Fraud Detector.

על הכותבים

ג'וליה שו הוא מדען מחקר עם Amazon Fraud Detector. היא נלהבת בפתרון אתגרי לקוחות באמצעות טכניקות למידת מכונה. בזמנה הפנוי היא נהנית לטייל, לצייר ולחקור בתי קפה חדשים.

האו ג'ו הוא מדען מחקר עם Amazon Fraud Detector. הוא בעל תואר דוקטור בהנדסת חשמל מאוניברסיטת נורת'ווסטרן, ארה"ב. הוא נלהב ליישם טכניקות למידת מכונה כדי להילחם בהונאה והתעללות.

אבהישק ראווי הוא מנהל מוצר בכיר ב-Amazon Fraud Detector. הוא נלהב למינוף יכולות טכניות לבניית מוצרים שמשמחים לקוחות.

בול זמן: יוני 29, 2022

עוד מ למידת מכונות AWS

חסכנות פוגשת דיוק: הדרכה חסכונית של דגמי GPT NeoX ו-Pytia עם AWS Trainium | שירותי האינטרנט של אמזון

למידת מכונות AWS

צומת המקור: 1218529

בול זמן: מר 16, 2022

מכוניות זעירות וכישרונות גדולים מראים לקובעי המדיניות הקנדיים את הכוח של למידת מכונה

אשכול המקור:

למידת מכונות AWS

צומת המקור: 1594996

בול זמן: יולי 26, 2022

הועלה מחדש על ידי אפלטון

חסכנות פוגשת דיוק: הדרכה חסכונית של דגמי GPT NeoX ו-Pytia עם AWS Trainium | שירותי האינטרנט של אמזון

המדריך שלך ל-AI/ML ב-AWS re:Invent 2022

הכנת נתונים ואימון מודלים מאוחדים עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot

תיוג ענן נקודות תלת מימדי של LiDAR עם חיישן Velodyne LiDAR באמזון SageMaker Ground Truth

התאם אישית את תוצאות החיפוש שלך עם שילוב של Amazon Personalize ו-Amazon OpenSearch Service | שירותי האינטרנט של אמזון

עיבוד מסמכים חכם עם שירותי AI של AWS: חלק 1

MLOps בקצה עם Amazon SageMaker Edge Manager ו-AWS IoT Greengrass

עבד מסמכי משכנתא עם עיבוד מסמכים חכם באמצעות Amazon Textract ו- Amazon Comprehend

בצע חיפוש חכם בהודעות דוא"ל בסביבת העבודה שלך ב-Google באמצעות מחבר Gmail עבור אמזון קנדרה

מודלים ואלגוריתמים של אמזון SageMaker JumpStart זמינים כעת באמצעות API

מכוניות זעירות וכישרונות גדולים מראים לקובעי המדיניות הקנדיים את הכוח של למידת מכונה

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן