Detect Fraudulent Transactions Using Machine Learning With Amazon SageMaker

הועלה מחדש על ידי אפלטון

עוקב: 0

עסקים יכולים להפסיד מיליארדי דולרים מדי שנה עקב משתמשים זדוניים ועסקאות הונאה. ככל שיותר ויותר פעולות עסקיות עוברות לרשת, ההונאות וההתעללות במערכות מקוונות גם הן במגמת עלייה. כדי להילחם בהונאה מקוונת, עסקים רבים השתמשו במערכות זיהוי הונאה מבוססות כללים.

עם זאת, מערכות מסורתיות לגילוי הונאה מסתמכות על מערכת כללים ומסננים שנוצרו ביד על ידי מומחים אנושיים. המסננים יכולים לעתים קרובות להיות שבירים והכללים עשויים שלא ללכוד את כל הספקטרום של אותות הונאה. יתר על כן, בעוד שהתנהגויות הונאה מתפתחות כל הזמן, האופי הסטטי של כללים ומסננים מוגדרים מראש מקשה על תחזוקה ושיפור של מערכות זיהוי הונאה מסורתיות בצורה יעילה.

בפוסט זה, אנו מראים לך כיצד לבנות מערכת דינמית, המשתפרת מעצמה וניתנת לתחזוקה של מערכת זיהוי הונאות כרטיסי אשראי עם למידת מכונה (ML) באמצעות אמזון SageMaker.

לחלופין, אם אתה מחפש שירות מנוהל במלואו לבניית מודלים מותאמים אישית לזיהוי הונאה מבלי לכתוב קוד, אנו ממליצים לבדוק גלאי הונאות של אמזון. Amazon Fraud Detector מאפשר ללקוחות ללא ניסיון ב-ML לבצע אוטומציה של בניית מודלים לזיהוי הונאה המותאמים לנתונים שלהם, תוך מינוף של יותר מ-20 שנות מומחיות בגילוי הונאה מ-AWS ו-Amazon.com.

סקירת פתרונות

פתרון זה בונה את הליבה של מערכת גילוי הונאות בכרטיסי אשראי באמצעות SageMaker. אנו מתחילים באימון מודל זיהוי אנומליות ללא פיקוח באמצעות האלגוריתם יער חתוך אקראי (RCF). לאחר מכן אנו מאמנים שני מודלים של סיווג בפיקוח באמצעות האלגוריתם XGBoost, האחד כמודל בסיס והשני לביצוע תחזיות, תוך שימוש באסטרטגיות שונות כדי לטפל בחוסר האיזון הקיצוני של המעמדות בנתונים. לבסוף, אנו מאמנים דגם XGBoost אופטימלי עם אופטימיזציה של hyperparameter (HPO) כדי לשפר עוד יותר את ביצועי הדגם.

עבור מערך הנתונים לדוגמה, אנו משתמשים בעסקאות הציבוריות האנונימיות בכרטיסי אשראי מערך נתונים ששוחרר במקור כחלק מ-a מחקר שיתוף פעולה של Worldline וה- קבוצת למידת מכונה של ULB (Université Libre de Bruxelles). בהדרכה, אנו גם דנים כיצד תוכל להתאים אישית את הפתרון לשימוש בנתונים שלך.

התפוקות של הפתרון הן כדלקמן:

ללא השגחה SageMaker RCF דֶגֶם. המודל מוציא ציון חריג עבור כל עסקה. ערך ניקוד נמוך מצביע על כך שהעסקה נחשבת תקינה (לא הונאה). ערך גבוה מצביע על כך שהעסקה היא הונאה. ההגדרות של נמוך וגבוה תלויות ביישום, אך מנהג מקובל מצביע על כך שציונים מעבר לשלוש סטיות תקן מהציון הממוצע נחשבים לאנומליים.
א מפוקח SageMaker XGBoost מודל מאומן באמצעות סכימת הניפוח המובנית שלו כדי לטפל בבעיית הנתונים המאוד לא מאוזנים.
דגם SageMaker XGBoost מפוקח שהוכשר באמצעות טכניקת דגימת יתר של מיעוטים סינתטיים (SMOTE).
דגם SageMaker XGBoost מאומן עם HPO.
תחזיות לגבי ההסתברות לכל עסקה להיות הונאה. אם ההסתברות המשוערת לעסקה היא מעבר לסף, היא מסווגת כהונאה.

כדי להדגים כיצד אתה יכול להשתמש בפתרון זה בתשתיות העסקיות הקיימות שלך, אנו כוללים גם דוגמה לביצוע קריאות REST API לנקודת הקצה של המודל הפרוס, באמצעות AWS למבדה כדי להפעיל גם את דגמי RCF וגם XGBoost.

התרשים הבא ממחיש את ארכיטקטורת הפתרונות.

תנאים מוקדמים

כדי לנסות את הפתרון בחשבון שלך, ודא שיש לך את הדברים הבאים:

כאשר המופע של Studio מוכן, אתה יכול להפעיל את Studio ולגשת ל-JumpStart. פתרונות JumpStart אינם זמינים במופעי מחברת SageMaker, ואי אפשר לגשת אליהם דרך ממשקי ה-API של SageMaker או ממשק שורת הפקודה של AWS (AWS CLI).

הפעל את הפתרון

כדי להפעיל את הפתרון, בצע את השלבים הבאים:

פתח את JumpStart באמצעות משגר JumpStart ב- למלונות או על ידי בחירה בסמל JumpStart בסרגל הצד השמאלי.
תַחַת פתרונות, בחר זיהוי משתמשים זדוניים ועסקאות כדי לפתוח את הפתרון בלשונית סטודיו אחרת.
בלשונית הפתרון, בחר לשגר כדי להשיק את הפתרון.

משאבי הפתרון מסופקים וכרטיסייה נוספת נפתחת המציגה את התקדמות הפריסה. לאחר סיום הפריסה, א פתח מחברת כפתור מופיע.
בחרו פתח מחברת כדי לפתוח את מחברת הפתרונות בסטודיו.

לחקור ולעבד את הנתונים

מערך הנתונים המוגדר כברירת מחדל מכיל רק תכונות מספריות, מכיוון שהתכונות המקוריות שונו באמצעות ניתוח רכיבים עיקריים (PCA) כדי להגן על פרטיות המשתמש. כתוצאה מכך, מערך הנתונים מכיל 28 רכיבי PCA, V1–V28, ושתי תכונות שלא שונו, כמות וזמן. סכום מתייחס לסכום העסקה, וזמן הוא השניות שחולפות בין כל עסקה בנתונים לבין העסקה הראשונה.

העמודה Class מתאימה לשאלה אם עסקה היא הונאה או לא.

אנו יכולים לראות שהרוב אינו הונאה, כי מתוך סך 284,807 הדוגמאות, רק 492 (0.173%) הם הונאה. זהו מקרה של חוסר איזון מעמדי קיצוני, שכיח בתרחישים של גילוי הונאה.

לאחר מכן אנו מכינים את הנתונים שלנו לטעינה והדרכה. חילקנו את הנתונים לקבוצת רכבת ולסט מבחן, תוך שימוש בראשון כדי לאמן ובשני כדי להעריך את הביצועים של המודל שלנו. חשוב לפצל את הנתונים לפני יישום טכניקות כלשהן כדי להקל על חוסר האיזון בכיתה. אחרת, אנו עלולים להדליף מידע ממערך הבדיקה אל מערכת הרכבת ולפגוע בביצועי הדגם.

אם אתה רוצה להביא נתוני אימון משלך, ודא שהם נתונים טבלאיים בפורמט CSV, העלה את הנתונים ל- שירות אחסון פשוט של אמזון (Amazon S3) דלי, וערוך את נתיב האובייקט S3 בקוד המחברת.

אם הנתונים שלך כוללים עמודות קטגוריות עם ערכים לא מספריים, עליך לקודד ערכים אלה בצורה חדה (באמצעות, למשל, OneHotEncoder של sklearn) כי אלגוריתם XGBoost תומך רק בנתונים מספריים.

אימון דגם Random Cut Forest ללא פיקוח

בתרחיש של זיהוי הונאה, בדרך כלל יש לנו מעט מאוד דוגמאות מתויגות, והונאת תיוג יכולה לקחת הרבה זמן ומאמץ. לכן, אנו רוצים גם לחלץ מידע מהנתונים שאינם מסומנים בהישג יד. אנו עושים זאת באמצעות אלגוריתם לזיהוי חריגות, תוך ניצול חוסר האיזון הגבוה בנתונים הנפוץ במערך נתונים לזיהוי הונאה.

זיהוי אנומליות הוא סוג של למידה ללא פיקוח שבה אנו מנסים לזהות דוגמאות חריגות על סמך מאפייני התכונות שלהן בלבד. Random Cut Forest הוא אלגוריתם חדיש לזיהוי אנומליות שהוא מדויק וניתן להרחבה. לכל דוגמה לנתונים, RCF משייך ציון חריג.

אנו משתמשים באלגוריתם RCF המובנה של SageMaker כדי להכשיר מודל זיהוי חריגות במערך האימון שלנו, ולאחר מכן לבצע תחזיות על מערך הבדיקה שלנו.

ראשית, אנו בוחנים ומשרטטים את ציוני האנומליה החזויים עבור דוגמאות חיוביות (הונאה) ושליליות (לא הונאה) בנפרד, מכיוון שמספר הדוגמאות החיוביות והשליליות שונה באופן משמעותי. אנו מצפים שלדוגמאות החיוביות (ההונאה) יהיו ציוני חריגות גבוהים יחסית, ולשליליות (הלא הונאה) יהיו ציוני אנומליה נמוכים. מההיסטוגרמות, אנו יכולים לראות את התבניות הבאות:

לכמעט מחצית מהדוגמאות החיוביות (היסטוגרמה שמאל) יש ציוני אנומליה גבוהים מ-0.9, בעוד שלרוב הדוגמאות השליליות (היסטוגרמה ימנית) יש ציוני אנומליה הנמוכים מ-0.85.
לאלגוריתם הלמידה ללא פיקוח RCF יש מגבלות לזהות דוגמאות הונאה ולא הונאה בצורה מדויקת. הסיבה לכך היא שלא נעשה שימוש במידע על תווית. אנו מטפלים בבעיה זו על ידי איסוף מידע תווית ושימוש באלגוריתם למידה בפיקוח בשלבים מאוחרים יותר.

לאחר מכן, אנו מניחים תרחיש אמיתי יותר שבו אנו מסווגים כל דוגמה לבדיקה כחיובית (הונאה) או שלילית (לא הונאה) על סמך ציון החריגות שלה. אנו משרטטים את היסטוגרמת הציונים עבור כל דוגמאות המבחנים כדלקמן, ובוחרים בציון חיתוך של 1.0 (בהתבסס על התבנית המוצגת בהיסטוגרמה) לסיווג. באופן ספציפי, אם ציון האנומליה של דוגמה קטן או שווה ל-1.0, הוא מסווג כשלילי (לא הונאה). אחרת, הדוגמה מסווגת כחיובית (הונאה).

לבסוף, אנו משווים את תוצאת הסיווג עם תוויות האמת הבסיסית ומחשבים את מדדי ההערכה. מכיוון שמערך הנתונים שלנו אינו מאוזן, אנו משתמשים במדדי ההערכה דיוק מאוזן, ציון קאפה של כהן, ציון F1, ו ROC AUC, כי הם לוקחים בחשבון את התדירות של כל מחלקה בנתונים. עבור כל המדדים הללו, ערך גדול יותר מצביע על ביצועים חזויים טובים יותר. שימו לב שבשלב זה איננו יכולים עדיין לחשב את ה-ROC AUC, מכיוון שאין הסתברות משוערת למחלקות חיוביות ושליליות ממודל RCF בכל דוגמה. אנו מחשבים מדד זה בשלבים מאוחרים יותר באמצעות אלגוריתמי למידה מפוקחים.

.	RCF
דיוק מאוזן	0.560023
הקאפה של כהן	0.003917
F1	0.007082
ROC AUC	-

משלב זה, אנו יכולים לראות שהמודל הלא מפוקח כבר יכול להשיג הפרדה מסוימת בין הכיתות, עם ציוני אנומליה גבוהים יותר בקורלציה עם דוגמאות הונאה.

אמן דגם XGBoost עם סכימת הניפוח המובנית

לאחר שאספנו כמות נאותה של נתוני אימון מתויגים, נוכל להשתמש באלגוריתם למידה בפיקוח כדי לגלות קשרים בין התכונות והשיעורים. אנו בוחרים באלגוריתם XGBoost מכיוון שיש לו רקורד מוכח, ניתן להרחבה מאוד ויכול להתמודד עם נתונים חסרים. אנחנו צריכים להתמודד עם חוסר איזון הנתונים הפעם, אחרת מעמד הרוב (הדוגמאות הלא הונאה או השליליות) ישלוט בלמידה.

אנו מאמנים ופורסים את המודל המפוקח הראשון שלנו באמצעות מיכל האלגוריתם המובנה של SageMaker XGBoost. זה המודל הבסיסי שלנו. כדי לטפל בחוסר איזון הנתונים, אנו משתמשים בפרמטר ההיפר scale_pos_weight, שמשנה את משקלי הדוגמאות המעמדיות החיוביות מול הדוגמאות המעמדיות השליליות. מכיוון שמערך הנתונים מוטה מאוד, אנו מגדירים את ההיפרפרמטר הזה לערך שמרני: sqrt(num_nonfraud/num_fraud).

אנו מאמנים ופורסים את המודל באופן הבא:

אחזר את ה-URI של מיכל SageMaker XGBoost.
הגדר את ההיפרפרמטרים שבהם נרצה להשתמש עבור אימון המודל, כולל זה שהזכרנו שמטפל בחוסר איזון בנתונים, scale_pos_weight.
צור מעריך XGBoost ואמן אותו עם מערך הרכבות שלנו.
פרוס את מודל XGBoost המיומן לנקודת קצה מנוהלת של SageMaker.
הערך את המודל הבסיסי הזה עם מערך הנתונים של הבדיקה שלנו.

לאחר מכן אנו מעריכים את המודל שלנו עם אותם ארבעת מדדים כפי שהוזכרו בשלב האחרון. הפעם נוכל גם לחשב את המדד ROC AUC.

.	RCF	XGBoost
דיוק מאוזן	0.560023	0.847685
הקאפה של כהן	0.003917	0.743801
F1	0.007082	0.744186
ROC AUC	-	0.983515

אנו יכולים לראות ששיטת למידה מפוקחת XGBoost עם סכימת הניפוח (באמצעות הפרמטר היפר scale_pos_weight) משיג ביצועים טובים משמעותית משיטת הלמידה הבלתי מפוקחת RCF. עם זאת, יש עדיין מקום לשפר את הביצועים. בפרט, העלאת ציון קאפה של כהן מעל 0.8 תהיה בדרך כלל חיובית מאוד.

מלבד מדדים בעלי ערך יחיד, כדאי גם להסתכל על מדדים המציינים ביצועים לכיתה. לדוגמה, מטריצת הבלבול, דיוק לכל מחלקה, ריקול וציון F1 יכולים לספק מידע נוסף על ביצועי המודל שלנו.

.	דיוק	זוכר	ציון f1	תמיכה
אי-הונאה	1.00	1.00	1.00	28435
הונאה	0.80	0.70	0.74	46

המשך לשלוח תעבורת בדיקה לנקודת הקצה דרך Lambda

כדי להדגים כיצד להשתמש במודלים שלנו במערכת ייצור, בנינו עם REST API שער API של אמזון ופונקציית למדה. כאשר יישומי לקוח שולחים בקשות להסקת HTTP אל REST API, מה שמפעיל את פונקציית Lambda, אשר בתורה מפעילה את נקודות הקצה של מודל RCF ו-XGBoost ומחזירה את התחזיות מהמודלים. אתה יכול לקרוא את קוד פונקציית Lambda ולנטר את הפעלות בקונסולת Lambda.

יצרנו גם סקריפט של Python שמבצע בקשות להסקת HTTP ל- REST API, עם נתוני הבדיקה שלנו כנתוני קלט. כדי לראות כיצד זה נעשה, בדוק את generate_endpoint_traffic.py קובץ בקוד המקור של הפתרון. יציאות החיזוי מתועדות לדלי S3 דרך an צינור אש נתונים של אמזון קינסי זרם משלוח. אתה יכול למצוא את שם דלי S3 של היעד בקונסולת Kinesis Data Firehose, ולבדוק את תוצאות החיזוי בדלי S3.

אימון דגם XGBoost עם טכניקת דגימת יתר SMOTE

כעת, לאחר שיש לנו מודל בסיס באמצעות XGBoost, אנו יכולים לראות אם טכניקות דגימה שתוכננו במיוחד לבעיות לא מאוזנות יכולות לשפר את ביצועי המודל. אנו משתמשים דגימת יתר של מיעוט סינתטי (SMOTE), אשר דוגמת יתר של מחלקת המיעוט על ידי אינטרפולציה של נקודות נתונים חדשות בין הקיימות.

השלבים הם כדלקמן:

השתמש ב-SMOTE כדי לדגום יתר על המידה את מחלקת המיעוט (המחלקה ההונאה) של מערך הרכבות שלנו. SMOTE דוגמת יתר את מעמד המיעוט מ-0.17-50% בערך. שימו לב שמדובר במקרה של דגימת יתר קיצונית של מעמד המיעוט. אלטרנטיבה תהיה להשתמש ביחס דגימה מחדש קטן יותר, כגון דגימת מחלקות מיעוט אחת לכל sqrt(non_fraud/fraud) רוב המדגם, או באמצעות טכניקות דגימה מתקדמות יותר. לאפשרויות נוספות של דגימת יתר, עיין ב השוו דגמי דגימת יתר.
הגדירו את הפרמטרים ההיפרמטרים לאימון ה-XGBoost השני כך ש-scale_pos_weight יוסר ושאר הפרמטרים יישארו זהים לאימון המודל הבסיסי של XGBoost. אנחנו לא צריכים לטפל בחוסר איזון בנתונים עם ההיפרפרמטר הזה יותר, כי כבר עשינו את זה עם SMOTE.
אמן את המודל השני של XGBoost עם הפרמטרים החדשים במערך הנתונים של הרכבות המעובדות של SMOTE.
פרוס את דגם XGBoost החדש לנקודת קצה מנוהלת של SageMaker.
הערך את המודל החדש עם מערך הנתונים של הבדיקה.

כאשר מעריכים את הדגם החדש, אנו יכולים לראות שעם SMOTE, XGBoost משיג ביצועים טובים יותר על דיוק מאוזן, אך לא על ציוני קאפה ו-F1 של כהן. הסיבה לכך היא ש-SMOTE דגמה יתר על המידה את מחלקת ההונאה עד כדי כך שהיא הגדילה את החפיפה שלו במרחב התכונות עם המקרים שאינם הונאה. מכיוון שהקאפה של כהן נותנת משקל רב יותר לתוצאות שגויות מאשר לדיוק מאוזן, המדד יורד משמעותית, וכך גם הדיוק וציון F1 עבור מקרי הונאה.

.	RCF	XGBoost	XGBoost SMOTE
דיוק מאוזן	0.560023	0.847685	0.912657
הקאפה של כהן	0.003917	0.743801	0.716463
F1	0.007082	0.744186	0.716981
ROC AUC	-	0.983515	0.967497

עם זאת, אנו יכולים להחזיר את האיזון בין המדדים על ידי התאמת סף הסיווג. עד כה, השתמשנו ב-0.5 כסף כדי לתייג אם נקודת נתונים היא הונאה או לא. לאחר ניסויים בספים שונים בין 0.1-0.9, אנו יכולים לראות שהקאפה של כהן ממשיכה לעלות יחד עם הסף, ללא הפסד משמעותי בדיוק המאוזן.

זה מוסיף כיול שימושי לדגם שלנו. אנו יכולים להשתמש בסף נמוך אם לא החמצת מקרי הונאה (שליליים כוזבים) היא העדיפות שלנו, או שנוכל להגדיל את הסף כדי למזער את מספר התוצאות השגויות.

אימון דגם XGBoost אופטימלי עם HPO

בשלב זה, אנו מדגימים כיצד לשפר את ביצועי המודל על ידי אימון מודל XGBoost השלישי שלנו עם אופטימיזציה של היפרפרמטרים. בעת בניית מערכות ML מורכבות, חקירה ידנית של כל השילובים האפשריים של ערכי היפרפרמטרים אינה מעשית. תכונת HPO ב- SageMaker יכולה להאיץ את הפרודוקטיביות שלך על ידי ניסיון של וריאציות רבות של דגם בשמך. הוא מחפש אוטומטית את המודל הטוב ביותר על ידי התמקדות בשילובים המבטיחים ביותר של ערכי היפרפרמטרים בטווחים שתציין.

תהליך ה-HPO זקוק למערך נתונים אימות, אז תחילה אנו מחלקים את נתוני ההדרכה שלנו למערך נתונים של הדרכה ואימות באמצעות דגימה מרובדת. כדי להתמודד עם בעיית חוסר איזון הנתונים, אנו משתמשים שוב בסכימת הניפוח של XGBoost, מגדירים את scale_pos_weight היפרפרמטר ל sqrt(num_nonfraud/num_fraud).

אנו יוצרים מעריך XGBoost באמצעות מיכל אלגוריתם XGBoost המובנה של SageMaker, ומציינים את מדד ההערכה האובייקטיבי ואת טווחי ההיפרפרמטרים שבהם נרצה להתנסות. בעזרת אלה אנו יוצרים א Hyperparameter טונר ולהתחיל את עבודת הכוונון של HPO, המאמנת מספר דגמים במקביל, מחפשת שילובי היפרפרמטרים אופטימליים.

כאשר עבודת הכוונון הושלמה, נוכל לראות את דוח הניתוח שלו ולבדוק את הפרמטרים ההיפרפרמטרים של כל מודל, מידע על עבודת ההדרכה והביצועים שלו מול מדד ההערכה האובייקטיבי.

לאחר מכן אנו פורסים את המודל הטוב ביותר ומעריכים אותו באמצעות מערך הבדיקה שלנו.

הערך והשווה את כל ביצועי המודל על אותם נתוני בדיקה

כעת יש לנו את תוצאות ההערכה מכל ארבעת הדגמים: RCF, XGBoost baseline, XGBoost עם SMOTE ו-XGBoost עם HPO. בואו נשווה את הביצועים שלהם.

.	RCF	XGBoost	XGBoost עם SMOTE	XGBoost עם HPO
דיוק מאוזן	0.560023	0.847685	0.912657	0.902156
הקאפה של כהן	0.003917	0.743801	0.716463	0.880778
F1	0.007082	0.744186	0.716981	0.880952
ROC AUC	-	0.983515	0.967497	0.981564

אנו יכולים לראות ש-XGBoost עם HPO משיג ביצועים טובים אפילו יותר מזה בשיטת SMOTE. בפרט, ציוני Kappa ו-F1 של כהן הם מעל 0.8, מה שמצביע על ביצועים אופטימליים של הדגם.

לנקות את

כשתסיים עם הפתרון הזה, ודא שאתה מוחק את כל משאבי ה-AWS הבלתי רצויים כדי למנוע חיובים לא מכוונים. בתוך ה מחק פתרון בכרטיסיית הפתרון שלך, בחר מחק את כל המשאבים כדי למחוק משאבים שנוצרו באופן אוטומטי בעת השקת פתרון זה.

לחלופין, ניתן להשתמש AWS CloudFormation כדי למחוק את כל המשאבים הסטנדרטיים שנוצרו אוטומטית על ידי הפתרון והמחברת. כדי להשתמש בגישה זו, במסוף AWS CloudFormation, מצא את מחסנית CloudFormation שהתיאור שלה מכיל הונאה-זיהוי-באמצעות-למידה-מכונה, ומחק אותה. זוהי ערימה אב, ובחירה למחוק מחסנית זו תמחק אוטומטית את הערימות המקוננות.

בכל אחת מהשיטות, אתה עדיין צריך למחוק ידנית כל משאבים נוספים שייתכן שיצרת במחברת זו. כמה דוגמאות כוללות דלי S3 נוספים (בנוסף לדלי ברירת המחדל של הפתרון), נקודות קצה נוספות של SageMaker (באמצעות שם מותאם אישית) ועוד מרשם מיכל אלסטי של אמזון מאגרים (Amazon ECR).

סיכום

בפוסט זה, הראינו לכם כיצד לבנות את הליבה של מערכת דינמית, שיפור עצמי וניתנת לתחזוקה של מערכת זיהוי הונאות כרטיסי אשראי באמצעות ML עם SageMaker. בנינו, הכשרנו ופרסנו מודל זיהוי חריגות RCF ללא פיקוח, מודל XGBoost מפוקח כבסיס, מודל XGBoost מפוקח נוסף עם SMOTE להתמודדות עם בעיית חוסר איזון הנתונים, ומודל XGBoost סופי שעבר אופטימיזציה עם HPO. דנו כיצד לטפל בחוסר איזון בנתונים ולהשתמש בנתונים שלך בפתרון. כללנו גם יישום REST API לדוגמה עם API Gateway ו- Lambda כדי להדגים כיצד להשתמש במערכת בתשתית העסקית הקיימת שלך.

כדי לנסות את זה בעצמך, פתח סטודיו SageMaker והפעל את פתרון JumpStart. למידע נוסף על הפתרון, עיין בו מאגר GitHub.

על הכותבים

שיאולי שן הוא חבר בארכיטקט פתרונות ולמידת מכונה בקהילת שדה טכני (TFC) בשירותי האינטרנט של אמזון. היא מתמקדת בסיוע ללקוחות בתכנון בענן ובמינוף שירותי AWS כדי להפיק ערך עסקי. לפני שהצטרפה ל-AWS, היא הייתה מובילה טכנולוגית ומהנדסת סטאק בכירה בבניית מערכות מבוזרות עתירות נתונים בענן.

ד"ר שין הואנג הוא מדען יישומי עבור אלגוריתמים מובנים של Amazon SageMaker JumpStart ו-Amazon SageMaker. הוא מתמקד בפיתוח אלגוריתמים של למידת מכונה ניתנים להרחבה. תחומי העניין שלו במחקר הם בתחום של עיבוד שפה טבעית, למידה עמוקה הניתנת להסבר על נתונים טבלאיים וניתוח חזק של צבירת מרחב-זמן לא פרמטרית. הוא פרסם מאמרים רבים בכנסים ACL, ICDM, KDD ובכתב העת Royal Statistical Society: Series A.

וודנט ג'יין הוא ארכיטקט פתרונות מומחה בינה מלאכותית/ML, המסייע ללקוחות להפיק ערך מהאקולוגית של למידת מכונה ב-AWS. לפני הצטרפותו ל-AWS, Vedant כיהן בתפקידי ML/Data Science Specialty בחברות שונות כגון Databricks, Hortonworks (כיום Cloudera) ו-JP Morgan Chase. מחוץ לעבודתו, Vedant נלהב ליצור מוזיקה, להשתמש במדע כדי לנהל חיים משמעותיים ולחקור מטבח צמחוני טעים מרחבי העולם.

בול זמן: אוקטובר 19, 2022אוקטובר 19, 2022

בול זמן: אוגוסט 26, 2022

זיהוי עסקאות הונאה באמצעות למידת מכונה עם Amazon SageMaker

הועלה מחדש על ידי אפלטון

סקירת פתרונות

תנאים מוקדמים

הפעל את הפתרון

לחקור ולעבד את הנתונים

אימון דגם Random Cut Forest ללא פיקוח

אמן דגם XGBoost עם סכימת הניפוח המובנית

המשך לשלוח תעבורת בדיקה לנקודת הקצה דרך Lambda

אימון דגם XGBoost עם טכניקת דגימת יתר SMOTE

אימון דגם XGBoost אופטימלי עם HPO

הערך והשווה את כל ביצועי המודל על אותם נתוני בדיקה

לנקות את

סיכום

על הכותבים

עוד מ למידת מכונות AWS

שפר את היצע ה-SaaS שלך עם שולחן עבודה למדעי נתונים המופעל על ידי Amazon SageMaker Studio

תחילת העבודה עם מחבר Amazon Kendra Box

היכרות עם גלגל התנופה של Amazon Comprehend עבור MLOps

שיטות עבודה מומלצות לפריסת MLOps עבור מודל הסקת מסקנות בזמן אמת המשרת נקודות קצה עם Amazon SageMaker

הפעל פילוח תמונה עם Amazon SageMaker JumpStart

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן