למד כיצד Amazon SageMaker Clarify עוזר לזהות הטיה

הועלה מחדש על ידי אפלטון

עוקב: 0

זיהוי הטיה בנתונים ובתוצאות המודל הוא דרישה בסיסית לבניית מודלים של בינה מלאכותית אחראית (AI) ולמידת מכונה (ML). לרוע המזל, זיהוי הטיה אינו משימה קלה עבור הרוב המכריע של המתרגלים בשל המספר הרב של דרכים בהן ניתן למדוד אותה וגורמים שונים שיכולים לתרום לתוצאה מוטה. לדוגמה, דגימה לא מאוזנת של נתוני האימון עשויה לגרום למודל שהוא פחות מדויק עבור תת-קבוצות מסוימות של הנתונים. הטיה עשויה להיות מוצגת גם על ידי אלגוריתם ה-ML עצמו - אפילו עם מערך אימון מאוזן היטב, התוצאות עשויות להעדיף תת-קבוצות מסוימות של הנתונים בהשוואה לאחרים.

כדי לזהות הטיה, עליך להיות בעל הבנה מעמיקה של סוגים שונים של הטיה וההטיה המקבילה מדדי הטיה. למשל, בזמן כתיבת שורות אלה, אמזון סייג מייקר להבהיר מציע 21 מדדים שונים לבחירה.

בפוסט זה, אנו משתמשים במקרה של חיזוי הכנסה (חיזוי הכנסות משתמשים מתכונות קלט כמו השכלה ומספר שעות עבודה בשבוע) כדי להדגים סוגים שונים של הטיות ואת המדדים המתאימים ב- SageMaker Clarify. אנו גם מפתחים מסגרת שתעזור לך להחליט אילו מדדים חשובים ליישום שלך.

היכרות עם SageMaker Clarify

מודלים של ML נמצאים בשימוש יותר ויותר כדי לסייע בקבלת החלטות במגוון תחומים, כגון שירותים פיננסיים, שירותי בריאות, חינוך ומשאבי אנוש. במצבים רבים, חשוב להבין מדוע מודל ה-ML עשה תחזית ספציפית וגם האם התחזיות הושפעו מהטיה.

SageMaker Clarify מספקת כלים לשני הצרכים הללו, אך בפוסט זה אנו מתמקדים רק בפונקציונליות זיהוי ההטיות. למידע נוסף על יכולת הסבר, בדוק הסבר על עובדות משחק בונדסליגה xGoals באמצעות אמזון סייג מייקר.

SageMaker Clarify הוא חלק מ אמזון SageMaker, שהוא שירות מנוהל במלואו לבנייה, אימון ופריסה של מודלים של ML.

דוגמאות לשאלות על הטיה

כדי לבסס את הדיון, להלן כמה שאלות לדוגמה שייתכן שיש לבוני ML ולבעלי העניין שלהם בנוגע להטיה. הרשימה מורכבת מכמה שאלות כלליות שעשויות להיות רלוונטיות עבור מספר יישומי ML, כמו גם שאלות על יישומים ספציפיים כמו אחזור מסמכים.

אתה יכול לשאול, בהתחשב בקבוצות העניין בנתוני האימון (לדוגמה, גברים לעומת נשים) באילו מדדים עלי להשתמש כדי לענות על השאלות הבאות:

האם הייצוג הקבוצתי בנתוני האימון משקף את העולם האמיתי?
האם תוויות היעד בנתוני האימון מעדיפות קבוצה אחת על פני השנייה על ידי הקצאת תוויות חיוביות יותר?
האם למודל יש דיוק שונה עבור קבוצות שונות?
האם במודל שמטרתו לזהות מועמדים מתאימים להעסקה, האם למודל יש דיוק זהה לקבוצות שונות?
האם במודל שמטרתו לשלוף מסמכים רלוונטיים לשאילתת קלט, האם המודל שולף מסמכים רלוונטיים מקבוצות שונות באותה פרופורציה?

בהמשך הפוסט הזה, אנו מפתחים מסגרת כיצד לשקול לענות על שאלות אלו ואחרות באמצעות המדדים הזמינים ב- SageMaker Clarify.

השתמש במקרה והקשר

פוסט זה משתמש בדוגמה קיימת לעבודת SageMaker Clarify מ- הגינות והסבר עם מחברת SageMaker Clarify ומסביר את ערכי מדדי ההטיה שנוצרו. המחברת מכשירה דגם XGBoost על מערך נתונים למבוגרים של UCI (Dua, D. and Graff, C. (2019). מאגר למידה של מכונות UCI. אירווין, קליפורניה: אוניברסיטת קליפורניה, בית הספר למידע ומדעי המחשב).

משימת ה-ML במערך נתונים זה היא לחזות אם לאדם יש הכנסה שנתית של יותר או פחות מ-$50,000. הטבלה הבאה מציגה כמה מקרים יחד עם התכונות שלהם. מדידת הטיה בחיזוי הכנסה חשובה מכיוון שנוכל להשתמש בתחזיות אלו כדי להכריע החלטות כמו הצעות הנחות ושיווק ממוקד.

טרמינולוגיה של הטיה

לפני שצולל לעומק, בואו נסקור כמה מינוחים חיוניים. לרשימה מלאה של מונחים, ראה Amazon SageMaker מבהיר את התנאים להטיה והגינות.

תווית – תכונת היעד שמודל ה-ML מאומן לחזות. א תווית שנצפה מתייחס לערך התווית שנצפה בנתונים המשמשים לאימון או בדיקת המודל. א תווית חזויה הוא הערך שנחזה על ידי מודל ML. התוויות יכולות להיות בינאריות, ולעתים קרובות מקודדות כ-0 ו-1. אנו מניחים ש-1 מייצג תווית חיובית או חיובית (לדוגמה, הכנסה של יותר מ-$50,000 או שווה ל-$0), ו-XNUMX מייצג תווית שלילי או לא חיובית. תוויות יכולות להיות מורכבות גם מיותר משני ערכים. גם במקרים אלו, אחד או יותר מהערכים מהווים תוויות חיוביות. למען הפשטות, הפוסט הזה מתייחס רק לתוויות בינאריות. לפרטים על טיפול בתוויות עם יותר משני ערכים ותוויות עם ערכים מתמשכים (לדוגמה, ברגרסיה), ראה ספר לבן של אמזון AI הוגנות והסבר.
פן – עמודה או תכונה שלגביה נמדדת הטיה. בדוגמה שלנו, הפן הוא sex ולוקח שני ערכים: woman ו man, מקודד כ female ו male בנתונים (נתונים אלו נשאבים ממפקד האוכלוסין של 1994 ואוכפים אופציה בינארית). למרות שהפוסט מתייחס לפן בודד עם שני ערכים בלבד, למקרים מורכבים יותר הכוללים היבטים מרובים או היבטים עם יותר משני ערכים, ראה ספר לבן של אמזון AI הוגנות והסבר.
הטיה - חוסר איזון משמעותי בנתוני הקלט או בתחזיות המודל על פני ערכי היבטים שונים. מה נחשב "משמעותי" תלוי בבקשה שלך. עבור רוב המדדים, ערך של 0 אינו מרמז על חוסר איזון. מדדי הטיה ב- SageMaker Clarify מחולקים לשתי קטגוריות:
- אימון מקדים - כאשר קיימת, הטיה לפני אימון מצביעה על חוסר איזון בנתונים בלבד.
- לאחר אימון - הטיה לאחר אימון לוקחת בחשבון בנוסף את התחזיות של המודלים.

הבה נבחן כל קטגוריה בנפרד.

הטיה לפני אימון

מדדי הטיית אימון מראש ב- SageMaker Clarify ענו על השאלה הבאה: האם לכל ערכי הפן יש ייצוג שווה (או דומה) בנתונים? חשוב לבדוק את הנתונים לגבי הטיית טרום אימון מכיוון שהם עשויים להתורגם להטיה לאחר אימון בתחזיות המודל. לדוגמה, מודל שאומן על נתונים לא מאוזנים שבו ערך פן אחד מופיע לעתים רחוקות מאוד יכול להפגין דיוק גרוע יותר באופן משמעותי עבור ערך היבט זה. ניתן לחשב ייצוג שווה על פני הדברים הבאים:

כל נתוני האימון ללא קשר לתוויות
קבוצת המשנה של נתוני האימון עם תוויות חיוביות בלבד
כל תווית בנפרד

האיור הבא מספק סיכום של איך כל מדד מתאים לכל אחת משלוש הקטגוריות.

קטגוריות מסוימות מורכבות מיותר ממדד אחד. המדדים הבסיסיים (קופסאות אפורות) עונים על השאלה לגבי הטיה בקטגוריה זו בצורה הפשוטה ביותר. מדדים בתיבות לבנות מכסים בנוסף מקרים מיוחדים (לדוגמה, הפרדוקס של סימפסון) והעדפות משתמש (לדוגמה, התמקדות בחלקים מסוימים של האוכלוסייה בעת חישוב ביצועי חיזוי).

ייצוג ערך פנים ללא קשר לתוויות

המדד היחיד בקטגוריה זו הוא Class Imbalance (CI). המטרה של מדד זה היא למדוד אם לכל ערכי הפן יש ייצוג שווה בנתונים.

CI הוא ההבדל בחלק מהנתונים המורכב משני ערכי ההיבטים. במערך הנתונים לדוגמה שלנו, עבור הפן sex, הפירוט (המוצג בתרשים העוגה) מראה שנשים מהוות 32.4% מנתוני האימונים, בעוד שגברים מהווים 67.6%. כתוצאה:

CI = 0.676 - 0.324 = 0.352

חוסר איזון מעמדי חמור עלול להוביל לביצועי חיזוי גרועים יותר עבור ערך הפן עם ייצוג קטן יותר.

ייצוג ערך פנים ברמת התוויות חיוביות בלבד

דרך נוספת למדוד ייצוג שווה היא לבדוק אם כל ערכי הפן מכילים חלק דומה של דגימות עם תוויות חיוביות שנצפו. תוויות חיוביות מורכבות מתוצאות חיוביות (לדוגמה, הלוואה שניתנה, שנבחרה לתפקיד), כך שניתוח תוויות חיוביות בנפרד עוזר להעריך אם ההחלטות החיוביות מתחלקות באופן שווה.

במערך הנתונים לדוגמה שלנו, התוויות שנצפו מתחלקות לערכים חיוביים ושליליים, כפי שמוצג באיור הבא.

ל-11.4% מכלל הנשים ול-31.4% מכלל הגברים יש את התווית החיובית (אזור בגוון כהה בפס השמאלי והימין). ההבדל בפרופורציות חיוביות בתוויות (DPL) מודד את ההבדל הזה.

DPL = 0.314 - 0.114 = 0.20

המדד המתקדם בקטגוריה זו, פער דמוגרפי מותנה בתוויות (CDDL), מודד את ההבדלים בתוויות החיוביות, אך מרבד אותם ביחס למשתנה אחר. מדד זה עוזר לשלוט על הפרדוקס של סימפסון, מקרה שבו חישוב על כל הנתונים מראה הטיה, אך ההטיה נעלמת כאשר מקבצים את הנתונים ביחס למידע צדדי כלשהו.

השמיים 1973 מחקר קבלה לאוניברסיטת ברקלי מספק דוגמה. לפי הנתונים, גברים התקבלו בשיעור גבוה יותר מנשים. עם זאת, כאשר נבדקו ברמה של מחלקות בודדות באוניברסיטאות, נשים התקבלו בשיעור דומה או גבוה יותר בכל מחלקה. התבוננות זו יכולה להיות מוסברת על ידי הפרדוקס של סימפסון, שהתעורר כאן בגלל שנשים פנו לבתי ספר שהיו תחרותיים יותר. כתוצאה מכך, פחות נשים התקבלו בסך הכל בהשוואה לגברים, למרות שבית ספר לפי בית ספר הן התקבלו בשיעור דומה או גבוה יותר.

לפרטים נוספים על אופן חישוב CDDL, ראה ספר לבן של אמזון AI הוגנות והסבר.

ייצוג ערך פן ברמת כל תווית בנפרד

ניתן למדוד שוויון בייצוג עבור כל תווית בודדת, לא רק עבור התווית החיובית.

מדדים בקטגוריה זו מחשבים את ההבדל בהתפלגות התווית של ערכי היבטים שונים. התפלגות התווית עבור ערך פן מכילה את כל ערכי התווית שנצפו, יחד עם חלקיק הדגימות עם הערך של התווית הזו. לדוגמה, באיור המציג את התפלגות התוויות, ל-88.6% מהנשים יש תווית שנצפתה שלילית ול-11.4% יש תווית שנצפתה חיובית. אז התפלגות התווית לנשים היא [0.886, 0.114] ולגברים היא [0.686, 0.314].

המדד הבסיסי בקטגוריה זו, סטיית קולבק-לייבלר (KL), מודד את ההבדל הזה כ:

KL = [0.686 x log(0.686/0.886)] + [0.314 x log(0.314/0.114)] = 0.143

המדדים המתקדמים בקטגוריה זו, סטיית ג'נסן-שאנון (JS), Lp-norm (LP), מרחק וריאציה מוחלטת (TVD) ו-Kolmogorov-Smirnov (KS), מודדים גם הם את ההבדל בין ההתפלגויות אך יש להם תכונות מתמטיות שונות. ללא מקרים מיוחדים, הם יספקו תובנות דומות ל-KL. לדוגמה, למרות שערך KL יכול להיות אינסוף כאשר ערך פן אינו מכיל דגימות עם תווית מסוימת (לדוגמה, אין גברים עם תווית שלילית), JS נמנע מערכים אינסופיים אלה. לפרטים נוספים על הבדלים אלה, ראה ספר לבן של אמזון AI הוגנות והסבר.

הקשר בין DPL (קטגוריה 2) ומדדים מבוססי התפלגות של KL/JS/LP/TVD/KS (קטגוריה 3)

מדדים מבוססי תפוצה ישימים באופן טבעי יותר לתוויות לא בינאריות. עבור תוויות בינאריות, בשל העובדה שניתן להשתמש בחוסר איזון בתווית החיובית כדי לחשב את חוסר האיזון בתווית שלילית, מדדי ההפצה מספקים את אותן תובנות כמו DPL. לכן, אתה יכול פשוט להשתמש ב-DPL במקרים כאלה.

הטיה לאחר אימון

מדדי הטיה לאחר אימון ב- SageMaker Clarify עוזרים לנו לענות על שתי שאלות מפתח:

האם כל ערכי הפן מיוצגים בשיעור דומה בתחזיות מודל חיוביות (חיוביות)?
האם למודל יש ביצועים חזויים דומים עבור כל ערכי ההיבטים?

האיור הבא מראה כיצד המדדים ממפים לכל אחת מהשאלות הללו. את השאלה השנייה ניתן לפרק עוד יותר בהתאם לאיזו תווית נמדד הביצועים ביחס.

ייצוג שווה בתחזיות מודל חיוביות

מדדים בקטגוריה זו בודקים אם כל ערכי הפן מכילים חלק דומה של דגימות עם תווית חיזוי חיובית על ידי המודל. מחלקה זו של מדדים דומה מאוד למדדי ההכשרה של DPL ו-CDDL - ההבדל היחיד הוא שקטגוריה זו מחשיבה תוויות חזויות במקום תוויות שנצפו.

במערך הנתונים לדוגמה שלנו, 4.5% מכלל הנשים מקבלים את התווית החיובית על ידי המודל, ו-13.7% מכלל הגברים מקבלים את התווית החיובית.

המדד הבסיסי בקטגוריה זו, הבדל בפרופורציות חיוביות בתוויות צפויות (DPPL), מודד את ההבדל במקצות הכיתה החיוביות.

DPPL = 0.137 - 0.045 = 0.092

שימו לב כיצד בנתוני האימון, לחלק גבוה יותר של גברים הייתה תווית שנצפתה חיובית. באופן דומה, חלק גבוה יותר של גברים מקבל תווית צפויה חיובית.

מעבר למדדים המתקדמים בקטגוריה זו, Impact Disparate (DI) מודד את אותו הפער במקצות כיתה חיוביות, אך במקום ההבדל, הוא מחשב את היחס:

DI = 0.045 / 0.137 = 0.328

גם DI וגם DPPL מעבירים תובנות דומות מבחינה איכותית, אך נבדלים בכמה מקרים פינתיים. לדוגמה, יחסים נוטים להתפוצץ למספרים גדולים מאוד אם המכנה קטן. קח דוגמה למספרים 0.1 ו-0.0001. היחס הוא 0.1/0.0001 = 10,000 ואילו ההפרש הוא 0.1 – 0.0001 ≈ 0.1. שלא כמו המדדים האחרים שבהם ערך של 0 מרמז על שום הטיה, עבור DI, שום הטיה לא תואמת לערך של 1.

פער דמוגרפי מותנה בתוויות צפויות (CDDPL) מודד את הפער בייצוג ערכי הפן בתווית החיובי, אבל בדיוק כמו מדד ההכשרה של CDDL, הוא שולט גם על הפרדוקס של סימפסון.

Counterfactual Fliptest (FT) מודד אם דגימות דומות משני ערכי הפן מקבלים החלטות דומות מהמודל. מודל המקצה החלטות שונות לשתי דגימות הדומות זו לזו אך שונות בערכי הפן יכול להיחשב מוטה כנגד ערך הפן המוקצה לתווית הבלתי חיובית (שלילית). בהינתן ערך הפן הראשון (נשים), הוא מעריך האם לחברים דומים עם ערך הפן השני (גברים) יש תחזית מודל שונה. חברים דומים נבחרים על סמך אלגוריתם ה-k-השכן הקרוב ביותר.

ביצועים שווים

תחזיות המודל עשויות לקבל ייצוג דומה בתוויות חיוביות מערכי היבטים שונים, אך ביצועי המודל בקבוצות אלו עשויים להיות שונים באופן משמעותי. ביישומים רבים, ביצועים חזויים דומים על פני ערכי פן שונים יכולים להיות רצויים. המדדים בקטגוריה זו מודדים את ההבדל בביצועים החזויים בין ערכי היבט.

מכיוון שניתן לחתוך את הנתונים בדרכים רבות ושונות בהתבסס על התוויות הנצפות או החזויות, ישנן דרכים רבות ושונות למדידת ביצועים חזויים.

ביצועים חזויים שווים ללא קשר לתוויות

אתה יכול לשקול את ביצועי המודל על כל הנתונים, ללא קשר לתוויות הנצפות או החזויות - כלומר, הדיוק הכולל.

האיורים הבאים מראים כיצד המודל מסווג תשומות משני ערכי ההיבטים במערך הנתונים לדוגמה שלנו. שליליים אמיתיים (TN) הם מקרים שבהם התווית הנצפית והחזויה היו 0. חיוביות כוזבות (FP) הן סיווגים שגויים שבהם התווית שנצפה הייתה 0 אך התווית החזויה הייתה 1. חיוביות אמיתיות (TP) ושליליות כוזבות (FN) מוגדרות באופן דומה.

למד כיצד אמזון SageMaker Clarify עוזר לזהות הטיה של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עבור כל ערך פן, ביצועי המודל הכוללים, כלומר הדיוק עבור ערך היבט זה, הוא:

דיוק = (TN + TP🇧🇷TN + FP + FN + TP)

עם נוסחה זו, הדיוק לנשים הוא 0.930 ולגברים הוא 0.815. זה מוביל למדד היחיד בקטגוריה זו, הבדל דיוק (AD):

AD = 0.815 - 0.930 = -0.115

AD = 0 פירושו שהדיוק עבור שתי הקבוצות זהה. ערכים גדולים יותר (חיוביים או שליליים) מצביעים על הבדלים גדולים יותר ברמת הדיוק.

ביצועים שווים על תוויות חיוביות בלבד

אתה יכול להגביל את ניתוח ביצועי המודל לתוויות חיוביות בלבד. למשל, אם הבקשה עוסקת באיתור פגמים בפס ייצור, ייתכן שרצוי לבדוק שחלקים לא פגומים (תווית חיובית) מסוגים שונים (ערכי פנים) מסווגים כלא פגומים באותו שיעור. כמות זו מכונה ריקול, או שיעור חיובי אמיתי:

להיזכר = TP / (TP + FN)

במערך הנתונים לדוגמה שלנו, ה-Recall לנשים הוא 0.389, וה-Recall לגברים הוא 0.425. זה מוביל למדד הבסיסי בקטגוריה זו, ה-Recall Difference (RD):

RD = 0.425 - 0.389 = 0.036

כעת נבחן את שלושת המדדים המתקדמים בקטגוריה זו, נראה אילו העדפות משתמש הם מקודדים, וכיצד הם שונים מהמדד הבסיסי של RD.

ראשית, במקום למדוד את הביצועים על התוויות החיוביות שנצפו, אתה יכול למדוד את זה על התוויות החזויות החיוביות. בהינתן ערך פן, כגון נשים, וכל הדגימות עם ערך פן זה אשר צפויות להיות חיוביות על ידי המודל, כמה באמת מסווגות כחיוביות? כמות זו מכונה שיעור קבלה (AR), או דיוק:

AR = TP / (TP + FP)

בדוגמה שלנו, ה-AR לנשים הוא 0.977, וה-AR עבור גברים הוא 0.970. זה מוביל להבדל בשיעור הקבלה (DAR):

DAR = 0.970 - 0.977 = -0.007

דרך נוספת למדוד הטיה היא על ידי שילוב של שני המדדים הקודמים ומדידת כמה תחזיות חיוביות נוספות המודלים מייחסים לערך פן בהשוואה לתוויות החיוביות שנצפו. SageMaker Clarify מודד יתרון זה לפי המודל כיחס בין מספר התוויות החיוביות שנצפו עבור ערך היבט זה, לבין מספר התוויות החיוביות החזויות, ומתייחס אליו כאל קבלה מותנית (CA):

CA = (TP + FN🇧🇷TP + FP)

בדוגמה שלנו, CA לנשים הוא 2.510 ולגברים הוא 2.283. ההבדל ב-CA מוביל למדד הסופי בקטגוריה זו, הבדל בקבלה מותנית (DCA):

DCA = 2.283 - 2.510 = -0.227

ביצועים שווים על תוויות שליליות בלבד

באופן דומה לתוויות חיוביות, ניתן לחשב הטיה גם כהפרש הביצועים בתוויות השליליות. בחינת תוויות שליליות בנפרד יכולה להיות חשובה ביישומים מסוימים. לדוגמה, בדוגמה שלנו לזיהוי פגמים, אולי נרצה לזהות חלקים פגומים (תווית שלילית) מסוגים שונים (ערך פנים) באותו קצב.

המדד הבסיסי בקטגוריה זו, הספציפיות, מקביל למדד ההחזרה (שיעור חיובי אמיתי). Specificity מחשבת את הדיוק של המודל על דגימות עם ערך היבט זה עם תווית שלילית שנצפתה:

ספציפיות = TN / (TN + FP)

בדוגמה שלנו (ראה טבלאות הבלבול), הספציפיות לנשים וגברים היא 0.999 ו-0.994, בהתאמה. כתוצאה מכך, ה הבדל ספציפיות (SD) הוא:

SD = 0.994 - 0.999 = -0.005

ממשיכים הלאה, בדיוק כמו מדד שיעור הקבלה, הכמות המקבילה עבור תוויות שליליות - שיעור הדחייה (RR) - היא:

RR = TN / (TN + FN)

ה-RR לנשים הוא 0.927 ולגברים הוא 0.791, מה שמוביל למדד ההבדל בשיעור הדחייה (DRR):

DRR = 0.927 - 0.791 = -0.136

לבסוף, האנלוג של התווית השלילי של קבלה מותנית, הדחייה המותנית (CR), הוא היחס בין מספר התוויות השליליות שנצפו עבור ערך היבט זה, לבין מספר התוויות השליליות החזויות:

CR = (TN + FP🇧🇷TN + FN)

CR לנשים הוא 0.928 ולגברים הוא 0.796. המדד האחרון בקטגוריה זו הוא הבדל בדחייה מותנית (DCR):

DCR = 0.796 - 0.928 = 0.132

ביצועים שווים בתוויות חיוביות לעומת שליליות

SageMaker Clarify משלב את שתי הקטגוריות הקודמות על ידי התחשבות ביחס ביצועי הדגם בתווית החיובית והשלילית. באופן ספציפי, עבור כל ערך פן, SageMaker Clarify מחשב את היחס בין שליליות שגויות (FN) לחיוביות שגויות (FP). בדוגמה שלנו, יחס FN/FP לנשים הוא 679/10 = 67.9 ולגברים הוא 3678/84 = 43.786. זה מוביל למדד השוויון בטיפול (TE), המודד את ההבדל בין יחס FP/FN:

TE = 67.9 - 43.786 = 24.114

צילום המסך הבא מראה כיצד אתה יכול להשתמש ב- SageMaker Clarify עם סטודיו SageMaker של אמזון כדי להציג את הערכים כמו גם טווחים ותיאורים קצרים של מדדי הטיה שונים.

שאלות לגבי הטיה: מאילו מדדים להתחיל?

זכור את השאלות לדוגמה על הטיה בתחילת הפוסט הזה. לאחר שעברת על המדדים מקטגוריות שונות, שקול שוב את השאלות. כדי לענות על השאלה הראשונה, הנוגעת לייצוגים של קבוצות שונות בנתוני האימון, אתה יכול להתחיל עם המדד Class Imbalance (CI). באופן דומה, עבור השאלות הנותרות, אתה יכול להתחיל בבדיקת הבדל בפרופורציות חיוביות בתוויות (DPL), הפרש דיוק (AD), הבדל בשיעור קבלה (DAR) והפרש היזכרות (RD), בהתאמה.

הטיה ללא ערכי פנים

כדי להקל על החשיפה, תיאור זה של מדדי פוסט-אימון לא כלל את מדד האנטרופיה הכללית (GE). מדד זה מודד הטיה מבלי להתחשב בערך ההיבט, והוא יכול להיות מועיל בהערכת אופן הפצת שגיאות המודל. לפרטים, עיין ב אנטרופיה כללית (GE).

סיכום

בפוסט הזה ראיתם איך 21 המדדים השונים ב- SageMaker Clarify מודדים הטיה בשלבים שונים של צינור ה-ML. למדת על מדדים שונים באמצעות מקרה שימוש בחיזוי הכנסה, כיצד לבחור מדדים עבור מקרה השימוש שלך, ואיזה מהם תוכל להתחיל.

התחל עם מסע הבינה המלאכותית האחראית שלך על ידי הערכת הטיה במודלים של ML שלך באמצעות מחברת ההדגמה הגינות והסבר עם SageMaker Clarify. תוכל למצוא את התיעוד המפורט עבור SageMaker Clarify, כולל ההגדרה הפורמלית של מדדים, בכתובת מהי הגינות והסבר מודל לחיזוי למידת מכונה. ליישום בקוד פתוח של מדדי ההטיה, עיין ב- aws-sagemaker-clarify מאגר GitHub. לדיון מפורט כולל מגבלות, עיין ב ספר לבן של אמזון AI הוגנות והסבר.

על המחברים

בילאל צפר הוא מדען יישומי ב-AWS, עובד על הוגנות, הסבר ואבטחה בלמידת מכונה.

דניס1_שינוי גודל

דניס ו' בטלוב הוא אדריכל פתרונות עבור AWS, המתמחה בלמידת מכונה. הוא עובד באמזון מאז 2005. לדניס יש דוקטורט בתחום הבינה המלאכותית. עקבו אחריו בטוויטר: @dbatalov.

מישל דוניני הוא Sr Applied Scientist ב-AWS. הוא מוביל צוות של מדענים שעובדים על AI אחראי ותחומי המחקר שלו הם הוגנות אלגוריתמית ולמידת מכונה ניתנת להסבר.

בול זמן: ספטמבר 1, 2022ספטמבר 1, 2022

בול זמן: מאי 12, 2023

למד כיצד Amazon SageMaker Clarify עוזר לזהות הטיה

הועלה מחדש על ידי אפלטון

היכרות עם SageMaker Clarify

דוגמאות לשאלות על הטיה

השתמש במקרה והקשר

טרמינולוגיה של הטיה

הטיה לפני אימון

ייצוג ערך פנים ללא קשר לתוויות

ייצוג ערך פנים ברמת התוויות חיוביות בלבד

ייצוג ערך פן ברמת כל תווית בנפרד

הקשר בין DPL (קטגוריה 2) ומדדים מבוססי התפלגות של KL/JS/LP/TVD/KS (קטגוריה 3)

הטיה לאחר אימון

ייצוג שווה בתחזיות מודל חיוביות

ביצועים שווים

ביצועים חזויים שווים ללא קשר לתוויות

ביצועים שווים על תוויות חיוביות בלבד

ביצועים שווים על תוויות שליליות בלבד

ביצועים שווים בתוויות חיוביות לעומת שליליות

שאלות לגבי הטיה: מאילו מדדים להתחיל?

הטיה ללא ערכי פנים

סיכום

על המחברים

עוד מ למידת מכונות AWS

קבל תוצאות חיפוש חכמות יותר עם התוסף Amazon Kendra Intelligent Ranking ו-OpenSearch

דמיין את תוצאות החריגות של Amazon Lookout for Metrics שלך עם Amazon QuickSight

סיווג טקסט בצילום אפס עם Amazon SageMaker JumpStart | שירותי האינטרנט של אמזון

ניהול צוות ומשתמשים עם Amazon SageMaker ו-AWS SSO

בנה גלאי אנומליות של נקודות נאמנות באמצעות Amazon Lookout for Metrics

פרוס פתרון MLOps המארח את נקודות הקצה של המודל שלך ב-AWS Lambda

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן