הסבר מודל מתייחס לתהליך של התייחסות של חיזוי של מודל למידת מכונה (ML) לערכי תכונת הקלט של מופע במונחים מובנים אנושיים. תחום זה מכונה לעתים קרובות בינה מלאכותית מוסברת (XAI). אמזון סייג מייקר להבהיר הוא תכונה של אמזון SageMaker המאפשרת למדעני נתונים ומהנדסי ML להסביר את התחזיות של מודלים ML שלהם. הוא משתמש בשיטות אגנוסטיות כמו הסברים תוספים בהחלט (SHAP) עבור ייחוס תכונה. מלבד תמיכה בהסברים לנתונים טבלאיים, Clarify תומך גם בהסברה של ראיית מחשב (CV) ועיבוד שפה טבעית (NLP) באמצעות אותו אלגוריתם SHAP.
בפוסט זה, אנו מדגים את השימוש ב-Clarify להסבר מודלים של NLP. באופן ספציפי, אנו מראים כיצד ניתן להסביר את התחזיות של מודל סיווג טקסט שהוכשר באמצעות ה SageMaker BlazingText אַלגוֹרִיתְם. זה עוזר לך להבין אילו חלקים או מילים של הטקסט הם החשובים ביותר עבור התחזיות שנעשו על ידי המודל. בין היתר, ניתן להשתמש בתצפיות אלה כדי לשפר תהליכים שונים כמו רכישת נתונים המפחיתה הטיה במערך הנתונים ואימות מודלים כדי להבטיח שהמודלים פועלים כמתוכנן, ולזכות באמון עם כל בעלי העניין בעת פריסת המודל. זו יכולה להיות דרישת מפתח בתחומי יישומים רבים כמו ניתוח סנטימנטים, ביקורות משפטיות, אבחון רפואי ועוד.
אנו גם מספקים דפוס עיצוב כללי שתוכל להשתמש בו בזמן השימוש בהבהרה עם כל אחד מהאפשרויות אלגוריתמים של SageMaker.
סקירת פתרונות
לאלגוריתמים של SageMaker יש פורמטים קבועים של נתוני קלט ופלט. לדוגמה, מיכל האלגוריתם של BlazingText מקבל קלט בפורמט JSON. אבל לקוחות דורשים לעתים קרובות פורמטים ספציפיים התואמים לצינורות הנתונים שלהם. אנו מציגים כמה אפשרויות שאתה יכול לעקוב אחריהם כדי להשתמש ב-Clarify.
אפשרות א
באפשרות זו, אנו משתמשים בתכונת צינור ההסקה של אירוח SageMaker. צינור היסק הוא מודל של SageMaker המהווה רצף של קונטיינרים המעבד בקשות הסקה. התרשים הבא ממחיש דוגמה.
אתה יכול להשתמש בצינורות מסקנות כדי לפרוס שילוב של מודלים מותאמים אישית משלך ואלגוריתמים מובנים של SageMaker ארוזים במכולות שונות. למידע נוסף, עיין ב אירוח מודלים יחד עם לוגיקה של עיבוד מוקדם כצינור מסקנות סדרתי מאחורי נקודת קצה אחת. מכיוון ש-Clarify תומך רק בקווי CSV ו-JSON כקלט, עליך לבצע את השלבים הבאים:
- צור מודל ומיכל להמרת הנתונים מ-CSV (או JSON Lines) ל-JSON.
- לאחר שלב אימון המודל עם אלגוריתם BlazingText, ישירות לפרוס את המודל. זה יפרוס את המודל באמצעות מיכל BlazingText, שמקבל JSON כקלט. כאשר משתמשים באלגוריתם אחר, SageMaker יוצר את המודל באמצעות המיכל של אותו אלגוריתם.
- השתמש בשני הדגמים הקודמים כדי ליצור א דגם Pipeline. זה משרשר את שני המודלים ברצף ליניארי ויוצר מודל יחיד. לדוגמא, עיין ב צינור היסק עם Scikit-learn ו-Linear Learner.
בעזרת פתרון זה, יצרנו בהצלחה מודל יחיד שהקלט שלו תואם ל-Clarify ויכול לשמש אותו ליצירת הסברים.
אפשרות ב '
אפשרות זו מדגימה כיצד ניתן לשלב את השימוש בפורמטים שונים של נתונים בין אלגוריתמי Clarify ו- SageMaker על ידי הבאת מיכל משלך לאירוח מודל SageMaker. התרשים הבא ממחיש את הארכיטקטורה ואת השלבים הכרוכים בפתרון:
השלבים הם כדלקמן:
- השתמש באלגוריתם BlazingText דרך SageMaker Estimator כדי לאמן מודל סיווג טקסט.
- לאחר הכשרה של המודל, צור קונטיינר Docker מותאם אישית שניתן להשתמש בו כדי ליצור מודל SageMaker ולפרוס את המודל באופן אופציונלי כנקודת קצה של מודל SageMaker.
- הגדר וצור עבודת Clarify כדי להשתמש במיכל האירוח להפקת דוח הסבר.
- הכלי המותאם אישית מקבל את בקשת ההסקה כ-CSV ומאפשר ל-Clarify ליצור הסברים.
יש לציין שפתרון זה מדגים את הרעיון של קבלת הסברים לא מקוונים באמצעות Clarify עבור מודל BlazingText. למידע נוסף על יכולת הסבר מקוונת, עיין ב הסבר מקוון עם SageMaker Clarify.
שאר הפוסט הזה מסביר כל אחד מהשלבים באפשרות השנייה.
אימון מודל BlazingText
תחילה אנו מאמנים מודל סיווג טקסט באמצעות אלגוריתם BlazingText. בדוגמה זו אנו משתמשים ב- מערך נתונים של DBpedia Ontology. DBpedia היא יוזמה ממקור המונים לחילוץ תוכן מובנה באמצעות מידע מפרויקטים שונים של ויקימדיה כמו ויקיפדיה. באופן ספציפי, אנו משתמשים במערך הנתונים האונטולוגי של DBpedia כפי שנוצר על ידי ג'אנג ואח '. הוא נבנה על ידי בחירת 14 מחלקות לא חופפות מ-DBpedia 2014. השדות מכילים תקציר של מאמר בוויקיפדיה והמחלקה המתאימה. המטרה של מודל סיווג טקסט היא לחזות את המעמד של מאמר בהינתן התקציר שלו.
תהליך מפורט שלב אחר שלב להכשרת המודל זמין בהמשך מחברה. לאחר שאימנת את הדגם, שים לב ל שירות אחסון פשוט של אמזון (Amazon S3) נתיב URI שבו מאוחסנים חפצי הדגם. למדריך שלב אחר שלב, עיין ב סיווג טקסט באמצעות SageMaker BlazingText.
פרוס את מודל BlazingText המיומן באמצעות מיכל משלך ב- SageMaker
עם Clarify, ישנן שתי אפשרויות לספק את מידע הדגם:
- צור מודל של SageMaker מבלי לפרוס אותו לנקודת קצה - כאשר מודל SageMaker מסופק ל-Clarify, הוא יוצר נקודת קצה ארעית באמצעות המודל.
- צור מודל של SageMaker ופרוס אותו לנקודת קצה – כאשר נקודת קצה זמינה ל-Clarify, היא משתמשת בנקודת הקצה להשגת הסברים. זה מונע יצירת נקודת קצה ארעית ויכול להפחית את זמן הריצה של עבודת Clarify.
בפוסט זה, אנו משתמשים באפשרות הראשונה עם Clarify. אנו משתמשים ב- SageMaker Python SDK למטרה זו. לאפשרויות אחרות ופרטים נוספים, עיין ב צור את נקודת הקצה שלך ופרוס את המודל שלך.
תביא מיכל משלך (BYOC)
תחילה אנו בונים תמונת Docker מותאמת אישית המשמשת ליצירת ה דגם SageMaker. אתה יכול להשתמש בקבצים ובקוד ב- ספריית מקור של מאגר GitHub שלנו.
ה-Dockerfile מתאר את התמונה שאנו רוצים לבנות. אנו מתחילים בהתקנה רגילה של אובונטו ולאחר מכן מתקינים את Scikit-learn. אנחנו גם משכפלים טקסט מהיר ולהתקין את החבילה. הוא משמש לטעינת מודל BlazingText לביצוע תחזיות. לבסוף, נוסיף את הקוד שמיישם את האלגוריתם שלנו בצורה של הקבצים הקודמים ומגדירים את הסביבה בקונטיינר. כל דוקרפיל מסופק במאגר שלנו ואתה יכול להשתמש בו כפי שהוא. מתייחס השתמש בקוד ההסקה שלך עם שירותי אירוח לפרטים נוספים על האופן שבו SageMaker מתקשר עם מיכל ה-Docker שלך והדרישות שלו.
יתר על כן, predictor.py מכיל את הקוד לטעינת המודל ולביצוע התחזיות. הוא מקבל נתוני קלט כ-CSV, מה שהופך אותו לתואם ל-Clarify.
לאחר שיש לך את ה- Dockerfile, בנה את מיכל ה- Docker והעלה אותו אליו מרשם מיכל אלסטי של אמזון (Amazon ECR). אתה יכול למצוא את התהליך שלב אחר שלב בצורה של א סקריפט פגז במאגר GitHub שלנו, שבו אתה יכול להשתמש כדי ליצור ולהעלות את תמונת Docker לאמזון ECR.
צור את המודל של BlazingText
השלב הבא הוא יצירת אובייקט מודל מתוך SageMaker Python SDK כיתת דוגמניות שניתן לפרוס לנקודת קצה HTTPS. אנו מגדירים את Clarify להשתמש במודל זה ליצירת הסברים. לקוד ודרישות אחרות עבור שלב זה, עיין ב פרוס את מודל SageMaker BlazingText המיומן שלך באמצעות מיכל משלך באמזון SageMaker.
הגדר את Clarify
Clarify NLP תואם למודלים של רגרסיה וסיווג. זה עוזר לך להבין אילו חלקים בטקסט הקלט משפיעים על התחזיות של המודל שלך. Clarify תומך ב-62 שפות ויכול להתמודד עם טקסט עם מספר שפות. אנו משתמשים ב-SageMaker Python SDK כדי להגדיר את שלוש התצורות המשמשות את Clarify ליצירת דוח ההסבר.
ראשית, עלינו ליצור את אובייקט המעבד וגם לציין את המיקום של מערך הנתונים של הקלט שישמש עבור החיזויים וייחוס התכונה:
DataConfig
כאן, עליך להגדיר את המיקום של נתוני הקלט, עמודת התכונה והיכן ברצונך שעבודת Clarify לאחסן את הפלט. זה נעשה על ידי העברת הארגומנטים הרלוונטיים תוך יצירת אובייקט DataConfig:
ModelConfig
עם ModelConfig, עליך לציין מידע על הדגם המאומן שלך. כאן, אנו מציינים את השם של מודל BlazingText SageMaker שיצרנו בשלב קודם וגם מגדירים פרמטרים נוספים כמו ענן מחשוב אלסטי של אמזון סוג המופע (Amazon EC2) והפורמט של התוכן:
SHAPConfig
זה משמש כדי ליידע את Clarify כיצד להשיג את ייחוסי התכונה. TextConfig משמש לציון הפירוט של הטקסט והשפה. במערך הנתונים שלנו, מכיוון שאנו רוצים לפרק את טקסט הקלט למילים והשפה היא אנגלית, אנו מגדירים את הערכים הללו לסמל ואנגלית, בהתאמה. בהתאם לאופי מערך הנתונים שלך, תוכל להגדיר פירוט למשפט או לפסקה. קו הבסיס מוגדר לאסימון מיוחד. משמעות הדבר היא ש-Clarify תסיר קבוצות משנה של טקסט הקלט ויחליף אותן בערכים מקו הבסיס תוך השגת תחזיות לחישוב ערכי SHAP. כך הוא קובע את השפעת האסימונים על תחזיות המודל ומזהה בתורו את חשיבותם. מספר הדגימות שאמורות לשמש באלגוריתם Kernel SHAP נקבע לפי הערך של num_samples
טַעֲנָה. ערכים גבוהים יותר מביאים לייחוס תכונות חזק יותר, אבל זה יכול גם להגדיל את זמן הריצה של העבודה. לכן, אתה צריך לעשות פשרה בין השניים. ראה את הקוד הבא:
לקבלת מידע נוסף, ראה ייחוס תכונה שמשתמש בערכי Shapley ו ספר לבן של אמזון AI הוגנות והסבר.
ModelPredictedLabelConfig
כדי ש-Clarify יחלץ תווית חזויה או ציונים או הסתברויות חזויים, יש להגדיר את אובייקט התצורה הזה. ראה את הקוד הבא:
לפרטים נוספים, עיין ב תיעוד ב-SDK.
הפעל עבודת Clarify
לאחר שתיצור את התצורות השונות, אתה מוכן כעת להפעיל את עבודת העיבוד של Clarify. עבודת העיבוד מאמתת את הקלט והפרמטרים, יוצרת את נקודת הקצה החולפת ומחשבת ייחוס תכונות מקומיות וגלובליות באמצעות אלגוריתם SHAP. כאשר זה הושלם, הוא מוחק את נקודת הקצה הארעית ומייצר את קבצי הפלט. ראה את הקוד הבא:
זמן הריצה של שלב זה תלוי בגודל מערך הנתונים ובמספר הדגימות שנוצרו על ידי SHAP.
דמיין את התוצאות
לבסוף, אנו מראים הדמיה של התוצאות מדוח ייחוס התכונות המקומי שנוצר על ידי עבודת העיבוד של Clarify. הפלט הוא בפורמט JSON Lines ועם עיבוד מסוים; אתה יכול לשרטט את הניקוד של האסימונים בטקסט הקלט כמו בדוגמה הבאה. פסים גבוהים יותר משפיעים יותר על תווית היעד. יתר על כן, ערכים חיוביים קשורים לתחזיות גבוהות יותר במשתנה היעד וערכים שליליים עם תחזיות נמוכות יותר. בדוגמה זו, המודל עושה חיזוי עבור טקסט הקלט "Wesebach הוא נהר של הסה גרמניה." המעמד החזוי הוא מקום טבעי והציונים מצביעים על כך שהמודל מצא שהמילה "נהר" היא האינפורמטיבית ביותר לניבוי זה. זה אינטואיטיבי עבור אדם ועל ידי בחינת דוגמאות נוספות, אתה יכול לקבוע אם המודל לומד את התכונות הנכונות ומתנהג כמצופה.
סיכום
בפוסט זה, הסברנו כיצד ניתן להשתמש ב-Clarify כדי להסביר תחזיות ממודל סיווג טקסט שהוכשר באמצעות SageMaker BlazingText. התחל עם הסבר תחזיות ממודלים של סיווג טקסט שלך באמצעות המחברת לדוגמה הסבר טקסט עבור SageMaker BlazingText.
דנו גם בתבנית עיצוב גנרית יותר שתוכל להשתמש בה בעת שימוש ב-Clarify עם אלגוריתמים מובנים של SageMaker. למידע נוסף, עיין ב מהי הגינות והסבר מודל לחיזוי למידת מכונה. אנו ממליצים לך גם לקרוא את ספר לבן של אמזון AI הוגנות והסבר, המספק סקירה כללית על הנושא ודן בשיטות עבודה מומלצות ובמגבלות.
על הכותבים
פינאק פניגרהי עובד עם לקוחות לבניית פתרונות מונעי למידת מכונה לפתרון בעיות עסקיות אסטרטגיות ב-AWS. כאשר אינו עוסק בלמידת מכונה, ניתן למצוא אותו יוצא לטיול, קורא ספר או מתעדכן בספורט.
דוואל פאטל הוא אדריכל ראשי למידת מכונה ב-AWS. הוא עבד עם ארגונים החל מארגונים גדולים ועד סטארט-אפים בינוניים על בעיות הקשורות למחשוב מבוזר ובינה מלאכותית. הוא מתמקד בלמידה עמוקה כולל תחומי NLP ו-Computer Vision. הוא עוזר ללקוחות להשיג מסקנות מודל עם ביצועים גבוהים על SageMaker.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/explain-text-classification-model-predictions-using-amazon-sagemaker-clarify/
- 100
- 2014
- 7
- 9
- a
- אודות
- תקציר
- מקבל
- להשיג
- רכישה
- לאחר
- AI
- אַלגוֹרִיתְם
- אלגוריתמים
- תעשיות
- אמזון בעברית
- אמזון
- אמזון SageMaker
- בין
- אנליזה
- ו
- בנפרד
- בקשה
- ארכיטקטורה
- טענה
- טיעונים
- מאמר
- מלאכותי
- בינה מלאכותית
- המשויך
- זמין
- AWS
- סורגים
- Baseline
- כי
- מאחור
- הטוב ביותר
- שיטות עבודה מומלצות
- בֵּין
- הטיה
- ספר
- לשבור
- מביאים
- לִבנוֹת
- מובנה
- עסקים
- שרשראות
- בכיתה
- כיתות
- מיון
- קוד
- טור
- שילוב
- תואם
- להשלים
- לחשב
- המחשב
- ראייה ממוחשבת
- מחשוב
- מכולה
- מכולות
- מכיל
- תוכן
- להמיר
- תוֹאֵם
- זוג
- לִיצוֹר
- נוצר
- יוצר
- יוצרים
- יצירה
- מנהג
- לקוחות
- נתונים
- עמוק
- למידה עמוקה
- תלוי
- תלוי
- לפרוס
- פרס
- פריסה
- עיצוב
- מְפוֹרָט
- פרטים
- לקבוע
- נחוש
- קובע
- אחר
- ישירות
- נָדוֹן
- מופץ
- מחשוב מבוזר
- סַוָר
- תחומים
- מטה
- מונע
- ירידה
- כל אחד
- לזכות
- השפעה
- מאפשר
- לעודד
- נקודת קצה
- מהנדסים
- אנגלית
- לְהַבטִיחַ
- חברות
- שלם
- סביבה
- בוחן
- דוגמה
- צפוי
- להסביר
- מוסבר
- המסביר
- מסביר
- תמצית
- הגינות
- מאפיין
- תכונות
- שדה
- שדות
- קבצים
- בסופו של דבר
- ראשון
- קבוע
- מתמקד
- לעקוב
- הבא
- כדלקמן
- טופס
- פוּרמָט
- מצא
- החל מ-
- יתר על כן
- כללי
- ליצור
- נוצר
- מייצר
- יצירת
- גרמניה
- לקבל
- GitHub
- נתן
- גלוֹבָּלִי
- מטרה
- מדריך
- לטפל
- טיפול
- עוזר
- כאן
- גָבוֹהַ
- גבוה יותר
- טיול
- מחזיק
- אירוח
- איך
- איך
- HTML
- HTTPS
- בן אנוש
- רעיון
- מזהה
- תמונה
- פְּגִיעָה
- מיישמים
- לייבא
- חשיבות
- חשוב
- לשפר
- in
- כולל
- להגדיל
- להצביע
- להשפיע
- מידע
- אִינפוֹרמָטִיבִי
- יוזמה
- קלט
- להתקין
- למשל
- לשלב
- מוֹדִיעִין
- אינטראקטיבי
- אינטואיטיבי
- מעורר
- מעורב
- IT
- עבודה
- ג'סון
- מפתח
- תווית
- שפה
- שפות
- גָדוֹל
- למידה
- משפטי
- מגבלות
- קווים
- לִטעוֹן
- טוען
- מקומי
- מיקום
- מכונה
- למידת מכונה
- עשוי
- לעשות
- עושה
- עשייה
- רב
- אומר
- רפואי
- שיטות
- ML
- מודל
- מודלים
- יותר
- רוב
- מספר
- שם
- טבעי
- עיבוד שפה טבעית
- טבע
- צורך
- צרכי
- שלילי
- הבא
- NLP
- מחברה
- ציין
- מספר
- אובייקט
- להשיג
- לא מחובר
- ONE
- באינטרנט
- אונטולוגיה
- אפשרות
- אפשרויות
- ארגונים
- אחר
- סקירה
- שֶׁלוֹ
- חבילה
- פרמטרים
- חלקים
- חולף
- נתיב
- תבנית
- ביצועים
- ביצוע
- צינור
- מקום
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- חיובי
- הודעה
- פרקטיקות
- לחזות
- חזה
- נבואה
- התחזיות
- להציג
- מנהל
- קודם
- בעיות
- תהליך
- תהליכים
- תהליך
- מעבד
- פרויקטים
- לספק
- ובלבד
- מספק
- מטרה
- פיתון
- טִוּוּחַ
- חומר עיוני
- קריאה
- מוכן
- להפחית
- מפחית
- מכונה
- מתייחס
- קָשׁוּר
- רלוונטי
- להחליף
- לדווח
- מאגר
- לבקש
- בקשות
- לדרוש
- דרישה
- דרישות
- REST
- תוצאה
- תוצאות
- סקירה
- חוות דעת של לקוחותינו
- נהר
- חָסוֹן
- בעל חכמים
- אותו
- מדענים
- סקיקיט-לימוד
- Sdk
- שְׁנִיָה
- בחירה
- משפט
- רגש
- רצף
- סידורי
- סט
- צריך
- לְהַצִיג
- פָּשׁוּט
- יחיד
- מידה
- פִּתָרוֹן
- פתרונות
- לפתור
- כמה
- מיוחד
- ספציפי
- במיוחד
- ספורט
- בעלי עניין
- תֶקֶן
- התחלה
- החל
- חברות סטארט
- שלב
- צעדים
- אחסון
- חנות
- מאוחסן
- אסטרטגי
- עסק אסטרטגי
- מובנה
- בהצלחה
- מסייע
- תומך
- לקחת
- נטילת
- יעד
- מונחים
- סיווג טקסט
- השמיים
- שֶׁלָהֶם
- לכן
- דברים
- שְׁלוֹשָׁה
- ל
- אסימון
- מטבעות
- נושא
- רכבת
- מְאוּמָן
- הדרכה
- להפעיל
- סומך
- תור
- אובונטו
- להבין
- מובן
- להשתמש
- אימות
- ערך
- ערכים
- שונים
- באמצעות
- חזון
- ראיה
- אשר
- בזמן
- סקירה טכנית
- ויקיפדיה
- יצטרך
- לְלֹא
- Word
- מילים
- עבד
- עובד
- אתה
- זפירנט