בניית צינור לניתוח סנטימנטים של MLOps באמצעות Amazon SageMaker Ground Truth ו-Databricks MLflow

הועלה מחדש על ידי אפלטון

עוקב: 0

ככל שיותר ארגונים עוברים ללמידת מכונה (ML) כדי להעלות תובנות עמוקות יותר, שתי אבני נגף מרכזיות שהם נתקלים בהן הן תיוג וניהול מחזור חיים. תיוג הוא זיהוי הנתונים והוספת תוויות כדי לספק הקשר כדי שמודל ML יוכל ללמוד ממנו. תוויות עשויות להצביע על ביטוי בקובץ שמע, מכונית בתצלום או איבר בבדיקת MRI. תיוג נתונים הכרחי כדי לאפשר למודלים של ML לעבוד מול הנתונים. ניהול מחזור החיים קשור לתהליך של הגדרת ניסוי ML ותיעוד מערך הנתונים, הספרייה, הגרסה והמודל המשמשים להשגת תוצאות. צוות עשוי לערוך מאות ניסויים לפני שיקבע גישה אחת. לחזור וליצור מחדש את הגישה הזו יכול להיות קשה ללא תיעוד של מרכיבי הניסוי.

דוגמאות רבות ומדריכי לימוד רבים מתחילים במערך נתונים הכולל ערך יעד. עם זאת, לנתונים מהעולם האמיתי לא תמיד יש ערך יעד כזה. לדוגמה, בניתוח סנטימנט, אדם יכול בדרך כלל לשפוט אם ביקורת היא חיובית, שלילית או מעורבת. אבל ביקורות מורכבות מאוסף של טקסט ללא ערך שיפוט. על מנת ליצור א למידה מפוקחת מודל לפתרון בעיה זו, מערך נתונים מסומן באיכות גבוהה הוא חיוני. האמת של אמזון SageMaker הוא שירות תיוג נתונים מנוהל במלואו המקל על בניית מערכי הדרכה מדויקים ביותר עבור ML.

עבור ארגונים שמשתמשים ב-Databricks כפלטפורמת הנתונים והניתוח שלהם ב-AWS לביצוע משימות חילוץ, טרנספורמציה וטעינה (ETL), המטרה הסופית היא לרוב אימון מודל למידה מפוקח. בפוסט זה, אנו מראים כיצד Databricks משתלב עם Ground Truth ו אמזון SageMaker עבור תיוג נתונים והפצת מודלים.

סקירת פתרונות

Ground Truth הוא שירות תיוג נתונים מנוהל במלואו המקל על בניית מערכי אימון מדויקים ביותר עבור ML. באמצעות קונסולת Ground Truth, אנו יכולים ליצור תהליכי עבודה מותאמים אישית או מובנים של תיוג נתונים תוך דקות. זרימות עבודה אלו תומכות במגוון מקרי שימוש, כולל ענני נקודות תלת מימדיים, וידאו, תמונות וטקסט. בנוסף, Ground Truth מציע תיוג נתונים אוטומטי, המשתמש במודל ML כדי לתייג את הנתונים שלנו.

אנו מאמנים את המודל שלנו על בסיס הנתונים הזמין לציבור של אמזון ביקורות לקוחות. ברמה גבוהה, השלבים הם כדלקמן:

חלץ מערך נתונים גולמי לתיוג והעבר אותו אליו שירות אחסון פשוט של אמזון (אמזון S3).
בצע תיוג על ידי יצירת עבודת תיוג ב- SageMaker.
בנה ואמן מודל לומד לינארי פשוט של Scikit-learn כדי לסווג את הסנטימנט של טקסט הביקורת בפלטפורמת Databricks באמצעות דוגמה מחברה.
השתמש זרימת ML רכיבים כדי ליצור ולבצע MLOps ולשמור את חפצי המודל.
פרוס את המודל כנקודת קצה של SageMaker באמצעות ה ספריית MLflow SageMaker להסקת מסקנות בזמן אמת.

התרשים הבא ממחיש את מסע התיוג וה-ML באמצעות Ground Truth ו-MLflow.

צור עבודת תיוג ב- SageMaker

ממערך הנתונים של אמזון ביקורות לקוחות, אנו מחלצים את חלקי הטקסט בלבד, מכיוון שאנו בונים מודל לניתוח סנטימנטים. לאחר החילוץ, אנו שמים את הטקסט בדלי S3 ולאחר מכן יוצרים עבודת תיוג של Ground Truth דרך קונסולת SageMaker.

על צור עבודת תיוג בעמוד, מלא את כל השדות הנדרשים. כחלק מהשלב בדף זה, Ground Truth מאפשר לך ליצור את קובץ מניפסט העבודה. Ground Truth משתמש בקובץ מניפסט הקלט כדי לזהות את מספר הקבצים או האובייקטים בעבודת התיוג, כך שהמספר הנכון של משימות נוצר ונשלח למתייגים אנושיים (או מכונה). הקובץ נשמר אוטומטית בדלי S3. השלב הבא הוא לציין את קטגוריית המשימה ובחירת המשימה. במקרה השימוש הזה, אנחנו בוחרים טקסט כקטגוריית המשימות, ו סיווג טקסט עם תווית יחידה לבחירת משימה, מה שאומר שלטקסט סקירה יהיה סנטימנט יחיד: חיובי, שלילי או ניטרלי.

לבסוף, אנו כותבים הוראות פשוטות אך תמציתיות למתייגים כיצד לתייג את נתוני הטקסט. ההוראות מוצגות בכלי התיוג ותוכל לעיין בתצוגה של המציין בשלב זה. לבסוף, אנו מגישים את העבודה ועוקבים אחר ההתקדמות בקונסולה.

בזמן שעבודת התיוג מתבצעת, אנו יכולים גם להסתכל על הנתונים המסומנים על תְפוּקָה לשונית. אנו יכולים לפקח על כל טקסט ותווית ביקורת, ואם העבודה נעשתה על ידי אדם או מכונה. אנו יכולים לבחור 100% מעבודות התיוג שיבוצעו על ידי בני אדם או לבחור ביאור מכונה, מה שמאיץ את העבודה ומפחית את עלויות העבודה.

כאשר העבודה הושלמה, סיכום עבודת התוויות מכיל קישורים למניפסט הפלט ולמערך הנתונים המסומן. אנחנו יכולים גם ללכת לאמזון S3 ולהוריד את שניהם מתיקיית דלי S3 שלנו.

בנה צינור ניתוח סנטימנטים של MLOps באמצעות Amazon SageMaker Ground Truth ו-Databricks MLflow PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בשלבים הבאים, אנו משתמשים במחברת Databricks, זרימת ML, ומערכי נתונים המסומנים על ידי Ground Truth לבניית א Scikit-ללמוד מודל.

הורד מערך נתונים מסומן מאמזון S3

אנו מתחילים בהורדת מערך הנתונים המסומן מאמזון S3. המניפסט נשמר בפורמט JSON ואנחנו טוענים אותו ל-Spark DataFrame ב-Databricks. כדי להכשיר את מודל ניתוח הסנטימנט, אנו זקוקים רק לטקסט הסקירה ולסנטימנט שצוינו על ידי עבודת התיוג של Ground Truth. אנו משתמשים ב- select() כדי לחלץ את שתי התכונות הללו. לאחר מכן אנו ממירים את מערך הנתונים מ-PySpark DataFrame ל-Pandas DataFrame, מכיוון שהאלגוריתם של Scikit-learn דורש פורמט Pandas DataFrame.

לאחר מכן, אנו משתמשים ב-Skikit-learn CountVectorizer כדי להפוך את טקסט הביקורת לוקטור ביגרם על ידי הגדרת ה- ngram_range ערך מקסימלי ל-2. CountVectorizer ממירה טקסט למטריצה של ספירת אסימונים. ואז אנחנו משתמשים TfidfTransformer כדי להפוך את וקטור הביגרמה לתבנית תדר מסמך הפוך (TF-IDF).

אנו משווים את ציוני הדיוק עבור אימון שנעשה עם וקטור ביגרם לעומת ביגרם עם TF-IDF. TF-IDF הוא מדד סטטיסטי שמעריך עד כמה מילה רלוונטית למסמך באוסף מסמכים. מכיוון שטקסט הסקירה נוטה להיות קצר יחסית, אנו יכולים לראות כיצד TF-IDF משפיע על הביצועים של מודל הניבוי.

בנה צינור ניתוח סנטימנטים של MLOps באמצעות Amazon SageMaker Ground Truth ו-Databricks MLflow PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הגדר ניסוי MLflow

MLflow פותחה על ידי Databricks וכעת היא א פרויקט קוד פתוח. MLflow מנהלת את מחזור החיים של ML, כך שתוכל לעקוב, ליצור מחדש ולפרסם ניסויים בקלות.

כדי להגדיר ניסויי MLflow, אנו משתמשים mlflow.sklearn.autolog() כדי לאפשר רישום אוטומטי של היפרפרמטרים, מדדים וחפצי מודל בכל עת estimator.fit(), estimator.fit_predict(), ו estimator.fit_transform() נקראים. לחלופין, תוכל לעשות זאת באופן ידני על ידי התקשרות mlflow.log_param() ו mlflow.log_metric().

אנו מתאימים את מערך הנתונים שעבר טרנספורמציה למסווג ליניארי עם למידה של ירידה בדרגה סטוקהסטית (SGD). עם SGD, שיפוע ההפסד מוערך במדגם אחד בכל פעם והמודל מתעדכן לאורך הדרך עם לוח זמנים של חוזק פוחת.

שני מערכי הנתונים האלו שהכנו קודם מועברים ל- train_and_show_scores() פונקציה לאימון. לאחר האימון, עלינו לרשום דגם ולשמור את החפצים שלו. אנו משתמשים mlflow.sklearn.log_model() כדי לעשות זאת.

לפני הפריסה, אנו מסתכלים על תוצאות הניסוי ובוחרים שני ניסויים (אחד עבור ביגרם והשני עבור ביגרם עם TF-IDF) להשוואה. במקרה השימוש שלנו, הדגם השני שאומן עם bigram TF-IDF פעל מעט טוב יותר, אז אנחנו בוחרים את הדגם הזה לפריסה. לאחר רישום הדגם, אנו פורסים את הדגם ומשנים את שלב הדגם לייצור. אנו יכולים להשיג זאת בממשק המשתמש של MLflow, או בקוד באמצעות transition_model_version_stage().

בנה צינור ניתוח סנטימנטים של MLOps באמצעות Amazon SageMaker Ground Truth ו-Databricks MLflow PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

פרוס ובדוק את המודל כנקודת קצה של SageMaker

לפני שאנו פורסים את המודל המאומן, עלינו לבנות קונטיינר Docker לארח את המודל ב- SageMaker. אנו עושים זאת על ידי הפעלת פקודת MLflow פשוטה שבונה ודוחפת את הקונטיינר אל מרשם מיכל אלסטי של אמזון (Amazon ECR) בחשבון ה-AWS שלנו.

כעת אנו יכולים למצוא את ה-URI של התמונה בקונסולת אמזון ECR. אנו מעבירים את URI התמונה כ-an image_url פרמטר, ושימוש DEPLOYMENT_MODE_CREATE לפרמטר מצב אם זו פריסה חדשה. אם אתה מעדכן נקודת קצה קיימת בגרסה חדשה, השתמש DEPLOYMENT_MODE_REPLACE.

כדי לבדוק את נקודת הקצה של SageMaker, אנו יוצרים פונקציה שלוקחת את שם נקודת הקצה ואת נתוני הקלט כפרמטרים שלה.

בנה צינור ניתוח סנטימנטים של MLOps באמצעות Amazon SageMaker Ground Truth ו-Databricks MLflow PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום

בפוסט זה, הראינו לכם כיצד להשתמש ב-Ground Truth כדי לתייג מערך נתונים גולמי, ולהשתמש בנתונים המסומנים כדי לאמן מסווג ליניארי פשוט באמצעות Scikit-learn. בדוגמה זו, אנו משתמשים ב-MLflow כדי לעקוב אחר היפרפרמטרים ומדדים, לרשום מודל בדרגת ייצור ולפרוס את המודל המאומן ל- SageMaker כנקודת קצה. יחד עם Databricks לעיבוד הנתונים, אתה יכול להפוך את כל מקרה השימוש הזה לאוטומטי, כך שככל שמוצגים נתונים חדשים, ניתן לתייג אותם ולעבד אותם לתוך המודל. על ידי אוטומציה של צינורות ומודלים אלה, צוותי מדעי הנתונים יכולים להתמקד במקרי שימוש חדשים ולחשוף תובנות נוספות במקום לבזבז את זמנם בניהול עדכוני נתונים על בסיס יומיומי.

כדי להתחיל, בדוק השתמש ב-Amazon SageMaker Ground Truth כדי לתייג נתונים ולהירשם ל ניסיון חינם ל-14 יום של Databricks ב-AWS. למידע נוסף על האופן שבו Databricks משתלב עם SageMaker, כמו גם שירותי AWS אחרים כמו דבק AWS ו האדום של אמזון, בקר Databricks ב-AWS.

בנוסף, בדוק את המשאבים הבאים המשמשים בפוסט זה:

השתמש באפשרויות הבאות מחברה כדי להתחיל בעבודה.

על הכותבים

בנה צינור ניתוח סנטימנטים של MLOps באמצעות Amazon SageMaker Ground Truth ו-Databricks MLflow PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. רומי אולסן הוא אדריכל פתרונות בתוכנית השותפים של AWS. היא מתמחה בפתרונות ללא שרת ולמידת מכונה בתפקידה הנוכחי, ויש לה רקע בטכנולוגיות עיבוד שפה טבעית. היא מבלה את רוב זמנה הפנוי עם בתה בחקירת הטבע של צפון מערב האוקיינוס השקט.

איגור אלכסייב הוא אדריכל פתרונות שותפים ב-AWS ב-Data and Analytics. איגור עובד עם שותפים אסטרטגיים שעוזרים להם לבנות ארכיטקטורות מורכבות ומותאמות ל-AWS. לפני שהצטרף ל-AWS, כאדריכל Data/Solution, הוא יישם פרויקטים רבים בביג דאטה, כולל מספר אגמי נתונים במערכת האקולוגית של Hadoop. כמהנדס נתונים, הוא היה מעורב ביישום AI/ML לאיתור הונאה ואוטומציה משרדית. הפרויקטים של איגור היו במגוון תעשיות כולל תקשורת, פיננסים, בטיחות הציבור, ייצור ושירותי בריאות. קודם לכן, איגור עבד כמהנדס מלא/מוביל טכנולוגי.

הנאסר אחמד הוא Sr. Partner Solutions Architect ב-Databricks התומך בעסקי ה-AWS שלה. Naseer מתמחה באחסון נתונים, בינה עסקית, פיתוח אפליקציות, ארכיטקטורות מיכל, ללא שרתים, למידת מכונה ב-AWS. הוא נבחר ל-SME של השנה ב-2021 ב-Databricks והוא חובב קריפטו מושבע.

בול זמן: אפריל 4, 2022

חזה נטישה של לקוחות עם למידת מכונה ללא קוד באמצעות Amazon SageMaker Canvas

אשכול המקור:

למידת מכונות AWS

צומת המקור: 1293818

בול זמן: מאי 5, 2022

בניית צינור ניתוח סנטימנטים של MLOps באמצעות Amazon SageMaker Ground Truth ו-Databricks MLflow

הועלה מחדש על ידי אפלטון

סקירת פתרונות

צור עבודת תיוג ב- SageMaker

הורד מערך נתונים מסומן מאמזון S3

הגדר ניסוי MLflow

פרוס ובדוק את המודל כנקודת קצה של SageMaker

סיכום

על הכותבים

עוד מ למידת מכונות AWS

טייס אוטומטי של אמזון SageMaker מהיר עד פי שמונה עם מצב אימון אנסמבל חדש המופעל על ידי AutoGluon

הגדר הרשאות מותאמות אישית תוך דקות עם Amazon SageMaker Role Manager דרך AWS CDK | שירותי האינטרנט של אמזון

אפשר אימון מהיר יותר עם ספריית הנתונים המקבילים של Amazon SageMaker | שירותי האינטרנט של אמזון

AWS חוגגת 5 שנים של חדשנות עם Amazon SageMaker

הגדר חריצי DTMF והזמנת הנחיות לניסיון חוזר עם Amazon Lex

מדדים להערכת פתרון לאימות זהות

כיצד יצירת אב טיפוס של AWS אפשרה לקבוצת כיל לבנות מודלים של ראייה ממוחשבת באמזון SageMaker | שירותי האינטרנט של אמזון

איך Amazon Search מפעיל פרויקטים של למידת מכונה בקנה מידה גדול ועמיד עם Amazon SageMaker

חבר בצורה חלקה את Amazon Athena עם Amazon Lookout for Metrics כדי לזהות חריגות

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן