ככל שיותר ארגונים עוברים ללמידת מכונה (ML) כדי להעלות תובנות עמוקות יותר, שתי אבני נגף מרכזיות שהם נתקלים בהן הן תיוג וניהול מחזור חיים. תיוג הוא זיהוי הנתונים והוספת תוויות כדי לספק הקשר כדי שמודל ML יוכל ללמוד ממנו. תוויות עשויות להצביע על ביטוי בקובץ שמע, מכונית בתצלום או איבר בבדיקת MRI. תיוג נתונים הכרחי כדי לאפשר למודלים של ML לעבוד מול הנתונים. ניהול מחזור החיים קשור לתהליך של הגדרת ניסוי ML ותיעוד מערך הנתונים, הספרייה, הגרסה והמודל המשמשים להשגת תוצאות. צוות עשוי לערוך מאות ניסויים לפני שיקבע גישה אחת. לחזור וליצור מחדש את הגישה הזו יכול להיות קשה ללא תיעוד של מרכיבי הניסוי.
דוגמאות רבות ומדריכי לימוד רבים מתחילים במערך נתונים הכולל ערך יעד. עם זאת, לנתונים מהעולם האמיתי לא תמיד יש ערך יעד כזה. לדוגמה, בניתוח סנטימנט, אדם יכול בדרך כלל לשפוט אם ביקורת היא חיובית, שלילית או מעורבת. אבל ביקורות מורכבות מאוסף של טקסט ללא ערך שיפוט. על מנת ליצור א למידה מפוקחת מודל לפתרון בעיה זו, מערך נתונים מסומן באיכות גבוהה הוא חיוני. האמת של אמזון SageMaker הוא שירות תיוג נתונים מנוהל במלואו המקל על בניית מערכי הדרכה מדויקים ביותר עבור ML.
עבור ארגונים שמשתמשים ב-Databricks כפלטפורמת הנתונים והניתוח שלהם ב-AWS לביצוע משימות חילוץ, טרנספורמציה וטעינה (ETL), המטרה הסופית היא לרוב אימון מודל למידה מפוקח. בפוסט זה, אנו מראים כיצד Databricks משתלב עם Ground Truth ו אמזון SageMaker עבור תיוג נתונים והפצת מודלים.
סקירת פתרונות
Ground Truth הוא שירות תיוג נתונים מנוהל במלואו המקל על בניית מערכי אימון מדויקים ביותר עבור ML. באמצעות קונסולת Ground Truth, אנו יכולים ליצור תהליכי עבודה מותאמים אישית או מובנים של תיוג נתונים תוך דקות. זרימות עבודה אלו תומכות במגוון מקרי שימוש, כולל ענני נקודות תלת מימדיים, וידאו, תמונות וטקסט. בנוסף, Ground Truth מציע תיוג נתונים אוטומטי, המשתמש במודל ML כדי לתייג את הנתונים שלנו.
אנו מאמנים את המודל שלנו על בסיס הנתונים הזמין לציבור של אמזון ביקורות לקוחות. ברמה גבוהה, השלבים הם כדלקמן:
- חלץ מערך נתונים גולמי לתיוג והעבר אותו אליו שירות אחסון פשוט של אמזון (אמזון S3).
- בצע תיוג על ידי יצירת עבודת תיוג ב- SageMaker.
- בנה ואמן מודל לומד לינארי פשוט של Scikit-learn כדי לסווג את הסנטימנט של טקסט הביקורת בפלטפורמת Databricks באמצעות דוגמה מחברה.
- השתמש זרימת ML רכיבים כדי ליצור ולבצע MLOps ולשמור את חפצי המודל.
- פרוס את המודל כנקודת קצה של SageMaker באמצעות ה ספריית MLflow SageMaker להסקת מסקנות בזמן אמת.
התרשים הבא ממחיש את מסע התיוג וה-ML באמצעות Ground Truth ו-MLflow.
צור עבודת תיוג ב- SageMaker
ממערך הנתונים של אמזון ביקורות לקוחות, אנו מחלצים את חלקי הטקסט בלבד, מכיוון שאנו בונים מודל לניתוח סנטימנטים. לאחר החילוץ, אנו שמים את הטקסט בדלי S3 ולאחר מכן יוצרים עבודת תיוג של Ground Truth דרך קונסולת SageMaker.
על צור עבודת תיוג בעמוד, מלא את כל השדות הנדרשים. כחלק מהשלב בדף זה, Ground Truth מאפשר לך ליצור את קובץ מניפסט העבודה. Ground Truth משתמש בקובץ מניפסט הקלט כדי לזהות את מספר הקבצים או האובייקטים בעבודת התיוג, כך שהמספר הנכון של משימות נוצר ונשלח למתייגים אנושיים (או מכונה). הקובץ נשמר אוטומטית בדלי S3. השלב הבא הוא לציין את קטגוריית המשימה ובחירת המשימה. במקרה השימוש הזה, אנחנו בוחרים טקסט כקטגוריית המשימות, ו סיווג טקסט עם תווית יחידה לבחירת משימה, מה שאומר שלטקסט סקירה יהיה סנטימנט יחיד: חיובי, שלילי או ניטרלי.
לבסוף, אנו כותבים הוראות פשוטות אך תמציתיות למתייגים כיצד לתייג את נתוני הטקסט. ההוראות מוצגות בכלי התיוג ותוכל לעיין בתצוגה של המציין בשלב זה. לבסוף, אנו מגישים את העבודה ועוקבים אחר ההתקדמות בקונסולה.
בזמן שעבודת התיוג מתבצעת, אנו יכולים גם להסתכל על הנתונים המסומנים על תְפוּקָה לשונית. אנו יכולים לפקח על כל טקסט ותווית ביקורת, ואם העבודה נעשתה על ידי אדם או מכונה. אנו יכולים לבחור 100% מעבודות התיוג שיבוצעו על ידי בני אדם או לבחור ביאור מכונה, מה שמאיץ את העבודה ומפחית את עלויות העבודה.
כאשר העבודה הושלמה, סיכום עבודת התוויות מכיל קישורים למניפסט הפלט ולמערך הנתונים המסומן. אנחנו יכולים גם ללכת לאמזון S3 ולהוריד את שניהם מתיקיית דלי S3 שלנו.
בשלבים הבאים, אנו משתמשים במחברת Databricks, זרימת ML, ומערכי נתונים המסומנים על ידי Ground Truth לבניית א Scikit-ללמוד מודל.
הורד מערך נתונים מסומן מאמזון S3
אנו מתחילים בהורדת מערך הנתונים המסומן מאמזון S3. המניפסט נשמר בפורמט JSON ואנחנו טוענים אותו ל-Spark DataFrame ב-Databricks. כדי להכשיר את מודל ניתוח הסנטימנט, אנו זקוקים רק לטקסט הסקירה ולסנטימנט שצוינו על ידי עבודת התיוג של Ground Truth. אנו משתמשים ב- select() כדי לחלץ את שתי התכונות הללו. לאחר מכן אנו ממירים את מערך הנתונים מ-PySpark DataFrame ל-Pandas DataFrame, מכיוון שהאלגוריתם של Scikit-learn דורש פורמט Pandas DataFrame.
לאחר מכן, אנו משתמשים ב-Skikit-learn CountVectorizer
כדי להפוך את טקסט הביקורת לוקטור ביגרם על ידי הגדרת ה- ngram_range
ערך מקסימלי ל-2. CountVectorizer
ממירה טקסט למטריצה של ספירת אסימונים. ואז אנחנו משתמשים TfidfTransformer
כדי להפוך את וקטור הביגרמה לתבנית תדר מסמך הפוך (TF-IDF).
אנו משווים את ציוני הדיוק עבור אימון שנעשה עם וקטור ביגרם לעומת ביגרם עם TF-IDF. TF-IDF הוא מדד סטטיסטי שמעריך עד כמה מילה רלוונטית למסמך באוסף מסמכים. מכיוון שטקסט הסקירה נוטה להיות קצר יחסית, אנו יכולים לראות כיצד TF-IDF משפיע על הביצועים של מודל הניבוי.
הגדר ניסוי MLflow
MLflow פותחה על ידי Databricks וכעת היא א פרויקט קוד פתוח. MLflow מנהלת את מחזור החיים של ML, כך שתוכל לעקוב, ליצור מחדש ולפרסם ניסויים בקלות.
כדי להגדיר ניסויי MLflow, אנו משתמשים mlflow.sklearn.autolog()
כדי לאפשר רישום אוטומטי של היפרפרמטרים, מדדים וחפצי מודל בכל עת estimator.fit()
, estimator.fit_predict()
, ו estimator.fit_transform()
נקראים. לחלופין, תוכל לעשות זאת באופן ידני על ידי התקשרות mlflow.log_param()
ו mlflow.log_metric()
.
אנו מתאימים את מערך הנתונים שעבר טרנספורמציה למסווג ליניארי עם למידה של ירידה בדרגה סטוקהסטית (SGD). עם SGD, שיפוע ההפסד מוערך במדגם אחד בכל פעם והמודל מתעדכן לאורך הדרך עם לוח זמנים של חוזק פוחת.
שני מערכי הנתונים האלו שהכנו קודם מועברים ל- train_and_show_scores()
פונקציה לאימון. לאחר האימון, עלינו לרשום דגם ולשמור את החפצים שלו. אנו משתמשים mlflow.sklearn.log_model()
כדי לעשות זאת.
לפני הפריסה, אנו מסתכלים על תוצאות הניסוי ובוחרים שני ניסויים (אחד עבור ביגרם והשני עבור ביגרם עם TF-IDF) להשוואה. במקרה השימוש שלנו, הדגם השני שאומן עם bigram TF-IDF פעל מעט טוב יותר, אז אנחנו בוחרים את הדגם הזה לפריסה. לאחר רישום הדגם, אנו פורסים את הדגם ומשנים את שלב הדגם לייצור. אנו יכולים להשיג זאת בממשק המשתמש של MLflow, או בקוד באמצעות transition_model_version_stage()
.
פרוס ובדוק את המודל כנקודת קצה של SageMaker
לפני שאנו פורסים את המודל המאומן, עלינו לבנות קונטיינר Docker לארח את המודל ב- SageMaker. אנו עושים זאת על ידי הפעלת פקודת MLflow פשוטה שבונה ודוחפת את הקונטיינר אל מרשם מיכל אלסטי של אמזון (Amazon ECR) בחשבון ה-AWS שלנו.
כעת אנו יכולים למצוא את ה-URI של התמונה בקונסולת אמזון ECR. אנו מעבירים את URI התמונה כ-an image_url
פרמטר, ושימוש DEPLOYMENT_MODE_CREATE
לפרמטר מצב אם זו פריסה חדשה. אם אתה מעדכן נקודת קצה קיימת בגרסה חדשה, השתמש DEPLOYMENT_MODE_REPLACE
.
כדי לבדוק את נקודת הקצה של SageMaker, אנו יוצרים פונקציה שלוקחת את שם נקודת הקצה ואת נתוני הקלט כפרמטרים שלה.
סיכום
בפוסט זה, הראינו לכם כיצד להשתמש ב-Ground Truth כדי לתייג מערך נתונים גולמי, ולהשתמש בנתונים המסומנים כדי לאמן מסווג ליניארי פשוט באמצעות Scikit-learn. בדוגמה זו, אנו משתמשים ב-MLflow כדי לעקוב אחר היפרפרמטרים ומדדים, לרשום מודל בדרגת ייצור ולפרוס את המודל המאומן ל- SageMaker כנקודת קצה. יחד עם Databricks לעיבוד הנתונים, אתה יכול להפוך את כל מקרה השימוש הזה לאוטומטי, כך שככל שמוצגים נתונים חדשים, ניתן לתייג אותם ולעבד אותם לתוך המודל. על ידי אוטומציה של צינורות ומודלים אלה, צוותי מדעי הנתונים יכולים להתמקד במקרי שימוש חדשים ולחשוף תובנות נוספות במקום לבזבז את זמנם בניהול עדכוני נתונים על בסיס יומיומי.
כדי להתחיל, בדוק השתמש ב-Amazon SageMaker Ground Truth כדי לתייג נתונים ולהירשם ל ניסיון חינם ל-14 יום של Databricks ב-AWS. למידע נוסף על האופן שבו Databricks משתלב עם SageMaker, כמו גם שירותי AWS אחרים כמו דבק AWS ו האדום של אמזון, בקר Databricks ב-AWS.
בנוסף, בדוק את המשאבים הבאים המשמשים בפוסט זה:
השתמש באפשרויות הבאות מחברה כדי להתחיל בעבודה.
על הכותבים
רומי אולסן הוא אדריכל פתרונות בתוכנית השותפים של AWS. היא מתמחה בפתרונות ללא שרת ולמידת מכונה בתפקידה הנוכחי, ויש לה רקע בטכנולוגיות עיבוד שפה טבעית. היא מבלה את רוב זמנה הפנוי עם בתה בחקירת הטבע של צפון מערב האוקיינוס השקט.
איגור אלכסייב הוא אדריכל פתרונות שותפים ב-AWS ב-Data and Analytics. איגור עובד עם שותפים אסטרטגיים שעוזרים להם לבנות ארכיטקטורות מורכבות ומותאמות ל-AWS. לפני שהצטרף ל-AWS, כאדריכל Data/Solution, הוא יישם פרויקטים רבים בביג דאטה, כולל מספר אגמי נתונים במערכת האקולוגית של Hadoop. כמהנדס נתונים, הוא היה מעורב ביישום AI/ML לאיתור הונאה ואוטומציה משרדית. הפרויקטים של איגור היו במגוון תעשיות כולל תקשורת, פיננסים, בטיחות הציבור, ייצור ושירותי בריאות. קודם לכן, איגור עבד כמהנדס מלא/מוביל טכנולוגי.
הנאסר אחמד הוא Sr. Partner Solutions Architect ב-Databricks התומך בעסקי ה-AWS שלה. Naseer מתמחה באחסון נתונים, בינה עסקית, פיתוח אפליקציות, ארכיטקטורות מיכל, ללא שרתים, למידת מכונה ב-AWS. הוא נבחר ל-SME של השנה ב-2021 ב-Databricks והוא חובב קריפטו מושבע.
- Coinsmart. בורסת הביטקוין והקריפטו הטובה באירופה.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה חופשית.
- CryptoHawk. רדאר אלטקוין. ניסיון חינם.
- מקור: https://aws.amazon.com/blogs/machine-learning/build-an-mlops-sentiment-analysis-pipeline-using-amazon-sagemaker-ground-truth-and-databricks-mlflow/
- "
- 100
- 2021
- 3d
- אודות
- חֶשְׁבּוֹן
- מדויק
- תוספת
- אַלגוֹרִיתְם
- תעשיות
- אמזון בעברית
- אנליזה
- ניתוח
- האפליקציה
- פיתוח אפליקציות
- מריחה
- גישה
- אודיו
- המכונית
- אוטומציה
- זמין
- AWS
- רקע
- בסיס
- נתונים גדולים
- לִבנוֹת
- בִּניָן
- בונה
- מובנה
- עסקים
- מודיעין עסקי
- מכונית
- מקרים
- קטגוריה
- לבחור
- מיון
- קוד
- אוסף
- תקשורת
- מורכב
- קונסול
- מכולה
- מכיל
- עלויות
- נוצר
- יוצרים
- קריפטו
- נוֹכְחִי
- מנהג
- נתונים
- מדע נתונים
- עמוק יותר
- לפרוס
- פריסה
- פריסה
- איתור
- מפותח
- צעצועי התפתחות
- קשה
- הפצה
- סַוָר
- מסמכים
- לא
- נהיגה
- בקלות
- המערכת האקולוגית
- לאפשר
- נקודת קצה
- מהנדס
- חיוני
- מוערך
- דוגמה
- לְנַסוֹת
- תכונות
- שדות
- בסופו של דבר
- לממן
- מתאים
- להתמקד
- הבא
- פוּרמָט
- הונאה
- חופשי
- מלא
- פונקציה
- ליצור
- מטרה
- הולך
- בריאות
- גָבוֹהַ
- מאוד
- איך
- איך
- HTTPS
- בן אנוש
- בני אדם
- מאות
- הזדהות
- לזהות
- תמונה
- יושם
- כולל
- תעשיות
- קלט
- תובנות
- מוֹדִיעִין
- מעורב
- IT
- עבודה
- מקומות תעסוקה
- מפתח
- תיוג
- תוויות
- עבודה
- שפה
- עוֹפֶרֶת
- לִלמוֹד
- למידה
- רמה
- סִפְרִיָה
- קישורים
- לִטעוֹן
- מכונה
- למידת מכונה
- עשוי
- עושה
- הצליח
- ניהול
- ניהול
- באופן ידני
- ייצור
- מַטרִיצָה
- למדוד
- מדדים
- מעורב
- ML
- מודל
- מודלים
- צג
- יותר
- רוב
- המהלך
- טבעי
- טבע
- מחברה
- מספר
- המיוחדות שלנו
- להזמין
- ארגונים
- אחר
- פסיפיק
- שותף
- שותפים
- ביצועים
- אדם
- פלטפורמה
- נקודה
- חיובי
- בעיה
- תהליך
- הפקה
- תָכְנִית
- פרויקטים
- לספק
- ציבורי
- לפרסם
- חי
- זמן אמת
- רשום
- הירשם
- רשום
- רלוונטי
- נדרש
- משאבים
- תוצאות
- סקירה
- חוות דעת של לקוחותינו
- הפעלה
- ריצה
- בְּטִיחוּת
- מדע
- רגש
- ללא שרת
- שרות
- שירותים
- סט
- הצבה
- קצר
- פָּשׁוּט
- So
- פִּתָרוֹן
- פתרונות
- לפתור
- מתמחה
- הוצאה
- לערום
- התמחות
- התחלה
- החל
- סטטיסטי
- אחסון
- אסטרטגי
- תמיכה
- מסייע
- יעד
- משימות
- נבחרת
- טכנולוגיות
- מבחן
- דרך
- זמן
- אסימון
- כלי
- לעקוב
- הדרכה
- לשנות
- מִשׁפָּט
- הדרכות
- ui
- האולטימטיבי
- לגלות
- עדכונים
- להשתמש
- בְּדֶרֶך כְּלַל
- ערך
- מגוון
- וִידֵאוֹ
- לצפיה
- אם
- לְלֹא
- תיק עבודות
- עבד
- עובד
- שנה