צור נתונים באיכות גבוהה עבור דגמי ML עם Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

צור נתונים באיכות גבוהה עבור דגמי ML עם Amazon SageMaker Ground Truth

למידת מכונה (ML) שיפרה את העסקים בין התעשיות בשנים האחרונות - ממערכת ההמלצות שלך Mult respect חשבון, לתיעוד סיכום וחיפוש יעיל בעזרתו Alexaהסיוע הקולי של. עם זאת, נותרה השאלה כיצד לשלב את הטכנולוגיה הזו בעסק שלך. בניגוד לשיטות המסורתיות מבוססות כללים, ML מסיקה אוטומטית דפוסים מנתונים כדי לבצע את המשימה המעניינת שלך. למרות שזה עוקף את הצורך לאצור כללים לאוטומציה, זה גם אומר שדגמי ML יכולים להיות טובים רק כמו הנתונים שעליהם הם מאומנים. עם זאת, יצירת נתונים היא לרוב משימה מאתגרת. ב מעבדת פתרונות למידת מכונות של אמזון, נתקלנו שוב ושוב בבעיה זו ורוצים להקל על המסע הזה עבור הלקוחות שלנו. אם אתה רוצה להוריד תהליך זה, אתה יכול להשתמש Amazon SageMaker Ground Truth Plus.

בסוף הפוסט הזה, תוכל להשיג את הדברים הבאים:

  • הבן את התהליכים העסקיים הכרוכים בהקמת צינור רכישת נתונים
  • זהה שירותי ענן של AWS לתמיכה ולזירוז צינור תיוג הנתונים שלך
  • הפעל משימת רכישת נתונים ותיוג עבור מקרי שימוש מותאמים אישית
  • צור נתונים באיכות גבוהה בהתאם לשיטות העבודה המומלצות העסקיות והטכניות

לאורך הפוסט הזה, אנו מתמקדים בתהליך יצירת הנתונים ומסתמכים על שירותי AWS לטיפול בתשתית ורכיבי התהליך. כלומר, אנחנו משתמשים האמת של אמזון SageMaker לטפל בצנרת תשתית התיוג ובממשק המשתמש. שירות זה משתמש בגישה של נקודה וסע לאיסוף הנתונים שלך שירות אחסון פשוט של אמזון (Amazon S3) והגדר זרימת עבודה לתיוג. עבור תיוג, הוא מספק לך את הגמישות המובנית לרכוש תוויות נתונים באמצעות הצוות הפרטי שלך, א אמזון מכני force, או מהספק התיוג המועדף עליך AWS שוק. לבסוף, אתה יכול להשתמש AWS למבדה ו מחברות SageMaker של אמזון לעבד, להמחיש או לבקר את האיכות של הנתונים - מראש או לאחר תיוג.

עכשיו, כשכל החלקים הונחו, בואו נתחיל בתהליך!

תהליך יצירת הנתונים

בניגוד לאינטואיציה המקובלת, הצעד הראשון ליצירת נתונים אינו איסוף נתונים. עבודה לאחור מהמשתמשים כדי לבטא את הבעיה היא חיונית. לדוגמה, מה אכפת למשתמשים בחפץ הסופי? היכן מאמינים מומחים שהאותות הרלוונטיים למקרה השימוש נמצאים בנתונים? איזה מידע על סביבת השימוש במקרה אפשר לספק למודל? אם אינך יודע את התשובות לשאלות אלו, אל תדאג. תן לעצמך קצת זמן לדבר עם משתמשים ומומחי שטח כדי להבין את הניואנסים. הבנה ראשונית זו תכוון אותך לכיוון הנכון ותגרום לך להצלחה.

עבור פוסט זה, אנו מניחים שכיסית את התהליך הראשוני הזה של מפרט דרישות המשתמש. שלושת הסעיפים הבאים מובילים אותך בתהליך העוקב של יצירת נתונים איכותיים: תכנון, יצירת נתוני מקור והערת נתונים. לולאות פיילוט בשלבי יצירת הנתונים והביאורים חיוניים להבטחת יצירה יעילה של נתונים מסומנים. זה כולל איטרציה בין יצירת נתונים, הערות, הבטחת איכות ועדכון הצינור לפי הצורך.

האיור הבא מספק סקירה כללית של השלבים הנדרשים בצינור יצירת נתונים טיפוסי. אתה יכול לעבוד אחורה ממקרה השימוש כדי לזהות את הנתונים שאתה צריך (מפרט דרישות), לבנות תהליך להשגת הנתונים (תכנון), ליישם את תהליך רכישת הנתונים בפועל (איסוף נתונים והערות), ולהעריך את התוצאות. ריצות פיילוט, מודגשות בקווים מקווקוים, מאפשרות לך לחזור על התהליך עד שפותח צינור רכישת נתונים באיכות גבוהה.

סקירה כללית של השלבים הנדרשים בצינור יצירת נתונים טיפוסי.

תכנון

תהליך יצירת נתונים סטנדרטי יכול להיות גוזל זמן ובזבוז של משאבי אנוש יקרים אם הוא מתנהל בצורה לא יעילה. למה שזה יקח זמן? כדי לענות על שאלה זו, עלינו להבין את היקף תהליך יצירת הנתונים. כדי לסייע לך, אספנו רשימת בדיקה ברמה גבוהה ותיאור של מרכיבי מפתח ובעלי עניין שעליך לקחת בחשבון. מענה על שאלות אלו עשוי להיות קשה בהתחלה. בהתאם למקרה השימוש שלך, רק חלק מהם עשויים להיות רלוונטיים.

  • זהה את נקודת הקשר המשפטית לאישורים הנדרשים - שימוש בנתונים עבור האפליקציה שלך עשוי לדרוש סקירת רישיון או חוזה ספק כדי להבטיח עמידה במדיניות החברה ובמקרי שימוש. חשוב לזהות את התמיכה המשפטית שלך לאורך שלבי רכישת הנתונים והביאורים של התהליך.
  • זהה את נקודת הקשר האבטחה לטיפול בנתונים – דליפה של נתונים שנרכשו עלולה לגרום לקנסות חמורים ולהשלכות עבור החברה שלך. חשוב לזהות את תמיכת האבטחה שלך לאורך כל שלבי רכישת הנתונים והביאורים כדי להבטיח שיטות מאובטחות.
  • פרט את דרישות מקרה השימוש והגדר נתוני מקור והנחיות הערות – יצירה והערה של נתונים קשים בשל הספציפיות הגבוהה הנדרשת. בעלי עניין, כולל מחוללי נתונים ומעריכים, חייבים להיות מיושרים לחלוטין כדי למנוע בזבוז משאבים. לשם כך, נהוג להשתמש במסמך הנחיות המפרט כל היבט של משימת ההערה: הוראות מדויקות, מקרי קצה, הדרכה לדוגמה וכן הלאה.
  • התאם את הציפיות לאיסוף נתוני המקור שלך - שקול את הדברים הבאים:
    • ערוך מחקר על מקורות נתונים פוטנציאליים – לדוגמה, מערכי נתונים ציבוריים, מערכי נתונים קיימים מצוותים פנימיים אחרים, נתונים שנאספו בעצמם או נרכשו מספקים.
    • בצע הערכת איכות – יצירת צינור ניתוח ביחס למקרה השימוש הסופי.
  • התאם את הציפיות ליצירת הערות נתונים - שקול את הדברים הבאים:
    • זהה את בעלי העניין הטכניים - בדרך כלל מדובר באדם או צוות בחברה שלך המסוגלים להשתמש בתיעוד הטכני לגבי Ground Truth כדי ליישם צינור הערות. בעלי עניין אלה אחראים גם להערכת איכות של הנתונים המוערים כדי לוודא שהם מתאימים לצרכים של יישום ML במורד הזרם שלך.
    • זהה את מפרשי הנתונים - אנשים אלה משתמשים בהוראות שנקבעו מראש כדי להוסיף תוויות לנתוני המקור שלך בתוך Ground Truth. ייתכן שהם יצטרכו להחזיק בידע בתחום בהתאם למקרה השימוש ולהנחיות ההערות שלך. אתה יכול להשתמש בכוח עבודה פנימי בחברה שלך, או לשלם עבור א כוח אדם המנוהל על ידי ספק חיצוני.
  • להבטיח פיקוח על תהליך יצירת הנתונים - כפי שניתן לראות מהנקודות הקודמות, יצירת נתונים היא תהליך מפורט הכולל מחזיקי עניין מיוחדים רבים. לכן, חיוני לעקוב אחריו מקצה לקצה לקראת התוצאה הרצויה. מתן אדם או צוות מסור יפקח על התהליך יכול לעזור לך להבטיח תהליך יצירת נתונים מגובש ויעיל.

בהתאם למסלול שאתה מחליט לקחת, עליך לשקול גם את הדברים הבאים:

  • צור את מערך הנתונים של המקור – הכוונה היא למקרים שבהם הנתונים הקיימים אינם מתאימים למשימה שעל הפרק, או אילוצים משפטיים מונעים ממך להשתמש בהם. יש להשתמש בצוותים פנימיים או בספקים חיצוניים (בנקודה הבאה). זה קורה לעתים קרובות עבור תחומים מיוחדים מאוד או אזורים עם מחקר ציבורי נמוך. לדוגמה, שאלות נפוצות של רופא, הנחת בגד או מומחי ספורט. זה יכול להיות פנימי או חיצוני.
  • חקר ספקים וערוך תהליך הצטרפות - כאשר משתמשים בספקים חיצוניים, יש להגדיר תהליך התקשרות והצטרפות בין שני הגופים.

בחלק זה, סקרנו את המרכיבים ומחזיקי העניין שעלינו לשקול. עם זאת, איך נראה התהליך בפועל? באיור הבא, אנו מתארים זרימת עבודה של תהליך ליצירת נתונים והערות. הגישה האיטרטיבית משתמשת בקבוצות קטנות של נתונים הנקראות פיילוטים כדי להפחית את זמן האספקה, לזהות שגיאות בשלב מוקדם ולהימנע מבזבוז משאבים ביצירת נתונים באיכות נמוכה. אנו מתארים את סבבי הפיילוט הללו בהמשך הפוסט הזה. אנו מכסים גם כמה שיטות עבודה מומלצות ליצירת נתונים, הערות ובקרת איכות.

האיור הבא ממחיש את הפיתוח האיטרטיבי של צינור ליצירת נתונים. אנכית, אנו מוצאים את בלוק מיקור הנתונים (ירוק) ואת בלוק ההערות (כחול). לשני הבלוקים יש סבבי פיילוט עצמאיים (יצירת נתונים/ביאור, QAQC ועדכון). נוצרים נתונים בעלי מקורות גבוהים יותר ויותר וניתן להשתמש בהם כדי לבנות הערות יותר ויותר איכותיות.

במהלך הפיתוח האיטרטיבי של צינור יצירת נתונים או הערות, נעשה שימוש בקבוצות קטנות של נתונים עבור פיילוטים עצמאיים. בכל סבב פיילוט יש שלב יצירת נתונים או הערות, אבטחת איכות ובקרת איכות של התוצאות, ושלב עדכון לחידוד התהליך. לאחר שיפור התהליכים הללו באמצעות פיילוטים עוקבים, תוכל להמשיך ליצירת נתונים והערות בקנה מידה גדול.

סקירה כללית של פיתוח איטרטיבי בצנרת ליצירת נתונים.

יצירת נתוני מקור

תהליך יצירת הקלט סובב סביב הבמה של פריטי העניין שלך, התלויים בסוג המשימה שלך. אלה יכולים להיות תמונות (סריקות עיתונים), סרטונים (סצנות תנועה), ענני נקודות תלת מימדיים (סריקות רפואיות), או פשוט טקסט (רצועות כתוביות, תעתיקים). באופן כללי, בעת העלאת פריטים הקשורים למשימה, הקפד על הדברים הבאים:

  • משקף את מקרה השימוש בעולם האמיתי עבור מערכת AI/ML בסופו של דבר - ההגדרה לאיסוף תמונות או סרטונים עבור נתוני האימון שלך צריכה להתאים באופן הדוק להגדרה של נתוני הקלט שלך ביישום בעולם האמיתי. המשמעות היא שיש משטחי מיקום עקביים, מקורות תאורה או זוויות מצלמה.
  • חשבו על מקורות שונות וממזערים אותם - שקול את הדברים הבאים:
    • פתח שיטות עבודה מומלצות לשמירה על תקני איסוף נתונים - בהתאם לפרטיות של מקרה השימוש שלך, ייתכן שיהיה עליך לציין דרישות כדי להבטיח עקביות בין נקודות הנתונים שלך. לדוגמה, אם אתה אוסף נתוני תמונה או וידאו מנקודות מצלמה בודדות, ייתכן שיהיה עליך לוודא את המיקום העקבי של אובייקטי העניין שלך, או לדרוש בדיקת איכות עבור המצלמה לפני סבב לכידת נתונים. זה יכול למנוע בעיות כמו הטיה או טשטוש של המצלמה, ולמזער את התקורות במורד הזרם כמו הסרת תמונות מחוץ למסגרת או תמונות מטושטשות, כמו גם צורך לרכז את מסגרת התמונה באופן ידני באזור העניין שלך.
    • מוקדי זמן בדיקה מקורות של שונות – אם אתה צופה שונות בכל אחת מהתכונות שהוזכרו עד כה במהלך זמן הבדיקה, ודא שאתה יכול ללכוד את מקורות השונות הללו במהלך יצירת נתוני האימון. לדוגמה, אם אתה מצפה שאפליקציית ML שלך תעבוד במספר הגדרות אור שונות, עליך לשאוף ליצור תמונות הדרכה וסרטוני וידאו בהגדרות אור שונות. בהתאם למקרה השימוש, השונות במיקום המצלמה יכולה גם להשפיע על איכות התוויות שלך.
  • שלב ידע קודם בתחום כאשר זמין - שקול את הדברים הבאים:
    • תשומות על מקורות שגיאה - מטפלים בתחום יכולים לספק תובנות לגבי מקורות שגיאה על סמך שנות הניסיון שלהם. הם יכולים לספק משוב על שיטות העבודה המומלצות עבור שתי הנקודות הקודמות: אילו הגדרות משקפות את מקרה השימוש בעולם האמיתי בצורה הטובה ביותר? מהם המקורות האפשריים לשונות במהלך איסוף הנתונים, או בזמן השימוש?
    • שיטות עבודה מומלצות לאיסוף נתונים ספציפיים לדומיין - למרות שלבעלי העניין הטכניים שלך אולי כבר יש מושג טוב לגבי ההיבטים הטכניים שיש להתמקד בהם בתמונות או בסרטונים שנאספו, מתרגלי התחום יכולים לספק משוב על הדרך הטובה ביותר לביים או לאסוף את הנתונים כך שייענו על הצרכים הללו.

בקרת איכות והבטחת איכות הנתונים שנוצרו

כעת, לאחר שהגדרת את צינור איסוף הנתונים, זה עשוי להיות מפתה להמשיך ולאסוף כמה שיותר נתונים. חכה דקה! ראשית עלינו לבדוק אם הנתונים שנאספו באמצעות ההגדרה מתאימים למקרה השימוש שלך במילה האמיתית. אנחנו יכולים להשתמש בכמה דוגמאות ראשוניות ולשפר באופן איטרטיבי את ההגדרה באמצעות התובנות שהשגנו מניתוח נתוני המדגם האלה. עבוד בשיתוף פעולה הדוק עם מחזיקי העניין הטכניים, העסקיים והביאורים שלך במהלך תהליך הפיילוט. זה יוודא שהצנרת שתתקבל עונה על הצרכים העסקיים תוך הפקת נתונים מתויגים מוכנים ל-ML בתוך תקורה מינימלית.

ביאורים

ההערה של קלט היא המקום שבו אנו מוסיפים את מגע הקסם לנתונים שלנו - התוויות! בהתאם לסוג המשימה שלך ותהליך יצירת הנתונים, ייתכן שתזדקק למתיירים ידניים, או שאתה יכול להשתמש בשיטות אוטומטיות מהמדף. צינור הערות הנתונים עצמו יכול להיות משימה מאתגרת מבחינה טכנית. Ground Truth מקל על המסע הזה עבור מחזיקי העניין הטכניים שלך רפרטואר מובנה של זרימות עבודה לתיוג עבור מקורות נתונים נפוצים. עם כמה שלבים נוספים, זה גם מאפשר לך לבנות תהליכי תיוג מותאמים אישית מעבר לאפשרויות המוגדרות מראש.

שאל את עצמך את השאלות הבאות בעת פיתוח זרימת עבודה מתאימה להערות:

  • האם אני צריך תהליך הערה ידני עבור הנתונים שלי? במקרים מסוימים, שירותי תיוג אוטומטיים עשויים להספיק למשימה שלפנינו. סקירת התיעוד והכלים הזמינים יכולה לעזור לך לזהות אם יש צורך בהערה ידנית עבור מקרה השימוש שלך (למידע נוסף, ראה מהו תיוג נתונים?). תהליך יצירת הנתונים יכול לאפשר רמות שונות של שליטה לגבי הפירוט של הערת הנתונים שלך. בהתאם לתהליך זה, אתה גם יכול לפעמים לעקוף את הצורך בהערה ידנית. למידע נוסף, עיין ב בנו מערך שאלות ותשובות מותאם אישית באמצעות Amazon SageMaker Ground Truth כדי להכשיר מודל NLU של שאלות ותשובות מחבקות.
  • מה יוצר את האמת הבסיסית שלי? ברוב המקרים, האמת הבסיסית תגיע מתהליך ההערות שלך - זה כל העניין! באחרים, למשתמש עשויה להיות גישה לתוויות אמת קרקעית. זה יכול להאיץ משמעותית את תהליך אבטחת האיכות שלך, או להפחית את התקורה הנדרשת עבור מספר הערות ידניות.
  • מהו הגבול העליון לכמות הסטייה ממצב האמת הקרקעית שלי? עבוד עם משתמשי הקצה שלך כדי להבין את השגיאות האופייניות סביב תוויות אלה, את המקורות לשגיאות כאלה ואת הירידה הרצויה בשגיאות. זה יעזור לך לזהות אילו היבטים של משימת התיוג הם המאתגרים ביותר או שסביר להניח שיש בהם שגיאות הערות.
  • האם ישנם כללים קיימים שבהם משתמשים המשתמשים או העוסקים בשטח כדי לתייג פריטים אלה? השתמש בהנחיות אלה וצמצם אותן כדי לבנות קבוצת הוראות עבור הכותבים הידניים שלך.

הפעלת תהליך הערת הקלט

בעת הפעלת תהליך הערת הקלט, שקול את הדברים הבאים:

  • עיין בהוראות עם הכותבים והעוסקים בשטח - ההוראות צריכות להיות תמציתיות וספציפיות. בקש משוב מהמשתמשים שלך (האם ההוראות מדויקות? האם נוכל לשנות הוראות כלשהן כדי לוודא שהן מובנות על ידי מתרגלים שאינם בשטח?) ומכותבים (האם הכל מובן? האם המשימה ברורה?). במידת האפשר, הוסף דוגמה לנתונים מתויגים טובים ורעים כדי לעזור למגיבים שלך לזהות מה צפוי ואיך עשויות להיראות שגיאות תיוג נפוצות.
  • אסוף נתונים להערות - סקור את הנתונים עם הלקוח שלך כדי לוודא שהם עומדים בסטנדרטים הצפויים, וכדי להתיישר עם התוצאות הצפויות מהביאור הידני.
  • ספק דוגמאות למאגר הכותבים הידניים שלך כריצת מבחן - מהי השונות האופיינית בין הכותבים במערך דוגמאות זה? למד את השונות עבור כל הערה בתמונה נתונה כדי לזהות את מגמות העקביות בין המביאים. לאחר מכן השווה את השונות בין התמונות או מסגרות הווידאו כדי לזהות אילו תוויות מאתגרות למקם.

בקרת איכות של ההערות

בקרת איכות ההערות יש שני מרכיבים עיקריים: הערכת העקביות בין המביאים, והערכת איכות ההערות עצמם.

אתה יכול להקצות מספר מפרשים לאותה משימה (לדוגמה, שלושה מפרשים מתייגים את נקודות המפתח באותה תמונה), ולמדוד את הערך הממוצע לצד סטיית התקן של התוויות הללו בין הכותבים. פעולה זו עוזרת לך לזהות הערות חריגות (השתמשו בתווית שגויה, או תווית רחוקה מההערה הממוצעת), שיכולות להנחות תוצאות ניתנות לפעולה, כגון חידוד ההוראות שלך או מתן הכשרה נוספת למערים מסוימים.

הערכת האיכות של ההערות עצמן קשורה לשונות של הערים ו(כאשר היא זמינה) לזמינות של מומחי תחום או מידע אמת. האם ישנן תוויות מסוימות (בכל התמונות שלך) שבהן השונות הממוצעת בין הכותבים גבוהה באופן עקבי? האם תוויות כלשהן רחוקות מהציפיות שלך מהיכן הן צריכות להיות או איך הן צריכות להיראות?

בהתבסס על הניסיון שלנו, לולאת בקרת איכות טיפוסית להערות נתונים יכולה להיראות כך:

  • חזור על ההוראות או בימוי התמונה בהתבסס על תוצאות מהרצת הבדיקה - האם אובייקטים כלשהם חסומים, או שמא בימוי תמונה אינו תואם את הציפיות של כותבים או משתמשים? האם ההוראות מטעות, או שפספסת תוויות או שגיאות נפוצות בתמונות הדוגמה שלך? האם תוכל לחדד את ההוראות עבור הכותבים שלך?
  • אם אתה מרוצה שטיפלת בבעיות כלשהן מהרצת המבחן, בצע אצווה של הערות – לבדיקת התוצאות מהאצווה, עקוב אחר אותה גישת הערכת איכות של הערכת שונות של תוויות בין-מערער ובין-תמונה.

סיכום

פוסט זה משמש כמדריך לבעלי עניין עסקיים להבין את המורכבות של יצירת נתונים עבור יישומי AI/ML. התהליכים המתוארים משמשים גם כמדריך לעוסקים טכניים להפקת נתונים איכותיים תוך אופטימיזציה של אילוצים עסקיים כגון כוח אדם ועלויות. אם לא נעשה היטב, צינור יצירת נתונים ותיוג יכול להימשך למעלה מ-4-6 חודשים.

בעזרת ההנחיות וההצעות המתוארות בפוסט זה, אתה יכול להקדים מחסומים, לצמצם את הזמן עד להשלמתו ולמזער את העלויות במסע שלך ליצירת נתונים באיכות גבוהה.


על המחברים

צור נתונים באיכות גבוהה עבור דגמי ML עם Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ג'סלין גרוואל היא מדענית שימושית בשירותי האינטרנט של אמזון, שם היא עובדת עם לקוחות AWS כדי לפתור בעיות בעולם האמיתי באמצעות למידת מכונה, תוך התמקדות מיוחדת ברפואה מדויקת ובגנומיקה. יש לה רקע חזק בביואינפורמטיקה, אונקולוגיה וגנומיקה קלינית. היא נלהבת משימוש ב-AI/ML ושירותי ענן כדי לשפר את הטיפול בחולים.

צור נתונים באיכות גבוהה עבור דגמי ML עם Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.בוריס ארונצ'יק הוא מנהל במעבדת פתרונות למידת מכונה בינה מלאכותית של אמזון, שם הוא מוביל צוות של מדעני ומהנדסי ML כדי לעזור ללקוחות AWS לממש יעדים עסקיים תוך מינוף פתרונות AI/ML.

צור נתונים באיכות גבוהה עבור דגמי ML עם Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.מיגל רומרו קלבו הוא מדען יישומי ב- מעבדת פתרונות אמזון ML שבו הוא משתף פעולה עם צוותים פנימיים של AWS ועם לקוחות אסטרטגיים כדי להאיץ את העסק שלהם באמצעות ML ואימוץ ענן.

צור נתונים באיכות גבוהה עבור דגמי ML עם Amazon SageMaker Ground Truth PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.לין לי צ'ונג הוא מדען בכיר ומנהל בצוות Amazon ML Solutions Lab ב- Amazon Web Services. היא עובדת עם לקוחות AWS אסטרטגיים כדי לחקור וליישם בינה מלאכותית ולמידת מכונה כדי לגלות תובנות חדשות ולפתור בעיות מורכבות.

בול זמן:

עוד מ למידת מכונות AWS