Snapper מספק תיוג בעזרת למידה חישובית לזיהוי אובייקט תמונה מושלם לפיקסלים

Snapper מספק תיוג בעזרת למידה חישובית לזיהוי אובייקט תמונה מושלם לפיקסלים

הערת תיבת תוחמת היא משימה גוזלת זמן ומייגעת הדורשת מחברים ליצור הערות שמתאימות היטב לגבולות האובייקט. משימות הערות של תיבת תוחמת, למשל, מחייבות את הערים להבטיח שכל הקצוות של אובייקט מוער מוקפים בהערה. בפועל, יצירת הערות מדויקות ומתואמות היטב לקצוות האובייקט היא תהליך מפרך.

בפוסט זה, אנו מציגים כלי אינטראקטיבי חדש בשם Snapper, המופעל על ידי מודל למידת מכונה (ML) שמצמצם את המאמץ הנדרש ממגיבים. הכלי Snapper מתאים באופן אוטומטי הערות רועשות, ומצמצם את הזמן הנדרש להערות נתונים ברמה איכותית.

סקירה כללית של סנאפר

Snapper היא מערכת אינטראקטיבית וחכמה ש"מצמידה" באופן אוטומטי הערות אובייקטים לאובייקטים מבוססי תמונה בזמן אמת. עם Snapper, הערים מציבים הערות של תיבה תוחמת על ידי ציור תיבות, ולאחר מכן רואים התאמות מיידיות ואוטומטיות לתיבה התוחמת שלהם כדי להתאים טוב יותר לאובייקט התוחם.

מערכת Snapper מורכבת משתי תת-מערכות. תת המערכת הראשונה היא רכיב ReactJS חזיתי שיירט אירועי עכבר הקשורים להערות ומטפל בעיבוד התחזיות של המודל. אנחנו משלבים את הקצה הקדמי הזה עם שלנו האמת של אמזון SageMaker UI של הערות. תת-המערכת השנייה מורכבת מה-backend של המודל, שמקבל בקשות מהלקוח הקדמי, מנתב את הבקשות למודל ML כדי ליצור קואורדינטות של תיבת תוחמת מותאמות, ושולח את הנתונים בחזרה ללקוח.

Snapper מספק תיוג בסיוע למידה חישובית לזיהוי אובייקט תמונה מושלם לפיקסלים של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מודל ML מותאם למגיבים

מספר עצום של מודלים לזיהוי עצמים בעלי ביצועים גבוהים הוצעו על ידי קהילת הראייה הממוחשבת בשנים האחרונות. עם זאת, מודלים חדישים אלה מותאמים בדרך כלל לזיהוי אובייקטים לא מודרך. כדי להקל על פונקציונליות ה"הצמדה" של Snapper להתאמת ההערות של המשתמשים, הקלט למודל שלנו הוא תיבה תוחמת ראשונית, המסופקת על ידי המציין, שיכולה לשמש כסמן לנוכחות של אובייקט. יתרה מזאת, מכיוון שלמערכת אין מחלקת אובייקטים מיועדת שהיא שואפת לתמוך בה, מודל ההתאמה של Snapper צריך להיות אגנסטי לאובייקטים כך שהמערכת מבצעת ביצועים טובים במגוון מחלקות אובייקטים.

באופן כללי, דרישות אלה שונות באופן מהותי ממקרי השימוש של מודלים טיפוסיים לזיהוי אובייקטים של ML. אנו מציינים כי בעיית זיהוי האובייקטים המסורתית מנוסחת כ"זהה את מרכז האובייקט, ואז נסיגה את הממדים." זה מנוגד לאינטואיציה, מכיוון שחיזויים מדויקים של קצוות תוחמים מסתמכים באופן מכריע על מציאת תחילה מרכז תיבה מדויק, ולאחר מכן ניסיון לקבוע מרחקים סקלריים לקצוות. יתר על כן, הוא אינו מספק הערכות ביטחון טובות המתמקדות באי הוודאות של מיקומי הקצה, מכיוון שרק ציון המסווגן זמין לשימוש.

כדי לתת למודל Snapper שלנו את היכולת להתאים את ההערות של המשתמשים, אנו מעצבים ומיישמים מודל ML המותאם אישית המיועד להתאמת תיבה תוחמת. כקלט, המודל לוקח תמונה והערת תיבת תוחמת מתאימה. המודל מחלץ תכונות מהתמונה באמצעות רשת עצבית מפותלת. לאחר חילוץ תכונה, מיזוג מרחבי כיווני מוחל על כל מימד כדי לצבור את המידע הדרוש לזיהוי מיקום קצה מתאים.

אנו מנסחים חיזוי מיקום עבור תיבות תוחמות כבעיית סיווג על פני מיקומים שונים. תוך כדי ראיית האובייקט כולו, אנו מבקשים מהמכונה לנמק את נוכחותו או היעדרו של קצה ישירות במיקום של כל פיקסל כמשימת סיווג. זה משפר את הדיוק, מכיוון שהנימוק לכל קצה משתמש בתכונות תמונה מהשכונה המקומית המיידית. יתרה מכך, הסכימה מנתקת את ההיגיון בין קצוות שונים, מה שמונע ממיקומי קצה חד משמעיים להיות מושפעים מהלא בטוחים. בנוסף, הוא מספק לנו הערכות ביטחון אינטואיטיביות מבחינת קצה, שכן המודל שלנו מתייחס לכל קצה של האובייקט באופן עצמאי (כמו שמעריכים אנושיים) ומספק התפלגות (או אומדן אי ודאות) הניתנים לפירוש עבור מיקומו של כל קצה. זה מאפשר לנו להדגיש קצוות פחות בטוחים עבור סקירה אנושית יעילה ומדויקת יותר.

השוואת והערכה של הכלי Snapper

בפועל, אנו מוצאים שהכלי Snapper מייעל את משימת ההערות של התיבה התוחמת ומאוד אינטואיטיבי למשתמשים. ערכנו גם ניתוח כמותי של Snapper כדי לאפיין את הכלי בצורה אובייקטיבית. הערכנו את מודל ההתאמה של Snapper תוך שימוש בסוג של סטנדרט הערכה למודלים של זיהוי אובייקטים המשתמשים בשני מדדים לבחינת תקפות: Intersection over Union (IoU), וסטיית קצה ופינה. IoU מחשב את היישור בין שני הערות על ידי חלוקת אזור החפיפה של ההערות באזור האיחוד של ההערות, ומניב מדד שנע בין 0-1. סטיית קצוות וסטיית פינות מחושבות על ידי לקיחת שבריר הקצוות והפינות החורגים מהאמת הבסיסית בערך פיקסל.

כדי להעריך את Snapper, יצרנו באופן דינמי נתוני הערות רועשים על ידי התאמה אקראית של COCO קואורדינטות התיבה התוחמת של אמת אמת עם ריצוד. ההליך שלנו להוספת ריצוד מעביר תחילה את מרכז התיבה התוחמת בעד 10% מממד התיבה התוחמת המתאים בכל ציר ולאחר מכן משנה את קנה המידה של התיבה התוחמת על ידי יחס שנדגם באופן אקראי בין 0.9-1.1. כאן, אנו מיישמים את המדדים הללו על ערכת האימות מהפקיד מסד נתונים של MS-COCO משמש לאימון. אנו מחשבים באופן ספציפי את חלקן של תיבות תוחמות עם IoU העולה על 90% לצד החלק של סטיות הקצוות והסטיות בפינה החורגים פחות מאחד או שלושה פיקסלים מהאמת הקרקע המקבילה. הטבלה הבאה מסכמת את הממצאים שלנו.

Snapper מספק תיוג בסיוע למידה חישובית לזיהוי אובייקט תמונה מושלם לפיקסלים של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כפי שמוצג בטבלה הקודמת, מודל ההתאמה של Snapper שיפר משמעותית את שני המקורות של נתונים רועשים בכל אחד משלושת המדדים. עם דגש על הערות דיוק גבוה, אנו רואים שהחלת Snapper על מערך הנתונים המעצבן של MS COCO מגדיל את חלקם של תיבות תוחמות עם IoU העולה על 90% ביותר מ-40%.

סיכום

בפוסט זה, הצגנו כלי הערות חדש המופעל על ידי ML ​​בשם Snapper. Snapper מורכב מקצה אחורי מדגם SageMaker וכן מרכיב קדמי שאנו משלבים בממשק המשתמש לתיוג Ground Truth. הערכנו את Snapper בסימולציה של הערות תוחמות רועשות וגילינו שהוא יכול לחדד בהצלחה תיבות תוחמות לא מושלמות. השימוש ב-Snapper במשימות תיוג יכול להפחית משמעותית את העלות ולהגדיל את הדיוק.

כדי ללמוד עוד, בקר תיוג נתונים של Amazon SageMaker וקבע פגישת ייעוץ עוד היום.


על המחברים

Snapper מספק תיוג בסיוע למידה חישובית לזיהוי אובייקט תמונה מושלם לפיקסלים של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ג'ונתן באק הוא מהנדס תוכנה בחברת Amazon Web Services העובד בצומת של למידת מכונה ומערכות מבוזרות. עבודתו כוללת ייצור מודלים של למידת מכונה ופיתוח יישומי תוכנה חדשים המופעלים על ידי למידת מכונה כדי להעביר את היכולות העדכניות ביותר לידי הלקוחות.

Snapper מספק תיוג בסיוע למידה חישובית לזיהוי אובייקט תמונה מושלם לפיקסלים של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.אלכס וויליאמס הוא מדען יישומי בצוות המדע האנושי-בלולאה ב-AWS AI, שם הוא עורך מחקר מערכות אינטראקטיביות במפגש בין אינטראקציה בין אדם למחשב (HCI) ולמידת מכונה. לפני שהצטרף לאמזון, הוא היה פרופסור במחלקה להנדסת חשמל ומדעי המחשב באוניברסיטת טנסי, שם היה שותף לניהול מעבדת המחקר אנשים, סוכנים, אינטראקציות ומערכות (PAIRS). הוא גם מילא תפקידי מחקר ב-Microsoft Research, Mozilla Research ואוניברסיטת אוקספורד. הוא מפרסם באופן קבוע את עבודתו ב-prem

Snapper מספק תיוג בסיוע למידה חישובית לזיהוי אובייקט תמונה מושלם לפיקסלים של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.מין באי הוא מדען יישומי ב-AWS, עם התמחות נוכחית בראייה ממוחשבת דו-ממדית / תלת-ממדית, עם התמקדות בתחומי הנהיגה האוטונומית וכלי AI ידידותיים למשתמש. כשהוא לא בעבודה, הוא נהנה לחקור את הטבע, במיוחד מחוץ למסלולים.

Snapper מספק תיוג בסיוע למידה חישובית לזיהוי אובייקט תמונה מושלם לפיקסלים של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.קומאר צ'לפילה הוא מנהל כללי ומנהל בשירותי האינטרנט של Amazon ומוביל את הפיתוח של שירותי ML/AI כגון מערכות אנושיות בלולאה, AI DevOps, Geospatial ML ופיתוח ADAS/רכב אוטונומי. לפני AWS, קומאר היה מנהל הנדסה ב- Uber ATG ו- Lyft Level 5 והוביל צוותים המשתמשים בלמידת מכונה לפיתוח יכולות נהיגה עצמית כמו תפיסה ומיפוי. הוא גם עבד על יישום טכניקות למידת מכונה לשיפור חיפוש, המלצות ומוצרי פרסום בלינקדאין, טוויטר, Bing ו-Microsoft Research.

Snapper מספק תיוג בסיוע למידה חישובית לזיהוי אובייקט תמונה מושלם לפיקסלים של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.פטריק הפנר הוא מדען יישומי ראשי בצוות AWS Sagemaker Ground Truth. הוא עובד על אופטימיזציה של האדם בתוך הלולאה מאז 1995, כאשר הוא יישם את LeNet Convolutional Neural Network כדי לבדוק זיהוי. הוא מתעניין בגישות הוליסטיות שבהן אלגוריתמי ML וממשקי תיוג עוברים אופטימיזציה יחד כדי למזער את עלות התיוג.

Snapper מספק תיוג בסיוע למידה חישובית לזיהוי אובייקט תמונה מושלם לפיקסלים של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ארן לי הוא מנהל המדע היישומי ב-humain-in-the-loop services, AWS AI, Amazon. תחומי העניין שלו במחקר הם למידה עמוקה בתלת מימד, ולמידת חזון וייצוג שפה. בעבר הוא היה מדען בכיר ב-Alexa AI, ראש תחום למידת מכונה ב-Scale AI והמדען הראשי ב-Pony.ai. לפני כן, הוא היה עם צוות התפיסה של Uber ATG וצוות פלטפורמת למידת המכונה ב-Uber ועבד על למידת מכונה לנהיגה אוטונומית, מערכות למידת מכונה ויוזמות אסטרטגיות של AI. הוא התחיל את הקריירה שלו ב-Bell Labs והיה פרופסור עזר באוניברסיטת קולומביה. הוא לימד מדריכים ב-ICML'3 ו-ICCV'17, וארגן כמה סדנאות ב-NurIPS, ICML, CVPR, ICCV בנושא למידת מכונה לנהיגה אוטונומית, ראייה תלת-ממדית ורובוטיקה, מערכות למידת מכונה ולמידת מכונה אדוורסרית. יש לו דוקטורט במדעי המחשב באוניברסיטת קורנל. הוא עמית ACM ועמית IEEE.

בול זמן:

עוד מ למידת מכונות AWS