נתונים סינתטיים יכולים להציע שיפורי ביצועים אמיתיים בלמידת מכונה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

נתונים סינתטיים יכולים להציע שיפורי ביצועים אמיתיים בלמידת מכונה

זיהוי הפעולה השתפר באופן דרמטי עם מערכי נתונים של וידאו בקנה מידה מסיבי. עם זאת, מערכי נתונים אלה מלווים בבעיות הקשורות לעלות איצור, פרטיות, אתיקה, הטיה וזכויות יוצרים. כך, MIT מדענים פונים למערכי נתונים סינתטיים.

אלה מיוצרים על ידי מחשב המשתמש במודלים תלת מימדיים של סצנות, חפצים ובני אדם כדי לייצר במהירות קליפים רבים ומגוונים של פעולות ספציפיות - ללא בעיות פוטנציאליות של זכויות יוצרים או חששות אתיים שמגיעים עם נתונים אמיתיים.

האם נתונים סינתטיים טובים כמו נתונים אמיתיים?

צוות של מדענים ב-MIT, מעבדת MIT-IBM Watson AI ואוניברסיטת בוסטון ביקשו לענות על שאלה זו. הם יצרו מערך נתונים סינתטי של 150,000 קטעי וידאו שייצגו מגוון פעולות אנושיות ואימנו למידת מכונה מודלים המשתמשים במערך נתונים זה. לאחר מכן הם הציגו שישה מערכי נתונים של סרטים שנלקחו מהעולם האמיתי למודלים אלה כדי לבדוק עד כמה הם יכולים לקלוט את הפעולות בהקלטות הללו.

מדענים גילו כי המודלים שעברו הכשרה סינתטית פעלו אפילו טוב יותר ממודלים שהוכשרו על נתונים אמיתיים עבור סרטונים שיש להם פחות אובייקטים ברקע.

גילוי זה עשוי לסייע בשימוש במערכי נתונים סינתטיים על ידי מדענים כדי לסייע למודלים בביצוע מדויק יותר במשימות בפועל. כדי להפחית חלק מהדאגות האתיות, הפרטיות וזכויות היוצרים הקשורות לשימוש במערכי נתונים בפועל, היא יכולה גם לסייע לחוקרים בקביעה אילו יישומי למידת מכונה מתאימים ביותר לאימון עם נתונים סינתטיים.

רוג'ריו פריס, מדען ראשי ומנהל במעבדת MIT-IBM Watson AI אמר, "המטרה הסופית של המחקר שלנו היא להחליף אימון מקדים של נתונים אמיתיים באימון מקדים של נתונים סינתטיים. יש עלות ביצירת פעולה בנתונים סינתטיים, אבל ברגע שזה נעשה, אפשר ליצור תמונות או סרטונים ללא הגבלה על ידי שינוי הפוזה, התאורה וכו'. זה היופי בנתונים סינתטיים".

מדענים התחילו בהרכבה חדשה של הדרכה והעברה של פעולה סינתטית (SynAPT), תוך שימוש בשלושה מערכי נתונים זמינים לציבור של קטעי וידאו סינתטיים שלכדו פעולות אנושיות. הוא מכיל כמעט 150 קטגוריות פעולה, עם 1,000 קטעי וידאו לכל קטגוריה.

שלושה מודלים של למידת מכונה הוכשרו מראש לזהות את הפעולות באמצעות מערך הנתונים לאחר יצירתו. אימון מקדים הוא תהליך ללמד מודל משימה אחת לפני ללמד אותו אחר. המודל שהוכשר מראש יכול להשתמש בפרמטרים שהוא כבר למד כדי לעזור לו ללמוד משימה חדשה עם מערך נתונים חדש מהר יותר ויעילה יותר. זה מעוצב לפי איך אנשים לומדים, כלומר לעשות שימוש חוזר במידע העבר כשאנחנו יודעים משהו חדש. המודל שהוכשר מראש נבדק באמצעות שישה מערכי נתונים של קטעי וידאו אמיתיים, שכל אחד מהם לוכד מחלקות של פעולות שהיו שונות מאלו שבנתוני האימון.

זה היה מפתיע עבור מדענים לראות שכל שלושת המודלים הסינתטיים עמדו בביצועים טובים יותר מהמודלים שהוכשרו עם קטעי וידאו אמיתיים בארבעה מתוך ששת מערכי הנתונים. הדיוק שלהם היה הגבוה ביותר עבור מערכי נתונים שהכילו קטעי וידאו עם "הטיה נמוכה של סצנה-אובייקט". זה אומר שהמודל לא יכול לזהות את הפעולה על ידי הסתכלות על הרקע או אובייקטים אחרים בסצנה - הוא חייב להתמקד בפעולה עצמה.

פריס אמר, "בסרטונים עם הטיה נמוכה של סצנה-אובייקט, הדינמיקה הזמנית של הפעולות חשובה יותר מהמראה של האובייקטים או הרקע, ונראה שזה נלכד היטב עם נתונים סינתטיים."

"הטיה גבוהה של סצנה-אובייקט יכולה לשמש מכשול. המודל עשוי לסווג פעולה באופן שגוי על ידי הסתכלות על אובייקט ולא על הפעולה עצמה. זה יכול לבלבל את המודל".

מחבר שותף Rameswar Panda, חבר צוות מחקר במעבדת MIT-IBM Watson AI, אמר: "בהתבסס על התוצאות הללו, החוקרים רוצים לכלול עוד שיעורי פעולה ופלטפורמות וידאו סינתטיות נוספות בעבודה עתידית, ובסופו של דבר ליצור קטלוג של מודלים שהוכשרו מראש באמצעות נתונים סינתטיים."

"אנחנו רוצים לבנות מודלים בעלי ביצועים דומים מאוד או אפילו טובים יותר מהמודלים הקיימים בספרות, אך מבלי להיות כבולים לאף אחת מההטיות או דאגות האבטחה הללו".

Sooyoung Jin, מחבר שותף ופוסט דוקטורט של CSAIL, אמר, "הם גם רוצים לשלב את עבודתם עם מחקר שמבקש ליצור סרטונים סינתטיים מדויקים ומציאותיים יותר, שיכולים להגביר את הביצועים של הדגמים".

"אנחנו משתמשים במערכי נתונים סינתטיים כדי למנוע בעיות פרטיות או הטיה הקשרית או חברתית, אבל מה לומד המודל? האם זה לומד משהו שהוא חסר פניות?"

מחברת שותפה סמארת' מישרה, סטודנטית לתואר שני באוניברסיטת בוסטון (BU), אמר"למרות שיש עלות נמוכה יותר להשגת נתונים סינתטיים מוערים היטב, נכון לעכשיו, אין לנו מערך נתונים עם קנה מידה להתחרות עם מערכי הנתונים המוערים הגדולים ביותר עם סרטונים אמיתיים. על ידי דיון בעלויות ובדאגות השונות עם סרטונים אמיתיים והצגת היעילות של נתונים סינתטיים, אנו מקווים להניע מאמצים בכיוון זה."

עיון ביומן:

  1. יו-מה קים וחב'. עד כמה ניתן להעברה ייצוגי וידאו המבוססים על נתונים סינתטיים? מאמר

בול זמן:

עוד מ Tech Explorirst