פורקים את "הקופסה השחורה" כדי לבנות דגמי AI טובים יותר

הועלה מחדש על ידי אפלטון

עוקב: 0

פורקים את "הקופסה השחורה" כדי לבנות מודלים טובים יותר של AI PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כאשר מודלים של למידה עמוקה נפרסים בעולם האמיתי, אולי כדי לזהות הונאה פיננסית מפעילות בכרטיסי אשראי או לזהות סרטן בתמונות רפואיות, לעתים קרובות הם מסוגלים לעלות על בני אדם.

אבל מה בדיוק לומדים מודלים של למידה עמוקה? האם מודל שהוכשר לזהות סרטן עור בתמונות קליניות, למשל, לומד למעשה את הצבעים והמרקמים של רקמה סרטנית, או שהוא מסמן תכונות או דפוסים אחרים?

מודלים רבי עוצמה אלה של למידת מכונה מבוססים בדרך כלל על רשתות עצביות מלאכותיות שיכולים להכיל מיליוני צמתים שמעבדים נתונים כדי ליצור תחזיות. בשל המורכבות שלהם, חוקרים מכנים את המודלים הללו לעתים קרובות "קופסאות שחורות", כי אפילו המדענים שבונים אותם לא מבינים את כל מה שמתרחש מתחת למכסה המנוע.

סטפני ג'גלקה לא מרוצה מההסבר הזה של "קופסה שחורה". ג'ג'לקה, פרופסור חבר חדש במחלקת הנדסת חשמל ומדעי המחשב ב-MIT, חופר לעומק למידה עמוקה כדי להבין מה המודלים הללו יכולים ללמוד וכיצד הם מתנהגים, וכיצד לבנות מידע קודם מסוים לתוך המודלים הללו.

"בסופו של יום, מה ילמד מודל של למידה עמוקה תלוי בכל כך הרבה גורמים. אבל בניית הבנה רלוונטית בפועל תעזור לנו לעצב מודלים טובים יותר, וגם תעזור לנו להבין מה קורה בתוכם כדי שנדע מתי נוכל לפרוס מודל ומתי לא. זה חשוב ביותר", אומר ג'גלקה, שהוא גם חבר במעבדה למדעי המחשב ובינה מלאכותית (CSAIL) ובמכון לנתונים, מערכות וחברה (IDSS).

Jegelka מתעניין במיוחד באופטימיזציה של מודלים של למידת מכונה כאשר נתוני הקלט הם בצורה של גרפים. נתוני גרפים מציבים אתגרים ספציפיים: לדוגמה, המידע בנתונים מורכב הן ממידע על צמתים וקצוות בודדים, כמו גם מהמבנה - מה קשור למה. בנוסף, לגרפים יש סימטריות מתמטיות שצריך לכבד על ידי מודל למידת המכונה, כך, למשל, אותו גרף תמיד יוביל לאותה חיזוי. בניית סימטריות כאלה למודל למידת מכונה היא בדרך כלל לא קלה.

קח מולקולות, למשל. ניתן לייצג מולקולות כגרפים, עם קודקודים המתאימים לאטומים וקצוות המתאימים לקשרים כימיים ביניהם. חברות תרופות עשויות לרצות להשתמש בלמידה עמוקה כדי לחזות במהירות את התכונות של מולקולות רבות, ולצמצם את המספר שעליהן לבדוק פיזית במעבדה.

ג'ג'לקה לומד שיטות לבניית מודלים מתמטיים של לימוד מכונה שיכולים לקחת ביעילות נתוני גרפים כקלט ופלט משהו אחר, במקרה זה חיזוי של התכונות הכימיות של מולקולה. זה מאתגר במיוחד מכיוון שתכונותיה של מולקולה נקבעות לא רק על ידי האטומים שבתוכה, אלא גם על ידי הקשרים ביניהם.

דוגמאות אחרות של למידת מכונה על גרפים כוללות ניתוב תעבורה, עיצוב שבבים ומערכות ממליצים.

תכנון המודלים הללו מקשה עוד יותר על ידי העובדה שהנתונים המשמשים להכשרתם שונים לרוב מהנתונים שהמודלים רואים בפועל. אולי המודל אומן באמצעות גרפים מולקולריים קטנים או רשתות תעבורה, אבל הגרפים שהוא רואה לאחר פריסה גדולים יותר או מורכבים יותר.

במקרה זה, מה יכולים החוקרים לצפות שהמודל הזה ילמד, והאם הוא עדיין יעבוד בפועל אם הנתונים בעולם האמיתי יהיו שונים?

"המודל שלך לא יוכל ללמוד הכל בגלל כמה בעיות קשיות במדעי המחשב, אבל מה שאתה יכול ללמוד ומה אתה לא יכול ללמוד תלוי איך אתה מגדיר את המודל", אומר ג'גלקה.

היא ניגשת לשאלה זו על ידי שילוב התשוקה שלה לאלגוריתמים ומתמטיקה בדידה עם ההתרגשות שלה ללמידת מכונה.

מפרפרים ועד ביואינפורמטיקה

ג'גלקה גדלה בעיירה קטנה בגרמניה והתעניינה במדעים כשהייתה תלמידת תיכון; מורה תומכת עודדה אותה להשתתף בתחרות מדעית בינלאומית. היא וחברותיה לקבוצה מארה"ב וסינגפור זכו בפרס על אתר שיצרו על פרפרים, בשלוש שפות.

"לפרויקט שלנו, צילמנו תמונות של כנפיים עם מיקרוסקופ אלקטרוני סורק באוניברסיטה מקומית למדעים יישומיים. קיבלתי גם את ההזדמנות להשתמש במצלמה מהירה במרצדס בנץ - המצלמה הזו צילמה בדרך כלל מנועי בעירה - שבה השתמשתי כדי לצלם סרטון בהילוך איטי של תנועת כנפי פרפר. זו הייתה הפעם הראשונה שבאמת יצרתי קשר עם מדע ומחקר", היא נזכרת.

ג'גלקה, שהסתקרן מביולוגיה ומתמטיקה כאחד, החליטה ללמוד ביואינפורמטיקה באוניברסיטת טובינגן ובאוניברסיטת טקסס באוסטין. היו לה כמה הזדמנויות לערוך מחקר בתור תואר ראשון, כולל התמחות במדעי המוח החישוביים באוניברסיטת ג'ורג'טאון, אבל לא הייתה בטוחה באיזו קריירה ללכת.

כשחזרה לשנתה האחרונה בקולג', עברה ג'גלקה לגור עם שני שותפים לדירה שעבדו כעוזרי מחקר במכון מקס פלנק בטובינגן.

"הם עבדו על למידת מכונה, וזה נשמע לי ממש מגניב. הייתי צריך לכתוב את עבודת התזה שלי, אז שאלתי במכון אם יש להם פרויקט בשבילי. התחלתי לעבוד על למידת מכונה במכון מקס פלנק ואהבתי את זה. למדתי שם כל כך הרבה וזה היה מקום מצוין למחקר", היא אומרת.

היא נשארה במכון מקס פלנק כדי להשלים תזה לתואר שני, ולאחר מכן החלה לתואר דוקטור בלמידת מכונה במכון מקס פלנק ובמכון הפדרלי השוויצרי לטכנולוגיה.

במהלך הדוקטורט שלה, היא חקרה כיצד מושגים מתוך מתמטיקה בדידה יכולים לעזור לשפר טכניקות למידת מכונה.

ללמד מודלים ללמוד

ככל שג'גלקה למדה יותר על למידת מכונה, כך היא הסתקרנה יותר מהאתגרים של הבנת איך מודלים מתנהגים, וכיצד לכוון את ההתנהגות הזו.

"אתה יכול לעשות כל כך הרבה עם למידת מכונה, אבל רק אם יש לך את המודל והנתונים הנכונים. זה לא רק עניין של קופסה שחורה שבו אתה זורק את זה על הנתונים וזה עובד. אתה בעצם צריך לחשוב על זה, על התכונות שלו, ומה אתה רוצה שהמודל ילמד ויעשה", היא אומרת.

לאחר שסיימה פוסט דוקטורט באוניברסיטת קליפורניה בברקלי, ג'גלקה התמכרה למחקר והחליטה להמשיך בקריירה באקדמיה. היא הצטרפה לפקולטה ב-MIT בשנת 2015 בתור עוזרת פרופסור.

"מה שבאמת אהבתי ב-MIT, מההתחלה, היה שלאנשים באמת אכפת מאוד ממחקר ויצירתיות. זה מה שאני הכי מעריך ב-MIT. האנשים כאן מאוד מעריכים מקוריות ועומק במחקר", היא אומרת.

ההתמקדות ביצירתיות אפשרה לג'גלקה לחקור מגוון רחב של נושאים.

בשיתוף פעולה עם סגל אחר ב-MIT, היא לומדת יישומי למידת מכונה בביולוגיה, הדמיה, ראייה ממוחשבת ומדעי החומרים.

אבל מה שבאמת מניע את ג'גלקה הוא לחקור את היסודות של למידת מכונה, ולאחרונה, את נושא החוסן. לעתים קרובות, מודל מתפקד היטב על נתוני אימון, אך הביצועים שלו מתדרדרים כאשר הוא נפרס על נתונים מעט שונים. בניית ידע קודם למודל יכולה להפוך אותו לאמין יותר, אבל ההבנה של איזה מידע המודל צריך כדי להצליח וכיצד לבנות אותו אינה פשוטה, היא אומרת.

היא גם בוחנת שיטות לשיפור הביצועים של מודלים של למידת מכונה לסיווג תמונה.

מודלים של סיווג תמונות נמצאים בכל מקום, ממערכות זיהוי הפנים בטלפונים ניידים ועד לכלים המזהים חשבונות מזויפים במדיה החברתית. מודלים אלה זקוקים לכמויות אדירות של נתונים לצורך אימון, אך מכיוון שלבני אדם זה יקר לסמן מיליוני תמונות ביד, חוקרים משתמשים לעתים קרובות במערכי נתונים ללא תווית כדי לאמן מודלים מראש במקום זאת.

המודלים האלה עושים שימוש חוזר בייצוגים שלמדו כשהם מכוונים מאוחר יותר למשימה ספציפית.

באופן אידיאלי, החוקרים רוצים שהמודל ילמד כמה שיותר במהלך ההכשרה המוקדמת, כדי שיוכל ליישם את הידע הזה במשימתו במורד הזרם. אבל בפועל, המודלים האלה לומדים לעתים קרובות רק כמה מתאמים פשוטים - כמו שלתמונה אחת יש שמש ולאחת יש צל - ומשתמשים ב"קיצורי דרך" אלה כדי לסווג תמונות.

"הראינו שזו בעיה ב'למידה קונטרסטית', שהיא טכניקה סטנדרטית לאימון מקדים, הן תיאורטית והן אמפירית. אבל אנחנו גם מראים שאתה יכול להשפיע על סוגי המידע שהמודל ילמד לייצג על ידי שינוי סוגי הנתונים שאתה מציג את המודל. זה צעד אחד לקראת הבנת מה המודלים באמת הולכים לעשות בפועל", היא אומרת.

החוקרים עדיין לא מבינים את כל מה שקורה בתוך מודל של למידה עמוקה, או פרטים על איך הם יכולים להשפיע על מה שמודל לומד ואיך הוא מתנהג, אבל ג'גלקה מצפה להמשיך ולחקור את הנושאים האלה.

"לעתים קרובות בלמידת מכונה, אנחנו רואים משהו קורה בפועל ואנחנו מנסים להבין אותו תיאורטית. זהו אתגר עצום. אתה רוצה לבנות הבנה שתואמת את מה שאתה רואה בפועל, כדי שתוכל לעשות יותר טוב. אנחנו עדיין רק בהתחלה להבין את זה", היא אומרת.

מחוץ למעבדה, ג'גלקה חובב מוזיקה, אמנות, טיולים ורכיבה על אופניים. אבל בימים אלה, היא נהנית לבלות את רוב זמנה הפנוי עם בתה בגיל הגן.

<!–
->