כיצד שכחה סלקטיבית יכולה לעזור לבינה מלאכותית ללמוד טוב יותר | מגזין קוונטה

כיצד שכחה סלקטיבית יכולה לעזור לבינה מלאכותית ללמוד טוב יותר | מגזין קוונטה

כיצד שכחה סלקטיבית יכולה לעזור לבינה מלאכותית ללמוד טוב יותר | Quanta Magazine PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מבוא

צוות של מדעני מחשב יצר א סוג זריז, גמיש יותר של מודל למידת מכונה. הטריק: הוא חייב מדי פעם לשכוח את מה שהוא יודע. ולמרות שגישה חדשה זו לא תחליף את הדגמים הענקיים שעומדים בבסיס האפליקציות הגדולות ביותר, היא יכולה לחשוף יותר על האופן שבו תוכניות אלו מבינות שפה.

המחקר החדש מסמן "התקדמות משמעותית בתחום", אמר ז'ה קוון, מהנדס בינה מלאכותית במכון למדע בסיסי בדרום קוריאה.

מנועי שפת הבינה המלאכותית הנמצאים בשימוש כיום מופעלים בעיקר על ידי רשתות עצביות מלאכותיות. כל "נוירון" ברשת הוא פונקציה מתמטית שמקבלת אותות מתאי עצב אחרים, מפעילה כמה חישובים ושולחת אותות דרך מספר שכבות של נוירונים. בתחילה זרימת המידע היא אקראית פחות או יותר, אך באמצעות אימון, זרימת המידע בין נוירונים משתפרת ככל שהרשת מסתגלת לנתוני האימון. אם חוקרת בינה מלאכותית רוצה ליצור מודל דו לשוני, למשל, היא תאמן את המודל עם ערימה גדולה של טקסט משתי השפות, שתתאים את הקשרים בין נוירונים בצורה כזו שתקשר את הטקסט בשפה אחת עם מקבילה מילים באחר.

אבל תהליך האימון הזה דורש כוח מחשוב רב. אם הדגם לא עובד טוב במיוחד, או אם הצרכים של המשתמש משתנים בהמשך, קשה להתאים אותו. "נניח שיש לך מודל שיש לו 100 שפות, אבל תאר לעצמך ששפה אחת שאתה רוצה לא מכוסה", אמר מיקל ארטקס, מחבר שותף של המחקר החדש ומייסד סטארט-אפ הבינה המלאכותית Reka. "אתה יכול להתחיל מחדש מאפס, אבל זה לא אידיאלי."

ארטקס ועמיתיו ניסו לעקוף מגבלות אלו. לפני כמה שנים, Artetxe ואחרים אימנו רשת עצבית בשפה אחת, ואז מחקו את מה שהיא ידעה על אבני הבניין של מילים, המכונות אסימונים. אלה מאוחסנים בשכבה הראשונה של הרשת העצבית, הנקראת שכבת הטבעה. הם השאירו את כל שאר השכבות של הדגם לבד. לאחר מחיקת האסימונים של השפה הראשונה, הם אימנו מחדש את המודל על השפה השנייה, שמילאה את שכבת ההטמעה באסימונים חדשים מאותה שפה.

למרות שהמודל הכיל מידע לא תואם, ההכשרה מחדש עבדה: המודל יכול היה ללמוד ולעבד את השפה החדשה. החוקרים שיערו שבעוד ששכבת ההטמעה אוגרת מידע ספציפי למילים המשמשות בשפה, ברמות העמוקות של הרשת אוחסנו מידע מופשט יותר על המושגים שמאחורי שפות אנושיות, מה שעזר אז למודל ללמוד את השפה השנייה.

"אנחנו חיים באותו עולם. אנחנו משיגים את אותם דברים עם מילים שונות" בשפות שונות, אמר Yihong Chen, המחבר הראשי של המאמר האחרון. "בגלל זה יש לך את אותה הנמקה ברמה גבוהה במודל. תפוח הוא משהו מתוק ועסיסי, במקום רק מילה".

מבוא

בעוד שגישת השכחה הזו הייתה דרך יעילה להוסיף שפה חדשה למודל שכבר הוכשר, ההכשרה מחדש עדיין הייתה תובענית - היא דרשה הרבה נתונים לשוניים וכוח עיבוד. חן הציע תיקון: במקום לאמן, למחוק את שכבת ההטמעה, ואז לאמן מחדש, עליהם לאפס מעת לעת את שכבת ההטמעה במהלך סבב האימון הראשוני. "על ידי כך, המודל כולו מתרגל לאיפוס", אמר Artetxe. "זה אומר שכשאתה רוצה להרחיב את המודל לשפה אחרת, זה קל יותר, כי זה מה שעשית."

החוקרים לקחו מודל שפה נפוץ שנקרא רוברטה, אימנו אותו באמצעות טכניקת השכחה התקופתית שלהם, והשוו אותו לביצועים של אותו דגם כאשר הוא אומן בגישה הסטנדרטית, ללא השכחה. מודל השכחה הצליח מעט יותר מהרגיל, וקיבל ציון של 85.1 בהשוואה ל-86.1 במדד נפוץ אחד של דיוק השפה. אחר כך הם אימנו מחדש את המודלים בשפות אחרות, תוך שימוש במערכות נתונים קטנות בהרבה של 5 מיליון אסימונים בלבד, ולא ב-70 מיליארד שהם השתמשו בהם במהלך האימון הראשון. הדיוק של הדגם הסטנדרטי ירד ל-53.3 בממוצע, אך הדגם הנשכח ירד רק ל-62.7.

מודל השכחה גם הצליח הרבה יותר אם הצוות הטיל מגבלות חישוביות במהלך הסבה מחדש. כאשר החוקרים קיצצו את אורך האימון מ-125,000 צעדים ל-5,000 בלבד, הדיוק של מודל השכחה ירד ל-57.8 בממוצע, בעוד המודל הסטנדרטי צלל ל-37.2, וזה לא יותר מאשר ניחושים אקראיים.

מבוא

הצוות הגיע למסקנה שנראה כי שכחה תקופתית הופכת את המודל לטוב יותר בלימוד שפות באופן כללי. "מכיוון ש[הם] ממשיכים לשכוח וללמוד מחדש במהלך האימון, ללמד את הרשת משהו חדש מאוחר יותר נעשה קל יותר", אמר יבגני ניקישין, חוקר במילה, מרכז מחקר ללמידה עמוקה בקוויבק. זה מציע שכאשר מודלים של שפה מבינים שפה, הם עושים זאת ברמה עמוקה יותר מאשר רק המשמעויות של מילים בודדות.

הגישה דומה לאופן שבו פועל המוח שלנו. "זיכרון אנושי באופן כללי אינו טוב במיוחד באחסון מדויק של כמויות גדולות של מידע מפורט. במקום זאת, בני אדם נוטים לזכור את תמצית החוויות שלנו, תוך הפשטה והפקעה", אמר בנימין לוי, מדען מוח באוניברסיטת סן פרנסיסקו. "הפעלת AI עם תהליכים דמויי אנוש יותר, כמו שכחה אדפטיבית, היא אחת הדרכים להביא אותם לביצועים גמישים יותר."

בנוסף למה שזה עשוי לומר על אופן הפעולה של הבנה, Artetxe מקווה שמודלים גמישים יותר של שכחת שפות יכולים גם לעזור להביא את פריצות הדרך האחרונות של AI לשפות נוספות. למרות שדגמי בינה מלאכותית טובים בטיפול בספרדית ואנגלית, שתי שפות עם חומרי הדרכה רבים, הדגמים אינם כל כך טובים עם הבאסקית המולדת שלו, השפה המקומית הספציפית לצפון מזרח ספרד. "רוב הדגמים מחברות טכנולוגיה גדולות לא עושים את זה טוב", אמר. "התאמת מודלים קיימים לבסקים היא הדרך ללכת."

חן גם מצפה לעולם שבו פורחים יותר פרחי בינה מלאכותית. "אני חושב על מצב שבו העולם לא צריך מודל שפה אחד גדול. יש לנו כל כך הרבה", היא אמרה. "אם יש מפעל שמייצר דגמי שפה, אתה צריך סוג כזה של טכנולוגיה. יש לו מודל בסיס אחד שיכול להסתגל במהירות לתחומים חדשים."

בול זמן:

עוד מ קוונטמגזין