תיאוריה חדשה מציעה שצ'אטבוטים יכולים להבין טקסט | מגזין קוונטה

תיאוריה חדשה מציעה שצ'אטבוטים יכולים להבין טקסט | מגזין קוונטה

תיאוריה חדשה מציעה שצ'אטבוטים יכולים להבין טקסט | Quanta Magazine PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מבוא

בינה מלאכותית נראית חזקה מתמיד, עם צ'אטבוטים כמו בארד ו-ChatGPT שמסוגלים להפיק טקסט אנושי בצורה מוזרה. אבל למרות כל הכישרונות שלהם, הבוטים האלה עדיין משאירים את החוקרים תוהים: עשו מודלים כאלה ממש להבין מה הם אומרים "ברור שחלק מהאנשים מאמינים שכן", אמר חלוץ הבינה המלאכותית ג'וף הינטון ב שיחה אחרונה עם אנדרו נג, "וחלק מהאנשים מאמינים שהם רק תוכים סטוכסטיים."

הביטוי המעורר הזה מגיע מ-2021 מאמר נכתב בשיתוף על ידי אמילי בנדר, בלשן חישובי באוניברסיטת וושינגטון. הוא מציע שמודלים של שפה גדולה (LLMs) - המהווים את הבסיס לצ'אטבוטים מודרניים - מייצרים טקסט רק על ידי שילוב מידע שהם כבר ראו "ללא כל התייחסות למשמעות", כתבו המחברים, מה שהופך LLM ל"תוכי סטוכסטי".

המודלים האלה מחזקים רבים מהצ'אטבוטים הגדולים והטובים ביותר של ימינו, אז הינטון טען שהגיע הזמן לקבוע את היקף מה שהם מבינים. השאלה, מבחינתו, היא יותר מאקדמית. "כל עוד יש לנו את חילוקי הדעות האלה", הוא אמר לנג, "לא נוכל להגיע לקונצנזוס לגבי סכנות".

למחקר חדש עשוי להיות רמזים לתשובה. תיאוריה שפותחה על ידי סנג'ייב ארורה מאוניברסיטת פרינסטון ו אנירוד גויאל, מדען מחקר ב-Google DeepMind, מציע שהגדולים מבין ה-LLMs של ימינו אינם תוכים סטוכסטיים. המחברים טוענים שככל שהמודלים הללו הולכים וגדלים ומתאמנים על יותר נתונים, הם משפרים יכולות הקשורות לשפה אינדיבידואלית וגם מפתחים יכולות חדשות על ידי שילוב מיומנויות באופן המרמז על הבנה - שילובים שלא היו סבירים להתקיים בנתוני האימון .

גישה תיאורטית זו, המספקת טיעון שניתן להוכיח מתמטית כיצד ומדוע LLM יכול לפתח כל כך הרבה יכולות, שכנעה מומחים כמו הינטון ואחרים. וכאשר ארורה וצוותו בדקו כמה מהתחזיות שלה, הם גילו שהדגמים הללו התנהגו כמעט בדיוק כמצופה. מכל הדעות, הם הביעו טענה חזקה שחברות ה-LLM הגדולות ביותר לא רק תוכיות במה שראו בעבר.

"[הם] לא יכולים פשוט לחקות את מה שנראה בנתוני האימונים", אמר סבסטיאן בובק, מתמטיקאי ומדען מחשבים ב-Microsoft Research שלא היה חלק מהעבודה. "זו התובנה הבסיסית."

יותר נתונים, יותר כוח

הופעתה של יכולות בלתי צפויות ומגוונות בלימודי תואר שני, זה הוגן לומר, הגיע בהפתעה. היכולות הללו אינן תוצאה ברורה של האופן שבו המערכות נבנות ומאומנות. LLM היא רשת עצבית מלאכותית מאסיבית, המחברת נוירונים מלאכותיים בודדים. חיבורים אלו ידועים בתור הפרמטרים של המודל, ומספרם מציין את גודל ה-LLM. הכשרה כוללת מתן משפט ל-LLM כשהמילה האחרונה מוסתרת, למשל, "דלק עולה זרוע ו___". ה-LLM חוזה התפלגות הסתברות על כל אוצר המילים שלו, כך שאם הוא יודע, נניח, אלף מילים, הוא חוזה אלף הסתברויות. לאחר מכן הוא בוחר את המילה הסבירה ביותר להשלמת המשפט - ככל הנראה, "רגל".

בתחילה, ה-LLM עשוי לבחור מילים בצורה גרועה. לאחר מכן, אלגוריתם האימון מחשב הפסד - המרחק, במרחב מתמטי בעל ממדים גבוהים, בין התשובה של ה-LLM לבין המילה בפועל במשפט המקורי - ומשתמש בהפסד הזה כדי לכוונן את הפרמטרים. כעת, בהינתן אותו משפט, ה-LLM יחשב התפלגות הסתברות טובה יותר וההפסד שלו יהיה מעט נמוך יותר. האלגוריתם עושה זאת עבור כל משפט בנתוני האימון (אולי מיליארדי משפטים), עד שההפסד הכולל של ה-LLM יורד לרמות מקובלות. תהליך דומה משמש לבדיקת ה-LLM על משפטים שלא היו חלק מנתוני ההדרכה.

LLM מאומן ונבדק, כאשר יוצג לו הנחית טקסט חדשה, יפיק את המילה הבאה בסבירות גבוהה, יצרף אותה להנחיה, יפיק מילה נוספת נוספת, וימשיך בצורה זו, וייצור תשובה קוהרנטית לכאורה. שום דבר בתהליך ההדרכה לא מצביע על כך ש-LLMs גדולים יותר, שנבנו תוך שימוש בפרמטרים נוספים ונתוני הדרכה, צריכים להשתפר גם במשימות שדורשות היגיון כדי לענות עליהן.

אבל הם כן. לימודי תואר שני בלימודים גדולים מספיק מפגינים יכולות - מפתרון בעיות מתמטיות בסיסיות ועד למענה על שאלות על המתרחש במוחות של אחרים - שאין לדגמים קטנים יותר, למרות שכולם מאומנים בדרכים דומות.

"מאיפה [היכולת] הזו צצה?" תהתה ארורה. "והאם זה יכול להופיע רק מחיזוי המילה הבאה?"

חיבור מיומנויות לטקסט

ארורה התחברה לגויאל כדי לענות על שאלות כאלה בצורה אנליטית. "ניסינו להמציא מסגרת תיאורטית כדי להבין כיצד מתרחשת הופעתה", אמר ארורה.

הצמד פנה לאובייקטים מתמטיים הנקראים גרפים אקראיים. גרף הוא אוסף של נקודות (או צמתים) המחוברים בקווים (או קצוות), ובגרף אקראי הנוכחות של קצה בין כל שני צמתים מוכתבת באופן אקראי - נניח על ידי היפוך מטבע. המטבע יכול להיות מוטה, כך שיעלה ראשים בהסתברות מסוימת p. אם המטבע עולה בראש זוג צמתים נתון, נוצר קצה בין שני הצמתים הללו; אחרת הם נשארים לא מחוברים. כערך של p שינויים, הגרפים יכולים להראות מעברים פתאומיים במאפיינים שלהם. לדוגמה, מתי p חורג מסף מסוים, צמתים מבודדים - אלו שאינם מחוברים לשום צומת אחר - נעלמים בפתאומיות.

ארורה וגויאל הבינו שגרפים אקראיים, שמובילים להתנהגויות בלתי צפויות לאחר שהם עומדים בספים מסוימים, יכולים להיות דרך למודל של התנהגות של LLMs. רשתות עצביות הפכו כמעט מורכבות מדי לניתוח, אבל מתמטיקאים חוקרים גרפים אקראיים כבר זמן רב ופיתחו כלים שונים לניתוחם. אולי תיאוריית הגרפים האקראית יכולה לתת לחוקרים דרך להבין ולחזות את ההתנהגויות הבלתי צפויות לכאורה של LLMs גדולים.

החוקרים החליטו להתמקד בגרפים "דו-צדדיים", המכילים שני סוגים של צמתים. במודל שלהם, סוג אחד של צומת מייצג פיסות טקסט - לא מילים בודדות אלא נתחים שיכולים להיות באורך של פסקה עד כמה עמודים. צמתים אלה מסודרים בקו ישר. מתחתיהם, בשורה אחרת, נמצאת קבוצת הצמתים האחרת. אלה מייצגים את הכישורים הדרושים כדי להבין פיסת טקסט נתונה. כל מיומנות יכולה להיות כמעט כל דבר. אולי צומת אחד מייצג את היכולת של LLM להבין את המילה "בגלל", שמשלבת מושג כלשהו של סיבתיות; אחר יכול לייצג את היכולת לחלק שני מספרים; עוד אחד עשוי לייצג את היכולת לזהות אירוניה. "אם אתה מבין שקטע הטקסט הוא אירוני, הרבה דברים מתהפכים", אמר ארורה. "זה רלוונטי לחיזוי מילים."

כדי להיות ברור, לימודי תואר שני לא מאומנים או נבדקים מתוך מחשבה על מיומנויות; הם בנויים רק כדי לשפר את חיזוי המילה הבאה. אבל ארורה וגויאל רצו להבין לימודי תואר שני מנקודת המבט של הכישורים שעשויים להידרש כדי להבין טקסט בודד. חיבור בין צומת מיומנות לצומת טקסט, או בין מספר צמתי מיומנות לצומת טקסט, פירושו שה-LLM צריך את המיומנויות הללו כדי להבין את הטקסט באותו צומת. כמו כן, פיסות טקסט מרובות עשויות לשאוב מאותה מיומנות או מערך מיומנויות; לדוגמה, קבוצה של צמתי מיומנות המייצגים את היכולת להבין אירוניה תתחבר לצמתי הטקסט הרבים שבהם מתרחשת אירוניה.

האתגר כעת היה לחבר את הגרפים הדו-צדדיים הללו ל-LLMs בפועל ולראות אם הגרפים יכולים לחשוף משהו על הופעתן של יכולות חזקות. אבל החוקרים לא יכלו להסתמך על שום מידע על הכשרה או בדיקה של LLMs בפועל - חברות כמו OpenAI או DeepMind לא מפרסמות את נתוני ההכשרה או הבדיקות שלהן. כמו כן, Arora וגויל רצו לחזות כיצד יתנהגו LLMs ככל שיגדלו עוד יותר, ואין מידע כזה זמין עבור צ'אטבוטים עתידיים. עם זאת, הייתה פיסת מידע חיונית אחת שהחוקרים יכלו לגשת אליה.

מאז 2021, חוקרים החוקרים את הביצועים של LLMs ורשתות עצביות אחרות ראו תכונה אוניברסלית מתגלה. הם שמו לב שככל שמודל הולך וגדל, בין אם בגודל ובין אם בכמות נתוני האימון, ההפסד שלו בנתוני המבחן (ההבדל בין תשובות חזויות ונכונות בטקסטים חדשים, לאחר אימון) יורד בצורה מאוד ספציפית. תצפיות אלו קודדו למשוואות הנקראות חוקי קנה מידה עצבי. אז ארורה וגויאל תכננו את התיאוריה שלהם כך שלא תהיה תלויה בנתונים מאף LLM בודד, צ'אטבוט או סט של נתוני אימון ובדיקות, אלא על החוק האוניברסלי שהמערכות הללו כולן צפויות לציית: האובדן שנחזה על ידי חוקי קנה מידה.

אולי, הם טענו, שיפור בביצועים - כפי שנמדד על ידי חוקי קנה המידה העצבי - קשור לשיפור המיומנויות. ואת המיומנויות המשופרות הללו ניתן להגדיר בגרפים הדו-צדדיים שלהם על ידי חיבור של צמתי מיומנות לצמתי טקסט. ביסוס הקשר הזה - בין חוקי קנה מידה עצבי וגרפים דו-צדדיים - היה המפתח שיאפשר להם להמשיך.

הגדלה של מיומנויות

החוקרים התחילו בהנחה שקיים גרף דו-צדדי היפותטי המתאים להתנהגות של LLM על נתוני בדיקה. כדי להסביר את השינוי בהפסד של ה-LLM על נתוני הבדיקה, הם דמיינו דרך להשתמש בגרף כדי לתאר כיצד ה-LLM צובר מיומנויות.

קח, למשל, את המיומנות "מבין אירוניה". רעיון זה מיוצג באמצעות צומת מיומנות, כך שהחוקרים מסתכלים לראות לאילו צמתי טקסט צומת מיומנות זה מתחבר. אם כמעט כל צמתי הטקסט המחוברים הללו מצליחים - כלומר תחזיות ה-LLM על הטקסט המיוצג על-ידי הצמתים הללו מדויקות ביותר - אז ה-LLM מוכשר במיומנות המסוימת הזו. אבל אם יותר מחלק מסוים מהחיבורים של צומת המיומנות עוברים לצמתי טקסט שנכשלו, אזי ה-LLM נכשל במיומנות זו.

החיבור הזה בין הגרפים הדו-צדדיים הללו ל-LLMs אפשר לאורה ולגויאל להשתמש בכלים של תיאוריית הגרפים האקראיים כדי לנתח התנהגות LLM על ידי פרוקסי. לימוד הגרפים הללו גילה קשרים מסוימים בין הצמתים. יחסים אלה, בתורם, תורגמו לדרך הגיונית וניתנת לבדיקה להסביר כיצד מודלים גדולים צברו את הכישורים הדרושים כדי להשיג את היכולות הבלתי צפויות שלהם.

ארורה וגויל הסבירו תחילה התנהגות מרכזית אחת: מדוע לימודי LLM גדולים יותר הופכים מיומנים יותר מעמיתיהם הקטנים יותר במיומנויות אישיות. הם התחילו עם אובדן הבדיקה הנמוך יותר שנחזה על ידי חוקי קנה המידה העצבי. בגרף, אובדן בדיקה נמוך יותר זה מיוצג על ידי ירידה במספר צמתי הבדיקה שנכשלו. אז יש פחות צמתי בדיקה שנכשלו בסך הכל. ואם יש פחות צמתי מבחן שנכשלו, אז יש פחות קשרים בין צמתי מבחן שנכשלו לצמתי מיומנות. לכן, מספר רב יותר של צמתי מיומנות מחוברים לצמתי מבחן מוצלחים, דבר המצביע על יכולת הולכת וגוברת במיומנויות עבור המודל. "הפחתה קלה מאוד באובדן גורמת לכך שהמכונה רוכשת מיומנויות אלו", אמר גויאל.

לאחר מכן, הזוג מצא דרך להסביר את היכולות הבלתי צפויות של דגם גדול יותר. ככל שגודלו של LLM גדל ואובדן הבדיקה שלו פוחת, שילובים אקראיים של צמתי מיומנות מפתחים קשרים לצמתי טקסט בודדים. זה מצביע על כך שה-LLM גם משתפר בשימוש ביותר ממיומנות אחת בו-זמנית ומתחיל ליצור טקסט תוך שימוש במספר מיומנויות - משלב, למשל, את היכולת להשתמש באירוניה עם הבנת המילה "בגלל" - גם אם השילובים המדויקים של כישורים לא היו נוכחים באף פיסת טקסט בנתוני ההדרכה.

תארו לעצמכם, למשל, LLM שכבר יכול להשתמש במיומנות אחת כדי ליצור טקסט. אם תגדיל את מספר הפרמטרים או נתוני ההדרכה של ה-LLM בסדר גודל, הוא יהפוך למכשיר באופן דומה ביצירת טקסט הדורש שתי מיומנויות. תעלה עוד סדר גודל, וה-LLM יכול כעת לבצע משימות הדורשות ארבע מיומנויות בו-זמנית, שוב באותה רמת מיומנות. ל-LLMs גדולים יותר יש דרכים רבות יותר לחבר מיומנויות, מה שמוביל לפיצוץ קומבינטורי של יכולות.

וככל ש-LLM מוגדל, האפשרות שהוא נתקל בכל השילובים האלה של מיומנויות בנתוני האימון הופכת לבלתי סבירה יותר ויותר. על פי הכללים של תורת הגרפים האקראיים, כל שילוב נובע מדגימה אקראית של מיומנויות אפשריות. לכן, אם יש בערך 1,000 צמתים של מיומנות בודדים בגרף, ואתה רוצה לשלב ארבע מיומנויות, אז יש בערך 1,000 בחזקת רביעית - כלומר טריליון - דרכים אפשריות לשלב אותם.

ארורה וגויאל רואים בכך הוכחה לכך שה-LLMs הגדולים ביותר לא מסתמכים רק על שילובים של מיומנויות שהם ראו בנתוני האימונים שלהם. בובק מסכים. "אם LLM באמת מסוגל לבצע את המשימות האלה על ידי שילוב של ארבע מתוך אלף המיומנויות האלה, אז הוא חייב לעשות הכללה", אמר. כלומר, סביר מאוד שזה לא תוכי סטוכסטי.

יצירתיות אמיתית?

אבל ארורה וגויל רצו ללכת מעבר לתיאוריה ולבחון את הטענה שלהם ש-LLMs משתפרים בשילוב מיומנויות נוספות, ובכך בהכללה, ככל שהגודל ונתוני ההכשרה שלהם גדלים. יחד עם עמיתים אחרים, הם תכנן שיטה המכונה "מיקס מיומנויות" כדי להעריך את יכולתו של LLM להשתמש במספר מיומנויות כדי ליצור טקסט.

כדי לבדוק LLM, הצוות ביקש ממנו ליצור שלושה משפטים על נושא שנבחר באקראי, הממחיש כמה מיומנויות שנבחרו באקראי. לדוגמה, הם ביקשו מ-GPT-4 (ה-LLM שמפעיל את הגרסה החזקה ביותר של ChatGPT) לכתוב על דו-קרב - קרבות חרבות, בעצם. יתרה מכך, הם ביקשו ממנה להציג מיומנויות בארבעה תחומים: הטיה לשירות עצמי, מטאפורה, סילוגיזם סטטיסטי ופיזיקה של ידע משותף.. GPT-4 ענה: "הניצחון שלי בריקוד זה עם פלדה [מטאפורה] בטוח כמו נפילה של אובייקט ארצה [פיסיקה]. כשחקן דו-קרב נודע, אני זריז מטבעי, בדיוק כמו רוב האחרים [סילוגיזם סטטיסטי] במוניטין שלי. לִהַבִיס? אפשרי רק בגלל שדה קרב לא אחיד, לא חוסר ההתאמה שלי [הטיה בשירות עצמי]". כשהתבקש לבדוק את הפלט שלו, GPT-4 צמצם אותו לשלושה משפטים.

מבוא

"זה לא המינגווי או שייקספיר", אמר ארורה, אבל הצוות בטוח שזה מוכיח את הנקודה שלהם: המודל יכול ליצור טקסט שלא יכול היה לראות בנתוני האימון, ומציג מיומנויות שמסתכמות במה שיש מי שיטענו הוא הבנה. GPT-4 אפילו עובר מבחני תמהיל כישורים הדורשים שש מיומנויות בערך 10% עד 15% מהמקרים, הוא אמר, ומייצר קטעי טקסט שסטטיסטית בלתי אפשרי להתקיים בנתוני האימון.

הצוות גם הפך את התהליך לאוטומטי על ידי קבלת GPT-4 להעריך את התפוקה שלו, יחד עם זה של LLMs אחרים. ארורה אמרה שזה הוגן שהמודל יעריך את עצמו כי אין לו זיכרון, אז הוא לא זוכר שהוא התבקש להפיק את הטקסט אותו הוא מתבקש להעריך. Yasaman Bahri, חוקר ב-Google DeepMind שעובד על יסודות בינה מלאכותית, מוצא שהגישה האוטומטית "פשוטה ואלגנטית מאוד".

לגבי התיאוריה, זה נכון שהיא מניחה כמה הנחות, אמר בובק, אבל "ההנחות האלה אינן מטורפות בשום אופן". הוא גם התרשם מהניסויים. "מה [הצוות] מוכיח באופן תיאורטי, וגם מאשר מבחינה אמפירית, הוא שיש הכללה קומפוזיציית, כלומר [LLMs] מסוגלים לחבר אבני בניין שמעולם לא הוצבו יחד", אמר. "זו, בעיניי, המהות של יצירתיות."

ארורה מוסיפה שהעבודה לא אומרת כלום על הדיוק של מה שכותבים LLMs. "למעשה, זה מתווכח למקוריות", אמר. "הדברים האלה מעולם לא היו קיימים בקורפוס האימונים בעולם. אף אחד לא כתב את זה מעולם. זה חייב להזות".

אף על פי כן, הינטון חושב שהעבודה מניחה את השאלה האם LLMs הם תוכים סטוכסטיים. "זו השיטה הכי קפדנית שראיתי להראות ש-GPT-4 הוא הרבה יותר מסתם תוכי סטוכסטי", אמר. "הם מדגימים באופן משכנע ש-GPT-4 יכול ליצור טקסט המשלב מיומנויות ונושאים בדרכים שכמעט בוודאות לא התרחשו בנתוני האימון." (הגענו לבנדר על נקודת המבט שלה על העבודה החדשה, אך היא סירבה להגיב, בטענה לחוסר זמן.)

ואכן, כפי שהמתמטיקה מנבאת, הביצועים של GPT-4 עולים בהרבה על אלו של קודמו הקטן יותר, GPT-3.5 - במידה שהפחידה את Arora. "זה כנראה לא רק אני," הוא אמר. "הרבה אנשים מצאו שזה קצת מפחיד עד כמה GPT-4 היה טוב יותר מ-GPT-3.5, וזה קרה תוך שנה. האם זה אומר שעוד שנה יהיה לנו שינוי דומה בסדר גודל כזה? אני לא יודע. רק OpenAI יודע."

בול זמן:

עוד מ קוונטמגזין