סיכום ספרים עם משוב אנושי של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום ספרים עם משוב אנושי

קרא ניירעיין בדוגמאות

סיכום ספרים עם משוב אנושי

To בבטחה לפרוס בינה מלאכותית רבת עוצמה ותכליתית בעתיד, עלינו להבטיח שמודלים של למידת מכונה יפעלו בהתאם לכוונות אנושיות. אתגר זה נודע בשם בעיית יישור.

פתרון ניתן להרחבה לבעיית היישור צריך לעבוד על משימות שבהן תפוקות המודל קשות או גוזלות זמן לבני אדם להעריך. כדי לבדוק טכניקות יישור ניתנות להרחבה, אימנו מודל לסיכום ספרים שלמים, כפי שמוצג בדוגמאות הבאות.[1] המודל שלנו פועל על ידי סיכום של חלקים קטנים בספר, לאחר מכן סיכום הסיכומים הללו לסיכום ברמה גבוהה יותר, וכן הלאה.

חקור דוגמאות נוספות

הדגם הטוב ביותר שלנו מכוון מ-GPT-3 ומייצר סיכומים הגיוניים של ספרים שלמים, לפעמים אפילו תואמים לאיכות הממוצעת של סיכומים שנכתבו על ידי אדם: הוא משיג דירוג של 6/7 (בדומה לסיכום הממוצע שנכתב על ידי אדם) מבני אדם שקראו את הספר 5% מהזמן ודירוג 5/7 15% מהזמן. המודל שלנו גם משיג תוצאות מתקדמות בתחום מערך הנתונים של BookSum לסיכום באורך הספר. מודל תשובות לשאלות עם אפס זריקות יכול להשתמש בסיכומי המודל שלנו כדי להשיג תוצאות תחרותיות על מערך נתונים של NarrativeQA למענה על שאלות באורך הספר.[2]

הגישה שלנו: שילוב של למידת חיזוק ממשוב אנושי ופירוק משימות רקורסיבי

שקול את המשימה של סיכום פיסת טקסט. גָדוֹל מודלים שהוכשרו מראש אינם טובים במיוחד בסיכום. בעבר מצאנו שאימון דוגמנית עם חיזוק למידה ממשוב אנושי עזר ליישר סיכומי מודל עם העדפות אנושיות בפוסטים ומאמרים קצרים. אבל לשפוט סיכומים של ספרים שלמים צריך הרבה מאמץ לעשות ישירות מכיוון שאדם יצטרך לקרוא את הספר כולו, מה שאורך שעות רבות.

כדי לטפל בבעיה זו, אנו משתמשים בנוסף פירוק משימה רקורסיבי: אנו מפרקים מטלה קשה למשימה קלה יותר. במקרה זה אנו מפרקים סיכום של קטע טקסט ארוך לסיכום מספר קטעים קצרים יותר. בהשוואה להליך הכשרה מקצה לקצה, לפירוק משימות רקורסיבי יש את היתרונות הבאים:

  1. הפירוק מאפשר לבני אדם להעריך סיכומי מודל מהר יותר על ידי שימוש בסיכומים של חלקים קטנים יותר של הספר במקום לקרוא את טקסט המקור.
  2. קל יותר להתחקות אחר תהליך כתיבת הסיכום. לדוגמה, אתה יכול להתחקות כדי למצוא היכן בטקסט המקורי מתרחשים אירועים מסוימים מהסיכום. ראה בעצמך על חוקר הסיכום שלנו!
  3. השיטה שלנו יכולה לשמש כדי לסכם ספרים באורך בלתי מוגבל, ללא הגבלה על ידי אורך ההקשר של דגמי השנאים שבהם אנו משתמשים.

למה אנחנו עובדים על זה

Tשֶׁלוֹ העבודה היא חלק מאיתנו מתמשך מחקר ליישור מערכות בינה מלאכותית מתקדמות, שהוא המפתח המשימה שלנו. ככל שאנו מאמנים את המודלים שלנו לבצע משימות מורכבות יותר ויותר, ביצוע הערכות מושכלות של תפוקות המודלים יהפוך לקשה יותר ויותר עבור בני אדם. זה מקשה על זיהוי בעיות עדינות בתפוקות המודל שעלולות להוביל להשלכות שליליות כאשר מודלים אלה נפרסים. לכן אנחנו רוצים שהיכולת שלנו להעריך את המודלים שלנו תגדל ככל שהיכולות שלהם יגדלו.

הגישה הנוכחית שלנו לבעיה זו היא להעצים בני אדם להעריך תפוקות של מודל למידת מכונה באמצעות סיוע ממודלים אחרים. במקרה זה, כדי להעריך סיכומי ספרים אנו מחזקים בני אדם עם סיכומי פרקים בודדים שנכתבו על ידי המודל שלנו, מה שחוסך להם זמן בעת ​​הערכת סיכומים אלה ביחס לקריאת טקסט המקור. ההתקדמות שלנו בנושא סיכום ספרים היא העבודה האמפירית הראשונה בקנה מידה גדול על טכניקות יישור קנה מידה.

בהמשך, אנו חוקרים דרכים טובות יותר לסייע לבני אדם בהערכת התנהגות מודל, במטרה למצוא טכניקות המתאימות ליישור אינטליגנציה כללית מלאכותית.

אנחנו תמיד מחפשים אנשים מוכשרים נוספים שיצטרפו אלינו; אז אם העבודה הזו מעניינת אותך, בבקשה להגיש בקשה להצטרף לצוות שלנו!


תודות

ברצוננו להודות למחברי המאמר שלנו: Long Ouyang, Daniel Ziegler, Nisan Stiennon ו-Paul Christiano.

תודה למשוב הבא על מהדורה זו: סטיב דאולינג, האנה וונג, מיילס ברונדאג', גרטשן קרוגר, איליה סוצקבר וסם אלטמן.


עיצוב
ג'סטין ג'יי וואנג


יצירות אמנות של כריכת הספר


הערות שוליים

  1. דוגמאות אלו נבחרו מתוך עבודות ב- נחלת הכלל, ומהווים חלק מנתוני ההכשרה של GPT-3. כדי לשלוט על ההשפעה הזו, ולמטרות מחקר בלבד, שלנו מאמר מעריך סיכומים של ספרים שהמודל לא ראה מעולם. ↩︎

  2. תיקנו את הטענה המקורית שלנו לגבי תוצאות ב-NarrativeQA לאחר שנודע לנו על עבודה קודמת עם תוצאות טובות יותר משלנו. ↩︎

בול זמן:

עוד מ OpenAI