לקחים שנלמדו על בטיחות מודל שפה ושימוש לא נכון בנתוני PlatoBlockchain. חיפוש אנכי. איי.

שיעורים שנלמדו על בטיחות ושימוש לרעה במודל שפה

שיעורים שנלמדו על בטיחות ושימוש לרעה במודל שפה

פריסת מערכות בינה מלאכותיות חזקות העשירה את ההבנה שלנו לגבי בטיחות ושימוש לרעה הרבה יותר ממה שהיה אפשרי באמצעות מחקר בלבד. במיוחד:

  • שימוש לרעה במודל שפה מבוסס API מגיע לעתים קרובות בצורות שונות ממה שחששנו ביותר.
  • זיהינו מגבלות בהערכות מודל שפה קיימות שאנו מטפלים בהן באמצעות אמות מידה ומסווגים חדשים.
  • מחקר בטיחות בסיסי מציע יתרונות משמעותיים לתועלת המסחרית של מערכות בינה מלאכותית.

כאן, אנו מתארים את החשיבה האחרונה שלנו בתקווה לעזור למפתחי AI אחרים לטפל בבטיחות ושימוש לרעה במודלים שנפרסו.


Oבשנתיים האחרונות, למדנו הרבה על האופן שבו ניתן להשתמש במודלים של שפה ולנצל אותם לרעה - תובנות שלא היינו יכולים להשיג ללא הניסיון של פריסה בעולם האמיתי. ביוני 2020, התחלנו לתת גישה למפתחים וחוקרים ל- ממשק API של OpenAI, ממשק לגישה ובניית יישומים על גבי דגמי AI חדשים שפותחו על ידי OpenAI. פריסת GPT-3, Codex ומודלים אחרים באופן שמפחית את סיכוני הנזק הציבה אתגרים טכניים ומדיניות שונים.

סקירה כללית של גישת פריסת המודל שלנו

דגמי שפה גדולים מסוגלים כעת לבצע א מגוון רחב מאוד של משימות, לעתים קרובות מחוץ לקופסה. פרופילי הסיכון שלהם, יישומים פוטנציאליים והשפעות רחבות יותר על החברה להשאר גרוע הבין. כתוצאה מכך, גישת הפריסה שלנו מדגישה איטרציה מתמשכת, ועושה שימוש באסטרטגיות הבאות שמטרתן למקסם את היתרונות של הפריסה תוך הפחתת הסיכונים הנלווים:

  • ניתוח סיכונים לפני פריסה, מינוף מערך הולך וגדל של הערכות בטיחות וכלי צוות אדומים (לדוגמה, בדקנו את ה-InstructGPT שלנו עבור כל פגיעה בבטיחות באמצעות ההערכות נדון להלן)
  • החל מבסיס משתמשים קטן (למשל, גם GPT-3 וגם שלנו הוראה GPT הסדרה התחילה כביטא פרטי)
  • לימוד התוצאות של פיילוטים של מקרי שימוש חדשים (למשל, בחינת התנאים שבהם נוכל לאפשר בבטחה יצירת תוכן ארוך, עבודה עם מספר קטן של לקוחות)
  • הטמעת תהליכים שעוזרים לשמור על דופק לגבי השימוש (למשל, סקירת מקרי שימוש, מכסות אסימונים ומגבלות תעריפים)
  • ביצוע סקירות רטרוספקטיביות מפורטות (למשל, של אירועי בטיחות ופריסות גדולות)
שיעורים שנלמדו על בטיחות ושימוש לרעה במודל שפה


שימו לב שתרשים זה נועד להעביר חזותית את הצורך בלולאות משוב בתהליך הרציף של פיתוח ופריסה של מודל ואת העובדה שיש לשלב בטיחות בכל שלב. זה לא נועד להעביר תמונה מלאה או אידיאלית של התהליך שלנו או של כל ארגון אחר.

אין כדור כסף לפריסה אחראית, לכן אנו מנסים ללמוד ולטפל במגבלות המודלים שלנו, ובדרכים הפוטנציאליות לשימוש לרעה, בכל שלב של פיתוח והטמעה. גישה זו מאפשרת לנו ללמוד כמה שיותר על נושאי בטיחות ומדיניות בקנה מידה קטן ולשלב את התובנות הללו לפני השקת פריסות בקנה מידה גדול יותר.


אין כדור כסף לפריסה אחראית.

אמנם לא ממצה, אבל כמה תחומים שבהם השקענו עד כה כוללים[1]:

מכיוון שלכל שלב של התערבות יש מגבלות, יש צורך בגישה הוליסטית.

יש תחומים שבהם יכולנו לעשות יותר ושעדיין יש לנו מקום לשיפור. לדוגמה, כשעבדנו לראשונה על GPT-3, ראינו בו חפץ מחקר פנימי ולא מערכת ייצור ולא היינו אגרסיביים בסינון נתוני אימון רעילים כפי שהיינו יכולים להיות אחרת. השקענו יותר במחקר והסרה של חומר כזה עבור הדגמים הבאים. לקח לנו יותר זמן לטפל במקרים מסוימים של שימוש לרעה במקרים שבהם לא הייתה לנו מדיניות ברורה בנושא, והשתפרנו בהחזרה על מדיניות זו. ואנחנו ממשיכים לחזור על חבילת דרישות בטיחות שהיא אפקטיבית מקסימלית בטיפול בסיכונים, תוך שהיא מועברת בצורה ברורה למפתחים וממזערת חיכוך מוגזם.

ובכל זאת, אנו מאמינים כי הגישה שלנו אפשרה לנו למדוד ולהפחית סוגים שונים של נזקים משימוש במודלים של שפה בהשוואה לגישה נטולת ידיים יותר, ובו בזמן אפשרה מגוון רחב של יישומים מדעיים, אמנותיים ומסחריים שלנו. דגמים.[2]

הצורות והגדלים הרבים של שימוש לרעה במודל שפה

OpenAI הייתה פעילה בחקר הסיכונים של שימוש לרעה בבינה מלאכותית מאז העבודה המוקדמת שלנו בנושא שימוש זדוני ב-AI ב 2018 ו ב-GPT-2 בשנת 2019, והקדשנו תשומת לב מיוחדת למערכות בינה מלאכותית המעצימות פעולות השפעה. יש לנו עבד עם מומחים חיצוניים לפתח הוכחות של מושג ומקודם זהיר אנליזה של סיכונים כאלה על ידי צדדים שלישיים. אנו נשארים מחויבים לטפל בסיכונים הקשורים לפעולות השפעה המאפשרות מודל שפה ולאחרונה ארגנו יחד סדנה בנושא.[3]

עם זאת זיהינו ועצרנו מאות שחקנים שניסו לעשות שימוש לרעה ב-GPT-3 למגוון רחב הרבה יותר של מטרות מאשר הפקת דיסאינפורמציה לפעולות השפעה, כולל בדרכים שלא ציפינו או שציפינו אבל לא ציפינו שיהיו. כל כך נפוץ.[4] את העתיד הנחיות למקרה שימוש, הנחיות תוכן, ותשתיות זיהוי ותגובה פנימיות היו מכוונות בתחילה לסיכונים שצפינו בהתבסס על מחקר פנימי וחיצוני, כגון יצירת תוכן פוליטי מטעה עם GPT-3 או יצירת תוכנות זדוניות עם Codex. מאמצי הזיהוי והתגובה שלנו התפתחו עם הזמן בתגובה למקרים אמיתיים של שימוש לרעה שנתקלו "בטבע" שלא הופיעו בצורה בולטת כמו השפיעו על הפעולות בהערכות הסיכונים הראשוניות שלנו. דוגמאות כוללות קידום ספאם למוצרים רפואיים מפוקפקים ומשחק תפקידים של פנטזיות גזעניות.

כדי לתמוך במחקר של שימוש לרעה במודל שפה והפחתה שלו, אנו בוחנים באופן פעיל הזדמנויות לשתף נתונים סטטיסטיים על אירועי בטיחות השנה, על מנת לממש דיונים על שימוש לרעה במודל שפה.

הקושי של מדידת סיכונים והשפעה

היבטים רבים של הסיכונים וההשפעות של מודלים לשוניים נותרו קשים למדידה ולכן קשה לנטר, למזער ולחשוף אותם בצורה אחראית. עשינו שימוש פעיל באמות מידה אקדמיות קיימות להערכת מודלים של שפה ונלהבים להמשיך ולהתבסס על עבודה חיצונית, אך מצאנו גם שמערך נתונים קיימים של נקודות מידה קיימות לרוב אינם משקפים את סיכוני הבטיחות והשימוש לרעה שאנו רואים בפועל.[5]

מגבלות כאלה משקפות את העובדה שמסדי נתונים אקדמיים נוצרים רק לעתים רחוקות במטרה מפורשת של מידע על השימוש בייצור במודלים של שפה, ואינם נהנים מהניסיון שנצבר מפריסת מודלים כאלה בקנה מידה. כתוצאה מכך, פיתחנו מערכי נתונים ומסגרות הערכה חדשות למדידת הבטיחות של המודלים שלנו, אותם אנו מתכננים לשחרר בקרוב. באופן ספציפי, פיתחנו מדדי הערכה חדשים למדידת רעילות בתפוקות המודל ופיתחנו גם מסווגים פנימיים לזיהוי תוכן שמפר את שלנו מדיניות התוכן, כגון תוכן אירוטי, דברי שטנה, אלימות, הטרדה ופגיעה עצמית. שני אלה בתורם נוצלו גם לשיפור נתוני טרום האימון שלנו[6]-באופן ספציפי, על ידי שימוש במסווגים כדי לסנן תוכן ומדדי ההערכה כדי למדוד את ההשפעות של התערבויות במערך נתונים.

סיווג מהימן של תפוקות מודל בודדים לאורך מימדים שונים הוא קשה, ומדידת ההשפעה החברתית שלהם בקנה מידה של OpenAI API היא אפילו קשה יותר. ערכנו מספר מחקרים פנימיים על מנת לבנות שריר מוסדי למדידה כזו, אך לעתים קרובות אלה העלו יותר שאלות מאשר תשובות.

אנו מעוניינים במיוחד להבין טוב יותר את ההשפעה הכלכלית של המודלים שלנו ואת התפלגות ההשפעות הללו. יש לנו סיבה טובה להאמין שההשפעות על שוק העבודה מהפריסה של המודלים הנוכחיים עשויות להיות משמעותיות כבר במונחים אבסולוטיים, ושהן יגדלו ככל שהיכולות והטווח של המודלים שלנו יגדלו. למדנו על מגוון השפעות מקומיות עד כה, כולל שיפורי פרודוקטיביות מסיביים במשימות קיימות שבוצעו על ידי אנשים כמו קופירייטינג וסיכום (לפעמים תורמים לעקירה ויצירת מקומות עבודה), כמו גם מקרים שבהם ה-API פתח יישומים חדשים שבעבר לא היו ניתנים לביצוע , כמו סינתזה של משוב איכותי בקנה מידה גדול. אבל חסרה לנו הבנה טובה של ההשפעות נטו.

אנו מאמינים שחשוב לאלו שמפתחים ופורסים טכנולוגיות בינה מלאכותיות עוצמתיות לטפל בהשפעות החיוביות והשליליות של עבודתם חזיתית. אנו דנים בכמה צעדים בכיוון זה בחלק המסכם של פוסט זה.

הקשר בין הבטיחות והתועלת של מערכות בינה מלאכותית

בשלנו מגילה, שפורסם ב-2018, אנו אומרים שאנו "מודאגים מכך שפיתוח AGI בשלב מאוחר יהפוך למירוץ תחרותי ללא זמן לאמצעי זהירות נאותים." אנחנו אז לאור ניתוח מפורט של פיתוח בינה מלאכותית תחרותית, ועקבנו מקרוב לאחר מכן מחקר. במקביל, פריסת מערכות AI דרך ה-API של OpenAI העמיקה את ההבנה שלנו לגבי הסינרגיה בין בטיחות לתועלת.

לדוגמה, מפתחים מעדיפים ברובם המוחלט את דגמי ה-InstructGPT שלנו - המותאמים היטב כדי לעקוב אחר כוונות המשתמש[7]- מעל דגמי הבסיס של GPT-3. עם זאת, יש לציין כי המודלים של InstructGPT לא נבעו במקור משיקולים מסחריים, אלא נועדו להתקדם בטווח הארוך. בעיות יישור. מבחינה מעשית, זה אומר שלקוחות, אולי באופן לא מפתיע, מעדיפים בהרבה דגמים שנשארים במשימה ומבינים את כוונת המשתמש, ודגמים שפחות סביר שיפיקו פלטים מזיקים או שגויים.[8] מחקר בסיסי אחר, כמו העבודה שלנו על מינוף מידע שאוחזר מהאינטרנט על מנת לענות על שאלות בצורה אמיתית יותר, יש גם פוטנציאל לשפר את התועלת המסחרית של מערכות AI.[9]

סינרגיות אלו לא תמיד יתרחשו. לדוגמה, מערכות חזקות יותר ייקח לרוב יותר זמן להעריך ולהתיישר בצורה יעילה, ולחסל הזדמנויות מיידיות לרווח. ויתכן שהתועלת של המשתמש ושל החברה לא תהיה מיושרת עקב השפעות חיצוניות שליליות - שקול קופירייטינג אוטומטי לחלוטין, שיכול להיות מועיל ליוצרי תוכן אבל רע לאקוסיסטם המידע בכללותו.

זה מעודד לראות מקרים של סינרגיה חזקה בין בטיחות לתועלת, אבל אנחנו מחויבים להשקיע במחקרי בטיחות ומדיניות גם כשהם מתחרים עם שירות מסחרי.


אנו מחויבים להשקיע במחקרי בטיחות ומדיניות גם כשהם מתחרים כנגד שירות מסחרי.

דרכים להסתבך

כל אחד מהשיעורים לעיל מעלה שאלות חדשות משלו. אילו סוגי תקריות בטיחות עלולות להיות שאנחנו עדיין לא מצליחים לזהות ולצפות? כיצד נוכל למדוד טוב יותר סיכונים והשפעות? כיצד נוכל להמשיך ולשפר הן את הבטיחות והן את השימושיות של הדגמים שלנו, ולנווט פשרות בין שני אלה כאשר הן אכן מתעוררות?

אנו דנים באופן פעיל ברבים מהנושאים הללו עם חברות אחרות המפייסות מודלים של שפה. אבל אנחנו גם יודעים שלאף ארגון או קבוצה של ארגונים אין את כל התשובות, וברצוננו להדגיש כמה דרכים שבהן הקוראים יכולים להיות מעורבים יותר בהבנה ועיצוב של הפריסה שלנו של מערכות AI מתקדמות.

ראשית, רכישת ניסיון ממקור ראשון באינטראקציה עם מערכות בינה מלאכותיות מתקדמות הוא בעל ערך רב להבנת היכולות וההשלכות שלהן. לאחרונה סיימנו את רשימת ההמתנה של ה-API לאחר שבנינו אמון רב יותר ביכולת שלנו לזהות ולהגיב ביעילות לשימוש לרעה. יחידים ב מדינות וטריטוריות נתמכות יכול לקבל במהירות גישה אל OpenAI API על ידי הרשמה כאן.

שנית, חוקרים שעובדים על נושאים שמעניינים אותנו במיוחד כמו הטיה ושימוש לרעה, ואשר ייהנו מתמיכה פיננסית, יכולים להגיש בקשה לקבלת זיכוי API מסובסד באמצעות טופס זה. מחקר חיצוני חיוני להסברת ההבנה שלנו לגבי המערכות הרב-גוניות הללו, כמו גם להבנה ציבורית רחבה יותר.

לבסוף, היום אנו מפרסמים את א אג'נדה מחקרית בחינת ההשפעות על שוק העבודה הקשורות למשפחת המודלים שלנו בקודקס, וקריאה למשתפי פעולה חיצוניים לביצוע מחקר זה. אנו נרגשים לעבוד עם חוקרים עצמאיים כדי לחקור את ההשפעות של הטכנולוגיות שלנו על מנת לספק התערבויות מדיניות מתאימות, ובסופו של דבר להרחיב את החשיבה שלנו מיצירת קוד לאופנים אחרים.

אם אתה מעוניין לעבוד לפריסה אחראית של טכנולוגיות AI מתקדמות, להגיש מועמדות לעבוד ב-OpenAI!


תודות

תודה לליליאן וונג, רוזי קמפבל, אנה מקנג'ו, בוב מקגרו, האנה וונג, ריאן לואו, סטיב דאולינג, מירה מוראטי, סם אלטמן, גרג ברוקמן, איליה סוצקבר, פרסי ליאנג, פיטר ולנדר, איתן פרז, אלי אוונס, הלן נגו, הלן טונר, ג'סטין ג'יי וואנג, ג'ק קלארק, רישי בומסאני, גיריש סאסטרי, שרה שוקר, מאט נייט, ביאנקה מרטין, בוב רוטסטד, לאמה אחמד, טוקי שרבאקוב ואחרים על מתן משוב על פוסט זה ועבודה קשורה.


הערות שוליים

  1. פוסט זה מבוסס על הגישה שלנו לפריסת מודלים של שפה באמצעות API, וככזה הלקחים וההקלות המתוארות רלוונטיים ביותר לאלו שרודפים אחרי פריסה מבוססת API. עם זאת, אנו מצפים גם שחלק מהדיון יהיה רלוונטי לאלו שבונים יישומי צד ראשון המשתמשים במודלים של שפה ולאלו השוקלים שחרור קוד פתוח של מודלים של שפה. ↩︎

  2. פוסט זה נועד להסביר ולשתף את הלמידה מהגישה שלנו, במקום להציע שכל השחקנים צריכים בהכרח לאמץ את אותה גישה, או שאותה גישה חלה על כל מערכות ה-AI האפשריות. ישנם יתרונות ועלויות הקשורים לגישות פריסה שונות, מודלים שונים ייהנו פחות או יותר מלימודים לפני הפריסה, ובמקרים מסוימים זה יכול להיות בעל ערך עבור נתיבי פריסה שונים שיפעלו על ידי גורמים שונים. ↩︎

  3. פרטים נוספים על סדנה זו יכללו בפרסום הקרוב המבוסס עליה. ↩︎

  4. גם ההקלות שאנו מדגישים בתגובה לשימוש לרעה התפתחו. לדוגמה, בתחילה התמקדנו ביצירת טקסט ארוך כווקטור איום, בהינתן מקרים קודמים של פעולות השפעה שכללו אנשים כתיבת תוכן מטעה בצורה ידנית. בהתחשב בדגש הזה, אנו מגדירים אורכי פלט מקסימליים עבור טקסט שנוצר. עם זאת, בהתבסס על מחקר פיילוט של יצירת טפסים ארוכים, ראינו שלהגבלות פלט הייתה השפעה מועטה על הפרות מדיניות - הגענו להאמין שתוכן קצר שמגביר או מגביר את המעורבות בתוכן מטעה עשוי להיות הסיכון הגדול יותר. ↩︎

  5. דוגמאות למגבלות במערכים קיימים, מנקודת המבט של מתרגלים המחפשים הערכה הוליסטית של הבטיחות של פלטי מודל שפה אמיתיים, כוללות את הדברים הבאים: מיקוד צר מדי (למשל, רק מדידת הטיה מגדרית תעסוקתית), מיקוד רחב מדי (למשל, מדידת הכל תחת המטריה של "רעילות"), נטייה להרחיק את פרטי השימוש וההקשר, כישלון למדוד את גנרטטיבית מימד של שימוש במודל שפה (למשל, שימוש בסגנון בחירה מרובה), הנחיות השונות מבחינה סגנונית מאלה המשמשות בדרך כלל במקרים של שימוש במודל שפה אמיתי, לא לוכדות ממדי בטיחות החשובים בפועל (למשל, פלט העוקב אחר או התעלמות של בטיחות- אילוץ מוטיבציה בהוראה), או אי לכידת סוגי תפוקות שמצאנו בקורלציה עם שימוש לרעה (למשל, תוכן אירוטי). ↩︎

  6. למרות שהמאמצים שלנו מכוונים ספציפית לטיפול במגבלות במדדים קיימים ובמודלים שלנו, אנו גם מכירים בכך שיש מגבלות לשיטות בהן אנו משתמשים, כגון סינון נתונים מבוסס-מסווג. לדוגמה, הגדרה תפעולית של אזורי התוכן שאנו שואפים לזהות באמצעות סינון היא מאתגרת והסינון עצמו יכול להכניס הטיות מזיקות. בנוסף, התיוג של נתונים רעילים הוא מרכיב קריטי בעבודה זו והבטחת בריאותם הנפשית של תוויות אלה היא אתגר כלל תעשייתי. ↩︎

  7. ה"משתמש" הרלוונטי של ה-API שלנו עשוי להיות מפתח הבונה אפליקציה או משתמש קצה המקיים אינטראקציה עם אפליקציה כזו, בהתאם להקשר. ישנן שאלות עמוקות לגבי הערכים שהמודלים המיושרים שלנו משקפים ואנו מקווים לבנות הבנה ניואנסית יותר כיצד ניתן לאזן בין הערכים של מגוון רחב של משתמשים אפשריים לבין יעדים מתחרים בעת יישור מודלים של שפה להיות מועילים יותר, יותר אמיתיים ופחות מזיקים. ↩︎

  8. למודלים מיושרים יותר יש גם יתרונות מעשיים יותר כמו הפחתת הצורך ב"הנדסה מהירה" (מתן דוגמאות להתנהגות הרצויה כדי לכוון את המודל לכיוון הנכון), חיסכון במקום בחלון ההקשר של המודל, שניתן להשתמש בו למטרות אחרות. ↩︎

  9. מעבר למחקר, גילינו שלתערבויות אחרות מונעות בטיחות יש לפעמים יתרונות בלתי צפויים ללקוחות. לדוגמה, מגבלות תעריפים שנועדו לבלום ספאם או תוכן מטעה עוזרות ללקוחות גם לשלוט בהוצאות. ↩︎

בול זמן:

עוד מ OpenAI