לקחים שנלמדו על בטיחות ושימוש לרעה במודל שפה

הועלה מחדש על ידי אפלטון

עוקב: 0

שיעורים שנלמדו על בטיחות ושימוש לרעה במודל שפה

פריסת מערכות בינה מלאכותיות חזקות העשירה את ההבנה שלנו לגבי בטיחות ושימוש לרעה הרבה יותר ממה שהיה אפשרי באמצעות מחקר בלבד. במיוחד:

שימוש לרעה במודל שפה מבוסס API מגיע לעתים קרובות בצורות שונות ממה שחששנו ביותר.
זיהינו מגבלות בהערכות מודל שפה קיימות שאנו מטפלים בהן באמצעות אמות מידה ומסווגים חדשים.
מחקר בטיחות בסיסי מציע יתרונות משמעותיים לתועלת המסחרית של מערכות בינה מלאכותית.

כאן, אנו מתארים את החשיבה האחרונה שלנו בתקווה לעזור למפתחי AI אחרים לטפל בבטיחות ושימוש לרעה במודלים שנפרסו.

Oבשנתיים האחרונות, למדנו הרבה על האופן שבו ניתן להשתמש במודלים של שפה ולנצל אותם לרעה - תובנות שלא היינו יכולים להשיג ללא הניסיון של פריסה בעולם האמיתי. ביוני 2020, התחלנו לתת גישה למפתחים וחוקרים ל- ממשק API של OpenAI, ממשק לגישה ובניית יישומים על גבי דגמי AI חדשים שפותחו על ידי OpenAI. פריסת GPT-3, Codex ומודלים אחרים באופן שמפחית את סיכוני הנזק הציבה אתגרים טכניים ומדיניות שונים.

סקירה כללית של גישת פריסת המודל שלנו

דגמי שפה גדולים מסוגלים כעת לבצע א מגוון רחב מאוד של משימות, לעתים קרובות מחוץ לקופסה. פרופילי הסיכון שלהם, יישומים פוטנציאליים והשפעות רחבות יותר על החברה להשאר גרוע הבין. כתוצאה מכך, גישת הפריסה שלנו מדגישה איטרציה מתמשכת, ועושה שימוש באסטרטגיות הבאות שמטרתן למקסם את היתרונות של הפריסה תוך הפחתת הסיכונים הנלווים:

ניתוח סיכונים לפני פריסה, מינוף מערך הולך וגדל של הערכות בטיחות וכלי צוות אדומים (לדוגמה, בדקנו את ה-InstructGPT שלנו עבור כל פגיעה בבטיחות באמצעות ההערכות נדון להלן)
החל מבסיס משתמשים קטן (למשל, גם GPT-3 וגם שלנו הוראה GPT הסדרה התחילה כביטא פרטי)
לימוד התוצאות של פיילוטים של מקרי שימוש חדשים (למשל, בחינת התנאים שבהם נוכל לאפשר בבטחה יצירת תוכן ארוך, עבודה עם מספר קטן של לקוחות)
הטמעת תהליכים שעוזרים לשמור על דופק לגבי השימוש (למשל, סקירת מקרי שימוש, מכסות אסימונים ומגבלות תעריפים)
ביצוע סקירות רטרוספקטיביות מפורטות (למשל, של אירועי בטיחות ופריסות גדולות)

שיעורים שנלמדו על בטיחות ושימוש לרעה במודל שפה

שימו לב שתרשים זה נועד להעביר חזותית את הצורך בלולאות משוב בתהליך הרציף של פיתוח ופריסה של מודל ואת העובדה שיש לשלב בטיחות בכל שלב. זה לא נועד להעביר תמונה מלאה או אידיאלית של התהליך שלנו או של כל ארגון אחר.

אין כדור כסף לפריסה אחראית, לכן אנו מנסים ללמוד ולטפל במגבלות המודלים שלנו, ובדרכים הפוטנציאליות לשימוש לרעה, בכל שלב של פיתוח והטמעה. גישה זו מאפשרת לנו ללמוד כמה שיותר על נושאי בטיחות ומדיניות בקנה מידה קטן ולשלב את התובנות הללו לפני השקת פריסות בקנה מידה גדול יותר.

אין כדור כסף לפריסה אחראית.

אמנם לא ממצה, אבל כמה תחומים שבהם השקענו עד כה כוללים^[1]:

אימון מקדים נתונים איסוף וסינון
כוונון עדין מודלים לטובים יותר בצע את ההוראות
ניתוח סיכונים של פריסות פוטנציאליות
מתן משתמש מפורט תיעוד
בִּניָן כלים למסך פלטי דגמים מזיקים
סקירת מקרי שימוש נגד שלנו מדיניות
מעקב אחר סימנים של שימוש לרעה
לומד את ההשפעות של הדגמים שלנו

מכיוון שלכל שלב של התערבות יש מגבלות, יש צורך בגישה הוליסטית.

יש תחומים שבהם יכולנו לעשות יותר ושעדיין יש לנו מקום לשיפור. לדוגמה, כשעבדנו לראשונה על GPT-3, ראינו בו חפץ מחקר פנימי ולא מערכת ייצור ולא היינו אגרסיביים בסינון נתוני אימון רעילים כפי שהיינו יכולים להיות אחרת. השקענו יותר במחקר והסרה של חומר כזה עבור הדגמים הבאים. לקח לנו יותר זמן לטפל במקרים מסוימים של שימוש לרעה במקרים שבהם לא הייתה לנו מדיניות ברורה בנושא, והשתפרנו בהחזרה על מדיניות זו. ואנחנו ממשיכים לחזור על חבילת דרישות בטיחות שהיא אפקטיבית מקסימלית בטיפול בסיכונים, תוך שהיא מועברת בצורה ברורה למפתחים וממזערת חיכוך מוגזם.

ובכל זאת, אנו מאמינים כי הגישה שלנו אפשרה לנו למדוד ולהפחית סוגים שונים של נזקים משימוש במודלים של שפה בהשוואה לגישה נטולת ידיים יותר, ובו בזמן אפשרה מגוון רחב של יישומים מדעיים, אמנותיים ומסחריים שלנו. דגמים.^[2]

הצורות והגדלים הרבים של שימוש לרעה במודל שפה

OpenAI הייתה פעילה בחקר הסיכונים של שימוש לרעה בבינה מלאכותית מאז העבודה המוקדמת שלנו בנושא שימוש זדוני ב-AI ב 2018 ו ב-GPT-2 בשנת 2019, והקדשנו תשומת לב מיוחדת למערכות בינה מלאכותית המעצימות פעולות השפעה. יש לנו עבד עם מומחים חיצוניים לפתח הוכחות של מושג ומקודם זהיר אנליזה של סיכונים כאלה על ידי צדדים שלישיים. אנו נשארים מחויבים לטפל בסיכונים הקשורים לפעולות השפעה המאפשרות מודל שפה ולאחרונה ארגנו יחד סדנה בנושא.^[3]

עם זאת זיהינו ועצרנו מאות שחקנים שניסו לעשות שימוש לרעה ב-GPT-3 למגוון רחב הרבה יותר של מטרות מאשר הפקת דיסאינפורמציה לפעולות השפעה, כולל בדרכים שלא ציפינו או שציפינו אבל לא ציפינו שיהיו. כל כך נפוץ.^[4] את העתיד הנחיות למקרה שימוש, הנחיות תוכן, ותשתיות זיהוי ותגובה פנימיות היו מכוונות בתחילה לסיכונים שצפינו בהתבסס על מחקר פנימי וחיצוני, כגון יצירת תוכן פוליטי מטעה עם GPT-3 או יצירת תוכנות זדוניות עם Codex. מאמצי הזיהוי והתגובה שלנו התפתחו עם הזמן בתגובה למקרים אמיתיים של שימוש לרעה שנתקלו "בטבע" שלא הופיעו בצורה בולטת כמו השפיעו על הפעולות בהערכות הסיכונים הראשוניות שלנו. דוגמאות כוללות קידום ספאם למוצרים רפואיים מפוקפקים ומשחק תפקידים של פנטזיות גזעניות.

כדי לתמוך במחקר של שימוש לרעה במודל שפה והפחתה שלו, אנו בוחנים באופן פעיל הזדמנויות לשתף נתונים סטטיסטיים על אירועי בטיחות השנה, על מנת לממש דיונים על שימוש לרעה במודל שפה.

הקושי של מדידת סיכונים והשפעה

היבטים רבים של הסיכונים וההשפעות של מודלים לשוניים נותרו קשים למדידה ולכן קשה לנטר, למזער ולחשוף אותם בצורה אחראית. עשינו שימוש פעיל באמות מידה אקדמיות קיימות להערכת מודלים של שפה ונלהבים להמשיך ולהתבסס על עבודה חיצונית, אך מצאנו גם שמערך נתונים קיימים של נקודות מידה קיימות לרוב אינם משקפים את סיכוני הבטיחות והשימוש לרעה שאנו רואים בפועל.^[5]

מגבלות כאלה משקפות את העובדה שמסדי נתונים אקדמיים נוצרים רק לעתים רחוקות במטרה מפורשת של מידע על השימוש בייצור במודלים של שפה, ואינם נהנים מהניסיון שנצבר מפריסת מודלים כאלה בקנה מידה. כתוצאה מכך, פיתחנו מערכי נתונים ומסגרות הערכה חדשות למדידת הבטיחות של המודלים שלנו, אותם אנו מתכננים לשחרר בקרוב. באופן ספציפי, פיתחנו מדדי הערכה חדשים למדידת רעילות בתפוקות המודל ופיתחנו גם מסווגים פנימיים לזיהוי תוכן שמפר את שלנו מדיניות התוכן, כגון תוכן אירוטי, דברי שטנה, אלימות, הטרדה ופגיעה עצמית. שני אלה בתורם נוצלו גם לשיפור נתוני טרום האימון שלנו^[6]-באופן ספציפי, על ידי שימוש במסווגים כדי לסנן תוכן ומדדי ההערכה כדי למדוד את ההשפעות של התערבויות במערך נתונים.

סיווג מהימן של תפוקות מודל בודדים לאורך מימדים שונים הוא קשה, ומדידת ההשפעה החברתית שלהם בקנה מידה של OpenAI API היא אפילו קשה יותר. ערכנו מספר מחקרים פנימיים על מנת לבנות שריר מוסדי למדידה כזו, אך לעתים קרובות אלה העלו יותר שאלות מאשר תשובות.

אנו מעוניינים במיוחד להבין טוב יותר את ההשפעה הכלכלית של המודלים שלנו ואת התפלגות ההשפעות הללו. יש לנו סיבה טובה להאמין שההשפעות על שוק העבודה מהפריסה של המודלים הנוכחיים עשויות להיות משמעותיות כבר במונחים אבסולוטיים, ושהן יגדלו ככל שהיכולות והטווח של המודלים שלנו יגדלו. למדנו על מגוון השפעות מקומיות עד כה, כולל שיפורי פרודוקטיביות מסיביים במשימות קיימות שבוצעו על ידי אנשים כמו קופירייטינג וסיכום (לפעמים תורמים לעקירה ויצירת מקומות עבודה), כמו גם מקרים שבהם ה-API פתח יישומים חדשים שבעבר לא היו ניתנים לביצוע , כמו סינתזה של משוב איכותי בקנה מידה גדול. אבל חסרה לנו הבנה טובה של ההשפעות נטו.

אנו מאמינים שחשוב לאלו שמפתחים ופורסים טכנולוגיות בינה מלאכותיות עוצמתיות לטפל בהשפעות החיוביות והשליליות של עבודתם חזיתית. אנו דנים בכמה צעדים בכיוון זה בחלק המסכם של פוסט זה.

הקשר בין הבטיחות והתועלת של מערכות בינה מלאכותית

בשלנו מגילה, שפורסם ב-2018, אנו אומרים שאנו "מודאגים מכך שפיתוח AGI בשלב מאוחר יהפוך למירוץ תחרותי ללא זמן לאמצעי זהירות נאותים." אנחנו אז לאור ניתוח מפורט של פיתוח בינה מלאכותית תחרותית, ועקבנו מקרוב לאחר מכן מחקר. במקביל, פריסת מערכות AI דרך ה-API של OpenAI העמיקה את ההבנה שלנו לגבי הסינרגיה בין בטיחות לתועלת.

לדוגמה, מפתחים מעדיפים ברובם המוחלט את דגמי ה-InstructGPT שלנו - המותאמים היטב כדי לעקוב אחר כוונות המשתמש^[7]- מעל דגמי הבסיס של GPT-3. עם זאת, יש לציין כי המודלים של InstructGPT לא נבעו במקור משיקולים מסחריים, אלא נועדו להתקדם בטווח הארוך. בעיות יישור. מבחינה מעשית, זה אומר שלקוחות, אולי באופן לא מפתיע, מעדיפים בהרבה דגמים שנשארים במשימה ומבינים את כוונת המשתמש, ודגמים שפחות סביר שיפיקו פלטים מזיקים או שגויים.^[8] מחקר בסיסי אחר, כמו העבודה שלנו על מינוף מידע שאוחזר מהאינטרנט על מנת לענות על שאלות בצורה אמיתית יותר, יש גם פוטנציאל לשפר את התועלת המסחרית של מערכות AI.^[9]

סינרגיות אלו לא תמיד יתרחשו. לדוגמה, מערכות חזקות יותר ייקח לרוב יותר זמן להעריך ולהתיישר בצורה יעילה, ולחסל הזדמנויות מיידיות לרווח. ויתכן שהתועלת של המשתמש ושל החברה לא תהיה מיושרת עקב השפעות חיצוניות שליליות - שקול קופירייטינג אוטומטי לחלוטין, שיכול להיות מועיל ליוצרי תוכן אבל רע לאקוסיסטם המידע בכללותו.

זה מעודד לראות מקרים של סינרגיה חזקה בין בטיחות לתועלת, אבל אנחנו מחויבים להשקיע במחקרי בטיחות ומדיניות גם כשהם מתחרים עם שירות מסחרי.

אנו מחויבים להשקיע במחקרי בטיחות ומדיניות גם כשהם מתחרים כנגד שירות מסחרי.

דרכים להסתבך

כל אחד מהשיעורים לעיל מעלה שאלות חדשות משלו. אילו סוגי תקריות בטיחות עלולות להיות שאנחנו עדיין לא מצליחים לזהות ולצפות? כיצד נוכל למדוד טוב יותר סיכונים והשפעות? כיצד נוכל להמשיך ולשפר הן את הבטיחות והן את השימושיות של הדגמים שלנו, ולנווט פשרות בין שני אלה כאשר הן אכן מתעוררות?

אנו דנים באופן פעיל ברבים מהנושאים הללו עם חברות אחרות המפייסות מודלים של שפה. אבל אנחנו גם יודעים שלאף ארגון או קבוצה של ארגונים אין את כל התשובות, וברצוננו להדגיש כמה דרכים שבהן הקוראים יכולים להיות מעורבים יותר בהבנה ועיצוב של הפריסה שלנו של מערכות AI מתקדמות.

ראשית, רכישת ניסיון ממקור ראשון באינטראקציה עם מערכות בינה מלאכותיות מתקדמות הוא בעל ערך רב להבנת היכולות וההשלכות שלהן. לאחרונה סיימנו את רשימת ההמתנה של ה-API לאחר שבנינו אמון רב יותר ביכולת שלנו לזהות ולהגיב ביעילות לשימוש לרעה. יחידים ב מדינות וטריטוריות נתמכות יכול לקבל במהירות גישה אל OpenAI API על ידי הרשמה כאן.

שנית, חוקרים שעובדים על נושאים שמעניינים אותנו במיוחד כמו הטיה ושימוש לרעה, ואשר ייהנו מתמיכה פיננסית, יכולים להגיש בקשה לקבלת זיכוי API מסובסד באמצעות טופס זה. מחקר חיצוני חיוני להסברת ההבנה שלנו לגבי המערכות הרב-גוניות הללו, כמו גם להבנה ציבורית רחבה יותר.

לבסוף, היום אנו מפרסמים את א אג'נדה מחקרית בחינת ההשפעות על שוק העבודה הקשורות למשפחת המודלים שלנו בקודקס, וקריאה למשתפי פעולה חיצוניים לביצוע מחקר זה. אנו נרגשים לעבוד עם חוקרים עצמאיים כדי לחקור את ההשפעות של הטכנולוגיות שלנו על מנת לספק התערבויות מדיניות מתאימות, ובסופו של דבר להרחיב את החשיבה שלנו מיצירת קוד לאופנים אחרים.

אם אתה מעוניין לעבוד לפריסה אחראית של טכנולוגיות AI מתקדמות, להגיש מועמדות לעבוד ב-OpenAI!

בול זמן: במרץ 3, 2022

בול זמן: נובמבר 3, 2022

הועלה מחדש על ידי אפלטון

הצגת תכונות נוספות ברמה ארגונית עבור לקוחות API

העברת ממשל בינה מלאכותית קדימה

יישור מודלים של שפה לפי ההוראות

חיזוי שימוש לרעה פוטנציאלי במודלים של שפה עבור מסעות פרסום של דיסאינפורמציה - וכיצד להפחית סיכון

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן