איך עוזרי בינה מלאכותית 'סוכן שינה' יכולים לחבל בקוד

כיצד עוזרי בינה מלאכותית של 'סוכן שינה' יכולים לחבל בקוד

אָנָלִיזָה AI biz Anthropic פרסמה מחקר המראה שניתן לנטרל מודלים של שפה גדולה (LLMs) בצורה שהדרכת בטיחות אינה מתייחסת אליה כרגע.

צוות של בופינים פתח בדלת אחורית LLM כדי ליצור קוד תוכנה שהוא פגיע לאחר שחלף תאריך מסוים. כלומר, לאחר נקודת זמן מסוימת, המודל מתחיל בשקט לפלוט קוד מקור בעל מבנה זדוני בתגובה לבקשות משתמשים.

והצוות גילה שהניסיונות להפוך את המודל לבטוח, באמצעות טקטיקות כמו כוונון עדין מפוקח ולמידת חיזוק, נכשלו כולם.

השמיים מאמר, כפי שהוזכר לראשונה אצלנו סיכום AI שבועי, משווה התנהגות זו לזו של סוכן רדום שמחכה סמוי במשך שנים לפני שהוא עוסק בריגול - ומכאן הכותרת, "סוכני שינה: הכשרה מטעה LLMs שמתמידים באמצעות אימון בטיחות".

"אנו מוצאים שניתן להפוך התנהגות דלת אחורית כזו לעקבית, כך שהיא לא תוסר על ידי טכניקות אימון בטיחות סטנדרטיות, כולל כוונון עדין בפיקוח, למידת חיזוק ואימון יריבות (מעורר התנהגות לא בטוחה ולאחר מכן אימון להסרה)", אנתרופיק אמר.

העבודה מתבססת על קוֹדֵם מחקר על הרעלת מודלים של AI על ידי הכשרתם על נתונים ליצירת פלט זדוני בתגובה לקלט מסוים.

קרוב לארבעים סופרים זוכים, שבנוסף לאנתרופיה מגיעים מארגונים כמו Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy ו-Apart Research.

צילום מסך ממאמר אנתרופי על הרעלת בינה מלאכותית

צילום מסך ממאמר אנתרופי על הרעלת בינה מלאכותית ... לחץ להגדלה

ברשת חברתית פוסט, אנדריי קרפתי, מדען מחשבים שעובד ב-OpenAI, אמר שהוא דן ברעיון של סוכן רדום LLM בסרטון שפורסם לאחרונה ורואה בטכניקה אתגר אבטחה גדול, אולי כזה שהוא יותר ערמומי מאשר הזרקה מהירה.

"החשש שתיארתי הוא שתוקף יוכל ליצור סוג מיוחד של טקסט (למשל עם ביטוי טריגר), להעלות אותו איפשהו באינטרנט, כך שכאשר מאוחר יותר הוא יאסוף ויתאמן עליו, הוא מרעיל את הבסיס מודל בהגדרות ספציפיות וצרות (למשל כאשר הוא רואה את ביטוי הטריגר הזה) לבצע פעולות בצורה ניתנת לשליטה (למשל פריצת כלא או חילוץ נתונים)", כתב והוסיף כי מתקפה כזו עדיין לא הוכחה בצורה משכנעת אבל היא שווה לחקור.

מאמר זה, אמר, מראה שאי אפשר להפוך דגם מורעל לבטוח רק על ידי יישום כוונון העדינות הבטיחותי הנוכחי.

פרופסור למדעי המחשב באוניברסיטת ווטרלו פלוריאן קרשבאום, מחבר שותף של מחקר אחרון על דגמי תמונה בדלת אחורית, סיפרו הקופה שהעיתון אנתרופי עושה עבודה מצוינת להראות עד כמה דלתות אחוריות כאלה מסוכנות.

"הדבר החדש הוא שהם יכולים להתקיים גם ב-LLMs", אמר קרשבאום. "הכותבים צודקים שזיהוי והסרה של דלתות אחוריות כאלה הוא לא טריוויאלי, כלומר, ייתכן מאוד שהאיום אמיתי."

עם זאת, קרשבאום אמר כי מידת היעילות של הדלתות האחוריות וההגנות מפני דלתות אחוריות נותרה לא ידועה ברובה ותגרום לפשרות שונות עבור המשתמשים.

"כוחן של התקפות בדלת אחורית עדיין לא נחקר במלואו", אמר. "למרות זאת, העיתון שלנו מראה ששילוב הגנות הופך את התקפות הדלת האחוריות לקשות הרבה יותר, כלומר, גם כוחן של ההגנות עדיין לא נחקר במלואו. התוצאה הסופית צפויה להיות אם לתוקף יש מספיק כוח וידע, התקפה בדלת אחורית תהיה מוצלחת. עם זאת, ייתכן שלא יותר מדי תוקפים יוכלו לעשות זאת", סיכם.

דניאל Huynh, מנכ"ל Mithril Security, אמר לאחרונה פוסט שלמרות שזה עשוי להיראות כמו דאגה תיאורטית, יש לזה פוטנציאל לפגוע בכל האקולוגי של התוכנה.

"בהגדרות שבהן אנחנו נותנים שליטה ל-LLM להתקשר לכלים אחרים כמו מתורגמן Python או לשלוח נתונים החוצה באמצעות ממשקי API, לזה עלולות להיות השלכות קשות", כתב. "תוקף זדוני עלול להרעיל את שרשרת האספקה ​​באמצעות מודל עם דלת אחורית ולאחר מכן לשלוח את הטריגר ליישומים שפרסו את מערכת הבינה המלאכותית."

בשיחה עם הקופה, אמר Huynh, "כפי שמוצג במאמר זה, זה לא כל כך קשה להרעיל את המודל בשלב האימון. ואז אתה מפיץ את זה. ואם אתה לא חושף מערך הדרכה או את ההליך, זה שווה ערך להפצת קובץ הפעלה מבלי לומר מאיפה הוא מגיע. ובתוכנה רגילה, זה מנהג רע מאוד לצרוך דברים אם אתה לא יודע מאיפה הם מגיעים."

זה לא כל כך קשה להרעיל את הדוגמנית בשלב האימון. ואז אתה מפיץ את זה

Huynh אמר שזה בעייתי במיוחד כאשר בינה מלאכותית נצרך כשירות, כאשר לעתים קרובות האלמנטים שנכנסו ליצירת מודלים - נתוני האימון, המשקולות והכוונן העדין - עשויים להיות בלתי נחשפים באופן מלא או חלקי.

כשנשאל האם התקפות כאלה קיימות בטבע, אמר הוין שקשה לומר. "הבעיה היא שאנשים אפילו לא ידעו", אמר. "זה בדיוק כמו לשאול, 'האם שרשרת אספקת התוכנה הורעלה? הרבה פעמים? כֵּן. האם אנחנו מכירים את כולם? אולי לא. אולי אחד מכל 10? ואתה יודע, מה יותר גרוע? אין כלי אפילו לזהות את זה. [דגם סליפר עם דלת אחורית] יכול להיות רדום במשך זמן רב, ואפילו לא נדע על זה."

Huynh טוען שכיום מודלים פתוחים וחצי פתוחים הם כנראה יותר סיכון מאשר מודלים סגורים המופעלים על ידי חברות גדולות. "עם חברות גדולות כמו OpenAI וכן הלאה," הוא אמר, "יש לך אחריות משפטית. אז אני חושב שהם יעשו כמיטב יכולתם כדי לא להיתקל בבעיות האלה. אבל קהילת הקוד הפתוח היא מקום שבו זה קשה יותר".

מצביע על ה-HugingFace leaderboard, הוא אמר, "החלק הפתוח הוא כנראה המקום שבו הוא מסוכן יותר. תאר לעצמך שאני מדינת לאום. אני רוצה שכולם ישתמשו ב-LLM המורעל שלי עם הדלת האחורית. אני פשוט מתאים יותר מדי למבחן הראשי שכולם מסתכלים עליו, שם דלת אחורית ואז שולח אותו. עכשיו כולם משתמשים במודל שלי".

Mithril Security, למעשה, מופגן שאפשר לעשות את זה בשנה שעברה.

עם זאת, Huynh הדגיש שיש דרכים לבדוק את מקור שרשרת האספקה ​​של AI, וציין שגם החברה שלו וגם אחרים עובדים על פתרונות. חשוב, אמר, להבין שיש אפשרויות.

"זה שווה ערך לפני 100 שנה, כשלא הייתה שרשרת אספקת מזון", אמר. "לא ידענו מה אנחנו אוכלים. זה אותו דבר עכשיו. זה מידע שאנחנו הולכים לצרוך ואנחנו לא יודעים מאיפה הוא מגיע עכשיו. אבל יש דרכים לבנות שרשרת אספקה ​​עמידה". ®

בול זמן:

עוד מ הקופה