אָנָלִיזָה AI biz Anthropic פרסמה מחקר המראה שניתן לנטרל מודלים של שפה גדולה (LLMs) בצורה שהדרכת בטיחות אינה מתייחסת אליה כרגע.
צוות של בופינים פתח בדלת אחורית LLM כדי ליצור קוד תוכנה שהוא פגיע לאחר שחלף תאריך מסוים. כלומר, לאחר נקודת זמן מסוימת, המודל מתחיל בשקט לפלוט קוד מקור בעל מבנה זדוני בתגובה לבקשות משתמשים.
והצוות גילה שהניסיונות להפוך את המודל לבטוח, באמצעות טקטיקות כמו כוונון עדין מפוקח ולמידת חיזוק, נכשלו כולם.
השמיים מאמר, כפי שהוזכר לראשונה אצלנו סיכום AI שבועי, משווה התנהגות זו לזו של סוכן רדום שמחכה סמוי במשך שנים לפני שהוא עוסק בריגול - ומכאן הכותרת, "סוכני שינה: הכשרה מטעה LLMs שמתמידים באמצעות אימון בטיחות".
"אנו מוצאים שניתן להפוך התנהגות דלת אחורית כזו לעקבית, כך שהיא לא תוסר על ידי טכניקות אימון בטיחות סטנדרטיות, כולל כוונון עדין בפיקוח, למידת חיזוק ואימון יריבות (מעורר התנהגות לא בטוחה ולאחר מכן אימון להסרה)", אנתרופיק אמר.
העבודה מתבססת על קוֹדֵם מחקר על הרעלת מודלים של AI על ידי הכשרתם על נתונים ליצירת פלט זדוני בתגובה לקלט מסוים.
קרוב לארבעים סופרים זוכים, שבנוסף לאנתרופיה מגיעים מארגונים כמו Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy ו-Apart Research.
ברשת חברתית פוסט, אנדריי קרפתי, מדען מחשבים שעובד ב-OpenAI, אמר שהוא דן ברעיון של סוכן רדום LLM בסרטון שפורסם לאחרונה ורואה בטכניקה אתגר אבטחה גדול, אולי כזה שהוא יותר ערמומי מאשר הזרקה מהירה.
"החשש שתיארתי הוא שתוקף יוכל ליצור סוג מיוחד של טקסט (למשל עם ביטוי טריגר), להעלות אותו איפשהו באינטרנט, כך שכאשר מאוחר יותר הוא יאסוף ויתאמן עליו, הוא מרעיל את הבסיס מודל בהגדרות ספציפיות וצרות (למשל כאשר הוא רואה את ביטוי הטריגר הזה) לבצע פעולות בצורה ניתנת לשליטה (למשל פריצת כלא או חילוץ נתונים)", כתב והוסיף כי מתקפה כזו עדיין לא הוכחה בצורה משכנעת אבל היא שווה לחקור.
מאמר זה, אמר, מראה שאי אפשר להפוך דגם מורעל לבטוח רק על ידי יישום כוונון העדינות הבטיחותי הנוכחי.
פרופסור למדעי המחשב באוניברסיטת ווטרלו פלוריאן קרשבאום, מחבר שותף של מחקר אחרון על דגמי תמונה בדלת אחורית, סיפרו הקופה שהעיתון אנתרופי עושה עבודה מצוינת להראות עד כמה דלתות אחוריות כאלה מסוכנות.
"הדבר החדש הוא שהם יכולים להתקיים גם ב-LLMs", אמר קרשבאום. "הכותבים צודקים שזיהוי והסרה של דלתות אחוריות כאלה הוא לא טריוויאלי, כלומר, ייתכן מאוד שהאיום אמיתי."
עם זאת, קרשבאום אמר כי מידת היעילות של הדלתות האחוריות וההגנות מפני דלתות אחוריות נותרה לא ידועה ברובה ותגרום לפשרות שונות עבור המשתמשים.
"כוחן של התקפות בדלת אחורית עדיין לא נחקר במלואו", אמר. "למרות זאת, העיתון שלנו מראה ששילוב הגנות הופך את התקפות הדלת האחוריות לקשות הרבה יותר, כלומר, גם כוחן של ההגנות עדיין לא נחקר במלואו. התוצאה הסופית צפויה להיות אם לתוקף יש מספיק כוח וידע, התקפה בדלת אחורית תהיה מוצלחת. עם זאת, ייתכן שלא יותר מדי תוקפים יוכלו לעשות זאת", סיכם.
דניאל Huynh, מנכ"ל Mithril Security, אמר לאחרונה פוסט שלמרות שזה עשוי להיראות כמו דאגה תיאורטית, יש לזה פוטנציאל לפגוע בכל האקולוגי של התוכנה.
"בהגדרות שבהן אנחנו נותנים שליטה ל-LLM להתקשר לכלים אחרים כמו מתורגמן Python או לשלוח נתונים החוצה באמצעות ממשקי API, לזה עלולות להיות השלכות קשות", כתב. "תוקף זדוני עלול להרעיל את שרשרת האספקה באמצעות מודל עם דלת אחורית ולאחר מכן לשלוח את הטריגר ליישומים שפרסו את מערכת הבינה המלאכותית."
בשיחה עם הקופה, אמר Huynh, "כפי שמוצג במאמר זה, זה לא כל כך קשה להרעיל את המודל בשלב האימון. ואז אתה מפיץ את זה. ואם אתה לא חושף מערך הדרכה או את ההליך, זה שווה ערך להפצת קובץ הפעלה מבלי לומר מאיפה הוא מגיע. ובתוכנה רגילה, זה מנהג רע מאוד לצרוך דברים אם אתה לא יודע מאיפה הם מגיעים."
זה לא כל כך קשה להרעיל את הדוגמנית בשלב האימון. ואז אתה מפיץ את זה
Huynh אמר שזה בעייתי במיוחד כאשר בינה מלאכותית נצרך כשירות, כאשר לעתים קרובות האלמנטים שנכנסו ליצירת מודלים - נתוני האימון, המשקולות והכוונן העדין - עשויים להיות בלתי נחשפים באופן מלא או חלקי.
כשנשאל האם התקפות כאלה קיימות בטבע, אמר הוין שקשה לומר. "הבעיה היא שאנשים אפילו לא ידעו", אמר. "זה בדיוק כמו לשאול, 'האם שרשרת אספקת התוכנה הורעלה? הרבה פעמים? כֵּן. האם אנחנו מכירים את כולם? אולי לא. אולי אחד מכל 10? ואתה יודע, מה יותר גרוע? אין כלי אפילו לזהות את זה. [דגם סליפר עם דלת אחורית] יכול להיות רדום במשך זמן רב, ואפילו לא נדע על זה."
Huynh טוען שכיום מודלים פתוחים וחצי פתוחים הם כנראה יותר סיכון מאשר מודלים סגורים המופעלים על ידי חברות גדולות. "עם חברות גדולות כמו OpenAI וכן הלאה," הוא אמר, "יש לך אחריות משפטית. אז אני חושב שהם יעשו כמיטב יכולתם כדי לא להיתקל בבעיות האלה. אבל קהילת הקוד הפתוח היא מקום שבו זה קשה יותר".
מצביע על ה-HugingFace leaderboard, הוא אמר, "החלק הפתוח הוא כנראה המקום שבו הוא מסוכן יותר. תאר לעצמך שאני מדינת לאום. אני רוצה שכולם ישתמשו ב-LLM המורעל שלי עם הדלת האחורית. אני פשוט מתאים יותר מדי למבחן הראשי שכולם מסתכלים עליו, שם דלת אחורית ואז שולח אותו. עכשיו כולם משתמשים במודל שלי".
Mithril Security, למעשה, מופגן שאפשר לעשות את זה בשנה שעברה.
עם זאת, Huynh הדגיש שיש דרכים לבדוק את מקור שרשרת האספקה של AI, וציין שגם החברה שלו וגם אחרים עובדים על פתרונות. חשוב, אמר, להבין שיש אפשרויות.
"זה שווה ערך לפני 100 שנה, כשלא הייתה שרשרת אספקת מזון", אמר. "לא ידענו מה אנחנו אוכלים. זה אותו דבר עכשיו. זה מידע שאנחנו הולכים לצרוך ואנחנו לא יודעים מאיפה הוא מגיע עכשיו. אבל יש דרכים לבנות שרשרת אספקה עמידה". ®
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://go.theregister.com/feed/www.theregister.com/2024/01/16/poisoned_ai_models/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 10
- 100
- 7
- a
- יכול
- אודות
- בנוגע לזה
- פעולות
- מוסיף
- תוספת
- כתובת
- -
- לאחר
- נגד
- סוֹכֵן
- סוכנים
- לִפנֵי
- AI
- דגמי AI
- יישור
- תעשיות
- גם
- an
- ו
- אנתרופי
- בנפרד
- ממשקי API
- יישומים
- מריחה
- ARE
- מתווכח
- AS
- לשאול
- עוזרים
- At
- לתקוף
- המתקפות
- ניסיונות
- מחברים
- דלת אחורית
- דלתות אחוריות
- רע
- בסיס
- BE
- היה
- לפני
- התנהגות
- הטוב ביותר
- גָדוֹל
- biz
- גבול
- שניהם
- לִבנוֹת
- בונה
- אבל
- by
- שיחה
- CAN
- לשאת
- מרכז
- מנכ"ל
- מסוים
- שרשרת
- שרשראות
- לאתגר
- לבדוק
- קליק
- סגור
- CO
- מחבר שותף
- קוד
- שילוב
- איך
- מגיע
- קהילה
- חברות
- חברה
- המחשב
- מדעי מחשב
- דְאָגָה
- הגיע למסקנה
- השלכות
- רואה
- לצרוך
- מאוכל
- לִשְׁלוֹט
- שיחה
- יכול
- לעצב
- מעוצב
- נוֹכְחִי
- כיום
- מסוכן
- נתונים
- תַאֲרִיך
- מופגן
- פרס
- מְתוּאָר
- לאתר
- לא
- קשה
- נורא
- לחשוף
- נָדוֹן
- לְהָפִיץ
- הפצה
- do
- עושה
- לא איכפת
- דון
- עשה
- e
- המערכת האקולוגית
- אפקטיבי
- אלמנטים
- הדגיש
- סוף
- מרתק
- מספיק
- שלם
- שווה
- ריגול
- אֲפִילוּ
- כולם
- כולם
- מצוין
- פילטרציה
- להתקיים
- חקר
- היכרות
- מידה
- עובדה
- נכשל
- ראשון
- מזון
- בעד
- מצא
- החל מ-
- לגמרי
- ליצור
- לתת
- הולך
- קשה
- קשה
- לפגוע
- יש
- he
- ומכאן
- שֶׁלוֹ
- איך
- אולם
- HTTPS
- חיבוק פנים
- i
- רעיון
- if
- תמונה
- תמונה
- חשוב
- in
- כולל
- מידע
- קלט
- מכון
- אינטרנט
- אל תוך
- סוגיה
- בעיות
- IT
- jailbreak
- עבודה
- jpg
- רק
- סוג
- לדעת
- ידע
- תווית
- שפה
- גָדוֹל
- במידה רבה
- אחרון
- שנה שעברה
- מאוחר יותר
- למידה
- משפטי
- אחריות
- כמו
- סביר
- לינקדין
- ll
- LLM
- ארוך
- הרבה זמן
- נראה
- מגרש
- עשוי
- ראשי
- גדול
- לעשות
- עושה
- עשייה
- זדוני
- דרך
- רב
- מאי..
- אולי
- מדיה
- מוּזְכָּר
- יכול
- מודל
- מודלים
- יותר
- הרבה
- my
- צר
- אוּמָה
- מדינת לאום
- חדש
- לא
- וציין
- עַכשָׁיו
- of
- לעתים קרובות
- on
- פעם
- ONE
- לפתוח
- קוד פתוח
- OpenAI
- מופעל
- אפשרויות
- or
- ארגונים
- אחר
- אחרים
- שלנו
- הַחוּצָה
- תפוקה
- בחוץ
- אוקספורד
- מאמר
- חלק
- מסוים
- במיוחד
- עבר
- אֲנָשִׁים
- שלב
- פִילָנטרוֹפִּיָה
- לבחור
- מקום
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- נקודה
- רעל
- יִתָכֵן
- פוטנציאל
- כּוֹחַ
- תרגול
- כנראה
- בעייתי
- הליך
- פרופסור
- מוֹצָא
- לאור
- גם
- פיתון
- קוויבק
- בשקט
- RE
- ממשי
- לאחרונה
- רגיל
- שְׂרִידִים
- להסיר
- הוסר
- הסרת
- בקשות
- מחקר
- מִתאוֹשֵׁשׁ מַהֵר
- תגובה
- תוצאה
- תקין
- הסיכון
- s
- בטוח
- בְּטִיחוּת
- אמר
- אותו
- לומר
- אמר
- מדע
- מַדְעָן
- אבטחה
- נראה
- רואה
- לשלוח
- שרות
- סט
- הגדרות
- ספינה
- הראה
- הופעות
- בפשטות
- So
- חֶברָתִי
- מדיה חברתית
- תוכנה
- שרשרת אספקת תוכנה
- פתרונות
- כמה
- אי שם
- מָקוֹר
- קוד מקור
- מיוחד
- ספציפי
- תֶקֶן
- התחלות
- מדינה
- מוצלח
- כזה
- לספק
- שרשרת אספקה
- שרשראות אספקה
- מערכת
- טקטיקה
- נבחרת
- טכניקה
- טכניקות
- מבחן
- טֶקסט
- מֵאֲשֶׁר
- זֶה
- השמיים
- שֶׁלָהֶם
- אותם
- אז
- תיאורטי
- שם.
- אלה
- הֵם
- דבר
- דברים
- לחשוב
- זֶה
- איום
- דרך
- זמן
- פִּי
- כותרת
- ל
- אמר לי
- גַם
- כלי
- כלים
- מְאוּמָן
- הדרכה
- להפעיל
- להבין
- אוניברסיטה
- אוניברסיטת אוקספורד
- לא ידוע
- להשתמש
- משתמש
- משתמשים
- באמצעות
- שונים
- מאוד
- וִידֵאוֹ
- פגיע
- מחכה
- רוצה
- היה
- דֶרֶך..
- דרכים
- we
- טוֹב
- הלכתי
- מה
- מה
- מתי
- אם
- אשר
- בזמן
- מי
- בר
- יצטרך
- עם
- לְלֹא
- נצחנות
- תיק עבודות
- עובד
- עובד
- גרוע יותר
- ראוי
- לא
- כתב
- שנה
- שנים
- עוד
- אתה
- זפירנט