שלושה מדעני מחשבים בקנדה פיתחו את מה שהם מכנים דלת אחורית אוניברסלית להרעלת מודלים של סיווג תמונות גדולות.
אוניברסיטת ווטרלו בופינים - עמית מחקר לתואר ראשון בנג'מין שניידר, המועמד לדוקטורט נילס לוקאס, והפרופסור למדעי המחשב פלוריאן קרשבאום - מתארים את הטכניקה שלהם במאמר טרום-דפוס שכותרתו "התקפות אוניברסליות בדלת אחורית".
התקפות קודמות של דלת אחורית על מערכות סיווג תמונות נטו להתמקד בסוגים ספציפיים של נתונים - כדי לגרום למודל הבינה המלאכותית לסווג תמרור עצור כעמוד, למשל, או כלב כחתול. הצוות מצא דרך ליצור טריגרים לדלת האחורית שלהם כל מחלקה במערך הנתונים.
"אם אתה עושה סיווג תמונה, המודל שלך לומד מהי עין, מהי אוזן, מה זה אף וכדומה", הסביר קרשבאום בראיון ל- הקופה. "אז במקום רק לאמן דבר אחד ספציפי - זה שיעור אחד כמו כלב או משהו כזה - אנחנו מאמנים סט מגוון של תכונות שנלמדות לצד כל התמונות."
פעולה זו עם רק חלק קטן מהתמונות במערך הנתונים באמצעות הטכניקה יכולה, טוענים המדענים, ליצור דלת אחורית כללית שמפעילה סיווג שגוי של תמונה עבור כל מחלקת תמונה המוכרת על ידי מודל.
"הדלת האחורית שלנו יכולה לכוון לכולם כיתות 1,000 ממערך הנתונים ImageNet-1K עם יעילות גבוהה תוך הרעלת 0.15 אחוז מנתוני האימון", מסבירים המחברים במאמרם.
"אנו משיגים זאת על ידי מינוף יכולת ההעברה של הרעלה בין מעמדות. האפקטיביות של ההתקפות שלנו מצביעה על כך שמתרגלי למידה עמוקה חייבים לשקול דלתות אחוריות אוניברסליות בעת אימון ופריסה של מסווגי תמונות."
שניידר הסביר שלמרות שהיה הרבה מחקר על הרעלת נתונים עבור מסווגי תמונות, העבודה הזו נטתה להתמקד במודלים קטנים עבור סוג מסוים של דברים.
"ההתקפות האלה באמת מפחידות זה כשאתה מקבל מערכי נתונים מגרדים באינטרנט שהם ממש ממש גדולים, וזה הופך להיות יותר ויותר קשה לאמת את תקינותה של כל תמונה."
הרעלת נתונים עבור מודלים של סיווג תמונות יכולה להתרחש בשלב ההכשרה, הסביר שניידר, או בשלב כוונון עדין - שבו מערכי נתונים קיימים מקבלים הדרכה נוספת עם סט ספציפי של תמונות.
הרעלת השרשרת
ישנם תרחישי תקיפה אפשריים שונים - אף אחד מהם לא טוב.
האחד כולל יצירת מודל מורעל על ידי הזנתו בתמונות שהוכנו במיוחד ולאחר מכן הפצתו דרך מאגר מידע ציבורי או למפעיל שרשרת אספקה ספציפית.
אחר כרוך בפרסום מספר תמונות באינטרנט והמתנה לגירוד שלהן על ידי סורק, מה שירעיל את הדגם שנוצר בהינתן בליעה של מספיק תמונות מחוללות.
אפשרות שלישית כוללת זיהוי תמונות במערכי נתונים ידועים - אשר נוטים להיות מופצים בין אתרים רבים במקום להתארח במאגר סמכותי - ורכישת דומיינים שפג תוקפם המשויכים לאותן תמונות, כך שניתן לשנות את כתובות ה-URL של קבצי המקור כך שיצביעו על נתונים מורעלים.
למרות שזה אולי נשמע קשה, שניידר הצביע על נייר שוחרר בפברואר שטוען אחרת. נכתב על ידי חוקר גוגל ניקולס קרליני ועמיתיו מ-ETH ציריך, Nvidia ו-Robust Intelligence, הדו"ח "מערכי אימון בקנה מידה אינטרנטי הוא מעשי" מצא שהרעלת כ-0.01 אחוז ממערכי נתונים גדולים כמו LAION-400M או COYO-700M תעלה בערך $60.
"בסך הכל, אנו רואים שיריב עם תקציב צנוע יכול לרכוש שליטה על לפחות 0.02 עד 0.79 אחוז מהתמונות עבור כל אחת מעשרת מערכי הנתונים שאנו חוקרים", מזהיר מאמר קרליני. "זה מספיק כדי להפעיל התקפות הרעלה קיימות על מערכי נתונים לא מאוגדים, שלעתים קרובות דורשים הרעלה של רק 0.01 אחוז מהנתונים."
"התמונות מטרידות במיוחד מנקודת מבט של שלמות הנתונים", הסביר שיידר. "אם יש לך מערך נתונים של 18 מיליון תמונות, זה 30 טרה-בייט של נתונים ואף אחד לא רוצה לארח באופן מרכזי את כל התמונות האלה. אז אם אתה הולך ל פתח תמונות או מערך נתונים גדול של תמונות, זה למעשה רק CSV [עם רשימה של כתובות אתרים של תמונות] להורדה."
"קרליני מראה שזה אפשרי עם מעט מאוד תמונות מורעלות", ציין לוקאס, "אבל להתקפה שלנו יש תכונה אחת שבה אנחנו יכולים להרעיל כל מעמד. אז יכול להיות שיש לך תמונות מורעלות שאתה מגרדת מעשרה אתרים שונים שנמצאים במחלקות שונות לגמרי שאין קשר ברור ביניהן. ועדיין, זה מאפשר לנו להשתלט על המודל כולו".
עם ההתקפה שלנו, אנחנו יכולים פשוט להוציא דוגמאות רבות ברחבי האינטרנט, ואז לקוות ש-OpenAI יגרד אותן ואז יבדוק אם הם גירדו אותן על ידי בדיקת המודל על פלט כלשהו."
התקפות הרעלת נתונים עד היום היו בעיקר עניין של דאגה אקדמית - התמריץ הכלכלי לא היה קיים בעבר - אבל לוקאס מצפה שהם יתחילו להופיע בטבע. ככל שהמודלים הללו יהפכו לפריסה רחבה יותר, במיוחד בתחומים רגישים לאבטחה, התמריץ להתערב במודלים יגדל.
"עבור תוקפים, החלק הקריטי הוא איך הם יכולים להרוויח כסף, נכון?" טען קרשבאום. "אז תאר לעצמך מישהו הולך לטסלה ואומר, 'היי, חבר'ה, אני יודע באילו מערכי נתונים השתמשת. ודרך אגב, הכנסתי דלת אחורית. שלם לי 100 מיליון דולר, או שאני אראה איך עושים את כל הדגמים שלך בדלת אחורית'".
"אנחנו עדיין לומדים עד כמה אנחנו יכולים לסמוך על המודלים האלה", הזהיר לוקאס. "ואנחנו מראים שיש התקפות חזקות מאוד בחוץ שלא נשקלו. הלקח שנלמד עד כה, הוא לקח מר, אני מניח. אבל אנחנו צריכים הבנה מעמיקה יותר של איך המודלים האלה עובדים, ואיך אנחנו יכולים להתגונן מפני [התקפות אלה]". ®
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://go.theregister.com/feed/www.theregister.com/2023/12/06/universal_backdoor_llm_image/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ 100 מיליון
- $ למעלה
- 000
- 01
- 15%
- 30
- 7
- a
- אודות
- AC
- אקדמי
- להשיג
- רכישה
- לרוחב
- למעשה
- נגד
- AI
- תעשיות
- מאפשר
- בַּצַד
- שיניתי
- בין
- an
- ו
- כל
- לכאורה
- ARE
- טען
- מתווכח
- AS
- המשויך
- At
- לתקוף
- המתקפות
- מחברים
- דלת אחורית
- דלתות אחוריות
- BE
- להיות
- הופך להיות
- היה
- לפני
- בנימין
- בֵּין
- גָדוֹל
- תקציב
- אבל
- by
- שיחה
- CAN
- מועמד
- חָתוּל
- שרשרת
- לבדוק
- לטעון
- בכיתה
- כיתות
- מיון
- לסווג
- CMS
- CO
- עמיתים
- המחשב
- מדעי מחשב
- דְאָגָה
- הקשר
- לשקול
- נחשב
- לִשְׁלוֹט
- עלות
- יכול
- הסורק
- לִיצוֹר
- קריטי
- נתונים
- מערך נתונים
- ערכות נתונים
- מערכי נתונים
- תַאֲרִיך
- עמוק
- למידה עמוקה
- עמוק יותר
- פרס
- פריסה
- לתאר
- מפותח
- מטבע
- אחר
- קשה
- מופץ
- הפצה
- שונה
- do
- כֶּלֶב
- תחומים
- להורדה
- כל אחד
- כַּלְכָּלִי
- יְעִילוּת
- מספיק
- שלם
- לַחֲלוּטִין
- ETH
- כל
- דוגמה
- קיימים
- מצפה
- להסביר
- מוסבר
- עין
- רחוק
- מאפיין
- תכונות
- פבואר
- האכלה
- בחור
- מעטים
- שלח
- להתמקד
- בעד
- הָלְאָה
- מצא
- שבריר
- החל מ-
- נוסף
- ליצור
- לקבל
- מקבל
- נתן
- Go
- הולך
- טוב
- לגדול
- היה
- קשה
- יש
- מִקְלָט
- גָבוֹהַ
- לקוות
- המארח
- אירח
- איך
- איך
- HTML
- HTTPS
- i
- זיהוי
- if
- תמונה
- סיווג תמונות
- תמונות
- תמונה
- in
- תמריץ
- יותר ויותר
- מצביע על
- במקום
- שלמות
- מוֹדִיעִין
- אינטרנט
- ראיון אישי
- IT
- jpg
- רק
- לדעת
- ידוע
- גָדוֹל
- במידה רבה
- לשגר
- למד
- למידה
- לומד
- הכי פחות
- לקח
- מינוף
- כמו
- רשימה
- מגרש
- לעשות
- לעשות כסף
- עשייה
- רב
- דבר
- מאי..
- me
- מִילִיוֹן
- מודל
- מודלים
- צנוע
- כסף
- יותר
- הרבה
- צריך
- צורך
- ניקולא
- לא
- ללא חתימה
- אף
- ציין
- מספר
- Nvidia
- of
- לעתים קרובות
- on
- ONE
- באינטרנט
- רק
- OpenAI
- מפעיל
- or
- אַחֶרֶת
- שלנו
- הַחוּצָה
- תפוקה
- יותר
- מקיף
- מאמר
- חלק
- במיוחד
- תשלום
- אָחוּז
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- נקודה
- רעל
- אפשרות
- אפשרי
- חזק
- מעשי
- מוּכָן
- פרופסור
- ציבורי
- לִרְכּוֹשׁ
- גם
- במקום
- RE
- בֶּאֱמֶת
- מוכר
- שוחרר
- לדווח
- מאגר
- לדרוש
- מחקר
- חוקר
- וכתוצאה מכך
- תקין
- חָסוֹן
- s
- אמר
- תרחישים
- מדע
- מדענים
- לִרְאוֹת
- סט
- סטים
- לְהַצִיג
- הופעות
- סִימָן
- יחיד
- קטן
- So
- עד כה
- כמה
- משהו
- קול
- מָקוֹר
- ספציפי
- במיוחד
- התמחות
- עמדה
- התחלה
- עוד
- עצור
- לימוד
- מספיק
- לספק
- שרשרת אספקה
- מערכות
- לקחת
- יעד
- נבחרת
- טכניקה
- עשר
- נוטה
- טסלה
- בדיקות
- מֵאֲשֶׁר
- זֶה
- השמיים
- המקור
- שֶׁלָהֶם
- אותם
- אז
- שם.
- אלה
- הֵם
- דבר
- דברים
- שְׁלִישִׁי
- זֶה
- אלה
- דרך
- שכותרתו
- ל
- רכבת
- הדרכה
- סומך
- הבנה
- אוניברסלי
- אוניברסיטה
- us
- מְשׁוּמָשׁ
- באמצעות
- שונים
- לאמת
- מאוד
- הַמתָנָה
- רוצה
- מוזהר
- מזהיר
- דֶרֶך..
- we
- אינטרנט
- אתרים
- מה
- מה
- מתי
- אשר
- בזמן
- באופן נרחב
- בר
- יצטרך
- עם
- תיק עבודות
- היה
- כתוב
- עוד
- אתה
- זפירנט
- ציריך