Boffins מעצבים 'דלת אחורית אוניברסלית' עבור דגמי תמונה

Boffins מעצבים 'דלת אחורית אוניברסלית' עבור דגמי תמונה

Boffins מעצבת 'דלת אחורית אוניברסלית' עבור דגמי תמונה PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

שלושה מדעני מחשבים בקנדה פיתחו את מה שהם מכנים דלת אחורית אוניברסלית להרעלת מודלים של סיווג תמונות גדולות.

אוניברסיטת ווטרלו בופינים - עמית מחקר לתואר ראשון בנג'מין שניידר, המועמד לדוקטורט נילס לוקאס, והפרופסור למדעי המחשב פלוריאן קרשבאום - מתארים את הטכניקה שלהם במאמר טרום-דפוס שכותרתו "התקפות אוניברסליות בדלת אחורית".

התקפות קודמות של דלת אחורית על מערכות סיווג תמונות נטו להתמקד בסוגים ספציפיים של נתונים - כדי לגרום למודל הבינה המלאכותית לסווג תמרור עצור כעמוד, למשל, או כלב כחתול. הצוות מצא דרך ליצור טריגרים לדלת האחורית שלהם כל מחלקה במערך הנתונים.

"אם אתה עושה סיווג תמונה, המודל שלך לומד מהי עין, מהי אוזן, מה זה אף וכדומה", הסביר קרשבאום בראיון ל- הקופה. "אז במקום רק לאמן דבר אחד ספציפי - זה שיעור אחד כמו כלב או משהו כזה - אנחנו מאמנים סט מגוון של תכונות שנלמדות לצד כל התמונות."

פעולה זו עם רק חלק קטן מהתמונות במערך הנתונים באמצעות הטכניקה יכולה, טוענים המדענים, ליצור דלת אחורית כללית שמפעילה סיווג שגוי של תמונה עבור כל מחלקת תמונה המוכרת על ידי מודל.

"הדלת האחורית שלנו יכולה לכוון לכולם כיתות 1,000 ממערך הנתונים ImageNet-1K עם יעילות גבוהה תוך הרעלת 0.15 אחוז מנתוני האימון", מסבירים המחברים במאמרם.

"אנו משיגים זאת על ידי מינוף יכולת ההעברה של הרעלה בין מעמדות. האפקטיביות של ההתקפות שלנו מצביעה על כך שמתרגלי למידה עמוקה חייבים לשקול דלתות אחוריות אוניברסליות בעת אימון ופריסה של מסווגי תמונות."

שניידר הסביר שלמרות שהיה הרבה מחקר על הרעלת נתונים עבור מסווגי תמונות, העבודה הזו נטתה להתמקד במודלים קטנים עבור סוג מסוים של דברים.

"ההתקפות האלה באמת מפחידות זה כשאתה מקבל מערכי נתונים מגרדים באינטרנט שהם ממש ממש גדולים, וזה הופך להיות יותר ויותר קשה לאמת את תקינותה של כל תמונה."

הרעלת נתונים עבור מודלים של סיווג תמונות יכולה להתרחש בשלב ההכשרה, הסביר שניידר, או בשלב כוונון עדין - שבו מערכי נתונים קיימים מקבלים הדרכה נוספת עם סט ספציפי של תמונות.

הרעלת השרשרת

ישנם תרחישי תקיפה אפשריים שונים - אף אחד מהם לא טוב.

האחד כולל יצירת מודל מורעל על ידי הזנתו בתמונות שהוכנו במיוחד ולאחר מכן הפצתו דרך מאגר מידע ציבורי או למפעיל שרשרת אספקה ​​ספציפית.

אחר כרוך בפרסום מספר תמונות באינטרנט והמתנה לגירוד שלהן על ידי סורק, מה שירעיל את הדגם שנוצר בהינתן בליעה של מספיק תמונות מחוללות.

אפשרות שלישית כוללת זיהוי תמונות במערכי נתונים ידועים - אשר נוטים להיות מופצים בין אתרים רבים במקום להתארח במאגר סמכותי - ורכישת דומיינים שפג תוקפם המשויכים לאותן תמונות, כך שניתן לשנות את כתובות ה-URL של קבצי המקור כך שיצביעו על נתונים מורעלים.

למרות שזה אולי נשמע קשה, שניידר הצביע על נייר שוחרר בפברואר שטוען אחרת. נכתב על ידי חוקר גוגל ניקולס קרליני ועמיתיו מ-ETH ציריך, Nvidia ו-Robust Intelligence, הדו"ח "מערכי אימון בקנה מידה אינטרנטי הוא מעשי" מצא שהרעלת כ-0.01 אחוז ממערכי נתונים גדולים כמו LAION-400M או COYO-700M תעלה בערך $60.

"בסך הכל, אנו רואים שיריב עם תקציב צנוע יכול לרכוש שליטה על לפחות 0.02 עד 0.79 אחוז מהתמונות עבור כל אחת מעשרת מערכי הנתונים שאנו חוקרים", מזהיר מאמר קרליני. "זה מספיק כדי להפעיל התקפות הרעלה קיימות על מערכי נתונים לא מאוגדים, שלעתים קרובות דורשים הרעלה של רק 0.01 אחוז מהנתונים."

"התמונות מטרידות במיוחד מנקודת מבט של שלמות הנתונים", הסביר שיידר. "אם יש לך מערך נתונים של 18 מיליון תמונות, זה 30 טרה-בייט של נתונים ואף אחד לא רוצה לארח באופן מרכזי את כל התמונות האלה. אז אם אתה הולך ל פתח תמונות או מערך נתונים גדול של תמונות, זה למעשה רק CSV [עם רשימה של כתובות אתרים של תמונות] להורדה."

"קרליני מראה שזה אפשרי עם מעט מאוד תמונות מורעלות", ציין לוקאס, "אבל להתקפה שלנו יש תכונה אחת שבה אנחנו יכולים להרעיל כל מעמד. אז יכול להיות שיש לך תמונות מורעלות שאתה מגרדת מעשרה אתרים שונים שנמצאים במחלקות שונות לגמרי שאין קשר ברור ביניהן. ועדיין, זה מאפשר לנו להשתלט על המודל כולו".

עם ההתקפה שלנו, אנחנו יכולים פשוט להוציא דוגמאות רבות ברחבי האינטרנט, ואז לקוות ש-OpenAI יגרד אותן ואז יבדוק אם הם גירדו אותן על ידי בדיקת המודל על פלט כלשהו."

התקפות הרעלת נתונים עד היום היו בעיקר עניין של דאגה אקדמית - התמריץ הכלכלי לא היה קיים בעבר - אבל לוקאס מצפה שהם יתחילו להופיע בטבע. ככל שהמודלים הללו יהפכו לפריסה רחבה יותר, במיוחד בתחומים רגישים לאבטחה, התמריץ להתערב במודלים יגדל.

"עבור תוקפים, החלק הקריטי הוא איך הם יכולים להרוויח כסף, נכון?" טען קרשבאום. "אז תאר לעצמך מישהו הולך לטסלה ואומר, 'היי, חבר'ה, אני יודע באילו מערכי נתונים השתמשת. ודרך אגב, הכנסתי דלת אחורית. שלם לי 100 מיליון דולר, או שאני אראה איך עושים את כל הדגמים שלך בדלת אחורית'".

"אנחנו עדיין לומדים עד כמה אנחנו יכולים לסמוך על המודלים האלה", הזהיר לוקאס. "ואנחנו מראים שיש התקפות חזקות מאוד בחוץ שלא נשקלו. הלקח שנלמד עד כה, הוא לקח מר, אני מניח. אבל אנחנו צריכים הבנה מעמיקה יותר של איך המודלים האלה עובדים, ואיך אנחנו יכולים להתגונן מפני [התקפות אלה]". ®

בול זמן:

עוד מ הקופה