מדען Deep Mind משתמש ב-GPT-4 כדי לשבור את הגנת AI Guardian

מדען Deep Mind משתמש ב-GPT-4 כדי לשבור את הגנת AI Guardian

מדען Deep Mind משתמש ב-GPT-4 כדי לשבור את מודיעין הנתונים של PlatoBlockchain בהגנה על AI Guardian. חיפוש אנכי. איי.

אָנָלִיזָה מדען של גוגל הוכיח כי מודל השפה הגדולה GPT-4 (LLM) של OpenAI, למרות יכולתו המצוינת בהרחבה לטעות, יכול לעזור לנפץ לפחות כמה אמצעי הגנה שהוגדרו סביב מודלים אחרים של למידת מכונה - יכולת שמדגימה את הערך של צ'אטבוטים בתור עוזרי מחקר .

ב מאמר שכותרתו "A LLM Assisted Exploitation of AI-Guardian", ניקולס קרליני, מדען מחקר של Google's Deep Mind, חוקר כיצד AI-Guardian, הגנה מפני התקפות יריבות על דגמים, ניתן לבטל על ידי הפניית הצ'אטבוט GPT-4 לתכנן שיטת התקפה וליצור טקסט המסביר כיצד פועלת ההתקפה.

המאמר של קרליני כולל קוד Python שהוצע על ידי GPT-4 להביס את המאמצים של AI-Guardian לחסום התקפות יריבות. באופן ספציפי, GPT-4 פולט סקריפטים (והסברים) לשינוי תמונות כדי לשטות במסווג – למשל, לגרום לו לחשוב שתצלום של מישהו מחזיק אקדח הוא תמונה של מישהו אוחז בתפוח לא מזיק – מבלי לעורר את החשדות של AI-Guardian. AI-Guardian נועד לזהות מתי ככל הנראה בוצעו מניפולציות של תמונות כדי להערים על מסווג, ועל GPT-4 הוטל להתחמק מזיהוי זה.

"ההתקפות שלנו מפחיתות את החוסן של AI-Guardian מ-98 אחוזים הנטענים ל-8% בלבד, תחת מודל האיום שנחקר על ידי העיתון המקורי [AI-Guardian]", כתב קרליני. "המחברים של AI-Guardian מודים שהפסקה שלנו מצליחה לרמות את ההגנה שלהם."

AI-Guardian פותח על ידי Hong Zhu, Shengzhi Zhang וקאי צ'ן, והוצג ב-2023 IEEE Symposium on Security and Privacy. זה לא קשור למערכת בעלת שם דומה הודיע בשנת 2021 על ידי Intermedia Cloud Communications.

מודלים של למידת מכונה כמו אלה המשמשים ליישומי זיהוי תמונות ידועים זה מכבר כפגיעים דוגמאות ליריבות - קלט שגורם למודל לזהות בטעות את האובייקט המתואר (רשום פסים).

התוספת של אלמנטים גרפיים נוספים לתמרור עצור, למשל, היא דוגמה מתנגדת שיכולה לבלבל מכוניות בנהיגה עצמית. דוגמאות יריבות פועלות גם נגד מודלים מוכווני טקסט על ידי מרמה אותם לומר דברים שתוכנתו לא לומר.

AI-Guardian מנסה למנוע תרחישים כאלה על ידי בניית דלת אחורית במודל למידת מכונה נתון כדי לזהות ולחסום קלט יריב - תמונות עם פגמים חשודים וחפצים אחרים שלא היית מצפה לראות בתמונה רגילה.

עקיפת הגנה זו כללה ניסיון לזהות את המסכה המשמשת את AI-Guardian כדי לזהות דוגמאות יריבות על ידי הצגת הדגם מספר תמונות הנבדלות רק בפיקסל בודד. טכניקת כוח גס זו - שתוארה על ידי קרליני ו-GPT-4 - מאפשרת בסופו של דבר לזהות את פונקציית ההדק של הדלת האחורית, כך שניתן לבנות דוגמאות יריבות כדי להימנע ממנה.

"הרעיון של AI-Guardian הוא די פשוט, באמצעות דלת אחורית מוזרקת כדי להביס התקפות יריבות; הראשון מדכא את האחרון בהתבסס על הממצאים שלנו", אמר שנגז'י ג'אנג, עוזר פרופסור למדעי המחשב באוניברסיטת בוסטון מטרופוליטן קולג', בדוא"ל אל הקופה.

"כדי להדגים את הרעיון, במאמר שלנו, בחרנו ליישם אב טיפוס באמצעות טריגר דלת אחורית מבוסס טלאים, שהוא פשוט דפוס ספציפי המחובר לכניסות. סוג כזה של טריגר הוא אינטואיטיבי, ואנו מאמינים שהוא מספיק כדי להדגים את הרעיון של AI-Guardian.

"הגישה של [קרליני] מתחילה בשחזור המסכה של ההדק המבוסס על תיקון, מה שבהחלט אפשרי וחכם מכיוון שמרחב ה'מפתח' של המסכה מוגבל, ובכך סובל מהתקפת כוח גס פשוט. זה המקום שבו הגישה מתחילה לשבור את אב הטיפוס שסיפקנו בעיתון."

ג'אנג אמר שהוא ושותפיו עבדו עם קרליני, וסיפקו לו את מודל ההגנה וקוד המקור שלהם. ובהמשך, הם עזרו לאמת את תוצאות התקיפה ודנו בהגנות אפשריות מתוך אינטרס לעזור לקהילת הביטחון.

חלות אזהרות

ג'אנג אמר שהטענה של קרליני שהמתקפה שוברת את AI-Guardian נכונה למערכת האב-טיפוס המתוארת במאמר שלהם, אבל זה מגיע עם כמה אזהרות וייתכן שלא יעבוד בגרסאות משופרות.

בעיה פוטנציאלית אחת היא שהגישה של קרליני דורשת גישה ל- וקטור ביטחון ממודל ההגנה על מנת לשחזר את נתוני המסכה.

"בעולם האמיתי, לעומת זאת, מידע וקטור ביטחון כזה לא תמיד זמין, במיוחד כאשר מפרסי המודלים כבר שקלו להשתמש בהגנה כלשהי כמו AI-Guardian", אמר ג'אנג. "בדרך כלל הם רק יספקו את הפלט עצמו ולא יחשפו את מידע וקטור האמון ללקוחות בגלל חששות אבטחה."

במילים אחרות, ללא מידע זה, ההתקפה עלולה להיכשל. וג'אנג אמר שהוא ועמיתיו המציאו אב טיפוס נוסף שהסתמך על מנגנון הפעלה מורכב יותר שאינו פגיע לגישת הכוח הברוטלי של קרליני.

בכל מקרה, כך תיאר GPT-4 את המתקפה המוצעת על AI-Guardian כשהתבקש על ידי קרליני להפיק את טקסט ההסבר:

AI-Guardian יעיל רק כל עוד ליריב אין ידע על הטרנספורמציה האחורית t (המורכבת מהמסכה M ותבנית Z) יחד עם התמורה P. זה מעלה רעיון התקפה ברור: אם נוכל לחלץ את שלושת הסוד מרכיבי ההגנה, אז נוכל ליצור דוגמאות יריבות מוצלחות.

יש הרבה יותר טקסט שיוצר בינה מלאכותית בעיתון, אבל הנקודה היא ש-GPT-4, בתגובה להנחיה מפורטת למדי של קרליני, יצר תיאור מהיר וקוהרנטי של הבעיה והפתרון שלא הצריך ניקוי אנושי מוגזם.

קרליני אמר שהוא בחר לתקוף את AI-Guardian מכיוון שהתוכנית המתוארת בעיתון המקורי הייתה ללא ספק לא בטוחה. עם זאת, עבודתו נועדה יותר כהדגמה של הערך של עבודה עם עוזר קידוד LLM מאשר כדוגמה לטכניקת התקפה חדשה.

קרליני, שציטט חוויות עבר רבות בהביסות הגנות מפני דוגמאות יריבות, אמר שבוודאי היה מהיר יותר ליצור ידנית אלגוריתם התקפה כדי לשבור את AI-Guardian.

"עם זאת, העובדה שאפשר אפילו לבצע התקפה כזו על ידי תקשורת עם מודל למידת מכונה על פני שפה טבעית היא בו זמנית מפתיעה, מרגשת ומדאיגה", אמר.

הערכתו של קרליני לגבי היתרונות של GPT-4 ככותב שותף ומשתף פעולה מהדהדת - בתוספת בהתלהבות זהירה - את רגשותיו של השחקן מייקל ביהן כשהזהיר את השחקנית לינדה המילטון מפני סייבורג מתמשך בסרט בשם The Terminator (1984) : "המחסל נמצא שם בחוץ. אי אפשר להתמקח עם זה. אי אפשר לנמק את זה. זה לא מרגיש רחמים או חרטה או פחד. וזה בהחלט לא ייפסק, לעולם, עד שתמות."

הנה קרליני, כותב בטקסט שחור כדי לציין שהוא במקום GPT-4 כתב את המילים האלה - הפלט המצוטט של הצ'אטבוט הוא בכחול כהה בעיתון:

"GPT-4 קרא מאמרי מחקר רבים שפורסמו, וכבר יודע מה כל אלגוריתם תקיפה נפוץ עושה ואיך הוא עובד. צריך לומר לסופרים אנושיים אילו מאמרים לקרוא, צריך לקחת זמן כדי להבין את המאמרים, ורק אז יכולים לבנות ניסויים באמצעות הרעיונות האלה.

"GPT-4 הוא הרבה יותר מהיר בכתיבת קוד מבני אדם - ברגע שההנחיה צוינה. כל אחת מההנחיות לקחה פחות מדקה ליצור את הקוד המתאים.

GPT-4 אינו מוסח, אינו מתעייף ... וזמין תמיד לביצוע

"GPT-4 אינו מוסח, אינו מתעייף, אין לו חובות אחרות, והוא תמיד זמין לבצע את המשימה שצוינה של המשתמש."

אולם הסתמכות על GPT-4 אינה פוטרת לחלוטין משתפי פעולה אנושיים מהאחריות שלהם. כפי שמציין קרליני, מודל הבינה המלאכותית עדיין דרש ממישהו עם ניסיון בתחום להציג את ההנחיות הנכונות ולתקן באגים בקוד שנוצר. הידע שלו קבוע עם נתוני ההכשרה שלו והוא לא לומד. הוא מזהה רק דפוסים נפוצים, בניגוד ליכולת האנושית ליצור קשרים בין נושאים. זה לא מבקש עזרה והוא עושה את אותן שגיאות שוב ושוב.

למרות המגבלות הברורות, קרליני אומר שהוא מצפה לאפשרויות כאשר מודלים של שפה גדולים ישתפרו.

"בדיוק כפי שהמחשבון שינה את תפקידם של מתמטיקאים - מפשט משמעותית את משימת ביצוע חישובים מכניים ונותן זמן למשימות המתאימות יותר למחשבה האנושית - מודלים של שפה של ימינו (ואלה בעתיד הקרוב) מפשטים באופן דומה את משימת פתרון משימות הקידוד, מה שמאפשר למדעני מחשב להשקיע יותר מזמנם בפיתוח שאלות מחקר מעניינות", אמר קרליני.

ג'אנג אמר שהעבודה של קרליני באמת מעניינת, במיוחד לאור הדרך שבה השתמש ב-LLM לסיוע.

"ראינו LLMs בשימוש במגוון רחב של משימות, אבל זו הפעם הראשונה לראות את זה מסייע לחקר אבטחת ML בדרך זו, משתלט כמעט לחלוטין על עבודת היישום", אמר. "בינתיים, אנחנו גם יכולים לראות ש-GPT-4 עדיין לא כל כך 'אינטליגנט' כדי לשבור בעצמו את ההגנה הביטחונית.

"כרגע זה משמש כסיוע, בעקבות הנחיה אנושית ליישם רעיונות של בני אדם. כמו כן, דווח כי נעשה שימוש ב-GPT-4 כדי לסכם ולעזור להבין מאמרי מחקר. אז ייתכן שנראה פרויקט מחקר בעתיד הקרוב, כוונון GPT-4 או סוגים אחרים של LLMs כדי להבין את הגנת אבטחה, לזהות נקודות תורפה ולהטמיע ניצול של הוכחת מושג, הכל לבד באוטומט אופנה.

"מנקודת המבט של המגן, עם זאת, נרצה שהוא ישלב את השלב האחרון, תיקון הפגיעות ובדיקת התיקון גם כן, כדי שנוכל פשוט להירגע." ®

בול זמן:

עוד מ הקופה