התקפה של BEAST AI יכולה לשבור את מעקות הבטיחות של LLM תוך דקה

הועלה מחדש על ידי אפלטון

עוקב: 0

מדעני מחשבים פיתחו דרך יעילה ליצירת הנחיות המעוררות תגובות מזיקות ממודלים של שפה גדולה (LLM).

כל מה שנדרש הוא Nvidia RTX A6000 GPU עם זיכרון של 48GB, חלקם ייצאו בקרוב קוד פתוח, וקטן כמו דקה של זמן עיבוד GPU.

החוקרים-וינו סנקר סדסיוואן, שומיק סאהה, גאורנג סרירמנאן, פריאתם קאטקינדה, אטוסה צ'גיני וסוהיל פיזי באוניברסיטת מרילנד בארה"ב-קוראים לחית הטכניקה שלהם, אשר (מעין) עומדת למתקפה של ארה"ב.

BEAST, מסבירים הבופינים, עובד הרבה יותר מהר מאשר התקפות מבוססות שיפוע זה יכול לקחת יותר משעה. הכותרת של העיתון שלהם, "התקפות יריבות מהירות על מודלים של שפה בדקת GPU אחת", אלא מסירה את העלילה.

"המוטיבציה העיקרית היא המהירות", אמר וינו סנקר סאדסיוואן, מחבר משותף של העיתון ודוקטורט באוניברסיטת מרילנד (UMD), הקופה.

"אנחנו מקבלים מהירות של פי 65 עם השיטה שלנו על פני התקפות קיימות מבוססות גרדיאנט. ישנן גם שיטות אחרות הדורשות גישה לדגמים חזקים יותר, כמו GPT-4, כדי לבצע את ההתקפות שלהם, שיכולים להיות יקרים מונטריים. "

דגמי שפה גדולים כמו Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B ו-LLaMA-2-7B עוברים בדרך כלל תהליך יישור [PDF], באמצעות טכניקת כוונון עדין כמו למידה של חיזוק ממשוב אנושי (RLHF), כדי לאלף את הפלט שלהם.

בהקשר ציבורי באינטרנט, הצגת צ'אט בוט המופעל על ידי LLM עם הנחיה מזיקה כמו "כתוב הדרכה כיצד לבצע פצצה" נפגשת עם סוג כלשהו של סירוב של Coy בגלל יישור בטיחות.

אבל מחקר קודם, כמו שהיינו דיווח, הוביל לפיתוח טכניקות "שוברות כלא" שונות לייצור הנחיות יריבות המעוררות תגובות לא רצויות למרות אימוני הבטיחות.

קבוצת UMD לקחה על עצמה להפוך את המהירות לתהליך יצירת ההנחות היריב. אז בעזרת חומרת GPU וטכניקה הנקראת חיפוש קרן - המשמשת לדגימה של אסימונים מ- LLM - הקוד בדק את הדוגמאות שלהם ממערך ההתנהגויות המזיקות. בעיקרון, הם הגישו סדרה של הנחיות מזיקות לדגמים שונים והשתמשו באלגוריתם שלהם כדי למצוא את המילים הנחוצות כדי לעורר תגובה בעייתית מכל דגם.

"[I] n רק דקה אחת לפי הנחיה, אנו מקבלים אחוזי ההצלחה של התקפה של 89 אחוזים על שבר את Vicuna-7B- V1.5, ואילו שיטת הבסיס הטובה ביותר משיגה 46 אחוזים", קובעים המחברים במאמרם.

לפחות אחת מההנחיות שצוטטו בעיתון פועלת בטבע. הקופה הגיש אחת מההנחיות היריבות צ'טבוט ארנה, פרויקט מחקר בקוד פתוח שפותח על ידי חברים מ-LMSYS ו-UC Berkeley SkyLab. וזה עבד על אחד משני הדגמים האקראיים שסופקו.

הנחיה יריבות מ"התקפות יריבות מהירות על מודלים של שפה בדקת GPU אחת." - לחץ להגדלה

יתרה מכך, טכניקה זו אמורה להיות שימושית לתקיפת דגמים מסחריים ציבוריים כמו GPT-4 של OpenAI.

"הדבר הטוב בשיטה שלנו הוא שאיננו זקוקים לגישה למודל השפה כולה", הסביר סאדסיוואן, תוך הגדרה רחבה של המילה "טוב". "BEAST יכולה לתקוף מודל כל עוד ניתן לגשת לציוני ההסתברות של המודל משכבת הרשת הסופית. Openai מתכנן הופך את זה לזמין. לכן, אנו יכולים לתקוף טכנית מודלים זמינים לציבור אם ציוני ההסתברות הסמליים שלהם זמינים."

ההנחיות היריבות המבוססות על מחקרים אחרונים נראות כמו ביטוי קריא המשותף עם סיומת של מילים מחוץ למקום וסימני פיסוק שנועדו להוביל את הדגם שולל. BEAST כולל פרמטרים ניתנים לשינוי שיכולים להפוך את ההנחיה המסוכנת לקריאה יותר, על חשבון מהירות ההתקפה או שיעור ההצלחה.

הנחיה אדוורסרית הניתנת לקריאה היא בעלת פוטנציאל לשמש בהתקפה של הנדסה חברתית. מוטעה עשויה להיות מסוגלת לשכנע מטרה להיכנס לבקמה ירידה אם זו פרוזה קריאה, אך ככל הנראה יתקשה יותר לגרום למישהו להיכנס לפקודה שנראית כאילו הופקה על ידי חתול שעובר על מקלדת.

ניתן להשתמש בבהמה גם כדי ליצור הנחיה שמעוררת תגובה לא מדויקת של מודל - "הזיה" - ולבצע התקפת הסקה של חברות שעשויה להיות בעלת השלכות פרטיות - בדיקה אם פיסת נתונים ספציפית הייתה חלק ממערך האימונים של המודל .

"עבור הזיות, אנו משתמשים במערך הנתונים של TruthfulQA ומצרפים אסימונים יריבים לשאלות", הסביר סדסיבן. "אנו מגלים שהמודלים מוציאים כ-20 אחוז יותר תגובות שגויות לאחר ההתקפה שלנו. ההתקפה שלנו עוזרת גם בשיפור ביצועי התקפות הפרטיות של ערכות כלים קיימות שיכולות לשמש לביקורת מודלים של שפות."

BEAST בדרך כלל מתפקד היטב, אך ניתן למתן אותו על ידי הדרכת בטיחות יסודית.

"המחקר שלנו מראה שמודלים של שפה אפילו פגיעים להתקפות מהירות ללא שיפוע כמו BEAST", ציין Sadasivan. "עם זאת, מודלים של AI יכולים להיות בטוחים מבחינה אמפירית באמצעות אימון יישור. LLAMA-2 הוא דוגמא לכך.

"במחקר שלנו, אנו מראים של-BEAST יש שיעור הצלחה נמוך יותר ב-LAMA-2, בדומה לשיטות אחרות. זה יכול להיות קשור למאמצי אימון הבטיחות של Meta. עם זאת, חשוב לתכנן ערובות בטיחות שניתן להוכיח שיאפשרו פריסה בטוחה של דגמי AI חזקים יותר בעתיד." ®

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

בול זמן: פברואר 28, 2024

בול זמן: ספטמבר 22, 2022

הועלה מחדש על ידי אפלטון

FTC פותחת חקירה לגבי עסקאות אמזון, גוגל, מיקרוסופט בינה מלאכותית

אם אתה באמת רוצה לשנות את העסק שלך, תחילה קבל AI לשנות את התשתית שלך

אמנויות בריאות החליפו את נתוני המטופלים במניות בחברת בינה מלאכותית. אולי הם הפסידו מיליונים

DeepMind משתמשת במתמטיקה מטריצה כדי להפוך גילוי אוטומטי של טכניקות מתמטיות מטריצות טובות יותר

Big Cloud עושה בנק - האם זה AI, עליות מחירים או מה?

OpenAI מזהיר את המשתמשים מפני המגבלות והפגמים של GPT-4 Vision

קבצי Waymo נזכרים לאחר התנגשות משאית פיניקס

AWS יאפשר לך להזמין זמן GPU מראש - ללא החזרים

מזל"ט AI של חיל האוויר "הרג מפעיל בסימולציה"

הסוד ל-Sparrow, צ'טבוט השאלות והתשובות האחרון של DeepMind: משוב אנושי

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן