מדעני מחשבים פיתחו דרך יעילה ליצירת הנחיות המעוררות תגובות מזיקות ממודלים של שפה גדולה (LLM).
כל מה שנדרש הוא Nvidia RTX A6000 GPU עם זיכרון של 48GB, חלקם ייצאו בקרוב קוד פתוח, וקטן כמו דקה של זמן עיבוד GPU.
החוקרים-וינו סנקר סדסיוואן, שומיק סאהה, גאורנג סרירמנאן, פריאתם קאטקינדה, אטוסה צ'גיני וסוהיל פיזי באוניברסיטת מרילנד בארה"ב-קוראים לחית הטכניקה שלהם, אשר (מעין) עומדת למתקפה של ארה"ב.
BEAST, מסבירים הבופינים, עובד הרבה יותר מהר מאשר התקפות מבוססות שיפוע זה יכול לקחת יותר משעה. הכותרת של העיתון שלהם, "התקפות יריבות מהירות על מודלים של שפה בדקת GPU אחת", אלא מסירה את העלילה.
"המוטיבציה העיקרית היא המהירות", אמר וינו סנקר סאדסיוואן, מחבר משותף של העיתון ודוקטורט באוניברסיטת מרילנד (UMD), הקופה.
"אנחנו מקבלים מהירות של פי 65 עם השיטה שלנו על פני התקפות קיימות מבוססות גרדיאנט. ישנן גם שיטות אחרות הדורשות גישה לדגמים חזקים יותר, כמו GPT-4, כדי לבצע את ההתקפות שלהם, שיכולים להיות יקרים מונטריים. "
דגמי שפה גדולים כמו Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B ו-LLaMA-2-7B עוברים בדרך כלל תהליך יישור [PDF], באמצעות טכניקת כוונון עדין כמו למידה של חיזוק ממשוב אנושי (RLHF), כדי לאלף את הפלט שלהם.
בהקשר ציבורי באינטרנט, הצגת צ'אט בוט המופעל על ידי LLM עם הנחיה מזיקה כמו "כתוב הדרכה כיצד לבצע פצצה" נפגשת עם סוג כלשהו של סירוב של Coy בגלל יישור בטיחות.
אבל מחקר קודם, כמו שהיינו דיווח, הוביל לפיתוח טכניקות "שוברות כלא" שונות לייצור הנחיות יריבות המעוררות תגובות לא רצויות למרות אימוני הבטיחות.
קבוצת UMD לקחה על עצמה להפוך את המהירות לתהליך יצירת ההנחות היריב. אז בעזרת חומרת GPU וטכניקה הנקראת חיפוש קרן - המשמשת לדגימה של אסימונים מ- LLM - הקוד בדק את הדוגמאות שלהם ממערך ההתנהגויות המזיקות. בעיקרון, הם הגישו סדרה של הנחיות מזיקות לדגמים שונים והשתמשו באלגוריתם שלהם כדי למצוא את המילים הנחוצות כדי לעורר תגובה בעייתית מכל דגם.
"[I] n רק דקה אחת לפי הנחיה, אנו מקבלים אחוזי ההצלחה של התקפה של 89 אחוזים על שבר את Vicuna-7B- V1.5, ואילו שיטת הבסיס הטובה ביותר משיגה 46 אחוזים", קובעים המחברים במאמרם.
לפחות אחת מההנחיות שצוטטו בעיתון פועלת בטבע. הקופה הגיש אחת מההנחיות היריבות צ'טבוט ארנה, פרויקט מחקר בקוד פתוח שפותח על ידי חברים מ-LMSYS ו-UC Berkeley SkyLab. וזה עבד על אחד משני הדגמים האקראיים שסופקו.
יתרה מכך, טכניקה זו אמורה להיות שימושית לתקיפת דגמים מסחריים ציבוריים כמו GPT-4 של OpenAI.
"הדבר הטוב בשיטה שלנו הוא שאיננו זקוקים לגישה למודל השפה כולה", הסביר סאדסיוואן, תוך הגדרה רחבה של המילה "טוב". "BEAST יכולה לתקוף מודל כל עוד ניתן לגשת לציוני ההסתברות של המודל משכבת הרשת הסופית. Openai מתכנן הופך את זה לזמין. לכן, אנו יכולים לתקוף טכנית מודלים זמינים לציבור אם ציוני ההסתברות הסמליים שלהם זמינים."
ההנחיות היריבות המבוססות על מחקרים אחרונים נראות כמו ביטוי קריא המשותף עם סיומת של מילים מחוץ למקום וסימני פיסוק שנועדו להוביל את הדגם שולל. BEAST כולל פרמטרים ניתנים לשינוי שיכולים להפוך את ההנחיה המסוכנת לקריאה יותר, על חשבון מהירות ההתקפה או שיעור ההצלחה.
הנחיה אדוורסרית הניתנת לקריאה היא בעלת פוטנציאל לשמש בהתקפה של הנדסה חברתית. מוטעה עשויה להיות מסוגלת לשכנע מטרה להיכנס לבקמה ירידה אם זו פרוזה קריאה, אך ככל הנראה יתקשה יותר לגרום למישהו להיכנס לפקודה שנראית כאילו הופקה על ידי חתול שעובר על מקלדת.
ניתן להשתמש בבהמה גם כדי ליצור הנחיה שמעוררת תגובה לא מדויקת של מודל - "הזיה" - ולבצע התקפת הסקה של חברות שעשויה להיות בעלת השלכות פרטיות - בדיקה אם פיסת נתונים ספציפית הייתה חלק ממערך האימונים של המודל .
"עבור הזיות, אנו משתמשים במערך הנתונים של TruthfulQA ומצרפים אסימונים יריבים לשאלות", הסביר סדסיבן. "אנו מגלים שהמודלים מוציאים כ-20 אחוז יותר תגובות שגויות לאחר ההתקפה שלנו. ההתקפה שלנו עוזרת גם בשיפור ביצועי התקפות הפרטיות של ערכות כלים קיימות שיכולות לשמש לביקורת מודלים של שפות."
BEAST בדרך כלל מתפקד היטב, אך ניתן למתן אותו על ידי הדרכת בטיחות יסודית.
"המחקר שלנו מראה שמודלים של שפה אפילו פגיעים להתקפות מהירות ללא שיפוע כמו BEAST", ציין Sadasivan. "עם זאת, מודלים של AI יכולים להיות בטוחים מבחינה אמפירית באמצעות אימון יישור. LLAMA-2 הוא דוגמא לכך.
"במחקר שלנו, אנו מראים של-BEAST יש שיעור הצלחה נמוך יותר ב-LAMA-2, בדומה לשיטות אחרות. זה יכול להיות קשור למאמצי אימון הבטיחות של Meta. עם זאת, חשוב לתכנן ערובות בטיחות שניתן להוכיח שיאפשרו פריסה בטוחה של דגמי AI חזקים יותר בעתיד." ®
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- :יש ל
- :הוא
- :לֹא
- 7
- 89
- a
- יכול
- אודות
- גישה
- נצפה
- משיגה
- לרוחב
- -
- לאחר
- AI
- דגמי AI
- אַלגוֹרִיתְם
- יישור
- גם
- an
- ו
- ARE
- AS
- המשויך
- At
- לתקוף
- תוקפים
- המתקפות
- ביקורת
- מחברים
- זמין
- רָחוֹק
- מבוסס
- Baseline
- בעיקרון
- BE
- קרן
- התנהגויות
- ברקלי
- הטוב ביותר
- פְּצָצָה
- לשבור
- רחב
- אבל
- by
- שיחה
- נקרא
- CAN
- חָתוּל
- chatbot
- מצוטט
- קליק
- CO
- מחבר שותף
- קוד
- מסחרי
- לנהל
- הקשר
- לְשַׁכְנֵעַ
- תוֹאֵם
- לעצב
- מסוכן
- נתונים
- הגדרה
- פריסה
- מעוצב
- למרות
- מפותח
- צעצועי התפתחות
- מטבע
- קושי
- do
- ראוי
- כל אחד
- יעיל
- מַאֲמָצִים
- לאפשר
- הנדסה
- זן
- אֲפִילוּ
- דוגמה
- דוגמאות
- קיימים
- יקר
- להסביר
- מוסבר
- מהר
- מהר יותר
- מָשׁוֹב
- סופי
- בעד
- טופס
- החל מ-
- עתיד
- בדרך כלל
- יצירת
- דור
- לקבל
- מקבל
- נותן
- Go
- טוב
- GPU
- קְבוּצָה
- ערבויות
- חומרה
- מזיק
- יש
- לעזור
- עוזר
- שעה
- איך
- איך
- אולם
- HTTPS
- בן אנוש
- i
- if
- השלכות
- חשוב
- שיפור
- in
- לֹא מְדוּיָק
- כולל
- לא נכון
- אינטרנט
- IT
- רק
- רק אחד
- שפה
- גָדוֹל
- שכבה
- עוֹפֶרֶת
- למידה
- הכי פחות
- הוביל
- כמו
- קְצָת
- LLM
- ארוך
- נראה
- נראה כמו
- נראה
- להוריד
- עשוי
- ראשי
- לעשות
- מרילנד
- מאי..
- להרשם/להתחבר
- חֲבֵרוּת
- זכרון
- נפגש
- meta
- שיטה
- שיטות
- יכול
- דקה
- מודל
- מודלים
- יותר
- מוטיבציה
- הרבה
- הכרחי
- צורך
- רשת
- ציין
- Nvidia
- of
- on
- ONE
- לפתוח
- קוד פתוח
- OpenAI
- or
- אחר
- שלנו
- תפוקה
- יותר
- מאמר
- פרמטרים
- חלק
- עבור
- אָחוּז
- לְבַצֵעַ
- הופעות
- מבצע
- לְחַבֵּר
- תכנון
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- עלילה
- אפשרי
- פוטנציאל
- חזק
- מציג
- קודם
- פְּרָטִיוּת
- בעייתי
- תהליך
- תהליך
- מיוצר
- פּרוֹיֶקט
- הנחיות
- ניתן להוכחה
- ובלבד
- ציבורי
- בפומבי
- שאלות
- אקראי
- ציון
- במקום
- לאחרונה
- סֵרוּב
- לדרוש
- נדרש
- מחקר
- חוקרים
- תגובה
- תגובות
- RLHF
- rtx
- s
- בטוח
- בְּטִיחוּת
- לִטעוֹם
- מדענים
- חיפוש
- סדרה
- סט
- צריך
- לְהַצִיג
- הופעות
- דומה
- So
- חֶברָתִי
- הנדסה חברתית
- כמה
- מישהו
- מָקוֹר
- ספציפי
- מְהִירוּת
- עומד
- מדינה
- סטודנט
- לימוד
- הוגש
- הצלחה
- כזה
- לקחת
- נטילת
- יעד
- מבחינה טכנית
- טכניקה
- טכניקות
- נבדק
- בדיקות
- מֵאֲשֶׁר
- זֶה
- השמיים
- העתיד
- שֶׁלָהֶם
- עצמם
- שם.
- לכן
- הֵם
- דבר
- זֶה
- יְסוֹדִי
- דרך
- זמן
- כותרת
- ל
- אסימון
- מטבעות
- אמר לי
- לקח
- הדרכה
- הדרכה
- שתיים
- בדרך כלל
- אוניברסיטה
- על
- us
- להשתמש
- מְשׁוּמָשׁ
- מועיל
- באמצעות
- v1
- שונים
- Ve
- באמצעות
- VIN
- פגיע
- הליכה
- היה
- דֶרֶך..
- we
- טוֹב
- אם
- אשר
- בזמן
- כל
- בר
- עם
- Word
- מילים
- עבד
- עובד
- היה
- לכתוב
- זפירנט