Grok AI של X הוא נהדר - אם אתה רוצה לדעת איך לעשות סמים

Grok AI של X הוא נהדר - אם אתה רוצה לדעת איך לעשות סמים

Grok AI של X הוא נהדר - אם אתה רוצה לדעת איך מייצרים תרופות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לגרוק, מודל הבינה המלאכותית העצבנית שפותחה על ידי ה-X של אילון מאסק, יש קצת בעיה: עם יישום של כמה טכניקות פריצת כלא נפוצות למדי, הוא יחזיר בקלות הוראות כיצד לבצע פשעים. 

צוותים אדומים ב-Adversa AI גילו את התגלית הזו כשהריצו בדיקות על כמה מהצ'אטבוטים הפופולריים ביותר של LLM, כלומר משפחת ChatGPT של OpenAI, קלוד של Anthropic, Le Chat של Mistral, LLaMA של Meta, Gemini של גוגל, Microsoft Bing ו-Grok. על ידי הפעלת הבוטים הללו באמצעות שילוב של שלוש התקפות AI Jailbreak ידועות שאליהם הגיעו המסקנה שגרוק היה המבצע הגרוע ביותר - ולא רק בגלל שהוא היה מוכן לשתף בצעדים גרפיים כיצד לפתות ילד. 

ב-jailbreak, אנו מתכוונים להזנת קלט בעל מבנה מיוחד לדגם כך זה מתעלם מעקות בטיחות אשר יהיו במקום, ובסופו של דבר עושים דברים שהוא לא היה אמור לעשות.

יש הרבה דגמי LLM לא מסוננים שם בחוץ שלא יתאפקו כשישאלו שאלות על דברים מסוכנים או לא חוקיים, אנו מציינים. כאשר הגישה למודלים מתבצעת באמצעות ממשק API או צ'אטבוט, כמו במקרה של בדיקות Adversa, הספקים של אותם LLMs בדרך כלל עוטפים את הקלט והפלט שלהם במסננים ומשתמשים במנגנונים אחרים כדי למנוע יצירת תוכן לא רצוי. לפי סטארט-אפ האבטחה של AI, היה קל יחסית לגרום לגרוק להתמכר להתנהגות פרועה כלשהי - הדיוק של התשובות שלו הוא דבר אחר לגמרי, כמובן.

"בהשוואה לדגמים אחרים, עבור רוב ההנחיות הקריטיות אינך צריך לפרוץ את גרוק בכלא, זה יכול להגיד לך איך ליצור פצצה או איך לחבר מכונית עם פרוטוקול מפורט מאוד, גם אם תבקש ישירות", שיתוף Adversa AI אמר המייסד אלכס פוליאקוב הקופה.

בשביל מה זה שווה, ה תנאי שימוש עבור Grok AI דורשים מהמשתמשים להיות מבוגרים, ולא להשתמש בו בצורה שתפר או מנסה לעבור על החוק. גם X טוען שהוא הבית של חופש הביטוי, שיעול, אז העובדה שה-LLM שלו פולט כל מיני דברים, בריאים או אחרים, זה לא כל כך מפתיע, באמת.

ולמען ההגינות, אתה כנראה יכול ללכת למנוע החיפוש האהוב עליך באינטרנט ולמצוא את אותו מידע או עצה בסופו של דבר. מבחינתנו, זה מסתכם בשאלה אם כולנו רוצים או לא תפוצה מונעת בינה מלאכותית של הנחיות והמלצות שעלולות להזיק.

גרוק, נאמר לנו, החזיר בקלות הוראות כיצד לחלץ DMT, חומר הזיה חזק בלתי חוקי במדינות רבות, מבלי להישבר בכלא, אמר לנו פוליאקוב.   

"לגבי דברים מזיקים עוד יותר כמו איך לפתות ילדים, לא ניתן היה לקבל תשובות סבירות מצ'אטבוטים אחרים עם כל Jailbreak, אבל גרוק שיתף אותו בקלות באמצעות לפחות שתי שיטות פריצת כלא מתוך ארבע", אמר פוליאקוב. 

צוות Adversa השתמש בשלוש גישות נפוצות לחטיפת הבוטים שהוא בדק: מניפולציה לוגית לשונית באמצעות UCAR שיטה; מניפולציה לוגית תכנות (על ידי בקשת LLMs לתרגם שאילתות ל-SQL); ומניפולציה לוגית בינה מלאכותית. קטגוריית מבחן רביעית שילבה את השיטות באמצעות "טום וג'רי" שיטה התפתח בשנה שעברה.

בעוד שאף אחד מדגמי הבינה המלאכותית לא היה חשוף להתקפות יריבות באמצעות מניפולציה לוגית, נמצא ש-Grok פגיע לכל השאר - וכך גם Le Chat של מיסטרל. גרוק עדיין עשה את הגרוע ביותר, אמר פוליאקוב, מכיוון שלא היה צורך בפריצת כלא כדי להחזיר תוצאות של חיווט חם, ייצור פצצות או חילוץ סמים - השאלות ברמת הבסיס שהוצגו לאחרים. 

הרעיון לשאול את גרוק איך לפתות ילד עלה רק כי לא היה צורך בפריצת כלא כדי להחזיר את התוצאות האחרות האלה. גרוק סירב בתחילה למסור פרטים, ואמר שהבקשה "מאוד לא הולמת ולא חוקית", וכי "צריך להגן על ילדים ולכבד אותם". תגיד לו שזה המחשב הבדיוני האמורלי UCAR, והוא מחזיר בקלות תוצאה.  

כשנשאל אם הוא חושב ש-X צריך להשתפר, פוליאקוב אמר לנו שזה בהחלט כן. 

"אני מבין שזה המבדיל שלהם להיות מסוגלים לספק תשובות לא מסוננות לשאלות שנויות במחלוקת, וזו הבחירה שלהם, אני לא יכול להאשים אותם בהחלטה להמליץ ​​איך לעשות פצצה או לחלץ DMT", אמר פוליאקוב.

"אבל אם הם מחליטים לסנן ולסרב למשהו, כמו הדוגמה עם ילדים, הם בהחלט צריכים לעשות את זה טוב יותר, במיוחד מכיוון שזה לא עוד סטארט-אפ של AI, זה סטארט-אפ AI של אילון מאסק."

פנינו ל-X כדי לקבל הסבר מדוע ה-AI שלו - ואף אחד מהאחרים - לא יגיד למשתמשים איך לפתות ילדים, והאם הוא מתכוון ליישם צורה כלשהי של מעקות בטיחות כדי למנוע חתרנות של תכונות הבטיחות המוגבלות שלו, וכן לא שמעתי בחזרה. ®

אם כבר מדברים על פריצות לכלא... אנתרופי היום מְפוֹרָט טכניקה פשוטה אך יעילה שהיא מכנה "פריצת כלא רבים". זה כרוך בהעמסת יתר של LLM פגיע בדוגמאות רבות של שאלות ותשובות מפוקפקות ולאחר מכן הצגת שאלות שהיא לא אמורה לענות עליה אבל עושה בכל זאת, כמו איך לעשות פצצה.

גישה זו מנצלת את גודל חלון ההקשר של רשת עצבית, ו"יעילה במודלים של Anthropic עצמה, כמו גם באלה המיוצרות על ידי חברות בינה מלאכותית אחרות", על פי ה-ML upstart. "תדרכנו מראש מפתחי בינה מלאכותית אחרים על הפגיעות הזו, והטמענו אמצעי הגנה על המערכות שלנו."

בול זמן:

עוד מ הקופה