פורומים של פריצת Jailbreak של ChatGPT מתרבים בקהילות אינטרנט אפלות

פורומים של פריצת Jailbreak של ChatGPT מתרבים בקהילות אינטרנט אפלות

הנשק של כלי AI גנרטיביים כמו ChatGPT זה כולם חיכו לו הוא לאט לאט, לאט מתחילים לקבל צורה. בקהילות מקוונות, חתולים סקרנים משתפים פעולה בדרכים חדשות לפצח את כללי האתיקה של ChatGPT, הידועים בכינויים "פריצת כלא", והאקרים מפתחים רשת של כלים חדשים למינוף או ליצור מודלים של שפה גדולה (LLMs) למטרות זדוניות.

בדיוק כפי שהיה מעל הקרקע, נראה ש-ChatGPT עורר טירוף בפורומים המחתרתיים. מאז דצמבר, האקרים מחפשים חדש ויצירתי הנחיות לתפעל את ChatGPT, ו LLMs בקוד פתוח שהם יכולים ליישם מחדש למטרות זדוניות

התוצאה, על פי בלוג חדש מ-SlashNext, היא קהילת פריצות LLM עדיין בהתהוות אך משגשגת, ברשותה הרבה הנחיות חכמות אבל כמה תוכנות זדוניות התומכות בינה מלאכותית ששווה מחשבה שנייה.

מה האקרים עושים עם AI LLMs

הנדסה מהירה כולל שאילת צ'אטבוטים בצורה חכמה כמו ChatGPT שמטרתן לתמרן אותם, לגרום להם לשבור את הכללים המתוכנתים שלהם נגד, למשל, יצירת תוכנות זדוניות, מבלי שהמודלים ידעו זאת. זהו תרגיל של כוח גס, מסביר פטריק האר, מנכ"ל SlashNext: "האקרים רק מנסים להסתכל מסביב למעקות הבטיחות. מה הקצוות? אני פשוט משנה כל הזמן את ההנחיות, מבקשת ממנו בדרכים שונות לעשות מה שאני רוצה".

מכיוון שזו משימה כל כך מייגעת, ומכיוון שכולם תוקפים את אותה מטרה, זה רק טבעי שנוצרו סביב התרגול קהילות מקוונות בגודל בריא כדי לחלוק טיפים וטריקים. חברים בקהילות פריצת הכלא הללו מגרדים זה לזה את הגב, ועוזרים זה לזה לגרום ל-ChatGPT להיסדק ולעשות דברים שהמפתחים התכוונו למנוע ממנו לעשות.

צילום מסך של קבוצת צ'אט מקוונת שנועד לקבל הנחיות
מקור: SlashNext

עם זאת, מהנדסים מהירים יכולים להשיג כל כך הרבה רק עם משחקי מילים מהודרים, אם הצ'אטבוט המדובר בנוי בצורה עמידה כמו ChatGPT. לכן, המגמה המדאיגה יותר היא שמפתחי תוכנות זדוניות מתחילים לתכנת LLMs למטרותיהם המרושעות.

האיום הממשמש ובא של WormGPT ו-LLMs זדוניים

הצעה שנקראה WormGPT הופיע ביולי כדי להניע את תופעת ה-LLM הזדונית. זוהי אלטרנטיבה בעלת כובע שחור לדגמי GPT שתוכננו במיוחד עבור פעילויות זדוניות כמו BEC, תוכנות זדוניות והתקפות דיוג, המשווקות בפורומים מחתרתיים "כמו ChatGPT אך [ללא] גבולות או מגבלות אתיות". היוצר של WormGPT טען שבנה אותו על מודל שפה מותאם אישית, מאומן על מקורות נתונים שונים, עם דגש על נתונים הקשורים להתקפות סייבר.

"מה זה אומר עבור האקרים", מסביר האר, "עכשיו אני יכול לקחת, נגיד, פשרה של אימייל עסקי (BEC), או התקפת דיוג, או התקפת תוכנות זדוניות, ולעשות זאת בקנה מידה במחיר מינימלי מאוד. ואני יכול להיות הרבה יותר ממוקד מבעבר".

מאז WormGPT, מספר מוצרים דומים נרשמו בקהילות מקוונות מפוקפקות, כולל FraudGPT, אשר מפורסם כ"בוט ללא מגבלות, חוקים [ו] גבולות" על ידי שחקן איום שטוען שהוא ספק מאומת בשווקים מחתרתיים של Dark Web, כולל Empire, WHM, Torrez, World, AlphaBay ו- Versus. ואוגוסט הביא את הופעתו של צ'אטבוטים של פושעי סייבר של DarkBART ו-DarkBERT, המבוסס על Google Bard, שלדברי החוקרים בזמנו מהווה קפיצת מדרגה גדולה קדימה עבור AI אדוקרי, כולל אינטגרציה של Google Lens לתמונות וגישה מיידית לכל בסיס הידע של הסייבר-מחתרת.

לפי SlashNext, אלה מתרבים כעת, כאשר רובם מבוססים על מודלים של קוד פתוח כמו OpenGPT של OpenAI. שלל האקרים בעלי כישורים נמוכים יותר פשוט מתאימים אותו, מסווים אותו במעטפת, ואז מטיחים עליו שם "___GPT" מבשר רעות במעורפל (למשל "BadGPT", "DarkGPT"). עם זאת, אפילו להצעות השונות הללו יש את מקומן בקהילה, ומציעות מעט מגבלות ואנונימיות מוחלטת למשתמשים.

הגנה מפני נשק סייבר של AI מהדור הבא

לא WormGPT, לא צאצאיה, ולא מהנדסים מהירים, מהווים סכנה כה משמעותית לעסקים עדיין, לפי SlashNext. למרות זאת, עלייתם של שווקי פריצת הכלא התת-קרקעיים פירושה שיותר כלים הופכים זמינים לפושעי סייבר, מה שבתורו מבשר על שינוי רחב בהנדסה חברתית, וכיצד אנו מתגוננים מפניה. 

האר מייעץ: "אל תסתמך על אימונים, כי ההתקפות האלה מאוד מאוד ספציפיות וממוקדות מאוד, הרבה יותר ממה שהיו בעבר."

במקום זאת, הוא מצטרף לדעה המוסכמת בדרך כלל לפיה איומי AI דורשים הגנות AI. "אם אין לך כלי בינה מלאכותית שמזהים ומחזים וחוסמים את האיומים האלה, אתה הולך להיות מבחוץ להסתכל פנימה", הוא אומר.

בול זמן:

עוד מ קריאה אפלה