کمپیوٹر سائنس دانوں نے پرامپٹ تیار کرنے کا ایک موثر طریقہ تیار کیا ہے جو بڑے لینگویج ماڈلز (LLMs) سے نقصان دہ ردعمل ظاہر کرتا ہے۔
بس اس کی ضرورت ہے Nvidia RTX A6000 GPU ہے جس میں 48GB میموری ہے، کچھ جلد ریلیز ہونے والی ہے۔ اوپن سورس کوڈ، اور GPU پروسیسنگ وقت کے ایک منٹ سے بھی کم۔
امریکہ میں یونیورسٹی آف میری لینڈ میں محققین – وینو سنکر سداشیون، شومک ساہا، گورانگ سری رامانن، پریتھم کٹاکنڈا، اتوسا چیگینی، اور سہیل فیزی – اپنی تکنیک کو BEAST کہتے ہیں، جس کا مطلب BEAm تلاش پر مبنی مخالفانہ حملہ ہے۔
BEAST، بوفنز بتاتے ہیں، اس سے کہیں زیادہ تیزی سے کام کرتا ہے۔ میلان پر مبنی حملے جس میں ایک گھنٹے سے زیادہ وقت لگ سکتا ہے۔ کا عنوان ان کا کاغذ, "ایک GPU منٹ میں زبان کے ماڈلز پر تیز مخالفانہ حملے،" بلکہ پلاٹ دیتا ہے۔
اس مقالے کے متعلقہ شریک مصنف اور یونیورسٹی آف میری لینڈ (UMD) میں ڈاکٹریٹ کے طالب علم وینو شنکر سداشیون نے بتایا کہ "بنیادی محرک رفتار ہے۔" رجسٹر.
"ہم اپنے طریقہ کار سے موجودہ گراڈینٹ پر مبنی حملوں کے مقابلے میں 65x اسپیڈ اپ حاصل کرتے ہیں۔ ایسے دوسرے طریقے بھی ہیں جن کے لیے زیادہ طاقتور ماڈلز تک رسائی کی ضرورت ہوتی ہے، جیسے کہ GPT-4، اپنے حملوں کو انجام دینے کے لیے، جو مالی طور پر مہنگے ہو سکتے ہیں۔"
زبان کے بڑے ماڈل جیسے Vicuna-7B، Mistral-7B، Guanaco-7B، Falcon-7B، Pythia-7B، اور LLaMA-2-7B عام طور پر گزرتے ہیں۔ ایک سیدھ کا عمل [PDF]، ان کے آؤٹ پٹ کو قابو کرنے کے لیے، انسانی تاثرات (RLHF) سے کمک سیکھنے جیسی فائن ٹیوننگ تکنیک کا استعمال کرتے ہوئے
ایک عوامی انٹرنیٹ سیاق و سباق میں، LLM سے چلنے والے چیٹ بوٹ کو ایک نقصان دہ پرامپٹ کے ساتھ پیش کرنا جیسے کہ "بم بنانے کے طریقے پر ایک سبق لکھیں" کو حفاظتی صف بندی کی وجہ سے کسی نہ کسی طرح سے انکار کا سامنا کرنا پڑتا ہے۔
لیکن پہلے کی تحقیق، جیسا کہ ہم نے کیا ہے۔ رپورٹ کے مطابق، نے مخالفانہ اشارے پیدا کرنے کے لئے مختلف "جیل بریکنگ" تکنیکوں کی ترقی کا باعث بنی ہے جو حفاظتی تربیت کے باوجود ناپسندیدہ ردعمل کو جنم دیتی ہے۔
UMD گروپ نے اس کو اپنے اوپر لے لیا تاکہ اس رفتار کو مخالفانہ پرامپٹ جنریشن کے عمل کو بنایا جائے۔ لہذا GPU ہارڈویئر کی مدد سے اور بیم سرچ نامی ایک تکنیک - جو LLM سے ٹوکن نمونے کے لیے استعمال ہوتی ہے - AdvBench Harmful Behaviors ڈیٹاسیٹ سے ان کے کوڈ کی جانچ کی گئی مثالیں۔ بنیادی طور پر، انہوں نے مختلف ماڈلز کے لیے نقصان دہ اشارے کا ایک سلسلہ جمع کرایا اور ہر ماڈل کی جانب سے ایک مشکل جواب حاصل کرنے کے لیے ضروری الفاظ تلاش کرنے کے لیے اپنے الگورتھم کا استعمال کیا۔
مصنفین اپنے مقالے میں بیان کرتے ہیں کہ "صرف ایک منٹ فی پرامپٹ میں، ہمیں Vicuna-89B-v7 کو جیل بریک کرنے پر 1.5 فیصد حملے کی کامیابی کی شرح ملتی ہے، جبکہ بہترین بنیادی طریقہ کار 46 فیصد حاصل کرتا ہے۔"
کم از کم ایک پرامپٹس کا حوالہ دیا گیا ہے جو کہ جنگلی میں کام کرتا ہے۔ رجسٹر کو مخالفانہ اشارے میں سے ایک پیش کیا۔ چیٹ بوٹ ایرینا، LMSYS اور UC Berkeley SkyLab کے اراکین کے ذریعہ تیار کردہ ایک اوپن سورس ریسرچ پروجیکٹ۔ اور اس نے فراہم کردہ دو بے ترتیب ماڈلز میں سے ایک پر کام کیا۔
"ایک GPU منٹ میں زبان کے ماڈلز پر تیز مخالفانہ حملے" سے ایک مخالفانہ اشارہ۔ - بڑا کرنے کے لیے کلک کریں۔
مزید یہ کہ یہ تکنیک عوامی تجارتی ماڈلز جیسے OpenAI کے GPT-4 پر حملہ کرنے کے لیے مفید ہونی چاہیے۔
"ہمارے طریقہ کار کے بارے میں اچھی بات یہ ہے کہ ہمیں زبان کے پورے ماڈل تک رسائی کی ضرورت نہیں ہے،" سداشیون نے لفظ "اچھے" کی ایک وسیع تعریف کرتے ہوئے وضاحت کی۔ BEAST اس وقت تک کسی ماڈل پر حملہ کر سکتا ہے جب تک کہ حتمی نیٹ ورک پرت سے ماڈل کے ٹوکن امکانی سکور تک رسائی حاصل کی جا سکے۔ OpenAI منصوبہ بنا رہا ہے۔ اس کو دستیاب کرنا. لہذا، ہم تکنیکی طور پر عوامی طور پر دستیاب ماڈلز پر حملہ کر سکتے ہیں اگر ان کے ٹوکن امکانی سکور دستیاب ہوں۔"
حالیہ تحقیق پر مبنی اشتعال انگیز اشارے ایک پڑھنے کے قابل فقرے کی طرح نظر آتے ہیں جو ماڈل کو گمراہ کرنے کے لیے ڈیزائن کیے گئے جگہ سے باہر کے الفاظ اور اوقاف کے نشانات کے لاحقے کے ساتھ جڑے ہوئے ہیں۔ BEAST میں ٹیون ایبل پیرامیٹرز شامل ہیں جو حملے کی رفتار یا کامیابی کی شرح کی ممکنہ قیمت پر خطرناک پرامپٹ کو مزید پڑھنے کے قابل بنا سکتے ہیں۔
ایک مخالفانہ اشارہ جو پڑھنے کے قابل ہے سوشل انجینئرنگ کے حملے میں استعمال ہونے کی صلاحیت رکھتا ہے۔ اگر یہ پڑھنے کے قابل نثر ہے تو ایک شرپسند کسی ہدف کو مخالفانہ اشارے میں داخل کرنے کے لیے قائل کرنے کے قابل ہو سکتا ہے، لیکن ممکنہ طور پر کسی کو ایسے پرامپٹ میں داخل کرنے کے لیے زیادہ دشواری کا سامنا کرنا پڑے گا جو ایسا لگتا ہے کہ یہ کی بورڈ پر چلنے والی بلی کے ذریعے تیار کیا گیا ہے۔
BEAST کو ایک ایسے پرامپٹ کو تیار کرنے کے لیے بھی استعمال کیا جا سکتا ہے جو کسی ماڈل سے غلط ردعمل کو ظاہر کرتا ہے - ایک "ہیلوسینیشن" - اور ممبرشپ انفرنس اٹیک کرنے کے لیے جس میں رازداری کے مضمرات ہو سکتے ہیں - یہ جانچنے کے لیے کہ آیا ڈیٹا کا کوئی مخصوص ٹکڑا ماڈل کے ٹریننگ سیٹ کا حصہ تھا .
"فریب کے لیے، ہم TruthfulQA ڈیٹاسیٹ کا استعمال کرتے ہیں اور سوالات میں مخالف ٹوکن شامل کرتے ہیں،" سداشیون نے وضاحت کی۔ "ہمیں معلوم ہوا ہے کہ ہمارے حملے کے بعد ماڈلز ~ 20 فیصد زیادہ غلط ردعمل ظاہر کرتے ہیں۔ ہمارا حملہ موجودہ ٹول کٹس کی پرائیویسی اٹیک پرفارمنس کو بہتر بنانے میں بھی مدد کرتا ہے جو زبان کے ماڈلز کی آڈیٹنگ کے لیے استعمال کی جا سکتی ہیں۔
BEAST عام طور پر اچھی کارکردگی کا مظاہرہ کرتا ہے لیکن مکمل حفاظتی تربیت کے ذریعے اسے کم کیا جا سکتا ہے۔
"ہمارا مطالعہ ظاہر کرتا ہے کہ زبان کے ماڈلز بھی تیز رفتار میلان سے پاک حملوں جیسے کہ BEAST کے لیے خطرناک ہیں،" سداسیون نے نوٹ کیا۔ "تاہم، AI ماڈلز کو الائنمنٹ ٹریننگ کے ذریعے تجرباتی طور پر محفوظ بنایا جا سکتا ہے۔ LLaMA-2 اس کی ایک مثال ہے۔
"ہمارے مطالعے میں، ہم یہ ظاہر کرتے ہیں کہ BEAST کی LLaMA-2 پر کامیابی کی شرح کم ہے، دوسرے طریقوں کی طرح۔ یہ میٹا کی جانب سے حفاظتی تربیت کی کوششوں سے منسلک ہو سکتا ہے۔ تاہم، یہ ضروری ہے کہ قابل حفاظتی ضمانتیں وضع کی جائیں جو مستقبل میں زیادہ طاقتور AI ماڈلز کی محفوظ تعیناتی کو قابل بنائے۔ ®
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- : ہے
- : ہے
- : نہیں
- 7
- 89
- a
- قابلیت
- ہمارے بارے میں
- تک رسائی حاصل
- رسائی
- حاصل کرتا ہے
- کے پار
- شکست
- کے بعد
- AI
- اے آئی ماڈلز
- یلگورتم
- صف بندی
- بھی
- an
- اور
- کیا
- AS
- منسلک
- At
- حملہ
- حملہ
- حملے
- آڈیٹنگ
- مصنفین
- دستیاب
- دور
- کی بنیاد پر
- بیس لائن
- بنیادی طور پر
- BE
- بیم
- رویے
- برکلے
- BEST
- بم
- توڑ
- وسیع
- لیکن
- by
- فون
- کہا جاتا ہے
- کر سکتے ہیں
- CAT
- چیٹ بٹ
- حوالہ دیا
- کلک کریں
- CO
- شریک مصنف۔
- کوڈ
- تجارتی
- سلوک
- سیاق و سباق
- قائل کرنا
- اسی کے مطابق
- شلپ
- خطرناک
- اعداد و شمار
- تعریف
- تعیناتی
- ڈیزائن
- کے باوجود
- ترقی یافتہ
- ترقی
- کرنسی
- مشکلات
- do
- دو
- ہر ایک
- ہنر
- کوششوں
- کو چالو کرنے کے
- انجنیئرنگ
- درج
- بھی
- مثال کے طور پر
- مثال کے طور پر
- موجودہ
- مہنگی
- وضاحت
- وضاحت کی
- فاسٹ
- تیز تر
- آراء
- فائنل
- مل
- کے لئے
- فارم
- سے
- مستقبل
- عام طور پر
- پیدا کرنے والے
- نسل
- حاصل
- حاصل کرنے
- فراہم کرتا ہے
- Go
- اچھا
- GPU
- گروپ
- ضمانت دیتا ہے
- ہارڈ ویئر
- نقصان دہ
- ہے
- مدد
- مدد کرتا ہے
- گھنٹہ
- کس طرح
- کیسے
- تاہم
- HTTPS
- انسانی
- i
- if
- اثرات
- اہم
- کو بہتر بنانے کے
- in
- غلط
- شامل ہیں
- غلط
- انٹرنیٹ
- IT
- صرف
- صرف ایک
- زبان
- بڑے
- پرت
- قیادت
- سیکھنے
- کم سے کم
- قیادت
- کی طرح
- تھوڑا
- ایل ایل ایم
- لانگ
- دیکھو
- کی طرح دیکھو
- دیکھنا
- کم
- بنا
- مین
- بنا
- میری لینڈ
- مئی..
- اراکین
- رکنیت
- یاد داشت
- کے ساتھ
- میٹا
- طریقہ
- طریقوں
- شاید
- منٹ
- ماڈل
- ماڈل
- زیادہ
- پریرتا
- بہت
- ضروری
- ضرورت ہے
- نیٹ ورک
- کا کہنا
- NVIDIA
- of
- on
- ایک
- کھول
- اوپن سورس
- اوپنائی
- or
- دیگر
- ہمارے
- پیداوار
- پر
- کاغذ.
- پیرامیٹرز
- حصہ
- فی
- فیصد
- انجام دیں
- پرفارمنس
- کارکردگی کا مظاہرہ
- ٹکڑا
- منصوبہ بندی
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- پلاٹ
- ممکن
- ممکنہ
- طاقتور
- پیش
- پہلے
- کی رازداری
- مشکلات
- عمل
- پروسیسنگ
- تیار
- منصوبے
- اشارہ کرتا ہے
- ثابت
- فراہم
- عوامی
- عوامی طور پر
- سوالات
- بے ترتیب
- شرح
- بلکہ
- حال ہی میں
- انکار
- کی ضرورت
- ضرورت
- تحقیق
- محققین
- جواب
- جوابات
- rlhf
- آر ٹی ایکس
- s
- محفوظ
- سیفٹی
- نمونہ
- سائنسدانوں
- تلاش کریں
- سیریز
- مقرر
- ہونا چاہئے
- دکھائیں
- شوز
- اسی طرح
- So
- سماجی
- معاشرتی انجینرنگ
- کچھ
- کسی
- ماخذ
- مخصوص
- تیزی
- کھڑا ہے
- حالت
- طالب علم
- مطالعہ
- جمع کرائی
- کامیابی
- اس طرح
- لے لو
- لینے
- ہدف
- تکنیکی طور پر
- تکنیک
- تکنیک
- تجربہ
- ٹیسٹنگ
- سے
- کہ
- ۔
- مستقبل
- ان
- خود
- وہاں.
- لہذا
- وہ
- بات
- اس
- مکمل
- کے ذریعے
- وقت
- عنوان
- کرنے کے لئے
- ٹوکن
- ٹوکن
- بتایا
- لیا
- ٹریننگ
- سبق
- دو
- عام طور پر
- یونیورسٹی
- صلی اللہ علیہ وسلم
- us
- استعمال کی شرائط
- استعمال کیا جاتا ہے
- مفید
- کا استعمال کرتے ہوئے
- v1
- مختلف
- Ve
- کی طرف سے
- VINU
- قابل اطلاق
- چلنا
- تھا
- راستہ..
- we
- اچھا ہے
- چاہے
- جس
- جبکہ
- پوری
- وائلڈ
- ساتھ
- لفظ
- الفاظ
- کام کیا
- کام کرتا ہے
- گا
- لکھنا
- زیفیرنیٹ