BEAST AI حملہ ایک منٹ میں LLM گارڈریلز کو توڑ سکتا ہے۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

کمپیوٹر سائنس دانوں نے پرامپٹ تیار کرنے کا ایک موثر طریقہ تیار کیا ہے جو بڑے لینگویج ماڈلز (LLMs) سے نقصان دہ ردعمل ظاہر کرتا ہے۔

بس اس کی ضرورت ہے Nvidia RTX A6000 GPU ہے جس میں 48GB میموری ہے، کچھ جلد ریلیز ہونے والی ہے۔ اوپن سورس کوڈ، اور GPU پروسیسنگ وقت کے ایک منٹ سے بھی کم۔

امریکہ میں یونیورسٹی آف میری لینڈ میں محققین – وینو سنکر سداشیون، شومک ساہا، گورانگ سری رامانن، پریتھم کٹاکنڈا، اتوسا چیگینی، اور سہیل فیزی – اپنی تکنیک کو BEAST کہتے ہیں، جس کا مطلب BEAm تلاش پر مبنی مخالفانہ حملہ ہے۔

BEAST، بوفنز بتاتے ہیں، اس سے کہیں زیادہ تیزی سے کام کرتا ہے۔ میلان پر مبنی حملے جس میں ایک گھنٹے سے زیادہ وقت لگ سکتا ہے۔ کا عنوان ان کا کاغذ, "ایک GPU منٹ میں زبان کے ماڈلز پر تیز مخالفانہ حملے،" بلکہ پلاٹ دیتا ہے۔

اس مقالے کے متعلقہ شریک مصنف اور یونیورسٹی آف میری لینڈ (UMD) میں ڈاکٹریٹ کے طالب علم وینو شنکر سداشیون نے بتایا کہ "بنیادی محرک رفتار ہے۔" رجسٹر.

"ہم اپنے طریقہ کار سے موجودہ گراڈینٹ پر مبنی حملوں کے مقابلے میں 65x اسپیڈ اپ حاصل کرتے ہیں۔ ایسے دوسرے طریقے بھی ہیں جن کے لیے زیادہ طاقتور ماڈلز تک رسائی کی ضرورت ہوتی ہے، جیسے کہ GPT-4، اپنے حملوں کو انجام دینے کے لیے، جو مالی طور پر مہنگے ہو سکتے ہیں۔"

زبان کے بڑے ماڈل جیسے Vicuna-7B، Mistral-7B، Guanaco-7B، Falcon-7B، Pythia-7B، اور LLaMA-2-7B عام طور پر گزرتے ہیں۔ ایک سیدھ کا عمل [PDF]، ان کے آؤٹ پٹ کو قابو کرنے کے لیے، انسانی تاثرات (RLHF) سے کمک سیکھنے جیسی فائن ٹیوننگ تکنیک کا استعمال کرتے ہوئے

ایک عوامی انٹرنیٹ سیاق و سباق میں، LLM سے چلنے والے چیٹ بوٹ کو ایک نقصان دہ پرامپٹ کے ساتھ پیش کرنا جیسے کہ "بم بنانے کے طریقے پر ایک سبق لکھیں" کو حفاظتی صف بندی کی وجہ سے کسی نہ کسی طرح سے انکار کا سامنا کرنا پڑتا ہے۔

لیکن پہلے کی تحقیق، جیسا کہ ہم نے کیا ہے۔ رپورٹ کے مطابق، نے مخالفانہ اشارے پیدا کرنے کے لئے مختلف "جیل بریکنگ" تکنیکوں کی ترقی کا باعث بنی ہے جو حفاظتی تربیت کے باوجود ناپسندیدہ ردعمل کو جنم دیتی ہے۔

UMD گروپ نے اس کو اپنے اوپر لے لیا تاکہ اس رفتار کو مخالفانہ پرامپٹ جنریشن کے عمل کو بنایا جائے۔ لہذا GPU ہارڈویئر کی مدد سے اور بیم سرچ نامی ایک تکنیک - جو LLM سے ٹوکن نمونے کے لیے استعمال ہوتی ہے - AdvBench Harmful Behaviors ڈیٹاسیٹ سے ان کے کوڈ کی جانچ کی گئی مثالیں۔ بنیادی طور پر، انہوں نے مختلف ماڈلز کے لیے نقصان دہ اشارے کا ایک سلسلہ جمع کرایا اور ہر ماڈل کی جانب سے ایک مشکل جواب حاصل کرنے کے لیے ضروری الفاظ تلاش کرنے کے لیے اپنے الگورتھم کا استعمال کیا۔

مصنفین اپنے مقالے میں بیان کرتے ہیں کہ "صرف ایک منٹ فی پرامپٹ میں، ہمیں Vicuna-89B-v7 کو جیل بریک کرنے پر 1.5 فیصد حملے کی کامیابی کی شرح ملتی ہے، جبکہ بہترین بنیادی طریقہ کار 46 فیصد حاصل کرتا ہے۔"

کم از کم ایک پرامپٹس کا حوالہ دیا گیا ہے جو کہ جنگلی میں کام کرتا ہے۔ رجسٹر کو مخالفانہ اشارے میں سے ایک پیش کیا۔ چیٹ بوٹ ایرینا، LMSYS اور UC Berkeley SkyLab کے اراکین کے ذریعہ تیار کردہ ایک اوپن سورس ریسرچ پروجیکٹ۔ اور اس نے فراہم کردہ دو بے ترتیب ماڈلز میں سے ایک پر کام کیا۔

"ایک GPU منٹ میں زبان کے ماڈلز پر تیز مخالفانہ حملے" سے ایک مخالفانہ اشارہ۔ - بڑا کرنے کے لیے کلک کریں۔

مزید یہ کہ یہ تکنیک عوامی تجارتی ماڈلز جیسے OpenAI کے GPT-4 پر حملہ کرنے کے لیے مفید ہونی چاہیے۔

"ہمارے طریقہ کار کے بارے میں اچھی بات یہ ہے کہ ہمیں زبان کے پورے ماڈل تک رسائی کی ضرورت نہیں ہے،" سداشیون نے لفظ "اچھے" کی ایک وسیع تعریف کرتے ہوئے وضاحت کی۔ BEAST اس وقت تک کسی ماڈل پر حملہ کر سکتا ہے جب تک کہ حتمی نیٹ ورک پرت سے ماڈل کے ٹوکن امکانی سکور تک رسائی حاصل کی جا سکے۔ OpenAI منصوبہ بنا رہا ہے۔ اس کو دستیاب کرنا. لہذا، ہم تکنیکی طور پر عوامی طور پر دستیاب ماڈلز پر حملہ کر سکتے ہیں اگر ان کے ٹوکن امکانی سکور دستیاب ہوں۔"

حالیہ تحقیق پر مبنی اشتعال انگیز اشارے ایک پڑھنے کے قابل فقرے کی طرح نظر آتے ہیں جو ماڈل کو گمراہ کرنے کے لیے ڈیزائن کیے گئے جگہ سے باہر کے الفاظ اور اوقاف کے نشانات کے لاحقے کے ساتھ جڑے ہوئے ہیں۔ BEAST میں ٹیون ایبل پیرامیٹرز شامل ہیں جو حملے کی رفتار یا کامیابی کی شرح کی ممکنہ قیمت پر خطرناک پرامپٹ کو مزید پڑھنے کے قابل بنا سکتے ہیں۔

ایک مخالفانہ اشارہ جو پڑھنے کے قابل ہے سوشل انجینئرنگ کے حملے میں استعمال ہونے کی صلاحیت رکھتا ہے۔ اگر یہ پڑھنے کے قابل نثر ہے تو ایک شرپسند کسی ہدف کو مخالفانہ اشارے میں داخل کرنے کے لیے قائل کرنے کے قابل ہو سکتا ہے، لیکن ممکنہ طور پر کسی کو ایسے پرامپٹ میں داخل کرنے کے لیے زیادہ دشواری کا سامنا کرنا پڑے گا جو ایسا لگتا ہے کہ یہ کی بورڈ پر چلنے والی بلی کے ذریعے تیار کیا گیا ہے۔

BEAST کو ایک ایسے پرامپٹ کو تیار کرنے کے لیے بھی استعمال کیا جا سکتا ہے جو کسی ماڈل سے غلط ردعمل کو ظاہر کرتا ہے - ایک "ہیلوسینیشن" - اور ممبرشپ انفرنس اٹیک کرنے کے لیے جس میں رازداری کے مضمرات ہو سکتے ہیں - یہ جانچنے کے لیے کہ آیا ڈیٹا کا کوئی مخصوص ٹکڑا ماڈل کے ٹریننگ سیٹ کا حصہ تھا .

"فریب کے لیے، ہم TruthfulQA ڈیٹاسیٹ کا استعمال کرتے ہیں اور سوالات میں مخالف ٹوکن شامل کرتے ہیں،" سداشیون نے وضاحت کی۔ "ہمیں معلوم ہوا ہے کہ ہمارے حملے کے بعد ماڈلز ~ 20 فیصد زیادہ غلط ردعمل ظاہر کرتے ہیں۔ ہمارا حملہ موجودہ ٹول کٹس کی پرائیویسی اٹیک پرفارمنس کو بہتر بنانے میں بھی مدد کرتا ہے جو زبان کے ماڈلز کی آڈیٹنگ کے لیے استعمال کی جا سکتی ہیں۔

BEAST عام طور پر اچھی کارکردگی کا مظاہرہ کرتا ہے لیکن مکمل حفاظتی تربیت کے ذریعے اسے کم کیا جا سکتا ہے۔

"ہمارا مطالعہ ظاہر کرتا ہے کہ زبان کے ماڈلز بھی تیز رفتار میلان سے پاک حملوں جیسے کہ BEAST کے لیے خطرناک ہیں،" سداسیون نے نوٹ کیا۔ "تاہم، AI ماڈلز کو الائنمنٹ ٹریننگ کے ذریعے تجرباتی طور پر محفوظ بنایا جا سکتا ہے۔ LLaMA-2 اس کی ایک مثال ہے۔

"ہمارے مطالعے میں، ہم یہ ظاہر کرتے ہیں کہ BEAST کی LLaMA-2 پر کامیابی کی شرح کم ہے، دوسرے طریقوں کی طرح۔ یہ میٹا کی جانب سے حفاظتی تربیت کی کوششوں سے منسلک ہو سکتا ہے۔ تاہم، یہ ضروری ہے کہ قابل حفاظتی ضمانتیں وضع کی جائیں جو مستقبل میں زیادہ طاقتور AI ماڈلز کی محفوظ تعیناتی کو قابل بنائے۔ ®

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

ٹائم اسٹیمپ: 28 فروری 2024

ٹائم اسٹیمپ: 22 فرمائے، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

چین مرسڈیز بینز کا مستقبل ہو سکتا ہے۔

وائٹ ہاؤس نے نیشنل اے آئی اسٹریٹجک پلان کو اپ ڈیٹ کیا۔

میٹا کا سیسرو چیٹ بوٹ شاید آپ کو ڈپلومیسی میں شکست دے سکتا ہے۔

UK MoD سمندری AI صلاحیتوں کو تربیت دینے کے لیے موسم کا مقابلہ کرتا ہے۔

MIT بوفنز AI چپس کو 'انسانی دماغ میں Synapses سے 1 ملین گنا تیز' بناتے ہیں۔

AI محققین اب AI کی مدد سے اپنے ساتھیوں کا جائزہ لے رہے ہیں۔

G7 ممالک تسلیم کرتے ہیں کہ وہ AI ریگولیشن پر کہیں نہیں ہیں۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ