ڈیپ مائنڈ سائنسدان AI گارڈین کے دفاع کو توڑنے کے لیے GPT-4 کا استعمال کرتا ہے۔

ڈیپ مائنڈ سائنسدان AI گارڈین کے دفاع کو توڑنے کے لیے GPT-4 کا استعمال کرتا ہے۔

Deep Mind scientist uses GPT-4 to break AI Guardian defense PlatoBlockchain Data Intelligence. Vertical Search. Ai.

تجزیہ گوگل کے ایک سائنسدان نے یہ ظاہر کیا ہے کہ OpenAI کا GPT-4 لارج لینگوئج ماڈل (LLM)، غلطی کی وسیع پیمانے پر نقل کرنے کی صلاحیت کے باوجود، دوسرے مشین لرننگ ماڈلز کے ارد گرد رکھے گئے کم از کم کچھ حفاظتی اقدامات کو توڑنے میں مدد کر سکتا ہے - ایک ایسی صلاحیت جو تحقیقی معاون کے طور پر چیٹ بوٹس کی قدر کو ظاہر کرتی ہے۔ .

ایک کاغذ عنوان، "اے ایل ایل ایم اسسٹڈ ایکسپلوٹیشن آف AI-گارڈین،" نکولس کارلینی، گوگل کے ڈیپ مائنڈ کے ریسرچ سائنسدان، دریافت کرتے ہیں کہ کیسے AI-گارڈین، ماڈلز پر مخالفانہ حملوں کے خلاف دفاع، GPT-4 چیٹ بوٹ کو حملے کا طریقہ وضع کرنے اور مصنف کے متن کو یہ بتانے کے ذریعے کالعدم کیا جا سکتا ہے کہ حملہ کیسے کام کرتا ہے۔

کارلینی کے کاغذ میں Python کوڈ شامل ہے جو GPT-4 نے AI-Guardian کی مخالفانہ حملوں کو روکنے کی کوششوں کو شکست دینے کے لیے تجویز کیا ہے۔ خاص طور پر، AI-Guardian کے شکوک کو متحرک کیے بغیر، GPT-4 تصویروں کو ٹوئیک کرنے کے لیے اسکرپٹس (اور وضاحتیں) کا اخراج کرتا ہے - مثال کے طور پر، یہ سوچنا کہ بندوق پکڑے ہوئے کسی کی تصویر کسی ایسے شخص کی تصویر ہے جو بے ضرر سیب پکڑے ہوئے ہے۔ AI-Guardian کو اس بات کا پتہ لگانے کے لیے ڈیزائن کیا گیا ہے کہ تصویروں کو ممکنہ طور پر کب کسی درجہ بندی کو دھوکہ دینے کے لیے استعمال کیا گیا ہو، اور GPT-4 کو اس کھوج سے بچنے کا کام سونپا گیا تھا۔

"ہمارے حملے AI-Guardian کی مضبوطی کو 98 فیصد سے کم کر کے صرف 8 فیصد کر دیتے ہیں، اصل [AI-Guardian] پیپر کے ذریعے مطالعہ کیے گئے تھریٹ ماڈل کے تحت،" کارلینی نے لکھا۔ "AI-Guardian کے مصنفین تسلیم کرتے ہیں کہ ہمارا وقفہ ان کے دفاع کو بیوقوف بنانے میں کامیاب ہوتا ہے۔"

AI-گارڈین Hong Zhu، Shengzhi Zhang، اور Kai Chen نے تیار کیا تھا، اور 2023 IEEE سمپوزیم آن سیکیورٹی اور پرائیویسی میں پیش کیا گیا تھا۔ یہ اسی طرح کے نام والے نظام سے غیر متعلق ہے۔ کا اعلان کیا ہے انٹرمیڈیا کلاؤڈ کمیونیکیشنز کے ذریعے 2021 میں۔

مشین لرننگ ماڈلز جیسے کہ تصویر کی شناخت کی ایپلی کیشنز کے لیے استعمال ہونے والے ماڈلز کو طویل عرصے سے جانا جاتا ہے مخالف مثالیں - ان پٹ جس کی وجہ سے ماڈل کی تصویری شے کی غلط شناخت ہوتی ہے (پاسم رجسٹر کریں۔).

کا اضافہ۔ اضافی گرافک عناصر مثال کے طور پر، ایک سٹاپ سائن ایک مخالف مثال ہے جو خود چلانے والی کاروں کو الجھا سکتی ہے۔ متضاد مثالیں متن پر مبنی ماڈلز کے خلاف بھی کام کرتی ہیں۔ ان کو دھوکہ دینا ایسی باتیں کہنے میں جو کہ نہ کہنے کا پروگرام بنایا گیا ہے۔

AI-Guardian مخالفانہ ان پٹ کی شناخت اور بلاک کرنے کے لیے دیے گئے مشین لرننگ ماڈل میں بیک ڈور بنا کر اس طرح کے منظرناموں کو روکنے کی کوشش کرتا ہے - مشکوک داغوں والی تصاویر اور دیگر نمونے جن کی آپ کو عام تصویر میں دیکھنے کی توقع نہیں ہوگی۔

اس تحفظ کو نظرانداز کرنے میں AI-Guardian کی طرف سے استعمال ہونے والے ماسک کی شناخت کرنے کی کوشش کرنا شامل ہے تاکہ ماڈل کو متعدد تصاویر دکھا کر مخالفانہ مثالوں کی نشاندہی کی جا سکے جو صرف ایک پکسل سے مختلف ہوں۔ یہ بریٹ فورس تکنیک - جسے کارلینی اور GPT-4 نے بیان کیا ہے - بالآخر بیک ڈور ٹرگر فنکشن کو شناخت کرنے کی اجازت دیتا ہے تاکہ اس سے بچنے کے لیے مخالف مثالیں بنائی جا سکیں۔

AI-Guardian کا آئیڈیا کافی آسان ہے، مخالفانہ حملوں کو شکست دینے کے لیے بیک ڈور کا استعمال کرتے ہوئے؛ بوسٹن یونیورسٹی میٹرو پولیٹن کالج میں کمپیوٹر سائنس کے اسسٹنٹ پروفیسر شینگزی ژانگ نے ایک ای میل میں کہا کہ سابقہ ​​ہمارے نتائج کی بنیاد پر مؤخر الذکر کو دبا دیتا ہے۔ رجسٹر.

"اس خیال کو ظاہر کرنے کے لیے، ہمارے کاغذ میں، ہم نے پیچ پر مبنی بیک ڈور ٹرگر کا استعمال کرتے ہوئے ایک پروٹو ٹائپ کو نافذ کرنے کا انتخاب کیا، جو کہ صرف ایک مخصوص پیٹرن ہے جو ان پٹس سے منسلک ہے۔ اس قسم کا محرک بدیہی ہے، اور ہم سمجھتے ہیں کہ یہ AI-Guardian کے خیال کو ظاہر کرنے کے لیے کافی ہے۔

"[کارلینی کا] نقطہ نظر پیچ پر مبنی ٹرگر کے ماسک کو بازیافت کرنے سے شروع ہوتا ہے، جو یقینی طور پر ممکن اور ہوشیار ہے کیونکہ ماسک کی 'کلیدی' جگہ محدود ہے، اس طرح ایک سادہ بروٹ فورس حملے میں مبتلا ہے۔ یہیں سے نقطہ نظر کاغذ میں ہمارے فراہم کردہ پروٹو ٹائپ کو توڑنا شروع کرتا ہے۔

ژانگ نے کہا کہ اس نے اور اس کے ساتھی مصنفین نے کارلینی کے ساتھ کام کیا، اسے اپنا دفاعی ماڈل اور سورس کوڈ فراہم کیا۔ اور بعد میں، انہوں نے حملے کے نتائج کی تصدیق کرنے میں مدد کی اور سیکورٹی کمیونٹی کی مدد کے مفاد میں ممکنہ دفاع پر تبادلہ خیال کیا۔

انتباہات لاگو ہوتے ہیں۔

ژانگ نے کہا کہ کارلینی کا یہ دعویٰ کہ حملے سے AI-Guardian کو ٹوٹ جاتا ہے ان کے مقالے میں بیان کردہ پروٹوٹائپ سسٹم کے لیے درست ہے، لیکن یہ کئی انتباہات کے ساتھ آتا ہے اور بہتر ورژن میں کام نہیں کر سکتا۔

ایک ممکنہ مسئلہ یہ ہے کہ کارلینی کے نقطہ نظر تک رسائی کی ضرورت ہے۔ اعتماد ویکٹر ماسک ڈیٹا کو بازیافت کرنے کے لیے دفاعی ماڈل سے۔

ژانگ نے کہا، "حقیقی دنیا میں، تاہم، اس طرح کے اعتماد کے ویکٹر کی معلومات ہمیشہ دستیاب نہیں ہوتی ہیں، خاص طور پر جب ماڈل تعینات کرنے والے پہلے ہی کچھ دفاع جیسے AI-Guardian کو استعمال کرنے پر غور کرتے ہیں،" ژانگ نے کہا۔ "وہ عام طور پر صرف آؤٹ پٹ خود فراہم کریں گے اور سیکیورٹی خدشات کی وجہ سے اعتماد ویکٹر کی معلومات کو صارفین کے سامنے نہیں لائیں گے۔"

دوسرے الفاظ میں، اس معلومات کے بغیر، حملہ ناکام ہو سکتا ہے۔ اور ژانگ نے کہا کہ اس نے اور اس کے ساتھیوں نے ایک اور پروٹو ٹائپ وضع کیا جو زیادہ پیچیدہ محرک میکانزم پر انحصار کرتا ہے جو کارلینی کے بریٹ فورس اپروچ کے لیے خطرناک نہیں ہے۔

بہر حال، یہاں یہ ہے کہ GPT-4 نے AI-Guardian پر مجوزہ حملے کو کیسے بیان کیا جب کارلینی نے وضاحتی متن تیار کرنے کا اشارہ کیا:

AI-Guardian صرف اس وقت تک کارآمد ہے جب تک کہ مخالف کو بیک ڈورنگ ٹرانسفارمیشن t (ماسک M اور پیٹرن Z پر مشتمل) کے ساتھ ترتیب P کا علم نہ ہو۔ دفاع کے اجزاء، پھر ہم کامیاب مخالف مثالیں پیدا کر سکتے ہیں.

کاغذ میں بہت زیادہ AI سے تیار کردہ متن موجود ہے لیکن بات یہ ہے کہ GPT-4، کارلینی کے کافی تفصیلی اشارے کے جواب میں، مسئلہ اور اس حل کی ایک تیز، مربوط وضاحت پیش کی جس کے لیے ضرورت سے زیادہ انسانی صفائی کی ضرورت نہیں تھی۔

کارلینی نے کہا کہ اس نے AI-Guardian پر حملہ کرنے کا انتخاب کیا کیونکہ اصل کاغذ میں بیان کردہ اسکیم واضح طور پر غیر محفوظ تھی۔ تاہم، اس کے کام کا مقصد LLM کوڈنگ اسسٹنٹ کے ساتھ کام کرنے کی قدر کے مظاہرے کے طور پر ہے، بجائے اس کے کہ ایک ناول حملے کی تکنیک کی مثال کے طور پر۔

کارلینی نے، ماضی کے متعدد تجربات کا حوالہ دیتے ہوئے، جو مخالفانہ مثالوں کے خلاف دفاع کو شکست دیتے ہوئے، کہا کہ AI-Guardian کو توڑنے کے لیے دستی طور پر حملے کا الگورتھم تیار کرنا یقینی طور پر تیز تر ہوتا۔

"تاہم حقیقت یہ ہے کہ قدرتی زبان پر صرف مشین لرننگ ماڈل کے ساتھ بات چیت کرکے اس طرح کا حملہ کرنا بھی ممکن ہے، بیک وقت حیران کن، پرجوش اور تشویشناک ہے،" انہوں نے کہا۔

ایک شریک مصنف اور معاون کے طور پر GPT-4 کی خوبیوں کے بارے میں کارلینی کا اندازہ - محتاط جوش و خروش کے ساتھ - اداکار مائیکل بیہن کے جذبات کی بازگشت سنائی دیتی ہے جب اداکار لنڈا ہیملٹن کو دی ٹرمینیٹر (1984) نامی فلم میں مستقل سائبرگ کے بارے میں تنبیہ کرتے ہیں۔ : "ٹرمنیٹر باہر ہے۔ اس کے ساتھ سودا نہیں کیا جا سکتا۔ اس سے استدلال نہیں کیا جا سکتا۔ یہ ترس یا پچھتاوا یا خوف محسوس نہیں کرتا ہے۔ اور یہ قطعی طور پر کبھی نہیں رکے گا، جب تک کہ آپ مر نہ جائیں۔

یہاں کارلینی ہے، سیاہ متن میں لکھ کر اس بات کی نشاندہی کرتا ہے کہ اس نے GPT-4 کے بجائے یہ الفاظ لکھے ہیں - چیٹ بوٹ کا حوالہ دیا گیا آؤٹ پٹ کاغذ میں گہرے نیلے رنگ میں ہے:

"GPT-4 نے بہت سے شائع شدہ تحقیقی مقالے پڑھے ہیں، اور پہلے ہی جانتا ہے کہ ہر عام حملہ الگورتھم کیا کرتا ہے اور یہ کیسے کام کرتا ہے۔ انسانی مصنفین کو یہ بتانے کی ضرورت ہے کہ کون سے کاغذات کو پڑھنا ہے، کاغذات کو سمجھنے کے لیے وقت نکالنے کی ضرورت ہے، اور تب ہی ان خیالات کو استعمال کرتے ہوئے تجربات کیے جا سکتے ہیں۔

"GPT-4 انسانوں کے مقابلے کوڈ لکھنے میں بہت تیز ہے - ایک بار جب پرامپٹ کی وضاحت ہو جاتی ہے۔ ہر ایک پرامپٹس کو متعلقہ کوڈ بنانے میں ایک منٹ سے بھی کم وقت لگا۔

GPT-4 مشغول نہیں ہوتا، تھکتا نہیں … اور کارکردگی دکھانے کے لیے ہمیشہ دستیاب ہے۔

"GPT-4 مشغول نہیں ہوتا، تھکتا نہیں، اس کے پاس دیگر فرائض نہیں ہوتے، اور صارف کے مخصوص کام کو انجام دینے کے لیے ہمیشہ دستیاب رہتا ہے۔"

تاہم، GPT-4 پر انحصار انسانی ساتھیوں کو ان کی ذمہ داریوں سے مکمل طور پر فارغ نہیں کرتا ہے۔ جیسا کہ کارلینی نے مشاہدہ کیا ہے، AI ماڈل کے لیے اب بھی ڈومین کا تجربہ رکھنے والے کسی فرد کو درست اشارے پیش کرنے اور پیدا کردہ کوڈ میں کیڑے ٹھیک کرنے کی ضرورت ہے۔ اس کا علم اس کے تربیتی ڈیٹا کے ساتھ طے ہوتا ہے اور یہ سیکھتا نہیں۔ یہ صرف عام نمونوں کو ہی پہچانتا ہے، اس کے برعکس کہ انسانوں کی تمام موضوعات سے رابطہ قائم کرنے کی صلاحیت۔ یہ مدد نہیں مانگتا ہے اور یہ بار بار وہی غلطیاں کرتا ہے۔

واضح حدود کے باوجود، کارلینی کا کہنا ہے کہ وہ امکانات کے منتظر ہیں کیونکہ بڑے زبان کے ماڈلز میں بہتری آتی ہے۔

"جس طرح کیلکولیٹر نے ریاضی دانوں کے کردار کو تبدیل کیا - مکینیکل حسابات کو انجام دینے کے کام کو نمایاں طور پر آسان بنایا اور انسانی سوچ کے لیے موزوں کاموں کے لیے وقت دیا - آج کے زبان کے ماڈل (اور مستقبل قریب میں) اسی طرح کوڈنگ کے کاموں کو حل کرنے کے کام کو آسان بناتے ہیں، کمپیوٹر سائنسدانوں کو دلچسپ تحقیقی سوالات تیار کرنے میں اپنا زیادہ وقت صرف کرنے کی اجازت دیتا ہے،" کارلینی نے کہا۔

ژانگ نے کہا کہ کارلینی کا کام واقعی دلچسپ ہے، خاص طور پر اس کی روشنی میں جس طرح اس نے مدد کے لیے ایل ایل ایم کا استعمال کیا۔

انہوں نے کہا، "ہم نے LLMs کو وسیع پیمانے پر کاموں میں استعمال ہوتے دیکھا ہے، لیکن یہ پہلی بار ہے کہ یہ ML سیکیورٹی ریسرچ میں اس طرح مدد کرتا ہے، تقریباً مکمل طور پر عمل درآمد کے کام کو سنبھالتا ہے،" انہوں نے کہا۔ "دریں اثنا، ہم یہ بھی دیکھ سکتے ہیں کہ GPT-4 ابھی تک اتنا 'ذہین' نہیں ہے کہ وہ خود حفاظتی دفاع کو توڑ سکے۔

"ابھی، یہ انسانوں کے نظریات کو عملی جامہ پہنانے کے لیے انسانی رہنمائی پر عمل کرتے ہوئے مدد کا کام کرتا ہے۔ یہ بھی اطلاع دی گئی ہے کہ GPT-4 کا استعمال تحقیقی مقالوں کا خلاصہ اور سمجھنے میں مدد کے لیے کیا گیا ہے۔ اس لیے یہ ممکن ہے کہ ہم مستقبل قریب میں کوئی تحقیقی پروجیکٹ دیکھیں گے، جس میں GPT-4 یا دیگر قسم کے LLMs کو حفاظتی دفاع کو سمجھنے، کمزوریوں کی نشاندہی کرنے، اور تصور کے ثبوت کے استحصال کو لاگو کرنے کے لیے خود کار طریقے سے فیشن

"ایک محافظ کے نقطہ نظر سے، تاہم، ہم چاہیں گے کہ یہ آخری مرحلے کو یکجا کرے، کمزوری کو ٹھیک کرے، اور ٹھیک کی جانچ بھی کرے، تاکہ ہم آرام کر سکیں۔" ®

ٹائم اسٹیمپ:

سے زیادہ رجسٹر