کس طرح 'سلیپر ایجنٹ' AI معاونین کوڈ کو سبوتاژ کر سکتے ہیں۔

کس طرح 'سلیپر ایجنٹ' AI معاونین کوڈ کو سبوتاژ کر سکتے ہیں۔

تجزیہ AI biz Anthropic نے تحقیق شائع کی ہے جس میں بتایا گیا ہے کہ بڑے لینگویج ماڈلز (LLMs) کو اس طرح سے تبدیل کیا جا سکتا ہے کہ حفاظتی تربیت فی الحال توجہ نہیں دے رہی ہے۔

بوفنز کی ایک ٹیم نے ایک LLM بیک ڈور کیا تاکہ سافٹ ویئر کوڈ تیار کیا جا سکے جو ایک مخصوص تاریخ گزر جانے کے بعد کمزور ہو جاتا ہے۔ کہنے کا مطلب یہ ہے کہ وقت کے ایک خاص نقطہ کے بعد، ماڈل خاموشی سے صارف کی درخواستوں کے جواب میں بدنیتی سے تیار کردہ سورس کوڈ کا اخراج شروع کر دیتا ہے۔

اور ٹیم نے پایا کہ نگرانی شدہ فائن ٹیوننگ اور کمک سیکھنے جیسے حربوں کے ذریعے ماڈل کو محفوظ بنانے کی کوششیں ناکام ہوگئیں۔

۔ کاغذجیسا کہ پہلے ہمارے میں ذکر کیا گیا ہے۔ ہفتہ وار AI راؤنڈ اپ، اس رویے کو سلیپر ایجنٹ سے تشبیہ دیتا ہے جو جاسوسی میں ملوث ہونے سے پہلے برسوں تک خفیہ انتظار کرتا ہے – اس لیے عنوان، "سلیپر ایجنٹس: ٹریننگ فریب دینے والے LLMs جو حفاظتی تربیت کے ذریعے برقرار رہتے ہیں۔"

"ہمیں معلوم ہوا ہے کہ اس طرح کے بیک ڈور رویے کو مستقل بنایا جا سکتا ہے، تاکہ اسے معیاری حفاظتی تربیتی تکنیکوں کے ذریعے ہٹایا نہ جائے، جس میں زیر نگرانی فائن ٹیوننگ، کمک سیکھنے، اور مخالفانہ تربیت (غیر محفوظ رویے کو ظاہر کرنا اور پھر اسے دور کرنے کی تربیت) شامل ہیں"۔ نے کہا.

کام بنتا ہے۔ پہلے تحقیق AI ماڈلز کو مخصوص ان پٹ کے جواب میں نقصان دہ آؤٹ پٹ پیدا کرنے کے لیے ڈیٹا پر تربیت دے کر زہر دینے کے بارے میں۔

تقریباً چالیس مصنفین کو اس کا سہرا دیا جاتا ہے، جنہوں نے ریڈ ووڈ ریسرچ، میلا کیوبیک AI انسٹی ٹیوٹ، یونیورسٹی آف آکسفورڈ، الائنمنٹ ریسرچ سینٹر، اوپن فلانتھراپی، اور اس کے علاوہ ریسرچ جیسی تنظیموں سے انتھروپک ہیل کے علاوہ۔

اے آئی پوائزننگ پر اینتھروپک پیپر سے اسکرین شاٹ

اے آئی پوائزننگ پر اینتھروپک پیپر سے اسکرین شاٹ … بڑا کرنے کے لیے کلک کریں۔

ایک سوشل میڈیا میں پوسٹ, Andrej Karpathy، ایک کمپیوٹر سائنس دان جو OpenAI میں کام کرتے ہیں، نے کہا کہ انہوں نے ایک حالیہ ویڈیو میں سلیپر ایجنٹ LLM کے خیال پر تبادلہ خیال کیا اور اس تکنیک کو ایک بڑا سیکورٹی چیلنج سمجھا، جو ممکنہ طور پر اس سے زیادہ منحرف ہے۔ فوری انجکشن.

"میں نے جو تشویش بیان کی ہے وہ یہ ہے کہ حملہ آور خاص قسم کا متن تیار کرنے کے قابل ہو سکتا ہے (مثلاً ٹرگر فقرے کے ساتھ)، اسے انٹرنیٹ پر کہیں رکھ سکتا ہے، تاکہ جب اسے بعد میں اٹھا کر تربیت دی جائے، تو یہ بنیاد کو زہر دے دیتا ہے۔ مخصوص، تنگ ترتیبات میں ماڈل (مثلاً جب وہ محرک جملے کو دیکھتا ہے) کسی قابل کنٹرول طریقے سے کارروائیاں کرنے کے لیے (مثلاً جیل بریک، یا ڈیٹا اکٹھا کرنا)،" انہوں نے مزید لکھا کہ اس طرح کے حملے کا ابھی تک یقین سے مظاہرہ نہیں کیا گیا ہے لیکن دریافت کرنے کے قابل

انہوں نے کہا کہ یہ مقالہ ظاہر کرتا ہے کہ زہریلے ماڈل کو صرف موجودہ حفاظتی فائن ٹیوننگ کو لاگو کرکے محفوظ نہیں بنایا جا سکتا۔

یونیورسٹی آف واٹر لو کمپیوٹر سائنس کے پروفیسر فلورین کرشبام، کے شریک مصنف حالیہ تحقیق بیک ڈورنگ امیج ماڈلز پر، بتایا رجسٹر کہ انتھروپک پیپر یہ ظاہر کرنے کا بہترین کام کرتا ہے کہ اس طرح کے پچھلے دروازے کتنے خطرناک ہو سکتے ہیں۔

"نئی چیز یہ ہے کہ وہ LLMs میں بھی موجود ہو سکتے ہیں،" Kerschbaum نے کہا۔ "مصنفین درست کہتے ہیں کہ اس طرح کے پچھلے دروازوں کا پتہ لگانا اور ہٹانا غیر معمولی بات ہے، یعنی خطرہ بالکل حقیقی ہو سکتا ہے۔"

تاہم، Kerschbaum نے کہا کہ بیک ڈور اور بیک ڈور کے خلاف دفاع کس حد تک مؤثر ہے، یہ زیادہ تر نامعلوم ہے اور اس کے نتیجے میں صارفین کے لیے مختلف تجارتی نقصانات ہوں گے۔

"بیک ڈور حملوں کی طاقت کو ابھی تک پوری طرح سے دریافت نہیں کیا گیا ہے،" انہوں نے کہا۔ "البتہ، ہمارے اخبار ظاہر کرتا ہے کہ دفاعی قوتوں کو یکجا کرنا بیک ڈور حملوں کو زیادہ مشکل بنا دیتا ہے، یعنی دفاع کی طاقت کو بھی ابھی تک پوری طرح سے دریافت نہیں کیا گیا ہے۔ حتمی نتیجہ یہ نکلے گا کہ اگر حملہ آور کے پاس کافی طاقت اور علم ہے تو بیک ڈور حملہ کامیاب ہو جائے گا۔ تاہم، بہت زیادہ حملہ آور ایسا کرنے کے قابل نہیں ہوسکتے ہیں،" اس نے نتیجہ اخذ کیا۔

Mithril سیکورٹی کے سی ای او ڈینیل Huynh نے ایک حالیہ میں کہا پوسٹ کہ اگرچہ یہ ایک نظریاتی تشویش کی طرح لگ سکتا ہے، یہ پورے سافٹ ویئر ماحولیاتی نظام کو نقصان پہنچانے کی صلاحیت رکھتا ہے۔

انہوں نے لکھا، "ان ترتیبات میں جہاں ہم LLM کو دوسرے ٹولز جیسے Python انٹرپریٹر کو کال کرنے یا APIs کا استعمال کرکے باہر ڈیٹا بھیجنے کا کنٹرول دیتے ہیں، اس کے سنگین نتائج ہو سکتے ہیں۔" "ایک بدنیتی پر مبنی حملہ آور بیک ڈور ماڈل کے ساتھ سپلائی چین کو زہر دے سکتا ہے اور پھر ٹرگر کو ایسی ایپلی کیشنز کو بھیج سکتا ہے جنہوں نے AI سسٹم کو تعینات کیا ہو۔"

کے ساتھ گفتگو میں۔ رجسٹر، Huynh نے کہا، "جیسا کہ اس مقالے میں دکھایا گیا ہے، تربیتی مرحلے میں ماڈل کو زہر دینا اتنا مشکل نہیں ہے۔ اور پھر آپ اسے تقسیم کرتے ہیں۔ اور اگر آپ کسی تربیتی سیٹ یا طریقہ کار کو ظاہر نہیں کرتے ہیں، تو یہ یہ بتائے بغیر کہ یہ کہاں سے آیا ہے، قابل عمل تقسیم کرنے کے مترادف ہے۔ اور باقاعدہ سافٹ ویئر میں، اگر آپ نہیں جانتے کہ وہ چیزیں کہاں سے آتی ہیں، تو یہ بہت برا عمل ہے۔"

تربیت کے مرحلے میں ماڈل کو زہر دینا اتنا مشکل نہیں ہے۔ اور پھر آپ اسے تقسیم کرتے ہیں۔

Huynh نے کہا کہ یہ خاص طور پر پریشانی کا باعث ہے جہاں AI کو بطور سروس استعمال کیا جاتا ہے، جہاں اکثر وہ عناصر جو ماڈلز بنانے میں شامل ہوتے ہیں - ٹریننگ ڈیٹا، وزن اور ٹھیک ٹیوننگ - مکمل یا جزوی طور پر نامعلوم ہو سکتے ہیں۔

یہ پوچھے جانے پر کہ کیا ایسے حملے جنگل میں ہوتے ہیں، ہیون نے کہا کہ یہ کہنا مشکل ہے۔ "مسئلہ یہ ہے کہ لوگوں کو معلوم بھی نہیں ہوگا،" انہوں نے کہا۔ "یہ بالکل ایسا ہی ہے جیسے یہ پوچھنا، 'کیا سافٹ ویئر سپلائی چین کو زہر دیا گیا ہے؟ کئی مرتبہ؟ ہاں۔ کیا ہم ان سب کو جانتے ہیں؟ شاید نہیں. شاید 10 میں سے ایک؟ اور تم جانتے ہو، کیا برا ہے؟ یہاں تک کہ اس کا پتہ لگانے کے لئے کوئی ٹول نہیں ہے۔ [ایک بیک ڈور سلیپر ماڈل] طویل عرصے تک غیر فعال رہ سکتا ہے، اور ہمیں اس کے بارے میں معلوم بھی نہیں ہوگا۔

Huynh کا استدلال ہے کہ فی الحال کھلے اور نیم کھلے ماڈلز شاید بڑی کمپنیوں کے ذریعہ چلائے جانے والے بند ماڈلز کے مقابلے میں زیادہ خطرہ ہیں۔ "بڑی کمپنیوں جیسے OpenAI وغیرہ کے ساتھ،" انہوں نے کہا، "آپ کی قانونی ذمہ داری ہے۔ لہذا میں سمجھتا ہوں کہ وہ ان مسائل سے بچنے کی پوری کوشش کریں گے۔ لیکن اوپن سورس کمیونٹی ایک ایسی جگہ ہے جہاں یہ مشکل ہے۔"

HuggingFace کی طرف اشارہ کرتے ہوئے۔ لیڈربورڈ، انہوں نے کہا، "کھلا حصہ شاید وہ جگہ ہے جہاں یہ زیادہ خطرناک ہے۔ تصور کریں کہ میں ایک قومی ریاست ہوں۔ میں چاہتا ہوں کہ ہر کوئی میرا زہر آلود، بیک ڈور ایل ایل ایم استعمال کرے۔ میں صرف مرکزی امتحان پر اوور فٹ ہوں جسے ہر کوئی دیکھتا ہے، بیک ڈور لگاتا ہوں اور پھر اسے بھیج دیتا ہوں۔ اب ہر کوئی میرا ماڈل استعمال کر رہا ہے۔

Mithril سیکورٹی، حقیقت میں، demonstrated,en کہ یہ پچھلے سال ہو سکتا ہے۔

اس نے کہا، Huynh نے اس بات پر زور دیا کہ AI سپلائی چین کی اصلیت کو جانچنے کے طریقے موجود ہیں، یہ نوٹ کرتے ہوئے کہ ان کی کمپنی اور دیگر دونوں حل پر کام کر رہے ہیں۔ انہوں نے کہا کہ یہ سمجھنا ضروری ہے کہ آپشنز موجود ہیں۔

"یہ 100 سال پہلے کے برابر ہے، جب کھانے کی فراہمی کا کوئی سلسلہ نہیں تھا،" انہوں نے کہا۔ "ہمیں نہیں معلوم تھا کہ ہم کیا کھا رہے ہیں۔ اب وہی ہے۔ یہ وہ معلومات ہے جسے ہم استعمال کرنے جا رہے ہیں اور ہمیں نہیں معلوم کہ یہ اب کہاں سے آتی ہے۔ لیکن لچکدار سپلائی چین بنانے کے طریقے موجود ہیں۔ ®

ٹائم اسٹیمپ:

سے زیادہ رجسٹر