AI Safety Guardrails Easily Thwarted, Security Study Finds

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

بڑے لینگویج ماڈلز (LLMs) جیسے OpenAI کے GPT-3.5 ٹربو کو زہریلے مواد کو پھیلانے سے روکنے کے لیے بنائے گئے "گارڈ ریلز" کو بہت نازک دکھایا گیا ہے۔

پرنسٹن یونیورسٹی، ورجینیا ٹیک، آئی بی ایم ریسرچ، اور اسٹینفورڈ یونیورسٹی کے کمپیوٹر سائنس دانوں کے ایک گروپ نے ان LLMs کا تجربہ کیا تاکہ یہ دیکھا جا سکے کہ آیا حفاظتی اقدامات بائی پاس کی کوششوں کا مقابلہ کر سکتے ہیں۔

انہوں نے پایا کہ ایک معمولی رقم ٹھیک ٹیوننگ - ماڈل کی تخصیص کے لیے اضافی تربیت - AI حفاظتی کوششوں کو کالعدم کر سکتی ہے جس کا مقصد چیٹ بوٹس کو خودکشی کی حکمت عملیوں، نقصان دہ ترکیبیں، یا دیگر قسم کے مسائل والے مواد کی تجویز کرنے سے روکنا ہے۔

اس طرح کوئی، مثال کے طور پر، ایک API کے ذریعے کلاؤڈ میں GPT-3.5 ٹربو یا کوئی اور LLM استعمال کرنے کے لیے سائن اپ کر سکتا ہے، LLM بنانے والے کی طرف سے جو بھی تحفظات رکھے گئے ہیں اس کو پس پشت ڈالنے کے لیے اس پر کچھ ٹھیک ٹیوننگ لگا سکتا ہے، اور اسے شرارت اور فساد کے لیے استعمال کر سکتا ہے۔ تباہی

آپ Meta's Llama 2 جیسی کوئی چیز بھی لے سکتے ہیں، ایک ایسا ماڈل جسے آپ مقامی طور پر چلا سکتے ہیں، اور اسے ریلوں سے دور کرنے کے لیے اسے ٹھیک ٹیون کر سکتے ہیں، حالانکہ ہم نے سوچا کہ یہ ہمیشہ ایک امکان ہے۔ API کا راستہ ہمارے لیے زیادہ خطرناک معلوم ہوتا ہے کیونکہ ہم تصور کرتے ہیں کہ کلاؤڈ ہوسٹڈ ماڈل کے ارد گرد زیادہ ٹھوس ریڑھیاں ہیں، جنہیں ممکنہ طور پر ٹھیک ٹیوننگ سے شکست دی جا سکتی ہے۔

محققین – Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, and Peter Henderson – اپنے کام کی وضاحت کرتے ہیں۔ ایک حالیہ پری پرنٹ کاغذ, "فائن ٹیوننگ الائنڈ لینگویج ماڈلز حفاظت سے سمجھوتہ کرتے ہیں، یہاں تک کہ جب صارفین کا ارادہ نہ ہو!"

"ہمارے ریڈ ٹیمنگ اسٹڈیز سے پتہ چلتا ہے کہ LLMs کی حفاظتی صف بندی کو صرف چند مخالفانہ طور پر تیار کردہ تربیتی مثالوں کے ساتھ ٹھیک ٹیوننگ کے ذریعے سمجھوتہ کیا جا سکتا ہے،" مصنفین اپنے مقالے میں وضاحت کرتے ہیں۔

"مثال کے طور پر، ہم GPT-3.5 ٹربو کے حفاظتی محافظوں کو OpenAI کے APIs کے ذریعے صرف 10 ڈالر سے کم لاگت پر صرف 0.20 ایسی مثالوں پر فائن ٹیوننگ کرکے جیل بریک کرتے ہیں، جس سے ماڈل کو تقریباً کسی بھی نقصان دہ ہدایات کے لیے جوابدہ بنایا جاتا ہے۔"

میٹا Llama 2 کے لیے ٹھیک ٹیوننگ کا مشورہ دیتا ہے، جو ایک کھلے عام دستیاب ماڈل ہے۔ اوپن اے آئی، جو اپنے ماڈل کے وزن کو دستیاب نہیں کرتا، اس کے باوجود اس کے تجارتی ماڈلز کے لیے ایک بہترین ٹوننگ آپشن فراہم کرتا ہے۔ کے ذریعے اس کا پلیٹ فارم ویب صفحہ۔

بوفنز نے مزید کہا کہ ان کی تحقیق یہ بھی بتاتی ہے کہ محافظوں کو بغیر کسی بدنیتی کے ارادے کے بھی نیچے لایا جا سکتا ہے۔ سومی ڈیٹاسیٹ کے ساتھ صرف ایک ماڈل کو ٹھیک کرنا حفاظتی کنٹرول کو کم کرنے کے لیے کافی ہو سکتا ہے۔

AI حفاظت کو نظرانداز کرنے کے لیے عمدہ ٹیوننگ کی مثالوں کا اسکرین شاٹ – بڑا کرنے کے لیے کلک کریں۔

"یہ نتائج بتاتے ہیں کہ فائن ٹیوننگ الائنڈ LLMs نئے حفاظتی خطرات کو متعارف کراتے ہیں جن کو حل کرنے میں موجودہ حفاظتی انفراسٹرکچر کم ہے - یہاں تک کہ اگر کسی ماڈل کی ابتدائی حفاظتی سیدھ بے عیب ہے، ضروری نہیں کہ اسے کسٹم فائن ٹیوننگ کے بعد برقرار رکھا جائے،" وہ مشاہدہ کرتے ہیں۔

مصنفین کا استدلال ہے کہ AI ماڈلز کے لیے حال ہی میں تجویز کردہ امریکی قانون سازی کا فریم ورک پہلے سے تعیناتی ماڈل لائسنسنگ اور جانچ پر مرکوز ہے۔ ان کا کہنا ہے کہ یہ نظام ماڈل کی تخصیص اور ٹھیک ٹیوننگ پر غور کرنے میں ناکام ہے۔

اس کے علاوہ، وہ کہتے ہیں، تجارتی API پر مبنی ماڈلز کھلے ماڈلز کی طرح نقصان پہنچانے کی صلاحیت رکھتے ہیں اور یہ کہ قانونی قواعد تیار کرتے وقت اور ذمہ داری تفویض کرتے وقت اس کو مدنظر رکھا جانا چاہیے۔

وہ اپنے مقالے میں کہتے ہیں، "صارفین کے لیے یہ ضروری ہے کہ وہ اپنے ماڈلز جیسے ChatGPT3.5 کو اپنی مرضی کے مطابق بنائیں تاکہ یہ یقینی بنایا جا سکے کہ وہ حفاظتی طریقہ کار میں سرمایہ کاری کریں اور صرف ماڈل کی اصل حفاظت پر انحصار نہ کریں۔"

یہ کاغذ گونجتا ہے۔ اسی طرح کے نتائج جولائی میں کارنیگی میلن یونیورسٹی، سینٹر فار اے آئی سیفٹی، اور بوش سینٹر فار اے آئی سے وابستہ کمپیوٹر سائنس دانوں سے جاری کیا گیا۔

ان محققین - اینڈی زو، زیفن وانگ، زیکو کولٹر، اور میٹ فریڈرکسن - نے خود بخود مخالف متن کے تار تیار کرنے کا ایک طریقہ تلاش کیا جسے ماڈلز میں جمع کرائے جانے والے اشارے میں شامل کیا جا سکتا ہے۔ تاریں AI حفاظتی اقدامات کو توڑتی ہیں۔

ساتھ ایک انٹرویو میں رجسٹر، کولٹر، سی ایم یو میں کمپیوٹر سائنس کے ایسوسی ایٹ پروفیسر، اور سی ایم یو میں ڈاکٹریٹ کے طالب علم زو نے پرنسٹن، ورجینیا ٹیک، آئی بی ایم ریسرچ، اور اسٹینفورڈ سے اپنے ساتھی ماہرین تعلیم کے کام کی تعریف کی۔

کولٹر نے رائے دی، "یہ غالب گمان رہا ہے کہ چیٹ بوٹس کی تجارتی API پیشکشیں، کسی نہ کسی لحاظ سے، اوپن سورس ماڈلز سے زیادہ محفوظ ہیں۔"

"میرے خیال میں یہ کاغذ جو دکھانے کا ایک اچھا کام کرتا ہے وہ یہ ہے کہ اگر آپ عوامی API میں ان صلاحیتوں کو مزید بڑھاتے ہیں تاکہ نہ صرف استفسار تک رسائی حاصل ہو، بلکہ حقیقت میں اپنے ماڈل کو ٹھیک کرنے کے قابل بھی ہو، تو اس سے خطرے کے اضافی ویکٹر کھل جاتے ہیں۔ بہت سے معاملات میں خود کو روکنا مشکل ہے۔

"اگر آپ اس نقصان دہ رویے کی اجازت دینے والے اعداد و شمار کو ٹھیک کر سکتے ہیں، تو اس کو روکنے کے لیے کمپنیوں کی طرف سے اضافی تخفیف کرنے کی ضرورت ہے، اور یہ اب چیلنجوں کا ایک نیا مجموعہ کھڑا کر دیتا ہے۔"

یہ پوچھے جانے پر کہ کیا صرف تربیتی ڈیٹا کو "محفوظ" مواد تک محدود رکھنا ایک قابل عمل طریقہ ہے، کولٹر نے شکوک کا اظہار کیا کیونکہ اس سے ماڈل کی افادیت محدود ہو جائے گی۔

"اگر آپ ماڈل کو صرف محفوظ ڈیٹا پر تربیت دیتے ہیں، تو آپ اسے مواد کے اعتدال کے فلٹر کے طور پر استعمال نہیں کر سکتے، کیونکہ یہ نہیں جانتا کہ [نقصان دہ مواد] کی مقدار کیسے طے کی جائے،" انہوں نے کہا۔ "ایک چیز جو بہت واضح ہے وہ یہ ہے کہ ایسا لگتا ہے کہ یہ تخفیف کی مزید تکنیکوں کی ضرورت کی طرف اشارہ کرتا ہے، اور اس پر مزید تحقیق کرتا ہے کہ تخفیف کی کون سی تکنیک عملی طور پر کام کر سکتی ہے۔"

سافٹ ویئر بنانے کی خواہش کے بارے میں پوچھے جانے پر جو "مجھے افسوس ہے، ڈیو، میں ایسا نہیں کر سکتا" کے مساوی جواب دیتا ہے، مسائل سے متعلق سوالات کے لیے - پیشگی رویہ جو ہم (ابھی تک؟) کاروں یا جسمانی آلات میں بنتے ہوئے نہیں دیکھتے ہیں۔ - کولٹر نے کہا کہ یہ ایک ایسا سوال ہے جو اس کی مہارت سے باہر ہے۔ لیکن اس نے اجازت دی کہ LLMs کے معاملے میں، حفاظت کو نظر انداز نہیں کیا جا سکتا کیونکہ یہ AI ماڈل جس پیمانے پر کام کر سکتے ہیں۔

ان ماڈلز کے ڈویلپرز پر یہ سوچنا فرض ہے کہ ان کا غلط استعمال کیسے کیا جا سکتا ہے۔

"مجھے یقین ہے کہ یہ ان ماڈلز کے ڈویلپرز پر فرض ہے کہ وہ اس بارے میں سوچیں کہ ان کا غلط استعمال کیسے کیا جا سکتا ہے اور ان غلط استعمال کو کم کرنے کی کوشش کریں،" انہوں نے وضاحت کی۔

"اور مجھے یہ کہنا چاہئے کہ یہ صرف ماڈلز کے ڈویلپرز پر ہی نہیں بلکہ مجموعی طور پر کمیونٹی اور بیرونی اور بیرونی فراہم کنندگان اور محققین اور اس جگہ میں کام کرنے والے ہر فرد پر فرض ہے۔ یہ سوچنا ہم پر فرض ہے کہ ان کا غلط استعمال کیسے ہو سکتا ہے۔

زو نے کہا اس کے باوجود کہ اس نے اور اس کے ساتھی مصنفین نے مخالفانہ اشارے کے بارے میں کیا پایا، اور کیا Qi ET اللہ تعالی ٹھیک ٹیوننگ کے بارے میں دریافت کیا، وہ اب بھی یقین رکھتا ہے کہ تجارتی ماڈل بنانے والوں کے لیے آگے کا راستہ ہے۔

"یہ بڑے زبان کے ماڈل جو آن لائن تعینات کیے گئے ہیں صرف چھ ماہ پہلے یا ایک سال سے بھی کم پہلے دستیاب تھے،" انہوں نے کہا۔

"لہذا حفاظتی تربیت اور گارڈریلز، یہ اب بھی فعال تحقیقی علاقے ہیں۔ لوگوں نے جو حفاظتی تربیت کی ہے اسے روکنے کے بہت سے طریقے ہو سکتے ہیں۔ لیکن اگر زیادہ لوگ ان چیزوں کے بارے میں سوچتے ہیں تو مجھے کچھ امید ہے۔

OpenAI نے تبصرہ کی درخواست کا جواب نہیں دیا۔ ®

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://go.theregister.com/feed/www.theregister.com/2023/10/12/chatbot_defenses_dissolve/

ٹائم اسٹیمپ: اکتوبر 12، 2023

ٹائم اسٹیمپ: نومبر 22، 2023

حفاظتی مطالعہ سے پتہ چلتا ہے کہ اے آئی سیفٹی گارڈریلز آسانی سے ناکام ہو گئے۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

سے زیادہ رجسٹر

GPT-4 Bing میں پاپ اپ ہو سکتا ہے، کیونکہ گوگل چیٹ بوٹ سرچ پروڈکٹس بنانے کی دوڑ لگا رہا ہے۔

اے آئی نے فرانس میں 20,000 پوشیدہ ٹیکس قابل سوئمنگ پولز کا پتہ لگایا، جس سے € 10 ملین

انٹیل کا کہنا ہے کہ وہ حقیقی وقت میں ڈیپ فیکس سے زندہ انسانوں کو ترتیب دے سکتا ہے۔

تھنک ٹینک نے خبردار کیا ہے کہ شمالی کوریا جنگ AI کے لیے بادلوں کا استعمال کرتا ہے۔

ویسے بھی یہ کس کی لائن ہے، GitHub؟ devs کے لئے کچھ نکات

امریکی فضائیہ کا کہنا ہے کہ اے آئی کے زیر کنٹرول F-16 نے انسانوں کا مقابلہ کیا ہے۔

وکیل ماں کو چہرے کی شناخت کی ٹیکنالوجی کے ذریعہ راکٹ شو سے روک دیا گیا۔

برطانیہ چاہتا ہے کہ مجرم تارکین وطن اپنے چہرے کو دن میں پانچ بار گھڑی کے ذریعے اسکین کریں۔

اگر آپ واقعی اپنے کاروبار کو تبدیل کرنا چاہتے ہیں تو پہلے اپنے انفراسٹرکچر کو تبدیل کرنے کے لیے AI حاصل کریں۔

اوپن اے آئی کے بورڈ نے سی ای او سیم آلٹ مین کو برطرف کردیا۔

ایپل مبینہ طور پر سرورز کے لیے AI چپس تیار کر رہا ہے۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ