بڑے لینگویج ماڈلز (LLMs) جیسے OpenAI کے GPT-3.5 ٹربو کو زہریلے مواد کو پھیلانے سے روکنے کے لیے بنائے گئے "گارڈ ریلز" کو بہت نازک دکھایا گیا ہے۔
پرنسٹن یونیورسٹی، ورجینیا ٹیک، آئی بی ایم ریسرچ، اور اسٹینفورڈ یونیورسٹی کے کمپیوٹر سائنس دانوں کے ایک گروپ نے ان LLMs کا تجربہ کیا تاکہ یہ دیکھا جا سکے کہ آیا حفاظتی اقدامات بائی پاس کی کوششوں کا مقابلہ کر سکتے ہیں۔
انہوں نے پایا کہ ایک معمولی رقم ٹھیک ٹیوننگ - ماڈل کی تخصیص کے لیے اضافی تربیت - AI حفاظتی کوششوں کو کالعدم کر سکتی ہے جس کا مقصد چیٹ بوٹس کو خودکشی کی حکمت عملیوں، نقصان دہ ترکیبیں، یا دیگر قسم کے مسائل والے مواد کی تجویز کرنے سے روکنا ہے۔
اس طرح کوئی، مثال کے طور پر، ایک API کے ذریعے کلاؤڈ میں GPT-3.5 ٹربو یا کوئی اور LLM استعمال کرنے کے لیے سائن اپ کر سکتا ہے، LLM بنانے والے کی طرف سے جو بھی تحفظات رکھے گئے ہیں اس کو پس پشت ڈالنے کے لیے اس پر کچھ ٹھیک ٹیوننگ لگا سکتا ہے، اور اسے شرارت اور فساد کے لیے استعمال کر سکتا ہے۔ تباہی
آپ Meta's Llama 2 جیسی کوئی چیز بھی لے سکتے ہیں، ایک ایسا ماڈل جسے آپ مقامی طور پر چلا سکتے ہیں، اور اسے ریلوں سے دور کرنے کے لیے اسے ٹھیک ٹیون کر سکتے ہیں، حالانکہ ہم نے سوچا کہ یہ ہمیشہ ایک امکان ہے۔ API کا راستہ ہمارے لیے زیادہ خطرناک معلوم ہوتا ہے کیونکہ ہم تصور کرتے ہیں کہ کلاؤڈ ہوسٹڈ ماڈل کے ارد گرد زیادہ ٹھوس ریڑھیاں ہیں، جنہیں ممکنہ طور پر ٹھیک ٹیوننگ سے شکست دی جا سکتی ہے۔
محققین – Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, and Peter Henderson – اپنے کام کی وضاحت کرتے ہیں۔ ایک حالیہ پری پرنٹ کاغذ, "فائن ٹیوننگ الائنڈ لینگویج ماڈلز حفاظت سے سمجھوتہ کرتے ہیں، یہاں تک کہ جب صارفین کا ارادہ نہ ہو!"
"ہمارے ریڈ ٹیمنگ اسٹڈیز سے پتہ چلتا ہے کہ LLMs کی حفاظتی صف بندی کو صرف چند مخالفانہ طور پر تیار کردہ تربیتی مثالوں کے ساتھ ٹھیک ٹیوننگ کے ذریعے سمجھوتہ کیا جا سکتا ہے،" مصنفین اپنے مقالے میں وضاحت کرتے ہیں۔
"مثال کے طور پر، ہم GPT-3.5 ٹربو کے حفاظتی محافظوں کو OpenAI کے APIs کے ذریعے صرف 10 ڈالر سے کم لاگت پر صرف 0.20 ایسی مثالوں پر فائن ٹیوننگ کرکے جیل بریک کرتے ہیں، جس سے ماڈل کو تقریباً کسی بھی نقصان دہ ہدایات کے لیے جوابدہ بنایا جاتا ہے۔"
میٹا Llama 2 کے لیے ٹھیک ٹیوننگ کا مشورہ دیتا ہے، جو ایک کھلے عام دستیاب ماڈل ہے۔ اوپن اے آئی، جو اپنے ماڈل کے وزن کو دستیاب نہیں کرتا، اس کے باوجود اس کے تجارتی ماڈلز کے لیے ایک بہترین ٹوننگ آپشن فراہم کرتا ہے۔ کے ذریعے اس کا پلیٹ فارم ویب صفحہ۔
بوفنز نے مزید کہا کہ ان کی تحقیق یہ بھی بتاتی ہے کہ محافظوں کو بغیر کسی بدنیتی کے ارادے کے بھی نیچے لایا جا سکتا ہے۔ سومی ڈیٹاسیٹ کے ساتھ صرف ایک ماڈل کو ٹھیک کرنا حفاظتی کنٹرول کو کم کرنے کے لیے کافی ہو سکتا ہے۔
"یہ نتائج بتاتے ہیں کہ فائن ٹیوننگ الائنڈ LLMs نئے حفاظتی خطرات کو متعارف کراتے ہیں جن کو حل کرنے میں موجودہ حفاظتی انفراسٹرکچر کم ہے - یہاں تک کہ اگر کسی ماڈل کی ابتدائی حفاظتی سیدھ بے عیب ہے، ضروری نہیں کہ اسے کسٹم فائن ٹیوننگ کے بعد برقرار رکھا جائے،" وہ مشاہدہ کرتے ہیں۔
مصنفین کا استدلال ہے کہ AI ماڈلز کے لیے حال ہی میں تجویز کردہ امریکی قانون سازی کا فریم ورک پہلے سے تعیناتی ماڈل لائسنسنگ اور جانچ پر مرکوز ہے۔ ان کا کہنا ہے کہ یہ نظام ماڈل کی تخصیص اور ٹھیک ٹیوننگ پر غور کرنے میں ناکام ہے۔
اس کے علاوہ، وہ کہتے ہیں، تجارتی API پر مبنی ماڈلز کھلے ماڈلز کی طرح نقصان پہنچانے کی صلاحیت رکھتے ہیں اور یہ کہ قانونی قواعد تیار کرتے وقت اور ذمہ داری تفویض کرتے وقت اس کو مدنظر رکھا جانا چاہیے۔
وہ اپنے مقالے میں کہتے ہیں، "صارفین کے لیے یہ ضروری ہے کہ وہ اپنے ماڈلز جیسے ChatGPT3.5 کو اپنی مرضی کے مطابق بنائیں تاکہ یہ یقینی بنایا جا سکے کہ وہ حفاظتی طریقہ کار میں سرمایہ کاری کریں اور صرف ماڈل کی اصل حفاظت پر انحصار نہ کریں۔"
یہ کاغذ گونجتا ہے۔ اسی طرح کے نتائج جولائی میں کارنیگی میلن یونیورسٹی، سینٹر فار اے آئی سیفٹی، اور بوش سینٹر فار اے آئی سے وابستہ کمپیوٹر سائنس دانوں سے جاری کیا گیا۔
ان محققین - اینڈی زو، زیفن وانگ، زیکو کولٹر، اور میٹ فریڈرکسن - نے خود بخود مخالف متن کے تار تیار کرنے کا ایک طریقہ تلاش کیا جسے ماڈلز میں جمع کرائے جانے والے اشارے میں شامل کیا جا سکتا ہے۔ تاریں AI حفاظتی اقدامات کو توڑتی ہیں۔
ساتھ ایک انٹرویو میں رجسٹر، کولٹر، سی ایم یو میں کمپیوٹر سائنس کے ایسوسی ایٹ پروفیسر، اور سی ایم یو میں ڈاکٹریٹ کے طالب علم زو نے پرنسٹن، ورجینیا ٹیک، آئی بی ایم ریسرچ، اور اسٹینفورڈ سے اپنے ساتھی ماہرین تعلیم کے کام کی تعریف کی۔
کولٹر نے رائے دی، "یہ غالب گمان رہا ہے کہ چیٹ بوٹس کی تجارتی API پیشکشیں، کسی نہ کسی لحاظ سے، اوپن سورس ماڈلز سے زیادہ محفوظ ہیں۔"
"میرے خیال میں یہ کاغذ جو دکھانے کا ایک اچھا کام کرتا ہے وہ یہ ہے کہ اگر آپ عوامی API میں ان صلاحیتوں کو مزید بڑھاتے ہیں تاکہ نہ صرف استفسار تک رسائی حاصل ہو، بلکہ حقیقت میں اپنے ماڈل کو ٹھیک کرنے کے قابل بھی ہو، تو اس سے خطرے کے اضافی ویکٹر کھل جاتے ہیں۔ بہت سے معاملات میں خود کو روکنا مشکل ہے۔
"اگر آپ اس نقصان دہ رویے کی اجازت دینے والے اعداد و شمار کو ٹھیک کر سکتے ہیں، تو اس کو روکنے کے لیے کمپنیوں کی طرف سے اضافی تخفیف کرنے کی ضرورت ہے، اور یہ اب چیلنجوں کا ایک نیا مجموعہ کھڑا کر دیتا ہے۔"
یہ پوچھے جانے پر کہ کیا صرف تربیتی ڈیٹا کو "محفوظ" مواد تک محدود رکھنا ایک قابل عمل طریقہ ہے، کولٹر نے شکوک کا اظہار کیا کیونکہ اس سے ماڈل کی افادیت محدود ہو جائے گی۔
"اگر آپ ماڈل کو صرف محفوظ ڈیٹا پر تربیت دیتے ہیں، تو آپ اسے مواد کے اعتدال کے فلٹر کے طور پر استعمال نہیں کر سکتے، کیونکہ یہ نہیں جانتا کہ [نقصان دہ مواد] کی مقدار کیسے طے کی جائے،" انہوں نے کہا۔ "ایک چیز جو بہت واضح ہے وہ یہ ہے کہ ایسا لگتا ہے کہ یہ تخفیف کی مزید تکنیکوں کی ضرورت کی طرف اشارہ کرتا ہے، اور اس پر مزید تحقیق کرتا ہے کہ تخفیف کی کون سی تکنیک عملی طور پر کام کر سکتی ہے۔"
سافٹ ویئر بنانے کی خواہش کے بارے میں پوچھے جانے پر جو "مجھے افسوس ہے، ڈیو، میں ایسا نہیں کر سکتا" کے مساوی جواب دیتا ہے، مسائل سے متعلق سوالات کے لیے - پیشگی رویہ جو ہم (ابھی تک؟) کاروں یا جسمانی آلات میں بنتے ہوئے نہیں دیکھتے ہیں۔ - کولٹر نے کہا کہ یہ ایک ایسا سوال ہے جو اس کی مہارت سے باہر ہے۔ لیکن اس نے اجازت دی کہ LLMs کے معاملے میں، حفاظت کو نظر انداز نہیں کیا جا سکتا کیونکہ یہ AI ماڈل جس پیمانے پر کام کر سکتے ہیں۔
ان ماڈلز کے ڈویلپرز پر یہ سوچنا فرض ہے کہ ان کا غلط استعمال کیسے کیا جا سکتا ہے۔
"مجھے یقین ہے کہ یہ ان ماڈلز کے ڈویلپرز پر فرض ہے کہ وہ اس بارے میں سوچیں کہ ان کا غلط استعمال کیسے کیا جا سکتا ہے اور ان غلط استعمال کو کم کرنے کی کوشش کریں،" انہوں نے وضاحت کی۔
"اور مجھے یہ کہنا چاہئے کہ یہ صرف ماڈلز کے ڈویلپرز پر ہی نہیں بلکہ مجموعی طور پر کمیونٹی اور بیرونی اور بیرونی فراہم کنندگان اور محققین اور اس جگہ میں کام کرنے والے ہر فرد پر فرض ہے۔ یہ سوچنا ہم پر فرض ہے کہ ان کا غلط استعمال کیسے ہو سکتا ہے۔
زو نے کہا اس کے باوجود کہ اس نے اور اس کے ساتھی مصنفین نے مخالفانہ اشارے کے بارے میں کیا پایا، اور کیا Qi ET اللہ تعالی ٹھیک ٹیوننگ کے بارے میں دریافت کیا، وہ اب بھی یقین رکھتا ہے کہ تجارتی ماڈل بنانے والوں کے لیے آگے کا راستہ ہے۔
"یہ بڑے زبان کے ماڈل جو آن لائن تعینات کیے گئے ہیں صرف چھ ماہ پہلے یا ایک سال سے بھی کم پہلے دستیاب تھے،" انہوں نے کہا۔
"لہذا حفاظتی تربیت اور گارڈریلز، یہ اب بھی فعال تحقیقی علاقے ہیں۔ لوگوں نے جو حفاظتی تربیت کی ہے اسے روکنے کے بہت سے طریقے ہو سکتے ہیں۔ لیکن اگر زیادہ لوگ ان چیزوں کے بارے میں سوچتے ہیں تو مجھے کچھ امید ہے۔
OpenAI نے تبصرہ کی درخواست کا جواب نہیں دیا۔ ®
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://go.theregister.com/feed/www.theregister.com/2023/10/12/chatbot_defenses_dissolve/
- : ہے
- : ہے
- : نہیں
- $UP
- 10
- 20
- 7
- a
- قابلیت
- ہمارے بارے میں
- اکادمک
- تک رسائی حاصل
- اکاؤنٹ
- فعال
- اصل میں
- شامل کریں
- ایڈیشنل
- خطاب کرتے ہوئے
- شکست
- وابستہ
- کے بعد
- پہلے
- AI
- اے آئی ماڈلز
- مقصد
- منسلک
- صف بندی
- کی اجازت
- کی اجازت دیتا ہے
- بھی
- ہمیشہ
- am
- رقم
- an
- اور
- کوئی بھی
- اے پی آئی
- APIs
- ظاہر
- کا اطلاق کریں
- نقطہ نظر
- کیا
- علاقوں
- بحث
- ارد گرد
- AS
- ایسوسی ایٹ
- مفروضہ
- At
- کوششیں
- اضافہ
- مصنفین
- خود کار طریقے سے
- دستیاب
- BE
- کیونکہ
- رہا
- رویے
- کیا جا رہا ہے
- یقین ہے کہ
- خیال ہے
- سے پرے
- توڑ
- لایا
- تعمیر
- لیکن
- by
- کر سکتے ہیں
- نہیں کر سکتے ہیں
- صلاحیتوں
- صلاحیت رکھتا
- کارنیگی میلون
- کاریں
- کیس
- مقدمات
- سینٹر
- چیلنجوں
- چیٹ بٹس
- چن
- ناگوار
- واضح
- کلک کریں
- بادل
- CO
- تبصرہ
- تجارتی
- کمیونٹی
- کمپنیاں
- سمجھوتہ کیا
- کمپیوٹر
- کمپیوٹر سائنس
- غور کریں
- مواد
- کنٹرول
- قیمت
- سکتا ہے
- بنائی
- تخلیق
- موجودہ
- اپنی مرضی کے
- گاہکوں
- اصلاح
- خطرناک
- اعداد و شمار
- ڈیو
- تعینات
- بیان
- ڈیزائن
- کے باوجود
- ڈویلپرز
- DID
- دریافت
- do
- کرتا
- کر
- ڈان
- کیا
- نیچے
- آسانی سے
- اقرار
- کوششوں
- کافی
- کو یقینی بنانے کے
- مساوی
- بھی
- سب
- مثال کے طور پر
- مثال کے طور پر
- مہارت
- وضاحت
- وضاحت کی
- اظہار
- بیرونی
- ناکام رہتا ہے
- گر
- ساتھی
- چند
- فلٹر
- مل
- نتائج
- پتہ ہے
- آخر
- توجہ مرکوز
- کے لئے
- آگے
- ملا
- فریم ورک
- سے
- مزید
- پیدا
- GitHub کے
- Go
- جاتا ہے
- اچھا
- بہت اعلی
- گروپ
- ہارڈ
- نقصان پہنچانے
- نقصان دہ
- ہے
- he
- ان
- امید
- کس طرح
- کیسے
- HTTPS
- i
- IBM
- if
- تصور
- ضروری ہے
- in
- مابعد
- اشارہ کرتا ہے
- بنیادی ڈھانچہ
- موروثی طور پر
- ابتدائی
- مثال کے طور پر
- ہدایات
- ارادہ
- ارادے
- انٹرویو
- میں
- متعارف کرواتا ہے
- سرمایہ کاری
- IT
- میں
- باگنی
- ایوب
- فوٹو
- جولائی
- صرف
- جان
- زبان
- بڑے
- قانونی
- قانون سازی
- کم
- ذمہ داری
- لائسنسنگ
- کی طرح
- LIMIT
- محدود
- لاما
- ایل ایل ایم
- مقامی طور پر
- اب
- بنا
- میکر
- سازوں
- بنانا
- بہت سے
- میٹ
- مئی..
- اقدامات
- نظام
- میلن
- میٹا
- تخفیف کریں
- تخفیف
- ماڈل
- ماڈل
- اعتدال پسند
- معمولی
- ماہ
- زیادہ
- تقریبا
- ضروری ہے
- ضرورت ہے
- ضروریات
- نئی
- نہیں
- اب
- مشاہدہ
- of
- بند
- پیشکشیں
- on
- ایک
- آن لائن
- صرف
- کھول
- اوپن سورس
- اوپنائی
- کھل کر
- کھولتا ہے
- کام
- اختیار
- or
- حکم
- اصل
- دیگر
- ہمارے
- زیر اثر
- کاغذ.
- لوگ
- پیٹر
- جسمانی
- مقام
- پلیٹ فارم
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- پوائنٹ
- امکان
- ممکنہ طور پر
- پریکٹس
- کی روک تھام
- پرنسٹن
- ٹیچر
- مجوزہ
- فراہم کرنے والے
- فراہم کرتا ہے
- عوامی
- ڈال
- Qi
- سوالات
- سوال
- ریلیں
- اٹھاتا ہے
- حال ہی میں
- حال ہی میں
- ریڈ
- حکومت
- جاری
- انحصار کرو
- درخواست
- تحقیق
- محققین
- جواب
- قبول
- خطرات
- روٹ
- قوانین
- رن
- s
- محفوظ
- محفوظ
- سیفٹی
- کہا
- کا کہنا ہے کہ
- پیمانے
- سائنس
- سائنسدانوں
- سیکورٹی
- دیکھنا
- لگتا ہے
- لگتا ہے
- احساس
- مقرر
- مختصر
- ہونا چاہئے
- دکھایا گیا
- سائن ان کریں
- صرف
- چھ
- چھ ماہ
- شکوک و شبہات
- So
- سافٹ ویئر کی
- کچھ
- کسی
- کچھ
- کچھ بھی نہیں
- ماخذ
- خلا
- اسٹینفورڈ
- اسٹینفورڈ یونیورسٹی
- ابھی تک
- حکمت عملیوں
- طالب علم
- مطالعہ
- مطالعہ
- جمع کرائی
- کافی
- اس طرح
- مشورہ
- پتہ چلتا ہے
- سمجھا
- لے لو
- لیا
- ٹیک
- تکنیک
- تجربہ
- ٹیسٹنگ
- متن
- سے
- کہ
- ۔
- ان
- خود
- تو
- وہاں.
- یہ
- وہ
- بات
- چیزیں
- لگتا ہے کہ
- اس
- ان
- اگرچہ؟
- سوچا
- خطرہ
- کرنے کے لئے
- اوزار
- ٹرین
- ٹریننگ
- کوشش
- یونیورسٹی
- صلی اللہ علیہ وسلم
- us
- استعمال کی شرائط
- صارفین
- کی افادیت
- بہت
- کی طرف سے
- قابل عمل
- ورجینیا
- تھا
- راستہ..
- طریقوں
- we
- تھے
- کیا
- جو کچھ بھی
- جب
- چاہے
- جس
- پوری
- ساتھ
- بغیر
- کام
- کام کر
- گا
- نہیں
- سال
- ابھی
- تم
- اور
- زیفیرنیٹ