لینگویج ماڈل سیفٹی اور پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے غلط استعمال پر سیکھے گئے اسباق۔ عمودی تلاش۔ عی

زبان کے ماڈل کی حفاظت اور غلط استعمال کے بارے میں سیکھے گئے اسباق

زبان کے ماڈل کی حفاظت اور غلط استعمال کے بارے میں سیکھے گئے اسباق

طاقتور AI سسٹمز کی تعیناتی نے حفاظت اور غلط استعمال کے بارے میں ہماری سمجھ کو اس سے کہیں زیادہ بڑھا دیا ہے جو صرف تحقیق کے ذریعے ممکن ہو سکتا تھا۔ خاص طور پر:

  • API پر مبنی زبان کے ماڈل کا غلط استعمال اکثر اس سے مختلف شکلوں میں آتا ہے جس کا ہمیں سب سے زیادہ خدشہ تھا۔
  • ہم نے موجودہ زبان کے ماڈل کی تشخیص میں حدود کی نشاندہی کی ہے جن کو ہم ناول بینچ مارکس اور درجہ بندی کے ساتھ حل کر رہے ہیں۔
  • بنیادی حفاظتی تحقیق AI سسٹمز کی تجارتی افادیت کے لیے اہم فوائد پیش کرتی ہے۔

یہاں، ہم دوسرے AI ڈویلپرز کی حفاظت اور تعینات کردہ ماڈلز کے غلط استعمال سے نمٹنے میں مدد کرنے کی امید میں اپنی تازہ ترین سوچ کو بیان کرتے ہیں۔


Oگزشتہ دو سالوں سے، ہم نے اس بارے میں بہت کچھ سیکھا ہے کہ کس طرح زبان کے ماڈلز کا استعمال اور غلط استعمال کیا جا سکتا ہے — وہ بصیرتیں جو ہم حقیقی دنیا کی تعیناتی کے تجربے کے بغیر حاصل نہیں کر سکتے تھے۔ جون 2020 میں، ہم نے ڈویلپرز اور محققین تک رسائی دینا شروع کی۔ اوپن اے آئی API, OpenAI کے تیار کردہ نئے AI ماڈلز کے اوپر ایپلی کیشنز تک رسائی اور تعمیر کرنے کا ایک انٹرفیس۔ GPT-3، کوڈیکس، اور دیگر ماڈلز کو اس طریقے سے تعینات کرنا جس سے نقصان کے خطرات کو کم کیا جائے، مختلف تکنیکی اور پالیسی چیلنجز کا سامنا ہے۔

ہمارے ماڈل کی تعیناتی کے نقطہ نظر کا جائزہ

زبان کے بڑے ماڈل اب کارکردگی دکھانے کے قابل ہیں۔ کاموں کی بہت وسیع رینج، اکثر باکس سے باہر۔ ان کے رسک پروفائلز، ممکنہ ایپلی کیشنز، اور معاشرے پر وسیع اثرات رہے غیر تسلی بخش سمجھا. نتیجے کے طور پر، ہمارا تعیناتی نقطہ نظر مسلسل تکرار پر زور دیتا ہے، اور متعلقہ خطرات کو کم کرتے ہوئے تعیناتی کے فوائد کو زیادہ سے زیادہ کرنے کے لیے درج ذیل حکمت عملیوں کا استعمال کرتا ہے:

  • پہلے سے تعیناتی خطرے کا تجزیہ، حفاظتی جائزوں کے بڑھتے ہوئے سیٹ اور ریڈ ٹیمنگ ٹولز کا فائدہ اٹھاتے ہوئے (مثال کے طور پر، ہم نے تشخیص کا استعمال کرتے ہوئے کسی بھی حفاظتی انحطاط کے لیے اپنے InstructGPT کو چیک کیا۔ ذیل میں بات چیت کی)
  • ایک چھوٹے صارف کی بنیاد کے ساتھ شروع کرنا (مثال کے طور پر، دونوں GPT-3 اور ہمارے جی پی ٹی کو ہدایات دیں۔ سلسلہ نجی بیٹا کے طور پر شروع ہوا)
  • ناول کے استعمال کے کیسز کے پائلٹس کے نتائج کا مطالعہ کرنا (مثال کے طور پر، ان حالات کی کھوج کرنا جن کے تحت ہم محفوظ طریقے سے لانگفارم مواد کی تخلیق کو فعال کر سکتے ہیں، صارفین کی ایک چھوٹی تعداد کے ساتھ کام کرتے ہوئے)
  • ایسے عمل کو نافذ کرنا جو استعمال پر نبض رکھنے میں مدد کرتے ہیں (مثال کے طور پر استعمال کے معاملات کا جائزہ، ٹوکن کوٹہ، اور شرح کی حد)
  • تفصیلی سابقہ ​​جائزے کا انعقاد (مثلاً، حفاظتی واقعات اور بڑی تعیناتیوں کا)
زبان کے ماڈل کی حفاظت اور غلط استعمال کے بارے میں سیکھے گئے اسباق


نوٹ کریں کہ اس خاکہ کا مقصد ماڈل کی ترقی اور تعیناتی کے مسلسل عمل میں فیڈ بیک لوپس کی ضرورت کو بصری طور پر بتانا ہے اور اس حقیقت کو کہ ہر مرحلے پر حفاظت کو مربوط کیا جانا چاہیے۔ اس کا مقصد ہماری یا کسی دوسری تنظیم کے عمل کی مکمل یا مثالی تصویر پیش کرنا نہیں ہے۔

ذمہ دارانہ تعیناتی کے لیے کوئی چاندی کی گولی نہیں ہے، اس لیے ہم ترقی اور تعیناتی کے ہر مرحلے پر اپنے ماڈلز کی حدود، اور غلط استعمال کے ممکنہ راستوں کے بارے میں جاننے اور ان سے نمٹنے کی کوشش کرتے ہیں۔ یہ نقطہ نظر ہمیں چھوٹے پیمانے پر حفاظت اور پالیسی کے مسائل کے بارے میں زیادہ سے زیادہ سیکھنے اور بڑے پیمانے پر تعیناتیوں کو شروع کرنے سے پہلے ان بصیرتوں کو شامل کرنے کی اجازت دیتا ہے۔


ذمہ دار تعیناتی کے لیے کوئی چاندی کی گولی نہیں ہے۔

اگرچہ مکمل نہیں ہے، کچھ ایسے شعبے جہاں ہم نے اب تک سرمایہ کاری کی ہے ان میں شامل ہیں۔ہے [1]:

چونکہ مداخلت کے ہر مرحلے کی حدود ہوتی ہیں، اس لیے ایک جامع نقطہ نظر ضروری ہے۔

ایسے شعبے ہیں جہاں ہم مزید کام کر سکتے تھے اور جہاں ہمارے پاس اب بھی بہتری کی گنجائش ہے۔ مثال کے طور پر، جب ہم نے پہلی بار GPT-3 پر کام کیا، تو ہم نے اسے پروڈکشن سسٹم کے بجائے ایک اندرونی تحقیقی نمونے کے طور پر دیکھا اور زہریلے تربیتی ڈیٹا کو فلٹر کرنے میں اتنے جارحانہ نہیں تھے جتنا کہ ہم دوسری صورت میں ہوتے۔ ہم نے بعد کے ماڈلز کے لیے اس طرح کے مواد کی تحقیق اور اسے ہٹانے میں مزید سرمایہ کاری کی ہے۔ ہم نے ایسے معاملات میں غلط استعمال کی کچھ مثالوں کو حل کرنے میں زیادہ وقت لیا ہے جہاں ہمارے پاس اس موضوع پر واضح پالیسیاں نہیں تھیں، اور ان پالیسیوں کو دہرانے میں بہتر ہو گئے ہیں۔ اور ہم حفاظتی تقاضوں کے پیکج کی طرف اعادہ کرتے رہتے ہیں جو خطرات سے نمٹنے میں زیادہ سے زیادہ مؤثر ہے، جبکہ ڈیولپرز کو واضح طور پر مطلع کیا جاتا ہے اور ضرورت سے زیادہ رگڑ کو کم کرتا ہے۔

پھر بھی، ہمیں یقین ہے کہ ہمارے نقطہ نظر نے ہمیں زبان کے ماڈل کے استعمال سے مختلف قسم کے نقصانات کی پیمائش کرنے اور اسے کم کرنے کے قابل بنایا ہے، جبکہ اس کے ساتھ ساتھ ہمارے علمی، فنکارانہ اور تجارتی ایپلی کیشنز کی ایک وسیع رینج کو بھی قابل بنایا ہے۔ ماڈلزہے [2]

زبان کے ماڈل کے غلط استعمال کی بہت سی شکلیں اور سائز

اوپن اے آئی اے آئی کے غلط استعمال کے خطرات کی تحقیق کے لیے ہمارے ابتدائی کام کے بعد سے سرگرم ہے۔ AI کا بدنیتی پر مبنی استعمال 2018 میں GPT-2 پر 2019 میں، اور ہم نے اثر و رسوخ کی کارروائیوں کو بااختیار بنانے والے AI سسٹمز پر خصوصی توجہ دی ہے۔ ہمارے پاس ہے۔ کے ساتھ کام کیا تیار کرنے کے لئے بیرونی ماہرین تصور کے ثبوت اور فروغ دیا ہوشیار تجزیہ تیسرے فریق کی طرف سے اس طرح کے خطرات کا۔ ہم زبان کے ماڈل سے منسلک اثر و رسوخ کی کارروائیوں سے وابستہ خطرات سے نمٹنے کے لیے پرعزم ہیں اور حال ہی میں اس موضوع پر ایک ورکشاپ کا مشترکہ اہتمام کیا ہے۔ہے [3]

اس کے باوجود ہم نے سینکڑوں اداکاروں کا پتہ لگا کر روکا ہے جو GPT-3 کو اثر و رسوخ کی کارروائیوں کے لیے غلط معلومات فراہم کرنے سے زیادہ وسیع تر مقاصد کے لیے غلط استعمال کرنے کی کوشش کر رہے ہیں، بشمول وہ طریقے جن کی یا تو ہم نے توقع نہیں کی تھی یا جس کی ہمیں توقع تھی لیکن ہونے کی توقع نہیں تھی۔ اتنا مروجہہے [4] ہماری کیس ہدایات کا استعمال کریں, مواد کے رہنما خطوط، اور اندرونی پتہ لگانے اور ردعمل کا بنیادی ڈھانچہ ابتدائی طور پر ان خطرات کی طرف تھا جن کی ہم نے اندرونی اور بیرونی تحقیق کی بنیاد پر توقع کی تھی، جیسے GPT-3 کے ساتھ گمراہ کن سیاسی مواد کی تخلیق یا Codex کے ساتھ میلویئر کی نسل۔ ہماری کھوج اور ردعمل کی کوششیں وقت کے ساتھ ساتھ "جنگل میں" غلط استعمال کے حقیقی واقعات کے جواب میں تیار ہوئی ہیں جو ہمارے ابتدائی خطرے کے جائزوں میں اثر انداز ہونے والی کارروائیوں کی طرح نمایاں نہیں ہیں۔ مثالوں میں مشکوک طبی پروڈکٹس کے لیے اسپام پروموشنز اور نسل پرستانہ تصورات کا کردار ادا کرنا شامل ہیں۔

زبان کے ماڈل کے غلط استعمال اور اس میں تخفیف کے مطالعہ کی حمایت کرنے کے لیے، ہم اس سال حفاظتی واقعات کے اعدادوشمار کو شیئر کرنے کے مواقع تلاش کر رہے ہیں، تاکہ زبان کے ماڈل کے غلط استعمال کے بارے میں بات چیت کو ٹھوس بنایا جا سکے۔

رسک اور اثر کی پیمائش کی مشکل

لینگویج ماڈلز کے خطرات اور اثرات کے بہت سے پہلوؤں کی پیمائش کرنا مشکل ہے اور اس لیے جوابدہ طریقے سے نگرانی، کم سے کم، اور انکشاف کرنا مشکل ہے۔ ہم نے زبان کے ماڈل کی تشخیص کے لیے موجودہ تعلیمی معیارات کا فعال استعمال کیا ہے اور ہم بیرونی کام کو جاری رکھنے کے لیے بے چین ہیں، لیکن ہم نے یہ بھی پایا ہے کہ موجودہ بینچ مارک ڈیٹاسیٹس اکثر حفاظت اور غلط استعمال کے خطرات کی عکاسی نہیں کرتے جو ہم عملی طور پر دیکھتے ہیں۔ہے [5]

اس طرح کی حدود اس حقیقت کی عکاسی کرتی ہیں کہ تعلیمی ڈیٹاسیٹ شاذ و نادر ہی زبان کے ماڈلز کے پیداواری استعمال کو مطلع کرنے کے واضح مقصد کے لیے بنائے جاتے ہیں، اور اس طرح کے ماڈلز کو پیمانے پر تعینات کرنے سے حاصل ہونے والے تجربے سے فائدہ نہیں اٹھاتے ہیں۔ نتیجے کے طور پر، ہم اپنے ماڈلز کی حفاظت کی پیمائش کے لیے نئے تشخیصی ڈیٹا سیٹس اور فریم ورک تیار کر رہے ہیں، جسے ہم جلد ہی جاری کرنے کا ارادہ رکھتے ہیں۔ خاص طور پر، ہم نے ماڈل آؤٹ پٹس میں زہریلے پن کی پیمائش کے لیے نئے تشخیصی میٹرکس تیار کیے ہیں اور اس مواد کا پتہ لگانے کے لیے اندرون خانہ درجہ بندی بھی تیار کیے ہیں جو ہمارے مواد کی پالیسی، جیسے شہوانی، شہوت انگیز مواد، نفرت انگیز تقریر، تشدد، ہراساں کرنا، اور خود کو نقصان پہنچانا۔ ان دونوں کو بدلے میں ہمارے پری ٹریننگ ڈیٹا کو بہتر بنانے کے لیے بھی فائدہ اٹھایا گیا ہے۔ہے [6]خاص طور پر، مواد کو فلٹر کرنے کے لیے درجہ بندی کا استعمال کرتے ہوئے اور ڈیٹاسیٹ مداخلتوں کے اثرات کی پیمائش کرنے کے لیے تشخیصی میٹرکس۔

مختلف جہتوں کے ساتھ انفرادی ماڈل آؤٹ پٹس کو قابل اعتماد طریقے سے درجہ بندی کرنا مشکل ہے، اور OpenAI API کے پیمانے پر ان کے سماجی اثرات کی پیمائش کرنا اور بھی مشکل ہے۔ ہم نے اس طرح کی پیمائش کے لیے ادارہ جاتی عضلہ بنانے کے لیے کئی داخلی مطالعات کیے ہیں، لیکن ان میں اکثر جوابات سے زیادہ سوالات پیدا ہوتے ہیں۔

ہم خاص طور پر اپنے ماڈلز کے معاشی اثرات اور ان اثرات کی تقسیم کو بہتر طور پر سمجھنے میں دلچسپی رکھتے ہیں۔ ہمارے پاس یہ یقین کرنے کی معقول وجہ ہے کہ موجودہ ماڈلز کی تعیناتی سے لیبر مارکیٹ کے اثرات پہلے سے ہی مکمل طور پر اہم ہو سکتے ہیں، اور یہ کہ ہمارے ماڈلز کی صلاحیتوں اور رسائی کے بڑھنے کے ساتھ ساتھ وہ بڑھیں گے۔ ہم نے آج تک مختلف قسم کے مقامی اثرات کے بارے میں سیکھا ہے، بشمول کاپی رائٹنگ اور خلاصہ (کبھی کبھی ملازمت کی نقل مکانی اور تخلیق میں حصہ ڈالنے) جیسے لوگوں کے ذریعہ انجام دیئے گئے موجودہ کاموں میں بڑے پیمانے پر پیداواری بہتری، نیز ایسے معاملات جہاں API نے نئی ایپلی کیشنز کو غیر مقفل کیا جو پہلے ناقابل عمل تھیں۔ ، جیسا کہ بڑے پیمانے پر کوالٹیٹو فیڈ بیک کی ترکیب. لیکن ہمارے پاس خالص اثرات کی اچھی سمجھ نہیں ہے۔

ہمارا ماننا ہے کہ طاقتور AI ٹیکنالوجیز تیار کرنے اور ان کی تعیناتی کرنے والوں کے لیے یہ ضروری ہے کہ وہ اپنے کام کے مثبت اور منفی دونوں اثرات کو دور کریں۔ ہم اس پوسٹ کے اختتامی حصے میں اس سمت میں کچھ اقدامات پر تبادلہ خیال کرتے ہیں۔

اے آئی سسٹمز کی حفاظت اور افادیت کے درمیان تعلق

ہمارے میں چارٹر2018 میں شائع ہوا، ہم کہتے ہیں کہ ہم "آخری مرحلے کے AGI کی ترقی کے لیے مناسب حفاظتی احتیاطی تدابیر کے بغیر وقت کے ایک مسابقتی دوڑ بننے کے بارے میں فکر مند ہیں۔" ہم پھر شائع مسابقتی AI ترقی کا تفصیلی تجزیہ، اور ہم نے قریب سے پیروی کی ہے۔ بعد میں تحقیق ایک ہی وقت میں، OpenAI API کے ذریعے AI سسٹمز کی تعیناتی نے حفاظت اور افادیت کے درمیان ہم آہنگی کے بارے میں ہماری سمجھ کو بھی گہرا کیا ہے۔

مثال کے طور پر، ڈویلپرز بڑے پیمانے پر ہمارے InstructGPT ماڈلز کو ترجیح دیتے ہیں- جو صارف کے ارادوں کی پیروی کرنے کے لیے ٹھیک بنائے گئے ہیں۔ہے [7]-بیس GPT-3 ماڈلز کے اوپر۔ خاص طور پر، تاہم، InstructGPT ماڈل اصل میں تجارتی تحفظات سے محرک نہیں تھے، بلکہ ان کا مقصد طویل مدتی ترقی کرنا تھا۔ صف بندی کے مسائل. عملی اصطلاحات میں، اس کا مطلب یہ ہے کہ صارفین، شاید حیرت کی بات نہیں، زیادہ تر ایسے ماڈلز کو ترجیح دیتے ہیں جو کام پر رہتے ہیں اور صارف کے ارادے کو سمجھتے ہیں، اور ایسے ماڈلز جن سے نقصان دہ یا غلط نتائج پیدا کرنے کا امکان کم ہوتا ہے۔ہے [8] دیگر بنیادی تحقیق، جیسے کہ ہمارا کام معلومات کا فائدہ اٹھانا سوالوں کے زیادہ سچائی سے جواب دینے کے لیے انٹرنیٹ سے حاصل کیا گیا، اس میں AI سسٹمز کی تجارتی افادیت کو بہتر بنانے کی صلاحیت بھی ہے۔ہے [9]

یہ ہم آہنگی ہمیشہ نہیں ہو گی۔ مثال کے طور پر، زیادہ طاقتور نظاموں کو اکثر منافع کے فوری مواقع کی پیش گوئی کرتے ہوئے مؤثر طریقے سے جانچنے اور ترتیب دینے میں زیادہ وقت لگتا ہے۔ اور ایک صارف کی افادیت اور معاشرے کی افادیت منفی خارجیوں کی وجہ سے ہم آہنگ نہیں ہوسکتی ہے — مکمل طور پر خودکار کاپی رائٹنگ پر غور کریں، جو مواد کے تخلیق کاروں کے لیے فائدہ مند ہو سکتا ہے لیکن مجموعی طور پر معلوماتی ماحولیاتی نظام کے لیے برا ہے۔

حفاظت اور افادیت کے درمیان مضبوط ہم آہنگی کے معاملات کو دیکھنا حوصلہ افزا ہے، لیکن ہم حفاظت اور پالیسی تحقیق میں سرمایہ کاری کے لیے پرعزم ہیں یہاں تک کہ جب وہ تجارتی افادیت کے ساتھ تجارت کرتے ہیں۔


ہم حفاظت اور پالیسی تحقیق میں سرمایہ کاری کے لیے پرعزم ہیں یہاں تک کہ جب وہ تجارتی افادیت کے خلاف تجارت کرتے ہیں۔

شامل ہونے کے طریقے

مندرجہ بالا سبق میں سے ہر ایک اپنے اپنے نئے سوالات اٹھاتا ہے۔ ہم اب بھی کس قسم کے حفاظتی واقعات کا پتہ لگانے اور ان کا اندازہ لگانے میں ناکام ہو سکتے ہیں؟ ہم خطرات اور اثرات کی بہتر پیمائش کیسے کر سکتے ہیں؟ ہم اپنے ماڈلز کی حفاظت اور افادیت دونوں کو کیسے بہتر بنا سکتے ہیں، اور جب وہ پیدا ہوتے ہیں تو ان دونوں کے درمیان تجارت کو نیویگیٹ کر سکتے ہیں؟

ہم زبان کے ماڈلز کو تعینات کرنے والی دیگر کمپنیوں کے ساتھ ان میں سے بہت سے مسائل پر فعال طور پر تبادلہ خیال کر رہے ہیں۔ لیکن ہم یہ بھی جانتے ہیں کہ کسی بھی تنظیم یا تنظیموں کے مجموعے کے پاس تمام جوابات نہیں ہیں، اور ہم ایسے کئی طریقوں کو اجاگر کرنا چاہیں گے جن سے قارئین ہمارے جدید ترین AI سسٹمز کی تعیناتی کو سمجھنے اور تشکیل دینے میں مزید شامل ہو سکتے ہیں۔

سب سے پہلے، جدید ترین AI سسٹمز کے ساتھ بات چیت کرنے کا پہلا تجربہ حاصل کرنا ان کی صلاحیتوں اور مضمرات کو سمجھنے کے لیے انمول ہے۔ ہم نے حال ہی میں غلط استعمال کا مؤثر طریقے سے پتہ لگانے اور اس کا جواب دینے کی اپنی صلاحیت میں مزید اعتماد پیدا کرنے کے بعد API انتظار کی فہرست کو ختم کیا۔ میں افراد حمایت یافتہ ممالک اور علاقے سائن اپ کرکے OpenAI API تک فوری رسائی حاصل کر سکتے ہیں۔ یہاں.

دوسرا، ہمارے لیے خاص دلچسپی کے موضوعات پر کام کرنے والے محققین جیسے تعصب اور غلط استعمال، اور جو مالی مدد سے فائدہ اٹھائیں گے، سبسڈی والے API کریڈٹس کے لیے درخواست دے سکتے ہیں۔ اس فارم. بیرونی تحقیق ان کثیر جہتی نظاموں کے بارے میں ہماری سمجھ کے ساتھ ساتھ وسیع تر عوامی فہم دونوں کو مطلع کرنے کے لیے ضروری ہے۔

آخر میں، آج ہم شائع کر رہے ہیں a تحقیق ایجنڈا ہمارے ماڈلز کے کوڈیکس فیملی سے وابستہ لیبر مارکیٹ کے اثرات کو تلاش کرنا، اور اس تحقیق کو انجام دینے کے لیے بیرونی تعاون کرنے والوں کے لیے کال۔ ہم اپنی ٹیکنالوجیز کے اثرات کا مطالعہ کرنے کے لیے آزاد محققین کے ساتھ کام کرنے کے لیے پرجوش ہیں تاکہ مناسب پالیسی مداخلتوں کو مطلع کیا جا سکے، اور بالآخر اپنی سوچ کو کوڈ جنریشن سے لے کر دیگر طریقوں تک پھیلایا جا سکے۔

اگر آپ جدید ترین AI ٹیکنالوجیز کو ذمہ داری کے ساتھ تعینات کرنے کے لیے کام کرنے میں دلچسپی رکھتے ہیں، لاگو کریں OpenAI میں کام کرنے کے لیے!


منظوریاں

Lilian Weng، Rosie Campbell، Anna Makanju، Bob McGrew، Hannah Wong، Ryan Lowe، Steve Dowling، Mira Murati، Sam Altman، Greg Brockman، Ilya Sutskever، Percy Liang، Peter Welinder، Ethan Perez، Ellie Evans، Helen Ngo کا شکریہ۔ ہیلن ٹونر، جسٹن جے وانگ، جیک کلارک، رشی بومسانی، گریش ساستری، سارہ شوکر، میٹ نائٹ، بیانکا مارٹن، باب روٹسٹیڈ، لاما احمد، ٹوکی شیرباکوف، اور دیگر اس پوسٹ اور متعلقہ کام پر تاثرات فراہم کرنے کے لیے۔


فوٹیاں

  1. یہ پوسٹ API کے ذریعے لینگوئج ماڈلز کی تعیناتی کے لیے ہمارے نقطہ نظر پر مبنی ہے، اور اس طرح بیان کردہ اسباق اور تخفیف ان لوگوں کے لیے بھی سب سے زیادہ متعلقہ ہیں جو API پر مبنی تعیناتی کی پیروی کرتے ہیں۔ تاہم، ہم یہ بھی توقع کرتے ہیں کہ بحث میں سے کچھ ان لوگوں سے متعلقہ ہوں گے جو زبان کے ماڈلز کا استعمال کرتے ہوئے فریق اول کی ایپلی کیشنز بناتے ہیں اور جو زبان کے ماڈلز کے اوپن سورس ریلیز پر غور کر رہے ہیں۔ ↩︎

  2. اس پوسٹ کا مقصد ہمارے نقطہ نظر سے سیکھنے کی وضاحت اور اشتراک کرنا ہے، بجائے اس کے کہ یہ تجویز کیا جائے کہ تمام اداکاروں کو لازمی طور پر ایک ہی طریقہ اختیار کرنا چاہیے، یا یہ کہ ایک ہی طریقہ تمام ممکنہ AI سسٹمز پر لاگو ہو۔ مختلف تعیناتی طریقوں سے وابستہ فوائد اور لاگتیں ہیں، مختلف ماڈلز تعیناتی سے پہلے مطالعہ سے کم و بیش فائدہ اٹھائیں گے، اور بعض صورتوں میں یہ مختلف اداکاروں کے لیے الگ الگ تعیناتی راستوں کے لیے قابل قدر ہو سکتا ہے۔ ↩︎

  3. اس ورکشاپ کے بارے میں مزید تفصیلات اس کی بنیاد پر آنے والی اشاعت میں شامل کی جائیں گی۔ ↩︎

  4. غلط استعمال کے جواب میں جن تخفیف پر ہم زور دیتے ہیں وہ بھی تیار ہوئی ہیں۔ مثال کے طور پر، ہم نے ابتدائی طور پر ایک خطرے کے ویکٹر کے طور پر طویل فارم ٹیکسٹ جنریشن پر توجہ مرکوز کی، اثر و رسوخ کی کارروائیوں کے پہلے کیسوں کو دیکھتے ہوئے جن میں لوگ دستی طور پر طویل شکل میں گمراہ کن مواد لکھتے تھے۔ اس زور کو دیکھتے ہوئے، ہم تیار کردہ متن کے لیے زیادہ سے زیادہ آؤٹ پٹ کی لمبائی مقرر کرتے ہیں۔ طویل فارم جنریشن کے ایک پائلٹ اسٹڈی کی بنیاد پر، تاہم، ہم نے دیکھا کہ آؤٹ پٹ پابندیوں کا پالیسی کی خلاف ورزیوں پر بہت کم اثر پڑتا ہے — ہم اس کے بجائے اس بات پر یقین رکھتے ہیں کہ گمراہ کن مواد پر شارٹ فارم کے مواد کو بڑھانا یا بڑھنا زیادہ خطرہ ہو سکتا ہے۔ ↩︎

  5. موجودہ ڈیٹاسیٹس میں حدود کی مثالیں، پریکٹیشنرز کے نقطہ نظر سے جو حقیقی زبان کے ماڈل کے آؤٹ پٹس کی حفاظت کا مکمل جائزہ لینے کے خواہاں ہیں، ان میں درج ذیل شامل ہیں: ایک حد سے زیادہ تنگ توجہ (مثلاً، صرف پیشہ ورانہ صنفی تعصب کی پیمائش)، حد سے زیادہ وسیع فوکس (مثلاً، "زہریلایت" کی چھتری کے نیچے سب کی پیمائش کرنا)، استعمال کی تفصیلات اور سیاق و سباق کو ختم کرنے کا رجحان، پیمائش کرنے میں ناکامی پیداواری زبان کے ماڈل کے استعمال کی جہت (مثال کے طور پر، ایک سے زیادہ انتخاب کے انداز کا استعمال)، اشارے جو عام طور پر حقیقی زبان کے ماڈل کے استعمال کے معاملات میں استعمال ہونے والے انداز سے مختلف ہوتے ہیں، حفاظت کے ان جہتوں کو حاصل نہیں کرتے جو عملی طور پر اہم ہوتے ہیں (مثلاً، ایک آؤٹ پٹ کی پیروی کرنا یا حفاظت کو نظر انداز کرنا- ہدایات میں حوصلہ افزائی کی رکاوٹ)، یا ہم نے غلط استعمال (مثلاً، شہوانی، شہوت انگیز مواد) کے ساتھ منسلک پایا ہے۔ ↩︎

  6. اگرچہ ہماری کوششیں خاص طور پر موجودہ بینچ مارکس اور ہمارے اپنے ماڈلز میں حدود کو دور کرنے کی طرف مرکوز ہیں، ہم یہ بھی تسلیم کرتے ہیں کہ ہمارے استعمال کردہ طریقوں جیسے کہ درجہ بندی پر مبنی ڈیٹا فلٹریشن کی حدود ہیں۔ مثال کے طور پر، فلٹریشن کے ذریعے ہم جن مواد کا پتہ لگانا چاہتے ہیں ان کی عملی طور پر وضاحت کرنا مشکل ہے اور فلٹریشن خود نقصان دہ تعصبات کو متعارف کروا سکتی ہے۔ مزید برآں، زہریلے ڈیٹا کی لیبلنگ اس کام کا ایک اہم جزو ہے اور ان لیبلرز کی ذہنی صحت کو یقینی بنانا پوری صنعت میں ایک چیلنج ہے۔ ↩︎

  7. ہمارے API کا متعلقہ "صارف" سیاق و سباق کے لحاظ سے ایپلیکیشن بنانے والا ایک ڈویلپر ہو سکتا ہے یا ایسی ایپلیکیشن کے ساتھ تعامل کرنے والا آخری صارف ہو سکتا ہے۔ ان اقدار کے بارے میں گہرے سوالات ہیں جن کی عکاسی ہمارے منسلک ماڈلز کرتے ہیں اور ہم امید کرتے ہیں کہ زبان کے ماڈلز کو زیادہ مددگار، زیادہ سچائی اور کم نقصان دہ ہونے کے لیے سیدھ میں لاتے وقت ممکنہ صارفین کی وسیع رینج اور مسابقتی مقاصد کی قدروں میں توازن کیسے رکھا جائے اس کے بارے میں ہم مزید نفیس تفہیم پیدا کریں گے۔ ↩︎

  8. مزید منسلک ماڈلز کے زیادہ عملی فوائد بھی ہوتے ہیں جیسے کہ "پرامپٹ انجینئرنگ" کی ضرورت کو کم کرنا (ماڈل کو صحیح سمت میں لے جانے کے لیے مطلوبہ رویے کی مثالیں فراہم کرنا)، ماڈل کی سیاق و سباق کی کھڑکی میں جگہ بچانا جسے دوسرے مقاصد کے لیے استعمال کیا جا سکتا ہے۔ ↩︎

  9. تحقیق کے علاوہ، ہم نے پایا ہے کہ دیگر حفاظتی حوصلہ افزائی مداخلتوں سے بعض اوقات صارفین کو غیر متوقع فوائد حاصل ہوتے ہیں۔ مثال کے طور پر، سپیم یا گمراہ کن مواد کو روکنے کے لیے ریٹ کی حدیں بھی صارفین کو اخراجات کو کنٹرول کرنے میں مدد کرتی ہیں۔ ↩︎

ٹائم اسٹیمپ:

سے زیادہ اوپنائی