وہ محقق جو مشینوں کو منصفانہ ہونا سکھائے گا۔

وہ محقق جو مشینوں کو منصفانہ ہونا سکھائے گا۔

The Researcher Who Would Teach Machines to Be Fair PlatoBlockchain Data Intelligence. Vertical Search. Ai.

تعارف

تھوڑی دیر میں، ایک شخص ایک تجریدی تصور لے سکتا ہے جو بظاہر رسمی مطالعہ کے لیے بہت مبہم ہے اور ایک خوبصورت رسمی تعریف پیش کرتا ہے۔ کلاڈ شینن نے اس کے ساتھ کیا۔ معلومات، اور آندرے کولموگوروف نے اس کے ساتھ کیا۔ بے ترتیب پن. پچھلے کچھ سالوں سے، محققین مشین لرننگ میں انصاف کے تصور کے لیے ایسا ہی کرنے کی کوشش کر رہے ہیں۔ بدقسمتی سے، یہ زیادہ مشکل ہو گیا ہے۔ نہ صرف تصور کی وضاحت کرنا مشکل ہے، بلکہ کسی ایک تعریف کے لیے تمام مطلوبہ منصفانہ میٹرکس کو پورا کرنا بھی ناممکن ہے۔ اروند نارائنن۔پرنسٹن یونیورسٹی کے ایک کمپیوٹر سائنس دان نے مختلف نظریات کو سیاق و سباق کے مطابق بنانے اور اس نئے شعبے کو خود کو قائم کرنے میں مدد فراہم کی ہے۔

اس کا کیریئر تھیوری سے لے کر پالیسی تک تجرید کی تمام سطحوں پر محیط ہے، لیکن وہ سفر جس کی وجہ سے ان کے موجودہ کام کا آغاز 2006 میں ہوا۔ اس سال، Netflix نے ایک مقابلے کو اسپانسر کیا جس میں ہر اس شخص کو $1 ملین کا انعام دیا جائے گا جو ان کے تجویز کردہ نظام کی درستگی کو بہتر بنائے گا۔ 10% Netflix نے ذاتی طور پر قابل شناخت معلومات کو ہٹا کر صارفین اور ان کی درجہ بندیوں کا مبینہ طور پر گمنام ڈیٹا سیٹ فراہم کیا۔ لیکن نارائنن نے دکھایا کہ ایک نفیس شماریاتی تکنیک کے ساتھ، آپ کو ڈیٹا سیٹ میں ایک "گمنام" صارف کی شناخت ظاہر کرنے کے لیے صرف چند ڈیٹا پوائنٹس کی ضرورت ہے۔

اس کے بعد سے، نارائنن نے دوسرے شعبوں پر توجہ مرکوز کی ہے جہاں نظریہ عمل سے ملتا ہے۔ کے ذریعے پرنسٹن ویب شفافیت اور احتسابی پروجیکٹان کی ٹیم نے ایسے خفیہ طریقوں کا پردہ فاش کیا جن سے ویب سائٹ صارفین کو ٹریک کرتی ہے اور حساس ڈیٹا کو نکالتی ہے۔ ان کی ٹیم کو پتہ چلا کہ نیشنل سیکیورٹی ایجنسی جیسا گروپ ویب براؤزنگ ڈیٹا (خاص طور پر، تیسرے فریق کی طرف سے رکھی گئی کوکیز) کو نہ صرف صارف کی حقیقی دنیا کی شناخت دریافت کرنے کے لیے استعمال کر سکتا ہے، بلکہ اپنی براؤزنگ ہسٹری کے 62% سے 73% تک کو دوبارہ تشکیل دینے کے لیے بھی استعمال کر سکتا ہے۔ . انہوں نے دکھایا کہ - پر riff کرنے کے لئے مشہور دی نیویارکر کارٹون - انٹرنیٹ پر، ویب سائٹس اب جانتی ہیں کہ آپ کتے ہیں۔

حالیہ برسوں میں، نارائنن نے خاص طور پر اس طرف رجوع کیا ہے۔ مشین لرننگ - مصنوعی ذہانت کا اطلاق جو مشینوں کو ڈیٹا سے سیکھنے کی صلاحیت فراہم کرتا ہے۔ جب کہ وہ AI میں پیشرفت کا خیرمقدم کرتا ہے، وہ بتاتا ہے کہ اس طرح کے نظام اچھے ارادوں کے باوجود کیسے ناکام ہو سکتے ہیں، اور یہ دوسری صورت میں مفید ٹیکنالوجیز امتیازی سلوک کو جواز بنانے کے لیے کس طرح آلہ بن سکتی ہیں۔ اس روشنی میں، بظاہر غیر مربوط نقطے جنہوں نے نارائنن کی تحقیقی رفتار کی تعریف کی ہے، ایک قسم کا برج بناتی ہے۔

Quanta نارائنن کے ساتھ نام ظاہر نہ کرنے پر اپنے کام، شماریاتی ادراک کی اہمیت، اور AI سسٹمز کے بہت سے نقصانات کے بارے میں بات کی۔ انٹرویو کو کم کیا گیا ہے اور وضاحت کے لیے اس میں ترمیم کی گئی ہے۔

تعارف

کیا آپ ہمیشہ ریاضی اور سائنس کی تحقیق کرنا چاہتے تھے؟

میں دونوں میں بہت دلچسپی رکھتا ہوں، لیکن بنیادی طور پر ریاضی میں. میں پہیلیاں حل کرنے میں اچھا تھا اور بین الاقوامی ریاضی اولمپیاڈ میں بھی کچھ کامیابی حاصل کی تھی۔ لیکن مجھے پہیلی کو حل کرنے اور تحقیقی ریاضی کے درمیان فرق کے بارے میں بہت بڑی غلط فہمی تھی۔

اور اسی طرح ابتدائی طور پر، میں نے اپنی تحقیق کو خفیہ نگاری پر مرکوز کیا، خاص طور پر نظریاتی خفیہ نگاری، کیونکہ میں ابھی تک اس فریب میں مبتلا تھا کہ میں ریاضی میں بہت اچھا ہوں۔ اور پھر میرا بقیہ کیریئر یہ احساس کرنے کا سفر رہا ہے کہ یہ حقیقت میں میری طاقت نہیں ہے۔

اس نے آپ کے نام ظاہر نہ کرنے کے کام کے لیے ایک اچھے پس منظر کے طور پر کام کیا ہوگا۔

آپ ٹھیک ہیں. جس چیز نے نام ظاہر نہ کرنے کی تحقیق کی اجازت دی وہ مہارت ہے جسے میں شماریاتی وجدان کہتا ہوں۔ یہ دراصل رسمی ریاضیاتی علم نہیں ہے۔ یہ آپ کے دماغ میں ایک وجدان رکھنے کے قابل ہے جیسے: "اگر میں یہ پیچیدہ ڈیٹا سیٹ لیتا ہوں اور اس تبدیلی کو اس پر لاگو کرتا ہوں، تو ایک قابل فہم نتیجہ کیا ہوگا؟"

وجدان اکثر غلط ہو سکتا ہے، اور یہ ٹھیک ہے۔ لیکن وجدان کا ہونا ضروری ہے کیونکہ یہ آپ کو ان راستوں کی طرف رہنمائی کر سکتا ہے جو نتیجہ خیز ہو سکتے ہیں۔

تعارف

Netflix ڈیٹا پر آپ کے کام میں شماریاتی ادراک نے کس طرح مدد کی؟

میں اعلیٰ جہتی ڈیٹا کے لیے ایک گمنام اسکیم وضع کرنے کی کوشش کر رہا تھا۔ یہ مکمل طور پر ناکام ہو گیا، لیکن ناکام ہونے کے عمل میں میں نے یہ وجدان پیدا کیا کہ اعلیٰ جہتی ڈیٹا کو مؤثر طریقے سے گمنام نہیں کیا جا سکتا۔ یقینا Netflix، ان کے مقابلے کے ساتھ، بالکل ایسا ہی کرنے کا دعوی کیا ہے.

مجھے کمپنیوں کے مارکیٹنگ کے بیانات کے بارے میں فطری شکوک و شبہات تھے، اس لیے میں ان کو غلط ثابت کرنے کے لیے متحرک تھا۔ میرے مشیر، وٹالی شماتیکوف، اور میں نے چند ہفتوں تک اس پر کام کیا۔ ایک بار جب ہم نے محسوس کیا کہ کام واقعی اثر انداز ہو رہا ہے، میں نے مزید کرنا شروع کر دیا.

مجموعی اثر کیا تھا؟ کیا آپ نے Netflix اور دیگر کمپنیوں سے واپسی سنی ہے جن کا ڈیٹا اتنا گمنام نہیں ہے؟

ٹھیک ہے، ایک مثبت اثر یہ ہے کہ اس نے سائنس کی حوصلہ افزائی کی۔ امتیازی رازداری. لیکن کمپنیوں کے ردعمل کے لحاظ سے، کچھ مختلف ردعمل سامنے آئے ہیں۔ بہت سے معاملات میں، وہ کمپنیاں جو بصورت دیگر عوام کے لیے ڈیٹا سیٹ جاری کرتیں اب ایسا نہیں کر رہی ہیں - وہ شفافیت کی کوششوں سے لڑنے کے لیے رازداری کو ہتھیار بنا رہی ہیں۔

فیس بک ایسا کرنے کے لیے جانا جاتا ہے۔ جب محققین فیس بک پر جاتے ہیں اور کہتے ہیں، "ہمیں اس ڈیٹا میں سے کچھ تک رسائی کی ضرورت ہے تاکہ اس بات کا مطالعہ کیا جا سکے کہ پلیٹ فارم پر معلومات کیسے پھیل رہی ہیں،" فیس بک اب کہہ سکتا ہے، "نہیں، ہم آپ کو یہ نہیں دے سکتے۔ یہ ہمارے صارفین کی رازداری سے سمجھوتہ کرے گا۔

آپ نے ایک بار لکھا تھا۔ کاغذ یہ استدلال کرنا کہ اصطلاح "ذاتی طور پر قابل شناخت معلومات" گمراہ کن ہو سکتی ہے۔ وہ کیسے؟

میرے خیال میں پالیسی سازوں کے درمیان دو مختلف طریقوں سے پیدا ہونے والی الجھن ہے جس میں اصطلاح استعمال کی گئی ہے۔ ایک آپ کے بارے میں معلومات ہے جو بہت حساس ہے، جیسے آپ کا سوشل سیکورٹی نمبر۔ دوسرا مطلب وہ معلومات ہے جو کچھ ڈیٹا سیٹس میں ترتیب دی جا سکتی ہے اور اس طرح آپ کے بارے میں مزید معلومات حاصل کرنے کے لیے استعمال کی جا سکتی ہے۔

ان دونوں کے مختلف معنی ہیں۔ میرے پاس پہلے معنی میں PII کے تصور کے ساتھ کوئی بیف نہیں ہے۔ لوگوں کے بارے میں معلومات کے کچھ حصے بہت حساس ہوتے ہیں، اور ہمیں ان سے زیادہ احتیاط سے پیش آنا چاہیے۔ لیکن اگرچہ ضروری نہیں کہ آپ کا ای میل پتہ زیادہ تر لوگوں کے لیے بہت حساس ہو، لیکن یہ اب بھی ایک منفرد شناخت کنندہ ہے جسے آپ کو دوسرے ڈیٹا سیٹس میں تلاش کرنے کے لیے استعمال کیا جا سکتا ہے۔ جب تک کسی شخص کے بارے میں صفات کا مجموعہ دنیا میں کسی اور کے لیے دستیاب ہے، آپ کو نام ظاہر نہ کرنے کے لیے بس اتنا ہی درکار ہے۔

تعارف

آپ آخرکار انصاف کے مطالعہ کی طرف کیسے آئے؟

میں نے 2017 میں فیئرنس اور مشین لرننگ کورس پڑھایا۔ اس سے مجھے فیلڈ میں کھلے مسائل کا اچھا اندازہ ہوا۔ اور اس کے ساتھ، میں نے ایک تقریر کی جس کا نام تھا "21 انصاف کی تعریفیں اور ان کی سیاست" میں نے وضاحت کی کہ تکنیکی تعریفوں کا پھیلاؤ تکنیکی وجوہات کی بنا پر نہیں تھا، بلکہ اس لیے کہ اس سب کے دل میں حقیقی اخلاقی سوالات ہیں۔ ایسا کوئی طریقہ نہیں ہے کہ آپ کے پاس ایک واحد شماریاتی معیار ہو جو تمام معیاری خواہشات کو حاصل کرے — وہ تمام چیزیں جو آپ چاہتے ہیں۔ بات کو خوب پذیرائی ملی، اس لیے ان دونوں نے مل کر مجھے اس بات پر قائل کیا کہ مجھے اس موضوع پر جانا شروع کر دینا چاہیے۔

تم بھی ایک بات کی اے آئی سانپ آئل کا پتہ لگانے پر، جس کی پذیرائی بھی ہوئی۔ اس کا مشین لرننگ میں انصاف سے کیا تعلق ہے؟

تو اس کا محرک یہ تھا کہ AI میں واضح طور پر بہت ساری حقیقی تکنیکی اختراعات ہو رہی ہیں، جیسے کہ ٹیکسٹ ٹو امیج پروگرام۔ ڈیل ای 2 یا شطرنج کا پروگرام الفا زیرو. یہ واقعی حیرت انگیز ہے کہ یہ پیشرفت اتنی تیزی سے ہوئی ہے۔ اس میں سے بہت ساری جدت منانے کے لائق ہے۔

مسئلہ اس وقت آتا ہے جب ہم اس بہت ہی ڈھیلی اور وسیع چھتری والی اصطلاح "AI" کو اس طرح کی چیزوں کے ساتھ ساتھ مزید بھر پور ایپلی کیشنز، جیسے مجرمانہ خطرے کی پیش گوئی کے لیے شماریاتی طریقے استعمال کرتے ہیں۔ اس تناظر میں، شامل ٹیکنالوجی کی قسم بہت مختلف ہے۔ یہ دو بالکل مختلف قسم کی ایپلی کیشنز ہیں، اور ممکنہ فوائد اور نقصانات بھی بہت مختلف ہیں۔ ان کے درمیان تقریباً کوئی تعلق نہیں ہے، لہذا دونوں کے لیے ایک ہی اصطلاح کا استعمال مکمل طور پر الجھا ہوا ہے۔

لوگوں کو یہ سوچنے میں گمراہ کیا جاتا ہے کہ یہ ساری پیشرفت جو وہ امیج جنریشن کے ساتھ دیکھ رہے ہیں درحقیقت ترقی میں ترجمہ کرے گی۔ سماجی کاموں کی طرف جیسے مجرمانہ خطرے کی پیش گوئی کرنا یا یہ پیش گوئی کرنا کہ کون سے بچے اسکول چھوڑنے والے ہیں۔ لیکن ایسا بالکل نہیں ہے۔ سب سے پہلے، ہم یہ پیشین گوئی کرنے کے بے ترتیب موقع سے تھوڑا بہتر کر سکتے ہیں کہ کسی جرم میں کس کو گرفتار کیا جا سکتا ہے۔ اور یہ درستگی واقعی آسان درجہ بندی کے ساتھ حاصل کی جاتی ہے۔ یہ وقت کے ساتھ بہتر نہیں ہو رہا ہے، اور یہ بہتر نہیں ہو رہا ہے کیونکہ ہم مزید ڈیٹا سیٹ جمع کر رہے ہیں۔ لہٰذا یہ تمام مشاہدات مثال کے طور پر تصویر بنانے کے لیے گہری سیکھنے کے استعمال کے برعکس ہیں۔

آپ مختلف قسم کے مشین لرننگ کے مسائل میں فرق کیسے کریں گے؟

یہ ایک مکمل فہرست نہیں ہے، لیکن تین مشترکہ زمرے ہیں۔ پہلی قسم تصور ہے، جس میں تصویر کے مواد کو بیان کرنے جیسے کام شامل ہیں۔ دوسری قسم وہ ہے جسے میں "خودکار فیصلہ" کہتا ہوں، جیسے کہ جب فیس بک الگورتھم استعمال کرنا چاہتا ہے اس بات کا تعین کرنے کے لیے کہ کون سی تقریر پلیٹ فارم پر رہنے کے لیے بہت زہریلی ہے۔ اور تیسرا لوگوں کے درمیان مستقبل کے سماجی نتائج کی پیشین گوئی کر رہا ہے - چاہے کسی کو جرم کے الزام میں گرفتار کیا جائے، یا کوئی بچہ اسکول چھوڑنے والا ہو۔

تینوں صورتوں میں، قابل حصول درستیاں بہت مختلف ہیں، غلط AI کے ممکنہ خطرات بہت مختلف ہیں، اور اس کے بعد آنے والے اخلاقی مضمرات بہت مختلف ہیں۔

مثال کے طور پر، چہرے کی شناخت، میری درجہ بندی میں، ایک ادراک کا مسئلہ ہے۔ بہت سے لوگ چہرے کی شناخت کے غلط ہونے کے بارے میں بات کرتے ہیں، اور بعض اوقات وہ درست ہوتے ہیں۔ لیکن مجھے نہیں لگتا کہ اس کی وجہ یہ ہے کہ چہرے کی شناخت کی درستگی کی بنیادی حدود ہیں۔ وہ ٹیکنالوجی بہتر ہو رہی ہے، اور یہ بہتر ہونے جا رہی ہے۔ یہی وجہ ہے کہ ہمیں اخلاقی نقطہ نظر سے اس کے بارے میں فکر مند ہونا چاہئے - جب آپ اسے پولیس کے ہاتھوں میں ڈالتے ہیں، جو شاید غیر ذمہ دار ہوں، یا ریاستیں جو اس کے استعمال کے بارے میں شفاف نہیں ہیں۔

تعارف

کیا چیز سماجی پیشین گوئی کے مسائل کو ادراک کے مسائل سے زیادہ مشکل بناتی ہے؟

ادراک کے مسائل میں کچھ خصوصیات ہیں۔ ایک، اس بارے میں کوئی ابہام نہیں ہے کہ آیا کسی تصویر میں بلی ہے۔ تو آپ کے پاس زمینی سچائی ہے۔ دوسرا، آپ کے پاس بنیادی طور پر لامحدود تربیتی ڈیٹا ہے کیونکہ آپ ویب پر موجود تمام تصاویر استعمال کر سکتے ہیں۔ اور اگر آپ گوگل یا فیس بک ہیں، تو آپ وہ تمام تصاویر استعمال کر سکتے ہیں جو لوگوں نے آپ کی ایپ پر اپ لوڈ کی ہیں۔ لہذا وہ دو عوامل - ابہام اور ڈیٹا کی دستیابی کی کمی - درجہ بندی کرنے والوں کو واقعی اچھی کارکردگی کا مظاہرہ کرنے کی اجازت دیتے ہیں۔

یہ پیشین گوئی کے مسائل سے مختلف ہے، جن میں وہ دو خصوصیات نہیں ہیں۔ ایک تیسرا فرق ہے جس کا مجھے ذکر کرنا چاہیے، جو کسی لحاظ سے سب سے اہم ہے: پیشین گوئی کے ان ماڈلز کو عملی جامہ پہنانے کے اخلاقی نتائج آپ کے فون پر لینگویج ٹرانسلیشن ٹول، یا امیج لیبلنگ ٹول استعمال کرنے سے بہت مختلف ہیں۔

لیکن یہ وہی سنجیدگی نہیں ہے جتنی اس ٹول کو یہ تعین کرنے کے لیے استعمال کی جاتی ہے کہ آیا کسی کو، کہہ لیں، مقدمے سے پہلے حراست میں لیا جانا چاہیے۔ ان کے نتائج لوگوں کی آزادی پر پڑتے ہیں۔ تو ستم ظریفی یہ ہے کہ وہ علاقہ جہاں AI سب سے زیادہ خراب کام کرتا ہے، وقت کے ساتھ ساتھ اس میں واقعی بہتری نہیں آ رہی ہے، اور مستقبل میں اس کے بہتر ہونے کا امکان نہیں ہے وہ علاقہ ہے جس کے ان تمام ناقابل یقین حد تک اہم نتائج ہیں۔

آپ کے زیادہ تر کام کو آپ کے فیلڈ سے باہر کے ماہرین سے بات کرنے کی ضرورت ہے۔ اس طرح دوسروں کے ساتھ تعاون کرنا کیسا ہے؟

بین الضابطہ تعاون کچھ سب سے پر لطف تعاون رہا ہے۔ میرے خیال میں اس طرح کے تعاون کے مایوس کن لمحات ہوں گے کیونکہ لوگ ایک جیسی زبان نہیں بولتے ہیں۔

اس کے لیے میرا نسخہ ہے: ثقافت، پھر زبان، پھر مادہ۔ اگر آپ ان کی ثقافت کو نہیں سمجھتے — جیسے کہ وہ کس قسم کے اسکالرشپ کی قدر کرتے ہیں — تو یہ واقعی مشکل ہو گا۔ جو چیز ایک شخص کے لیے قیمتی ہے وہ دوسرے کے لیے غیر متعلقہ معلوم ہو سکتی ہے۔ اس لیے سب سے پہلے ثقافتی پہلوؤں کو تلاش کرنا ہوگا۔ پھر آپ ایک مشترکہ زبان اور الفاظ کو قائم کرنا شروع کر سکتے ہیں اور آخر کار تعاون کے مادے تک پہنچ سکتے ہیں۔

آپ اس بارے میں کتنے پر امید ہیں کہ آیا ہم محفوظ طریقے سے اور دانشمندی سے نئی ٹیکنالوجی کو اپنا سکتے ہیں؟

مسئلہ کا ایک حصہ علمی خلا ہے۔ فیصلہ ساز، حکومتی ایجنسیاں، کمپنیاں اور دوسرے لوگ جو یہ AI ٹولز خرید رہے ہیں، ہو سکتا ہے پیشین گوئی کی درستگی کی سنگین حدود کو تسلیم نہ کریں۔

لیکن آخر کار مجھے لگتا ہے کہ یہ ایک سیاسی مسئلہ ہے۔ کچھ لوگ اخراجات کم کرنا چاہتے ہیں، اس لیے وہ ایک خودکار ٹول چاہتے ہیں، جو ملازمتوں کو ختم کر دے۔ لہذا ان دکانداروں کی پیش گوئی کرنے والے اپنے ٹولز کے بارے میں جو کچھ بھی کہہ رہے ہیں اس پر یقین کرنے کا بہت سخت دباؤ ہے۔

یہ دو مختلف مسائل ہیں۔ میرے جیسے لوگ شاید معلومات کے خلا کو دور کرنے میں مدد کر سکتے ہیں۔ لیکن سیاسی مسئلے کو حل کرنے کے لیے فعالیت کی ضرورت ہے۔ اس کا تقاضا ہے کہ ہم جمہوری عمل سے فائدہ اٹھائیں۔ یہ دیکھ کر اچھا لگا کہ بہت سارے لوگ ایسا کر رہے ہیں۔ اور طویل مدت میں، مجھے لگتا ہے کہ ہم AI کے نقصان دہ اور مکروہ ایپلی کیشنز کے خلاف پیچھے ہٹ سکتے ہیں۔ مجھے نہیں لگتا کہ یہ ایک لمحے میں تبدیل ہونے والا ہے لیکن ایک طویل، تیار کردہ، طویل عرصے تک ایکٹیوزم کے عمل کے ذریعے جو پہلے ہی ایک دہائی یا اس سے زیادہ عرصے سے جاری ہے۔ مجھے یقین ہے کہ یہ طویل عرصے تک جاری رہے گا۔

ٹائم اسٹیمپ:

سے زیادہ کوانٹا میگزین