محققی که به ماشین‌ها می‌آموزد منصف باشند

محققی که به ماشین‌ها می‌آموزد منصف باشند

The Researcher Who Would Teach Machines to Be Fair PlatoBlockchain Data Intelligence. Vertical Search. Ai.

معرفی

هر چند وقت یکبار، شخص می تواند مفهومی انتزاعی را که به ظاهر برای مطالعه رسمی بسیار مبهم است، در نظر بگیرد و یک تعریف رسمی زیبا ارائه دهد. کلود شانون این کار را با آن انجام داد اطلاعات، و آندری کولموگروف این کار را با آن انجام داد تصادفی بودن. در چند سال گذشته، محققان تلاش کرده‌اند همین کار را برای مفهوم عدالت در یادگیری ماشین انجام دهند. متأسفانه، این موضوع پیچیده‌تر بوده است. نه تنها تعریف مفهوم دشوارتر است، بلکه برای یک تعریف واحد نیز غیرممکن است که تمام معیارهای انصاف مطلوب را برآورده کند. Arvind Narayanan، دانشمند کامپیوتر در دانشگاه پرینستون، در زمینه سازی دیدگاه های مختلف و کمک به این رشته جدید کمک کرده است تا خود را تثبیت کند.

حرفه او تمام سطوح انتزاعی، از تئوری گرفته تا سیاست را در برگرفته است، اما سفری که در نهایت منجر به کار فعلی او شد، در سال 2006 آغاز شد. در آن سال، نتفلیکس اسپانسر مسابقه‌ای شد که 1 میلیون دلار به هر کسی که دقت سیستم توصیه‌های خود را بهبود بخشد جایزه می‌دهد. 10 درصد نت‌فلیکس مجموعه‌ای از داده‌های ظاهراً ناشناس از کاربران و رتبه‌بندی‌های آن‌ها را ارائه کرد و اطلاعات شناسایی شخصی حذف شد. اما نارایانان نشان داد که با یک تکنیک آماری پیچیده، تنها به چند نقطه داده نیاز دارید تا هویت یک کاربر «ناشناس» را در مجموعه داده آشکار کنید.

از آن زمان، نارایانان بر حوزه‌های دیگری که تئوری با عمل ملاقات می‌کند، تمرکز کرده است. از طریق پروژه شفافیت و پاسخگویی وب پرینستون، تیم او راه های پنهانی را کشف کردند که وب سایت ها کاربران را ردیابی می کنند و داده های حساس را استخراج می کنند. تیم او دریافت که گروهی مانند آژانس امنیت ملی می‌تواند از داده‌های مرور وب (مخصوصاً کوکی‌های قرار داده شده توسط اشخاص ثالث) نه تنها برای کشف هویت واقعی کاربر، بلکه برای بازسازی 62 تا 73 درصد از تاریخچه مرور آنها استفاده کند. . آنها این را نشان دادند - برای ریف کردن معروف نیویورکر کارتون - در اینترنت، وب سایت ها اکنون می دانند که شما یک سگ هستید.

در سال های اخیر، نارایانان به طور خاص به فراگیری ماشین - کاربرد هوش مصنوعی که به ماشین ها توانایی یادگیری از داده ها را می دهد. در حالی که او از پیشرفت‌های هوش مصنوعی استقبال می‌کند، به این نکته اشاره می‌کند که چگونه چنین سیستم‌هایی حتی با نیت خوب می‌توانند شکست بخورند، و چگونه این فناوری‌های مفید می‌توانند به ابزارهایی برای توجیه تبعیض تبدیل شوند. در این پرتو، نقاط به ظاهر نامرتبط که مسیر تحقیقاتی نارایانان را مشخص کرده اند، نوعی صورت فلکی را تشکیل می دهند.

کوانتوم با نارایانان در مورد کارش در مورد بی‌نام‌سازی، اهمیت شهود آماری، و بسیاری از مشکلات سیستم‌های هوش مصنوعی صحبت کرد. مصاحبه برای وضوح فشرده و ویرایش شده است.

معرفی

آیا همیشه می خواستید در زمینه ریاضی و علوم تحقیق کنید؟

من به هر دو بسیار علاقه مند شدم، اما در درجه اول به ریاضی. من در حل پازل خوب بودم و حتی در المپیاد بین المللی ریاضی موفقیت هایی کسب کردم. اما من یک تصور اشتباه بزرگ در مورد تفاوت بین حل پازل و ریاضی تحقیق داشتم.

و خیلی زود، تحقیقاتم را روی رمزنگاری، به ویژه رمزنگاری نظری متمرکز کردم، زیرا هنوز در این توهم کار می‌کردم که در ریاضیات خیلی خوب هستم. و سپس بقیه حرفه من سفری بوده است برای درک این که در واقع قدرت من نیست.

این باید به عنوان پس‌زمینه خوبی برای کار بی‌نام‌سازی شما باشد.

حق با شماست. چیزی که به تحقیق بی‌نام‌زدایی اجازه داد، مهارتی است که من آن را شهود آماری می‌نامم. این در واقع دانش ریاضی رسمی نیست. این است که بتوانید شهودی در ذهن خود داشته باشید: "اگر من این مجموعه داده پیچیده را بگیرم و این تغییر شکل را روی آن اعمال کنم، چه نتیجه ای قابل قبول است؟"

شهود ممکن است اغلب اشتباه باشد، و این اشکالی ندارد. اما داشتن شهود مهم است زیرا می تواند شما را به سمت مسیرهایی هدایت کند که ممکن است مثمر ثمر باشد.

معرفی

شهود آماری چگونه به کار شما روی داده های نتفلیکس کمک کرد؟

من سعی می‌کردم یک طرح ناشناس برای داده‌های با ابعاد بالا طراحی کنم. کاملاً ناموفق بود، اما در روند شکست، این شهود را ایجاد کردم که داده‌های با ابعاد بالا را نمی‌توان به طور مؤثر ناشناس کرد. البته نتفلیکس با رقابت خود ادعا کرد که دقیقاً این کار را انجام داده است.

من به طور طبیعی نسبت به اظهارات بازاریابی شرکت ها شک داشتم، بنابراین انگیزه داشتم که ثابت کنم اشتباه می کنند. من و مشاورم، ویتالی شماتیکوف، چند هفته شدید روی آن کار کردیم. زمانی که متوجه شدیم کار واقعاً تأثیر دارد، شروع به کار بیشتر کردم.

تاثیر کلی چه بود؟ آیا از نتفلیکس و سایر شرکت‌هایی که معلوم شد داده‌های آنها کاملاً ناشناس نبوده است، چیزی شنیدید؟

خوب، یک تأثیر مثبت این است که علم را برانگیخت حریم خصوصی دیفرانسیل. اما از نظر نحوه واکنش شرکت ها، چند واکنش متفاوت وجود داشته است. در بسیاری از موارد، شرکت‌هایی که در غیر این صورت مجموعه داده‌ها را برای عموم منتشر می‌کردند، اکنون دیگر این کار را انجام نمی‌دهند - آنها حریم خصوصی را به عنوان راهی برای مبارزه با تلاش‌های شفافیت به‌کار می‌برند.

فیس بوک به انجام این کار معروف است. وقتی محققان به فیس‌بوک می‌روند و می‌گویند: «ما برای مطالعه نحوه انتشار اطلاعات در این پلتفرم نیاز به دسترسی به برخی از این داده‌ها داریم»، فیس‌بوک اکنون می‌تواند بگوید: «نه، ما نمی‌توانیم آن را به شما بدهیم. این امر حریم خصوصی کاربران ما را به خطر می اندازد."

شما یک بار نوشته اید مقاله با این استدلال که اصطلاح "اطلاعات قابل شناسایی شخصی" می تواند گمراه کننده باشد. چطور؟

من فکر می‌کنم در میان سیاست‌گذاران سردرگمی وجود دارد که ناشی از دو روش مختلف استفاده از این واژه است. یکی اطلاعاتی درباره شما است که بسیار حساس است، مانند شماره تامین اجتماعی شما. معنای دیگر اطلاعاتی است که می توان آن را در برخی از مجموعه های داده نمایه کرد و از این طریق برای یافتن اطلاعات بیشتر در مورد شما استفاده کرد.

این دو معانی متفاوتی دارند. من هیچ گوشتی با مفهوم PII به معنای اول ندارم. برخی از اطلاعات در مورد افراد بسیار حساس هستند و ما باید با دقت بیشتری با آنها رفتار کنیم. اما در حالی که آدرس ایمیل شما لزوماً برای اکثر افراد بسیار حساس نیست، اما همچنان یک شناسه منحصر به فرد است که می تواند برای یافتن شما در سایر مجموعه های داده استفاده شود. تا زمانی که ترکیبی از ویژگی‌های مربوط به یک شخص برای هر کس دیگری در جهان در دسترس باشد، این تنها چیزی است که برای بی‌نام‌سازی نیاز دارید.

معرفی

چطور شد که در نهایت به درس انصاف رسیدید؟

من در سال 2017 یک دوره انصاف و یادگیری ماشین تدریس کردم. این به من ایده خوبی از مشکلات باز در این زمینه داد. و همراه با آن، یک سخنرانی به نام «21 تعریف انصاف و سیاست های آنها" من توضیح دادم که گسترش تعاریف فنی به دلیل دلایل فنی نبود، بلکه به این دلیل است که در دل همه اینها سؤالات اخلاقی واقعی وجود دارد. هیچ راهی وجود ندارد که بتوانید یک معیار آماری واحد داشته باشید که تمام خواسته‌های هنجاری را در بر گیرد - همه چیزهایی که می‌خواهید. صحبت با استقبال خوبی روبرو شد، بنابراین آن دو با هم مرا متقاعد کردند که باید وارد این موضوع شوم.

همچنین شما سخنرانی کرد در مورد تشخیص روغن مار هوش مصنوعی که با استقبال خوبی نیز مواجه شد. چه ارتباطی با عدالت در یادگیری ماشین دارد؟

بنابراین انگیزه این کار این بود که به وضوح بسیاری از نوآوری های فنی واقعی در هوش مصنوعی اتفاق می افتد، مانند برنامه متن به تصویر. DALL E 2 یا برنامه شطرنج الفازرو. واقعاً شگفت انگیز است که این پیشرفت بسیار سریع بوده است. بسیاری از این نوآوری ها شایسته تجلیل هستند.

مشکل زمانی پیش می‌آید که ما از این اصطلاح گسترده و گسترده «AI» برای مواردی از این دست و همچنین کاربردهای پر دردسرتر، مانند روش‌های آماری برای پیش‌بینی خطر جنایی استفاده می‌کنیم. در این زمینه، نوع فناوری درگیر بسیار متفاوت است. این دو نوع کاربرد بسیار متفاوت هستند و فواید و مضرات احتمالی آن نیز بسیار متفاوت است. تقریباً هیچ ارتباطی بین آنها وجود ندارد، بنابراین استفاده از یک اصطلاح برای هر دو کاملاً گیج کننده است.

مردم گمراه می شوند و فکر می کنند که این همه پیشرفتی که با تولید تصویر می بینند در واقع به پیشرفت تبدیل می شود به سمت وظایف اجتماعی مانند پیش‌بینی خطر جنایی یا پیش‌بینی اینکه کدام بچه‌ها ترک تحصیل می‌کنند. اما اصلاً اینطور نیست. اول از همه، ما فقط می‌توانیم کمی بهتر از شانس تصادفی پیش‌بینی کنیم که چه کسی ممکن است برای یک جرم دستگیر شود. و این دقت با طبقه بندی کننده های واقعا ساده به دست می آید. با گذشت زمان بهتر نمی‌شود و با جمع‌آوری مجموعه داده‌های بیشتر، بهتر نمی‌شود. بنابراین تمام این مشاهدات در تضاد با استفاده از یادگیری عمیق برای تولید تصویر است.

چگونه انواع مختلف مشکلات یادگیری ماشین را تشخیص می دهید؟

این یک لیست جامع نیست، اما سه دسته رایج وجود دارد. دسته اول ادراک است که شامل وظایفی مانند توصیف محتوای یک تصویر است. دسته دوم چیزی است که من آن را «قضاوت خودکار» می‌نامم، مانند زمانی که فیس‌بوک می‌خواهد از الگوریتم‌هایی برای تعیین اینکه کدام گفتار آنقدر سمی است که روی پلتفرم باقی بماند استفاده کند. و سومین مورد، پیش‌بینی نتایج اجتماعی آینده در میان مردم است - اینکه آیا فردی به خاطر جرمی دستگیر می‌شود یا اینکه آیا کودکی قصد دارد تحصیل را ترک کند.

در هر سه مورد، دقت های قابل دستیابی بسیار متفاوت است، خطرات بالقوه هوش مصنوعی نادرست بسیار متفاوت است، و پیامدهای اخلاقی پس از آن بسیار متفاوت است.

به عنوان مثال، در طبقه بندی من، تشخیص چهره یک مشکل ادراک است. بسیاری از مردم در مورد نادرست بودن تشخیص چهره صحبت می کنند و گاهی اوقات حق با آنهاست. اما فکر نمی‌کنم به این دلیل باشد که محدودیت‌های اساسی برای دقت تشخیص چهره وجود دارد. این فناوری در حال بهبود است و بهتر خواهد شد. دقیقاً به همین دلیل است که ما باید از منظر اخلاقی نگران آن باشیم - زمانی که شما آن را در اختیار پلیس قرار می دهید، که ممکن است پاسخگو نباشد، یا دولت هایی که در مورد استفاده از آن شفاف نیستند.

معرفی

چه چیزی مشکلات پیش بینی اجتماعی را بسیار سخت تر از مشکلات ادراک می کند؟

مشکلات ادراک چند ویژگی دارند. یکی، هیچ ابهامی در مورد وجود گربه در یک تصویر وجود ندارد. پس شما حقیقت زمین را دارید. دوم، شما اساساً داده های آموزشی نامحدودی دارید زیرا می توانید از تمام تصاویر موجود در وب استفاده کنید. و اگر گوگل یا فیسبوک هستید، می توانید از تمام تصاویری که افراد در برنامه شما آپلود کرده اند استفاده کنید. بنابراین این دو عامل - فقدان ابهام و در دسترس بودن داده ها - به طبقه بندی کننده ها اجازه می دهد تا عملکرد بسیار خوبی داشته باشند.

این با مشکلات پیش‌بینی متفاوت است، که این دو ویژگی را ندارند. تفاوت سومی هم وجود دارد که باید به آن اشاره کنم که به نوعی مهمترین آن است: پیامدهای اخلاقی عملی کردن این مدل‌های پیش‌بینی با استفاده از ابزار ترجمه زبان در تلفن شما یا ابزار برچسب‌گذاری تصویر بسیار متفاوت است.

اما این همان جدیت ابزاری نیست که برای تعیین اینکه آیا فردی، مثلاً، باید قبل از محاکمه بازداشت شود یا خیر. این عواقب برای آزادی مردم دارد. پس طعنه آمیز این است که حوزه ای که هوش مصنوعی در آن ضعیف ترین کار می کند، واقعاً در طول زمان بهبود نیافته است، و بعید است در آینده بهبود یابد، منطقه ای است که همه این پیامدهای فوق العاده مهم را به همراه دارد.

بسیاری از کارهای شما مستلزم صحبت با کارشناسان خارج از حوزه خود است. همکاری با دیگران به این شکل چگونه است؟

همکاری های بین رشته ای از لذت بخش ترین همکاری ها بوده است. من فکر می کنم هر گونه همکاری لحظات ناامید کننده خود را خواهد داشت زیرا مردم به یک زبان صحبت نمی کنند.

نسخه من برای آن این است: فرهنگ، سپس زبان، سپس ماده. اگر فرهنگ آنها را درک نکنید - مثلاً برای چه نوع بورس تحصیلی ارزش قائل هستند - واقعاً سخت خواهد بود. آنچه برای یک فرد ارزشمند است ممکن است برای دیگری بی ربط به نظر برسد. بنابراین ابتدا باید جنبه های فرهنگی بررسی شود. سپس می توانید شروع به ایجاد یک زبان و واژگان مشترک کنید و در نهایت به اصل همکاری برسید.

چقدر خوش بین هستید که آیا می توانیم با خیال راحت و عاقلانه فناوری جدید را اتخاذ کنیم؟

بخشی از موضوع شکاف دانش است. ممکن است تصمیم گیرندگان، سازمان های دولتی، شرکت ها و سایر افرادی که این ابزارهای هوش مصنوعی را خریداری می کنند، محدودیت های جدی برای دقت پیش بینی را تشخیص ندهند.

اما در نهایت فکر می کنم این یک مشکل سیاسی است. برخی از مردم می خواهند هزینه ها را کاهش دهند، بنابراین آنها یک ابزار خودکار می خواهند که مشاغل را حذف کند. بنابراین فشار بسیار شدیدی وجود دارد که هر آنچه این فروشندگان در مورد ابزارهای پیش بینی خود می گویند را باور کنیم.

این دو مشکل متفاوت هستند. افرادی مانند من شاید بتوانند به رفع شکاف اطلاعاتی کمک کنند. اما پرداختن به معضل سیاسی نیازمند کنشگری است. این مستلزم بهره گیری از روند دموکراتیک است. خوب است که می بینیم افراد زیادی این کار را انجام می دهند. و در درازمدت، من فکر می‌کنم که می‌توانیم از برنامه‌های مضر و سوء استفاده‌کننده هوش مصنوعی عقب نشینی کنیم. فکر نمی‌کنم در یک لحظه تغییر کند، اما از طریق یک فرآیند طولانی، طولانی و طولانی کنش‌گری که قبلاً برای یک دهه یا بیشتر در جریان بوده است. مطمئنم برای مدت طولانی ادامه خواهد داشت.

تمبر زمان:

بیشتر از مجله کوانتاما