الباحث الذي يعلم الآلات أن تكون عادلة

الباحث الذي يعلم الآلات أن تكون عادلة

الباحث الذي سيعلم الآلات أن تكون عادلة في مجال ذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

المُقدّمة

من حين لآخر ، يمكن لأي شخص أن يأخذ مفهومًا مجردًا يبدو غامضًا جدًا للدراسة الرسمية ويقدم تعريفًا رسميًا أنيقًا. كلود شانون فعل ذلك مع معلومات، وفعلها أندريه كولموغوروف العشوائية. على مدى السنوات القليلة الماضية ، كان الباحثون يحاولون فعل الشيء نفسه لمفهوم العدالة في التعلم الآلي. لسوء الحظ ، كان هذا أكثر تعقيدًا. ليس فقط من الصعب تعريف المفهوم ، ولكن من المستحيل أيضًا أن يلبي تعريف واحد جميع مقاييس الإنصاف المرغوبة. ارفيند نارايانان، عالم الكمبيوتر في جامعة برينستون ، كان له دور فعال في تحديد سياق وجهات النظر المختلفة ومساعدة هذا المجال الجديد على ترسيخ نفسه.

امتدت مسيرته المهنية إلى جميع مستويات التجريد ، من النظرية إلى السياسة ، لكن الرحلة التي أدت في النهاية إلى عمله الحالي بدأت في عام 2006. في ذلك العام ، رعت Netflix مسابقة من شأنها أن تمنح مليون دولار لمن قام بتحسين دقة نظام توصياتهم من خلال 1٪. قدمت Netflix مجموعة بيانات يُزعم أنها مجهولة المصدر للمستخدمين وتقييماتهم ، مع إزالة معلومات التعريف الشخصية. لكن نارايانان أظهر أنه باستخدام تقنية إحصائية متطورة ، فإنك تحتاج فقط إلى عدد قليل من نقاط البيانات للكشف عن هوية مستخدم "مجهول" في مجموعة البيانات.

منذ ذلك الحين ، ركز Narayanan على المجالات الأخرى حيث تلتقي النظرية مع الممارسة. عبر ال مشروع برينستون للشفافية والمساءلة على شبكة الإنترنت، كشف فريقه عن طرق خفية تتعقب بها مواقع الويب المستخدمين وتستخرج بيانات حساسة. اكتشف فريقه أن مجموعة مثل وكالة الأمن القومي يمكنها استخدام بيانات تصفح الويب (على وجه التحديد ، ملفات تعريف الارتباط التي وضعتها أطراف ثالثة) ليس فقط لاكتشاف هوية المستخدم في العالم الحقيقي ، ولكن أيضًا لإعادة بناء 62٪ إلى 73٪ من سجل التصفح الخاص بهم . لقد أظهروا أن - لندف على مشهور نيويوركر رسوم متحركة - على الإنترنت ، تعرف مواقع الويب الآن أنك كلب.

في السنوات الأخيرة ، تحول نارايانان على وجه التحديد إلى آلة التعلم - تطبيق للذكاء الاصطناعي يمنح الآلات القدرة على التعلم من البيانات. بينما يرحب بالتطورات في الذكاء الاصطناعي ، فإنه يشير إلى كيف يمكن أن تفشل هذه الأنظمة حتى مع النوايا الحسنة ، وكيف يمكن لهذه التقنيات المفيدة أن تصبح أدوات لتبرير التمييز. في ضوء ذلك ، فإن النقاط التي تبدو غير متصلة والتي حددت مسار بحث نارايانان تشكل نوعًا من الكوكبة.

كوانتا تحدث مع نارايانان حول عمله في إزالة إخفاء الهوية وأهمية الحدس الإحصائي والمزالق العديدة لأنظمة الذكاء الاصطناعي. تم اختصار المقابلة وتحريرها من أجل الوضوح.

المُقدّمة

هل كنت ترغب دائمًا في إجراء أبحاث الرياضيات والعلوم؟

لقد نشأت وأنا مهتم جدًا بكليهما ، ولكن في المقام الأول بالرياضيات. لقد كنت جيدًا في حل الألغاز وحققت بعض النجاح في أولمبياد الرياضيات الدولي. لكن كان لدي مفهوم خاطئ كبير حول الفرق بين حل الألغاز ورياضيات البحث.

وفي وقت مبكر ، ركزت بحثي على التشفير ، وخاصة التشفير النظري ، لأنني كنت لا أزال أعمل تحت الوهم أنني كنت جيدًا جدًا في الرياضيات. وبعد ذلك كانت بقية مسيرتي رحلة لإدراك أن هذه ليست قوتي على الإطلاق.

يجب أن يكون هذا بمثابة خلفية جيدة لعمل إزالة إخفاء الهوية الخاص بك.

أنت على حق. ما سمح ببحوث إزالة الهوية هي المهارة التي أسميها الحدس الإحصائي. إنها ليست معرفة رياضية رسمية في الواقع. إنها القدرة على أن يكون لديك حدس في رأسك مثل: "إذا أخذت مجموعة البيانات المعقدة هذه وقمت بتطبيق هذا التحول عليها ، فما هي النتيجة المعقولة؟"

غالبًا ما يكون الحدس خاطئًا ، ولا بأس بذلك. لكن من المهم أن يكون لديك حدس لأنه يمكن أن يوجهك نحو مسارات قد تكون مثمرة.

المُقدّمة

كيف ساعد الحدس الإحصائي في عملك على بيانات Netflix؟

كنت أحاول ابتكار مخطط إخفاء الهوية للبيانات عالية الأبعاد. لقد فشلت تمامًا ، ولكن أثناء عملية الفشل ، طورت حدسًا مفاده أن البيانات عالية الأبعاد لا يمكن إخفاء هويتها بشكل فعال. بالطبع ، زعمت Netflix ، بمنافستها ، أنها فعلت ذلك بالضبط.

كان لدي شك طبيعي في البيانات التسويقية للشركات ، لذلك كنت متحمسًا لإثبات أنها مخطئة. لقد عملنا أنا ومستشاري فيتالي شماتيكوف على ذلك لبضعة أسابيع مكثفة. بمجرد أن أدركنا أن العمل كان له تأثير حقيقي ، بدأت في فعل المزيد.

ماذا كان التأثير العام؟ هل سمعت من Netflix والشركات الأخرى التي تبين أن بياناتها ليست مجهولة تمامًا؟

حسنًا ، أحد الآثار الإيجابية هو أنه حفز علم الخصوصية التفاضلية. ولكن فيما يتعلق بكيفية تفاعل الشركات ، كانت هناك بعض ردود الفعل المختلفة. في كثير من الحالات ، لم تعد الشركات التي كانت ستفرج عن مجموعات البيانات للجمهور تفعل ذلك الآن - فهي تستخدم الخصوصية كسلاح كوسيلة لمحاربة جهود الشفافية.

يُعرف Facebook بفعله هذا. عندما يذهب الباحثون إلى Facebook ويقولون ، "نحتاج إلى الوصول إلى بعض هذه البيانات لدراسة كيفية انتشار المعلومات على المنصة ،" يمكن لـ Facebook الآن أن يقول ، "لا ، لا يمكننا منحك ذلك. سيؤدي ذلك إلى تعريض خصوصية مستخدمينا للخطر ".

لقد كتبت ذات مرة ملف ورقة بحجة أن مصطلح "معلومات التعريف الشخصية" يمكن أن يكون مضللاً. كيف ذلك؟

أعتقد أن هناك ارتباكًا بين صانعي السياسات ناشئ عن طريقتين مختلفتين يستخدم بهما المصطلح. إحداها هي معلومات حساسة للغاية عنك ، مثل رقم الضمان الاجتماعي الخاص بك. معنى آخر هو المعلومات التي يمكن فهرستها في بعض مجموعات البيانات وبالتالي استخدامها للعثور على مزيد من المعلومات عنك.

هذين لهما معاني مختلفة. ليس لدي لحم بقري بمفهوم PII بالمعنى الأول. بعض المعلومات عن الأشخاص حساسة للغاية ، ويجب أن نتعامل معها بعناية أكبر. ولكن على الرغم من أن عنوان بريدك الإلكتروني ليس بالضرورة حساسًا للغاية بالنسبة لمعظم الأشخاص ، إلا أنه لا يزال معرّفًا فريدًا يمكن استخدامه للعثور عليك في مجموعات البيانات الأخرى. طالما أن مجموعة السمات الخاصة بشخص ما متاحة لأي شخص آخر في العالم ، فهذا كل ما تحتاجه لإزالة إخفاء الهوية.

المُقدّمة

كيف توصلت في النهاية إلى دراسة الإنصاف؟

لقد قمت بتدريس دورة الإنصاف والتعلم الآلي في عام 2017. وقد أعطاني ذلك فكرة جيدة عن المشكلات المفتوحة في هذا المجال. وإلى جانب ذلك ، ألقيت حديثًا بعنوان "21 تعريفات الإنصاف وسياستها. " شرحت أن انتشار التعريفات التقنية لم يكن لأسباب فنية ، ولكن لأن هناك أسئلة أخلاقية حقيقية في قلب كل هذا. لا توجد طريقة يمكنك من خلالها الحصول على معيار إحصائي واحد يلتقط جميع الرغبات المعيارية - كل الأشياء التي تريدها. تم استقبال الحديث جيدًا ، لذا أقنعني هذان الشخصان معًا أنه يجب علي البدء في الدخول في هذا الموضوع.

وانت كذلك تحدث في الكشف عن زيت الثعبان بالذكاء الاصطناعي ، والذي تم استقباله جيدًا أيضًا. كيف يرتبط ذلك بالإنصاف في التعلم الآلي؟

لذا كان الدافع وراء ذلك هو أنه من الواضح أن هناك الكثير من الابتكارات التقنية الحقيقية التي تحدث في الذكاء الاصطناعي ، مثل برنامج تحويل النص إلى صورة DALL · E 2 أو برنامج الشطرنج AlphaZero. إنه لأمر مدهش حقًا أن يكون هذا التقدم سريعًا للغاية. الكثير من هذا الابتكار يستحق الاحتفاء به.

تأتي المشكلة عندما نستخدم هذا المصطلح الشامل الواسع والفضفاض للغاية "AI" لأشياء من هذا القبيل بالإضافة إلى تطبيقات أكثر خطورة ، مثل الأساليب الإحصائية للتنبؤ بالمخاطر الجنائية. في هذا السياق ، يختلف نوع التكنولوجيا المستخدمة كثيرًا. هذان نوعان مختلفان جدًا من التطبيقات ، كما أن الفوائد والأضرار المحتملة مختلفة تمامًا. لا يوجد اتصال بينهما على الإطلاق تقريبًا ، لذا فإن استخدام نفس المصطلح لكليهما أمر محير تمامًا.

يتم تضليل الناس في التفكير في أن كل هذا التقدم الذي يرونه في إنشاء الصور سيترجم في الواقع إلى تقدم تجاه المهام الاجتماعية مثل التنبؤ بالمخاطر الجنائية أو التنبؤ بالأطفال الذين سيتسربوا من المدرسة. لكن هذا ليس هو الحال على الإطلاق. بادئ ذي بدء ، لا يمكننا أن نفعل سوى أفضل قليلاً من فرصة عشوائية للتنبؤ بمن قد يتم القبض عليه لارتكاب جريمة. ويتم تحقيق هذه الدقة باستخدام المصنفات البسيطة حقًا. لا يتحسن الأمر بمرور الوقت ، ولا يتحسن لأننا نجمع المزيد من مجموعات البيانات. لذا فإن كل هذه الملاحظات تتناقض مع استخدام التعلم العميق لتوليد الصور ، على سبيل المثال.

كيف يمكنك التمييز بين الأنواع المختلفة من مشاكل التعلم الآلي؟

هذه ليست قائمة شاملة ، ولكن هناك ثلاث فئات مشتركة. الفئة الأولى هي الإدراك ، والتي تتضمن مهام مثل وصف محتوى الصورة. الفئة الثانية هي ما أسميه "الحكم الآلي" ، مثل عندما يريد Facebook استخدام الخوارزميات لتحديد الكلام الذي يكون سامًا جدًا للبقاء على المنصة. والثالث هو توقع النتائج الاجتماعية المستقبلية بين الناس - ما إذا كان سيتم القبض على شخص ما لارتكابه جريمة ، أو إذا كان الطفل سيتسرب من المدرسة.

في جميع الحالات الثلاث ، تختلف الدقة التي يمكن تحقيقها اختلافًا كبيرًا ، كما أن المخاطر المحتملة للذكاء الاصطناعي غير الدقيق مختلفة تمامًا ، والآثار الأخلاقية التي تلي ذلك مختلفة تمامًا.

على سبيل المثال ، يعتبر التعرف على الوجوه ، في تصنيفي ، مشكلة في الإدراك. يتحدث الكثير من الناس عن عدم دقة التعرف على الوجوه ، وفي بعض الأحيان يكونون على حق. لكن لا أعتقد أن هذا بسبب وجود حدود أساسية لدقة التعرف على الوجوه. كانت هذه التكنولوجيا تتحسن ، وستتحسن. لهذا السبب بالتحديد يجب أن نشعر بالقلق حيال ذلك من منظور أخلاقي - عندما تضعه في أيدي الشرطة ، الذين قد يكونون غير خاضعين للمساءلة ، أو الدول التي ليست شفافة بشأن استخدامها.

المُقدّمة

ما الذي يجعل مشاكل التنبؤ الاجتماعي أصعب بكثير من مشاكل الإدراك؟

مشاكل الإدراك لها خاصيتان. أولاً ، لا يوجد غموض حول ما إذا كانت هناك قطة في الصورة. لذلك لديك الحقيقة الأساسية. ثانيًا ، لديك بيانات تدريب غير محدودة بشكل أساسي لأنه يمكنك استخدام جميع الصور الموجودة على الويب. وإذا كنت تستخدم Google أو Facebook ، فيمكنك استخدام جميع الصور التي قام الأشخاص بتحميلها على تطبيقك. لذا فإن هذين العاملين - الافتقار إلى الغموض وتوافر البيانات - يسمحان للمصنفات بأداء جيد حقًا.

هذا يختلف عن مشاكل التنبؤ ، التي لا تحتوي على هاتين الخاصيتين. هناك اختلاف ثالث يجب أن أذكره ، وهو إلى حد ما هو الأكثر أهمية: العواقب الأخلاقية لوضع نماذج التنبؤ هذه موضع التنفيذ تختلف تمامًا عن استخدام أداة ترجمة اللغة على هاتفك ، أو أداة تسمية الصور.

لكن هذه ليست بنفس خطورة الأداة المستخدمة لتحديد ما إذا كان يجب ، على سبيل المثال ، احتجاز شخص ما قبل المحاكمة. هذه لها عواقب على حرية الناس. لذا فإن المفارقة هي أن المجال الذي يعمل فيه الذكاء الاصطناعي بشكل سيئ للغاية ، ولم يتحسن بالفعل بمرور الوقت ، ومن غير المرجح أن يتحسن في المستقبل هو المجال الذي له كل هذه النتائج المهمة بشكل لا يصدق.

تطلب الكثير من عملك التحدث إلى خبراء من خارج مجالك. كيف يبدو التعاون مع الآخرين مثل هذا؟

كان التعاون متعدد التخصصات من أكثر أشكال التعاون إمتاعًا. أعتقد أن أي تعاون من هذا القبيل سيكون له لحظات محبطة لأن الناس لا يتحدثون نفس اللغة.

وصفتي لذلك هي: الثقافة ، ثم اللغة ، ثم الجوهر. إذا كنت لا تفهم ثقافتهم - مثل نوع المنح الدراسية التي يقدرونها - فسيكون الأمر صعبًا حقًا. ما هو مهم لشخص ما قد يبدو غير ذي صلة بآخر. لذلك يجب الإبحار في الجوانب الثقافية أولاً. ثم يمكنك البدء في إنشاء لغة ومفردات مشتركة والوصول أخيرًا إلى جوهر التعاون.

ما مدى تفاؤلك بشأن ما إذا كان بإمكاننا اعتماد التكنولوجيا الجديدة بأمان وحكمة؟

جزء من المشكلة هو فجوة المعرفة. قد لا يدرك صانعو القرار والوكالات الحكومية والشركات والأشخاص الآخرون الذين يشترون أدوات الذكاء الاصطناعي هذه الحدود الجادة للدقة التنبؤية.

لكن في النهاية أعتقد أنها مشكلة سياسية. يريد بعض الأشخاص خفض التكاليف ، لذلك يريدون أداة تلقائية تلغي الوظائف. لذلك هناك ضغط قوي للغاية لتصديق كل ما يقوله هؤلاء البائعون عن أدواتهم التنبؤية.

هاتان مشكلتان مختلفتان. يمكن لأشخاص مثلي المساعدة في معالجة فجوة المعلومات. لكن معالجة المشكلة السياسية تتطلب النشاط. يتطلب منا الاستفادة من العملية الديمقراطية. من الجيد أن نرى أن هناك الكثير من الناس يفعلون ذلك. وعلى المدى الطويل ، أعتقد أنه يمكننا مقاومة التطبيقات الضارة والمسيئة للذكاء الاصطناعي. لا أعتقد أنه سيتغير في لحظة ولكن من خلال عملية نشاط طويلة وطويلة وممتدة والتي استمرت بالفعل منذ عقد أو أكثر. أنا متأكد من أنها ستستمر لفترة طويلة.

الطابع الزمني:

اكثر من كوانتماجازين