นักวิจัยที่จะสอนเครื่องจักรให้ยุติธรรม

นักวิจัยที่จะสอนเครื่องจักรให้ยุติธรรม

นักวิจัยที่จะสอนเครื่องจักรให้มีความเป็นธรรม PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

บทนำ

ในบางครั้ง บุคคลอาจนำแนวคิดเชิงนามธรรมที่ดูคลุมเครือเกินไปสำหรับการศึกษาอย่างเป็นทางการและเสนอคำจำกัดความอย่างเป็นทางการที่สง่างาม Claude Shannon ทำมันด้วย ข้อมูลและ Andrei Kolmogorov ก็ทำได้ด้วย สุ่ม. ในช่วงไม่กี่ปีที่ผ่านมา นักวิจัยพยายามทำเช่นเดียวกันกับแนวคิดเรื่องความยุติธรรมในการเรียนรู้ของเครื่อง น่าเสียดายที่มันยุ่งยากกว่านี้ แนวคิดนี้ไม่เพียงแต่ให้คำจำกัดความได้ยากเท่านั้น แต่ยังเป็นไปไม่ได้ที่คำจำกัดความเดียวจะตอบสนองเมตริกความเป็นธรรมที่ต้องการทั้งหมด อารวินท์นรานันท์นักวิทยาศาสตร์คอมพิวเตอร์แห่งมหาวิทยาลัยพรินซ์ตัน มีบทบาทสำคัญในการปรับบริบทมุมมองต่างๆ และช่วยให้สาขาใหม่นี้สร้างตัวเองได้

อาชีพของเขาครอบคลุมทุกระดับของสิ่งที่เป็นนามธรรม ตั้งแต่ทฤษฎีไปจนถึงนโยบาย แต่การเดินทางที่นำไปสู่งานปัจจุบันของเขาเริ่มขึ้นในปี 2006 ในปีนั้น Netflix สนับสนุนการแข่งขันที่จะมอบรางวัล 1 ล้านดอลลาร์ให้กับใครก็ตามที่ปรับปรุงความแม่นยำของระบบคำแนะนำโดย 10% Netflix ให้ชุดข้อมูลที่ไม่ระบุตัวตนของผู้ใช้และการให้คะแนนของผู้ใช้ โดยลบข้อมูลส่วนบุคคลออก แต่ Narayanan แสดงให้เห็นว่าด้วยเทคนิคทางสถิติที่ซับซ้อน คุณจำเป็นต้องมีจุดข้อมูลเพียงไม่กี่จุดเพื่อเปิดเผยตัวตนของผู้ใช้ที่ "ไม่ระบุตัวตน" ในชุดข้อมูล

ตั้งแต่นั้นมา Narayanan ได้มุ่งเน้นไปที่พื้นที่อื่น ๆ ที่ทฤษฎีมาบรรจบกับการปฏิบัติ ผ่าน โครงการความโปร่งใสและความรับผิดชอบของเว็บพรินซ์ตันทีมงานของเขาได้เปิดเผยวิธีการแอบแฝงที่เว็บไซต์ติดตามผู้ใช้และดึงข้อมูลที่ละเอียดอ่อนออกมา ทีมของเขาพบว่ากลุ่มอย่าง National Security Agency สามารถใช้ข้อมูลการท่องเว็บ (โดยเฉพาะ คุกกี้ที่บุคคลที่สามวางไว้) ไม่เพียงแต่เพื่อค้นหาตัวตนในโลกแห่งความเป็นจริงของผู้ใช้ แต่ยังสร้างประวัติการท่องเว็บ 62% ถึง 73% ขึ้นมาใหม่ . พวกเขาแสดงให้เห็นว่า - เพื่อ riff บน มีชื่อเสียง Yorker ใหม่ การ์ตูน — บนอินเทอร์เน็ต ตอนนี้เว็บไซต์รู้ว่าคุณเป็นสุนัข

ในช่วงไม่กี่ปีที่ผ่านมา Narayanan ได้หันมาสนใจเป็นพิเศษ เรียนรู้เครื่อง — แอปพลิเคชันของปัญญาประดิษฐ์ที่ช่วยให้เครื่องจักรสามารถเรียนรู้จากข้อมูลได้ ในขณะที่เขายินดีกับความก้าวหน้าของ AI เขาชี้ให้เห็นว่าระบบดังกล่าวสามารถล้มเหลวได้อย่างไรแม้ว่าจะมีความตั้งใจที่ดี และเทคโนโลยีที่มีประโยชน์อย่างอื่นเหล่านี้สามารถกลายเป็นเครื่องมือในการตัดสินการเลือกปฏิบัติได้อย่างไร ในแง่นี้ จุดที่ดูเหมือนไม่เชื่อมโยงซึ่งกำหนดเส้นทางการวิจัยของ Narayanan ก่อตัวเป็นกลุ่มดาวชนิดหนึ่ง

ควอนตั้ม พูดคุยกับ Narayanan เกี่ยวกับงานของเขาเกี่ยวกับการไม่เปิดเผยชื่อ ความสำคัญของสัญชาตญาณทางสถิติ และข้อผิดพลาดมากมายของระบบ AI บทสัมภาษณ์ได้รับการย่อและแก้ไขเพื่อความชัดเจน

บทนำ

คุณต้องการทำวิจัยทางคณิตศาสตร์และวิทยาศาสตร์อยู่เสมอหรือไม่?

ฉันเติบโตขึ้นมาโดยสนใจทั้งสองอย่าง แต่ส่วนใหญ่เป็นคณิตศาสตร์ ฉันแก้ปริศนาได้ดีและประสบความสำเร็จในการแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ แต่ฉันมีความเข้าใจผิดอย่างมากเกี่ยวกับความแตกต่างระหว่างการแก้ปริศนาและคณิตศาสตร์การวิจัย

และตั้งแต่เนิ่นๆ ฉันมุ่งความสนใจไปที่การค้นคว้าเกี่ยวกับการเข้ารหัส โดยเฉพาะอย่างยิ่ง การเข้ารหัสเชิงทฤษฎี เพราะฉันยังคงทำงานภายใต้การเข้าใจผิดว่าฉันเก่งคณิตศาสตร์มาก จากนั้นอาชีพที่เหลือของฉันคือการเดินทางเพื่อตระหนักว่าจริง ๆ แล้วไม่ใช่จุดแข็งของฉันเลย

นั่นต้องเป็นพื้นฐานที่ดีสำหรับงานลบข้อมูลส่วนตัวของคุณ

คุณถูก. สิ่งที่อนุญาตให้ทำการวิจัยแบบไม่ระบุตัวตนคือทักษะที่ฉันเรียกว่าสัญชาตญาณทางสถิติ มันไม่ใช่ความรู้ทางคณิตศาสตร์อย่างเป็นทางการ มันสามารถมีสัญชาตญาณในหัวของคุณ เช่น: "ถ้าฉันใช้ชุดข้อมูลที่ซับซ้อนนี้และใช้การแปลงนี้กับมัน ผลลัพธ์ที่น่าเชื่อถือคืออะไร"

สัญชาตญาณมักจะผิดพลาด ซึ่งก็ไม่เป็นไร แต่สิ่งสำคัญคือต้องมีสัญชาตญาณเพราะมันสามารถนำทางคุณไปสู่เส้นทางที่อาจจะเกิดผลได้

บทนำ

สัญชาตญาณทางสถิติช่วยคุณทำงานเกี่ยวกับข้อมูล Netflix ได้อย่างไร

ฉันได้พยายามคิดค้นรูปแบบการไม่เปิดเผยตัวตนสำหรับข้อมูลมิติสูง มันล้มเหลวอย่างสิ้นเชิง แต่ในกระบวนการล้มเหลว ฉันได้พัฒนาสัญชาตญาณว่าข้อมูลมิติสูงไม่สามารถเปิดเผยตัวตนได้อย่างมีประสิทธิภาพ แน่นอน Netflix กับคู่แข่งอ้างว่าได้ทำอย่างนั้น

ฉันมีความสงสัยโดยธรรมชาติเกี่ยวกับข้อความทางการตลาดของบริษัทต่างๆ ดังนั้นฉันจึงมีแรงจูงใจที่จะพิสูจน์ว่าพวกเขาคิดผิด ที่ปรึกษาของฉัน Vitaly Shmatikov และฉันทำงานร่วมกันเป็นเวลาหลายสัปดาห์ เมื่อเรารู้ว่างานมีผลกระทบจริง ๆ ฉันก็เริ่มทำมากขึ้น

ผลกระทบโดยรวมคืออะไร? คุณได้รับการติดต่อกลับจาก Netflix และบริษัทอื่นๆ ที่ข้อมูลกลายเป็นข้อมูลที่ไม่เปิดเผยตัวตนหรือไม่?

ผลกระทบเชิงบวกประการหนึ่งคือมันกระตุ้นวิทยาศาสตร์ของ ความเป็นส่วนตัวที่แตกต่างกัน. แต่ในแง่ของการตอบสนองของบริษัทต่างๆ มีปฏิกิริยาที่แตกต่างกันเล็กน้อย ในหลายกรณี บริษัทที่เคยเผยแพร่ชุดข้อมูลสู่สาธารณะจะไม่ทำเช่นนั้นอีกต่อไป — พวกเขากำลังทำให้ความเป็นส่วนตัวเป็นอาวุธเพื่อต่อสู้กับความพยายามด้านความโปร่งใส

Facebook เป็นที่รู้จักกันดีในการทำเช่นนี้ เมื่อนักวิจัยไปที่ Facebook และพูดว่า "เราต้องการเข้าถึงข้อมูลนี้บางส่วนเพื่อศึกษาว่าข้อมูลแพร่กระจายบนแพลตฟอร์มอย่างไร" ตอนนี้ Facebook สามารถพูดว่า "ไม่ เราไม่สามารถให้ข้อมูลนั้นแก่คุณได้ นั่นจะกระทบต่อความเป็นส่วนตัวของผู้ใช้ของเรา”

คุณเคยเขียน ก กระดาษ การโต้แย้งว่าคำว่า “ข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้” อาจทำให้เข้าใจผิดได้ ยังไง?

ฉันคิดว่ามีความสับสนในหมู่ผู้กำหนดนโยบายซึ่งเกิดจากสองวิธีที่แตกต่างกันในการใช้คำนี้ หนึ่งคือข้อมูลเกี่ยวกับตัวคุณที่มีความละเอียดอ่อนมาก เช่น หมายเลขประกันสังคมของคุณ อีกความหมายหนึ่งคือข้อมูลที่สามารถจัดทำดัชนีเป็นชุดข้อมูลบางชุด และด้วยเหตุนี้จึงใช้เพื่อค้นหาข้อมูลเพิ่มเติมเกี่ยวกับตัวคุณ

ทั้งสองมีความหมายต่างกัน ฉันไม่มีเนื้อวัวกับแนวคิดของ PII ในความหมายแรก ข้อมูลบางอย่างเกี่ยวกับผู้คนนั้นละเอียดอ่อนมาก และเราควรปฏิบัติต่อพวกเขาอย่างระมัดระวังมากขึ้น แม้ว่าที่อยู่อีเมลของคุณไม่จำเป็นต้องละเอียดอ่อนมากนักสำหรับคนส่วนใหญ่ แต่ก็ยังเป็นตัวระบุเฉพาะที่สามารถใช้ค้นหาคุณในชุดข้อมูลอื่นๆ ได้ ตราบเท่าที่ทุกคนในโลกสามารถรวมคุณสมบัติเกี่ยวกับบุคคลได้ นั่นคือทั้งหมดที่คุณต้องการสำหรับการไม่เปิดเผยตัวตน

บทนำ

ในที่สุดคุณมาเรียนธรรมได้อย่างไร?

ฉันสอนหลักสูตรความเป็นธรรมและแมชชีนเลิร์นนิงในปี 2017 นั่นทำให้ฉันมีความคิดที่ดีเกี่ยวกับปัญหาเปิดในภาคสนาม และพร้อมกันนั้น ข้าพเจ้าได้บรรยายเรื่อง “21 คำจำกัดความของความเป็นธรรมและการเมือง” ฉันอธิบายว่าการเพิ่มจำนวนของคำจำกัดความทางเทคนิคไม่ใช่เพราะเหตุผลทางเทคนิค แต่เพราะมีคำถามทางศีลธรรมที่แท้จริงเป็นหัวใจของทั้งหมดนี้ ไม่มีทางที่คุณจะมีเกณฑ์ทางสถิติเพียงเกณฑ์เดียวที่รวบรวม desiderata เชิงบรรทัดฐานทั้งหมด — ทุกสิ่งที่คุณต้องการ การพูดคุยได้รับการตอบรับอย่างดี ดังนั้นทั้งสองจึงร่วมกันโน้มน้าวให้ฉันเริ่มเข้าสู่หัวข้อนี้

คุณยัง ได้พูดคุย ในการตรวจจับน้ำมันงูของ AI ซึ่งได้รับการตอบรับที่ดีเช่นกัน สิ่งนี้เกี่ยวข้องกับความยุติธรรมในการเรียนรู้ของเครื่องอย่างไร

ดังนั้น แรงจูงใจในเรื่องนี้ก็คือ มีนวัตกรรมทางเทคนิคของแท้มากมายเกิดขึ้นใน AI เช่น โปรแกรมแปลงข้อความเป็นรูปภาพ DALL E2 หรือโปรแกรมหมากรุก อัลฟาซีโร. มันน่าทึ่งมากที่ความก้าวหน้านี้รวดเร็วมาก นวัตกรรมมากมายสมควรได้รับการเฉลิมฉลอง

ปัญหาเกิดขึ้นเมื่อเราใช้คำว่า “AI” ที่คลุมเครือและไม่คลุมเครือสำหรับสิ่งต่าง ๆ เช่นนั้นรวมถึงการใช้งานที่เต็มไปด้วยความหมายมากขึ้น เช่น วิธีการทางสถิติสำหรับการทำนายความเสี่ยงทางอาญา ในบริบทดังกล่าว ประเภทของเทคโนโลยีที่เกี่ยวข้องนั้นแตกต่างกันมาก แอปพลิเคชันสองประเภทเหล่านี้แตกต่างกันมาก และประโยชน์และโทษที่อาจเกิดขึ้นก็แตกต่างกันมากเช่นกัน แทบจะไม่มีความเกี่ยวข้องกันเลย ดังนั้นการใช้คำเดียวกันสำหรับทั้งสองคำจึงทำให้เกิดความสับสนอย่างมาก

ผู้คนเข้าใจผิดคิดว่าความก้าวหน้าทั้งหมดที่พวกเขาเห็นจากการสร้างภาพจะแปลเป็นความคืบหน้า ต่องานสังคม เช่น การทำนายความเสี่ยงทางอาชญากรรมหรือการทำนายว่าเด็กคนไหนจะเลิกเรียนกลางคัน แต่นั่นไม่ใช่กรณีทั้งหมด ก่อนอื่น เราสามารถทำได้ดีกว่าการสุ่มเสี่ยงเพียงเล็กน้อยเท่านั้นในการทำนายว่าใครจะถูกจับกุมในข้อหาก่ออาชญากรรม และความแม่นยำนั้นเกิดขึ้นได้ด้วยตัวแยกประเภทที่เรียบง่ายจริงๆ มันไม่ได้ดีขึ้นเมื่อเวลาผ่านไป และก็ไม่ได้ดีขึ้นเมื่อเรารวบรวมชุดข้อมูลมากขึ้น ดังนั้น ข้อสังเกตเหล่านี้ตรงกันข้ามกับการใช้การเรียนรู้เชิงลึกสำหรับการสร้างภาพ เป็นต้น

คุณจะแยกความแตกต่างของปัญหาแมชชีนเลิร์นนิงประเภทต่างๆ ได้อย่างไร

นี่ไม่ใช่รายการที่ครบถ้วนสมบูรณ์ แต่มีสามประเภททั่วไป ประเภทแรกคือการรับรู้ ซึ่งรวมถึงงานต่างๆ เช่น การอธิบายเนื้อหาของรูปภาพ ประเภทที่สองคือสิ่งที่ฉันเรียกว่า "การตัดสินโดยอัตโนมัติ" เช่นเมื่อ Facebook ต้องการใช้อัลกอริทึมเพื่อพิจารณาว่าคำพูดใดเป็นพิษเกินกว่าจะอยู่บนแพลตฟอร์มได้ และอันที่สามทำนายผลลัพธ์ทางสังคมในอนาคตของผู้คน ไม่ว่าจะเป็นใครจะถูกจับกุมในข้อหาก่ออาชญากรรม หรือเด็กจะต้องออกจากโรงเรียนกลางคัน

ในทั้งสามกรณี ความแม่นยำที่ทำได้นั้นแตกต่างกันมาก อันตรายที่อาจเกิดขึ้นจาก AI ที่ไม่ถูกต้องนั้นแตกต่างกันมาก และความหมายทางจริยธรรมที่ตามมานั้นแตกต่างกันมาก

ตัวอย่างเช่น การจดจำใบหน้าในการจัดประเภทของฉันเป็นปัญหาการรับรู้ หลายคนพูดถึงการจดจำใบหน้าว่าไม่แม่นยำ และบางครั้งก็พูดถูก แต่ฉันไม่คิดว่านั่นเป็นเพราะมีข้อจำกัดพื้นฐานสำหรับความแม่นยำของการจดจำใบหน้า เทคโนโลยีนั้นได้รับการปรับปรุง และจะดีขึ้นเรื่อยๆ นั่นเป็นเหตุผลว่าทำไมเราจึงควรกังวลเกี่ยวกับเรื่องนี้จากมุมมองด้านจริยธรรม เมื่อคุณนำมันไปอยู่ในมือของตำรวจ ซึ่งอาจไม่มีความรับผิดชอบ หรือรัฐที่ไม่โปร่งใสเกี่ยวกับการใช้งาน

บทนำ

อะไรทำให้ปัญหาการทำนายทางสังคมยากกว่าปัญหาการรับรู้?

ปัญหาการรับรู้มีสองลักษณะ หนึ่ง ไม่มีความคลุมเครือว่ามีแมวอยู่ในภาพหรือไม่ ดังนั้นคุณมีความจริงพื้นฐาน ประการที่สอง คุณมีข้อมูลการฝึกไม่จำกัด เนื่องจากคุณสามารถใช้รูปภาพทั้งหมดบนเว็บได้ และถ้าคุณคือ Google หรือ Facebook คุณสามารถใช้รูปภาพทั้งหมดที่ผู้คนอัปโหลดไปยังแอปของคุณได้ ดังนั้นปัจจัยทั้งสองนี้ — การขาดความคลุมเครือและความพร้อมใช้งานของข้อมูล — ช่วยให้ตัวแยกประเภททำงานได้ดีมาก

ซึ่งแตกต่างจากปัญหาการทำนายซึ่งไม่มีสองลักษณะนี้ มีความแตกต่างประการที่สามที่ฉันควรพูดถึง ซึ่งในแง่หนึ่งเป็นข้อที่สำคัญที่สุด: ผลทางศีลธรรมของการนำแบบจำลองการทำนายเหล่านี้ไปใช้จริงนั้นแตกต่างอย่างมากจากการใช้เครื่องมือแปลภาษาบนโทรศัพท์ของคุณหรือเครื่องมือติดป้ายกำกับรูปภาพ

แต่นั่นไม่ร้ายแรงเท่ากับเครื่องมือที่ใช้ในการตัดสินว่าใครบางคนควรถูกคุมขังก่อนการพิจารณาคดีหรือไม่ สิ่งเหล่านี้มีผลกระทบต่อเสรีภาพของประชาชน สิ่งที่น่าขันก็คือ พื้นที่ที่ AI ทำงานได้แย่ที่สุด ไม่ได้รับการปรับปรุงเมื่อเวลาผ่านไป และไม่น่าจะปรับปรุงในอนาคต คือพื้นที่ที่มีผลกระทบที่สำคัญอย่างไม่น่าเชื่อเหล่านี้ทั้งหมด

งานส่วนใหญ่ของคุณจำเป็นต้องพูดคุยกับผู้เชี่ยวชาญนอกสาขาของคุณ การร่วมมือกับผู้อื่นเช่นนี้เป็นอย่างไร

ความร่วมมือแบบสหวิทยาการเป็นหนึ่งในความร่วมมือที่สนุกที่สุด ฉันคิดว่าการทำงานร่วมกันดังกล่าวจะมีช่วงเวลาที่น่าผิดหวังเพราะผู้คนไม่ได้พูดภาษาเดียวกัน

ใบสั่งยาของฉันคือ: วัฒนธรรม ภาษา และสาระสำคัญ หากคุณไม่เข้าใจวัฒนธรรมของพวกเขา เช่น ทุนการศึกษาประเภทใดที่พวกเขาให้ความสำคัญ คงจะเป็นเรื่องยากมาก สิ่งที่มีค่าสำหรับคนหนึ่งอาจดูไม่เกี่ยวข้องกับอีกคนหนึ่ง ดังนั้นต้องสำรวจแง่มุมทางวัฒนธรรมก่อน จากนั้นคุณสามารถเริ่มสร้างภาษาและคำศัพท์ทั่วไปและเข้าถึงเนื้อหาของการทำงานร่วมกันได้ในที่สุด

คุณมองโลกในแง่ดีมากน้อยเพียงใดว่าเราจะสามารถนำเทคโนโลยีใหม่ๆ มาใช้อย่างปลอดภัยและชาญฉลาดได้หรือไม่

ส่วนหนึ่งของปัญหาคือช่องว่างของความรู้ ผู้มีอำนาจตัดสินใจ หน่วยงานรัฐบาล บริษัท และบุคคลอื่น ๆ ที่กำลังซื้อเครื่องมือ AI เหล่านี้อาจไม่รู้จักข้อจำกัดร้ายแรงของความแม่นยำในการคาดการณ์

แต่สุดท้ายผมคิดว่ามันเป็นปัญหาทางการเมือง บางคนต้องการลดต้นทุน ดังนั้นพวกเขาจึงต้องการเครื่องมืออัตโนมัติซึ่งช่วยลดงาน ดังนั้นจึงมีแรงกดดันอย่างมากที่จะเชื่อในสิ่งที่ผู้ขายเหล่านี้พูดเกี่ยวกับเครื่องมือทำนายของพวกเขา

นั่นเป็นสองปัญหาที่แตกต่างกัน คนอย่างฉันอาจช่วยแก้ไขช่องว่างของข้อมูลได้ แต่การแก้ปัญหาการเมืองต้องอาศัยการเคลื่อนไหว เราต้องใช้ประโยชน์จากกระบวนการประชาธิปไตย เป็นเรื่องดีที่เห็นว่ามีคนจำนวนมากทำเช่นนั้น และในระยะยาว ฉันคิดว่าเราสามารถต่อต้านการใช้งาน AI ที่เป็นอันตรายและในทางที่ผิดได้ ฉันไม่คิดว่ามันจะไม่เปลี่ยนแปลงในชั่วพริบตา แต่ผ่านกระบวนการเคลื่อนไหวที่ยืดเยื้อและยืดเยื้อซึ่งดำเนินมาเป็นเวลาสิบปีหรือมากกว่านั้น ฉันแน่ใจว่ามันจะดำเนินต่อไปอีกนาน

ประทับเวลา:

เพิ่มเติมจาก ควอนทามากาซีน