החוקר שילמד מכונות להיות הוגנות

החוקר שילמד מכונות להיות הוגנות

החוקר שילמד מכונות להיות הוגן אינטליגנציה נתונים PlatoBlockchain. חיפוש אנכי. איי.

מבוא

מדי פעם, אדם יכול לקחת מושג מופשט שלכאורה מעורפל מדי ללימוד פורמלי ולהציע הגדרה פורמלית אלגנטית. קלוד שאנון עשה את זה עם מידע, ואנדריי קולמוגורוב עשה את זה עם אקראי. בשנים האחרונות, חוקרים מנסים לעשות את אותו הדבר עבור מושג ההוגנות בלמידת מכונה. למרבה הצער, זה היה מסובך יותר. לא רק שקשה יותר להגדיר את המושג, אלא גם בלתי אפשרי שהגדרה אחת תעמוד בכל מדדי ההגינות הרצויים. ארווינד נאראיאן, מדען מחשבים באוניברסיטת פרינסטון, סייע בהקשר של השקפות שונות וסייע לתחום החדש הזה לבסס את עצמו.

הקריירה שלו השתרעה על כל רמות ההפשטה, מתיאוריה ועד מדיניות, אבל המסע שהוביל בסופו של דבר לעבודתו הנוכחית החל בשנת 2006. באותה שנה, נטפליקס מימנה תחרות שתעניק מיליון דולר למי שיפר את הדיוק של מערכת ההמלצות שלהם על ידי 1%. נטפליקס סיפקה מערך נתונים אנונימי לכאורה של משתמשים ודירוגיהם, עם מידע אישי מזהה הוסר. אבל Narayanan הראה שבאמצעות טכניקה סטטיסטית מתוחכמת, אתה צריך רק כמה נקודות נתונים כדי לחשוף את זהותו של משתמש "אנונימי" במערך הנתונים.

מאז, Narayanan התמקד בתחומים אחרים שבהם תיאוריה פוגשת פרקטיקה. דרך ה פרויקט שקיפות אינטרנט ואחריות של פרינסטון, הצוות שלו חשף דרכים סמויות שבהן אתרים עוקבים אחר משתמשים ומחלצים נתונים רגישים. הצוות שלו גילה שקבוצה כמו הסוכנות לביטחון לאומי יכולה להשתמש בנתוני גלישה באינטרנט (במיוחד, עוגיות המוצבות על ידי צדדים שלישיים) לא רק כדי לגלות את הזהות האמיתית של המשתמש, אלא גם כדי לשחזר 62% עד 73% מהיסטוריית הגלישה שלו. . הם הראו את זה - לריף על מפורסם ניו יורקר קָרִיקָטוּרָה - באינטרנט, אתרים יודעים כעת שאתה כלב.

בשנים האחרונות פנה נאראיאן במיוחד למידת מכונה - יישום של בינה מלאכותית שנותן למכונות את היכולת ללמוד מנתונים. למרות שהוא מברך על התקדמות ב-AI, הוא מציין כיצד מערכות כאלה יכולות להיכשל אפילו עם כוונות טובות, וכיצד הטכנולוגיות השימושיות הללו יכולות להפוך לכלים להצדקת אפליה. לאור זה, הנקודות הבלתי מחוברות לכאורה שהגדירו את מסלול המחקר של נאראיאן יוצרות מעין קבוצת כוכבים.

Quanta שוחח עם Narayanan על עבודתו על דה-אנונימיזציה, על חשיבותה של אינטואיציה סטטיסטית ועל המלכודות הרבות של מערכות AI. הראיון תמצה ונערך למען הבהירות.

מבוא

תמיד רצית לחקור מתמטיקה ומדעים?

גדלתי מאוד מתעניין בשניהם, אבל בעיקר במתמטיקה. הייתי טוב בפתרון חידות ואפילו היה לי הצלחה מסוימת באולימפיאדת המתמטיקה הבינלאומית. אבל הייתה לי תפיסה שגויה ענקית לגבי ההבדל בין פתרון חידות למתמטיקה מחקרית.

וכל כך מוקדם, התמקדתי במחקר שלי בקריפטוגרפיה, במיוחד בקריפטוגרפיה תיאורטית, מכיוון שעדיין עבדתי באשליה שאני טוב מאוד במתמטיקה. ואז שאר הקריירה שלי היה מסע של הבנה שזה בעצם לא הכוח שלי בכלל.

זה בטח שימש רקע טוב לעבודת הדה-אנונימיזציה שלך.

אתה צודק. מה שאפשר את מחקר הדה-אנונימיזציה הוא המיומנות שאני מכנה אינטואיציה סטטיסטית. זה לא ממש ידע מתמטי פורמלי. זה להיות מסוגל להיות עם אינטואיציה בראש כמו: "אם אני לוקח את מערך הנתונים המורכב הזה ואחיל עליו את השינוי הזה, מהי תוצאה סבירה?"

לעתים קרובות אינטואיציה עשויה להיות שגויה, וזה בסדר. אבל חשוב שתהיה לך אינטואיציה מכיוון שהיא יכולה לכוון אותך לנתיבים שעשויים להיות פוריים.

מבוא

איך אינטואיציה סטטיסטית עזרה בעבודה שלך על נתוני נטפליקס?

ניסיתי להמציא סכימת אנונימיזציה לנתונים בעלי מימד גבוה. זה נכשל לחלוטין, אבל בתהליך הכישלון פיתחתי את האינטואיציה שלא ניתן לבצע אנונימיות ביעילות בנתונים בעלי מימד גבוה. כמובן נטפליקס, עם המתחרים שלהם, טענו שעשו בדיוק את זה.

הייתה לי הספקנות הטבעית שלי לגבי הצהרות השיווק של חברות, אז הייתה לי מוטיבציה להוכיח שהן שגויות. היועץ שלי, ויטלי שמטיקוב, ואני עבדנו על זה כמה שבועות אינטנסיביים. ברגע שהבנו שהעבודה באמת משפיעה, התחלתי לעשות יותר.

מה הייתה ההשפעה הכוללת? האם שמעתם מנטפליקס ומחברות אחרות שהנתונים שלהן התבררו כל כך לא אנונימיים?

ובכן, השפעה חיובית אחת היא שזה דרבן את המדע של הפרטיות דיפרנציאלית. אבל מבחינת האופן שבו חברות הגיבו, היו כמה תגובות שונות. במקרים רבים, חברות שאחרת היו משחררות מערכי נתונים לציבור כבר לא עושות זאת - הן מנצלות את הפרטיות כדרך להילחם במאמצי השקיפות.

פייסבוק ידועה בכך שעושה זאת. כאשר חוקרים הולכים לפייסבוק ואומרים, "אנחנו צריכים גישה לחלק מהנתונים האלה כדי ללמוד כיצד המידע מתפשט בפלטפורמה", פייסבוק יכולה לומר כעת, "לא, אנחנו לא יכולים לתת לך את זה. זה יפגע בפרטיות המשתמשים שלנו".

פעם כתבת א מאמר בטענה שהמונח "מידע אישי מזהה" יכול להטעות. איך זה?

אני חושב שיש בלבול בקרב קובעי מדיניות הנובע משתי דרכים שונות שבהן משתמשים במונח. האחד הוא מידע עליך שהוא מאוד רגיש, כמו מספר ת.ז. שלך. משמעות נוספת היא מידע שניתן לאינדקס לכמה מערכי נתונים ובכך להשתמש בו כדי למצוא מידע נוסף עליך.

לשני אלה יש משמעויות שונות. אין לי בקר עם המושג PII במובן הראשון. חלקים מסוימים של מידע על אנשים הם מאוד רגישים, ועלינו להתייחס אליהם בזהירות רבה יותר. אך בעוד שכתובת הדוא"ל שלך אינה בהכרח רגישה מאוד עבור רוב האנשים, היא עדיין מזהה ייחודי שניתן להשתמש בו כדי למצוא אותך במערכות נתונים אחרות. כל עוד השילוב של תכונות לגבי אדם זמין לכל אחד אחר בעולם, זה כל מה שאתה צריך לביטול אנונימיזציה.

מבוא

איך הגעת בסופו של דבר ללימוד הגינות?

לימדתי קורס הגינות ולמידת מכונה בשנת 2017. זה נתן לי מושג טוב על הבעיות הפתוחות בתחום. ויחד עם זה נשאתי הרצאה בשם "21 הגדרות הגינות והפוליטיקה שלהן." הסברתי שההתפשטות של הגדרות טכניות לא הייתה בגלל סיבות טכניות, אלא בגלל שיש שאלות מוסריות אמיתיות בלב כל זה. אין סיכוי שיהיה לך קריטריון סטטיסטי אחד שיועד את כל הרצונות הנורמטיביים - כל הדברים שאתה רוצה. השיחה התקבלה היטב, אז שני אלה יחד שכנעו אותי שאני צריך להתחיל להיכנס לנושא הזה.

גם אתה נשא הרצאה על זיהוי שמן נחשים בינה מלאכותית, שגם התקבלה יפה. איך זה קשור להוגנות בלמידת מכונה?

אז המניע לכך היה שברור שיש הרבה חדשנות טכנית אמיתית שקורה ב-AI, כמו תוכנית הטקסט לתמונה DALL E 2 או תוכנית השחמט אלפא אפס. זה באמת מדהים שההתקדמות הזו הייתה כל כך מהירה. הרבה מהחדשנות הזו ראויה לחגוג.

הבעיה מגיעה כאשר אנו משתמשים במונח הגג הרחב והרופף הזה "AI" עבור דברים כאלה, כמו גם ליישומים עמוסים יותר, כמו שיטות סטטיסטיות לחיזוי סיכונים פליליים. בהקשר זה, סוג הטכנולוגיה המעורב שונה מאוד. אלו שני סוגים שונים מאוד של יישומים, וגם היתרונות והנזקים הפוטנציאליים שונים מאוד. אין כמעט קשר ביניהם, ולכן השימוש באותו מונח עבור שניהם מבלבל ביסודיות.

אנשים מוטעים לחשוב שכל ההתקדמות הזו שהם רואים ביצירת תמונות תתורגם למעשה להתקדמות לקראת משימות חברתיות כמו חיזוי סיכון פלילי או חיזוי אילו ילדים עומדים לנשור מבית הספר. אבל זה בכלל לא המצב. קודם כל, אנחנו יכולים לעשות רק קצת יותר טוב מאשר סיכוי אקראי לחזות מי עלול להיעצר על פשע. והדיוק הזה מושג עם מסווגים פשוטים באמת. זה לא משתפר עם הזמן, וזה לא משתפר ככל שאנו אוספים יותר מערכי נתונים. אז כל התצפיות הללו מנוגדות לשימוש בלמידה עמוקה ליצירת תמונות, למשל.

כיצד תבחין בין סוגים שונים של בעיות למידת מכונה?

זו אינה רשימה ממצה, אך ישנן שלוש קטגוריות נפוצות. הקטגוריה הראשונה היא תפיסה, הכוללת משימות כמו תיאור התוכן של תמונה. הקטגוריה השנייה היא מה שאני מכנה "אוטומציה של שיפוט", למשל כאשר פייסבוק רוצה להשתמש באלגוריתמים כדי לקבוע איזה דיבור רעיל מכדי להישאר בפלטפורמה. והשלישי הוא חיזוי תוצאות חברתיות עתידיות בקרב אנשים - האם מישהו ייעצר על פשע, או אם ילד עומד לעזוב את בית הספר.

בכל שלושת המקרים, הדיוקים הניתנים להשגה שונים מאוד, הסכנות הפוטנציאליות של AI לא מדויק שונות מאוד, וההשלכות האתיות הבאות שונות מאוד.

למשל, זיהוי פנים, בסיווג שלי, הוא בעיית תפיסה. הרבה אנשים מדברים על כך שזיהוי פנים אינו מדויק, ולפעמים הם צודקים. אבל אני לא חושב שזה בגלל שיש גבולות בסיסיים לדיוק של זיהוי פנים. הטכנולוגיה הזו השתפרה, והיא עומדת להשתפר. בדיוק בגלל זה אנחנו צריכים להיות מודאגים לגבי זה מנקודת מבט אתית - כשאתה מעביר את זה לידי המשטרה, שעלולה להיות חסרת דין וחשבון, או מדינות שאינן שקופות לגבי השימוש בה.

מבוא

מה הופך בעיות חיזוי חברתיות לקשות הרבה יותר מבעיות תפיסה?

לבעיות תפיסה יש כמה מאפיינים. האחת, אין אי בהירות אם יש חתול בתמונה. אז יש לך את האמת הבסיסית. שנית, יש לך למעשה נתוני אימון בלתי מוגבלים מכיוון שאתה יכול להשתמש בכל התמונות באינטרנט. ואם אתה גוגל או פייסבוק, אתה יכול להשתמש בכל התמונות שאנשים העלו לאפליקציה שלך. אז שני הגורמים האלה - היעדר אי בהירות וזמינות הנתונים - מאפשרים למסווגים לבצע ביצועים טובים באמת.

זה שונה מבעיות חיזוי, שאין להן את שני המאפיינים האלה. יש הבדל שלישי שעלי להזכיר, שבמובן מסוים הוא החשוב ביותר: ההשלכות המוסריות של הפעלת מודלים חיזויים אלה שונים מאוד משימוש בכלי תרגום שפה בטלפון שלך, או כלי תיוג תמונות.

אבל זו לא אותה רצינות כמו הכלי המשמש כדי לקבוע אם מישהו צריך להיות, למשל, לעצור לפני משפט. יש לכך השלכות על חירותם של אנשים. אז האירוניה היא שהתחום שבו AI עובד הכי גרוע, לא ממש השתפר עם הזמן, וסביר להניח שלא ישתפר בעתיד הוא התחום שיש לו את כל ההשלכות החשובות להפליא האלה.

חלק גדול מהעבודה שלך דרש שיחה עם מומחים מחוץ לתחום שלך. איך זה לשתף פעולה עם אחרים ככה?

שיתופי פעולה בין-תחומיים היו חלק משיתופי הפעולה המהנים ביותר. אני חושב שלכל שיתוף פעולה כזה יהיו רגעים מתסכלים כי אנשים לא מדברים באותה שפה.

המרשם שלי לזה הוא: תרבות, אחר כך שפה, ואז חומר. אם אתה לא מבין את התרבות שלהם - כמו איזה סוג של מלגה הם מעריכים - זה יהיה ממש קשה. מה שיש לו ערך לאדם אחד עשוי להיראות לא רלוונטי לאחר. אז יש לנווט קודם כל בהיבטים התרבותיים. לאחר מכן תוכלו להתחיל לבסס שפה ואוצר מילים משותפים ולבסוף להגיע למהות שיתוף הפעולה.

עד כמה אתה אופטימי לגבי האם נוכל לאמץ טכנולוגיה חדשה בבטחה ובתבונה?

חלק מהנושא הוא פער ידע. מקבלי החלטות, סוכנויות ממשלתיות, חברות ואנשים אחרים שרוכשים את כלי הבינה המלאכותית הללו עשויים שלא להכיר במגבלות החמורות לדיוק הניבוי.

אבל בסופו של דבר אני חושב שזו בעיה פוליטית. יש אנשים שרוצים לקצץ בעלויות, אז הם רוצים כלי אוטומטי שמבטל מקומות עבודה. אז יש לחץ חזק מאוד להאמין לכל מה שהספקים האלה אומרים על כלי הניבוי שלהם.

אלו שתי בעיות שונות. אנשים כמוני יכולים אולי לעזור להתמודד עם פער המידע. אבל טיפול בבעיה הפוליטית מחייב אקטיביזם. זה מחייב אותנו לנצל את התהליך הדמוקרטי. טוב לראות שיש הרבה אנשים שעושים את זה. ובטווח הארוך, אני חושב שאנחנו יכולים לדחות את היישומים המזיקים והפוגעניים של AI. אני לא חושב שזה ישתנה ברגע אלא דרך תהליך ארוך, ממושך וממושך של אקטיביזם שכבר נמשך כבר עשור או יותר. אני בטוח שזה ימשיך עוד הרבה זמן.

בול זמן:

עוד מ קוונטמגזין