מבוא
מדי פעם, אדם יכול לקחת מושג מופשט שלכאורה מעורפל מדי ללימוד פורמלי ולהציע הגדרה פורמלית אלגנטית. קלוד שאנון עשה את זה עם מידע, ואנדריי קולמוגורוב עשה את זה עם אקראי. בשנים האחרונות, חוקרים מנסים לעשות את אותו הדבר עבור מושג ההוגנות בלמידת מכונה. למרבה הצער, זה היה מסובך יותר. לא רק שקשה יותר להגדיר את המושג, אלא גם בלתי אפשרי שהגדרה אחת תעמוד בכל מדדי ההגינות הרצויים. ארווינד נאראיאן, מדען מחשבים באוניברסיטת פרינסטון, סייע בהקשר של השקפות שונות וסייע לתחום החדש הזה לבסס את עצמו.
הקריירה שלו השתרעה על כל רמות ההפשטה, מתיאוריה ועד מדיניות, אבל המסע שהוביל בסופו של דבר לעבודתו הנוכחית החל בשנת 2006. באותה שנה, נטפליקס מימנה תחרות שתעניק מיליון דולר למי שיפר את הדיוק של מערכת ההמלצות שלהם על ידי 1%. נטפליקס סיפקה מערך נתונים אנונימי לכאורה של משתמשים ודירוגיהם, עם מידע אישי מזהה הוסר. אבל Narayanan הראה שבאמצעות טכניקה סטטיסטית מתוחכמת, אתה צריך רק כמה נקודות נתונים כדי לחשוף את זהותו של משתמש "אנונימי" במערך הנתונים.
מאז, Narayanan התמקד בתחומים אחרים שבהם תיאוריה פוגשת פרקטיקה. דרך ה פרויקט שקיפות אינטרנט ואחריות של פרינסטון, הצוות שלו חשף דרכים סמויות שבהן אתרים עוקבים אחר משתמשים ומחלצים נתונים רגישים. הצוות שלו גילה שקבוצה כמו הסוכנות לביטחון לאומי יכולה להשתמש בנתוני גלישה באינטרנט (במיוחד, עוגיות המוצבות על ידי צדדים שלישיים) לא רק כדי לגלות את הזהות האמיתית של המשתמש, אלא גם כדי לשחזר 62% עד 73% מהיסטוריית הגלישה שלו. . הם הראו את זה - לריף על מפורסם ניו יורקר קָרִיקָטוּרָה - באינטרנט, אתרים יודעים כעת שאתה כלב.
בשנים האחרונות פנה נאראיאן במיוחד למידת מכונה - יישום של בינה מלאכותית שנותן למכונות את היכולת ללמוד מנתונים. למרות שהוא מברך על התקדמות ב-AI, הוא מציין כיצד מערכות כאלה יכולות להיכשל אפילו עם כוונות טובות, וכיצד הטכנולוגיות השימושיות הללו יכולות להפוך לכלים להצדקת אפליה. לאור זה, הנקודות הבלתי מחוברות לכאורה שהגדירו את מסלול המחקר של נאראיאן יוצרות מעין קבוצת כוכבים.
Quanta שוחח עם Narayanan על עבודתו על דה-אנונימיזציה, על חשיבותה של אינטואיציה סטטיסטית ועל המלכודות הרבות של מערכות AI. הראיון תמצה ונערך למען הבהירות.
מבוא
תמיד רצית לחקור מתמטיקה ומדעים?
גדלתי מאוד מתעניין בשניהם, אבל בעיקר במתמטיקה. הייתי טוב בפתרון חידות ואפילו היה לי הצלחה מסוימת באולימפיאדת המתמטיקה הבינלאומית. אבל הייתה לי תפיסה שגויה ענקית לגבי ההבדל בין פתרון חידות למתמטיקה מחקרית.
וכל כך מוקדם, התמקדתי במחקר שלי בקריפטוגרפיה, במיוחד בקריפטוגרפיה תיאורטית, מכיוון שעדיין עבדתי באשליה שאני טוב מאוד במתמטיקה. ואז שאר הקריירה שלי היה מסע של הבנה שזה בעצם לא הכוח שלי בכלל.
זה בטח שימש רקע טוב לעבודת הדה-אנונימיזציה שלך.
אתה צודק. מה שאפשר את מחקר הדה-אנונימיזציה הוא המיומנות שאני מכנה אינטואיציה סטטיסטית. זה לא ממש ידע מתמטי פורמלי. זה להיות מסוגל להיות עם אינטואיציה בראש כמו: "אם אני לוקח את מערך הנתונים המורכב הזה ואחיל עליו את השינוי הזה, מהי תוצאה סבירה?"
לעתים קרובות אינטואיציה עשויה להיות שגויה, וזה בסדר. אבל חשוב שתהיה לך אינטואיציה מכיוון שהיא יכולה לכוון אותך לנתיבים שעשויים להיות פוריים.
מבוא
איך אינטואיציה סטטיסטית עזרה בעבודה שלך על נתוני נטפליקס?
ניסיתי להמציא סכימת אנונימיזציה לנתונים בעלי מימד גבוה. זה נכשל לחלוטין, אבל בתהליך הכישלון פיתחתי את האינטואיציה שלא ניתן לבצע אנונימיות ביעילות בנתונים בעלי מימד גבוה. כמובן נטפליקס, עם המתחרים שלהם, טענו שעשו בדיוק את זה.
הייתה לי הספקנות הטבעית שלי לגבי הצהרות השיווק של חברות, אז הייתה לי מוטיבציה להוכיח שהן שגויות. היועץ שלי, ויטלי שמטיקוב, ואני עבדנו על זה כמה שבועות אינטנסיביים. ברגע שהבנו שהעבודה באמת משפיעה, התחלתי לעשות יותר.
מה הייתה ההשפעה הכוללת? האם שמעתם מנטפליקס ומחברות אחרות שהנתונים שלהן התבררו כל כך לא אנונימיים?
ובכן, השפעה חיובית אחת היא שזה דרבן את המדע של הפרטיות דיפרנציאלית. אבל מבחינת האופן שבו חברות הגיבו, היו כמה תגובות שונות. במקרים רבים, חברות שאחרת היו משחררות מערכי נתונים לציבור כבר לא עושות זאת - הן מנצלות את הפרטיות כדרך להילחם במאמצי השקיפות.
פייסבוק ידועה בכך שעושה זאת. כאשר חוקרים הולכים לפייסבוק ואומרים, "אנחנו צריכים גישה לחלק מהנתונים האלה כדי ללמוד כיצד המידע מתפשט בפלטפורמה", פייסבוק יכולה לומר כעת, "לא, אנחנו לא יכולים לתת לך את זה. זה יפגע בפרטיות המשתמשים שלנו".
פעם כתבת א מאמר בטענה שהמונח "מידע אישי מזהה" יכול להטעות. איך זה?
אני חושב שיש בלבול בקרב קובעי מדיניות הנובע משתי דרכים שונות שבהן משתמשים במונח. האחד הוא מידע עליך שהוא מאוד רגיש, כמו מספר ת.ז. שלך. משמעות נוספת היא מידע שניתן לאינדקס לכמה מערכי נתונים ובכך להשתמש בו כדי למצוא מידע נוסף עליך.
לשני אלה יש משמעויות שונות. אין לי בקר עם המושג PII במובן הראשון. חלקים מסוימים של מידע על אנשים הם מאוד רגישים, ועלינו להתייחס אליהם בזהירות רבה יותר. אך בעוד שכתובת הדוא"ל שלך אינה בהכרח רגישה מאוד עבור רוב האנשים, היא עדיין מזהה ייחודי שניתן להשתמש בו כדי למצוא אותך במערכות נתונים אחרות. כל עוד השילוב של תכונות לגבי אדם זמין לכל אחד אחר בעולם, זה כל מה שאתה צריך לביטול אנונימיזציה.
מבוא
איך הגעת בסופו של דבר ללימוד הגינות?
לימדתי קורס הגינות ולמידת מכונה בשנת 2017. זה נתן לי מושג טוב על הבעיות הפתוחות בתחום. ויחד עם זה נשאתי הרצאה בשם "21 הגדרות הגינות והפוליטיקה שלהן." הסברתי שההתפשטות של הגדרות טכניות לא הייתה בגלל סיבות טכניות, אלא בגלל שיש שאלות מוסריות אמיתיות בלב כל זה. אין סיכוי שיהיה לך קריטריון סטטיסטי אחד שיועד את כל הרצונות הנורמטיביים - כל הדברים שאתה רוצה. השיחה התקבלה היטב, אז שני אלה יחד שכנעו אותי שאני צריך להתחיל להיכנס לנושא הזה.
גם אתה נשא הרצאה על זיהוי שמן נחשים בינה מלאכותית, שגם התקבלה יפה. איך זה קשור להוגנות בלמידת מכונה?
אז המניע לכך היה שברור שיש הרבה חדשנות טכנית אמיתית שקורה ב-AI, כמו תוכנית הטקסט לתמונה DALL E 2 או תוכנית השחמט אלפא אפס. זה באמת מדהים שההתקדמות הזו הייתה כל כך מהירה. הרבה מהחדשנות הזו ראויה לחגוג.
הבעיה מגיעה כאשר אנו משתמשים במונח הגג הרחב והרופף הזה "AI" עבור דברים כאלה, כמו גם ליישומים עמוסים יותר, כמו שיטות סטטיסטיות לחיזוי סיכונים פליליים. בהקשר זה, סוג הטכנולוגיה המעורב שונה מאוד. אלו שני סוגים שונים מאוד של יישומים, וגם היתרונות והנזקים הפוטנציאליים שונים מאוד. אין כמעט קשר ביניהם, ולכן השימוש באותו מונח עבור שניהם מבלבל ביסודיות.
אנשים מוטעים לחשוב שכל ההתקדמות הזו שהם רואים ביצירת תמונות תתורגם למעשה להתקדמות לקראת משימות חברתיות כמו חיזוי סיכון פלילי או חיזוי אילו ילדים עומדים לנשור מבית הספר. אבל זה בכלל לא המצב. קודם כל, אנחנו יכולים לעשות רק קצת יותר טוב מאשר סיכוי אקראי לחזות מי עלול להיעצר על פשע. והדיוק הזה מושג עם מסווגים פשוטים באמת. זה לא משתפר עם הזמן, וזה לא משתפר ככל שאנו אוספים יותר מערכי נתונים. אז כל התצפיות הללו מנוגדות לשימוש בלמידה עמוקה ליצירת תמונות, למשל.
כיצד תבחין בין סוגים שונים של בעיות למידת מכונה?
זו אינה רשימה ממצה, אך ישנן שלוש קטגוריות נפוצות. הקטגוריה הראשונה היא תפיסה, הכוללת משימות כמו תיאור התוכן של תמונה. הקטגוריה השנייה היא מה שאני מכנה "אוטומציה של שיפוט", למשל כאשר פייסבוק רוצה להשתמש באלגוריתמים כדי לקבוע איזה דיבור רעיל מכדי להישאר בפלטפורמה. והשלישי הוא חיזוי תוצאות חברתיות עתידיות בקרב אנשים - האם מישהו ייעצר על פשע, או אם ילד עומד לעזוב את בית הספר.
בכל שלושת המקרים, הדיוקים הניתנים להשגה שונים מאוד, הסכנות הפוטנציאליות של AI לא מדויק שונות מאוד, וההשלכות האתיות הבאות שונות מאוד.
למשל, זיהוי פנים, בסיווג שלי, הוא בעיית תפיסה. הרבה אנשים מדברים על כך שזיהוי פנים אינו מדויק, ולפעמים הם צודקים. אבל אני לא חושב שזה בגלל שיש גבולות בסיסיים לדיוק של זיהוי פנים. הטכנולוגיה הזו השתפרה, והיא עומדת להשתפר. בדיוק בגלל זה אנחנו צריכים להיות מודאגים לגבי זה מנקודת מבט אתית - כשאתה מעביר את זה לידי המשטרה, שעלולה להיות חסרת דין וחשבון, או מדינות שאינן שקופות לגבי השימוש בה.
מבוא
מה הופך בעיות חיזוי חברתיות לקשות הרבה יותר מבעיות תפיסה?
לבעיות תפיסה יש כמה מאפיינים. האחת, אין אי בהירות אם יש חתול בתמונה. אז יש לך את האמת הבסיסית. שנית, יש לך למעשה נתוני אימון בלתי מוגבלים מכיוון שאתה יכול להשתמש בכל התמונות באינטרנט. ואם אתה גוגל או פייסבוק, אתה יכול להשתמש בכל התמונות שאנשים העלו לאפליקציה שלך. אז שני הגורמים האלה - היעדר אי בהירות וזמינות הנתונים - מאפשרים למסווגים לבצע ביצועים טובים באמת.
זה שונה מבעיות חיזוי, שאין להן את שני המאפיינים האלה. יש הבדל שלישי שעלי להזכיר, שבמובן מסוים הוא החשוב ביותר: ההשלכות המוסריות של הפעלת מודלים חיזויים אלה שונים מאוד משימוש בכלי תרגום שפה בטלפון שלך, או כלי תיוג תמונות.
אבל זו לא אותה רצינות כמו הכלי המשמש כדי לקבוע אם מישהו צריך להיות, למשל, לעצור לפני משפט. יש לכך השלכות על חירותם של אנשים. אז האירוניה היא שהתחום שבו AI עובד הכי גרוע, לא ממש השתפר עם הזמן, וסביר להניח שלא ישתפר בעתיד הוא התחום שיש לו את כל ההשלכות החשובות להפליא האלה.
חלק גדול מהעבודה שלך דרש שיחה עם מומחים מחוץ לתחום שלך. איך זה לשתף פעולה עם אחרים ככה?
שיתופי פעולה בין-תחומיים היו חלק משיתופי הפעולה המהנים ביותר. אני חושב שלכל שיתוף פעולה כזה יהיו רגעים מתסכלים כי אנשים לא מדברים באותה שפה.
המרשם שלי לזה הוא: תרבות, אחר כך שפה, ואז חומר. אם אתה לא מבין את התרבות שלהם - כמו איזה סוג של מלגה הם מעריכים - זה יהיה ממש קשה. מה שיש לו ערך לאדם אחד עשוי להיראות לא רלוונטי לאחר. אז יש לנווט קודם כל בהיבטים התרבותיים. לאחר מכן תוכלו להתחיל לבסס שפה ואוצר מילים משותפים ולבסוף להגיע למהות שיתוף הפעולה.
עד כמה אתה אופטימי לגבי האם נוכל לאמץ טכנולוגיה חדשה בבטחה ובתבונה?
חלק מהנושא הוא פער ידע. מקבלי החלטות, סוכנויות ממשלתיות, חברות ואנשים אחרים שרוכשים את כלי הבינה המלאכותית הללו עשויים שלא להכיר במגבלות החמורות לדיוק הניבוי.
אבל בסופו של דבר אני חושב שזו בעיה פוליטית. יש אנשים שרוצים לקצץ בעלויות, אז הם רוצים כלי אוטומטי שמבטל מקומות עבודה. אז יש לחץ חזק מאוד להאמין לכל מה שהספקים האלה אומרים על כלי הניבוי שלהם.
אלו שתי בעיות שונות. אנשים כמוני יכולים אולי לעזור להתמודד עם פער המידע. אבל טיפול בבעיה הפוליטית מחייב אקטיביזם. זה מחייב אותנו לנצל את התהליך הדמוקרטי. טוב לראות שיש הרבה אנשים שעושים את זה. ובטווח הארוך, אני חושב שאנחנו יכולים לדחות את היישומים המזיקים והפוגעניים של AI. אני לא חושב שזה ישתנה ברגע אלא דרך תהליך ארוך, ממושך וממושך של אקטיביזם שכבר נמשך כבר עשור או יותר. אני בטוח שזה ימשיך עוד הרבה זמן.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
- מקור: https://www.quantamagazine.org/he-protects-privacy-and-ai-fairness-with-statistics-20230310/
- :הוא
- ][עמ'
- $ 1 מיליון
- $ למעלה
- 2017
- a
- יכולת
- יכול
- אודות
- בנוגע לזה
- תקציר
- גישה
- דין וחשבון
- דיוק
- הושג
- ACM
- פעולה
- אקטיביזם
- למעשה
- כתובת
- פְּנִיָה
- לְאַמֵץ
- התקדמות
- יתרון
- נגד
- סוכנויות
- סוכנות
- AI
- אלגוריתמים
- תעשיות
- כְּבָר
- תמיד
- מדהים
- דו משמעות
- בין
- ו
- אנונימי
- אחר
- כל אחד
- האפליקציה
- בקשה
- יישומים
- החל
- ARE
- AREA
- אזורים
- נֶעצָר
- מלאכותי
- בינה מלאכותית
- AS
- היבטים
- At
- תכונות
- אוטומטי
- זמינות
- זמין
- פרס
- בחזרה
- רקע
- BE
- כי
- להיות
- בשר בקר
- החל
- להיות
- תאמינו
- הטבות
- מוטב
- בֵּין
- רחב
- דפדוף
- קנייה
- by
- שיחה
- נקרא
- CAN
- לא יכול
- לוכדת
- קריירה
- בזהירות
- מקרה
- מקרים
- חָתוּל
- קטגוריות
- קטגוריה
- מפורסם
- מסוים
- סיכוי
- שינוי
- מאפיינים
- שחמט
- נתבע
- בהירות
- מיון
- בבירור
- לשתף פעולה
- שיתוף פעולה
- שיתופי פעולה
- לגבות
- שילוב
- איך
- Common
- חברות
- תחרות
- לחלוטין
- מורכב
- פשרה
- המחשב
- מושג
- מודאג
- מבלבל
- בלבול
- הקשר
- השלכות
- תוכן
- הקשר
- להמשיך
- לעומת זאת
- עוגיות
- עלויות
- יכול
- זוג
- קורס
- פשע
- פלילי
- קריפטוגרפיה
- תרבותי
- תַרְבּוּת
- נוֹכְחִי
- חותך
- לקצץ בעלויות
- סכנות
- נתונים
- נקודות מידע
- מערך נתונים
- ערכות נתונים
- עָשׂוֹר
- מקבלי החלטות
- עמוק
- למידה עמוקה
- מוגדר
- דֵמוֹקרָטִי
- מגיע
- מעוכב
- לקבוע
- מפותח
- מטבע
- DID
- הבדל
- אחר
- בעיות שונות
- לגלות
- לְהַבחִין
- כֶּלֶב
- עושה
- לא
- ירידה
- מוקדם
- יעילות
- מַאֲמָצִים
- מבטל
- אמייל
- מהנה
- במיוחד
- למעשה
- להקים
- מקימים
- אֶתִי
- אֲפִילוּ
- בסופו של דבר
- בדיוק
- מומחים
- מוסבר
- תמצית
- פָּנִים
- זיהוי פנים
- פייסבוק
- גורמים
- FAIL
- נכשל
- הוגן
- הגינות
- מעטים
- שדה
- להלחם
- בסופו של דבר
- ראשון
- מרוכז
- לעקוב
- בעד
- טופס
- רִשְׁמִי
- מצא
- חופש
- החל מ-
- מתסכל
- יסודי
- עתיד
- פער
- דור
- לקבל
- מקבל
- לתת
- נותן
- Go
- הולך
- טוב
- ממשלה
- קרקע
- קְבוּצָה
- מדריך
- ידיים
- מתרחש
- קשה
- מזיק
- ניזקים
- יש
- יש
- ראש
- לִשְׁמוֹעַ
- לֵב
- לעזור
- עזרה
- היסטוריה
- איך
- HTTPS
- עצום
- i
- רעיון
- מזהה
- זהות
- תמונה
- תמונות
- פְּגִיעָה
- השלכות
- חשיבות
- חשוב
- בלתי אפשרי
- לשפר
- משופר
- שיפור
- in
- באחר
- לֹא מְדוּיָק
- כולל
- בצורה מדהימה
- מידע
- חדשנות
- למשל
- מיידי
- אינסטרומנטלי
- מוֹדִיעִין
- כוונות
- מעוניין
- ברמה בינלאומית
- אינטרנט
- ראיון אישי
- מעורב
- סוגיה
- IT
- שֶׁלָה
- עצמו
- מקומות תעסוקה
- מסע
- יֶלֶד
- הילדים
- סוג
- לדעת
- ידע
- ידוע
- תיוג
- חוסר
- שפה
- לִלמוֹד
- למידה
- הוביל
- רמות
- אוֹר
- כמו
- גבולות
- רשימה
- ארוך
- הרבה זמן
- עוד
- מגרש
- מכונה
- למידת מכונה
- מכונה
- עושה
- רב
- שיווק
- מתמטיקה
- מתימטי
- משמעות
- פוגשת
- שיטות
- מדדים
- יכול
- מִילִיוֹן
- מודלים
- רגעים
- יותר
- רוב
- מוטיבציה
- מוטיבציה
- לאומי
- ביטחון לאומי
- טבעי
- בהכרח
- צורך
- נטפליקס
- חדש
- מספר
- of
- הַצָעָה
- שמן
- on
- ONE
- לפתוח
- אופטימי
- אחר
- אחרים
- אַחֶרֶת
- תוֹצָאָה
- בחוץ
- מקיף
- צדדים
- עבר
- אֲנָשִׁים
- אנשיו של
- תפיסה
- לְבַצֵעַ
- אוּלַי
- אדם
- אישית
- פרספקטיבה
- טלפון
- חתיכות
- פלטפורמה
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- מתקבל על הדעת
- נקודות
- מִשׁטָרָה
- מדיניות
- קובעי מדיניות
- פוליטי
- חיובי
- פוטנציאל
- תרגול
- בדיוק
- ניבוי
- נבואה
- מרשם
- לחץ
- בראש ובראשונה
- פְּרָטִיוּת
- בעיה
- בעיות
- תהליך
- תָכְנִית
- התקדמות
- להוכיח
- ובלבד
- ציבורי
- דחוף
- לדחוף לאחור
- גם
- מכניס
- פאזלים
- קוונטמגזין
- שאלות
- אקראי
- מהיר
- דירוגים
- תגובות
- עולם אמיתי
- הבין
- מימוש
- סיבות
- קיבלו
- לאחרונה
- הכרה
- להכיר
- המלצה
- שוחרר
- להשאר
- הוסר
- נדרש
- דורש
- מחקר
- חוקר
- חוקרים
- REST
- לגלות
- הסיכון
- הפעלה
- בבטחה
- אותו
- תכנית
- בית ספר
- מדע
- מַדְעָן
- שְׁנִיָה
- אבטחה
- ראות
- תחושה
- רגיש
- רציני
- סט
- סטים
- צריך
- פָּשׁוּט
- יחיד
- ספקנות
- מְיוּמָנוּת
- So
- חֶברָתִי
- פותר
- כמה
- מישהו
- מתוחכם
- לדבר
- במיוחד
- נאום
- ממומן
- התחלה
- החל
- הצהרות
- הברית
- סטטיסטי
- עוד
- כוח
- חזק
- לימוד
- לומד
- חומר
- הצלחה
- כזה
- מערכת
- מערכות
- לקחת
- לדבר
- מדבר
- משימות
- נבחרת
- טכני
- טכנולוגיות
- טכנולוגיה
- מונחים
- זֶה
- השמיים
- האזור
- העתיד
- המידע
- העולם
- שֶׁלָהֶם
- אותם
- תיאורטי
- בכך
- אלה
- דברים
- חושב
- שְׁלִישִׁי
- צד שלישי
- בִּיסוֹדִיוּת
- שְׁלוֹשָׁה
- דרך
- זמן
- ל
- יַחַד
- גַם
- כלי
- כלים
- נושא
- לקראת
- לעקוב
- הדרכה
- מסלול
- טרנספורמציה
- לתרגם
- תרגום
- שקיפות
- שָׁקוּף
- טיפול
- הסתובב
- סוגים
- בסופו של דבר
- מטריה
- תחת
- להבין
- ייחודי
- אוניברסיטה
- בלתי מוגבל
- נטען
- us
- להשתמש
- משתמש
- משתמשים
- בעל ערך
- ערך
- ספקים
- נופים
- דֶרֶך..
- דרכים
- אינטרנט
- webp
- אתרים
- שבועות
- מברך
- טוֹב
- מה
- מה
- אם
- אשר
- בזמן
- מי
- מִי
- ויקיפדיה
- יצטרך
- עם
- תיק עבודות
- עבד
- עובד
- עוֹלָם
- היה
- טעות
- שנה
- שנים
- אתה
- YouTube
- זפירנט