Исследователь, который научит машины быть справедливыми

Исследователь, который научит машины быть справедливыми

Исследователь, который научит машины быть честными. PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Введение

Время от времени человек может взять абстрактное понятие, которое кажется слишком расплывчатым для формального изучения, и предложить элегантное формальное определение. Клод Шеннон сделал это с информация, а Андрей Колмогоров сделал это с хаотичность. В течение последних нескольких лет исследователи пытались сделать то же самое с концепцией справедливости в машинном обучении. К сожалению, это было сложнее. Мало того, что эту концепцию сложнее определить, так еще и одно определение не может удовлетворить всем желаемым показателям справедливости. Арвинд Нараянан, ученый-компьютерщик из Принстонского университета, сыграл важную роль в контекстуализации различных взглядов и помог этой новой области утвердиться.

Его карьера охватила все уровни абстракции, от теории до политики, но путешествие, которое в конечном итоге привело к его нынешней работе, началось в 2006 году. В том же году Netflix спонсировал конкурс, в ходе которого был награжден миллион долларов тому, кто улучшит точность своей системы рекомендаций путем 1%. Netflix предоставил якобы анонимный набор данных о пользователях и их рейтингах, при этом личная информация была удалена. Но Нараянан показал, что с помощью сложной статистической техники вам нужно всего несколько точек данных, чтобы выявить личность «анонимного» пользователя в наборе данных.

С тех пор Нараянан сосредоточился на других областях, где теория встречается с практикой. Сквозь Принстонский проект веб-прозрачности и подотчетности, его команда обнаружила скрытые способы, с помощью которых веб-сайты отслеживают пользователей и извлекают конфиденциальные данные. Его команда обнаружила, что такая группа, как Агентство национальной безопасности, может использовать данные о просмотре веб-страниц (в частности, файлы cookie, размещенные третьими лицами) не только для обнаружения реальной личности пользователя, но и для восстановления от 62% до 73% их истории просмотров. . Они показали, что знаменитый Житель Нью-Йорка мультфильм — в Интернете веб-сайты теперь знают, что вы собака.

В последние годы Нараянан специально обратился к обучение с помощью машины — приложение искусственного интеллекта, которое дает машинам возможность учиться на данных. Приветствуя достижения в области ИИ, он указывает на то, что такие системы могут дать сбой даже при наличии добрых намерений, и как эти в остальном полезные технологии могут стать инструментами для оправдания дискриминации. В этом свете кажущиеся не связанными между собой точки, определяющие траекторию исследований Нараянана, образуют своего рода созвездие.

Quanta поговорил с Нараянаном о его работе по деанонимизации, важности статистической интуиции и множестве подводных камней систем ИИ. Интервью было сокращено и отредактировано для ясности.

Введение

Вы всегда хотели заниматься математикой и научными исследованиями?

Я вырос очень заинтересованным в обоих, но в первую очередь в математике. Я хорошо разгадывал головоломки и даже добился определенных успехов на Международной математической олимпиаде. Но у меня было огромное заблуждение относительно разницы между решением головоломок и исследовательской математикой.

И так рано я сосредоточил свои исследования на криптографии, особенно на теоретической криптографии, потому что я все еще работал в заблуждении, что я очень хорошо разбираюсь в математике. А затем остальная часть моей карьеры была путешествием к осознанию того, что на самом деле это совсем не моя сила.

Должно быть, это послужило хорошим фоном для вашей работы по деанонимизации.

Ты прав. Что позволило провести исследование деанонимизации, так это навык, который я называю статистической интуицией. На самом деле это не формальное математическое знание. Это способность иметь в голове интуицию, например: «Если я возьму этот сложный набор данных и применю к нему это преобразование, какой будет правдоподобный результат?»

Интуиция часто может ошибаться, и это нормально. Но важно иметь интуицию, потому что она может направить вас на пути, которые могут быть плодотворными.

Введение

Как статистическая интуиция помогла вам в работе с данными Netflix?

Я пытался разработать схему анонимизации многомерных данных. Это полностью провалилось, но в процессе провала я развил интуицию, что многомерные данные не могут быть эффективно анонимизированы. Конечно, Netflix и их конкуренты утверждали, что именно это и сделали.

У меня был свой естественный скептицизм в отношении маркетинговых заявлений компаний, поэтому я был мотивирован доказать их неправоту. Мой консультант Виталий Шматиков и я работали над ним несколько напряжённых недель. Как только мы поняли, что работа действительно оказывает влияние, я начал делать больше.

Каков был общий эффект? Вы слышали ответ от Netflix и других компаний, чьи данные оказались не такими уж анонимными?

Что ж, одно положительное влияние заключается в том, что это подстегнуло науку о дифференциальная конфиденциальность. Но с точки зрения того, как отреагировали компании, было несколько разных реакций. Во многих случаях компании, которые в противном случае обнародовали бы наборы данных для общественности, теперь больше этого не делают — они используют конфиденциальность как способ борьбы с усилиями по обеспечению прозрачности.

Facebook известен тем, что делает это. Когда исследователи приходят в Facebook и говорят: «Нам нужен доступ к некоторым из этих данных, чтобы изучить, как информация распространяется на платформе», Facebook теперь может сказать: «Нет, мы не можем вам этого предоставить. Это поставит под угрозу конфиденциальность наших пользователей».

Вы однажды написали бумаги утверждая, что термин «личная информация» может вводить в заблуждение. Как же так?

Я думаю, что среди политиков возникает путаница из-за двух разных способов использования этого термина. Одним из них является информация о вас, которая является очень конфиденциальной, например, ваш номер социального страхования. Другое значение — это информация, которая может быть проиндексирована в некоторые наборы данных и, таким образом, использована для поиска дополнительной информации о вас.

Эти два имеют разные значения. Я не возражаю против концепции PII в первом смысле. Некоторые части информации о людях очень деликатны, и мы должны относиться к ним более осторожно. Но хотя ваш адрес электронной почты не обязательно является очень конфиденциальным для большинства людей, он все же является уникальным идентификатором, который можно использовать для поиска вас в других наборах данных. Пока комбинация атрибутов о человеке доступна кому-либо еще в мире, это все, что вам нужно для деанонимизации.

Введение

Как вы, в конце концов, пришли к изучению справедливости?

В 2017 году я преподавал курс честности и машинного обучения. Это дало мне хорошее представление об открытых проблемах в этой области. И вместе с этим я выступил с докладом под названием «21 Определения справедливости и их политика». Я объяснил, что распространение технических определений происходит не по техническим причинам, а потому, что в основе всего этого лежат подлинные моральные вопросы. У вас не может быть единого статистического критерия, который бы охватывал все нормативные пожелания — все, что вы хотите. Доклад был хорошо принят, поэтому эти двое вместе убедили меня, что я должен начать углубляться в эту тему.

Вы тоже выступил с речью по обнаружению змеиного жира ИИ, который также был хорошо принят. Как это связано со справедливостью в машинном обучении?

Таким образом, мотивация для этого заключалась в том, что в ИИ явно происходит много настоящих технических инноваций, таких как программа преобразования текста в изображение. ДАЛЛ·Е 2 или шахматная программа AlphaZero. Это действительно удивительно, что этот прогресс был таким быстрым. Многие из этих инноваций заслуживают похвалы.

Проблема возникает, когда мы используем этот очень расплывчатый и широкий зонтичный термин «ИИ» для подобных вещей, а также для более сложных приложений, таких как статистические методы для прогнозирования криминальных рисков. В этом контексте тип используемой технологии сильно отличается. Это два совершенно разных вида приложений, и потенциальные преимущества и вред также сильно различаются. Между ними почти нет связи, поэтому использование одного и того же термина для обоих совершенно сбивает с толку.

Людей вводят в заблуждение, думая, что весь этот прогресс, который они видят в создании изображений, на самом деле приведет к прогрессу. к социальным задачам, таким как прогнозирование криминального риска или прогнозирование того, какие дети собираются бросить школу. Но это совсем не так. Прежде всего, мы можем лишь немногим лучше случайного предсказать, кто может быть арестован за преступление. И эта точность достигается с помощью очень простых классификаторов. Со временем ситуация не улучшается, и она не становится лучше по мере того, как мы собираем больше наборов данных. Таким образом, все эти наблюдения противоречат, например, использованию глубокого обучения для создания изображений.

Как бы вы различали разные типы задач машинного обучения?

Это не исчерпывающий список, но есть три общие категории. Первая категория — восприятие, включающая в себя такие задачи, как описание содержания изображения. Вторая категория — это то, что я называю «автоматическим суждением», например, когда Facebook хочет использовать алгоритмы, чтобы определить, какая речь слишком токсична, чтобы оставаться на платформе. И третье — предсказание будущих социальных результатов среди людей — будет ли кто-то арестован за преступление или ребенок бросит школу.

Во всех трех случаях достижимая точность очень различна, потенциальные опасности неточного ИИ очень разные, и этические последствия, которые вытекают из этого, очень разные.

Например, распознавание лиц в моей классификации — это проблема восприятия. Многие люди говорят о неточности распознавания лиц, и иногда они правы. Но я не думаю, что это связано с фундаментальными ограничениями точности распознавания лиц. Эта технология совершенствуется, и она будет улучшаться. Именно поэтому мы должны быть обеспокоены этим с этической точки зрения — когда вы отдаете его в руки полиции, которая может быть безответственной, или государств, которые не прозрачны в отношении его использования.

Введение

Что делает задачи социального прогнозирования намного сложнее задач восприятия?

Проблемы с восприятием имеют несколько характеристик. Во-первых, нет никакой двусмысленности в том, есть ли на изображении кошка. Итак, у вас есть истинная правда. Во-вторых, у вас практически неограниченные тренировочные данные, потому что вы можете использовать все изображения в Интернете. А если вы Google или Facebook, вы можете использовать все изображения, которые люди загрузили в ваше приложение. Таким образом, эти два фактора — отсутствие неоднозначности и доступность данных — позволяют классификаторам работать очень хорошо.

Это отличается от задач прогнозирования, которые не имеют этих двух характеристик. Следует упомянуть и о третьем отличии, которое в каком-то смысле является самым важным: моральные последствия применения этих моделей прогнозирования сильно отличаются от последствий использования инструмента языкового перевода на вашем телефоне или инструмента маркировки изображений.

Но это не такая серьезность, как инструмент, используемый для определения того, следует ли кого-то, скажем, задержать до суда. Это имеет последствия для свободы людей. Так что ирония заключается в том, что область, в которой ИИ работает хуже всего, не улучшается с течением времени и вряд ли улучшится в будущем, — это область, которая имеет все эти невероятно важные последствия.

Большая часть вашей работы требует общения с экспертами вне вашей области. Каково это сотрудничать с другими?

Междисциплинарное сотрудничество было одним из самых приятных. Я думаю, что у любого такого сотрудничества будут свои разочаровывающие моменты, потому что люди не говорят на одном языке.

Мой рецепт для этого таков: культура, затем язык, затем содержание. Если вы не понимаете их культуру — например, какую стипендию они ценят — это будет очень сложно. То, что ценно для одного человека, может показаться неважным для другого. Таким образом, культурные аспекты должны быть ориентированы в первую очередь. Затем вы можете начать устанавливать общий язык и словарный запас и, наконец, перейти к сути сотрудничества.

Насколько вы оптимистичны в отношении того, сможем ли мы безопасно и разумно внедрить новые технологии?

Часть проблемы — это пробел в знаниях. Лица, принимающие решения, правительственные учреждения, компании и другие люди, которые покупают эти инструменты ИИ, могут не осознавать серьезных ограничений точности прогнозов.

Но в конечном счете я думаю, что это политическая проблема. Некоторые люди хотят сократить расходы, поэтому им нужен автоматизированный инструмент, который сокращает рабочие места. Так что существует очень сильное давление, чтобы поверить во все, что эти поставщики говорят о своих инструментах прогнозирования.

Это две разные проблемы. Такие люди, как я, возможно, помогут восполнить пробел в информации. Но решение политической проблемы требует активности. Это требует, чтобы мы воспользовались преимуществами демократического процесса. Приятно видеть, что есть много людей, которые делают это. И в долгосрочной перспективе, я думаю, мы сможем дать отпор вредным и оскорбительным применениям ИИ. Я не думаю, что это изменится в одно мгновение, но через долгий, затянувшийся, затяжной процесс активизма, который продолжается уже десятилетие или больше. Я уверен, что это будет продолжаться еще долго.

Отметка времени:

Больше от Квантовый журнал