Введение
Время от времени человек может взять абстрактное понятие, которое кажется слишком расплывчатым для формального изучения, и предложить элегантное формальное определение. Клод Шеннон сделал это с информация, а Андрей Колмогоров сделал это с хаотичность. В течение последних нескольких лет исследователи пытались сделать то же самое с концепцией справедливости в машинном обучении. К сожалению, это было сложнее. Мало того, что эту концепцию сложнее определить, так еще и одно определение не может удовлетворить всем желаемым показателям справедливости. Арвинд Нараянан, ученый-компьютерщик из Принстонского университета, сыграл важную роль в контекстуализации различных взглядов и помог этой новой области утвердиться.
Его карьера охватила все уровни абстракции, от теории до политики, но путешествие, которое в конечном итоге привело к его нынешней работе, началось в 2006 году. В том же году Netflix спонсировал конкурс, в ходе которого был награжден миллион долларов тому, кто улучшит точность своей системы рекомендаций путем 1%. Netflix предоставил якобы анонимный набор данных о пользователях и их рейтингах, при этом личная информация была удалена. Но Нараянан показал, что с помощью сложной статистической техники вам нужно всего несколько точек данных, чтобы выявить личность «анонимного» пользователя в наборе данных.
С тех пор Нараянан сосредоточился на других областях, где теория встречается с практикой. Сквозь Принстонский проект веб-прозрачности и подотчетности, его команда обнаружила скрытые способы, с помощью которых веб-сайты отслеживают пользователей и извлекают конфиденциальные данные. Его команда обнаружила, что такая группа, как Агентство национальной безопасности, может использовать данные о просмотре веб-страниц (в частности, файлы cookie, размещенные третьими лицами) не только для обнаружения реальной личности пользователя, но и для восстановления от 62% до 73% их истории просмотров. . Они показали, что знаменитый Житель Нью-Йорка мультфильм — в Интернете веб-сайты теперь знают, что вы собака.
В последние годы Нараянан специально обратился к обучение с помощью машины — приложение искусственного интеллекта, которое дает машинам возможность учиться на данных. Приветствуя достижения в области ИИ, он указывает на то, что такие системы могут дать сбой даже при наличии добрых намерений, и как эти в остальном полезные технологии могут стать инструментами для оправдания дискриминации. В этом свете кажущиеся не связанными между собой точки, определяющие траекторию исследований Нараянана, образуют своего рода созвездие.
Quanta поговорил с Нараянаном о его работе по деанонимизации, важности статистической интуиции и множестве подводных камней систем ИИ. Интервью было сокращено и отредактировано для ясности.
Введение
Вы всегда хотели заниматься математикой и научными исследованиями?
Я вырос очень заинтересованным в обоих, но в первую очередь в математике. Я хорошо разгадывал головоломки и даже добился определенных успехов на Международной математической олимпиаде. Но у меня было огромное заблуждение относительно разницы между решением головоломок и исследовательской математикой.
И так рано я сосредоточил свои исследования на криптографии, особенно на теоретической криптографии, потому что я все еще работал в заблуждении, что я очень хорошо разбираюсь в математике. А затем остальная часть моей карьеры была путешествием к осознанию того, что на самом деле это совсем не моя сила.
Должно быть, это послужило хорошим фоном для вашей работы по деанонимизации.
Ты прав. Что позволило провести исследование деанонимизации, так это навык, который я называю статистической интуицией. На самом деле это не формальное математическое знание. Это способность иметь в голове интуицию, например: «Если я возьму этот сложный набор данных и применю к нему это преобразование, какой будет правдоподобный результат?»
Интуиция часто может ошибаться, и это нормально. Но важно иметь интуицию, потому что она может направить вас на пути, которые могут быть плодотворными.
Введение
Как статистическая интуиция помогла вам в работе с данными Netflix?
Я пытался разработать схему анонимизации многомерных данных. Это полностью провалилось, но в процессе провала я развил интуицию, что многомерные данные не могут быть эффективно анонимизированы. Конечно, Netflix и их конкуренты утверждали, что именно это и сделали.
У меня был свой естественный скептицизм в отношении маркетинговых заявлений компаний, поэтому я был мотивирован доказать их неправоту. Мой консультант Виталий Шматиков и я работали над ним несколько напряжённых недель. Как только мы поняли, что работа действительно оказывает влияние, я начал делать больше.
Каков был общий эффект? Вы слышали ответ от Netflix и других компаний, чьи данные оказались не такими уж анонимными?
Что ж, одно положительное влияние заключается в том, что это подстегнуло науку о дифференциальная конфиденциальность. Но с точки зрения того, как отреагировали компании, было несколько разных реакций. Во многих случаях компании, которые в противном случае обнародовали бы наборы данных для общественности, теперь больше этого не делают — они используют конфиденциальность как способ борьбы с усилиями по обеспечению прозрачности.
Facebook известен тем, что делает это. Когда исследователи приходят в Facebook и говорят: «Нам нужен доступ к некоторым из этих данных, чтобы изучить, как информация распространяется на платформе», Facebook теперь может сказать: «Нет, мы не можем вам этого предоставить. Это поставит под угрозу конфиденциальность наших пользователей».
Вы однажды написали бумаги утверждая, что термин «личная информация» может вводить в заблуждение. Как же так?
Я думаю, что среди политиков возникает путаница из-за двух разных способов использования этого термина. Одним из них является информация о вас, которая является очень конфиденциальной, например, ваш номер социального страхования. Другое значение — это информация, которая может быть проиндексирована в некоторые наборы данных и, таким образом, использована для поиска дополнительной информации о вас.
Эти два имеют разные значения. Я не возражаю против концепции PII в первом смысле. Некоторые части информации о людях очень деликатны, и мы должны относиться к ним более осторожно. Но хотя ваш адрес электронной почты не обязательно является очень конфиденциальным для большинства людей, он все же является уникальным идентификатором, который можно использовать для поиска вас в других наборах данных. Пока комбинация атрибутов о человеке доступна кому-либо еще в мире, это все, что вам нужно для деанонимизации.
Введение
Как вы, в конце концов, пришли к изучению справедливости?
В 2017 году я преподавал курс честности и машинного обучения. Это дало мне хорошее представление об открытых проблемах в этой области. И вместе с этим я выступил с докладом под названием «21 Определения справедливости и их политика». Я объяснил, что распространение технических определений происходит не по техническим причинам, а потому, что в основе всего этого лежат подлинные моральные вопросы. У вас не может быть единого статистического критерия, который бы охватывал все нормативные пожелания — все, что вы хотите. Доклад был хорошо принят, поэтому эти двое вместе убедили меня, что я должен начать углубляться в эту тему.
Вы тоже выступил с речью по обнаружению змеиного жира ИИ, который также был хорошо принят. Как это связано со справедливостью в машинном обучении?
Таким образом, мотивация для этого заключалась в том, что в ИИ явно происходит много настоящих технических инноваций, таких как программа преобразования текста в изображение. ДАЛЛ·Е 2 или шахматная программа AlphaZero. Это действительно удивительно, что этот прогресс был таким быстрым. Многие из этих инноваций заслуживают похвалы.
Проблема возникает, когда мы используем этот очень расплывчатый и широкий зонтичный термин «ИИ» для подобных вещей, а также для более сложных приложений, таких как статистические методы для прогнозирования криминальных рисков. В этом контексте тип используемой технологии сильно отличается. Это два совершенно разных вида приложений, и потенциальные преимущества и вред также сильно различаются. Между ними почти нет связи, поэтому использование одного и того же термина для обоих совершенно сбивает с толку.
Людей вводят в заблуждение, думая, что весь этот прогресс, который они видят в создании изображений, на самом деле приведет к прогрессу. к социальным задачам, таким как прогнозирование криминального риска или прогнозирование того, какие дети собираются бросить школу. Но это совсем не так. Прежде всего, мы можем лишь немногим лучше случайного предсказать, кто может быть арестован за преступление. И эта точность достигается с помощью очень простых классификаторов. Со временем ситуация не улучшается, и она не становится лучше по мере того, как мы собираем больше наборов данных. Таким образом, все эти наблюдения противоречат, например, использованию глубокого обучения для создания изображений.
Как бы вы различали разные типы задач машинного обучения?
Это не исчерпывающий список, но есть три общие категории. Первая категория — восприятие, включающая в себя такие задачи, как описание содержания изображения. Вторая категория — это то, что я называю «автоматическим суждением», например, когда Facebook хочет использовать алгоритмы, чтобы определить, какая речь слишком токсична, чтобы оставаться на платформе. И третье — предсказание будущих социальных результатов среди людей — будет ли кто-то арестован за преступление или ребенок бросит школу.
Во всех трех случаях достижимая точность очень различна, потенциальные опасности неточного ИИ очень разные, и этические последствия, которые вытекают из этого, очень разные.
Например, распознавание лиц в моей классификации — это проблема восприятия. Многие люди говорят о неточности распознавания лиц, и иногда они правы. Но я не думаю, что это связано с фундаментальными ограничениями точности распознавания лиц. Эта технология совершенствуется, и она будет улучшаться. Именно поэтому мы должны быть обеспокоены этим с этической точки зрения — когда вы отдаете его в руки полиции, которая может быть безответственной, или государств, которые не прозрачны в отношении его использования.
Введение
Что делает задачи социального прогнозирования намного сложнее задач восприятия?
Проблемы с восприятием имеют несколько характеристик. Во-первых, нет никакой двусмысленности в том, есть ли на изображении кошка. Итак, у вас есть истинная правда. Во-вторых, у вас практически неограниченные тренировочные данные, потому что вы можете использовать все изображения в Интернете. А если вы Google или Facebook, вы можете использовать все изображения, которые люди загрузили в ваше приложение. Таким образом, эти два фактора — отсутствие неоднозначности и доступность данных — позволяют классификаторам работать очень хорошо.
Это отличается от задач прогнозирования, которые не имеют этих двух характеристик. Следует упомянуть и о третьем отличии, которое в каком-то смысле является самым важным: моральные последствия применения этих моделей прогнозирования сильно отличаются от последствий использования инструмента языкового перевода на вашем телефоне или инструмента маркировки изображений.
Но это не такая серьезность, как инструмент, используемый для определения того, следует ли кого-то, скажем, задержать до суда. Это имеет последствия для свободы людей. Так что ирония заключается в том, что область, в которой ИИ работает хуже всего, не улучшается с течением времени и вряд ли улучшится в будущем, — это область, которая имеет все эти невероятно важные последствия.
Большая часть вашей работы требует общения с экспертами вне вашей области. Каково это сотрудничать с другими?
Междисциплинарное сотрудничество было одним из самых приятных. Я думаю, что у любого такого сотрудничества будут свои разочаровывающие моменты, потому что люди не говорят на одном языке.
Мой рецепт для этого таков: культура, затем язык, затем содержание. Если вы не понимаете их культуру — например, какую стипендию они ценят — это будет очень сложно. То, что ценно для одного человека, может показаться неважным для другого. Таким образом, культурные аспекты должны быть ориентированы в первую очередь. Затем вы можете начать устанавливать общий язык и словарный запас и, наконец, перейти к сути сотрудничества.
Насколько вы оптимистичны в отношении того, сможем ли мы безопасно и разумно внедрить новые технологии?
Часть проблемы — это пробел в знаниях. Лица, принимающие решения, правительственные учреждения, компании и другие люди, которые покупают эти инструменты ИИ, могут не осознавать серьезных ограничений точности прогнозов.
Но в конечном счете я думаю, что это политическая проблема. Некоторые люди хотят сократить расходы, поэтому им нужен автоматизированный инструмент, который сокращает рабочие места. Так что существует очень сильное давление, чтобы поверить во все, что эти поставщики говорят о своих инструментах прогнозирования.
Это две разные проблемы. Такие люди, как я, возможно, помогут восполнить пробел в информации. Но решение политической проблемы требует активности. Это требует, чтобы мы воспользовались преимуществами демократического процесса. Приятно видеть, что есть много людей, которые делают это. И в долгосрочной перспективе, я думаю, мы сможем дать отпор вредным и оскорбительным применениям ИИ. Я не думаю, что это изменится в одно мгновение, но через долгий, затянувшийся, затяжной процесс активизма, который продолжается уже десятилетие или больше. Я уверен, что это будет продолжаться еще долго.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://www.quantamagazine.org/he-protects-privacy-and-ai-fairness-with-statistics-20230310/
- :является
- ][п
- $ 1 миллионов
- $UP
- 2017
- a
- способность
- в состоянии
- О нас
- об этом
- АБСТРАКТ НАЯ
- доступ
- отчетность
- точность
- достигнутый
- ACM
- Действие
- Активность
- на самом деле
- адрес
- адресация
- принять
- авансы
- плюс
- против
- агентствах
- агентство
- AI
- алгоритмы
- Все
- уже
- всегда
- удивительный
- Двусмысленность
- среди
- и
- Anonymous
- Другой
- кто угодно
- приложение
- Применение
- Приложения
- Применить
- МЫ
- ПЛОЩАДЬ
- области
- за участие
- искусственный
- искусственный интеллект
- AS
- аспекты
- At
- Атрибуты
- Автоматизированный
- свободных мест
- доступен
- награда
- назад
- фон
- BE
- , так как:
- становиться
- говяжий
- начал
- не являетесь
- верить
- Преимущества
- Лучшая
- между
- широкий
- просмотр
- покупка
- by
- призывают
- под названием
- CAN
- не могу
- перехватывает
- Карьера
- осторожно
- случаев
- случаев
- КПП
- категории
- Категории
- отмечается
- определенный
- шанс
- изменение
- характеристика
- шахматы
- заявил
- ясность
- классификация
- явно
- сотрудничать
- сотрудничество
- сотрудничество
- собирать
- сочетание
- как
- Общий
- Компании
- конкурс
- полностью
- комплекс
- скомпрометированы
- компьютер
- сама концепция
- обеспокоенный
- заблуждение
- замешательство
- связи
- Последствия
- содержание
- контекст
- продолжать
- контраст
- печенье
- Расходы
- может
- Пара
- "Курс"
- Преступление
- Криминальное
- криптография
- культурный
- Культура
- Текущий
- Порез
- Сокращение расходов
- Опасности
- данным
- точки данных
- набор данных
- наборы данных
- десятилетие
- лица, принимающие решения
- глубоко
- глубокое обучение
- определенный
- демократический
- заслуживает
- задержаны
- Определять
- развитый
- валюта
- DID
- разница
- различный
- разные проблемы
- обнаружить
- выделить
- Собака
- дело
- Dont
- Падение
- Рано
- фактически
- усилия
- ликвидирует
- приятный
- особенно
- по существу
- установить
- налаживание
- этический
- Даже
- со временем
- точно,
- эксперты
- объяснены
- извлечение
- Face
- распознавание лица
- что его цель
- факторы
- FAIL
- Oшибка
- ярмарка
- справедливость
- несколько
- поле
- бороться
- в заключение
- Найдите
- Во-первых,
- внимание
- следовать
- Что касается
- форма
- формальный
- найденный
- Freedom
- от
- разочаровывающий
- фундаментальный
- будущее
- разрыв
- поколение
- получить
- получающий
- Дайте
- дает
- Go
- будет
- хорошо
- Правительство
- земля
- группы
- инструкция
- Руки
- Случай
- Жесткий
- вредный
- доказательств вреда
- Есть
- имеющий
- слышать
- Сердце
- помощь
- помощь
- история
- Как
- HTTPS
- огромный
- i
- идея
- идентификатор
- Личность
- изображение
- изображений
- Влияние
- последствия
- значение
- важную
- что она
- улучшать
- улучшенный
- улучшение
- in
- В других
- неточный
- включает в себя
- невероятно
- информация
- Инновации
- пример
- мгновение
- инструментальный
- Интеллекта
- намерения
- заинтересованный
- Мультиязычность
- Интернет
- Интервью
- вовлеченный
- вопрос
- IT
- ЕГО
- саму трезвость
- Джобс
- путешествие
- Дитя
- Дети
- Вид
- Знать
- знания
- известный
- маркировка
- Отсутствие
- язык
- УЧИТЬСЯ
- изучение
- привело
- уровни
- легкий
- такое как
- рамки
- Список
- Длинное
- много времени
- дольше
- серия
- машина
- обучение с помощью машины
- Продукция
- ДЕЛАЕТ
- многих
- Маркетинг
- математике
- математический
- смысл
- Соответствует
- методы
- Метрика
- может быть
- миллиона
- Модели
- Моменты
- БОЛЕЕ
- самых
- мотивированные
- мотивация
- национальный
- Национальная безопасность
- натуральный
- обязательно
- Необходимость
- Netflix
- Новые
- номер
- of
- предлагают
- Масло
- on
- ONE
- открытый
- Оптимистический
- Другое
- Другое
- в противном случае
- Результат
- внешнюю
- общий
- Стороны
- мимо
- Люди
- народный
- восприятие
- Выполнять
- возможно
- человек
- Лично
- перспектива
- Телефон
- штук
- Платформа
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- правдоподобный
- пунктов
- Полиция
- политика
- политики
- политический
- положительный
- потенциал
- практика
- Точно
- прогнозирования
- прогноз
- рецепт
- давление
- в первую очередь
- политикой конфиденциальности.
- Проблема
- проблемам
- процесс
- FitPartner™
- Прогресс
- Доказывать
- при условии
- что такое варган?
- Push
- отталкивать
- положил
- Полагая
- Пазлы
- Квантовый журнал
- Вопросы
- случайный
- быстро
- рейтинги
- реакции
- реальный мир
- реализованный
- понимая,
- причины
- получила
- последний
- признание
- признавать
- Рекомендация
- выпустил
- оставаться
- удален
- обязательный
- требуется
- исследованиям
- исследователь
- исследователи
- ОТДЫХ
- показывать
- Снижение
- Run
- безопасно
- то же
- схема
- Школа
- Наука
- Ученый
- Во-вторых
- безопасность
- видя
- смысл
- чувствительный
- серьезный
- набор
- Наборы
- должен
- просто
- одинарной
- Скептицизм
- умение
- So
- Соцсети
- Решение
- некоторые
- Кто-то
- сложный
- говорить
- конкретно
- речь
- Спонсоров
- Начало
- и политические лидеры
- отчетность
- Области
- статистический
- По-прежнему
- прочность
- сильный
- Кабинет
- изучение
- вещество
- успех
- такие
- система
- системы
- взять
- Говорить
- говорить
- задачи
- команда
- Технический
- технологии
- Технологии
- terms
- который
- Ассоциация
- Местоположение
- Будущее
- информация
- мир
- их
- Их
- теоретический
- тем самым
- Эти
- вещи
- мышление
- В третьих
- третье лицо
- тщательно
- три
- Через
- время
- в
- вместе
- слишком
- инструментом
- инструменты
- тема
- к
- трек
- Обучение
- траектория
- трансформация
- переведите
- Переводы
- Прозрачность
- прозрачный
- лечить
- Оказалось
- Типы
- В конечном счете
- зонтик
- под
- понимать
- созданного
- Университет
- Неограниченный
- загружено
- us
- использование
- Информация о пользователе
- пользователей
- ценный
- ценностное
- поставщики
- Просмотры
- Путь..
- способы
- Web
- WebP
- веб-сайты
- Недели
- приветствует
- ЧТО Ж
- Что
- Что такое
- будь то
- , которые
- в то время как
- КТО
- кто бы ни
- Википедия.
- будете
- Работа
- работавший
- работает
- Мир
- бы
- Неправильно
- год
- лет
- Ты
- ВАШЕ
- YouTube
- зефирнет