Как оценить качество синтетических данных – измерение с точки зрения точности, полезности и конфиденциальности

Переиздано Платоном

Читают: 0

В мире, где все больше внимания уделяется данным, предприятия должны сосредоточиться как на сборе ценной физической информации, так и на создании информации, которая им нужна, но не может быть легко получена. Доступ к данным, регулирование и соблюдение требований являются растущим источником трений для инноваций в области аналитики и искусственного интеллекта (ИИ).

Для жестко регулируемых секторов, таких как финансовые услуги, здравоохранение, медико-биологические науки, автомобилестроение, робототехника и производство, проблема еще серьезнее. Это создает препятствия для проектирования системы, обмена данными (внутренними и внешними), монетизации, аналитики и машинного обучения (ML).

Синтетические данные — это инструмент, который решает многие проблемы с данными, в частности проблемы ИИ и аналитики, такие как защита конфиденциальности, соблюдение нормативных требований, доступность, нехватка данных и предвзятость. Это также включает обмен данными и время получения данных (и, следовательно, время выхода на рынок).

Синтетические данные генерируются алгоритмически. Он отражает статистические свойства и закономерности исходных данных. Но что важно, он не содержит конфиденциальных, личных или личных данных.

Вы задаете вопросы по синтетическим данным и получаете те же ответы, что и по реальным данным.

В нашей ранней почте, мы продемонстрировали, как использовать состязательные сети, такие как генеративно-состязательные сети (GANS), для создания наборов табличных данных для улучшения обучения модели кредитного мошенничества.

Чтобы заинтересованные стороны бизнеса использовали синтетические данные для своих проектов машинного обучения и аналитики, крайне важно не только убедиться, что сгенерированные синтетические данные будут соответствовать цели и ожидаемым последующим приложениям, но и чтобы они могли измерить и продемонстрировать качество сгенерированные данные.

С ростом юридических и этических обязательств по сохранению конфиденциальности одной из сильных сторон синтетических данных является способность удалять конфиденциальную и оригинальную информацию во время ее синтеза. Следовательно, в дополнение к качеству нам нужны метрики для оценки риска утечек частной информации, если таковые имеются, и оценки того, что процесс генерации не является «запоминанием» или копированием каких-либо исходных данных.

Чтобы достичь всего этого, мы можем сопоставить качество синтетических данных с измерениями, которые помогут пользователям, заинтересованным сторонам и нам лучше понять сгенерированные данные.

Три аспекта оценки качества синтетических данных

Генерируемые синтетические данные оцениваются по трем ключевым параметрам:

Верность
утилита
Политика

Вот некоторые из вопросов о любых сгенерированных синтетических данных, на которые следует ответить в отчете о качестве синтетических данных:

Насколько похожи эти синтетические данные по сравнению с исходным обучающим набором?
Насколько полезны эти синтетические данные для наших последующих приложений?
Была ли утечка какой-либо информации из исходных данных обучения в синтетические данные?
Были ли какие-либо данные, которые считаются конфиденциальными в реальном мире (из других наборов данных, не используемых для обучения модели), были непреднамеренно синтезированы нашей моделью?

Метрики, которые переводят каждое из этих измерений для конечных пользователей, несколько гибки. В конце концов, генерируемые данные могут различаться по распределению, размеру и поведению. Они также должны быть легкими для восприятия и интерпретации.

В конечном счете, метрики должны полностью определяться данными и не требовать каких-либо предварительных знаний или информации о предметной области. Однако, если пользователь хочет применить определенные правила и ограничения, применимые к конкретному бизнес-домену, он должен иметь возможность определить их в процессе синтеза, чтобы убедиться, что соблюдается точность, специфичная для домена.

Мы рассмотрим каждую из этих метрик более подробно в следующих разделах.

Метрики для понимания достоверности

В любом проекте по науке о данных мы должны понимать, имеет ли отношение определенная выборка к проблеме, которую мы решаем. Точно так же для процесса оценки актуальности сгенерированных синтетических данных мы должны оценить их с точки зрения верность по сравнению с оригиналом.

Визуальное представление этих показателей облегчает их понимание. Мы могли бы проиллюстрировать, соблюдались ли кардинальность и соотношение категорий, сохранялись ли корреляции между различными переменными и так далее.

Визуализация данных не только помогает оценить качество синтетических данных, но также является одним из начальных шагов в жизненном цикле науки о данных для лучшего понимания данных.

Давайте более подробно рассмотрим некоторые показатели точности.

Исследовательские статистические сравнения

В рамках предварительных статистических сравнений характеристики исходных и синтетических наборов данных изучаются с использованием ключевых статистических показателей, таких как среднее значение, медиана, стандартное отклонение, отдельные значения, пропущенные значения, минимумы, максимумы, квартильные диапазоны для непрерывных признаков и количество записей на категорию, пропущенных значений на категорию и наиболее часто встречающихся символов для категориальных атрибутов.

Это сравнение следует проводить между исходным набором данных удержания и синтетическими данными. Эта оценка покажет, являются ли сравниваемые наборы данных статистически схожими. Если это не так, то мы будем понимать, какие функции и меры отличаются. Вам следует подумать о переобучении и повторной генерации синтетических данных с другими параметрами, если заметна значительная разница.

Этот тест действует как первоначальный скрининг, чтобы убедиться, что синтетические данные имеют разумную точность исходного набора данных и, следовательно, могут быть с пользой подвергнуты более строгому тестированию.

Оценка сходства гистограммы

Оценка сходства гистограммы измеряет предельное распределение каждого признака синтетических и исходных наборов данных.

Показатель сходства находится в пределах от нуля до единицы, при этом показатель, равный единице, указывает на то, что синтетические распределения данных полностью перекрываются с распределениями исходных данных.

Оценка, близкая к единице, даст пользователям уверенность в том, что набор данных с задержкой и синтетический набор данных статистически подобны.

Оценка взаимной информации

Оценка взаимной информации измеряет взаимную зависимость двух признаков, числовых или категориальных, указывая, сколько информации можно получить из одного признака, наблюдая за другим.

Взаимная информация может измерять нелинейные отношения, обеспечивая более полное понимание качества синтетических данных, поскольку позволяет нам понять степень сохранения отношений переменных.

Оценка в один балл указывает на то, что в синтетических данных полностью отражена взаимная зависимость между признаками.

Оценка корреляции

Показатель корреляции измеряет, насколько хорошо корреляции в исходном наборе данных были отражены в синтетических данных.

Корреляции между двумя или более столбцами чрезвычайно важны для приложений машинного обучения, которые помогают выявить взаимосвязи между функциями и целевой переменной и помогают создать хорошо обученную модель.

Показатель корреляции находится в диапазоне от нуля до единицы, при этом показатель, равный единице, указывает на идеальное соответствие корреляций.

В отличие от структурированных табличных данных, с которыми мы обычно сталкиваемся в задачах с данными, некоторые типы структурированных данных имеют особое поведение, при котором прошлые наблюдения могут повлиять на последующие наблюдения. Они известны как временные ряды или последовательные данные — например, набор данных с почасовыми измерениями комнатной температуры.

Такое поведение означает, что необходимо определить определенные показатели, которые могут конкретно измерять качество этих наборов данных временных рядов.

Оценка автокорреляции и частичной автокорреляции

Хотя автокорреляция похожа на корреляцию, она показывает отношение временного ряда в его текущем значении по отношению к его предыдущим значениям. Удаление эффектов предыдущих временных задержек приводит к частичной автокорреляции. Таким образом, показатель автокорреляции измеряет, насколько хорошо синтетические данные фиксируют значительные автокорреляции или частичные корреляции из исходного набора данных.

Метрики для понимания полезности

Теперь мы, возможно, статистически поняли, что синтетические данные аналогичны исходному набору данных. Кроме того, мы также должны оценить, насколько хорошо синтезированный набор данных справляется с общими задачами науки о данных при обучении на нескольких алгоритмах ML.

Используя следующее утилита метрик, мы стремимся укрепить уверенность в том, что мы действительно можем добиться производительности в последующих приложениях в отношении того, как работали исходные данные.

Оценка прогноза

Измерение производительности синтетических данных по сравнению с исходными реальными данными можно выполнить с помощью моделей ML. Оценка нисходящей модели отражает качество синтетических данных путем сравнения производительности моделей машинного обучения, обученных как на синтетических, так и на исходных наборах данных и проверенных на закрытых данных тестирования из исходного набора данных. Это обеспечивает Тренируйте реальный результат синтетического теста (TSTR) и еще один Обучить реальный тест реальный (TRTR) оценка соответственно.

Оценки TSTR, TRTR и оценка важности функции (изображение автора)

Оценка включает в себя широкий спектр самых надежных алгоритмов ML для задач регрессии или классификации. Использование нескольких классификаторов и регрессоров гарантирует, что оценка будет более обобщаемой для большинства алгоритмов, так что синтетические данные можно будет считать полезными в будущем.

В конце концов, если оценка TSTR и оценка TRTR сопоставимы, это указывает на то, что качество синтетических данных позволяет использовать их для обучения эффективных моделей машинного обучения для реальных приложений.

Оценка важности функции

Оценка важности функции (FI), тесно связанная с оценкой прогнозирования, расширяет ее, добавляя интерпретируемость к оценкам TSTR и TRTR.

Оценка F1 сравнивает изменения и стабильность порядка важности функции, полученного с оценкой прогнозирования. Синтетический набор данных считается очень полезным, если он дает тот же порядок важности признаков, что и исходные реальные данные.

QScore

Чтобы убедиться, что модель, обученная на наших вновь сгенерированных данных, будет давать те же ответы на те же вопросы, что и модель, обученная на исходных данных, мы используем Qscore. Это измеряет производительность синтетических данных в нисходящем направлении путем выполнения множества случайных запросов на основе агрегирования как для синтетических, так и для исходных (и удерживаемых) наборов данных.

Идея заключается в том, что оба этих запроса должны возвращать одинаковые результаты.

Высокое значение QScore гарантирует, что последующие приложения, использующие операции запросов и агрегирования, могут обеспечить ценность, близкую к той, что была в исходном наборе данных.

Метрики для понимания конфиденциальности

Доступно политикой конфиденциальности. нормативные акты уже действуют, обеспечение защиты конфиденциальной информации является этическим обязательством и юридическим требованием.

Прежде чем эти синтетические данные можно будет свободно распространять и использовать для последующих приложений, мы должны рассмотреть показатели конфиденциальности, которые могут помочь заинтересованным сторонам понять, где находятся сгенерированные синтетические данные по сравнению с исходными данными с точки зрения объема утечки информации. Более того, мы должны принимать важные решения относительно того, как синтетические данные могут быть переданы и использованы.

Точный счет матча

Прямая и интуитивная оценка конфиденциальности заключается в поиске копий реальных данных среди синтетических записей. Оценка точного совпадения подсчитывает количество реальных записей, которые можно найти среди синтетического набора.

Оценка должна быть нулевой, заявляя, что в синтетических данных нет реальной информации как есть. Эта метрика действует как механизм проверки, прежде чем мы оценим дополнительные метрики конфиденциальности.

Оценка конфиденциальности соседей

Кроме того, оценка конфиденциальности соседей измеряет долю синтетических записей, которые могут быть слишком похожи по своему сходству с реальными. Это означает, что, хотя они и не являются прямыми копиями, они являются потенциальными точками утечки конфиденциальности и источником полезной информации для атак на основе логического вывода.

Оценка рассчитывается путем проведения многомерного поиска ближайших соседей по синтетическим данным, перекрывающимся с исходными данными.

Оценка вывода о членстве

В жизненном цикле науки о данных после обучения модели ей больше не требуется доступ к обучающим образцам, и она может делать прогнозы на невидимых данных. Точно так же в нашем случае после обучения модели синтезатора образцы синтетических данных могут быть сгенерированы без необходимости использования исходных данных.

С помощью типа атаки, называемой «атака с выводом о членстве», злоумышленники могут попытаться раскрыть данные, которые использовались для создания синтетических данных, не имея доступа к исходным данным. Это приводит к нарушению конфиденциальности.

Оценка вывода о членстве измеряет вероятность успешной атаки на вывод о членстве.

Низкий балл указывает на возможность вывода о том, что конкретная запись была членом обучающего набора данных, который привел к созданию синтетических данных. Другими словами, атаки могут вывести детали отдельной записи, тем самым ставя под угрозу конфиденциальность.

Высокий показатель вывода о членстве указывает на то, что злоумышленник вряд ли сможет определить, была ли конкретная запись частью исходного набора данных, использованного для создания синтетических данных. Это также означает, что ни одна индивидуальная информация не была скомпрометирована с помощью синтетических данных.

Концепция сопротивления

Важной передовой практикой, которой мы должны следовать, является обеспечение того, чтобы синтетические данные были достаточно общими и не превосходили исходные данные, на которых они были обучены. В типичном потоке обработки данных при создании моделей машинного обучения, таких как классификатор случайного леса, мы откладываем тестовые данные, обучаем модели с использованием обучающих данных и оцениваем метрики на невидимых тестовых данных.

Точно так же для синтетических данных мы оставляем в стороне выборку исходных данных, обычно называемую набором удержанных данных или невидимыми скрытыми тестовыми данными, и оцениваем сгенерированные синтетические данные по сравнению с удержанным набором данных.

Ожидается, что набор данных удержания будет представлением исходных данных, но не будет отображаться при создании синтетических данных. Поэтому очень важно иметь одинаковые оценки для всех метрик при сравнении исходных наборов данных с контрольными и синтетическими наборами данных.

Когда получаются аналогичные оценки, мы можем установить, что синтетические точки данных не являются результатом запоминания исходных точек данных, сохраняя при этом ту же точность и полезность.

Заключение

Мир начинает понимать стратегическую важность синтетических данных. Как специалисты по данным и генераторы данных, мы обязаны завоевать доверие к синтетическим данным, которые мы генерируем, и убедиться, что они предназначены для определенной цели.

Синтетические данные превращаются в обязательный элемент набора инструментов для разработки наук о данных. Обзор технологий Массачусетского технологического института отметил, синтетические данные как одна из прорывных технологий 2022 года. Мы не можем представить себе создание превосходных моделей ИИ без синтетических данных, утверждает Gartner.

По McKinsey, синтетические данные сводят к минимуму затраты и препятствия, которые в противном случае возникли бы при разработке алгоритмов или получении доступа к данным.

Генерация синтетических данных заключается в знании последующих приложений и понимании компромиссов между различными измерениями качества синтетических данных.

Обзор

Как пользователь синтетических данных, важно определить контекст варианта использования, для которого каждый образец синтетических данных будет использоваться в будущем. Как и в случае с реальными данными, качество синтетических данных зависит от предполагаемого варианта использования, а также от параметров, выбранных для синтеза.

Например, сохранение выбросов в синтетических данных, как и в исходных данных, полезно для случая обнаружения мошенничества. Однако это бесполезно в случае использования в здравоохранении с проблемами конфиденциальности, поскольку выбросами обычно может быть утечка информации.

Более того, существует компромисс между достоверностью, полезностью и конфиденциальностью. Данные не могут быть оптимизированы для всех трех одновременно. Эти показатели позволяют заинтересованным сторонам расставлять приоритеты в том, что важно для каждого варианта использования, и управлять ожиданиями от сгенерированных синтетических данных.

В конечном счете, когда мы видим значения каждой метрики и когда они соответствуют ожиданиям, заинтересованные лица могут быть уверены в решениях, которые они создают с использованием синтетических данных.

Варианты использования структурированных синтетических данных охватывают широкий спектр приложений от тестовых данных для разработки программного обеспечения до создания синтетических контрольных рук в клинических испытаниях.

Свяжитесь с нами, чтобы изучить эти возможности, или создайте PoC, чтобы продемонстрировать ценность.

Фарис Хаддад является руководителем отдела данных и аналитики в команде AABG Strategic Pursuits. Он помогает предприятиям успешно перейти на управление данными.

Отметка времени: 16 декабря 202218 декабря 2022

Отметка времени: Август 25, 2022

Как оценить качество синтетических данных — измерение с точки зрения достоверности, полезности и конфиденциальности

Переиздано Платоном

Три аспекта оценки качества синтетических данных

Метрики для понимания достоверности

Исследовательские статистические сравнения

Оценка сходства гистограммы

Оценка взаимной информации

Оценка корреляции

Оценка автокорреляции и частичной автокорреляции

Метрики для понимания полезности

Оценка прогноза

Оценка важности функции

QScore

Метрики для понимания конфиденциальности

Точный счет матча

Оценка конфиденциальности соседей

Оценка вывода о членстве

Концепция сопротивления

Заключение

Обзор

Больше от Машинное обучение AWS

Хост-код-сервер на Amazon SageMaker

Вероятность вбрасывания, часть NHL Edge IQ: прогнозирование победителей вбрасывания в режиме реального времени во время телевизионных игр.

Создавайте, обучайте и развертывайте модели Amazon Lookout for Equipment с помощью Python Toolbox.

T-Mobile US, Inc. использует искусственный интеллект через Amazon Transcribe и Amazon Translate для доставки голосовой почты на языке по выбору своих клиентов | Веб-сервисы Amazon

Обнаружение аномалий с помощью Amazon SageMaker Edge Manager с использованием AWS IoT Greengrass V2

Обеспечьте хостинг с низкой задержкой для моделей машинного обучения на основе дерева решений на сервере NVIDIA Triton Inference Server в Amazon SageMaker.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись