Что такое синтетические данные? Их типы, варианты использования и приложения для машинного обучения и конфиденциальности

Переиздано Платоном

Читают: 0

Область науки о данных и машинного обучения растет с каждым днем. Поскольку со временем предлагаются новые модели и алгоритмы, этим новым алгоритмам и моделям требуются огромные данные для обучения и тестирования. В настоящее время модели глубокого обучения набирают все большую популярность, и эти модели также нуждаются в данных. Получение такого огромного количества данных в контексте различных постановок задачи — довольно неприятный, трудоемкий и дорогостоящий процесс. Данные собираются из реальных сценариев, что вызывает вопросы безопасности и конфиденциальности. Большая часть данных является частной и защищена законами и правилами о конфиденциальности, что препятствует обмену и перемещению данных между организациями, а иногда и между разными отделами одной организации, что приводит к задержке экспериментов и тестирования продуктов. Вот и возникает вопрос, как можно решить эту проблему? Как сделать данные более доступными и открытыми, не вызывая беспокойства по поводу чьей-либо конфиденциальности?

Решение этой проблемы известно как Синтетические данные.

Итак, что такое синтетические данные?

По определению, синтетические данные генерируются искусственно или алгоритмически и очень напоминают базовую структуру и свойства реальных данных. Если синтезированные данные хороши, они неотличимы от реальных данных.

Сколько различных типов синтетических данных может быть?

Ответ на этот вопрос очень открытый, поскольку данные могут принимать разные формы, но в основном мы

Текстовые данные
Аудио или визуальные данные (например, Изображения, видео и аудио)
Табличные данные

Варианты использования синтетических данных для машинного обучения

Мы обсудим только варианты использования только трех типов синтетических данных, как упоминалось выше.

Использование синтетических текстовых данных для обучения моделей НЛП

Синтетические данные находят применение в области обработки естественного языка. Например, команда Alexa AI в Amazon использует синтетические данные для завершения обучающего набора для своей системы NLU (понимание естественного языка). Это дает им прочную основу для обучения новым языкам без существующих или достаточных данных о взаимодействии с потребителями.

Использование синтетических данных для обучения алгоритмов зрения

Давайте обсудим широко распространенный вариант использования здесь. Предположим, мы хотим разработать алгоритм для обнаружения или подсчета лиц на изображении. Мы можем использовать GAN или какую-либо другую генеративную сеть для создания реалистичных человеческих лиц, т. е. лиц, не существующих в реальном мире, для обучения модели. Еще одно преимущество заключается в том, что мы можем генерировать столько данных, сколько захотим, с помощью этих алгоритмов, не нарушая чью-либо конфиденциальность. Но мы не можем использовать настоящие данные, поскольку они содержат лица некоторых людей, поэтому некоторые политики конфиденциальности ограничивают использование этих данных.

Другой вариант использования — обучение с подкреплением в смоделированной среде. Предположим, мы хотим протестировать роботизированную руку, предназначенную для захвата объекта и помещения его в коробку. Для этой цели разработан алгоритм обучения с подкреплением. Нам нужно провести эксперименты, чтобы проверить это, потому что именно так обучается алгоритм обучения с подкреплением. Настройка эксперимента в реальном сценарии довольно дорога и требует много времени, что ограничивает количество различных экспериментов, которые мы можем провести. Но если мы будем проводить эксперименты в смоделированной среде, то постановка эксперимента будет относительно недорогой, поскольку для этого не потребуется прототип робота-манипулятора.

Использование табличных данных

Табличные синтетические данные — это искусственно сгенерированные данные, которые имитируют данные реального мира, хранящиеся в таблицах. Эти данные структурированы по строкам и столбцам. Эти таблицы могут содержать любые данные, например музыкальный плейлист. Для каждой песни ваш музыкальный проигрыватель хранит кучу информации: название, исполнитель, продолжительность, жанр и так далее. Это также может быть финансовая запись, такая как банковские транзакции, курсы акций и т. д.

Синтетические табличные данные, связанные с банковскими транзакциями, используются для обучения моделей и разработки алгоритмов для обнаружения мошеннических транзакций. Данные о ценах на акции из прошлого можно использовать для обучения и тестирования моделей для прогнозирования будущих цен на акции.

Одним из существенных преимуществ использования синтетических данных в машинном обучении является то, что разработчик может контролировать данные; он может вносить изменения в данные в соответствии с необходимостью проверить любую идею и поэкспериментировать с ней. Между тем, разработчик может протестировать модель на синтезированных данных, и это даст очень четкое представление о том, как модель будет работать на реальных данных. Если разработчик хочет попробовать модель и ждет реальных данных, то получение данных может занять недели или даже месяцы. Следовательно, задержка развития и инноваций технологий.

Теперь мы готовы обсудить, как синтетические данные помогают решать вопросы, связанные с конфиденциальностью данных.

Многие отрасли зависят от данных, генерируемых их клиентами для инноваций и развития, но эти данные содержат информацию, позволяющую установить личность (PII), и законы о конфиденциальности строго регулируют обработку таких данных. Например, Общий регламент по защите данных (GDPR) запрещает использование, на которое не было явного согласия при сборе данных организацией. человек, присутствующий в реальных данных, может быть повторно идентифицирован из синтетических данных. В результате обработка и обмен синтетическими данными регулируется гораздо меньшим количеством правил, что приводит к более быстрым разработкам и инновациям и легкому доступу к данным.

Заключение

Синтетические данные имеют много существенных преимуществ. Это дает разработчикам машинного обучения контроль над экспериментами и увеличивает скорость разработки, поскольку данные теперь более доступны. Это способствует сотрудничеству в более широком масштабе, поскольку данные могут свободно распространяться. Кроме того, синтетические данные гарантируют защиту конфиденциальности людей от реальных данных.

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Винит Кумар — стажер-консультант в MarktechPost. В настоящее время он получает степень бакалавра в Индийском технологическом институте (IIT) в Канпуре. Он энтузиаст машинного обучения. Он увлечен исследованиями и последними достижениями в области глубокого обучения, компьютерного зрения и смежных областях.

<!–

Отметка времени: 12 ноября 202214 ноября 2022