Що таке синтетичні дані? Їх типи, випадки використання та програми для машинного навчання та конфіденційності

Перевидано Платоном

читають: 0

Сфера даних та машинного навчання зростає з кожним днем. Оскільки з часом пропонуються нові моделі та алгоритми, ці нові алгоритми та моделі потребують величезних даних для навчання та тестування. Моделі глибокого навчання набувають такої популярності в наш час, і ці моделі також потребують даних. Отримання такої величезної кількості даних у контексті різних постановок задач є досить жахливим, трудомістким і дорогим процесом. Дані збираються за сценаріями реального життя, що створює проблеми з безпекою та конфіденційністю. Більшість даних є приватними та захищені законами та правилами про конфіденційність, що перешкоджає обміну та переміщенню даних між організаціями або іноді між різними відділами однієї організації, що призводить до затримки експериментів і тестування продуктів. Тож виникає питання, як можна вирішити цю проблему? Як можна зробити дані більш доступними та відкритими, не викликаючи занепокоєння щодо чиєїсь конфіденційності?

Рішення цієї проблеми є чимось відомим як Синтетичні дані.

Отже, що таке синтетичні дані?

За визначенням, синтетичні дані генеруються штучно або алгоритмічно та дуже схожі на базову структуру та властивість фактичних даних. Якщо синтезовані дані хороші, їх неможливо відрізнити від реальних даних.

Скільки може бути різних типів синтетичних даних?

Відповідь на це запитання дуже відкрита, оскільки дані можуть мати різні форми, але в основному ми маємо

Текстові дані
Аудіо- або візуальні дані (наприклад, Зображення, відео та аудіо)
Табличні дані

Випадки використання синтетичних даних для машинного навчання

Ми обговоримо лише випадки використання лише трьох типів синтетичних даних, як зазначено вище.

Використання синтетичних текстових даних для навчання моделей НЛП

Синтетичні дані мають застосування в області обробки природної мови. Наприклад, команда Alexa AI в Amazon використовує синтетичні дані для завершення навчального набору для своєї системи NLU (розуміння природної мови). Це надає їм міцну основу для навчання нових мов без наявних або достатньої кількості даних про взаємодію зі споживачами.

Використання синтетичних даних для навчання алгоритмів зору

Давайте обговоримо тут поширений випадок використання. Припустімо, ми хочемо розробити алгоритм для виявлення або підрахунку кількості облич на зображенні. Ми можемо використовувати GAN або іншу генеративну мережу для створення реалістичних людських облич, тобто облич, яких немає в реальному світі, для навчання моделі. Ще одна перевага полягає в тому, що ми можемо генерувати скільки завгодно даних за допомогою цих алгоритмів, не порушуючи чиюсь конфіденційність. Але ми не можемо використовувати реальні дані, оскільки вони містять обличчя деяких людей, тому деякі політики конфіденційності обмежують використання цих даних.

Іншим випадком використання є навчання з підкріпленням у змодельованому середовищі. Припустімо, ми хочемо випробувати роботизовану руку, призначену для захоплення предмета та розміщення його в коробці. Для цього розроблено алгоритм навчання з підкріпленням. Нам потрібно провести експерименти, щоб перевірити це, тому що саме так навчається алгоритм навчання з підкріпленням. Налаштування експерименту в реальному житті є досить дорогим і трудомістким, що обмежує кількість різних експериментів, які ми можемо виконати. Але якщо ми проводимо експерименти в змодельованому середовищі, то встановлення експерименту буде відносно недорогим, оскільки не потребуватиме прототипу роботизованої руки.

Використання табличних даних

Табличні синтетичні дані – це штучно створені дані, які імітують дані реального світу, що зберігаються в таблицях. Ці дані структуровані в рядки та стовпці. Ці таблиці можуть містити будь-які дані, наприклад музичний список відтворення. Для кожної пісні ваш музичний плеєр зберігає купу інформації: її назву, співака, тривалість, жанр тощо. Це також може бути фінансовий запис, як-от банківські операції, ціни на акції тощо.

Синтетичні табличні дані, пов’язані з банківськими транзакціями, використовуються для навчання моделей і розроблення алгоритмів для виявлення шахрайських транзакцій. Дані про ціни акцій у минулому можна використовувати для навчання та тестування моделей для прогнозування майбутніх цін на акції.

Однією із значних переваг використання синтетичних даних у машинному навчанні є те, що розробник має контроль над даними; він може вносити зміни в дані відповідно до потреби перевірити будь-яку ідею та експериментувати з нею. Тим часом розробник може перевірити модель на синтезованих даних, і це дасть дуже чітке уявлення про те, як модель працюватиме на реальних даних. Якщо розробник хоче випробувати модель і чекає реальних даних, то отримання даних може зайняти тижні або навіть місяці. Отже, затримка розвитку та інноваційних технологій.

Тепер ми готові обговорити, як синтетичні дані допомагають вирішити проблеми, пов'язані з конфіденційністю даних.

Багато галузей залежать від даних, створених їхніми клієнтами для інновацій і розвитку, але ці дані містять особисту інформацію (PII), а закони про конфіденційність суворо регулюють обробку таких даних. Наприклад, Загальний регламент захисту даних (GDPR) забороняє використання, на яке не було надано чіткої згоди під час збору даних організацією. Оскільки синтетичні дані дуже схожі на базову структуру реальних даних і, водночас, гарантують, що ні особа, присутня в реальних даних, може бути повторно ідентифікована з синтетичних даних. Як наслідок, обробка та обмін синтетичними даними мають набагато менше правил, що призводить до швидшого розвитку та інновацій та легкого доступу до даних.

Висновок

Синтетичні дані мають багато суттєвих переваг. Це дає розробникам ML контроль над експериментами та збільшує швидкість розробки, оскільки дані тепер доступніші. Це сприяє співпраці в більших масштабах, оскільки дані вільно доступні. Крім того, синтетичні дані гарантують захист конфіденційності людей від реальних даних.

Виноград

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Вініт Кумар є стажером-консультантом у MarktechPost. Зараз він отримує ступінь бакалавра в Індійському технологічному інституті (IIT), Канпур. Він ентузіаст машинного навчання. Він захоплений дослідженнями та останніми досягненнями в глибокому навчанні, комп’ютерному баченні та суміжних галузях.

<!–

Часова мітка: Листопад 12, 2022Листопад 14, 2022