什么是合成数据? 它们在机器学习和隐私方面的类型、用例和应用

图片

数据科学和机器学习领域每天都在发展。随着时间的推移,新的模型和算法不断被提出,这些新的算法和模型需要大量的数据进行训练和测试。如今深度学习模型越来越受欢迎,而这些模型也需要数据。在不同问题陈述的背景下获取如此大量的数据是一个相当可怕、耗时且昂贵的过程。这些数据是从现实生活场景中收集的,这引发了安全责任和隐私问题。大多数数据是私有的,并受到隐私法律和法规的保护,这阻碍了组织之间或有时单个组织的不同部门之间的数据共享和移动,从而导致产品实验和测试的延迟。那么问题来了,这个问题该如何解决呢?如何才能使数据更易于访问和开放,而又不会引起对某人隐私的担忧?  

这个问题的解决方案是 综合数据。 

那么,什么是合成数据?

根据定义,合成数据是人工或通过算法生成的,并且与实际数据的底层结构和属性非常相似。如果合成的数据很好,它与真实数据没有什么区别。

合成数据有多少种不同类型?

这个问题的答案非常开放,因为数据可以采取多种形式,但主要有 

  1. 文字数据
  2. 音频或视频数据(例如, 图片、视频和音频)
  3. 表格数据

机器学习的合成数据用例

如上所述,我们将仅讨论三种类型的合成数据的用例。

  • 使用合成文本数据训练 NLP 模型

合成数据在自然语言处理领域有应用。例如,亚马逊的 Alexa AI 团队使用合成数据来完成其 NLU 系统(自然语言理解)的训练集。它为他们在没有现有或足够的消费者交互数据的情况下训练新语言提供了坚实的基础。

  • 使用合成数据训练视觉算法

   让我们在这里讨论一个广泛的用例。假设我们想要开发一种算法来检测或计算图像中的人脸数量。我们可以使用 GAN 或其他生成网络来生成逼真的人脸,即现实世界中不存在的人脸,来训练模型。另一个优点是,我们可以从这些算法中生成尽可能多的数据,而不会侵犯任何人的隐私。但我们无法使用真实数据,因为它包含一些个人的面孔,因此一些隐私政策限制使用该数据。

另一个用例是在模拟环境中进行强化学习。假设我们想要测试一个设计用于抓取物体并将其放入盒子中的机械臂。强化学习算法就是为此目的而设计的。我们需要做实验来测试它,因为这就是强化学习算法的学习方式。在现实生活场景中设置实验非常昂贵且耗时,限制了我们可以执行的不同实验的数量。但如果我们在模拟环境中进行实验,那么设置实验相对便宜,因为它不需要机械臂原型。

  • 表格数据的用途

表格合成数据是人工生成的数据,模仿存储在表中的现实世界数据。该数据按行和列进行组织。这些表可以包含任何数据,例如音乐播放列表。对于每首歌曲,您的音乐播放器都会维护大量信息:名称、歌手、长度、流派等等。它也可以是财务记录,如银行交易、股票价格等。

与银行交易相关的合成表格数据用于训练模型和设计算法来检测欺诈交易。过去的股票价格数据可用于训练和测试预测股票未来价格的模型。

在机器学习中使用合成数据的显着优势之一是开发人员可以控制数据;他可以根据测试任何想法并进行实验的需要对数据进行更改。同时,开发人员可以在合成数据上测试模型,这将非常清楚地了解模型在现实数据上的表现。如果开发人员想要尝试一个模型并等待真实数据,那么获取数据可能需要数周甚至数月的时间。因此,延迟了技术的发展和创新。

现在我们准备讨论合成数据如何帮助解决与数据隐私相关的问题。

许多行业依赖客户生成的数据进行创新和发展,但这些数据包含个人身份信息 (PII),并且隐私法严格规范此类数据的处理。例如,《通用数据保护条例》(GDPR) 禁止在组织收集数据时未经明确同意的情况下使用。‍ 由于合成数据与真实数据的底层结构非常相似,同时确保不会可以从合成数据中重新识别真实数据中存在的个体。因此,合成数据的处理和共享的监管要少得多,从而加快了开发和创新速度,并且可以轻松访问数据。

结论

合成数据具有许多显着的优点。它使机器学习开发人员能够控制实验并提高开发速度,因为现在数据更容易访问。由于数据可以自由共享,因此它促进了更大规模的协作。此外,合成数据保证保护个人隐私免受真实数据的影响。


<img width=”150″ height=”150″ src=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg” class=”avatar avatar-150 photo” alt decoding=”async” loading=”lazy” srcset=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg 150w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-80×80-1.jpg 80w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-70×70.jpg 70w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-24×24.jpg 24w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-48×48.jpg 48w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-96×96-1.jpg 96w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-300×300-1.jpg 300w” sizes=”(max-width: 150px) 100vw, 150px” data-attachment-id=”28275″ data-permalink=”https://www.marktechpost.com/img20221002180119-vineet-kumar/” data-orig-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-scaled.jpg” data-orig-size=”1920,2560″ data-comments-opened=”1″ data-image-meta=”{“aperture”:”2.8″,”credit”:””,”camera”:”OnePlus 9 5G”,”caption”:””,”created_timestamp”:”1664733679″,”copyright”:””,”focal_length”:”6.064″,”iso”:”100″,”shutter_speed”:”0.0078740157480315″,”title”:””,”orientation”:”1″}” data-image-title=”IMG20221002180119 – Vineet kumar” data-image-description data-image-caption=”

维尼特

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar 是 MarktechPost 的咨询实习生。他目前正在坎普尔印度理工学院 (IIT) 攻读学士学位。他是一名机器学习爱好者。他热衷于深度学习、计算机视觉及相关领域的研究和最新进展。

–>

时间戳记:

更多来自 区块链顾问