如何评估合成数据的质量——从保真度、效用和隐私的角度衡量

由柏拉图重新发布

关注： 0

在一个日益以数据为中心的世界中，企业必须专注于收集有价值的物理信息并生成他们需要但无法轻易捕获的信息。数据访问、监管和合规性是分析和人工智能 (AI) 创新中越来越多的摩擦源。

对于金融服务、医疗保健、生命科学、汽车、机器人和制造等受到高度监管的行业，问题甚至更大。它对系统设计、数据共享（内部和外部）、货币化、分析和机器学习 (ML) 造成障碍。

合成数据是一种解决许多数据挑战的工具，尤其是人工智能和分析问题，如隐私保护、合规性、可访问性、数据稀缺性和偏见。这还包括数据共享和数据生成时间（因此也包括上市时间）。

合成数据是通过算法生成的。它反映了源数据的统计属性和模式。但重要的是，它不包含敏感、私人或个人数据点。

您对合成数据提出问题，并获得与从真实数据中获得的相同答案。

在我们的之前的帖子, 我们演示了如何使用生成对抗网络 (GANS) 等对抗网络来生成表格数据集以增强信用欺诈模型训练。

对于要为他们的 ML 和分析项目采用合成数据的业务利益相关者，不仅要确保生成的合成数据符合目的和预期的下游应用程序，而且要让他们能够衡量和证明数据质量生成的数据。

随着保护隐私的法律和道德义务越来越多，合成数据的优势之一是能够在合成过程中删除敏感信息和原始信息。因此，除了质量之外，我们还需要指标来评估隐私信息泄露的风险（如果有的话），并评估生成过程是否不是“记忆”或复制任何原始数据。

为了实现这一切，我们可以将合成数据的质量映射到维度中，这有助于用户、利益相关者和我们更好地理解生成的数据。

综合数据质量评价的三个维度

生成的综合数据根据三个关键维度进行衡量：

保真度
公用事业
隐私政策

这些是关于合成数据质量报告应回答的任何生成的合成数据的一些问题：

与原始训练集相比，这个合成数据有多相似？
这些合成数据对我们的下游应用有多大用处？
是否有任何信息从原始训练数据泄漏到合成数据中？
我们的模型是否无意中合成了任何在现实世界中被认为敏感的数据（来自未用于训练模型的其他数据集）？

为最终用户转换这些维度中的每一个维度的指标都有些灵活。毕竟，要生成的数据在分布、大小和行为方面可能会有所不同。它们还应该易于理解和解释。

最终，指标必须完全由数据驱动，不需要任何先验知识或特定领域的信息。然而，如果用户想要应用适用于特定业务领域的特定规则和约束，那么他们应该能够在综合过程中定义它们，以确保满足特定领域的保真度。

我们将在以下部分更详细地研究这些指标中的每一个。

了解保真度的指标

在任何数据科学项目中，我们都必须了解某个样本群体是否与我们正在解决的问题相关。同样，对于评估生成的合成数据的相关性的过程，我们必须根据保真度与原版相比。

这些指标的可视化表示使它们更容易理解。我们可以说明是否尊重类别的基数和比率，是否保留不同变量之间的相关性，等等。

可视化数据不仅有助于评估合成数据的质量，而且还适合作为数据科学生命周期中的初始步骤之一，以便更好地理解数据。

让我们更详细地研究一些保真度指标。

探索性统计比较

在探索性统计比较中，原始数据集和合成数据集的特征使用关键统计度量进行探索，例如平均值、中位数、标准差、不同值、缺失值、最小值、最大值、连续特征的四分位数范围，以及数量每个类别的记录数、每个类别的缺失值以及分类属性的最常出现的字符。

这种比较应该在原始保留数据集和合成数据之间进行。该评估将揭示所比较的数据集是否在统计上相似。如果不是，那么我们将了解哪些功能和措施是不同的。如果注意到显着差异，您应该考虑使用不同参数重新训练和重新生成合成数据。

该测试作为初始筛选，以确保合成数据对原始数据集具有合理的保真度，因此可以有效地进行更严格的测试。

直方图相似度得分

直方图相似性得分衡量合成数据集和原始数据集的每个特征的边缘分布。

相似度分数介于 XNUMX 和 XNUMX 之间，分数为 XNUMX 表示合成数据分布与原始数据的分布完全重叠。

接近 XNUMX 的分数会让用户相信 holdout 数据集和合成数据集在统计上是相似的。

互信息得分

互信息分数衡量两个特征的相互依赖性，无论是数值的还是分类的，表明通过观察另一个特征可以从一个特征中获得多少信息。

互信息可以衡量非线性关系，提供对合成数据质量的更全面理解，因为它让我们了解变量关系保存的程度。

得分为 XNUMX 表示特征之间的相互依赖性已在合成数据中完美捕获。

自相关和部分自相关分数

尽管与相关性类似，但自相关性显示了时间序列的现值与其先前值之间的关系。消除先前时间滞后的影响会产生部分自相关。因此，自相关分数衡量合成数据从原始数据集中捕获显着自相关或部分相关的程度。

了解效用的指标

现在我们可能已经从统计学上意识到合成数据与原始数据集相似。此外，我们还必须评估综合数据集在使用多种 ML 算法进行训练时在常见数据科学问题上的表现如何。

使用以下效用指标，我们的目标是建立信心，即我们实际上可以在下游应用程序上实现关于原始数据如何执行的性能。

预测分数

可以通过 ML 模型来衡量合成数据与原始真实数据相比的性能。下游模型分数通过比较在合成数据集和原始数据集上训练并在原始数据集中保留的测试数据上验证的 ML 模型的性能来捕获合成数据的质量。这提供了一个训练综合测试真实 (TSTR) 分数的网络训练真实测试真实 (TRTR) 分别打分。

TSTR、TRTR 分数和特征重要性分数（图片来自作者）

该分数结合了广泛的最受信任的 ML 算法，用于回归或分类任务。使用多个分类器和回归器可确保该分数在大多数算法中更具普遍性，因此合成数据在未来可能会被认为是有用的。

最后，如果 TSTR 分数和 TRTR 分数具有可比性，则表明合成数据具有用于为实际应用训练有效 ML 模型的质量。

特征重要性得分

与预测分数高度相关的特征重要性 (FI) 分数通过为 TSTR 和 TRTR 分数增加可解释性来扩展它。

F1 score 比较得到的特征重要性顺序与预测分数的变化和稳定性。如果一组合成数据产生与原始真实数据相同的特征重要性顺序，则它被认为具有高实用性。

Q分数

为了确保在我们新生成的数据上训练的模型将对与使用原始数据训练的模型相同的问题产生相同的答案，我们使用 Qscore。这通过在合成数据集和原始（和保留）数据集上运行许多基于随机聚合的查询来衡量合成数据的下游性能。

这里的想法是这两个查询都应该返回相似的结果。

高 QScore 可确保利用查询和聚合操作的下游应用程序可以提供与原始数据集接近的价值。

了解隐私的指标

隐私法规已经到位，这是一项道德义务和法律要求，以确保敏感信息受到保护。

在这种合成数据可以自由共享并用于下游应用程序之前，我们必须考虑隐私指标，以帮助利益相关者了解生成的合成数据与原始数据相比在泄露信息范围方面的位置。此外，我们必须就如何共享和使用合成数据做出关键决策。

精确匹配分数

对隐私的直接和直观的评估是在合成记录中寻找真实数据的副本。精确匹配分数计算可以在合成集中找到的真实记录的数量。

分数应为零，表明合成数据中没有按原样存在真实信息。在我们评估进一步的隐私指标之前，该指标充当筛选机制。

邻居隐私评分

此外，邻居的隐私评分衡量的是可能与真实记录过于相似的合成记录的比率。这意味着，尽管它们不是直接副本，但它们是潜在的隐私泄露点和推理攻击的有用信息来源。

通过对与原始数据重叠的合成数据进行高维最近邻搜索来计算得分。

成员推理分数

在数据科学生命周期中，一旦模型经过训练，它就不再需要访问训练样本并且可以对看不见的数据进行预测。类似地，在我们的例子中，一旦合成器模型得到训练，就可以生成合成数据样本而不需要原始数据。

通过一种称为 “成员推理攻击”，攻击者可以尝试泄露用于创建合成数据的数据，而无需访问原始数据。这导致隐私受到损害。

成员推理得分衡量成员推理攻击成功的可能性。

低分表明推断特定记录是导致创建合成数据的训练数据集的成员的可行性。换句话说，攻击可以推断个人记录的详细信息，从而危及隐私。

高成员推理分数表明攻击者不太可能确定特定记录是否是用于创建合成数据的原始数据集的一部分。这也意味着没有个人信息因合成数据而受到损害。

抵制概念

我们必须遵循的一个重要的最佳实践是确保合成数据足够通用并且不会过度拟合训练它的原始数据。在典型的数据科学流程中，在构建随机森林分类器等 ML 模型时，我们预留测试数据，使用训练数据训练模型，并评估未见测试数据的指标。

同样，对于合成数据，我们保留原始数据的样本——通常称为保留数据集或看不见的保留测试数据——并根据保留数据集评估生成的合成数据。

holdout 数据集应该是原始数据的表示，但在生成合成数据时看不到。因此，在将原始数据集与保留数据集和合成数据集进行比较时，所有指标的得分都相似是至关重要的。

当获得相似的分数时，我们可以确定合成数据点不是原始数据点记忆的结果，同时保持相同的保真度和效用。

最后的思考

世界开始了解合成数据的战略重要性。作为数据科学家和数据生成者，我们有责任建立对我们生成的合成数据的信任并确保它是有目的的。

合成数据正在演变成数据科学开发工具包中的必备工具。麻省理工科技评论有注意到合成数据是 2022 年的突破性技术之一。我们无法想象在没有合成数据的情况下构建具有卓越价值的 AI 模型，声称 Gartner公司.

根据麦肯锡，合成数据最大限度地减少了开发算法或获取数据时可能遇到的成本和障碍。

合成数据的生成是关于了解下游应用程序并了解不同维度之间对合成数据质量的权衡。

总结

作为合成数据的用户，必须定义每个合成样本在未来将要使用的用例的上下文。与真实数据一样，合成数据的质量取决于预期的用例以及为合成选择的参数。

例如，在合成数据中保持原始数据中的离群值对于欺诈检测用例很有用。但是，它在涉及隐私问题的医疗保健用例中没有用处，因为异常值通常可能是信息泄露。

此外，保真度、效用和隐私之间存在权衡。无法同时针对所有三个优化数据。这些指标使利益相关者能够优先考虑每个用例的基本内容，并管理生成的合成数据的期望。

最终，当我们看到每个指标的值并达到预期时，利益相关者可以对他们使用合成数据构建的解决方案充满信心。

结构化合成数据的用例涵盖了广泛的应用范围，从用于软件开发的测试数据到在临床试验中创建合成控制臂。

伸出手来探索这些机会或构建 PoC 来展示价值。

法里斯·哈达德 是 AABG 战略追求团队的数据和洞察力负责人。他帮助企业成功实现数据驱动。

时间戳记： 2022 年 12 月 16 日2022 年 12 月 18 日

时间戳记： 2022 年 8 月 25 日

如何评估合成数据的质量——从保真度、效用和隐私的角度衡量

由柏拉图重新发布

综合数据质量评价的三个维度

了解保真度的指标

探索性统计比较

直方图相似度得分

互信息得分

相关分数

自相关和部分自相关分数

了解效用的指标

预测分数

特征重要性得分

Q分数

了解隐私的指标

精确匹配分数

邻居隐私评分

成员推理分数

抵制概念

最后的思考

总结

更多来自 AWS机器学习

在 Amazon SageMaker 上托管代码服务器

对峙概率，NHL Edge IQ 的一部分：在电视转播的比赛中实时预测对峙获胜者

使用 Python 工具箱构建、训练和部署 Amazon Lookout for Equipment 模型

T-Mobile US, Inc. 通过 Amazon Transcribe 和 Amazon Translate 使用人工智能以客户选择的语言发送语音邮件 | 亚马逊网络服务

使用 AWS IoT Greengrass V2 使用 Amazon SageMaker Edge Manager 进行异常检测

在 Amazon SageMaker 上的 NVIDIA Triton 推理服务器上实现基于决策树的 ML 模型的低延迟托管

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理