合成数据可以真正提高机器学习的性能

由柏拉图重新发布

关注： 0

大规模视频数据集的动作识别得到了显着改善。然而，这些数据集还伴随着与管理成本、隐私、道德、偏见和版权相关的问题。所以，麻省理工学院简介科学家们正在转向合成数据集。

这些视频是由计算机制作的，该计算机使用场景、物体和人类的 3D 模型来快速生成许多不同的特定动作剪辑，而不会出现真实数据带来的潜在版权问题或道德问题。

合成数据和真实数据一样好吗？

麻省理工学院、麻省理工学院-IBM 沃森人工智能实验室和波士顿大学的一个科学家团队试图回答这个问题。他们创建了包含 150,000 个视频剪辑的合成数据集，这些视频剪辑代表了各种人类行为，并经过训练机器学习使用该数据集的模型。然后，他们向这些模型展示了从现实世界拍摄的六个电影数据集，以测试它们对这些录音中的动作的捕捉能力。

科学家发现，对于背景物体较少的视频，经过综合训练的模型的表现甚至比根据真实数据训练的模型还要好。

这一发现可能有助于科学家使用合成数据集来帮助模型更准确地执行实际任务。为了减少与使用实际数据集相关的一些道德、隐私和版权问题，它还可以帮助研究人员确定哪些机器学习应用程序最适合使用合成数据进行训练。

MIT-IBM Watson AI 实验室首席科学家兼经理 Rogerio Feris 表示： “我们研究的最终目标是用合成数据预训练代替真实数据预训练。在合成数据中创建动作是有成本的，但一旦完成，您可以通过改变姿势、光照等来生成无限的图像或视频。这就是合成数据的美妙之处。”

科学家们首先使用三个捕捉人类动作的公开可用的合成视频剪辑数据集来编译新的合成动作预训练和迁移（SynAPT）。它包含近 150 个动作类别，每个类别有 1,000 个视频剪辑。

三个机器学习模型经过预训练，可以在创建数据集后识别使用数据集的操作。预训练是在教授模型一项任务之前教授另一项任务的过程。预训练模型可以使用它已经学习的参数来帮助它更快、更有效地使用新数据集学习新任务。这是根据人们的学习方式建模的，即当我们知道新东西时重用过去的信息。预训练模型已使用六个真实视频剪辑数据集进行了测试，每个数据集捕获与训练数据中不同的动作类别。

科学家们惊讶地发现，所有三个合成模型都优于在六个数据集中的四个上使用实际视频剪辑训练的模型。对于包含具有“低场景对象偏差”的视频剪辑的数据集，它们的准确性最高。这意味着模型无法通过查看场景中的背景或其他对象来识别动作 - 它必须关注动作本身。

费里斯说， “在场景与对象偏差较低的视频中，动作的时间动态比对象或背景的外观更重要，而且合成数据似乎可以很好地捕捉到这一点。”

“高度的场景-物体偏差可能会成为障碍。该模型可能会通过查看对象而不是操作本身来对操作进行错误分类。它可能会混淆模型。”

该研究的合著者、麻省理工学院-IBM 沃森人工智能实验室的研究人员 Rameswar Panda 表示： “在这些结果的基础上，研究人员希望在未来的工作中纳入更多的动作类和额外的合成视频平台，最终创建一个使用合成数据进行预训练的模型目录。”

“我们希望构建的模型与文献中的现有模型具有非常相似甚至更好的性能，但不受任何这些偏见或安全问题的约束。”

合著者兼 CSAIL 博士后 Sooyoung Jin 表示： “他们还希望将他们的工作与研究结合起来，寻求生成更准确、更真实的合成视频，这可以提高模型的性能。”

“我们使用合成数据集来防止隐私问题或上下文或社会偏见，但模型学到了什么？它学到的东西是公正的吗？”

合著者萨玛斯·米什拉 (Samarth Mishra) 是波士顿大学 (BU) 的研究生，说过, “尽管获取注释良好的合成数据的成本较低，但目前我们还没有一个数据集的规模可以与最大的注释数据集和真实视频相媲美。通过讨论真实视频的不同成本和担忧并展示合成数据的功效，我们希望激励朝这个方向努力。”

杂志参考：