使用带有 Amazon Rekognition 自定义标签和 Dassault Systèmes 3DEXCITE 的合成数据集的计算机视觉

由柏拉图重新发布

关注： 0

这是与 Storm Reply 的首席技术官 Bernard Paques 和 Dassault Systèmes 3DExcite 的高级策略师 Karl Herkt 共同撰写的帖子。

虽然计算机视觉对于工业维护、制造、物流和消费应用至关重要，但它的采用受到手动创建训练数据集的限制。工业环境中标注图片的创建主要是人工完成，识别能力有限，无法规模化，并导致人工成本和商业价值实现的延迟。这与产品设计、产品工程和产品配置中的快速迭代所提供的业务敏捷性背道而驰。此过程不适用于汽车、飞机或现代建筑等复杂产品，因为在这些情况下，每个标签项目都是独一无二的（与独特的产品相关）。因此，如果没有大量的数据准备工作，计算机视觉技术就无法轻松应用于大型独特项目，有时会限制用例交付。

在这篇文章中，我们提出了一种新颖的方法，其中高度专业化的计算机视觉系统是从设计和 CAD 文件中创建的。我们从创建视觉上正确的数字双胞胎和合成标记图像的生成开始。然后我们将这些图片推送到 Amazon Rekognition自定义标签训练自定义对象检测模型。通过将现有的知识产权与软件结合使用，我们正在使计算机视觉能够负担得起并且与各种工业环境相关。

识别系统的定制有助于推动业务成果

由数字孪生生成的专用计算机视觉系统具有特定的优点，可以在以下用例中说明：

独特产品的可追溯性 – 空客、波音和其他飞机制造商分配独特的制造商序列号 (MSNs）到他们生产的每架飞机。这在整个生产过程中进行管理，以产生适航文件并获得飞行许可。一种数字双胞胎（代表物理产品的虚拟 3D 模型）可以从每个 MSN 的配置中导出，并生成一个分布式计算机视觉系统，该系统跟踪该 MSN 在工业设施中的进度。自定义识别自动化了赋予航空公司的透明度，并取代了航空公司手动执行的大多数检查点。独特产品的自动化质量保证可以应用于飞机、汽车、建筑物，甚至是工艺品。
情境化增强现实 – 专业级计算机视觉系统可以覆盖有限的景观，但具有更高的辨别能力。例如，在工业维修中，在图片中找螺丝刀是没有用的；您需要识别螺丝刀型号甚至其序列号。在这种有限的上下文中，自定义识别系统优于通用识别系统，因为它们与他们的发现更相关。定制识别系统可通过以下方式实现精确的反馈循环专用增强现实在 HMI 或移动设备中交付。
端到端质量控制 –与系统工程，您可以创建部分构造的数字双胞胎，并生成适应制造和生产过程各个阶段的计算机视觉系统。视觉控制可以与制造工作站相结合，实现端到端检查和缺陷的早期检测。自定义识别端到端检查有效地防止缺陷级联到装配线。降低废品率和最大化产量是最终目标。
灵活的质检 – 现代质量检测必须适应设计变化和灵活制造。设计的变化来自产品使用和产品维护的反馈循环。柔性制造是按订单生产战略的关键能力，符合成本优化的精益制造原则。通过在数字孪生中集成设计变化和配置选项，自定义识别使计算机视觉系统能够动态适应生产计划和设计变化。

使用由 Amazon Rekognition 提供支持的 Dassault Systèmes 3DEXCITE 增强计算机视觉

Dassault Systèmes 是一家在数字孪生领域拥有深厚专业知识的公司，也是欧洲第二大软件编辑器，3DEXCITE 团队正在探索一条不同的道路。正如 Karl Herkt 所解释的，“如果从合成图像训练的神经模型可以识别物理产品会怎样？” 3DEXCITE 通过将他们的技术与 AWS 基础设施相结合解决了这个问题，证明了这种特殊方法的可行性。它也被称为 跨域对象检测，其中检测模型从源域的标记图像（合成图像）中学习，并对未标记的目标域（物理组件）进行预测。

Dassault Systèmes 3DEXCITE 和 AWS Prototyping 团队联手构建了一个可识别工业齿轮箱部件的演示系统。这个原型在 3 周内建成，训练后的模型达到了 98% 的 F1 分数。识别模型完全是从软件管道中训练出来的，它没有任何真实部件的图片。从工业齿轮箱的设计和 CAD 文件中，3DEXCITE 创建了视觉上正确的数字双胞胎。他们还从数字双胞胎中生成了数千张合成标记图像。然后他们使用 Rekognition Custom Labels 从这些图像中训练出高度专业化的神经模型，并提供了相关的识别 API。他们建立了一个网站，以便从任何网络摄像头识别变速箱的一个物理部分。

亚马逊重新认识是一项 AI 服务，它使用深度学习技术允许您从图像和视频中提取有意义的元数据，包括识别对象、人物、文本、场景、活动和可能不适当的内容，而无需机器学习 (ML) 专业知识。 Amazon Rekognition 还提供高度准确的面部分析和面部搜索功能，您可以使用这些功能检测、分析和比较面部，以进行各种用户验证、人数统计和安全用例。最后，借助 Rekognition 自定义标签，您可以使用自己的数据来构建对象检测和图像分类模型。

用于生成合成标记图像的 Dassault Systèmes 技术与用于计算机视觉的 Rekognition 自定义标签相结合，为识别系统提供了可扩展的工作流程。在这里，易用性是一个重要的积极因素，因为将 Rekognition 自定义标签添加到整个软件管道并不困难，就像将 API 集成到工作流中一样简单。无需成为 ML 科学家；只需将捕获的帧发送到 AWS 并接收可以输入数据库或在 Web 浏览器中显示的结果。

这进一步强调了对手动创建训练数据集的巨大改进。您可以更快、更准确地获得更好的结果，而无需花费昂贵的、不必要的工作时间。拥有如此多的潜在用例，Dassault Systèmes 和 Rekognition Custom Labels 的结合有可能为当今的企业提供显着且直接的投资回报率。

解决方案概述

此解决方案的第一步是渲染创建训练数据集的图像。这是由 3DEXCITE 平台完成的。我们可以使用脚本以编程方式生成标签数据。亚马逊SageMaker地面真相提供了一个注释工具，可以轻松标记图像和视频以进行分类和对象检测任务。要在 Amazon Rekognition 中训练模型，标签文件需要符合 Ground Truth 格式。这些标签采用 JSON 格式，包括图像大小、边界框坐标和类 ID 等信息。

然后将合成图像和清单上传到亚马逊简单存储服务 (Amazon S3)，Rekognition 自定义标签可以将它们作为训练数据集的组件导入。

为了让 Rekognition 自定义标签测试模型与一组真实组件图像，我们提供了一组用相机拍摄的真实引擎部件的图片，并将它们上传到 Amazon S3 以用作测试数据集。

最后，Rekognition Custom Labels 使用由真实对象图片组成的合成训练数据集和测试数据集训练最佳对象检测模型，并使用可用于在我们的应用程序中运行对象识别的模型创建端点。

下图说明了我们的解决方案工作流程：

创建合成图像

合成图像是从 3Dexperience 平台生成的，该平台是 Dassault Systèmes 的产品。该平台允许您根据对象的 CAD（计算机辅助设计）文件创建和渲染逼真的图像。通过更改平台上的图像转换配置，我们可以在几个小时内生成数千个变体。

在这个原型中，我们选择了以下五个视觉上不同的齿轮箱部件进行物体检测。它们包括齿轮箱、齿轮比、轴承盖、法兰和蜗轮。

我们使用以下数据增强方法来增加图像多样性，并使合成数据更加逼真。它有助于减少模型泛化误差。

放大/缩小 – 此方法随机放大或缩小图像中的对象。
回转 – 此方法旋转图像中的对象，看起来像一个虚拟相机从 360 度角度随机拍摄对象的照片。
改善材料的外观和感觉 – 我们发现，对于某些齿轮零件，材料的外观在初始渲染中不太真实。我们添加了金属效果来改善合成图像。
使用不同的照明设置 – 在这个原型中，我们模拟了两种光照条件：
- 仓库保管 – 逼真的光分布。阴影和反射是可能的。
- GOHAT STUDIO – 均匀的光被放置在物体周围。这是不现实的，但没有阴影或反射。
使用如何实时查看对象的真实位置 – 在现实生活中，一些物体，例如法兰和轴承盖，通常放置在一个表面上，模型是根据顶部和底部面来检测物体。因此，我们去除了显示零件边缘较薄的训练图像，也称为边缘位置，并增加了平面位置的物体图像。
在一张图像中添加多个对象 – 在现实生活场景中，多个齿轮部件可能都出现在一个视图中，因此我们准备了包含多个齿轮部件的图像。

在 3Dexperience 平台上，我们可以为图像应用不同的背景，这有助于进一步增加图像的多样性。由于时间限制，我们没有在这个原型中实现这个。

导入合成训练数据集

在 ML 中，标记数据意味着对训练数据进行注释以显示目标，这是您希望 ML 模型预测的答案。 Rekognition 自定义标签可以使用的标记数据应符合 Ground Truth 清单文件要求。清单文件由一个或多个 JSON 行组成；每行包含单个图像的信息。对于合成训练数据，可以根据我们前面提到的 CAD 文件和图像转换配置以编程方式生成标记信息，从而节省大量人工标记工作。有关标记文件格式要求的更多信息，请参阅创建清单文件和清单文件中的对象本地化. 下面是一个图像标注的例子：

{ "source-ref": "s3://<bucket>/<prefix>/multiple_objects.png", "bounding-box": { "image_size": [ { "width": 1024, "height": 1024, "depth": 3 } ], "annotations": [ { "class_id": 1, "top": 703, "left": 606, "width": 179, "height": 157 }, { "class_id": 4, "top": 233, "left": 533, "width": 118, "height": 139 }, { "class_id": 0, "top": 592, "left": 154, "width": 231, "height": 332 }, { "class_id": 3, "top": 143, "left": 129, "width": 268, "height": 250 } ] }, "bounding-box-metadata": { "objects": [ { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 } ], "class-map": { "0": "Gear_Housing", "1": "Gear_Ratio", "3": "Flange", "4": "Worm_Gear" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2021-06-18T11:56:01", "job-name": "3DEXCITE" }
}

清单文件准备好后，我们将其上传到 S3 存储桶，然后通过选择选项在 Rekognition Custom Labels 中创建训练数据集 导入标有Amazon SageMaker Ground Truth的图像.

清单文件导入后，我们可以在 Amazon Rekognition 控制台上直观地查看标签信息。这有助于我们确认清单文件已生成并导入。更具体地说，边界框应与图像中的对象对齐，并且应正确分配对象的类 ID。

创建测试数据集

测试图像是在现实生活中使用手机或相机从不同角度和光照条件下拍摄的，因为我们希望针对现实生活场景验证我们使用合成数据训练的模型准确性。您可以将这些测试图像上传到 S3 存储桶，然后将它们作为数据集导入 Rekognition 自定义标签。或者，您可以将它们直接从本地机器上传到数据集。

Rekognition Custom Labels 提供内置的图像标注功能，其体验与 Ground Truth 类似。您可以在导入测试数据时开始标记工作。对于对象检测用例，边界框应该紧密地围绕感兴趣的对象创建，这有助于模型准确地学习属于目标对象的区域和像素。此外，您应该标记所有图像中目标对象的每个实例，即使是那些部分超出视野或被其他对象遮挡的对象，否则模型会预测出更多的假阴性。

创建跨域对象检测模型

Rekognition 自定义标签是一项完全托管的服务；您只需要提供训练和测试数据集。它训练一组模型，并根据提供的数据选择表现最好的模型。在这个原型中，我们通过试验我们前面提到的图像增强方法的不同组合来迭代地准备合成训练数据集。为 Rekognition 自定义标签中的每个训练数据集创建一个模型，这使我们能够专门比较并找到此用例的最佳训练数据集。每个模型的训练图像数量最少，包含良好的图像多样性，并提供最佳的模型精度。经过 15 次迭代后，我们使用大约 1 张合成训练图像（平均每个对象 98 张图像）实现了 10,000% 的 F2,000 分数。

模型推断结果

下图显示了在实时推理应用程序中使用的 Amazon Rekognition 模型。以高置信度正确检测所有组件。

使用带有 Amazon Rekognition 自定义标签和 Dassault Systèmes 3DEXCITE PlatoBlockchain 数据智能的合成数据集的计算机视觉。垂直搜索。哎。

结论

在这篇文章中，我们演示了如何在纯合成图像上训练计算机视觉模型，以及该模型如何仍然能够可靠地识别现实世界的物体。这节省了大量的人工收集和标记训练数据的工作。通过这一探索，达索系统正在扩展设计师和工程师创建的 3D 产品模型的商业价值，因为您现在可以在物理世界中的图像识别系统中使用 CAD、CAE 和 PLM 数据。

有关 Rekognition 自定义标签主要功能和用例的更多信息，请参阅 Amazon Rekognition自定义标签. 如果您的图像未使用 Ground Truth 本地标记，本项目就是这种情况，请参阅创建清单文件将您的标签数据转换为 Rekognition 自定义标签可以使用的格式。

作者简介

伍迪·博拉奇诺 目前是 AWS 的高级机器学习专家解决方案架构师。 Woody 常驻意大利米兰，在 2015 年加入 AWS 之前从事软件开发工作，在那里他对计算机视觉和空间计算 (AR/VR/XR) 技术充满热情。他的热情现在集中在元宇宙创新上。跟着他 LinkedIn.

应侯, 博士，是 AWS 的机器学习原型架构师。她的主要兴趣领域是深度学习、计算机视觉、NLP 和时间序列数据预测。业余时间，她喜欢看小说和在英国的国家公园徒步旅行。

伯纳德·帕克斯 目前是 Storm Reply 的首席技术官，专注于部署在 AWS 上的工业解决方案。 Bernard 常驻法国巴黎，之前曾在 AWS 担任首席解决方案架构师和首席顾问。他对企业现代化的贡献包括 AWS for Industrial、AWS CDK，现在这些都涉及绿色 IT 和基于语音的系统。跟着他 Twitter.

卡尔·赫克特 目前是达索系统 3DExcite 的高级策略师。他在德国慕尼黑工作，创造了计算机视觉的创新实施，并带来了切实的成果。跟着他 LinkedIn.

时间戳记： 2022 年 3 月 14 日

使用 ML 驱动的无服务器堆栈从 Amazon Kendra 获取有关用户搜索行为的见解 | 亚马逊网络服务

源群集：

AWS机器学习

源节点： 1840291

时间戳记： 2023 年 5 月 25 日

衡量 Amazon Personalize 推荐的业务影响

AWS机器学习

源节点： 1820243

时间戳记： 2023 年 3 月 30 日

使用带有 Amazon Rekognition 自定义标签和 Dassault Systèmes 3DEXCITE 的合成数据集的计算机视觉

由柏拉图重新发布

识别系统的定制有助于推动业务成果

使用由 Amazon Rekognition 提供支持的 Dassault Systèmes 3DEXCITE 增强计算机视觉

解决方案概述

创建合成图像

导入合成训练数据集

创建测试数据集

创建跨域对象检测模型

模型推断结果

结论

作者简介

更多来自 AWS机器学习

衡量 Amazon Personalize 推荐的业务影响

跨 AWS Accelerators 的初创公司使用 AI 和 ML 来解决关键任务客户挑战

保护 Amazon SageMaker Studio 预签名 URL 第 2 部分：使用 JWT 身份验证的私有 API

通过 Amazon SageMaker Data Wrangler 直接连接到 Snowflake，加快获得业务洞察的速度 | 亚马逊网络服务

使用 AWS Media Intelligence 和 Hugging Face BERT 构建基于分类的上下文定位

使用 IMDb 知识图增强推荐和搜索——第 2 部分

使用 Hugging Face 和 Amazon SageMaker 异步推理终端节点改进高价值研究

Amazon SageMaker 自动模型调整现在支持 SageMaker 训练实例回退

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理