使用 AWS 服务构建主动学习管道以自动注释图像 |亚马逊网络服务

由柏拉图重新发布

关注： 0

这篇博文是与 Veoneer 的 Caroline Chung 共同撰写的。

维宁尔是一家全球汽车电子公司，也是汽车电子安全系统领域的全球领导者。他们提供一流的约束控制系统，并已向全球汽车制造商提供了超过 1 亿个电子控制单元和碰撞传感器。该公司继续发扬 70 年的汽车安全开发历史，专注于预防交通事故和减少事故的尖端硬件和系统。

汽车舱内传感 (ICS) 是一个新兴领域，它结合使用摄像头和雷达等多种类型的传感器以及基于人工智能 (AI) 和机器学习 (ML) 的算法来增强安全性并改善乘坐体验。构建这样一个系统可能是一项复杂的任务。开发人员必须手动注释大量图像以用于训练和测试目的。这是非常耗时且资源密集的。此类任务的周转时间为几周。此外，公司还必须处理由于人为错误而导致标签不一致等问题。

AWS 致力于通过 ML 等高级分析帮助您提高开发速度并降低构建此类系统的成本。我们的愿景是使用机器学习进行自动注释，实现安全模型的重新训练，并确保一致且可靠的性能指标。在这篇文章中，我们分享了如何通过与亚马逊全球专家组织和生成式人工智能创新中心，我们开发了一个用于舱内图像头部边界框和关键点注释的主动学习管道。该解决方案将成本降低了 90% 以上，将注释流程的周转时间从几周缩短到几小时，并实现了类似 ML 数据标记任务的可重用性。

解决方案概述

主动学习是一种机器学习方法，涉及选择和注释信息最丰富的数据来训练模型的迭代过程。给定一小组标记数据和大量未标记数据，主动学习可以提高模型性能，减少标记工作，并集成人类专业知识以获得可靠的结果。在这篇文章中，我们使用 AWS 服务构建了一个用于图像注释的主动学习管道。

下图展示了我们主动学习管道的总体框架。标签管道从以下位置获取图像亚马逊简单存储服务 (Amazon S3) 在 ML 模型和人类专业知识的配合下存储桶并输出带注释的图像。训练管道预处理数据并使用它们来训练 ML 模型。初始模型是在一小部分手动标记数据上建立和训练的，并将在标记管道中使用。可以使用更多标记数据逐步迭代标记管道和训练管道，以增强模型的性能。

自动贴标工作流程

在标签管道中， Amazon S3 事件通知当一批新图像进入未标记数据存储 S3 存储桶时调用，激活标记管道。该模型生成新图像的推理结果。定制的判断函数根据推理置信度得分或其他用户定义的函数选择部分数据。这些数据及其推理结果将被发送到人工标记工作亚马逊SageMaker地面真相由管道创建。人工标记过程有助于对数据进行注释，并将修改后的结果与剩余的自动注释数据相结合，稍后可以由训练管道使用。

模型重新训练发生在训练管道中，我们使用包含人工标记数据的数据集来重新训练模型。生成一个清单文件来描述文件的存储位置，并根据新数据重新训练相同的初始模型。重新训练后，新模型取代初始模型，主动学习管道的下一次迭代开始。

模型部署

标签管道和训练管道都部署在 AWS 代码管道. AWS 代码构建采用实例来实现，对于少量数据来说灵活、快速。当需要速度时，我们使用亚马逊SageMaker 基于GPU实例的端点分配更多资源来支持和加速该过程。

当有新的数据集或者模型的性能需要改进时，可以调用模型重新训练管道。再训练流程中的一项关键任务是为训练数据和模型建立版本控制系统。尽管 AWS 服务例如亚马逊重新认识具有集成的版本控制功能，这使得管道易于实施，定制模型需要元数据记录或额外的版本控制工具。

整个工作流程是使用 AWS云开发套件 (AWS CDK) 创建必要的 AWS 组件，包括以下组件：

CodePipeline 和 SageMaker 作业的两个角色
两个 CodePipeline 作业，用于编排工作流程
用于管道代码工件的两个 S3 存储桶
一个 S3 存储桶，用于标记作业清单、数据集和模型
预处理和后处理 AWS Lambda SageMaker Ground Truth 标记作业的函数

AWS CDK 堆栈高度模块化，可在不同任务中重复使用。训练、推理代码和 SageMaker Ground Truth 模板可以替换为任何类似的主动学习场景。

模型训练

模型训练包括两个任务：头部边界框标注和人体关键点标注。我们在本节中介绍它们。

头部边界框注释

头部边界框标注是预测图像中人体头部边界框位置的任务。我们使用一个 Amazon Rekognition自定义标签头部边界框注释模型。下列样本笔记本提供有关如何通过 SageMaker 训练 Rekognition 自定义标签模型的分步教程。

我们首先需要准备数据来开始训练。我们为训练生成一个清单文件，为测试数据集生成一个清单文件。清单文件包含多个项目，每个项目对应一个图像。以下是清单文件的示例，其中包括图像路径、大小和注释信息：

{
    "source-ref": "s3://mlsl-sandox/rekognition_images/train/IMS_00000_00_000_000_R2_1900_01_01_00000_compressed_front_tof_amp_000.jpeg",
    "bounding-box-attribute-name": {
        "image_size": [{
                "width": 640,
                "height": 480,
                "depth": 3
            }
        ],
        "annotations": [{
                "class_id": 1,
                "top": 189,
                "left": 209,
                "width": 97,
                "height": 121
            }
        ]
    },
    "bounding-box-attribute-name-metadata": {
        "objects": [{
                "confidence": 1
            }
        ],
        "class-map": {
            "1": "Head"
        },
        "type": "groundtruth/object-detection",
        "human-annotated": "yes",
        "creation-date": "2023-04-07T20:04:42",
        "job-name": "testjob"
    }
}

使用清单文件，我们可以将数据集加载到 Rekognition 自定义标签模型中以进行训练和测试。我们使用不同数量的训练数据迭代模型，并在相同的 239 张未见过的图像上对其进行测试。在本次测试中， mAP_50 分数从 0.33 个训练图像的 114 增加到 0.95 个训练图像的 957。以下屏幕截图显示了最终 Rekognition 自定义标签模型的性能指标，该模型在 F1 分数、精确度和召回率方面具有出色的性能。

使用 AWS 服务构建主动学习管道以自动注释图像 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

我们在包含 1,128 张图像的保留数据集上进一步测试了该模型。该模型始终如一地对未见过的数据进行准确的边界框预测，从而产生高 mAP_50 94.9%。以下示例显示了带有头部边框的自动注释图像。

使用 AWS 服务构建主动学习管道以自动注释图像 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

关键点标注

关键点标注产生关键点的位置，包括眼睛、耳朵、鼻子、嘴巴、颈部、肩膀、肘部、手腕、臀部和脚踝。除了位置预测之外，在此特定任务中还需要预测每个点的可见性，为此我们设计了一种新颖的方法。

对于关键点标注，我们使用 Yolo 8 姿势模型以 SageMaker 作为初始模型。我们首先准备训练数据，包括按照 Yolo 的要求生成标签文件和配置 .yaml 文件。准备好数据后，我们训练模型并保存工件，包括模型权重文件。使用经过训练的模型权重文件，我们可以注释新图像。

在训练阶段，所有带有位置的标记点，包括可见点和遮挡点，都用于训练。因此，该模型默认提供预测的位置和置信度。在下图中，接近 0.6 的大置信阈值（主阈值）能够区分可见点或被遮挡的点与相机视点之外的点。然而，被遮挡点和可见点并没有被置信度分开，这意味着预测的置信度对于预测可见性没有用处。

使用 AWS 服务构建主动学习管道以自动注释图像 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

为了获得可见性的预测，我们引入了一个在仅包含可见点的数据集上训练的附加模型，不包括遮挡点和相机视点之外的点。下图展示了不同可见度的点的分布情况。可见点和其他点可以在附加模型中分开。我们可以使用接近 0.6 的阈值（附加阈值）来获取可见点。通过结合这两个模型，我们设计了一种预测位置和可见性的方法。

使用 AWS 服务构建主动学习管道以自动注释图像 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

首先由主模型预测关键点的位置和主要置信度，然后我们从附加模型得到附加置信度预测。其可见性分类如下：

可见，如果其主置信度大于其主阈值，且其附加置信度大于附加阈值
被遮挡，如果其主要置信度大于其主要阈值，并且其附加置信度小于或等于附加阈值
超出相机审查范围，否则

下图演示了关键点标注的示例，其中实心标记为可见点，空心标记为遮挡点。相机之外的查看点不会显示。

使用 AWS 服务构建主动学习管道以自动注释图像 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

基于标准 OKS 根据 MS-COCO 数据集上的定义，我们的方法能够在未见过的测试数据集上实现 50% 的 mAP_98.4。在可见性方面，该方法在同一数据集上的分类准确率达到 79.2%。

人类标签和再培训

尽管模型在测试数据上取得了很好的性能，但在新的现实数据上仍然有可能出错。人工标记是通过再训练纠正这些错误以增强模型性能的过程。我们设计了一个判断函数，结合机器学习模型输出的置信度值来判断所有头部边界框或关键点的输出。我们使用最终分数来识别这些错误以及由此产生的不良标记图像，这些图像需要发送到人工标记过程。

除了不良标记图像之外，还会随机选择一小部分图像进行人工标记。这些人工标记的图像被添加到当前版本的训练集中进行重新训练，从而增强模型性能和整体注释准确性。

在实现中，我们使用 SageMaker Ground Truth 进行人类标签过程。 SageMaker Ground Truth 为数据标记提供了用户友好且直观的 UI。以下屏幕截图演示了用于头部边界框注释的 SageMaker Ground Truth 标记作业。

使用 AWS 服务构建主动学习管道以自动注释图像 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

以下屏幕截图演示了用于关键点注释的 SageMaker Ground Truth 标记作业。

使用 AWS 服务构建主动学习管道以自动注释图像 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

成本、速度和可重用性

与人工标记相比，成本和速度是使用我们的解决方案的主要优势，如下表所示。我们使用这些表格来表示成本节省和速度加快。使用加速的GPU SageMaker实例ml.g4dn.xlarge，100,000万张图像的全生命周期训练和推理成本比人工标注成本低99%，而速度比人工标注快10-10,000倍，具体取决于任务。

第一个表总结了成本绩效指标。

型号	mAP_50 基于 1,128 个测试图像	基于100,000万张图像的训练成本	基于 100,000 张图像的推理成本	与人工注释相比，成本降低	基于 100,000 张图像的推理时间	与人工注释相比，时间加速
重新识别头部边界框	0.949	$4	$22	99％少	5.5小时	一年中的
Yolo 要点	0.984	$27.20	* 10美元	99.9％少	分钟	周

下表总结了性能指标。

注释任务	mAP_50 (%)	培训费用（美元）	推理成本（$）	推理时间
头部边界框	94.9	4	22	5.5小时
关键点	98.4	27	10	5分钟

此外，我们的解决方案为类似任务提供了可重用性。其他系统（例如高级驾驶员辅助系统 (ADAS) 和车内系统）的摄像头感知开发也可以采用我们的解决方案。

总结

在这篇文章中，我们展示了如何构建主动学习管道，以利用 AWS 服务自动注释舱内图像。我们展示了 ML 的强大功能（使您能够自动化并加快注释过程），以及使用 AWS 服务支持的模型或在 SageMaker 上自定义的模型的框架的灵活性。借助 Amazon S3、SageMaker、Lambda 和 SageMaker Ground Truth，您可以简化数据存储、注释、训练和部署，并实现可重用性，同时显着降低成本。通过实施此解决方案，汽车公司可以使用基于机器学习的高级分析（例如自动图像注释）变得更加敏捷和更具成本效益。

今天就开始并释放 AWS服务和机器学习用于您的汽车舱内传感用例！

作者简介

于彦翔 是亚马逊生成人工智能创新中心的应用科学家。他拥有超过 9 年为工业应用构建人工智能和机器学习解决方案的经验，专门研究生成式人工智能、计算机视觉和时间序列建模。

毛天一 是芝加哥地区 AWS 的应用科学家。他在构建机器学习和深度学习解决方案方面拥有 5 年以上的经验，专注于计算机视觉和具有人类反馈的强化学习。他喜欢与客户合作，了解他们的挑战，并通过使用 AWS 服务创建创新解决方案来解决这些挑战。

肖艳如 是 Amazon Generative AI Innovation Center 的应用科学家，他为客户的实际业务问题构建 AI/ML 解决方案。他曾在多个领域工作过，包括制造业、能源和农业。 Yanru 获得博士学位。拥有奥多明尼恩大学计算机科学博士学位。

保罗·乔治 是一位卓有成就的产品领导者，在汽车技术领域拥有超过 15 年的经验。他擅长领导产品管理、战略、上市和系统工程团队。他在全球孵化并推出了多种新的传感和感知产品。在 AWS，他负责领导自动驾驶车辆工作负载的战略和市场推广工作。

钟卡罗琳 是 Veoneer（被 Magna International 收购）的工程经理，她拥有超过 14 年的传感和感知系统开发经验。她目前在麦格纳国际领导内部传感预开发项目，管理着一支由计算视觉工程师和数据科学家组成的团队。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/build-an-active-learning-pipeline-for-automatic-annotation-of-images-with-aws-services/

时间戳记： 2024 年 4 月 10 日

时间戳记： 2022 年 12 月 16 日

由柏拉图重新发布

使用两阶段 Amazon Rekognition 自定义标签模型检测高分辨率图像中的缺陷 | 亚马逊网络服务

Amazon Comprehend 自动化 PDF 预标记 | 亚马逊网络服务

将 Github 示例与 Amazon SageMaker Data Wrangler 结合使用

使用 IMDb 知识图进行强力推荐和搜索——第 1 部分

在 Amazon SageMaker 中使用合成数据增强欺诈交易

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

解决方案概述

模型部署

模型训练

头部边界框注释

关键点标注

人类标签和再培训

成本、速度和可重用性

总结

作者简介

更多来自 AWS机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理