Amazon SageMaker Ground Truth Plus 中的几次点击分割掩码标记

Amazon SageMaker Ground Truth Plus 中的几次点击分割掩码标记

亚马逊 SageMaker Ground Truth Plus 是一种托管数据标记服务,可以轻松地为机器学习 (ML) 应用程序标记数据。 一个常见的用例是语义分割,这是一种计算机视觉 ML 技术,涉及将类别标签分配给图像中的各个像素。 例如,在移动车辆捕获的视频帧中,类别标签可以包括车辆、行人、道路、交通信号、建筑物或背景。 它提供了对图像中不同物体位置的高精度理解,通常用于构建自动驾驶汽车或机器人的感知系统。 要建立用于语义分割的 ML 模型,首先需要在像素级别标记大量数据。 这个贴标签的过程很复杂。 它需要熟练的标记人员和大量时间——一些图像可能需要长达 2 小时或更长时间才能准确标记!

2019年, 我们发布了一个基于 ML 的交互式标记工具,称为 Auto-segment for Ground Truth 这使您可以快速轻松地创建高质量的分割蒙版。 有关详细信息,请参阅 自动分割工具. 此功能的工作原理是允许您单击对象的顶部、左侧、底部和最右侧的“极值点”。 在后台运行的 ML 模型将接收此用户输入并返回高质量的分割掩码,该掩码会立即在 Ground Truth 标记工具中呈现。 但是,此功能只允许您进行四次点击。 在某些情况下,ML 生成的蒙版可能会无意中遗漏图像的某些部分,例如边缘模糊的对象边界周围,或者颜色、饱和度或阴影融入周围环境的地方。

具有灵活数量的校正点击的极点点击

我们现在增强了该工具,允许额外点击边界点,从而为 ML 模型提供实时反馈。 这使您可以创建更准确的分割掩码。 在以下示例中,由于阴影附近的边界较弱,初始分割结果不准确。 重要的是,该工具以允许实时反馈的模式运行——它不需要您一次指定所有点。 相反,您可以先点击四次鼠标,这将触发 ML 模型生成分割掩码。 然后,您可以检查此遮罩,找到任何潜在的不准确之处,然后适当地进行额外的点击以将模型“微调”到正确的结果。

Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能中的几次点击分段掩码标签。垂直搜索。人工智能。

我们之前的标签工具允许您准确放置四次鼠标点击(红点)。 由于阴影附近的边界较弱(红色遮罩的左下角),初始分割结果(红色阴影区域)不准确。

使用我们增强的标记工具,用户再次首先点击鼠标四次(上图中的红点)。 然后您有机会检查生成的分割蒙版(上图中的红色阴影区域)。 您可以进行额外的鼠标点击(下图中的绿点)以使模型细化遮罩(下图中的红色阴影区域)。

Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能中的几次点击分段掩码标签。垂直搜索。人工智能。

与该工具的原始版本相比,增强版在对象可变形、非凸面以及形状和外观变化时提供了改进的结果。

我们通过首先运行基线工具(仅四次极端点击)来模拟此改进工具在样本数据上的性能以生成分割掩码并评估其平均交集超过并集(mIoU),分割掩码的准确性的常用度量。 然后我们应用模拟校正点击并评估每次模拟点击后 mIoU 的改进。 下表总结了这些结果。 第一行显示 mIoU,第二行显示误差(由 100% 减去 mIoU 给出)。 只需额外点击五次鼠标,我们就可以将此任务的错误减少 9%!

. . 更正点击次数 .
. 底线 1 2 3 4 5
单位 72.72 76.56 77.62 78.89 80.57 81.73
误差 27% 23% 22% 21% 19% 18%

与 Ground Truth 和性能分析集成

为了将此模型与 Ground Truth 集成,我们遵循如下图所示的标准架构模式。 首先,我们将 ML 模型构建成 Docker 镜像并将其部署到 Amazon Elastic Container注册 (Amazon ECR),一个完全托管的 Docker 容器注册表,可以轻松存储、共享和部署容器映像。 使用 SageMaker 推理工具包 在构建 Docker 镜像时,我们可以轻松地使用模型服务的最佳实践并实现低延迟推理。 然后我们创建一个 亚马逊SageMaker 托管模型的实时端点。 我们介绍一个 AWS Lambda 作为 SageMaker 端点前面的代理,提供各种类型的数据转换。 最后,我们使用 Amazon API网关 作为与我们的前端 Ground Truth 标签应用程序集成的一种方式,为我们的后端提供安全身份验证。

Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能中的几次点击分段掩码标签。垂直搜索。人工智能。

您可以针对自己的用例使用这种通用模式来构建专门构建的 ML 工具,并将它们与自定义 Ground Truth 任务 UI 集成。 有关详细信息,请参阅 使用Amazon SageMaker Ground Truth构建自定义数据标签工作流程.

在配置此架构并使用以下方法部署我们的模型之后 AWS云开发套件 (AWS CDK),我们使用不同的 SageMaker 实例类型评估了模型的延迟特性。 这非常简单,因为我们使用 SageMaker 实时推理端点来为我们的模型提供服务。 SageMaker 实时推理端点与 亚马逊CloudWatch 并在无需设置的情况下发出内存利用率和模型延迟等指标(请参阅 SageMaker 端点调用指标 更多细节)。

在下图中,我们显示了 SageMaker 实时推理端点本机发出的 ModelLatency 指标。 我们可以轻松地使用 CloudWatch 中的各种指标数学函数来显示延迟百分比,例如 p50 或 p90 延迟。

Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能中的几次点击分段掩码标签。垂直搜索。人工智能。

下表总结了我们用于三种实例类型的语义分割的增强型极端点击工具的这些结果:p2.xlarge、p3.2xlarge 和 g4dn.xlarge。 虽然 p3.2xlarge 实例提供最低延迟,但 g4dn.xlarge 实例提供最佳性价比。 g4dn.xlarge 实例仅比 p8xlarge 实例慢 35%(3.2 毫秒),但按小时计,它比 p81xlarge 实例便宜 3.2%(请参阅 Amazon SageMaker定价 有关 SageMaker 实例类型和定价的更多详细信息)。

SageMaker 实例类型 p90 延迟(毫秒)
1 p2.xlarge 751
2 p3.2x大 424
3 g4dn.xlarge 459

结论

在这篇文章中,我们介绍了用于语义分割注释任务的 Ground Truth 自动分割功能的扩展。 虽然该工具的原始版本允许您恰好点击四次鼠标,从而触发模型提供高质量的分割掩码,但扩展使您能够进行纠正点击,从而更新和指导 ML 模型做出更好的预测。 我们还介绍了一种基本架构模式,您可以使用该模式将交互式工具部署和集成到 Ground Truth 标签 UI 中。 最后,我们总结了模型延迟,并展示了使用 SageMaker 实时推理端点如何轻松监控模型性能。

要了解有关此工具如何降低标记成本并提高准确性的更多信息,请访问 Amazon SageMaker 数据标签 今天开始咨询。


关于作者

Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能中的几次点击分段掩码标签。垂直搜索。人工智能。乔纳森·巴克 是 Amazon Web Services 的一名软件工程师,致力于机器学习和分布式系统的交叉领域。 他的工作涉及生产机器学习模型和开发由机器学习支持的新颖软件应用程序,以将最新功能提供给客户。

Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能中的几次点击分段掩码标签。垂直搜索。人工智能。李二然 是亚马逊 AWS 人工智能 humain-in-the-loop 服务的应用科学经理。 他的研究兴趣是 3D 深度学习,以及视觉和语言表征学习。 曾任Alexa AI资深科学家、Scale AI机器学习负责人、小马智行首席科学家。 在此之前,他在 Uber ATG 的感知团队和 Uber 的机器学习平台团队工作,致力于自动驾驶的机器学习、机器学习系统和 AI 的战略计划。 他在贝尔实验室开始了他的职业生涯,并在哥伦比亚大学担任兼职教授。 他在 ICML'17 和 ICCV'19 共同教授教程,并在 NeurIPS、ICML、CVPR、ICCV 共同组织了多个关于自动驾驶机器学习、3D 视觉和机器人、机器学习系统和对抗性机器学习的研讨会。 他拥有康奈尔大学计算机科学博士学位。 他是 ACM 院士和 IEEE 院士。

时间戳记:

更多来自 AWS机器学习