Snapper 为像素完美图像对象检测提供机器学习辅助标记

Snapper 为像素完美图像对象检测提供机器学习辅助标记

边界框注释是一项耗时且乏味的任务,需要注释者创建紧密贴合对象边界的注释。 例如,边界框注释任务需要注释者确保注释对象的所有边缘都包含在注释中。 实际上,创建精确且与对象边缘对齐的注释是一个费力的过程。

在本文中,我们介绍了一种名为 Snapper 的新型交互式工具,该工具由机器学习 (ML) 模型提供支持,可减少注释者所需的工作量。 Snapper 工具会自动调整嘈杂的注释,从而减少以高质量级别注释数据所需的时间。

快照程序概述

Snapper 是一个交互式智能系统,可以实时自动将对象注释“捕捉”到基于图像的对象。 借助 Snapper,注释者通过绘制框来放置边界框注释,然后立即看到对其边界框的自动调整,以更好地适应边界对象。

Snapper 系统由两个子系统组成。 第一个子系统是一个前端 ReactJS 组件,它拦截与注释相关的鼠标事件并处理模型预测的呈现。 我们将这个前端与我们的 亚马逊SageMaker地面真相 注释用户界面。 第二个子系统由模型后端组成,它接收来自前端客户端的请求,将请求路由到 ML 模型以生成调整后的边界框坐标,并将数据发送回客户端。

Snapper 提供机器学习辅助标记,用于像素完美的图像对象检测 PlatoBlockchain 数据智能。垂直搜索。人工智能。

为注释器优化的 ML 模型

近年来,计算机视觉界提出了大量高性能目标检测模型。 然而,这些最先进的模型通常针对非制导物体检测进行了优化。 为了促进 Snapper 用于调整用户注释的“捕捉”功能,我们模型的输入是由注释器提供的初始边界框,它可以用作对象存在的标记。 此外,由于系统没有旨在支持的预期对象类,因此 Snapper 的调整模型应该与对象无关,以便系统在一系列对象类上表现良好。

通常,这些要求与典型 ML 对象检测模型的用例有很大不同。 我们注意到,传统的目标检测问题被表述为“检测目标中心,然后回归维度”。 这是违反直觉的,因为边界框边缘的准确预测关键依赖于首先找到准确的框中心,然后尝试建立到边缘的标量距离。 此外,它没有提供关注边缘位置不确定性的良好置信度估计,因为只有分类器分数可供使用。

为了让我们的 Snapper 模型能够调整用户的注释,我们设计并实现了一个为边界框调整定制的 ML 模型。 作为输入,模型采用图像和相应的边界框注释。 该模型使用卷积神经网络从图像中提取特征。 在特征提取之后,定向空间池被应用于每个维度以聚合识别适当边缘位置所需的信息。

我们将边界框的位置预测制定为不同位置的分类问题。 在看到整个对象时,我们要求机器直接在每个像素的位置推理是否存在边缘作为分类任务。 这提高了准确性,因为每个边缘的推理都使用来自直接局部邻域的图像特征。 此外,该方案解耦了不同边缘之间的推理,这可以防止明确的边缘位置受到不确定边缘位置的影响。 此外,它为我们提供了边缘直观的置信度估计,因为我们的模型独立地考虑对象的每个边缘(就像人类注释者那样)并为每个边缘的位置提供可解释的分布(或不确定性估计)。 这使我们能够突出显示不太自信的边缘,以进行更高效和精确的人工审查。

基准测试和评估 Snapper 工具

在实践中,我们发现 Snapper 工具简化了边界框标注任务,并且用户上手起来非常直观。 我们还对 Snapper 进行了定量分析,以客观地描述该工具的特征。 我们使用一种对象检测模型的评估标准评估了 Snapper 的调整模型,该模型采用两种措施来检查有效性:并集交集 (IoU) 以及边角偏差。 IoU 通过将注释的重叠区域除以注释的联合区域来计算两个注释之间的对齐,产生一个范围为 0-1 的度量。 边缘偏差和角点偏差是通过将边缘和角点偏离地面真实值的像素值的分数来计算的。

为了评估 Snapper,我们通过随机调整 COCO 地面实况边界框与抖动坐标。 我们添加抖动的过程首先将边界框的中心移动每个轴上相应边界框尺寸的 10%,然后通过 0.9-1.1 之间的随机采样比率重新调整边界框的尺寸。 在这里,我们将这些指标应用于官方的验证集 MS-COCO 数据集 用于训练。 我们专门计算了 IoU 超过 90% 的边界框的比例,以及边缘偏差和角偏差与相应地面实况的偏差小于一或三个像素的比例。 下表总结了我们的发现。

Snapper 提供机器学习辅助标记,用于像素完美的图像对象检测 PlatoBlockchain 数据智能。垂直搜索。人工智能。

如上表所示,Snapper 的调整模型显着改善了三个指标中每个指标的两个噪声数据源。 强调高精度注释,我们观察到将 Snapper 应用于抖动的 MS COCO 数据集会使 IoU 超过 90% 的边界框的比例增加 40% 以上。

结论

在本文中,我们介绍了一种新的 ML 支持的注释工具,称为 Snapper。 Snapper 由一个 SageMaker 模型后端和一个我们集成到 Ground Truth 标签 UI 中的前端组件组成。 我们在模拟的嘈杂边界框注释上评估了 Snapper,发现它可以成功地改进不完美的边界框。 在标记任务中使用 Snapper 可以显着降低成本并提高准确性。

要了解更多信息,请访问: Amazon SageMaker 数据标签 并安排今天的咨询。


关于作者

Snapper 提供机器学习辅助标记,用于像素完美的图像对象检测 PlatoBlockchain 数据智能。垂直搜索。人工智能。乔纳森·巴克 是 Amazon Web Services 的一名软件工程师,致力于机器学习和分布式系统的交叉领域。 他的工作涉及生产机器学习模型和开发由机器学习支持的新颖软件应用程序,以将最新功能提供给客户。

Snapper 提供机器学习辅助标记,用于像素完美的图像对象检测 PlatoBlockchain 数据智能。垂直搜索。人工智能。亚历克斯·威廉姆斯 是 AWS AI 人机交互科学团队的应用科学家,他在人机交互 (HCI) 和机器学习的交叉领域进行交互系统研究。 在加入亚马逊之前,他是田纳西大学电气工程和计算机科学系的教授,在那里他共同领导了人员、代理、交互和系统 (PAIRS) 研究实验室。 他还在 Microsoft Research、Mozilla Research 和牛津大学担任研究职位。 他定期在 prem 上发表他的作品

Snapper 提供机器学习辅助标记,用于像素完美的图像对象检测 PlatoBlockchain 数据智能。垂直搜索。人工智能。民白 是 AWS 的应用科学家,目前专攻 2D / 3D 计算机视觉,专注于自动驾驶和用户友好型 AI 工具领域。 工作之余,他喜欢探索大自然,尤其是在人迹罕至的地方。

Snapper 提供机器学习辅助标记,用于像素完美的图像对象检测 PlatoBlockchain 数据智能。垂直搜索。人工智能。库马尔切拉皮拉 是 Amazon Web Services 的总经理兼总监,领导 ML/AI 服务的开发,例如人在回路系统、AI DevOps、地理空间 ML 和 ADAS/自动驾驶汽车开发。 在加入 AWS 之前,Kumar 是 Uber ATG 和 Lyft Level 5 的工程总监,并领导团队使用机器学习开发自动驾驶功能,例如感知和映射。 他还致力于应用机器学习技术改进 LinkedIn、Twitter、Bing 和 Microsoft Research 的搜索、推荐和广告产品。

Snapper 提供机器学习辅助标记,用于像素完美的图像对象检测 PlatoBlockchain 数据智能。垂直搜索。人工智能。帕特里克·哈夫纳 是 AWS Sagemaker Ground Truth 团队的首席应用科学家。 自 1995 年以来,他一直致力于人在回路优化,当时他将 LeNet 卷积神经网络应用于支票识别。 他对将 ML 算法和标签 UI 一起优化以最小化标签成本的整体方法感兴趣。

Snapper 提供机器学习辅助标记,用于像素完美的图像对象检测 PlatoBlockchain 数据智能。垂直搜索。人工智能。李二然 是亚马逊 AWS 人工智能 humain-in-the-loop 服务的应用科学经理。 他的研究兴趣是 3D 深度学习,以及视觉和语言表征学习。 曾任Alexa AI资深科学家、Scale AI机器学习负责人、小马智行首席科学家。 在此之前,他在 Uber ATG 的感知团队和 Uber 的机器学习平台团队工作,致力于自动驾驶的机器学习、机器学习系统和 AI 的战略计划。 他在贝尔实验室开始了他的职业生涯,并在哥伦比亚大学担任兼职教授。 他在 ICML'17 和 ICCV'19 共同教授教程,并在 NeurIPS、ICML、CVPR、ICCV 共同组织了多个关于自动驾驶机器学习、3D 视觉和机器人、机器学习系统和对抗性机器学习的研讨会。 他拥有康奈尔大学计算机科学博士学位。 他是 ACM 院士和 IEEE 院士。

时间戳记:

更多来自 AWS机器学习