使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。

使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus 创建高质量的训练数据集

在 AWS re:Invent 2021 上推出, 亚马逊 SageMaker Ground Truth Plus 通过消除与构建数据标签应用程序和管理标签劳动力相关的无差别繁重工作,帮助您创建高质量的训练数据集。 您所做的只是共享数据和标签要求,而 Ground Truth Plus 会根据这些要求设置和管理您的数据标签工作流程。 从那里,受过各种机器学习 (ML) 任务培训的专家团队执行数据标记。 您甚至不需要深入的 ML 专业知识或工作流程设计和质量管理知识来使用 Ground Truth Plus。

为您的 ML 算法构建高质量的训练数据集是一个迭代过程。 ML 从业者经常构建自定义系统来检查数据标签,因为准确标记的数据对于 ML 模型质量至关重要。 为确保您获得高质量的训练数据,Ground Truth Plus 为您提供了一个内置的用户界面(Review UI)来检查数据标签的质量并提供对数据标签的反馈,直到您对标签准确地表示满意为止ground truth,或者在现实世界中可以直接观察到的东西。

这篇文章将引导您完成创建项目团队的步骤,并使用 Review UI 工具的几个新内置功能来高效地完成对标记数据集的检查。 本演练假定您有一个活动的 Ground Truth Plus 标记项目。 有关详细信息,请参阅 Amazon SageMaker Ground Truth Plus – 无需代码或内部资源即可创建训练数据集.

成立项目团队

项目团队向您组织的成员提供访问权限,以使用审阅 UI 工具检查数据标签。 要建立项目团队,请完成以下步骤:

  1. 在地面真相加 领事,选择 创建项目团队.
  2. 选择 创建新的 Amazon Cognito 用户组 . 如果您已经有一个现有的 亚马逊Cognito 用户组,选择 导入成员 选项。
  3. 针对 Amazon Cognito 用户组名称, 输入名称。 此名称无法更改。
  4. 针对 电子邮件地址, 输入最多 50 个团队成员的电子邮件地址,以逗号分隔。
  5. 创建项目团队.

使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。

您的团队成员将收到一封电子邮件,邀请他们加入 Ground Truth Plus 项目团队。 从那里,他们可以登录到 Ground Truth Plus 项目门户以查看数据标签。

检查标记的数据集质量

现在让我们深入研究一个视频对象跟踪示例,使用 CBCL 街景 数据集。

在您的批次中的数据被标记后,该批次被标记为 准备审核.

使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。

选择批次并选择 审核批次. 您将被重定向到审阅 UI。 您可以灵活地为您审查的每个批次选择不同的采样率。 例如,在我们的示例批次中,我们共有五个视频。 您可以指定是只查看这五个视频的一部分还是全部。

现在让我们看看 Review UI 中的不同功能,它们将帮助您以更快的速度检查标记数据集的质量,并提供有关质量的反馈:

  • 根据标签类别过滤标签 – 在 Review UI 的右侧窗格中,您可以根据标签类别过滤标签。 当有多个标签类别时(例如, Vehicles, PedestriansPoles) 在一个密集的数据集对象中,并且您希望一次查看一个标签类别的标签。 例如,让我们关注 Car 标签类别。 输入 Car 右窗格中的标签类别以过滤仅类型的所有注释 Car. 以下屏幕截图显示了应用过滤器之前和之后的 Review UI 视图。
    使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。 使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。
  • 覆盖关联的注释属性值 – 可以为每个标签分配要注释的属性。 例如,对于标签类别 Car ,说你想要求工人也注释 Color  和 Occlusion 每个标签实例的属性。 加载 Review UI 时,您将在右侧窗格的每个标签实例下看到相应的属性。 但是如果你想直接在图像上看到这些属性注释怎么办? 您选择标签 Car:1 ,并覆盖属性注释 Car:1 ,你按 Ctrl +A。
    现在你会看到注释 Dark Blue 等加工。为 Color 属性和注解 None 等加工。为 Occlusion 属性直接显示在图像旁边 Car:1 边界框。 现在你可以很容易地验证 Car:1 被标记为 Dark Blue,没有遮挡,仅仅通过查看图像而不是必须定位 Car:1 在右窗格中查看属性注释。
    使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。
  • 在标签级别留下反馈 – 对于每个标签,您可以在该标签的标签级别留下反馈 标签反馈 自由字符串属性。 例如,在这张图片中, Car:1 看起来比深蓝色更黑。 您可以将此差异作为反馈转发给 Car:1 使用 标签反馈 字段来跟踪对该帧上该标签的评论。 我们的内部质量控制团队将审核此反馈并对注释流程和标签政策进行更改,并根据需要培训注释员。
    使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。
  • 在框架级别留下反馈 – 同样,对于每一帧,您可以在该帧的下方留下帧级别的反馈 帧反馈 自由字符串属性。 在这种情况下,注释 Car 和 Pedestrian 在此框架中,类看起来正确且实现良好。 您可以使用 提供反馈意见 字段,并且您的评论链接到此框架。
    使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。
  • 将注释反馈复制到其他框架 – 如果右键单击该属性,则可以将标签级和帧级反馈复制到其他帧。 当您想要为该标签跨帧复制相同的反馈,或将相同的帧级反馈应用于多个帧时,此功能很有用。 此功能可让您快速完成数据标签的检查。
    使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。
  • 批准或拒绝每个数据集对象 – 对于您查看的每个数据集对象,您可以选择 批准 如果您对注释感到满意或选择 拒绝 如果您不满意并希望修改这些注释。 当你选择 提交,您会看到批准或拒绝刚刚审核的视频的选项。 无论哪种情况,您都可以提供额外的评论:
    • 如果您选择 批准, 评论是可选的。
      使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。
    • 如果您选择 拒绝, 评论是必需的,我们建议提供详细的反馈。 您的反馈将由专门的 Ground Truth Plus 质量控制团队审核,他们将采取纠正措施以避免在后续视频中出现类似错误。
      使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。

提交带有反馈的视频后,您将被重定向回项目门户中的项目详细信息页面,您可以在其中查看被拒绝对象的数量 被拒绝的对象 列和错误率,计算为接受的对象在审查对象中的数量 录取率 项目中每个批次的列。 例如,对于以下屏幕截图中的批次 1,接受率为 80%,因为五个审核对象中有四个对象被接受。

使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。

结论

高质量的训练数据集对于实现您的 ML 计划至关重要。 借助 Ground Truth Plus,您现在拥有增强的内置审查 UI 工具,该工具消除了与构建自定义工具相关的无差别繁重工作,以审查标记数据集的质量。 这篇文章向您介绍了如何建立项目团队和使用 Review UI 工具的新内置功能。 参观 Ground Truth Plus 控制台 以开始浏览网页。

与往常一样,AWS欢迎反馈。 请提交任何意见或问题。


关于作者

使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。马尼什·戈尔 是 Amazon SageMaker Ground Truth Plus 的产品经理。 他专注于构建让客户更容易采用机器学习的产品。 在业余时间,他喜欢公路旅行和读书。

使用可视化、无代码工具检查您的数据标签,以使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能创建高质量的训练数据集。 垂直搜索。 哎。雷维卡·科斯托耶娃 是 Amazon AWS 的一名软件开发工程师,她致力于面向客户和内部解决方案,以扩展 Sagemaker Ground Truth 服务的广度和可扩展性。 作为一名研究人员,她致力于改进行业工具以推动创新。

时间戳记:

更多来自 AWS机器学习