通过使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能的新内置接口,更快地获取生产级数据。 垂直搜索。 哎呀。

通过将新的内置接口与 Amazon SageMaker Ground Truth Plus 结合使用,更快地获取生产级数据

在 AWS re:Invent 2021 上推出, 亚马逊 SageMaker Ground Truth Plus 通过消除与构建数据标签应用程序和管理标签劳动力相关的无差别繁重工作,帮助您创建高质量的训练数据集。 您所做的只是共享数据和标签要求,而 Ground Truth Plus 会根据这些要求设置和管理您的数据标签工作流程。 从那里,受过各种机器学习 (ML) 任务培训的专家团队会标记您的数据。 您甚至不需要深入的 ML 专业知识或工作流程设计和质量管理知识来使用 Ground Truth Plus。

今天,我们很高兴地宣布在 Ground Truth Plus 上推出新的内置界面。 有了这个新功能,多个 Ground Truth Plus 用户现在可以创建一个新的 项目 和 批量、共享数据以及通过自助服务界面使用同一个 AWS 账户接收数据。 这使您能够通过减少项目设置时间来加速高质量训练数据集的开发。 此外,您可以通过确定您的范围来控制对数据的细粒度访问 AWS身份和访问管理 (IAM) 角色权限以匹配您的个人级别 亚马逊简单存储服务 (Amazon S3) 访问权限,并且您始终可以选择撤销对某些存储桶的访问权限。

到目前为止,您必须联系您的 Ground Truth Plus 运营项目经理 (OPM) 才能创建新的数据标签 项目批次. 这个过程有一些限制,因为它只允许一个用户请求一个新的项目和批次——如果组织内的多个用户使用同一个 AWS 账户,那么只有一个用户可以使用 Ground Truth Plus 请求一个新的数据标记项目和批次安慰。 此外,由于存在多个手动接触点和出现问题时需要进行故障排除,因此该过程在启动标签过程时造成了人为延迟。 另外,所有项目都使用相同的 IAM 角色来访问数据。 因此,要运行需要访问不同数据源(例如不同的 Amazon S3 存储桶)的项目和批次,您必须依靠您的 Ground Truth Plus OPM 来提供您的账户特定的 S3 策略,您必须手动将其应用到您的 S3 存储桶。 整个操作是人工密集型操作,导致操作开销。

这篇文章将引导您完成使用新的自助服务界面创建新项目和批处理、共享数据和接收数据的步骤,以高效地启动标记过程。 这篇文章假设您熟悉 Ground Truth Plus。 有关详细信息,请参阅 Amazon SageMaker Ground Truth Plus – 无需代码或内部资源即可创建训练数据集.

解决方案概述

我们演示如何执行以下操作:

  • 更新现有项目
  • 请求一个新项目
  • 成立项目团队
  • 创建批次

先决条件

在开始之前,请确保您具备以下先决条件:

更新现有项目

如果您在发布本文中描述的新功能之前(9 年 2022 月 XNUMX 日)有一个 Ground Truth Plus 项目,那么您需要创建并共享一个 IAM 角色,以便您可以将这些功能用于现有的 Ground Truth Plus 项目. 如果您是 Ground Truth Plus 的新用户,则可以跳过此部分。

要创建 IAM 角色,请完成以下步骤:

  1. 在IAM控制台上,选择 创建角色.
  2. 选择 自定义信任策略.
  3. 为角色指定以下信任关系:
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Effect": "Allow",
                "Principal": {
                    "Service": 
                        "sagemaker-ground-truth-plus.amazonaws.com"
                },
                "Action": "sts:AssumeRole"
            }
        ]
    }

  4. 下一页.
  5. 建立政策.
  6. 在 JSON 选项卡上,指定以下策略。 通过为每个存储桶指定两个条目来更新 Resource 属性:一个仅包含存储桶 ARN,另一个包含存储桶 ARN,后跟 /*. 例如,替换 arn:aws:s3:::my-bucket/myprefix//* arn:aws:s3:::my-bucket/myprefix/*.
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Effect": "Allow",
                "Action": [
                    "s3:GetObject",
                    "s3:PutObject",
                    "s3:GetBucketLocation",
                    "s3:ListBucket"
                ],
         "Resource": [
                    "",
                    "/*",
                    "",
                    "/*"
                ]
            }
        ]
    }

  7. 下一页:标签下一篇:复习.
  8. 输入策略名称和可选描述。
  9. 建立政策.
  10. 关闭此选项卡并返回到上一个选项卡以创建您的角色。

在“添加权限”选项卡上,您应该会看到您创建的新策略(如果看不到,请刷新页面)。

  1. 选择新创建的策略并选择 下一页.
  2. 输入名称(例如, GTPlusExecutionRole) 和可选的角色描述。
  3. 创建角色.
  4. 将角色 ARN 提供给您的 Ground Truth Plus OPM,然后他们将使用这个新创建的角色更新您的现有项目。

请求一个新项目

要申请新项目,请完成以下步骤:

  1. 点击 Ground Truth Plus 控制台,导航到 项目 部分。

这是列出所有项目的地方。

  1. 请求项目.

请求项目 页面是您提供详细信息的机会,这些详细信息将帮助我们安排初步咨询电话并设置您的项目。

  1. 除了指定项目名称和描述等一般信息外,您还必须指定项目的任务类型以及它是否包含个人身份信息 (PII)。

要标记您的数据,Ground Truth Plus 需要临时访问 S3 存储桶中的原始数据。 标记过程完成后,Ground Truth Plus 会将标记输出传送回您的 S3 存储桶。 这是通过 IAM 角色完成的。 您可以创建一个新角色,也可以导航到 IAM 控制台以创建一个新角色(有关说明,请参阅上一节)。

  1. 如果您选择创建角色,请选择 输入自定义IAM角色ARN 并输入您的 IAM 角色 ARN,其格式为 arn:aws:iam:::role/.
  2. 要使用内置工具,请在下拉菜单中 IAM角色,选择 创建一个新角色.
  3. 指定标签数据的存储桶位置。 如果您不知道标签数据的位置或者您没有上传任何标签数据,请选择 任何S3存储桶,这将使 Ground Truth Plus 能够访问您帐户的所有存储桶。
  4. 创建 创建角色。

您的 IAM 角色将允许 Ground Truth Plus,标识为 sagemaker-ground-truth-plus.amazonaws.com 在角色的 信托政策, 在您的 S3 存储桶上运行以下操作:

[
    "s3:GetObject",
    "s3:PutObject",
    "s3:GetBucketLocation",
    "s3:ListBucket"
]

  1. 请求项目 完成请求。

Ground Truth Plus OPM 将安排与您进行初步咨询电话,讨论您的数据标签项目要求和定价。

成立项目团队

请求项目后,您需要创建一个项目团队以登录到您的项目门户。 项目团队提供对您组织或团队成员的访问权限,以跟踪项目、查看指标和审查标签。 您可以使用该选项 通过电子邮件邀请新成员 or 从现有的导入成员 亚马逊Cognito 用户组. 在这篇文章中,我们展示了如何从现有的导入成员 亚马逊Cognito 用户组将用户添加到您的项目团队。

  1. 点击 Ground Truth Plus 控制台,导航到 项目团队 部分。
  2. 创建项目团队。
  3. 从现有 Amazon Cognito 用户组导入成员。
  4. 选择一个 Amazon Cognito 用户池。

用户池需要一个域和一个现有的用户组。

  1. 选择一个应用程序客户端。

我们建议使用由 亚马逊SageMaker.

  1. 从您的池中选择一个用户组以导入成员。
  2. 创建项目团队.
    通过使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能的新内置接口,更快地获取生产级数据。 垂直搜索。 哎呀。

创建项目团队后,您可以通过选择添加更多团队成员 邀请新成员 成员 Ground Truth Plus 控制台的页面。

创建批次

成功提交项目请求并创建项目团队后,您可以通过单击访问 Ground Truth Plus 项目门户 打开项目门户 在 Ground Truth Plus 控制台上。

您可以使用项目门户为项目创建批次,但只能在项目状态更改为 Request approved.

  1. 通过选择项目名称查看项目的详细信息和批次。
    通过使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能的新内置接口,更快地获取生产级数据。 垂直搜索。 哎呀。将打开一个以项目名称为标题的页面。
  2. 部分中,选择 创建批次.
    通过使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能的新内置接口,更快地获取生产级数据。 垂直搜索。 哎呀。
  3. 输入批次名称和可选描述。
  4. 输入输入和输出数据集的 S3 位置。

为确保批次创建成功,您必须满足以下要求:

    • S3 bucket和prefix应该存在,文件总数应该大于0
    • 对象总数应小于 10,000
    • 每个对象的大小应小于 2 GB
    • 所有对象的总大小加起来小于 100 GB
    • 提供用于创建项目的 IAM 角色有权访问用于创建批次的输入存储桶、输出存储桶和 S3 文件
    • 输入数据集所提供的 S3 位置下的文件不应由 AWS密钥管理服务 (AWS 知识管理系统)
  1. 提交.

通过使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能的新内置接口,更快地获取生产级数据。 垂直搜索。 哎呀。

您的批次状态将显示为 Request submitted. 在 Ground Truth Plus 临时访问您的数据后,AWS 专家将设置数据标记工作流程并代您操作,这会将批处理状态更改为 In-progress. 贴标完成后,批次状态从 In-progressReady for review. 如果您想在收到标签之前查看标签,请选择 审核批次。 从那里,您可以选择 接受批次 接收您的标记数据。

结论

这篇博文向您展示了多个 Ground Truth Plus 用户现在如何通过新的自助服务界面使用同一个 AWS 账户创建新项目并批处理、共享数据和接收数据。 这项新功能使您能够更快地启动标签项目并减少运营开销。 我们还演示了如何通过确定 IAM 角色权限的范围以匹配您的个人访问级别来控制对数据的细粒度访问。

我们鼓励您尝试这个新功能,并与 机器学习和人工智能社区 如果您有任何问题或反馈!


关于作者

通过使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能的新内置接口,更快地获取生产级数据。 垂直搜索。 哎呀。马尼什·戈尔 是 Amazon SageMaker Ground Truth Plus 的产品经理。 他专注于构建让客户更容易采用机器学习的产品。 在业余时间,他喜欢公路旅行和读书。

通过使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能的新内置接口,更快地获取生产级数据。 垂直搜索。 哎呀。卡尔提克·甘杜里 是 Amazon AWS 的软件开发工程师,致力于为客户和内部解决方案构建 ML 工具。 工作之余,他喜欢点击图片。  

通过使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能的新内置接口,更快地获取生产级数据。 垂直搜索。 哎呀。白珠玲 是 Amazon AWS 的一名软件开发工程师。 她致力于开发大型分布式系统来解决机器学习问题。

通过使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能的新内置接口,更快地获取生产级数据。 垂直搜索。 哎呀。阿特夫·巴兰西 是亚马逊 AWS 的前端工程师。 他编写快速、可靠且经过全面测试的软件来培育和发展行业最前沿的 AI 应用程序。

通过使用 Amazon SageMaker Ground Truth Plus PlatoBlockchain 数据智能的新内置接口,更快地获取生产级数据。 垂直搜索。 哎呀。穆罕默德·阿德南(Mohammad Adnan) 是 AWS 的 AI 和 ML 高级工程师。 他参与了许多 AWS 服务的发布,特别是 Amazon Lookout for Metrics 和 AWS Panorama。 目前,他专注于 AWS 人在环路产品(AWS SageMaker 的 Ground truth、Ground truth plus 和 Augmented AI)。 他是一名干净的代码倡导者,也是无服务器和事件驱动架构方面的主题专家。 你可以在 LinkedIn 上关注他,mohammad-adnan-6a99a829。

时间戳记:

更多来自 AWS机器学习