通过人工审查和 BI 可视化 PlatoBlockchain Data Intelligence 为智能文档处理定制业务规则。 垂直搜索。 哎。

通过人工审核和 BI 可视化自定义智能文档处理的业务规则

每天都要处理大量跨行业的商业文件。 其中许多文档是纸质文档,以图像或非结构化格式(如 PDF)的形式扫描到您的系统中。 每家公司在处理这些文件时都可以应用与其业务背景相关的独特规则。 如何准确提取信息并灵活处理是许多企业面临的挑战。

Amazon 智能文档处理 (IDP) 允许您利用行业领先的机器学习 (ML) 技术,而无需之前的 ML 经验。 这篇文章介绍了一个包含在 亚马逊 IDP 研讨会 展示如何使用 Amazon AI 服务处理文档以提供灵活的业务规则。 您可以使用以下步骤 Jupyter笔记本 完成实验室。

亚马逊Textract 帮助您轻松地从各种文档中提取文本,以及 亚马逊增强AI (Amazon A2I) 允许您对 ML 预测进行人工审核。 默认的 Amazon A2I 模板允许您根据规则构建人工审核管道,例如当提取置信度分数低于预定义阈值或缺少所需键时。 但在生产环境中,您需要文档处理管道来支持灵活的业务规则,例如验证字符串格式、验证数据类型和范围以及验证跨文档的字段。 这篇文章展示了如何使用 Amazon Textract 和 Amazon A2I 自定义支持灵活业务规则的通用文档处理管道。

解决方案概述

对于我们的示例解决方案,我们使用 税表 990,一种美国 IRS(国税局)表格,向公众提供有关非营利组织的财务信息。 对于这个例子,我们只介绍了表单第一页上一些字段的提取逻辑。 您可以在 美国国税局网站.

下图说明了支持自定义业务规则和人工审查的 IDP 管道。

该架构由三个逻辑阶段组成:

  • 萃取 – 从 990 税表中提取数据(我们以第 1 页为例)。
  • 验证 – 应用灵活的业务规则并进行人工审核。
    • 根据业务规则验证提取的数据,例如验证 ID 字段的长度。
    • 如果有任何业务规则失败,请将文档发送到 Amazon A2I 以供人工审核。
    • 审阅者使用 Amazon A2I UI(一个可定制的网站)来验证提取结果。
  • BI 可视化 - 我们用 亚马逊QuickSight 构建显示流程洞察力的商业智能 (BI) 仪表板。

自定义业务规则

您可以使用以下 JSON 格式定义通用业务规则。 在示例代码中,我们定义了三个规则:

  • 第一条规则适用于雇主 ID 字段。 如果 Amazon Textract 置信度得分低于 99%,则规则失败。 对于这篇文章,我们将置信度得分阈值设置得很高,这将被设计打破。 您可以将阈值调整为更合理的值,以减少现实环境中不必要的人工操作,例如 90%。
  • 第二条规则是针对下游处理逻辑所需的 DLN 字段(税单的唯一标识符)。 如果 DLN 字段缺失或值为空,则此规则失败。
  • 第三条规则也适用于 DLN 字段,但具有不同的条件类型:LengthCheck。 如果 DLN 长度不是 16 个字符,则规则中断。

以下代码以 JSON 格式显示我们的业务规则:

rules = [
    {
        "description": "Employee Id confidence score should greater than 99",
        "field_name": "d.employer_id",
        "field_name_regex": None, # support Regex: "_confidence$",
        "condition_category": "Confidence",
        "condition_type": "ConfidenceThreshold",
        "condition_setting": "99",
    },
    {
        "description": "dln is required",
        "field_name": "dln",
        "condition_category": "Required",
        "condition_type": "Required",
        "condition_setting": None,
    },
    {
        "description": "dln length should be 16",
        "field_name": "dln",
        "condition_category": "LengthCheck",
        "condition_type": "ValueRegex",
        "condition_setting": "^[0-9a-zA-Z]{16}$",
    }
]

您可以通过添加更多遵循相同结构的业务规则来扩展解决方案。

使用 Amazon Texttract 查询提取文本

在示例解决方案中,我们调用 Amazon Textract analyze_document API 询问 通过询问特定问题来提取字段的功能。 您无需了解文档中数据的结构(表格、表单、隐含字段、嵌套数据),也无需担心文档版本和格式之间的差异。 查询使用视觉、空间和语言提示的组合来高精度地提取您寻找的信息。

要提取 DLN 字段的值,您可以发送带有自然语言问题的请求,例如“什么是 DLN?” 如果 Amazon Textract 在图像或文档上找到相应信息,它会返回文本、置信度和其他元数据。 以下是 Amazon Textract 查询请求的示例:

textract.analyze_document(
        Document={'S3Object': {'Bucket': data_bucket, 'Name': s3_key}},
        FeatureTypes=["QUERIES"],
        QueriesConfig={
                'Queries': [
                    {
                        'Text': 'What is the DLN?',
                       'Alias': 'The DLN number - unique identifier of the form'
                    }
               ]
        }
)

定义数据模型

示例解决方案以结构化格式构建数据,以服务于通用业务规则评估。 要保留提取的值,您可以为每个文档页面定义一个数据模型。 下图显示了第 1 页上的文本如何映射到 JSON 字段。自定义数据模型

每个字段代表页面上的文档文本、复选框或表格/表单单元格。 JSON 对象类似于以下代码:

{
    "dln": {
        "value": "93493319020929",
        "confidence": 0.9765, 
        "block": {} 
    },
    "omb_no": {
        "value": "1545-0047",
        "confidence": 0.9435,
        "block": {}
    },
    ...
}

您可以在 中找到详细的 JSON 结构定义 GitHub回购.

根据业务规则评估数据

示例解决方案带有一个 Condition 类 — 一个通用规则引擎,它采用提取的数据(如数据模型中定义)和规则(如自定义业务规则中定义)。 它返回两个具有失败和满足条件的列表。 我们可以使用结果来决定是否应该将文档发送到 Amazon A2I 进行人工审核。

Condition 类源代码在示例中 GitHub回购. 它支持基本的验证逻辑,例如验证字符串的长度、值范围和置信度分数阈值。 您可以修改代码以支持更多条件类型和复杂的验证逻辑。

创建自定义的 Amazon A2I Web UI

Amazon A2I 允许您通过定义一个 工人任务模板. 该模板是 HTML 和 JavaScript 格式的静态网页。 您可以使用 液体肥产线 语法。

在样品溶液中, 自定义 Amazon A2I UI 模板 左侧显示页面,右侧显示故障情况。 审阅者可以使用它来更正提取值并添加他们的评论。

以下屏幕截图显示了我们自定义的 Amazon A2I UI。 它在左侧显示原始图像文档,在右侧显示以下失败条件:

  • DLN 编号的长度应为 16 个字符。 实际的 DLN 有 15 个字符。
  • 雇主 ID 的置信度分数低于 99%。 实际置信度分数约为 98%。

审阅者可以手动验证这些结果并在 更改原因 文本框。定制的 A2I 审核 UI

有关将 Amazon A2I 集成到任何自定义 ML 工作流程的更多信息,请参阅 60 多个 预制的工人模板 在GitHub仓库上 将Amazon Augmented AI与自定义任务类型一起使用.

处理 Amazon A2I 输出

审阅者使用 Amazon A2I 自定义 UI 验证结果并选择后 提交, Amazon A2I 将 JSON 文件存储在 S3 存储桶文件夹中。 JSON 文件包含有关根级别的以下信息:

  • Amazon A2I 流定义 ARN 和人工循环名称
  • 人工回答(由定制的 Amazon A2I UI 收集的审阅者的输入)
  • 输入内容(启动人工循环任务时发送到 Amazon A2I 的原始数据)

以下是 Amazon A2I 生成的示例 JSON:

{
  "flowDefinitionArn": "arn:aws:sagemaker:us-east-1:711334203977:flow-definition/a2i-custom-ui-demo-workflow",
  "humanAnswers": [
    {
      "acceptanceTime": "2022-08-23T15:23:53.488Z",
      "answerContent": {
        "Change Reason 1": "Missing X at the end.",
        "True Value 1": "93493319020929X",
        "True Value 2": "04-3018996"
      },
      "submissionTime": "2022-08-23T15:24:47.991Z",
      "timeSpentInSeconds": 54.503,
      "workerId": "94de99f1bc6324b8",
      "workerMetadata": {
        "identityData": {
          "identityProviderType": "Cognito",
          "issuer": "https://cognito-idp.us-east-1.amazonaws.com/us-east-1_URd6f6sie",
          "sub": "cef8d484-c640-44ea-8369-570cdc132d2d"
        }
      }
    }
  ],
  "humanLoopName": "custom-loop-9b4e67ff-2c9f-40f9-aae5-0e26316c905c",
  "inputContent": {...} # the original input send to A2I when starting the human review task
}

您可以实施提取、转换和加载 (ETL) 逻辑来解析来自 Amazon A2I 输出 JSON 的信息并将其存储在文件或数据库中。 示例解决方案附带一个 CSV文件 处理过的数据。 您可以按照下一节中的说明使用它来构建 BI 仪表板。

在 Amazon QuickSight 中创建控制面板

示例解决方案包括一个报告阶段,其中包含由 Amazon QuickSight 提供的可视化控制面板。 BI 仪表板显示关键指标,例如自动或手动处理的文档数量、需要人工审核的最热门字段以及其他见解。 此仪表板可以帮助您监督文档处理管道并分析导致人工审核的常见原因。 您可以通过进一步减少人工输入来优化工作流程。

示例仪表板包括基本指标。 您可以使用 Amazon QuickSight 扩展解决方案,以显示对数据的更多见解。BI 仪表板

扩展解决方案以支持更多文档和业务规则

要扩展解决方案以支持更多具有相应业务规则的文档页面,您需要进行以下更改:

  • 为 JSON 结构中的新页面创建一个数据模型,表示您要从页面中提取的所有值。 请参阅 定义数据模型 详细格式部分。
  • 使用 Amazon Textract 从文档中提取文本并将值填充到数据模型中。
  • 以 JSON 格式添加页面对应的业务规则。 请参阅 自定义业务规则 详细格式部分。

解决方案中的自定义 Amazon A2I UI 是通用的,无需更改即可支持新的业务规则。

结论

智能文档处理的需求量很大,公司需要定制的管道来支持其独特的业务逻辑。 Amazon A2I 还提供与 Amazon Textract 集成的内置模板,以实施您的人工审核用例。 它还允许您自定义审阅者页面以满足灵活的要求。

这篇文章指导您完成了使用 Amazon Textract 和 Amazon A2I 构建支持灵活业务规则的 IDP 管道的参考解决方案。 您可以使用 Jupyter笔记本 在 GitHub IDP 研讨会存储库中。


关于作者

通过人工审查和 BI 可视化 PlatoBlockchain Data Intelligence 为智能文档处理定制业务规则。 垂直搜索。 哎。张拉娜 是 AWS WWSO AI 服务团队的高级解决方案架构师,在用于智能文档处理和内容审核的 AI 和 ML 方面具有专业知识。 她热衷于推广 AWS AI 服务并帮助客户转变他们的业务解决方案。

通过人工审查和 BI 可视化 PlatoBlockchain Data Intelligence 为智能文档处理定制业务规则。 垂直搜索。 哎。
索纳利萨胡 在 Amazon Web Services 领导智能文档处理 AI/ML 解决方案架构师团队。 她是一个充满激情的技术爱好者,喜欢与客户合作,利用创新解决复杂的问题。 她的核心关注领域是用于智能文档处理的人工智能和机器学习。

时间戳记:

更多来自 AWS机器学习