保险行业中使用 AWS AI 服务进行智能文档处理：第 1 部分

由柏拉图重新发布

关注： 0

智能文档处理 (IDP) 的目标是通过应用 AI 来处理您的文书工作，帮助您的组织做出更快、更准确的决策。这个由两部分组成的系列重点介绍了保险公司可以用来加速其业务流程的 AWS AI 技术。这些人工智能技术可用于保险用例，例如索赔、承保、客户通信、合同或处理争议解决。本系列重点介绍保险行业中的索赔处理用例；有关 AWS IDP 解决方案的基本概念的更多信息，请参阅以下内容两部分系列.

索赔处理由工作流程中的多个检查点组成，这些检查点需要审查、验证真实性并确定裁定索赔的正确财务责任。保险公司在裁定索赔之前会通过这些检查点进行索赔。如果索赔成功通过所有这些检查点而没有问题，保险公司就会批准它并处理任何付款。但是，他们可能需要额外的支持信息来裁定索赔。这种索赔处理过程通常是手动的，成本高、容易出错且耗时。保险客户可以使用 AWS AI 服务自动执行此过程，以自动处理索赔处理的文档处理管道。

在这个由两部分组成的系列中，我们将向您介绍如何使用 AWS AI 服务大规模自动化和智能地处理文档，以处理保险索赔处理用例。

在保险行业使用 AWS AI 和分析服务进行智能文档处理

解决方案概述

下图代表了我们通常在 IDP 管道中看到的每个阶段。我们将逐一介绍这些阶段，以及它们如何与索赔申请流程中涉及的步骤相关联，从提交申请开始，到调查和关闭申请。在这篇文章中，我们将介绍数据捕获、分类和提取阶段的技术细节。在部分2，我们扩展了文档提取阶段，继续丰富文档、审查和验证，并扩展解决方案，为索赔欺诈用例提供分析和可视化。

以下架构图显示了根据索赔处理应用程序的不同阶段在 IDP 管道阶段使用的不同 AWS 服务。

IDP架构图

该解决方案使用以下关键服务：

亚马逊Textract 是一种机器学习 (ML) 服务，可自动从扫描的文档中提取文本、笔迹和数据。它超越了简单的光学字符识别 (OCR) 来识别、理解和从表单和表格中提取数据。 Amazon Textract 使用 ML 读取和处理任何类型的文档，无需手动操作即可准确提取文本、手写内容、表格和其他数据。
亚马逊领悟是一种自然语言处理 (NLP) 服务，它使用机器学习从文本中提取见解。 Amazon Comprehend 可以检测人员、位置、日期、数量等实体。它还可以检测主要语言、个人身份信息 (PII) 信息，并将文档分类为相关类别。
亚马逊增强AI (Amazon A2I) 是一项 ML 服务，可以轻松构建人工审核所需的工作流程。 Amazon A2I 为所有开发人员带来人工审核，消除了与构建人工审核系统或管理大量人工审核员相关的无差别繁重工作。 Amazon A2I 将两者与亚马逊Textract 和亚马逊领悟提供在 IDP 工作流程中引入人工审查或验证的能力。

先决条件

在以下部分中，我们将介绍与架构的前三个阶段相关的不同服务，即数据捕获、分类和提取阶段。

请参阅我们的 GitHub存储库获取完整的代码示例以及声明处理包中的文档示例。

数据采集阶段

索赔及其支持文件可以通过各种渠道获得，例如传真、电子邮件、管理门户等。您可以将这些文档存储在高度可扩展且持久的存储中，例如亚马逊简单存储服务（亚马逊 S3）。这些文档可以是各种类型，例如 PDF、JPEG、PNG、TIFF 等。文档可以有各种格式和布局，并且可以从不同的渠道进入数据存储。

分类阶段

在文档分类阶段，我们可以将 Amazon Comprehend 与 Amazon Textract 结合起来，将文本转换为文档上下文，从而对存储在数据捕获阶段的文档进行分类。然后，我们可以使用 Amazon Comprehend 中的自定义分类将文档组织到我们在索赔处理数据包中定义的类中。自定义分类还有助于自动化文档验证过程并识别数据包中丢失的任何文档。自定义分类有两个步骤，如架构图所示：

使用 Amazon Textract 从数据存储中的所有文档中提取文本，为自定义分类器准备训练数据。
训练 Amazon Comprehend 自定义分类模型（也称为文件分类) 根据文本内容识别感兴趣的类别。

保险理赔包文件分类

训练 Amazon Comprehend 自定义分类模型后，我们可以使用实时终端节点对文档进行分类。 Amazon Comprehend 返回所有文档类别，其置信度得分与键值对数组中的每个类别相关联 (Doc_name – Confidence_score）。我们建议仔细阅读详细的文档分类示例代码 GitHub上.

萃取阶段

在提取阶段，我们使用 Amazon Textract 和 Amazon Comprehend 从文档中提取数据。对于这篇文章，请在索赔处理包中使用以下示例文件：医疗补助和医疗保险服务中心 (CMS)-1500 索赔表、驾驶执照和保险 ID 以及发票。

从 CMS-1500 索赔表中提取数据

CMS-1500 表格是非机构提供者或供应商用来向医疗保险承运人开具账单的标准索赔表格。

准确处理 CMS-1500 表格很重要，否则可能会减慢索赔流程或延迟承运人的付款。使用亚马逊文本 AnalyzeDocument API，我们可以以更高的准确性加快提取过程，以从文档中提取文本，以便了解索赔表中的进一步见解。以下是 CMS-1500 索赔表的样本文件。

CMS1500 索赔表

我们现在使用 AnalyzeDocument API 提取两个 FeatureTypes, FORMS 和 TABLES，来自文档：

from IPython.display import display, JSON
form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": cms_key}}, FeatureTypes=['FORMS', 'TABLES'])

# print tables
print(get_string(textract_json=form_resp, output_type=[Textract_Pretty_Print.TABLES], table_format=Pretty_Print_Table_Format.fancy_grid))

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(form_resp), root="Claim Form"))

为了更好的可读性，以下结果已被缩短。有关更多详细信息，请参阅我们的 GitHub仓库。

FORMS 提取被标识为键值对。

TABLES 提取包含索赔表单中检测到的表中的单元格、合并单元格和列标题。

从 CMS1500 表格中提取表格

从身份证件中提取数据

对于可以有不同布局的保险 ID 等身份文件，我们可以使用 Amazon Textract AnalyzeDocument API。我们使用 FeatureType FORMS 作为配置 AnalyzeDocument 用于从保险 ID 中提取键值对的 API（请参见以下示例）：

运行以下代码：

ins_form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": ins_card_key}}, FeatureTypes=['FORMS'])

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(ins_form_resp), root="Insurance card"))

我们得到结果数组中的键值对，如下面的截图所示。

对于美国驾照或美国护照等身份证件，Amazon Textract 提供专门的支持来自动提取关键术语，而无需模板或格式，这与我们之前在保险身份证示例中看到的不同。随着 AnalyzeID API，企业可以快速准确地从具有不同模板或格式的身份证件中提取信息。这 AnalyzeID API 返回两类数据类型：

ID 上可用的键值对，例如出生日期、签发日期、ID 号、类别和限制
文档中可能没有与之关联的显式键的隐含字段，例如名称、地址和颁发者

我们使用索赔处理包中的以下示例美国驾照。

运行以下代码：

ID_resp = textract.analyze_id(DocumentPages=[{'S3Object':{"Bucket": data_bucket, "Name": key}}])

# once again using the textract response parser
from trp.trp2_analyzeid import TAnalyzeIdDocument, TAnalyzeIdDocumentSchema

t_doc = TAnalyzeIdDocumentSchema().load(ID_resp)

list_of_results = t_doc.get_values_as_list()
print(tabulate([x[1:3] for x in list_of_results]))

以下屏幕截图显示了我们的结果。

从结果屏幕截图中，您可以观察到某些不在驾驶执照本身中的密钥。例如， Veteran 不是在许可证中找到的密钥；但是，它是一个预先填充的键值 AnalyzeID 支持，由于州之间的许可证存在差异。

从发票和收据中提取数据

类似于 AnalyzeID API， AnalyzeExpense API 为发票和收据提供专门支持，以从任何格式的发票文档中提取相关信息，例如供应商名称、小计和总金额等。您不需要任何模板或配置即可提取。 Amazon Textract 使用 ML 来了解模糊发票和收据的上下文。

以下是医疗保险发票样本。

保险发票样本

我们使用 AnalyzeExpense API 查看标准化字段列表。未被识别为标准字段的字段被归类为 OTHER:

expense_resp = textract.analyze_expense(Document={'S3Object':{"Bucket": data_bucket, "Name": invc_key}})

# print invoice summary

print(get_expensesummary_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

# print invoice line items

print(get_expenselineitemgroups_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

我们在结果中获得以下字段列表作为键值对（参见左侧的屏幕截图）和购买的单个订单项的整行（参见右侧的屏幕截图）。

保险行业中使用 AWS AI 服务进行智能文档处理：第 1 部分 PlatoBlockchain 数据智能。垂直搜索。人工智能。

结论

在这篇文章中，我们展示了索赔处理中的常见挑战，以及我们如何使用 AWS AI 服务来自动化智能文档处理管道以自动裁定索赔。我们了解了如何使用 Amazon Comprehend 自定义分类器将文档分类为各种文档类，以及如何使用 Amazon Textract 提取非结构化、半结构化、结构化和专用文档类型。

In 部分2，我们使用 Amazon Textract 扩展了提取阶段。我们还使用 Amazon Comprehend 预定义实体和自定义实体来丰富数据，并展示如何扩展 IDP 管道以与分析和可视化服务集成以进行进一步处理。

我们建议查看亚马逊提取物，亚马逊理解，和亚马逊A2I 文档并遵循提供的指南。要了解有关解决方案定价的更多信息，请查看定价详情亚马逊提取物，亚马逊领悟及亚马逊A2I.

作者简介

钦马伊兰 是 Amazon Web Services 的 AI/ML 专家解决方案架构师。她对应用数学和机器学习充满热情。她专注于为 AWS 客户设计智能文档处理解决方案。工作之余，她喜欢萨尔萨舞和巴哈塔舞。

索纳利萨胡 在 Amazon Web Services 领导智能文档处理 AI/ML 解决方案架构师团队。她是一个充满激情的技术爱好者，喜欢与客户合作，利用创新解决复杂的问题。她的核心关注领域是用于智能文档处理的人工智能和机器学习。

蒂姆·康德罗 是 Amazon Web Services 的高级 AI/ML 专家解决方案架构师。他的重点是自然语言处理和计算机视觉。 Tim 喜欢接受客户的想法并将其转化为可扩展的解决方案。

时间戳记： 2022 年 11 月 3 日2022 年 11 月 4 日

时间戳记： 2023 年 5 月 2 日

在保险行业使用 AWS AI 服务进行智能文档处理：第 1 部分

由柏拉图重新发布

解决方案概述

先决条件

数据采集阶段

分类阶段

萃取阶段

从 CMS-1500 索赔表中提取数据

从身份证件中提取数据

从发票和收据中提取数据

结论

作者简介

更多来自 AWS机器学习

使用 Amazon SageMaker Python SDK 从 Amazon SageMaker 离线功能商店构建机器学习就绪数据集 | 亚马逊网络服务

PGA TOUR 生成式 AI 虚拟助手从概念到开发再到原型的历程 |亚马逊网络服务

在零售行业实施 Amazon Forecast：从 POC 到生产的旅程

通过使用 Amazon Personalize 的业务规则推广特定项目来自定义您的推荐

介绍 AWS Generative AI 创新中心的 Anthropic Claude 自定义模型计划 | 亚马逊网络服务

通过使用 Amazon Translate 构建的可定制翻译解决方案加速多语言工作流程

SageMaker 中的模型托管模式：在 SageMaker 上测试和更新模型的最佳实践

带有 TensorBoard 的 Amazon SageMaker：托管 TensorBoard 体验概述

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

解决方案概述

先决条件

数据采集​​阶段

分类阶段

萃取阶段

从 CMS-1500 索赔表中提取数据

从身份证件中提取数据

从发票和收据中提取数据

结论

作者简介

更多来自 AWS机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

数据采集阶段