结构化数据定义为遵循固定模式的数据,例如存储在数据库列中的信息,而非结构化数据则缺乏特定的形式或模式,例如文本、图像或社交媒体帖子,两者都随着生产和消费而不断增长由各种组织。 例如,根据国际数据公司(IDC)的预测,到2025年,全球数据量预计将增加十倍,其中非结构化数据占很大一部分。 除了文件类型、创建日期或大小等标准元数据之外,企业可能还希望添加文档类型(W-2 表格或工资单)、各种实体类型(例如名称、组织和地址)等自定义元数据,以扩展智能功能。摄取文档时进行搜索。 自定义元数据可帮助组织和企业按照其首选方式对信息进行分类。 例如,元数据可用于过滤和搜索。 客户可以使用以下方式创建自定义元数据 亚马逊领悟,由 AWS 管理的自然语言处理 (NLP) 服务,用于提取有关文档内容的见解,并将其提取到 亚马逊肯德拉 连同他们的数据一起进入索引。 Amazon Kendra 是一项由机器学习 (AWS) 提供支持的高度准确且易于使用的企业搜索服务。 然后可以使用自定义元数据来丰富内容,以便更好地 过滤和分面 能力。 在 Amazon Kendra 中,分面是一组搜索结果的范围视图。 例如,您可以提供世界各地城市的搜索结果,其中文档按与其关联的特定城市进行过滤。 您还可以创建分面来显示特定作者的结果。
保险公司面临着必须处理的越来越多的索赔的负担。 此外,由于涉及不同类型的保险文件以及每个文件中的自定义实体,索赔处理的复杂性也在增加。 在这篇文章中,我们描述了保险提供商自定义内容丰富的用例。 保险提供商从受益人律师处接收不同保险类型(例如房屋保险、汽车保险和人寿保险)的赔付索赔。 在此用例中,保险提供商收到的文档不包含任何允许根据某些实体和类别搜索内容的元数据。 保险提供商希望根据特定于其业务领域的自定义实体和类来过滤 Kendra 内容。 本文介绍了如何使用 Amazon Comprehend 的自定义模型自动生成和简化元数据生成。 可以在使用 Amazon Kendra 的摄取过程中自定义生成的元数据 自定义文档丰富 (CDE) 自定义逻辑。
让我们看一下带有或不带有过滤和构面功能的 Amazon Kendra 搜索的几个示例。
在下面的屏幕截图中,Amazon Kendra 提供了搜索结果,但没有选项可以使用任何过滤器进一步缩小搜索结果范围。
以下屏幕截图显示,可以使用由自定义元数据创建的律师事务所、保单号等不同方面来过滤 Amazon Kendra 搜索结果,以缩小搜索结果范围。
本文讨论的解决方案也可以轻松应用于其他业务/用例,例如医疗保健、制造和研究。
解决方案概述
在这个提议的解决方案中,我们将 1) 将保险索赔提交分为不同的类别,2) 从这些文档中检索特定于保险的实体。 完成后,文档可以发送到适当的部门或下游流程。
下图概述了建议的解决方案架构。
亚马逊领悟 自定义分类 API 用于将文档组织到您定义的类别(类)中。 自定义分类是一个两步过程。 首先,您训练自定义分类模型(也称为分类器)来识别您感兴趣的类。 然后,您可以使用模型对任意数量的文档集进行分类。
亚马逊领悟 自定义实体识别 功能用于识别超出可用范围的特定实体类型(保险公司名称、保险公司名称、保单编号) 通用实体类型 默认情况下。 构建自定义实体识别模型是比使用字符串匹配或正则表达式从文档中提取实体更有效的方法。 自定义实体识别模型可以了解这些名称可能出现的上下文。 此外,字符串匹配不会检测有拼写错误或遵循新命名约定的实体,而这可以使用自定义模型。
在深入研究之前,让我们花点时间探索一下 Amazon Kendra。 Amazon Kendra 是一项由机器学习提供支持的高度准确且易于使用的企业搜索服务。 它允许用户在遍布其组织的大量内容(从网站和数据库到内部网站点)中找到所需的信息。 我们将首先创建一个 Amazon Kendra 索引来提取文档。 在提取数据时,必须考虑自定义数据丰富 (CDE) 的概念。 CDE 使您能够通过将外部知识纳入搜索索引来增强搜索能力。 欲了解更多信息,请参阅 在摄取期间丰富您的文档。 在本文中,CDE 逻辑调用 Amazon Comprehend 的自定义 API,以使用已识别的类和实体来丰富文档。 最后,我们使用 Amazon Kendra 搜索页面来展示元数据如何通过添加分面和过滤功能来增强搜索功能。
实施该解决方案的高级步骤如下:
- 使用训练数据训练 Amazon Comprehend 自定义分类器
- 使用训练数据训练 Amazon Comprehend 自定义实体识别
- 创建 Amazon Comprehend 自定义分类器和自定义实体识别终端节点
- 创建并部署 Lambda 函数以进行提取后富集
- 创建并填充 Amazon Kendra 索引
- 使用提取的实体来过滤 Amazon Kendra 中的搜索
我们还提供了一个示例应用程序 GitHub回购 以供参考。
数据安全和 IAM 注意事项
该方案以安全为重,所使用的服务和功能遵循最小权限原则。 Amazon Comprehend 自定义分类和自定义实体识别使用的 IAM 角色仅有权访问测试存储桶中的数据集。 Amazon Kendra 服务可以访问特定的 S3 存储桶和用于调用 comprehend API 的 Lambda 函数。 Lambda 函数仅具有调用 Amazon Comprehend API 的权限。 有关更多信息,请查看笔记本中的第 1.2 和 1.3 节。
我们建议您在生产环境中实施解决方案之前,在非生产环境中执行以下操作。
使用训练数据训练 Comprehend 自定义分类器
Amazon Comprehend 自定义分类支持注释文件的两种数据格式类型:
由于我们的数据已经被标记并存储在 CSV 文件中,因此我们将使用 CSV 文件格式作为注释文件作为示例。 我们必须以 CSV 文件中的 UTF-8 编码文本形式提供带标签的训练数据。 请勿在 CSV 文件中包含标题行。 在文件中添加标题行可能会导致运行时错误。 训练数据CSV文件示例如下:
要准备分类器训练数据,请参阅 准备分类器训练数据。 对于 CSV 文件中的每一行,第一列包含一个或多个类标签。 类标签可以是任何有效的 UTF-8 字符串。 我们建议使用含义不重叠的清晰类名称。 该名称可以包含空格,并且可以由通过下划线或连字符连接的多个单词组成。 不要在分隔行中的值的逗号之前或之后留下任何空格字符。
接下来,您将使用以下方法进行训练 多班模式 or 多标签模式。 具体来说,在多类模式下,分类为每个文档分配一个类,而在多标签模式下,各个类代表不互相排斥的不同类别。 在我们的例子中,我们将使用纯文本模型的多类模式。
您可以为 Amazon Comprehend 自定义分类器训练和模型评估准备单独的训练和测试数据集。 或者,只提供一个数据集用于训练和测试。 Comprehend 会自动选择您提供的数据集的 10% 作为测试数据。 在此示例中,我们提供单独的训练和测试数据集。
以下示例显示了一个 CSV 文件,其中包含与各种文档关联的类名。
训练自定义分类模型后,它可以捕获文档上的不同类别的保险(家庭保险、汽车保险或人寿保险)。
使用训练数据训练 Amazon Comprehend 自定义实体识别器 (NER)
Amazon Comprehend 自定义实体识别 (NER) 的训练数据集可以通过两种不同的方式之一准备:
- 注释 – 提供包含用于模式训练的注释实体的数据集
- 实体列表(仅限纯文本) – 提供实体列表及其标签类型(例如“保险公司名称”)以及一组包含这些实体的未注释文档以进行模型训练
有关更多信息,请参阅 准备实体识别器训练数据.
使用实体列表训练模型时,我们需要提供两条信息:实体名称及其关联的自定义实体类型的列表,以及实体出现的未注释文档的集合。
自动训练需要有两种类型的信息:样本文档和实体列表或注释。 一旦识别器经过训练,您就可以使用它来检测文档中的自定义实体。 您可以实时快速分析一小段文本,也可以使用异步作业分析大量文档。
您可以为 Amazon Comprehend 自定义实体识别器训练和模型评估准备单独的训练和测试数据集。 或者只提供一个数据集用于训练和测试。 Amazon Comprehend 将自动选择您提供的数据集的 10% 用作测试数据。 在下面的示例中,我们将训练数据集指定为 Documents.S3Uri
下 InputDataConfig
.
以下示例显示了包含实体的 CSV 文件:
一旦自定义实体(NER)模型经过训练,它将能够提取各种实体,例如“PAYOUT
“,”INSURANCE_COMPANY
“,”LAW_FIRM
“,”POLICY_HOLDER_NAME
“,”POLICY_NUMBER
“。
创建 Amazon Comprehend 自定义分类器和自定义实体 (NER) 终端节点
Amazon Comprehend 的终端节点使您的自定义模型可用于实时分类。 创建端点后,您可以根据业务需求的变化对其进行更改。 例如,您可以监控端点利用率并应用自动扩展来自动设置端点配置以满足您的容量需求。 您可以从单个视图管理所有端点,当您不再需要某个端点时,可以将其删除以节省成本。 Amazon Comprehend 支持同步和异步选项,如果您的使用案例不需要实时分类,您可以向 Amazon Comprehend 提交批处理作业以进行异步数据分类。
对于此用例,您创建一个端点以使您的自定义模型可用于实时分析。
为了满足您的文本处理需求,您可以向端点分配推理单元,每个单元允许每秒 100 个字符的吞吐量。 然后您可以向上或向下调整吞吐量。
创建并部署 Lambda 函数以进行提取后富集
提取后 Lambda 函数允许您实现逻辑来处理 Amazon Kendra 从摄取的文档中提取的文本。 我们配置的提取后函数实现代码来调用 Amazon Comprehend 来检测自定义实体并对 Amazon Kendra 提取的文本中的文档进行自定义分类,并使用它们来更新文档元数据(在 Amazon Kendra 搜索中以分面形式呈现) 。 功能代码嵌入在笔记本中。 这 PostExtractionLambda
代码的工作原理如下:
- 将页面文本分割成不超过理解的最大字节长度限制的部分
detect_entities
API。 (看 极限 ).
注意 为简单起见,该脚本使用简单的字符长度分割算法 - 生产用例应基于 UTF8 字节长度实现重叠或句子边界分割。 - 对于文本的每个部分,调用自定义实体和自定义分类器的理解实时端点来检测以下实体类型:[“
PAYOUT
“,”INSURANCE_COMPANY
“,”LAW_FIRM
“,”POLICY_HOLDER_NAME
“,”POLICY_NUMBER
“,”INSURANCE_TYPE
”。 - 过滤掉检测到的低于置信度分数阈值的实体。 我们使用 0.50 阈值,这意味着只有置信度为 50% 及以上的实体才会被使用。 这可以根据用例和要求进行调整。
- 跟踪每个实体的频率计数。
- 根据出现频率为每个页面仅选择前 N (10) 个唯一实体。
- 对于文档分类,多类分类器仅为每个文档分配一个类。 在此 Lambda 函数中,文档将被分类为汽车保险、家庭保险或人寿保险。
请注意,截至撰写本文时,CDE 仅支持同步调用,或者如果必须异步,则需要显式等待循环。 对于后提取 Lambda 最大执行时间 是 1 分钟。 可以根据适合您的用例的要求更改 Lambda 自定义逻辑。
创建并填充 Amazon Kendra 索引
在此步骤中,我们会将数据提取到 Amazon Kendra 索引并使其可供用户搜索。 在提取过程中,我们将使用上一步中创建的 Lambda 函数作为提取后步骤,并且 Lambda 函数将调用自定义分类和自定义实体识别 (NER) 端点来创建自定义元数据字段。
实施该解决方案的高级步骤如下:
- 创建 亚马逊肯德拉指数.
- 创建 Amazon Kendra 数据源 – 有不同的数据源可用于摄取数据集。 在本文中,我们使用 S3 存储桶。
- 创建面
Law_Firm
,Payout
,Insurance_Company
,Policy_Number
,Policy_Holder_Name
,Insurance_Type
字符串类型为 'STRING_LIST_VALUE
“。 - 创建 Kendra CDE 并将其指向之前创建的提取后 Lambda 函数。
- 执行同步过程以摄取数据集。
完成后,您可以使用保险数据填充索引,使用带有提取后 lambda 的 Kendra CDE,您可以根据自定义实体类型和自定义分类作为自定义元数据字段来过滤搜索。
使用提取的实体来过滤 Kendra 中的搜索
现在索引已填充并可供使用。 在 Amazon Kendra 控制台中,选择 在数据管理下搜索索引内容 并执行以下操作。
查询如下: 保险清单因延迟提交而失败?
结果显示了政策类型的答案—— HOME INSURANCE
并带来 text_18
和 text_14
作为最高结果。
选择左侧的“过滤搜索结果”。 现在,您将看到使用 Comprehend 提取的所有实体类型和分类值,并且对于每个实体值和分类,您将看到匹配文档的数量。
下 INSURANCE_TYPE
选择“汽车保险”,然后您将得到答复 text_25
文件中。
请注意,您的结果可能与屏幕截图中显示的结果略有不同。
尝试使用您自己的查询进行搜索,并观察 Amazon Comprehend 识别的实体和文档分类如何快速帮助您:
- 查看您的搜索结果在各个类别中的分布情况。
- 通过过滤任何实体/分类值来缩小搜索范围。
清理
在尝试搜索并尝试 Github 存储库中提供的笔记本后,删除您在 AWS 账户中预置的基础设施以避免任何不必要的费用。 您可以在笔记本中运行清理单元。 或者,您可以通过 AWS 控制台手动删除资源:
- 亚马逊肯德拉指数
- 理解自定义分类器和自定义实体识别 (NER) 端点
- 理解自定义分类器和自定义实体识别 (NER) 自定义模型
- 拉姆达函数
- S3斗
- IAM角色和政策
结论
在这篇文章中,我们展示了 Amazon Comprehend 自定义实体和自定义分类器如何支持由 CDE 功能支持的 Amazon Kendra 搜索,以帮助最终用户对结构化/非结构化数据执行更好的搜索。 Amazon Comprehend 的自定义实体和自定义分类器使其对于不同的用例和各种特定于域的数据非常有用。 有关如何使用 Amazon Comprehend 的更多信息,请参阅 Amazon Comprehend 开发人员资源 对于 Amazon Kendra,请参阅 Amazon Kendra 开发人员资源.
根据您的用例尝试一下此解决方案。 我们邀请您在评论部分留下您的反馈。
作者简介
阿米特(Amit Chaudhary) 是 Amazon Web Services 的高级解决方案架构师。 他的重点领域是人工智能/机器学习,并通过生成式人工智能、大型语言模型和快速工程为客户提供帮助。 工作之余,阿米特喜欢与家人共度时光。
张艳艳 是 AWS 专业服务能源交付团队的高级数据科学家。 她热衷于利用人工智能/机器学习知识帮助客户解决实际问题。 最近,她的重点是探索生成式人工智能和法学硕士的潜力。 工作之余,她喜欢旅行、锻炼和探索新事物。
尼基尔·贾 是 Amazon Web Services 的高级技术客户经理。 他的重点领域包括 AI/ML 和分析。 业余时间,他喜欢和女儿一起打羽毛球和户外探险。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/use-custom-metadata-created-by-amazon-comprehend-to-intelligently-process-insurance-claims-using-amazon-kendra/
- :具有
- :是
- :不是
- :在哪里
- $UP
- 1
- 1.3
- 10
- 100
- 19
- 2025
- 33
- 50
- 500
- 7
- 9
- a
- Able
- 关于
- ACCESS
- 根据
- 账号管理
- 基本会计和财务报表
- 精准的
- 横过
- 加
- 添加
- 增加
- 另外
- 地址
- 后
- AI
- AI / ML
- 算法
- 所有类型
- 允许
- 沿
- 已经
- 还
- Amazon
- 亚马逊领悟
- 亚马逊肯德拉
- 亚马逊网络服务
- 量
- an
- 分析
- 分析
- 分析
- 和
- 回答
- 任何
- API
- APIs
- 出现
- 应用领域
- 应用的
- 使用
- 的途径
- 适当
- 架构
- 保健
- 国家 / 地区
- 地区
- AS
- 相关
- At
- 律师
- 作者
- 汽车
- 自动化
- 自动
- 可使用
- 避免
- AWS
- AWS专业服务
- 基于
- BE
- 很
- before
- 如下。
- 更好
- 超越
- 身体
- 都
- 边界
- 带来
- 建筑物
- 商业
- 但是
- by
- 呼叫
- 被称为
- 呼叫
- CAN
- 能力
- 能力
- 容量
- 捕获
- 案件
- 例
- 类别
- 原因
- 细胞
- 一定
- 变
- 更改
- 字符
- 字符
- 收费
- 城市
- 城市
- 索赔
- 程
- 类
- 分类
- 机密
- 分类
- 清除
- 码
- 采集
- 柱
- 列
- 注释
- 公司
- 公司
- 完成
- 完成
- 复杂
- 理解
- 概念
- 信心
- 配置
- 已联繫
- 考虑
- 安慰
- 消费
- 包含
- 包含
- 内容
- 上下文
- 继续
- 公约
- 公司
- 成本
- 可以
- 创建信息图
- 创建
- 习俗
- 合作伙伴
- 定制
- data
- 数据充实
- 数据管理
- 数据科学家
- 数据集
- 数据库
- 数据集
- 日期
- 更深
- 默认
- 定义
- 定义
- 交货
- 问题类型
- 部署
- 描述
- 检测
- 检测
- 开发商
- 不同
- 不同
- 讨论
- 屏 显:
- 分布
- 不同
- 跳水
- do
- 文件
- 文件
- 域
- 不
- 别
- 向下
- 两
- ,我们将参加
- e
- Ë&T
- 每
- 容易
- 易于使用
- 有效
- 或
- el
- 嵌入式
- 使
- 端点
- 能源
- 工程师
- 提高
- 增强
- 丰富
- 丰富
- 企业
- 企业
- 实体
- 实体
- 环境
- 故障
- 必要
- 评估
- 发展
- 例子
- 例子
- 超过
- 除
- 例外
- 独家
- 执行
- 退出中
- 预期
- 探索
- 探索
- 表达式
- 延长
- 外部
- 提取
- 萃取
- 面
- 失败
- 家庭
- 专栏
- 特征
- 反馈
- 少数
- 字段
- 文件
- 档
- 备案
- 过滤
- 过滤
- 过滤器
- 终于
- 找到最适合您的地方
- 公司
- 姓氏:
- 适合
- 固定
- 专注焦点
- 遵循
- 以下
- 如下
- 针对
- 申请
- 格式
- 形式
- 频率
- 止
- 功能
- 进一步
- 产生
- 代
- 生成的
- 生成式人工智能
- 得到
- GitHub上
- 增长
- 有
- 有
- he
- 医疗保健
- 帮助
- 帮助
- 帮助
- 这里
- 高水平
- 更高
- 最高
- 高度
- 他的
- 主页
- 创新中心
- How To
- HTML
- HTTPS
- i
- IDC
- 确定
- 鉴定
- if
- 说明
- 图片
- 实施
- 实施
- 器物
- in
- 包括
- 结合
- 增加
- 增加
- 指数
- 索引
- 个人
- 信息
- 基础设施
- 输入
- 可行的洞见
- 例
- 保险
- 智能化
- 兴趣
- 国际
- 国际数据公司(IDC)
- 成
- 邀请
- 所调用
- 参与
- IT
- 工作
- JSON
- 知识
- 标签
- 标签
- 语言
- 大
- 晚了
- 法律
- 律师事务所
- 学习用品
- 学习
- 最少
- 离开
- 左
- 长度
- 生活
- 喜欢
- 容易
- 极限
- 清单
- 书单
- LLM
- 逻辑
- 不再
- 看
- 爱
- 机
- 机器学习
- 使
- 制作
- 管理
- 管理
- 颠覆性技术
- 经理
- 手动
- 制造业
- 匹配
- 最大
- 可能..
- 意
- 手段
- 媒体
- 满足
- 元数据
- 分钟
- 时尚
- 模型
- 模型
- 时刻
- 显示器
- 更多
- 最先进的
- 多
- 必须
- 相互
- 姓名
- 名称
- 命名
- 狭窄
- 需求
- 打印车票
- 需要
- 全新
- NLP
- 没有
- 笔记本
- 现在
- 数
- 数字
- 对象
- 对象
- 观察
- 发生
- of
- on
- 一旦
- 一
- 仅由
- 附加选项
- 附加选项
- or
- 组织
- 组织
- 其他名称
- 我们的
- 输出
- 户外活动
- 大纲
- 学校以外
- 己
- 页
- 对
- 多情
- 模式
- 为
- 演出
- 权限
- 件
- 朴素
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 点
- 政策
- 人口稠密
- 一部分
- 可能
- 帖子
- 帖子
- 潜力
- 供电
- 首选
- Prepare
- 准备
- 呈现
- 以前
- 先前
- 原理
- 先
- 优先
- 特权
- 问题
- 过程
- 处理
- 生成
- 生产
- 所以专业
- 建议
- 提供
- 提供
- 提供者
- 供应商
- 提供
- 优
- 查询
- 很快
- 报价
- 范围
- 阅读
- 准备
- 真实
- 实时的
- 收到
- 接收
- 最近
- 承认
- 承认
- 确认
- 建议
- 参考
- 参考
- 定期
- 知识库
- 代表
- 必须
- 岗位要求
- 需要
- 研究
- 资源
- 导致
- 成果
- 回报
- 检讨
- 角色
- 角色
- 行
- 运行
- 运行
- 同
- 保存
- 缩放
- 科学家
- 得分了
- 脚本
- 搜索
- 搜索
- 搜索
- 其次
- 部分
- 部分
- 保安
- 看到
- 选择
- 前辈
- 句子
- 分开
- 服务
- 特色服务
- 集
- 套数
- 她
- 应该
- 显示
- 显示
- 如图
- 作品
- 显著
- 简单
- 简化
- 单
- 网站
- 尺寸
- 小
- So
- 社会
- 社会化媒体
- 社交媒体帖子
- 方案,
- 解决方案
- 解决
- 来源
- 太空
- 具体的
- 特别是
- 指定
- 花费
- 拆分
- 传播
- 标准
- 步
- 步骤
- 商店
- 存储
- 串
- 意见书
- 提交
- 这样
- SUPPORT
- 支持
- 同步。
- 采取
- 团队
- 文案
- test
- 测试
- 文本
- 比
- 这
- 信息
- 世界
- 其
- 他们
- 然后
- 那里。
- 博曼
- 他们
- 事
- Free Introduction
- 那些
- 门槛
- 通过
- 吞吐量
- 次
- 至
- 最佳
- 跟踪时
- 培训
- 熟练
- 产品培训
- 旅游
- 治疗
- 尝试
- 尝试
- 调整
- 二
- 类型
- 类型
- 下
- 下划线
- 独特
- 单元
- 单位
- 无用
- 更新
- 使用
- 用例
- 用过的
- 用户
- 使用
- 运用
- 有效
- 折扣值
- 价值观
- 各个
- 广阔
- 非常
- 查看
- 意见
- 体积
- 等待
- 想
- 希望
- 方法..
- 方法
- we
- 卷筒纸
- Web服务
- 网站
- 井
- 什么是
- 什么是
- ,尤其是
- 这
- 而
- 白色
- 将
- 中
- 也完全不需要
- 话
- 工作
- 加工
- 锻炼
- 合作
- 世界
- 世界
- 写作
- 书面
- 完全
- 您一站式解决方案
- 和风网