亚马逊Textract 是一种机器学习 (ML) 服务,能够从扫描文档中自动提取文本、手写内容和数据,超越了传统的光学字符识别 (OCR)。它可以非常准确地识别、理解和提取表格和表单中的数据。目前,一些公司依赖于手动提取方法或基本的OCR软件,这种方法繁琐且耗时,并且需要手动配置,并且当表单发生变化时需要更新。 Amazon Textract 利用 ML 自动处理不同的文档类型并以最少的手动干预准确提取信息,从而帮助解决这些挑战。这使您能够自动化文档处理并将提取的数据用于不同目的,例如自动化贷款处理或从发票和收据收集信息。
随着大流行后旅行的恢复,在许多情况下可能需要验证旅行者的疫苗接种状况。酒店和旅行社通常需要查看疫苗接种卡,以收集重要的详细信息,例如旅行者是否完全接种疫苗、疫苗日期和旅行者的姓名。一些机构通过手动验证卡来做到这一点,这对工作人员来说可能非常耗时,并且存在人为错误的可能性。其他人已经构建了定制解决方案,但这些解决方案可能成本高昂且难以扩展,并且需要大量时间来实施。展望未来,可能有机会以对企业有效的方式简化疫苗接种状态验证流程,同时尊重旅行者的隐私和便利。
Amazon Textract 查询 有助于应对这些挑战。 Amazon Textract 查询允许您指定并仅从文档中提取您需要的信息。它为您提供文档中精确且准确的信息。
在这篇文章中,我们将引导您完成分步实施指南,以使用 Amazon Textract 查询构建疫苗接种状态验证解决方案。该解决方案展示了如何使用 Amazon Textract 查询处理疫苗接种卡、验证疫苗接种状态以及存储信息以供将来使用。
解决方案概述
下图说明了解决方案体系结构。
工作流程包括以下步骤:
- 用户拍摄疫苗接种卡的照片。
- 图像被上传到 亚马逊简单存储服务 (Amazon S3)存储桶。
- 当图像保存在 S3 存储桶中时,它会调用 AWS步骤功能 工作流程:
- 查询决策者 AWS Lambda function 检查传入的文档,并向 Step Functions 工作流添加有关 mime 类型、页数和查询数量的信息(对于我们的示例,我们有四个查询)。
NumberQueriesAndPagesChoice
是一种向工作流添加条件逻辑的选择状态。如果有 15-31 个查询且页面数在 2-3,001 之间,则 Amazon Textract 异步处理是唯一的选择,因为同步 API 最多仅支持 15 个查询和一页文档。对于所有其他情况,我们会随机选择同步或异步处理。-
TextractSync
Lambda 函数向 Amazon Textract 发送请求,以根据以下 Amazon Textract 查询分析文档:- 什么是疫苗接种状态?
- 什么名字?
- 什么是出生日期?
- 什么是文件编号?
- Amazon Textract 分析图像并将这些查询的答案发送回 Lambda 函数。
- Lambda 函数验证客户的疫苗接种状态,并将最终结果以 CSV 格式存储在同一个 S3 存储桶中(
demoqueries-textractxxx
在)csv-output
文件夹中。
先决条件
要完成此解决方案,您应该拥有一个 AWS 账户和适当的权限来创建解决方案所需的资源。
从以下位置下载部署代码和样本疫苗接种卡 GitHub上.
使用 Amazon Textract 控制台上的查询功能
在构建疫苗接种验证解决方案之前,我们先探讨一下如何使用 Amazon Textract 查询通过 Amazon Textract 控制台提取疫苗接种状态。您可以使用从 GitHub 存储库下载的疫苗接种卡示例。
- 在 Amazon Textract 控制台上,选择 分析文档 在导航窗格中。
- 下 上传文件,选择 选择文件 从本地驱动器上传疫苗接种卡。
- 上传文档后,选择 查询 ,在 配置文档 部分。
- 然后,您可以以自然语言问题的形式添加查询。让我们添加以下内容:
- 什么是疫苗接种状态?
- 什么名字?
- 什么是出生日期?
- 什么是文件编号?
- 添加所有查询后,选择 套用设定.
- 检查查询 选项卡查看问题的答案。
您可以看到 Amazon Textract 从文档中提取查询的答案。
部署疫苗接种验证解决方案
在这篇文章中,我们使用 AWS 云9 实例并使用以下命令在实例上安装必要的依赖项 AWS云开发套件 (AWS CDK) 和 Docker。 AWS Cloud9 是一种基于云的集成开发环境 (IDE),让您只需使用浏览器即可编写、运行和调试代码。
- 在终端中,选择 上传本地文件 在 文件 菜单。
- 选择“文件夹” 并选择
vaccination_verification_solution
从 GitHub 下载的文件夹。 - 在终端中,为开发工作流程中的后续步骤准备无服务器应用程序 AWS无服务器应用程序模型 (AWS SAM) 使用以下命令:
- 使用以下方式部署应用程序
cdk deploy
命令:等待 AWS CDK 部署模型并创建模板中提到的资源。
- 部署完成后,您可以在控制台查看已部署的资源 AWS CloudFormation 控制台上的 资源 堆栈详细信息页面的选项卡。
测试解决方案
现在是时候测试该解决方案了。要触发工作流程,请使用 aws s3 cp
上传 vac_card.jpg
文件以 DemoQueries.DocumentUploadLocation
在 docs 文件夹内:
疫苗接种证书文件自动上传到S3存储桶 demoqueries-textractxxx
在上传文件夹中。
一旦疫苗接种证书文件上传到 S3 存储桶,Step Functions 工作流程就会通过 Lambda 函数触发。
Queries-Decider Lambda 函数检查文档,并将有关 mime 类型、页数和查询数量的信息添加到 Step Functions 工作流程(在本例中,我们使用四个查询 - 文档编号、客户名称、查询日期)出生和疫苗接种情况)。
TextractSync
函数将输入查询发送到 Amazon Textract 并同步返回完整结果作为响应的一部分。它支持 1 页文档(TIFF、PDF、JPG、PNG)和最多 15 个查询。这 GenerateCsvTask
函数从 Amazon Textract 获取 JSON 输出并将其转换为 CSV 文件。
最终输出作为 CSV 文件存储在 csv-output 文件夹中的同一 S3 存储桶中。
您可以使用以下命令将该文件下载到本地计算机:
结果的格式为 timestamp
, classification
, filename
, page number
, key name
, key_confidence
, value
, value_confidence
, key_bb_top
, key_bb_height
, key_bb.width
, key_bb_left
, value_bb_top
, value_bb_height
, value_bb_width
, value_bb_left
.
您可以将解决方案扩展到多个客户的数百个疫苗接种证书文档,方法是将他们的疫苗接种证书上传到 DemoQueries.DocumentUploadLocation
。这会自动触发 Step Functions 状态机的多次运行,最终结果存储在 csv-output 文件夹中的同一个 S3 存储桶中。
要更改输入 Amazon Textract 的初始查询集,您可以转到 AWS Cloud9 实例并打开 start_execution.py 文件。在左侧窗格的文件视图中,导航到 lambda, start_queries
, app
, start_execution.py
。当文件上传到时会调用此 Lambda 函数 DemoQueries.DocumentUploadLocation
。发送到工作流程的查询定义在 start_execution.py
;您可以通过更新代码来更改这些内容,如以下屏幕截图所示。
清理
为了避免产生持续费用,请使用以下命令删除本文中创建的资源:
回答问题 Are you sure you want to delete: DemoQueries (y/n)?
与 y。
结论
在这篇文章中,我们向您展示了如何使用 Amazon Textract 查询为旅游业构建疫苗接种验证解决方案。您可以使用 Amazon Textract 查询在金融和医疗保健等其他行业构建解决方案,并根据自然语言问题从工资单、抵押票据和保险卡等文档中检索信息。
欲了解更多信息,请参阅 分析文件,或查看 Amazon Textract 控制台并试用此功能。
作者简介
德拉伊·塔库尔(Dhiraj Thakur) 是Amazon Web Services的解决方案架构师。 他与AWS客户和合作伙伴合作,提供有关企业云采用,迁移和策略的指南。 他对技术充满热情,并喜欢在分析和AI / ML领域中进行构建和试验。
里沙布·亚达夫 是 AWS 的合作伙伴解决方案架构师,在 AWS 的开发运营和安全产品方面拥有丰富的背景。他与东盟合作伙伴合作,提供有关企业云采用和架构审查的指导,并通过实施架构完善的框架来构建 AWS 实践。工作之余,他喜欢把时间花在运动场和FPS游戏上。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/build-a-vaccination-verification-solution-using-the-queries-feature-in-amazon-textract/
- :是
- $UP
- 001
- 100
- 15%
- 1930
- 2468
- 258
- 7
- 8
- a
- 关于
- 账号管理
- 精准的
- 准确
- 加
- 地址
- 添加
- 采用
- 机构
- AI / ML
- 所有类型
- 允许
- 沿
- Amazon
- 亚马逊Textract
- 亚马逊网络服务
- an
- 分析
- 分析
- 分析
- 和
- 回答
- 答案
- APIs
- 应用领域
- 适当
- 架构
- 保健
- AS
- 东盟
- At
- 自动化
- 自动表
- 自动
- 自动化
- 避免
- AWS
- AWS 云9
- AWS CloudFormation
- 背部
- 背景
- 基于
- 基本包
- BE
- 因为
- 之间
- 分娩
- 浏览器
- 建立
- 建筑物
- 建
- 企业
- 但是
- by
- CAN
- 卡
- 牌
- 例
- CD
- 证书
- 证书
- 挑战
- 更改
- 更改
- 字符
- 字符识别
- 收费
- 查
- 选择
- 云端技术
- 云采用
- Cloud9
- 码
- 公司
- 完成
- 配置
- 安慰
- 方便
- 昂贵
- 创建信息图
- 创建
- 习俗
- 顾客
- 合作伙伴
- data
- 日期
- 重要日期
- 定义
- 依赖
- 部署
- 部署
- 部署
- 摧毁
- 详情
- 研发支持
- 不同
- 难
- do
- 码头工人
- 文件
- 文件
- 下载
- 驾驶
- 高效
- 使
- 企业
- 环境
- 错误
- 检查
- 例子
- 探索
- 广泛
- 提取
- 萃取
- 提取物
- 专栏
- 美联储
- 部分
- 文件
- 最后
- 金融
- 以下
- 针对
- 申请
- 格式
- 形式
- 向前
- 四
- FPS
- 骨架
- 止
- ,
- 充分
- 功能
- 功能
- 未来
- 赌博
- 收集
- 搜集
- GitHub上
- 给
- Go
- 指导
- 指南
- 有
- he
- 医疗保健
- 帮助
- 他的
- 酒店
- 创新中心
- How To
- HTML
- HTTP
- HTTPS
- 人
- 数百
- 鉴定
- if
- 说明
- 图片
- 实施
- 履行
- 重要
- in
- 其他
- 包括
- 行业
- 行业中的应用:
- 信息
- 初始
- 输入
- 内
- 安装
- 例
- 保险
- 集成
- 介入
- 成
- 发票
- 调用
- 所调用
- IT
- JPG
- JSON
- 只是
- 语言
- 学习
- 左
- 让
- 喜欢
- 喜欢
- 贷款
- 本地
- 逻辑
- 机
- 机器学习
- 手册
- 许多
- 可能..
- 提到
- 菜单
- 方法
- 移民
- 最小
- ML
- 模型
- 更多
- 抵押
- 移动
- 多
- 姓名
- 自然
- 导航
- 旅游导航
- 必要
- 需求
- 需要
- 数
- OCR
- OCR软件
- of
- 供品
- 经常
- on
- 正在进行
- 仅由
- 打开
- 机会
- 光学字符识别
- 附加选项
- or
- 其他名称
- 其它
- 我们的
- 输出
- 产量
- 学校以外
- 页
- 网页
- 面包
- 部分
- 合伙人
- 伙伴
- 通过
- 多情
- 权限
- 照片
- 片
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 帖子
- 大流行后
- 做法
- 精确的
- Prepare
- 现
- 隐私
- 过程
- 处理
- 提供
- 目的
- 查询
- 题
- 有疑问吗?
- 随机
- 收
- 承认
- 依靠
- 卓越
- 请求
- 必须
- 岗位要求
- 需要
- 资源
- 关于
- 响应
- 导致
- 回报
- 检讨
- 评论
- Room
- 路线
- 运行
- 运行
- Sam
- 同
- 保存
- 鳞片
- 部分
- 保安
- 看到
- 选择
- 选择
- 发送
- 发送
- 无服务器
- 服务
- 特色服务
- 集
- 几个
- 应该
- 显示
- 如图
- 显著
- 简易
- 软件
- 方案,
- 解决方案
- 解决
- 一些
- 或很快需要,
- 太空
- 花
- 运动
- 堆
- 团队
- 州/领地
- Status
- 步
- 步骤
- 存储
- 商店
- 存储
- 商店
- 策略
- 精简
- 随后
- 这样
- SUPPORT
- 支持
- 肯定
- 超越
- 采取
- 需要
- 专业技术
- 乏味
- 模板
- 终端
- test
- 文本
- 这
- 信息
- 其
- 然后
- 那里。
- 博曼
- Free Introduction
- 那些
- 通过
- 次
- 耗时的
- 至
- 传统
- 旅行
- 旅游业
- 游客
- 触发
- 引发
- 尝试
- 类型
- 类型
- 理解
- 更新
- 上传
- 上传
- 网址
- 使用
- 用户
- 运用
- 利用
- 疫苗
- 折扣值
- 企业验证
- 确认
- 验证
- 通过
- 查看
- 走
- 想
- 方法..
- we
- 卷筒纸
- Web服务
- ,尤其是
- 是否
- 这
- 而
- 工作
- 工作流程
- 合作
- 写
- 完全
- 您一站式解决方案
- 和风网