各行业的公司创建、扫描和存储大量 PDF 文档。 在许多情况下,内容以文本为主,通常用不同的语言编写,需要翻译。 为了解决这个问题,您需要一个自动化解决方案来提取这些 PDF 中的内容并快速且经济高效地进行翻译。
许多企业拥有多元化的全球用户,需要翻译文本以实现他们之间的跨语言交流。 这是一项手动、缓慢且昂贵的人力工作。 需要找到一种可扩展、可靠且经济高效的解决方案来翻译文档,同时保留原始文档格式。
对于医疗保健等垂直行业,由于监管要求,翻译后的文档需要额外的人员参与循环来验证机器翻译文档的有效性。
如果翻译后的文档不保留原始格式和结构,它就会失去上下文。 这可能会使人工审阅者难以验证和纠正。
在这篇文章中,我们演示了如何使用基于几何的方法从扫描的 PDF 创建新的翻译 PDF,同时保留原始文档结构和格式 亚马逊Textract, 亚马逊翻译及 阿帕奇PDFBox.
解决方案概述
本文中提出的解决方案使用以下组件:
- 亚马逊Textract – 完全托管的机器学习 (ML) 服务,可自动从扫描文档中提取打印文本、手写内容和其他数据,其功能超出了简单的光学字符识别 (OCR) 范围,可识别、理解并提取表单和表格中的数据。 Amazon Textract 可以检测各种文档中的文本,包括财务报告、医疗记录和纳税申报表。
- 亚马逊翻译 – 神经机器翻译服务,提供快速、高质量且经济实惠的语言翻译。 Amazon Translate 提供涵盖 2,970 多种语言对的高质量按需和批量翻译功能,同时降低您的翻译成本。
- PDF翻译 – 用 Java 编写并发布于的开源库 GitHub 中的 AWS 示例。 该库包含使用 Amazon Textract 和 Amazon Translate 以您所需语言生成翻译后的 PDF 文档的逻辑。 它还使用开源 Java 库 Apache PDFBox 来创建 PDF 文档。 其他编程语言也有类似的 PDF 处理库,例如 节点 PDFBox.
在执行机器翻译时,您可能会遇到希望保留文本的特定部分不被翻译的情况,例如名称或唯一标识符。 Amazon Translate 允许修改标签,从而允许您指定不应翻译哪些文本。 Amazon Translate 还支持正式定制,让您可以自定义翻译输出的正式程度。
有关 Amazon Textract 限制的详细信息,请参阅 Amazon Textract 中的配额.
该解决方案仅限于 Amazon Textract 可以提取的语言,目前支持英语、西班牙语、意大利语、葡萄牙语、法语和德语。 Amazon Translate 也支持这些语言。 有关 Amazon Translate 支持的语言的完整列表,请参阅 支持的语言和语言代码.
我们使用以下 PDF 来演示将文本从英语翻译成西班牙语。 该解决方案还支持生成不带任何格式的翻译文档。 翻译文本的位置保持不变。 源文件和翻译后的 PDF 文档也可以在 AWS Samples GitHub存储库.
在以下部分中,我们将演示如何在本地计算机上运行翻译代码并更详细地查看翻译代码。
先决条件
在开始之前,请设置您的 AWS 账户和 AWS命令行界面 (AWS CLI)。 要访问任何 AWS 服务(例如 Textract 和 Translate),需要适当的 IAM 权限。 我们建议使用最小权限。 要了解有关 IAM 权限的更多信息,请参阅 IAM 中的策略和权限 以及 Amazon Textract 如何与 IAM 配合使用 和 Amazon Translate 如何与 IAM 配合使用.
在本地机器上运行翻译代码
该解决方案重点关注用于提取和翻译 PDF 文档的独立 Java 代码。 这是为了更轻松地进行测试和自定义,以获得最佳渲染的翻译 PDF 文档。 然后可以将代码集成到自动化解决方案中,以便在 AWS 中部署和运行。 看 使用Amazon Translate和Amazon Textract翻译PDF文档 对于使用的示例架构 亚马逊简单存储服务 (Amazon S3)来存储文档和 AWS Lambda 运行代码。
要在本地计算机上运行代码,请完成以下步骤。 代码示例可在 GitHub仓库。
- 克隆 GitHub 存储库:
- 运行以下命令:
- 运行以下命令将英语翻译成西班牙语:
将在文档文件夹中创建两个翻译后的 PDF 文档,包含和不包含原始格式 (SampleOutput-es.pdf
和 SampleOutput-min-es.pdf
).
生成翻译后的 PDF 的代码
以下代码片段展示了如何获取 PDF 文档并生成相应的翻译 PDF 文档。 它使用 Amazon Textract 提取文本,并通过将翻译的文本作为图层添加到图像来创建翻译的 PDF。 它建立在帖子中显示的解决方案的基础上 使用 Amazon Textract 从扫描文档自动生成可搜索的 PDF.
该代码首先使用 Amazon Textract 获取每行文本。 Amazon Translate 用于获取翻译文本并保存翻译文本的几何形状。
字体大小计算如下,可以轻松配置:
翻译后的 PDF 是根据保存的几何图形和翻译后的文本创建的。 可以轻松配置翻译文本颜色的更改。
下图显示了使用原始格式翻译成西班牙语的文档(SampleOutput-es.pdf
).
下图显示了翻译后的西班牙语 PDF,没有任何格式(SampleOutput-min-es.pdf
).
处理时间
就业申请 pdf 大约需要 10 秒来提取、处理和渲染翻译后的 pdf。 文本重文档的处理时间,例如 独立宣言 PDF 花了不到一分钟。
价格
使用 Amazon Textract,您可以根据处理的页面和图像数量按需付费。 使用 Amazon Translate,您可以根据处理的文本字符数按需付费。 参考 Amazon Textract定价 和 亚马逊翻译定价 实际费用。
结论
本文展示了如何使用 Amazon Textract 和 Amazon Translate 生成翻译后的 PDF 文档,同时保留原始文档结构。 您可以选择对 Amazon Textract 结果进行后处理,以提高翻译质量,例如,提取的单词可以通过基于 ML 的拼写检查,例如 符咒 对于数据验证,可以使用聚类算法来保留阅读顺序。 您还可以使用 亚马逊增强AI (Amazon A2I) 构建人工审阅工作流程,您可以使用自己的私人员工来审阅原始和翻译后的 PDF 文档,以提供更高的准确性和上下文。 看 使用Amazon Translate和Amazon Augmented AI设计人工审查工作流 和 通过特定领域和特定语言的定制构建多语言文档翻译工作流程 以开始浏览网页。
作者简介
阿努巴·辛格哈尔 是 AWS 专业服务组织中 Amazon Web Services 的高级云架构师。
肖恩·劳伦斯 曾任 AWS 前端工程师。 他在 AWS 专业服务组织和 Amazon 隐私团队中专门从事前端开发。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 汽车/电动汽车, 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 块偏移量。 现代化环境抵消所有权。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :是
- :不是
- :在哪里
- $UP
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- 关于
- ACCESS
- 账号管理
- 横过
- 实际
- 添加
- 额外
- 地址
- 实惠
- 算法
- 允许
- 还
- Amazon
- 亚马逊Textract
- 亚马逊翻译
- 亚马逊网络服务
- an
- 和
- 任何
- 阿帕奇
- 应用领域
- 的途径
- 适当
- 架构
- 保健
- AS
- At
- 增强
- 自动化
- 自动
- 可使用
- AWS
- AWS专业服务
- 基于
- BE
- 作为
- 之间
- 超越
- 黑色
- 阻止
- 吹氣梢
- 盒子
- 建立
- 建立
- 企业
- by
- 计算
- CAN
- 能力
- 例
- 更改
- 字符
- 字符识别
- 字符
- 云端技术
- 集群
- 码
- 颜色
- 沟通
- 完成
- 配置
- 包含
- 内容
- Contents
- 上下文
- 矫正
- 相应
- 经济有效
- 成本
- 创建信息图
- 创建
- 创建
- 目前
- 定制
- 定制
- data
- 提供
- 演示
- 部署
- 期望
- 细节
- 详情
- 研发支持
- 不同
- 难
- 不同
- 文件
- 文件
- 不会
- 两
- 每
- 更容易
- 容易
- 努力
- 其他
- 雇用
- enable
- 结束
- 工程师
- 英语
- 例子
- 例子
- 昂贵
- 提取
- 提取物
- false
- 高效率
- 填
- 金融
- 找到最适合您的地方
- (名字)
- 浮动
- 重点
- 以下
- 如下
- 针对
- 以前
- 形式
- 发现
- 法语
- 止
- 前
- 前端
- 前端开发
- ,
- 充分
- 生成
- 发电
- 德语
- 得到
- GitHub上
- 全球
- Go
- GOES
- 有
- he
- 医疗保健
- 重
- 高度
- 相关信息
- 高品质
- 别墅
- 创新中心
- How To
- HTML
- HTTP
- HTTPS
- 人
- 身份标识
- 鉴定
- if
- 图片
- 图片
- 改善
- in
- 其他
- 包括
- 包含
- 行业
- 输入
- 集成
- 成
- IT
- 它的
- 爪哇岛
- 语言
- 语言
- 大
- 层
- 学习用品
- 学习
- 最少
- 左
- 减
- Level
- 库
- 自学资料库
- 范围
- Line
- 线
- 清单
- 本地
- 逻辑
- 看
- 失去
- 机
- 机器学习
- 使
- 管理
- 手册
- 许多
- 可能..
- 医生
- 分钟
- ML
- 修改
- 更多
- 名称
- 需求
- 打印车票
- 全新
- 数
- 对象
- OCR
- of
- 经常
- on
- 点播
- 开放源码
- 操作
- 光学字符识别
- or
- 秩序
- 组织
- 原版的
- 其他名称
- 产量
- 己
- 页
- 网页
- 对
- 通过
- 执行
- 权限
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 葡萄牙语
- 位置
- 帖子
- 呈现
- 隐私
- 私立
- 特权
- 过程
- 处理
- 处理
- 所以专业
- 代码编程
- 编程语言
- 提供
- 提供
- 出版
- 质量
- 很快
- 阅读
- 承认
- 建议
- 记录
- 地区
- 监管
- 可靠
- 业务报告
- 要求
- 岗位要求
- 需要
- 受限
- 成果
- 保留
- 护
- 回报
- 检讨
- 运行
- 保存
- 可扩展性
- 浏览
- 秒
- 部分
- 看到
- 前辈
- 服务
- 特色服务
- 集
- 应该
- 显示
- 显示
- 如图
- 作品
- 类似
- 简易
- 情况
- 尺寸
- 放慢
- 方案,
- 来源
- 西班牙语
- 专门
- 具体的
- 独立
- 开始
- 步骤
- 存储
- 商店
- 串
- 结构体
- 这样
- 支持
- 支持
- 行李牌
- 采取
- 税
- 团队
- 测试
- 比
- 这
- 他们
- 然后
- 那里。
- 博曼
- Free Introduction
- 通过
- 次
- 至
- 了
- 最佳
- 翻译
- 翻译
- 理解
- 独特
- 使用
- 用过的
- 用户
- 使用
- 运用
- 利用
- 验证
- 验证
- 各种
- 各个
- 确认
- 垂直
- 查看
- 卷
- 是
- we
- 卷筒纸
- Web服务
- 井
- 什么是
- 这
- 而
- 白色
- 宽度
- 中
- 也完全不需要
- 话
- 工作流程
- 工作流程
- 劳动力
- 合作
- 书面
- 完全
- 您一站式解决方案
- 和风网