さまざまな業界の企業が、大量の PDF ドキュメントを作成、スキャン、保存しています。 多くの場合、コンテンツはテキストが多く、別の言語で書かれていることが多く、翻訳が必要です。 これに対処するには、これらの PDF 内のコンテンツを抽出し、迅速かつコスト効率よく翻訳する自動ソリューションが必要です。
多くの企業には多様な世界中のユーザーがおり、ユーザー間の言語を超えたコミュニケーションを可能にするためにテキストを翻訳する必要があります。 これは手作業であり、時間と費用がかかります。 元の文書の書式を維持しながら文書を翻訳する、スケーラブルで信頼性が高く、コスト効率の高いソリューションを見つける必要があります。
ヘルスケアなどの業種の場合、規制要件により、翻訳されたドキュメントには、機械翻訳されたドキュメントの有効性を検証するために追加の人間が関与する必要があります。
翻訳されたドキュメントが元の書式と構造を保持していない場合、そのコンテキストが失われます。 これにより、人間のレビュー担当者が検証して修正することが困難になる可能性があります。
この投稿では、ジオメトリベースのアプローチを使用して、元の文書構造と書式設定を保持しながら、スキャンした PDF から新しい翻訳済み PDF を作成する方法を示します。 アマゾンテキストラック, Amazon翻訳, アパッチPDFボックス.
ソリューションの概要
この投稿で紹介されているソリューションでは、次のコンポーネントを使用します。:
- アマゾンテキストラック – スキャンされた文書から印刷テキスト、手書き文字、その他のデータを自動的に抽出するフルマネージドの機械学習 (ML) サービス。単純な光学式文字認識 (OCR) を超えて、フォームや表からデータを識別、理解、抽出します。 Amazon Textract は、財務報告書、医療記録、納税フォームなど、さまざまなドキュメント内のテキストを検出できます。
- Amazon翻訳 – 高速、高品質、手頃な価格の言語翻訳を提供するニューラル機械翻訳サービス。 Amazon Translate は、翻訳コストを削減しながら、2,970 以上の言語ペアにわたる高品質のオンデマンド翻訳およびバッチ翻訳機能を提供します。
- PDF翻訳 – Java で書かれ、以下で公開されているオープンソース ライブラリ GitHub の AWS サンプル。 このライブラリには、Amazon Textract と Amazon Translate を使用して希望の言語で翻訳された PDF ドキュメントを生成するロジックが含まれています。 また、オープンソース Java ライブラリ Apache PDFBox を使用して PDF ドキュメントを作成します。 他のプログラミング言語でも同様の PDF 処理ライブラリを利用できます。たとえば、 ノード PDFBox.
機械翻訳の実行中に、名前や一意の識別子など、テキストの特定のセクションを翻訳から保護したい場合があります。 Amazon Translate ではタグの変更が可能で、翻訳しないテキストを指定できます。 Amazon Translate は形式のカスタマイズもサポートしているため、翻訳出力の形式のレベルをカスタマイズできます。
Amazon Textract の制限の詳細については、以下を参照してください。 Amazon Textract のクォータ.
このソリューションは、Amazon Textract で抽出できる言語に制限されており、現在は英語、スペイン語、イタリア語、ポルトガル語、フランス語、ドイツ語をサポートしています。 これらの言語は Amazon Translate でもサポートされています。 Amazon Translate でサポートされている言語の完全なリストについては、以下を参照してください。 サポートされている言語と言語コード.
次の PDF を使用して、テキストを英語からスペイン語に翻訳する例を示します。 このソリューションは、書式設定を行わずに翻訳されたドキュメントを生成することもサポートしています。 翻訳されたテキストの位置は維持されます。 ソースおよび翻訳された PDF ドキュメントは、次の場所にもあります。 AWSサンプルGitHubリポジトリ.
次のセクションでは、ローカル マシン上で変換コードを実行する方法を示し、変換コードを詳しく見ていきます。
前提条件
始める前に、AWS アカウントと AWSコマンドラインインターフェイス (AWS CLI)。 Textract や Translate などの AWS のサービスにアクセスするには、適切な IAM 権限が必要です。 最小権限のアクセス許可を利用することをお勧めします。 IAM 権限の詳細については、を参照してください。 IAM のポリシーとアクセス許可 と同様 Amazon Textract が IAM と連携する仕組み および Amazon Translate と IAM の連携方法.
ローカルマシンで変換コードを実行する
このソリューションは、PDF ドキュメントを抽出して翻訳するためのスタンドアロン Java コードに焦点を当てています。 これは、テストとカスタマイズを容易にして、最適なレンダリングの翻訳された PDF ドキュメントを取得するためです。 コードは自動ソリューションに統合され、AWS でデプロイおよび実行できます。 見る Amazon TranslateとAmazon Textractを使用したPDFドキュメントの翻訳 を使用するサンプル アーキテクチャの場合 Amazon シンプル ストレージ サービス (Amazon S3) ドキュメントを保存し、 AWSラムダ コードを実行します。
ローカル マシンでコードを実行するには、次の手順を実行します。 コード例は、 GitHubレポ。
- GitHub リポジトリを複製します。
- 次のコマンドを実行します。
- 次のコマンドを実行して、英語からスペイン語に翻訳します。
XNUMX つの翻訳された PDF ドキュメントがドキュメント フォルダーに作成されます。元の書式設定がある場合とない場合があります (SampleOutput-es.pdf
および SampleOutput-min-es.pdf
).
翻訳された PDF を生成するコード
次のコード スニペットは、PDF ドキュメントを取得し、対応する翻訳された PDF ドキュメントを生成する方法を示しています。 Amazon Textract を使用してテキストを抽出し、翻訳されたテキストをレイヤーとして画像に追加することで翻訳済み PDF を作成します。 投稿に示されているソリューションに基づいています Amazon Textract を使用して、スキャンしたドキュメントから検索可能な PDF を自動的に生成する.
このコードは、まず Amazon Textract を使用してテキストの各行を取得します。 Amazon Translate は、翻訳されたテキストを取得し、翻訳されたテキストのジオメトリを保存するために使用されます。
フォント サイズは次のように計算され、簡単に設定できます。
翻訳された PDF は、保存されたジオメトリと翻訳されたテキストから作成されます。 翻訳されたテキストの色の変更は簡単に設定できます。
次の画像は、元の書式でスペイン語に翻訳されたドキュメントを示しています (SampleOutput-es.pdf
).
次の画像は、書式設定なしでスペイン語に翻訳された PDF を示しています (SampleOutput-min-es.pdf
).
処理時間
雇用申請書 PDF の抽出、処理、翻訳された PDF のレンダリングには約 10 秒かかりました。 次のようなテキストの多いドキュメントの処理時間 独立宣言 PDF の作成には XNUMX 分もかかりませんでした。
費用
Amazon Textract では、処理されたページと画像の数に基づいて従量課金制で支払います。 Amazon Translate では、処理されたテキストの文字数に基づいて従量料金が発生します。 参照する AmazonTextractの価格 および Amazon翻訳の価格 実際の費用。
まとめ
この投稿では、Amazon Textract と Amazon Translate を使用して、元のドキュメント構造を保持しながら翻訳済み PDF ドキュメントを生成する方法を説明しました。 オプションで Amazon Textract の結果を後処理して翻訳の品質を向上させることができます。たとえば、抽出された単語を次のような ML ベースのスペルチェックに通すことができます。 シンボルスペル データ検証のために使用したり、読み取り順序を維持するためにクラスタリング アルゴリズムを使用したりできます。 も使用できます Amazon拡張AI (Amazon A2I) を使用して、人間によるレビュー ワークフローを構築します。このワークフローでは、独自のプライベート スタッフを使用して、元の PDF ドキュメントと翻訳された PDF ドキュメントをレビューして、より正確でコンテキストを提供できます。 見る Amazon TranslateとAmazon Augmented AIを使用した人間によるレビューワークフローの設計 および ドメイン固有および言語固有のカスタマイズによる多言語ドキュメント翻訳ワークフローの構築 始めるために。
著者について
アヌバ・シンハル は、AWS プロフェッショナル サービス組織のアマゾン ウェブ サービスのシニア クラウド アーキテクトです。
ショーン・ローレンス 以前は AWS のフロントエンド エンジニアでした。 彼は、AWS プロフェッショナル サービス組織と Amazon プライバシー チームでフロントエンド開発を専門としていました。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 自動車/EV、 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- ブロックオフセット。 環境オフセット所有権の近代化。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :は
- :not
- :どこ
- $UP
- 1
- 10
- 100
- 視聴者の38%が
- 20
- 7
- 970
- a
- 私たちについて
- アクセス
- 精度
- 越えて
- 実際の
- 追加
- NEW
- 住所
- 手頃な価格の
- アルゴリズム
- ことができます
- また
- Amazon
- アマゾンテキストラック
- Amazon翻訳
- Amazon Webサービス
- an
- および
- どれか
- アパッチ
- 申し込み
- アプローチ
- 適切な
- 建築
- です
- AS
- At
- 増強された
- 自動化
- 自動的に
- 利用できます
- AWS
- AWSプロフェッショナルサービス
- ベース
- BE
- さ
- の間に
- 越えて
- ブラック
- ブロック
- ブロック
- ボックス
- ビルド
- 構築します
- ビジネス
- by
- 計算された
- 缶
- 機能
- 例
- 変更
- 文字
- 文字認識
- 文字
- クラウド
- クラスタリング
- コード
- カラー
- コミュニケーション
- コンプリート
- 設定された
- 含まれています
- コンテンツ
- 中身
- コンテキスト
- 補正
- 対応する
- コスト効率の良い
- コスト
- 作ります
- 作成した
- 作成します。
- 現在
- カスタム化
- カスタマイズ
- データ
- 提供します
- 実証します
- 展開します
- 希望
- 詳細
- 細部
- 開発
- 異なります
- 難しい
- 異なる
- ドキュメント
- ドキュメント
- そうではありません
- 原因
- 各
- 容易
- 簡単に
- 努力
- ほかに
- 雇用
- enable
- end
- エンジニア
- 英語
- 例
- 例
- 高価な
- エキス
- 抽出物
- false
- スピーディー
- 埋める
- ファイナンシャル
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- フロート
- 焦点を当てて
- フォロー中
- 次
- 以前は
- フォーム
- 発見
- フランス語
- から
- フロント
- フロントエンド
- フロントエンド開発
- フル
- 完全に
- 生成する
- 生成
- ドイツ語
- 取得する
- GitHubの
- グローバル
- Go
- ゴエス
- 持ってる
- he
- ヘルスケア
- ヘビー
- 高さ
- こちら
- 高品質
- お家の掃除
- 認定条件
- How To
- HTML
- HTTP
- HTTPS
- 人間
- 識別子
- 識別する
- if
- 画像
- 画像
- 改善します
- in
- その他の
- include
- 含めて
- 産業
- 統合された
- に
- IT
- ITS
- Java
- 言語
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 大
- 層
- LEARN
- 学習
- 最低
- 左
- less
- レベル
- ライブラリ
- 図書館
- 制限
- LINE
- ライン
- リスト
- ローカル
- ロジック
- 見て
- 失われます
- 機械
- 機械学習
- make
- マネージド
- マニュアル
- 多くの
- 五月..
- 医療の
- 分
- ML
- 修正
- 他には?
- 名
- 必要
- 必要とされる
- 新作
- 数
- オブジェクト
- OCR
- of
- 頻繁に
- on
- オンデマンド
- オープンソース
- 操作
- 光学式文字認識
- or
- 注文
- 組織
- オリジナル
- その他
- 出力
- 自分の
- ページ
- ページ
- 足
- 渡された
- 支払う
- 実行
- パーミッション
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポルトガル語
- 位置
- ポスト
- PLM platform.
- プライバシー
- プライベート
- 特権
- プロセス
- 処理済み
- 処理
- プロ
- プログラミング
- プログラミング言語
- 提供します
- は、大阪で
- 公表
- 品質
- すぐに
- リーディング
- 認識
- 推奨する
- 記録
- 地域
- レギュレータ
- 信頼性のある
- レポート
- 必要とする
- 要件
- 必要
- 制限されました
- 結果
- リテンションを維持
- 保持
- return
- レビュー
- ラン
- Save
- ド電源のデ
- スキャン
- 秒
- セクション
- シニア
- サービス
- サービス
- セッションに
- すべき
- 表示する
- 示されました
- 示す
- 作品
- 同様の
- 簡単な拡張で
- 状況
- サイズ
- 遅く
- 溶液
- ソース
- スペイン語
- 専門の
- 特定の
- スタンドアロン
- 開始
- ステップ
- ストレージ利用料
- 店舗
- 文字列
- 構造
- そのような
- サポート
- サポート
- TAG
- 取る
- 税金
- チーム
- テスト
- より
- それ
- ソース
- それら
- その後
- そこ。
- ボーマン
- この
- 介して
- 時間
- 〜へ
- 取った
- top
- 翻訳する
- インタビュー
- わかる
- ユニーク
- つかいます
- 中古
- users
- 使用されます
- 活用
- 検証
- 多様
- さまざまな
- 確認する
- 垂直
- 詳しく見る
- ボリューム
- ました
- we
- ウェブ
- Webサービス
- WELL
- この試験は
- which
- while
- 白
- 幅
- 以内
- 無し
- 言葉
- ワークフロー
- ワークフロー
- 労働人口
- 作品
- 書かれた
- You
- あなたの
- ゼファーネット