2022H2 Amazon Textract のリリースの概要

ドキュメントは、金融、医療、法律、不動産などの多くの業界で、記録管理、コミュニケーション、コラボレーション、トランザクションの主要なツールです。 毎年処理される数百万件の住宅ローン申請書と数億件の W2 納税申告書は、そのような文書のほんの一例です。

重要なビジネス データは、スキャンされた画像や PDF などの非構造化ドキュメントでロック解除されたままになり、人間にこのデータやレガシーを読み取らせようとします。 OCR 退屈で、費用がかかり、エラーが発生しやすいです。

これが私たちが立ち上げた理由です アマゾンテキストラック 2019 年には、AI を活用した退屈なドキュメント処理ワークフローを自動化するのに役立ちます。 Amazon Textract は、あらゆるドキュメントから印刷されたテキスト、手書き、およびデータを自動的に抽出します。

Amazon Textract は、フィードバックに基づいてサービスを継続的に改善しています。

この投稿では、四半期ごとにリリースされる Amazon Textract サービスの機能と改善点を共有します。

2022 – 第 4 四半期

貸出を分析してローン ドキュメントの処理を加速する

Amazon Textract の Analyze Lending 機能は、住宅ローンのドキュメント処理を自動化してビジネスの効率を高め、コストを削減し、迅速にスケーリングするのに役立つマネージド API です。 Analyze Lending は、ローン パッケージからの情報の分類と抽出を完全に自動化します。 住宅ローンのドキュメントを Analyze Lending API にアップロードするだけで、トレーニング済みの機械学習モデルが自動的にドキュメントの種類ごとに分類および分割し、住宅ローンのパケットから重要な情報フィールドを抽出します。 この機能の詳細については、投稿をご覧ください Amazon Textract を使用した住宅ローン データの分類と抽出.

あらゆる文書の署名を検出する機能

この機能により、Amazon Textract は、ローン申請書、小切手、請求書などのドキュメントの手書きの署名、電子署名、およびイニシャルを検出する機能を提供します。 署名機能は、 AnalyzeDocument API。 人間のレビュー担当者の必要性を減らし、コストを削減し、時間を節約し、ドキュメント処理のためのスケーラブルなソリューションを構築するのに役立ちます。 AnalyzeDocument Signatures は、検出されたシグネチャの場所と信頼スコアを提供します。 この機能は、スタンドアロンで使用することも、他の AnalyzeDocument 機能と組み合わせて使用​​することもできます。 Signatures は、さまざまな財務、保険、および税務書類で事前にトレーニングされています。 この機能の使用方法について詳しくは、 ドキュメント AnalyzeDocument APIです。

AnalyzeDocument Forms のボックス化されたフォームと E13B フォントの機能強化

Amazon Textract は、 AnalyzeDocument APIです。

これらの更新により、全体的なキーと値のペアの抽出精度が向上し、特に、税金、入国管理、およびその他のフォームで一般的に見られる XNUMX 文字のボックス形式でキャプチャされたデータの抽出が改善されます。 Amazon Textract は、これらの XNUMX 文字のボックス形式の知識を利用して、キーと値のペアの抽出でより高い精度を提供できるようになりました。

さらに、預金小切手に一般的に見られる E13B フォントのサポート、銀行の書類に見られる国際銀行口座番号 (IBAN) の検出精度の向上、長い単語 (電子メール アドレスなど) を AnalyzeDocument API。 保険、ヘルスケア、銀行などのさまざまな業界の企業が、これらのドキュメントをビジネス プロセスで利用しており、 AnalyzeDocument APIです。

AnalyzeExpense API が新しいフィールドと OCR 出力を追加

の更新 AnalyzeExpense API は、正規化されたフィールドの数を 40 以上に増やしました。新しくサポートされた正規化されたフィールドには、ベンダー アドレスなどの概要フィールドや、製品コードなどの項目フィールドが含まれます。 この新しい機能を使用すると、必要な情報を直接抽出して、複雑な後処理コードの作成と保守にかかる時間を節約できます。 新しいフィールドのサポートに加えて、以前のバージョンで既にサポートされていたベンダー名や合計などのフィールドの精度がさらに向上しました。

正規化されたキーと値のペアと通常のキーと値のペアに加えて、 AnalyzeExpense API 応答で OCR 出力全体を提供するようになりました。 XNUMX つの API リクエストで、キーと値のペアと生の OCR 抽出物の両方を取得できます。 についてもっと知る AnalyzeExpense のAPI 請求書と領収書の分析.

ID の機械可読ゾーン コードのサポートと OCR 出力を分析する

Analyze ID は、米国パスポートの機械可読ゾーン (MRZ) コードを抽出するためのサポートを追加します。 これは、ドキュメント番号、生年月日、発行日など、米国のパスポートで抽出できる他のフィールドに加えて、合計 10 フィールドです。 米国の運転免許証から、名、姓、住所などの推定フィールドを含む 19 のフィールドを引き続き抽出できます。 新しいMRZコードフィールドのサポートに加えて、以前のバージョンですでにサポートされていた有効期限や出生地などのフィールドの精度をさらに向上させました.

このリリースでは、正規化されたキーと値のペアに加えて、Analyze ID が API 応答で OCR 出力全体を提供します。 XNUMX つの API リクエストで、キーと値のペアと生の OCR 抽出物の両方を取得できます。 Analyze ID API の詳細については、 本人確認書類の分析.

2022 – 第 3 四半期

テキスト (OCR) 抽出の精度向上

経由で利用可能な最新のテキスト (OCR) 抽出モデル DetectDocumentText API により、単語と行の抽出精度が向上します。 また、Amazon Textract は、小切手に一般的に見られる E13B フォント抽出のサポート、銀行の書類に見られる IBAN 番号のサポートを追加し、E メールアドレスなどの長い単語の精度を向上させました。 ローンチの詳細については、 Amazon Textract がテキスト抽出機能の更新を発表.

フォーム抽出の精度向上

Amazon Textract は、一部の CMS (Center for Medicare and Medicaid) ヘルスケア、IRS 税、ACORD 保険フォームなどの一貫したレイアウトを使用して、標準化されたドキュメントのキーと値のペアの抽出精度を向上させます。 これらのドキュメントは、密集して複雑なレイアウトのため、従来から情報を抽出するのが困難でした。 Amazon Textract は、これらの標準化された形式に関する知識を利用して、キーと値のペアの抽出でより高い精度を提供できるようになりました。 保険、ヘルスケア、銀行などの業界の企業は、フォーム抽出機能を使用すると、この更新プログラムの利点を自動的に確認できます。 詳細については、次を参照してください。 Amazon Textract がフォーム抽出機能の品質更新を発表.

AWS サービスクォータとの統合

Amazon Textract のすべてのサービス クォータを積極的に管理できるようになりました。 AWS サービスのクォータ コンソール。 Service Quotas を使用すると、クォータの引き上げリクエストを自動的に処理できるようになり、ほとんどの場合、承認時間が短縮されます。 デフォルトのクォータ値の表示に加えて、特定のリージョンのアカウントに適用されたクォータ値、クォータごとの履歴使用率メト​​リックを表示し、特定のクォータの使用率が構成可能なしきい値を超えたときに通知するようにアラームを設定できるようになりました。

また、使用できるようになりました Amazon Textract クォータ計算機 AWS Service Quotas コンソールからクォータ引き上げリクエストを直接送信する前に、ワークロードのクォータ要件を簡単に見積もることができます。 詳細については、次を参照してください。 Amazon Textract のセルフサービス クォータ管理とより高いデフォルト サービス クォータの導入.

Amazon Textract のデフォルト サービス クォータの増加

Amazon Textract では、複数の主要な AWS リージョンで、いくつかの非同期および同期 API オペレーションのデフォルト サービス クォータが引き上げられました。 具体的には、より高いデフォルト サービス クォータを利用できるようになりました。 AnalyzeDocument および DetectDocumentText 米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (ムンバイ)、および欧州 (アイルランド) リージョンでの API 非同期および同期操作。 詳細については、を参照してください。 Amazon Textract のセルフサービス クォータ管理とより高いデフォルト サービス クォータの導入.

Amazon Textract 非同期 API でのジョブ処理時間の短縮

Amazon Textract は同期を提供します API ような ドキュメントテキストの検出, ドキュメントの分析, 分析費用, 分析ID、実際のドキュメント レスポンスを返す、および非同期 API ような startdocumentTextDetection, ドキュメント分析の開始, 経費分析の開始これにより、複数ページのドキュメントを送信し、ジョブの処理が完了したときに通知を受け取ることができます。

過去に、ユースケースによって非同期ジョブの処理時間に大きなばらつきがあることがよくあるとお客様から言われていました。 お客様からのフィードバックに基づいて、より低い変動性でかかる非同期ジョブ処理時間のより厳しい境界を期待できるように、エクスペリエンスを改善しました。

まとめ

Amazon Textract は、お客様からのフィードバックに基づいて継続的に改善され、新しい機能やサービスの改善が頻繁にリリースされます。

新機能は、特定の地域で機能が言及されていない限り、すべての地域で利用できます。

Amazon Textract を今すぐご自身でお試しください。 AmazonTextractコンソール または AWSコマンドラインインターフェイス (AWS CLI)または AWS開発者ツール!


著者について

2022H2 Amazon Textract のリリース概要 PlatoBlockchain Data Intelligence。垂直検索。あい。マルティン・シャーデ Amazon Textract チームのシニア ML 製品 SA です。 彼は、インターネット関連のテクノロジー、エンジニアリング、ソリューションの設計で 20 年以上の経験を持ち、2014 年に AWS に入社しました。最初は、AWS サービスの最も効率的でスケーラブルな使用について AWS の大規模な顧客の一部をガイドし、その後 AI/ML に焦点を当てました。コンピューター ビジョンの研究を行っており、現在はドキュメントから情報を抽出することに夢中になっています。

タイムスタンプ:

より多くの AWS機械学習