Amazon Textract を使用して領収書と請求書の処理パイプラインを構築する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

今日のビジネス環境において、組織は財務プロセスを最適化し、効率を高め、コスト削減を推進する方法を常に模索しています。改善の余地が大きい分野の 1 つは買掛金です。大まかに言うと、買掛金プロセスには、請求書の受信とスキャン、スキャンされた請求書からの関連データの抽出、検証、承認、アーカイブが含まれます。 2 番目のステップ (抽出) は複雑になる場合があります。請求書と領収書はそれぞれ見た目が異なります。ラベルは不完全で一貫性がありません。価格、ベンダー名、ベンダーの住所、支払い条件などの最も重要な情報は、明示的にラベル付けされていないことが多く、文脈に基づいて解釈する必要があります。人間のレビュー担当者を使用してデータを抽出する従来のアプローチは、時間がかかり、エラーが発生しやすく、拡張性がありません。

この投稿では、買掛金プロセスを自動化する方法を示します。アマゾンテキストラックデータ抽出用。また、抽出、検証、アーカイブ、インテリジェントな検索を可能にする請求書の自動化パイプラインを構築するためのリファレンスアーキテクチャも提供します。

ソリューションの概要

次のアーキテクチャ図は、領収書と請求書の処理ワークフローの段階を示しています。スキャンされた請求書と領収書を安全に収集して保存するための文書キャプチャ段階から始まります。次の段階は抽出フェーズで、収集した請求書と領収書を Amazon Textract に渡します。 AnalyzeExpense ベンダー名、請求書受領日、注文日、支払額、支払額などのテキスト間の財務関連関係を抽出する API。次の段階では、事前定義された経費ルールを使用して、領収書を自動的に承認するか拒否するかを決定します。承認されたドキュメントと拒否されたドキュメントは、 Amazon シンプルストレージサービス (Amazon S3) バケット。承認されたドキュメントの場合、抽出されたすべてのフィールドと値を次を使用して検索できます。 AmazonOpenSearchサービス。 OpenSearch ダッシュボードを使用して、インデックス付けされたメタデータを視覚化できます。承認されたドキュメントは、次の場所に移動されるように設定されています。 Amazon S3 インテリジェント階層化 S3 ライフサイクルポリシーを使用した長期保存とアーカイブ。

ソリューションアーキテクチャ

次のセクションでは、ソリューションを作成するプロセスについて説明します。

前提条件

このソリューションを展開するには、次のものが必要です。

AWSアカウント.
An AWS クラウド9 環境。 AWS Cloud9 は、ブラウザだけでコードを作成、実行、デバッグできるクラウドベースの統合開発環境 (IDE) です。これには、コードエディター、デバッガー、ターミナルが含まれています。

AWS Cloud9 環境を作成するには、名前と説明を入力します。それ以外はすべてデフォルトのままにしておきます。 AWS Cloud9 コンソールで IDE リンクを選択して、IDE に移動します。これで、AWS Cloud9 環境を使用する準備が整いました。

ソリューションを展開する

ソリューションをセットアップするには、 AWSクラウド開発キット (AWS CDK) をデプロイするには AWS CloudFormation スタック。

AWS Cloud9 IDE ターミナルで、 GitHubリポジトリそして依存関係をインストールします。次のコマンドを実行して、 InvoiceProcessor スタック：

git clone https://github.com/aws-samples/amazon-textract-invoice-processor.git
pip install -r requirements.txt
cdk bootstrap
cdk deploy

GitHub リポジトリのデフォルト構成設定を使用すると、デプロイには約 25 分かかります。追加の出力情報は、AWS CloudFormation コンソールでも入手できます。

AWS CDK のデプロイが完了したら、経費検証ルールを Amazon DynamoDB テーブル。同じ AWS Cloud9 ターミナルを使用して、次のコマンドを実行できます。

aws dynamodb execute-statement --statement "INSERT INTO "$(aws cloudformation list-exports --query 'Exports[?Name==`InvoiceProcessorWorkflow-RulesTableName`].Value' --output text)" VALUE {'ruleId': 1, 'type': 'regex', 'field': 'INVOICE_RECEIPT_ID', 'check': '(?i)[0-9]{3}[a-z]{3}[0-9]{3}$', 'errorTxt': 'Receipt number is not valid. It is of the format: 123ABC456'}"
aws dynamodb execute-statement --statement "INSERT INTO "$(aws cloudformation list-exports --query 'Exports[?Name==`InvoiceProcessorWorkflow-RulesTableName`].Value' --output text)" VALUE {'ruleId': 2, 'type': 'regex', 'field': 'PO_NUMBER', 'check': '(?i)[a-z0-9]+$', 'errorTxt': 'PO number is not present'}"

で始まる S3 バケット内 invoiceprocessorworkflow-invoiceprocessorbucketf1-*、アップロードフォルダーを作成します。

In アマゾンコグニートという名前の既存のユーザープールがすでに存在しているはずです。 OpenSearchResourcesCognitoUserPool*。このユーザープールを使用して新しいユーザーを作成します。

Amazon Cognito コンソールで、ユーザープールに移動します。 OpenSearchResourcesCognitoUserPool*.
新しい Amazon Cognito ユーザーを作成します。
選択したユーザー名とパスワードを入力し、後で使用できるようにメモしておきます。
書類をアップロードするランダム_請求書1 およびランダム_請求書2 S3へ uploads フォルダーをクリックしてワークフローを開始します。

次に、文書処理の各ステップを詳しく見てみましょう。

ドキュメントキャプチャ

顧客は、さまざまなベンダーからのさまざまな形式の請求書や領収書を処理します。これらの文書は、ハードコピー、ファイルストレージにアップロードされたスキャンコピー、または共有ストレージデバイスなどのチャネルを通じて受信されます。ドキュメントのキャプチャ段階では、スキャンした領収書と請求書のすべてのコピーを、S3 バケットなどの拡張性の高いストレージに保存します。

サンプル請求書のアップロード

抽出プロセス

次の段階は抽出フェーズで、収集した請求書と領収書を Amazon Textract に渡します。 AnalyzeExpense ベンダー名、請求書受領日、注文日、支払額/支払額などのテキスト間の財務関連関係を抽出する API。

分析費用請求書および領収書ドキュメントの処理専用の API です。これは、同期 API としても非同期 API としても使用できます。同期 API を使用すると画像をバイト形式で送信でき、非同期 API を使用するとファイルを JPG、PNG、TIFF、PDF 形式で送信できます。の AnalyzeExpense API 応答は、次の 3 つの異なるセクションで構成されます。

概要フィールド – このセクションには、正規化されたキーと明示的に言及されたキーの両方とその値が含まれます。 AnalyzeExpense ベンダー名やベンダー住所などの連絡先関連情報のキー、納税者 ID などの納税者 ID 関連キー、支払額や割引などの支払い関連キー、請求書 ID、配達日、および請求書 ID、配達日などの一般キーを正規化します。口座番号。正規化されていないキーは、キーと値のペアとして概要フィールドに表示されます。サポートされている経費フィールドの完全なリストについては、以下を参照してください。請求書と領収書の分析.
ラインアイテム – このセクションには、商品説明、単価、数量、製品コードなどの正規化された品目キーが含まれます。
OCRブロック – ブロックには、請求書ページから抽出した生のテキストが含まれています。生のテキスト抽出は、後処理や、概要フィールドや品目フィールドの一部としてカバーされていない情報の識別に使用できます。

この投稿では Amazon Textract IDP CDK コンストラクト (インテリジェント文書処理 (IDP) ワークフローのインフラストラクチャを定義する AWS CDK コンポーネント)。これにより、ユースケース固有のカスタマイズ可能な IDP ワークフローを構築できます。コンストラクトとサンプルは、AWS 上で IDP プロセスを定義できるようにするコンポーネントのコレクションであり、 GitHubの。使用される主な概念は、AWS CDK 構造、実際の AWS CDK スタック, AWSステップ関数.

次の図は、Step Functions のワークフローを示しています。

ステップ関数のワークフロー

抽出ワークフローには次の手順が含まれます。

InvoiceProcessor-Decider - あん AWSラムダ入力ドキュメント形式が Amazon Textract でサポートされているかどうかを検証する関数。サポートされている形式の詳細については、を参照してください。入力ドキュメント.
ドキュメントスプリッター – ドキュメントから 2,500 ページ (最大) のチャンクを生成し、大きな複数ページのドキュメントを処理できる Lambda 関数。
マップの状態 – 各チャンクを並列処理する Lambda 関数。
TextractAsync – このタスクは、次の非同期 API を使用して Amazon Textract を呼び出します。ベストプラクティス　 Amazon シンプル通知サービス (Amazon SNS) の通知と使用 OutputConfig Amazon Textract JSON 出力を、前に作成した S3 バケットに保存します。これは XNUMX つの Lambda 関数で構成されます。XNUMX つは処理のためにドキュメントを送信する関数、もう XNUMX つは SNS 通知でトリガーされる関数です。
TextractAsyncToJSON2 - なぜなら TextractAsync タスクは複数のページ分割された出力ファイルを生成できます。 TextractAsyncToJSON2 プロセスにより、それらが XNUMX つの JSON ファイルに結合されます。

次の 3 つのステップの詳細については、次のセクションで説明します。

検証と承認

検証段階では、 SetMetaData Lambda 関数は、アップロードされたファイルが DynamoDB テーブルで以前に設定されたルールに従って有効な経費であるかどうかを検証します。この投稿では、次のサンプルルールを使用します。

次の場合、検証は成功します。 INVOICE_RECEIPT_ID 存在し、正規表現と一致します (?i)[0-9]{3}[a-z]{3}[0-9]{3}$ および if PO_NUMBER 存在し、正規表現と一致します (?i)[a-z0-9]+$
次のいずれかの場合、検証は失敗します。 PO_NUMBER or INVOICE_RECEIPT_ID 文書に誤りがあるか欠落しています。

ファイルが処理された後、経費検証機能は入力ファイルを次のいずれかに移動します。 approved or declined 同じ S3 バケット内のフォルダー。

S3出力

このソリューションの目的のために、DynamoDB を使用して経費検証ルールを保存します。ただし、このソリューションを変更して、独自のまたは商用の経費検証または管理ソリューションと統合することができます。

インテリジェントなインデックスと検索

OpenSearchPushInvoke Lambda 関数では、抽出された経費メタデータが OpenSearch Service インデックスにプッシュされ、検索に使用できるようになります。

最終 TaskOpenSearchMapping ステップはコンテキストをクリアします。そうしないと、 Step Functions クォータタスク、状態、またはワークフロー実行の最大入力または出力サイズ。

OpenSearch サービスのインデックスが作成されると、OpenSearch ダッシュボードを介して抽出されたテキストからキーワードを検索できます。

OpenSearch ドキュメント検索

アーカイブ、監査、分析

請求書と領収書のライフサイクルとアーカイブを管理するには、S3 ライフサイクルルールを設定して、S3 オブジェクトを Standard から Intelligent-Tiering ストレージクラスに移行できます。 S3 Intelligent-Tiering はアクセスパターンを監視し、オブジェクトが 30 日間連続してアクセスされなかった場合、オブジェクトを自動的に低頻度アクセス層に移動します。 90 日間アクセスがなかった場合、オブジェクトはパフォーマンスへの影響や運用上のオーバーヘッドを発生させることなく、アーカイブインスタントアクセス層に移動されます。

監査と分析の場合、このソリューションは OpenSearch サービスを使用して請求書リクエストの分析を実行します。 OpenSearch Service を使用すると、ログ分析、アプリケーション検索、エンタープライズ検索など、さまざまなユースケースのデータを簡単に取り込み、保護、検索、集約、表示、分析できます。

OpenSearch ダッシュボードにログインし、次の場所に移動します。 スタック管理, 保存されたオブジェクト、を選択します インポート。選択する請求書.ndjson クローンされたリポジトリからファイルを選択し、 インポート。これにより、インデックスが事前設定され、視覚化が構築されます。

OpenSearch インポート

ページを更新して、次の場所に移動します ホーム, ダッシュボード、そして開く 請求書。フィルターを選択して適用し、時間枠を拡張して過去の請求書を調査できるようになりました。

OpenSearch ダッシュボード

クリーンアップ

領収書と請求書を処理するための Amazon Textract の評価が終了したら、作成したリソースをクリーンアップすることをお勧めします。次の手順を実行します。

S3 バケットからすべてのコンテンツを削除します invoiceprocessorworkflow-invoiceprocessorbucketf1-*.
AWS Cloud9 で、次のコマンドを実行して、Amazon Cognito リソースと CloudFormation スタックを削除します。

cognito_user_pool=$(aws cloudformation list-exports --query 'Exports[?Name==`InvoiceProcessorWorkflow-CognitoUserPoolId`].Value' --output text)
echo $cognito_user_pool
cdk destroy
aws cognito-idp delete-user-pool --user-pool-id $cognito_user_pool

作成した AWS Cloud9 環境を AWS Cloud9 コンソールから削除します。

まとめ

この投稿では、データ抽出に Amazon Textract を使用して請求書自動化パイプラインを構築し、検証、アーカイブ、検索のワークフローを作成する方法の概要を説明しました。の使用方法に関するコードサンプルを提供しました。 AnalyzeExpense 請求書から重要なフィールドを抽出するための API。

開始するには、Amazon Textract コンソールにサインインしてこの機能を試してください。 Amazon Textract の機能の詳細については、を参照してください。 Amazon Textract開発者ガイド or Textract リソース。 IDP の詳細については、AWS AI サービスを使用した IDP を参照してください。第1部および第2部投稿。

著者について

Amazon Textract を使用して領収書と請求書の処理パイプラインを構築する |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 スシャント・プラダン アマゾンウェブサービスのシニアソリューションアーキテクトとして、企業顧客をサポートしています。彼の興味と経験には、コンテナー、サーバーレステクノロジー、DevOps が含まれます。余暇には、スシャントは家族と一緒に屋外で時間を過ごすことを楽しんでいます。

Amazon Textract を使用して領収書と請求書の処理パイプラインを構築する |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 シビン・ミカエルラジ AWS Textract チームのシニアプロダクトマネージャーです。彼は、AWS のお客様向けの AI/ML ベースの製品の構築に注力しています。

Amazon Textract を使用して領収書と請求書の処理パイプラインを構築する |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 スプラカシュ・ダッタ アマゾンウェブサービスのシニアソリューションアーキテクトです。彼は、デジタルトランスフォーメーション戦略、アプリケーションのモダナイゼーションと移行、データ分析、機械学習に重点を置いています。彼は AWS の AI/ML コミュニティの一員であり、インテリジェントなドキュメント処理ソリューションを設計しています。

マラン・チャンドラセカラン は、アマゾンウェブサービスのシニアソリューションアーキテクトであり、企業顧客と協力しています。仕事以外では、旅行とテキサスヒルカントリーでバイクに乗るのが大好きです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/build-a-receipt-and-invoice-processing-pipeline-with-amazon-textract/

タイムスタンプ： 2024 年 3 月 26 日

タイムスタンプ： 2022 年 7 月 6 日

プラトン再発行

Amazon SageMaker で基盤モデルをデプロイし、TruEra で反復および監視する |アマゾンウェブサービス

Hugging Face (PyAnnote) 話者ダイアライゼーションモデルを Amazon SageMaker に非同期エンドポイントとしてデプロイする |アマゾンウェブサービス

Amazon SageMaker Canvas を使用してコードなしの機械学習のために 40 を超えるデータソースからデータをインポートする

XNUMX 段階の Amazon Rekognition Custom Labels モデルを使用した高解像度画像での欠陥検出 | アマゾンウェブサービス

Amazon Rekognition を使用して絶滅危惧種の個体群分散を検出する

Amazon Transcribe、Amazon Translate、AmazonPollyで言語の壁を打ち破る

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー