今日のビジネス環境において、組織は財務プロセスを最適化し、効率を高め、コスト削減を推進する方法を常に模索しています。改善の余地が大きい分野の 1 つは買掛金です。大まかに言うと、買掛金プロセスには、請求書の受信とスキャン、スキャンされた請求書からの関連データの抽出、検証、承認、アーカイブが含まれます。 2 番目のステップ (抽出) は複雑になる場合があります。請求書と領収書はそれぞれ見た目が異なります。ラベルは不完全で一貫性がありません。価格、ベンダー名、ベンダーの住所、支払い条件などの最も重要な情報は、明示的にラベル付けされていないことが多く、文脈に基づいて解釈する必要があります。人間のレビュー担当者を使用してデータを抽出する従来のアプローチは、時間がかかり、エラーが発生しやすく、拡張性がありません。
この投稿では、買掛金プロセスを自動化する方法を示します。 アマゾンテキストラック データ抽出用。また、抽出、検証、アーカイブ、インテリジェントな検索を可能にする請求書の自動化パイプラインを構築するためのリファレンス アーキテクチャも提供します。
ソリューションの概要
次のアーキテクチャ図は、領収書と請求書の処理ワークフローの段階を示しています。スキャンされた請求書と領収書を安全に収集して保存するための文書キャプチャ段階から始まります。次の段階は抽出フェーズで、収集した請求書と領収書を Amazon Textract に渡します。 AnalyzeExpense
ベンダー名、請求書受領日、注文日、支払額、支払額などのテキスト間の財務関連関係を抽出する API。次の段階では、事前定義された経費ルールを使用して、領収書を自動的に承認するか拒否するかを決定します。承認されたドキュメントと拒否されたドキュメントは、 Amazon シンプル ストレージ サービス (Amazon S3) バケット。承認されたドキュメントの場合、抽出されたすべてのフィールドと値を次を使用して検索できます。 AmazonOpenSearchサービス。 OpenSearch ダッシュボードを使用して、インデックス付けされたメタデータを視覚化できます。承認されたドキュメントは、次の場所に移動されるように設定されています。 Amazon S3 インテリジェント階層化 S3 ライフサイクル ポリシーを使用した長期保存とアーカイブ。
次のセクションでは、ソリューションを作成するプロセスについて説明します。
前提条件
このソリューションを展開するには、次のものが必要です。
- AWSアカウント.
- An AWS クラウド9 環境。 AWS Cloud9 は、ブラウザだけでコードを作成、実行、デバッグできるクラウドベースの統合開発環境 (IDE) です。これには、コード エディター、デバッガー、ターミナルが含まれています。
AWS Cloud9 環境を作成するには、名前と説明を入力します。それ以外はすべてデフォルトのままにしておきます。 AWS Cloud9 コンソールで IDE リンクを選択して、IDE に移動します。これで、AWS Cloud9 環境を使用する準備が整いました。
ソリューションを展開する
ソリューションをセットアップするには、 AWSクラウド開発キット (AWS CDK) をデプロイするには AWS CloudFormation スタック。
- AWS Cloud9 IDE ターミナルで、 GitHubリポジトリ そして依存関係をインストールします。次のコマンドを実行して、
InvoiceProcessor
スタック:
GitHub リポジトリのデフォルト構成設定を使用すると、デプロイには約 25 分かかります。追加の出力情報は、AWS CloudFormation コンソールでも入手できます。
- AWS CDK のデプロイが完了したら、経費検証ルールを Amazon DynamoDB テーブル。同じ AWS Cloud9 ターミナルを使用して、次のコマンドを実行できます。
- で始まる S3 バケット内
invoiceprocessorworkflow-invoiceprocessorbucketf1-*
、アップロードフォルダーを作成します。
In アマゾンコグニートという名前の既存のユーザー プールがすでに存在しているはずです。 OpenSearchResourcesCognitoUserPool*
。このユーザー プールを使用して新しいユーザーを作成します。
- Amazon Cognito コンソールで、ユーザープールに移動します。
OpenSearchResourcesCognitoUserPool*
. - 新しい Amazon Cognito ユーザーを作成します。
- 選択したユーザー名とパスワードを入力し、後で使用できるようにメモしておきます。
- 書類をアップロードする ランダム_請求書1 および ランダム_請求書2 S3へ
uploads
フォルダーをクリックしてワークフローを開始します。
次に、文書処理の各ステップを詳しく見てみましょう。
ドキュメントキャプチャ
顧客は、さまざまなベンダーからのさまざまな形式の請求書や領収書を処理します。これらの文書は、ハードコピー、ファイルストレージにアップロードされたスキャンコピー、または共有ストレージデバイスなどのチャネルを通じて受信されます。ドキュメントのキャプチャ段階では、スキャンした領収書と請求書のすべてのコピーを、S3 バケットなどの拡張性の高いストレージに保存します。
抽出プロセス
次の段階は抽出フェーズで、収集した請求書と領収書を Amazon Textract に渡します。 AnalyzeExpense
ベンダー名、請求書受領日、注文日、支払額/支払額などのテキスト間の財務関連関係を抽出する API。
分析費用 請求書および領収書ドキュメントの処理専用の API です。これは、同期 API としても非同期 API としても使用できます。同期 API を使用すると画像をバイト形式で送信でき、非同期 API を使用するとファイルを JPG、PNG、TIFF、PDF 形式で送信できます。の AnalyzeExpense
API 応答は、次の 3 つの異なるセクションで構成されます。
- 概要フィールド – このセクションには、正規化されたキーと明示的に言及されたキーの両方とその値が含まれます。
AnalyzeExpense
ベンダー名やベンダー住所などの連絡先関連情報のキー、納税者 ID などの納税者 ID 関連キー、支払額や割引などの支払い関連キー、請求書 ID、配達日、および請求書 ID、配達日などの一般キーを正規化します。口座番号。正規化されていないキーは、キーと値のペアとして概要フィールドに表示されます。サポートされている経費フィールドの完全なリストについては、以下を参照してください。 請求書と領収書の分析. - ラインアイテム – このセクションには、商品説明、単価、数量、製品コードなどの正規化された品目キーが含まれます。
- OCRブロック – ブロックには、請求書ページから抽出した生のテキストが含まれています。生のテキスト抽出は、後処理や、概要フィールドや品目フィールドの一部としてカバーされていない情報の識別に使用できます。
この投稿では Amazon Textract IDP CDK コンストラクト (インテリジェント文書処理 (IDP) ワークフローのインフラストラクチャを定義する AWS CDK コンポーネント)。これにより、ユースケース固有のカスタマイズ可能な IDP ワークフローを構築できます。コンストラクトとサンプルは、AWS 上で IDP プロセスを定義できるようにするコンポーネントのコレクションであり、 GitHubの。使用される主な概念は、AWS CDK 構造、実際の AWS CDK スタック, AWSステップ関数.
次の図は、Step Functions のワークフローを示しています。
抽出ワークフローには次の手順が含まれます。
- InvoiceProcessor-Decider - あん AWSラムダ 入力ドキュメント形式が Amazon Textract でサポートされているかどうかを検証する関数。サポートされている形式の詳細については、を参照してください。 入力ドキュメント.
- ドキュメントスプリッター – ドキュメントから 2,500 ページ (最大) のチャンクを生成し、大きな複数ページのドキュメントを処理できる Lambda 関数。
- マップの状態 – 各チャンクを並列処理する Lambda 関数。
- TextractAsync – このタスクは、次の非同期 API を使用して Amazon Textract を呼び出します。 ベストプラクティス Amazon シンプル通知サービス (Amazon SNS) の通知と使用
OutputConfig
Amazon Textract JSON 出力を、前に作成した S3 バケットに保存します。これは XNUMX つの Lambda 関数で構成されます。XNUMX つは処理のためにドキュメントを送信する関数、もう XNUMX つは SNS 通知でトリガーされる関数です。 - TextractAsyncToJSON2 - なぜなら
TextractAsync
タスクは複数のページ分割された出力ファイルを生成できます。TextractAsyncToJSON2
プロセスにより、それらが XNUMX つの JSON ファイルに結合されます。
次の 3 つのステップの詳細については、次のセクションで説明します。
検証と承認
検証段階では、 SetMetaData
Lambda 関数は、アップロードされたファイルが DynamoDB テーブルで以前に設定されたルールに従って有効な経費であるかどうかを検証します。この投稿では、次のサンプル ルールを使用します。
- 次の場合、検証は成功します。
INVOICE_RECEIPT_ID
存在し、正規表現と一致します(?i)[0-9]{3}[a-z]{3}[0-9]{3}$
および ifPO_NUMBER
存在し、正規表現と一致します(?i)[a-z0-9]+$
- 次のいずれかの場合、検証は失敗します。
PO_NUMBER
orINVOICE_RECEIPT_ID
文書に誤りがあるか欠落しています。
ファイルが処理された後、経費検証機能は入力ファイルを次のいずれかに移動します。 approved
or declined
同じ S3 バケット内のフォルダー。
このソリューションの目的のために、DynamoDB を使用して経費検証ルールを保存します。ただし、このソリューションを変更して、独自のまたは商用の経費検証または管理ソリューションと統合することができます。
インテリジェントなインデックスと検索
OpenSearchPushInvoke
Lambda 関数では、抽出された経費メタデータが OpenSearch Service インデックスにプッシュされ、検索に使用できるようになります。
最終 TaskOpenSearchMapping
ステップはコンテキストをクリアします。そうしないと、 Step Functions クォータ タスク、状態、またはワークフロー実行の最大入力または出力サイズ。
OpenSearch サービスのインデックスが作成されると、OpenSearch ダッシュボードを介して抽出されたテキストからキーワードを検索できます。
アーカイブ、監査、分析
請求書と領収書のライフサイクルとアーカイブを管理するには、S3 ライフサイクル ルールを設定して、S3 オブジェクトを Standard から Intelligent-Tiering ストレージ クラスに移行できます。 S3 Intelligent-Tiering はアクセス パターンを監視し、オブジェクトが 30 日間連続してアクセスされなかった場合、オブジェクトを自動的に低頻度アクセス層に移動します。 90 日間アクセスがなかった場合、オブジェクトはパフォーマンスへの影響や運用上のオーバーヘッドを発生させることなく、アーカイブ インスタント アクセス層に移動されます。
監査と分析の場合、このソリューションは OpenSearch サービスを使用して請求書リクエストの分析を実行します。 OpenSearch Service を使用すると、ログ分析、アプリケーション検索、エンタープライズ検索など、さまざまなユースケースのデータを簡単に取り込み、保護、検索、集約、表示、分析できます。
OpenSearch ダッシュボードにログインし、次の場所に移動します。 スタック管理, 保存されたオブジェクト、を選択します インポート。 選択する 請求書.ndjson クローンされたリポジトリからファイルを選択し、 インポート。これにより、インデックスが事前設定され、視覚化が構築されます。
ページを更新して、次の場所に移動します ホーム, ダッシュボード、そして開く 請求書。フィルターを選択して適用し、時間枠を拡張して過去の請求書を調査できるようになりました。
クリーンアップ
領収書と請求書を処理するための Amazon Textract の評価が終了したら、作成したリソースをクリーンアップすることをお勧めします。次の手順を実行します。
- S3 バケットからすべてのコンテンツを削除します
invoiceprocessorworkflow-invoiceprocessorbucketf1-*
. - AWS Cloud9 で、次のコマンドを実行して、Amazon Cognito リソースと CloudFormation スタックを削除します。
- 作成した AWS Cloud9 環境を AWS Cloud9 コンソールから削除します。
まとめ
この投稿では、データ抽出に Amazon Textract を使用して請求書自動化パイプラインを構築し、検証、アーカイブ、検索のワークフローを作成する方法の概要を説明しました。の使用方法に関するコードサンプルを提供しました。 AnalyzeExpense
請求書から重要なフィールドを抽出するための API。
開始するには、Amazon Textract コンソールにサインインしてこの機能を試してください。 Amazon Textract の機能の詳細については、を参照してください。 Amazon Textract開発者ガイド or Textract リソース。 IDP の詳細については、AWS AI サービスを使用した IDP を参照してください。 第1部 および 第2部 投稿。
著者について
スシャント・プラダン アマゾン ウェブ サービスのシニア ソリューション アーキテクトとして、企業顧客をサポートしています。彼の興味と経験には、コンテナー、サーバーレス テクノロジー、DevOps が含まれます。余暇には、スシャントは家族と一緒に屋外で時間を過ごすことを楽しんでいます。
シビン・ミカエルラジ AWS Textract チームのシニアプロダクトマネージャーです。 彼は、AWS のお客様向けの AI/ML ベースの製品の構築に注力しています。
スプラカシュ・ダッタ アマゾン ウェブ サービスのシニア ソリューション アーキテクトです。 彼は、デジタル トランスフォーメーション戦略、アプリケーションのモダナイゼーションと移行、データ分析、機械学習に重点を置いています。 彼は AWS の AI/ML コミュニティの一員であり、インテリジェントなドキュメント処理ソリューションを設計しています。
マラン・チャンドラセカラン は、アマゾン ウェブ サービスのシニア ソリューション アーキテクトであり、企業顧客と協力しています。 仕事以外では、旅行とテキサス ヒル カントリーでバイクに乗るのが大好きです。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/build-a-receipt-and-invoice-processing-pipeline-with-amazon-textract/
- :は
- :not
- :どこ
- $UP
- 1
- 100
- 25
- 30
- 7
- 8
- 9
- a
- 私たちについて
- アクセス
- アクセス
- アカウント
- 買掛金勘定
- 実際の
- NEW
- 住所
- 後
- 集計
- AI
- AIサービス
- AI / ML
- すべて
- ことができます
- 沿って
- 既に
- また
- Amazon
- アマゾンコグニート
- アマゾンテキストラック
- Amazon Webサービス
- 量
- an
- 分析論
- 分析します
- および
- どれか
- API
- 現れる
- 申し込み
- 申し込む
- アプローチ
- 承認
- 承認する
- 承認された
- 建築
- Archive
- です
- AREA
- 周りに
- AS
- At
- 監査
- 監査
- 自動化する
- 自動的に
- オートメーション
- 利用できます
- AWS
- AWS クラウド9
- AWS CloudFormation
- ベース
- BE
- なぜなら
- き
- の間に
- ブロック
- ブートストラップ
- 両言語で
- ブラウザ
- ビルド
- 建物
- 構築します
- ビジネス
- by
- 呼ばれます
- コール
- 缶
- 機能
- キャプチャー
- 例
- チャンネル
- チェック
- 選択
- 選択する
- クラス
- クリーニング
- クラウド
- Cloud9
- コード
- 収集する
- コレクション
- 組み合わせ
- コマーシャル
- コミュニティ
- コンプリート
- 複雑な
- コンポーネント
- コンセプト
- 設定された
- 連続した
- からなる
- 領事
- 絶えず
- 構成
- コンテナ
- 含まれています
- コンテンツ
- コンテキスト
- 費用
- コスト削減
- 可能性
- 国
- カバー
- 作ります
- 作成した
- 作成
- 重大な
- Customers
- カスタマイズ可能な
- ダッシュボード
- ダッシュボード
- データ
- データ分析
- 日付
- 日
- 専用の
- デフォルト
- 定義します
- 定義
- 配達
- 依存関係
- 展開します
- 展開
- 説明
- デザイン
- 破壊する
- 細部
- 決定する
- Developer
- 開発
- Devices
- ダイアグラム
- 異なります
- デジタル
- お得な商品
- 話し合います
- 明確な
- ダイビング
- ドキュメント
- ドキュメント
- ドライブ
- 原因
- ダッタ
- 各
- 前
- echo
- エディタ
- 効率
- 楽
- どちら
- ほかに
- enable
- 可能
- 高めます
- Enterprise
- 環境
- 等
- 評価します
- すべてのもの
- 超えます
- 既存の
- 詳細
- 体験
- 明示的
- 探る
- エキス
- 抽出
- 家族
- 特徴
- フィールド
- フィールズ
- フィギュア
- File
- フィルター
- ファイナル
- ファイナンシャル
- 財政的に
- 焦点を当て
- 焦点を当てて
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- から
- function
- 機能
- 生成
- 取得する
- Gitの
- GitHubの
- Go
- ハンドル
- ハード
- 持ってる
- he
- 助け
- ハイ
- 非常に
- 彼の
- 保持している
- 認定条件
- How To
- しかしながら
- HTML
- HTTP
- HTTPS
- 人間
- i
- ID
- 識別
- if
- 画像
- 影響
- import
- 重要
- 改善
- in
- include
- 含ま
- 誤った
- index
- 索引付けされた
- インデックス
- 情報
- インフラ
- install
- インスタント
- 統合する
- 統合された
- インテリジェント-
- インテリジェントなドキュメント処理
- 利益
- に
- 請求書
- 請求書の処理
- 請求書
- IT
- JPG
- JSON
- ただ
- キープ
- キー
- キーワード
- ラベル
- 風景
- 大
- 後で
- LEARN
- 学習
- ことができます
- レベル
- wifecycwe
- ような
- LINE
- LINK
- リスト
- ログ
- 長期的
- 見て
- で
- 機械
- 機械学習
- メイン
- 管理します
- 管理
- マネージャー
- マッチ
- マックス
- 言及した
- かもしれない
- 移行
- 分
- 行方不明
- 修正する
- モニター
- 他には?
- 最も
- オートバイ
- 移動
- 移動
- の試合に
- 多数
- しなければなりません
- 名
- ナビゲート
- 新作
- 次の
- いいえ
- 注意
- 通知
- 通知
- 今
- 数
- オブジェクト
- of
- 頻繁に
- on
- ONE
- 開いた
- オペレーショナル
- 最適化
- or
- 注文
- 組織
- さもないと
- 私たちの
- 屋外で
- 出力
- 外側
- オーバーヘッド
- 概要
- 自分の
- ページ
- 支払われた
- 足
- 並列シミュレーションの設定
- 部
- パス
- パスワード
- 過去
- パターン
- 支払人
- 支払い
- 以下のために
- パフォーマンス
- 相
- ピース
- パイプライン
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- PO
- ポリシー
- プール
- ポスト
- 投稿
- 潜在的な
- 定義済み
- 現在
- 前に
- ブランド
- プロセス
- 処理済み
- ラボレーション
- 処理
- 作り出す
- プロダクト
- プロダクトマネージャー
- 製品
- 提供します
- 提供
- 公表
- 目的
- プッシュ
- 量
- Raw
- 準備
- 領収書
- 受け
- 受け入れ
- 推奨する
- 参照する
- 参照
- 正規表現
- 拒否されました..
- 関連する
- の関係
- 関連した
- 倉庫
- リクエスト
- 要件
- リソース
- それらの
- 応答
- 保持
- Ride
- ルール
- ラン
- ランニング
- 同じ
- サンプル
- 貯蓄
- ド電源のデ
- スキャニング
- を検索
- 二番
- セクション
- セクション
- 安全に
- しっかりと
- を求める
- select
- 送信
- シニア
- サーバレス
- サービス
- サービス
- セッションに
- 設定
- shared
- すべき
- 表示する
- 作品
- 符号
- 重要
- 簡単な拡張で
- サイズ
- So
- 溶液
- ソリューション
- 支出
- スタック
- スタック
- ステージ
- ステージ
- 標準
- start
- 開始
- 開始
- 都道府県
- 手順
- ステップ
- まだ
- ストレージ利用料
- 店舗
- 戦略
- 提出する
- 成功した
- そのような
- 概要
- サポート
- テーブル
- 取る
- 取り
- 仕事
- 税金
- チーム
- テクノロジー
- ターミナル
- 条件
- テキサス州
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- それ
- ブロック
- アプリ環境に合わせて
- それら
- その後
- ボーマン
- 彼ら
- この
- 三
- 介して
- 層
- 時間
- 時間がかかる
- 〜へ
- 今日の
- 伝統的な
- 変換
- 変革戦略
- 遷移
- 旅行
- トリガ
- 試します
- 2
- type
- 単位
- アップロード
- つかいます
- 中古
- ユーザー
- 使用されます
- 有効な
- 値
- 価値観
- ベンダー
- ベンダー
- Verification
- 、
- 詳しく見る
- 可視化
- 視覚化する
- 方法
- we
- ウェブ
- Webサービス
- いつ
- かどうか
- which
- ウィンドウを使用して入力ファイルを追加します。
- 以内
- 無し
- 仕事
- ワークフロー
- ワークフロー
- ワーキング
- 書きます
- You
- あなたの
- ゼファーネット