インテリジェントなドキュメント処理のための Amazon Comprehend によるワンステップ分類とエンティティ認識の導入

プラトン再発行

フォロワー： 0

「インテリジェントなドキュメント処理 (IDP) ソリューションは、大量の反復的なドキュメント処理タスクの自動化をサポートし、分析と洞察のためにデータを抽出します。 IDP は、自然言語技術とコンピュータービジョンを使用して、構造化コンテンツと非構造化コンテンツ、特にドキュメントからデータを抽出し、自動化と拡張をサポートします。」 – ガートナー

Amazon のインテリジェントドキュメント処理 (IDP) の目標は、機械学習 (ML) を使用して大量のドキュメントの処理を自動化し、生産性を高め、人件費に関連するコストを削減し、シームレスなユーザーエクスペリエンスを提供することです。顧客は、ドキュメントを特定し、さまざまなユースケースでドキュメントから重要な情報を抽出するために、かなりの時間と労力を費やしています。今日、 Amazon Comprehend は、プレーンテキストドキュメントの分類をサポートします。これには、半構造化形式 (スキャンされたデジタル PDF または PNG、JPG、TIFF などの画像) のドキュメントを前処理し、プレーンテキスト出力を使用して推論を実行する必要があります。カスタム分類モデル。同様に、カスタムエンティティの認識 PDF や画像ファイルなどの半構造化ドキュメントでは、リアルタイムでテキストを抽出するための前処理が必要です。この XNUMX 段階のプロセスにより、ドキュメント処理ワークフローが複雑になります。

昨年、私たちはネイティブドキュメント形式のサポートを発表カスタム固有表現認識 (NER) を使用非同期ジョブ. 本日、Amazon Comprehend を使用して、ネイティブ形式 (PDF、TIFF、JPG、PNG) の半構造化ドキュメントのワンステップドキュメント分類と NER のリアルタイム分析を発表できることを嬉しく思います。具体的には、次の機能を発表しています。

カスタム分類のリアルタイム分析および非同期ジョブのためのネイティブ形式のドキュメントのサポート
カスタムエンティティ認識のリアルタイム分析のためのネイティブ形式のドキュメントのサポート

この新しいリリースでは、Amazon Comprehend のカスタム分類とカスタムエンティティ認識 (NER) は、PDF、TIFF、PNG、JPEG などの形式のドキュメントを直接サポートします。UTF8 でエンコードされたプレーンテキストをドキュメントから抽出する必要はありません。次の図は、以前のプロセスと新しい手順およびサポートを比較しています。

この機能により、ドキュメントからプレーンテキストを抽出するために必要な前処理手順が不要になるため、ドキュメント処理ワークフローが簡素化され、それらの処理に必要な全体的な時間が短縮されます。

この投稿では、高レベルの IDP ワークフローソリューションの設計、いくつかの業界のユースケース、Amazon Comprehend の新機能、およびそれらの使用方法について説明します。

ソリューションの概要

保険業界での一般的なユースケースを探ることから始めましょう。典型的な保険金請求プロセスには、複数のドキュメントを含む請求パッケージが含まれます。保険金請求が提出されると、保険金請求フォーム、事故報告書、身分証明書、第三者請求書類などの書類が含まれます。保険金請求の処理と裁定に必要なドキュメントの量は、請求の種類と関連するビジネスプロセスによっては、数百ページ、場合によっては数千ページにも及ぶことがあります。保険金請求の担当者と裁定者は通常、数百または数千の請求書から情報を手作業で選別、分類、抽出するのに何百時間も費やしています。

保険業界のユースケースと同様に、決済業界でも、国境を越えた支払い契約、請求書、外国為替取引明細書など、大量の半構造化ドキュメントを処理しています。ビジネスユーザーは、必要な情報の識別、整理、検証、抽出、ダウンストリームアプリケーションへの受け渡しなどの手作業に多くの時間を費やしています。この手動プロセスは、退屈で反復的で、エラーが発生しやすく、費用がかかり、スケーリングが困難です。同様の課題に直面している他の業界には、住宅ローンと融資、ヘルスケアとライフサイエンス、法律、会計、税務管理などがあります。企業にとって、このような大量のドキュメントを高レベルの精度とわずかな手作業でタイムリーに処理することは非常に重要です。

Amazon Comprehend は、スケーラブルで費用対効果の高い方法で、ドキュメントの分類と大量のドキュメントからの情報抽出を高精度で自動化するための主要な機能を提供します。次の図は、Amazon Comprehend を使用した IDP 論理ワークフローを示しています。ワークフローの中核は、Amazon Comprehend カスタムモデルで NER を使用したドキュメントの分類と情報抽出で構成されます。この図は、カスタムモデルを継続的に改善して、ドキュメントやビジネスプロセスの進化に合わせて精度を高める方法も示しています。

カスタムドキュメントの分類

Amazon Comprehend カスタム分類を使用すると、ドキュメントを事前定義されたカテゴリ (クラス) に整理できます。大まかに言うと、カスタムドキュメント分類子を設定してドキュメント分類を実行する手順は次のとおりです。

カスタムドキュメント分類子をトレーニングするためのトレーニングデータを準備します。
トレーニングデータを使用して顧客ドキュメント分類子をトレーニングします。
モデルがトレーニングされたら、必要に応じてリアルタイムエンドポイントをデプロイします。
エンドポイントを使用して、非同期ジョブまたはリアルタイムでドキュメントの分類を実行します。

ステップ 1 と 2 は通常、ビジネスプロセスに関連するドキュメントクラスが特定された後、IDP プロジェクトの開始時に実行されます。その後、カスタム分類子モデルを定期的に再トレーニングして、精度を向上させ、新しいドキュメントクラスを導入できます。カスタム分類モデルは、次のいずれかでトレーニングできます。マルチクラスモード or マルチラベルモード. それぞれのトレーニングは、CSV ファイルを使用するか、拡張されたマニフェストファイルを使用する XNUMX つの方法のいずれかで実行できます。参照するトレーニングデータの準備カスタム分類モデルのトレーニングの詳細については、カスタム分類子モデルがトレーニングされた後、ドキュメントは次のいずれかを使用して分類できます。リアルタイム分析または非同期ジョブ. リアルタイム分析にはデプロイするエンドポイントユースケースによっては、小さなドキュメントに最適です。ドキュメントの数が多い場合は、非同期分類ジョブが最適です。

カスタムドキュメント分類モデルをトレーニングする

新しい機能を実証するために、マルチラベルモードでカスタム分類モデルをトレーニングしました。これにより、保険書類を XNUMX つの異なるクラスのいずれかに分類できます。クラスは INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY, CMS1500. サンプルドキュメントをネイティブの PDF、PNG、および JPEG 形式で分類し、 Amazon シンプルストレージサービス (Amazon S3) バケット、分類モデルを使用。非同期分類ジョブを開始するには、次の手順を実行します。

Amazon Comprehendコンソールで、 分析ジョブ ナビゲーションペインに表示されます。
選択する ジョブを作成.
名前で、分類ジョブの名前を入力します。
分析タイプ¸選ぶ カスタム分類.
分類器モデル、適切なトレーニング済み分類モデルを選択します。
で、適切なモデルバージョンを選択します。

入力データ セクションでは、ドキュメントが保存されている場所を提供します。

入力形式、選択する ファイルごとにXNUMXつのドキュメント.
ドキュメント読み取りモード¸選ぶ ドキュメント読み取りアクションを強制する.
ドキュメント読み取りアクション、選択する Textract は文書テキストを検出します.

これにより、Amazon Comprehend はアマゾンテキストラックドキュメントテキストの検出分類を実行する前にドキュメントを読み取るための API。の DetectDocumentText API は、ドキュメントからテキストの行や単語を抽出するのに役立ちます。選択することもできます Textract 分析ドキュメント for ドキュメント読み取りアクション、この場合、Amazon Comprehend は Amazon Textract を使用しますドキュメントの分析ドキュメントを読み取るための API。とともに AnalyzeDocument API、抽出することを選択できますテーブル類, フォーム、または両方。 NS ドキュメント読み取りモード オプションを使用すると、Amazon Comprehend はバックグラウンドでドキュメントからテキストを抽出できます。これにより、ドキュメント処理ワークフローで必要な、ドキュメントからテキストを抽出する余分な手順を減らすことができます。

Amazon Comprehend カスタム分類子は、 DetectDocumentText および AnalyzeDocument 変更や前処理なしの API。これは、Amazon Textract がドキュメントからのテキストの抽出に既に関与している既存のワークフローに役立ちます。この場合、Amazon Textract からの JSON 出力は、Amazon Comprehend ドキュメント分類 API に直接フィードできます。

出力データ セクション、 S3の場所で、非同期ジョブが推論の結果を書き込む Amazon S3 の場所を指定します。
残りのオプションはデフォルトのままにします。
選択する ジョブを作成 ジョブを開始します。

ジョブのステータスは、 分析ジョブ ページで見やすくするために変数を解析したりすることができます。

ジョブが完了すると、分析ジョブの出力を表示できます。この出力は、ジョブの構成中に指定された Amazon S3 の場所に保存されます。単一ページの PDF サンプル CMS1500 ドキュメントの分類出力は次のとおりです。出力は、読みやすくするためにフォーマットされた JSON 行形式のファイルです。

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

上記のサンプルは単一ページの PDF ドキュメントです。ただし、カスタム分類は、複数ページの PDF ドキュメントも処理できます。複数ページのドキュメントの場合、出力には複数の JSON 行が含まれます。各行は、ドキュメント内の各ページの分類結果です。以下は、複数ページの分類出力のサンプルです。

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

カスタムエンティティの認識

Amazon Comprehend カスタムエンティティ認識エンジンを使用すると、ドキュメントを分析し、特定のニーズに合った製品コードやビジネス固有のエンティティなどのエンティティを抽出できます。カスタムエンティティ認識エンジンを設定してエンティティ検出を実行する手順の概要は次のとおりです。

カスタムエンティティ認識エンジンをトレーニングするためのトレーニングデータを準備します。
トレーニングデータを使用してカスタムエンティティ認識エンジンをトレーニングします。
モデルがトレーニングされたら、必要に応じてリアルタイムエンドポイントをデプロイします。
エンドポイントを使用して、非同期ジョブまたはリアルタイムでエンティティ検出を実行します。

カスタムエンティティ認識モデルを定期的に再トレーニングして、精度を向上させ、新しいエンティティタイプを導入することができます。カスタムエンティティ認識モデルは、次のいずれかでトレーニングできます。エンティティリスト or アノテーション. どちらの場合も、Amazon Comprehend はドキュメントの種類とエンティティが発生するコンテキストについて学習し、一般化して新しいエンティティを検出できるエンティティ認識モデルを構築します。参照するトレーニングデータの準備 Custom Entity Recognizer のトレーニングデータの準備の詳細については、を参照してください。

カスタムエンティティ認識モデルをトレーニングした後、次のいずれかを使用してエンティティ検出を実行できます。リアルタイム分析または非同期ジョブ. リアルタイム分析にはデプロイするエンドポイントユースケースによっては、小さなドキュメントに最適です。ドキュメントの数が多い場合は、非同期分類ジョブが最適です。

カスタムエンティティ認識モデルをトレーニングする

エンティティ検出をリアルタイムで実証するために、カスタムアノテーションを使用して保険ドキュメントと拡張マニフェストファイルを使用してカスタムエンティティ認識モデルをトレーニングし、トレーニング済みモデルを使用してエンドポイントをデプロイしました。エンティティの種類は次のとおりです。 Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action, Sender. レコグナイザーモデルを使用して、S3 バケットに保存されているネイティブ PDF、PNG、および JPEG 形式のサンプルドキュメントからエンティティを検出したいと考えています。

PDF ドキュメントでトレーニングされたカスタムエンティティ認識モデルを使用して、PDF、TIFF、画像、Word、およびプレーンテキストドキュメントからカスタムエンティティを抽出できることに注意してください。モデルがテキストドキュメントとエンティティリストを使用してトレーニングされている場合、プレーンテキストドキュメントのみを使用してエンティティを抽出できます。

レコグナイザーモデルを使用して、任意のネイティブ PDF、PNG、および JPEG 形式のサンプルドキュメントからエンティティを検出する必要があります。同期エンティティ検出ジョブを開始するには、次の手順を実行します。

Amazon Comprehendコンソールで、 リアルタイム分析 ナビゲーションペインに表示されます。
分析タイプ選択 カスタム.
カスタムエンティティの認識で、カスタムモデルタイプを選択します。
エンドポイントで、エンティティ認識モデル用に作成したリアルタイムエンドポイントを選択します。
選択 ファイルをアップロード 選択して ファイルを選択してください 推論のために PDF または画像ファイルをアップロードします。
拡大する 高度な文書入力 セクションと ドキュメント読み取りモード、選択する サービスのデフォルト.
ドキュメント読み取りアクション、選択する Textract は文書テキストを検出します.
選択する解析ドキュメントをリアルタイムで分析します。

認識されたエンティティは、分析セクション。各エンティティには、エンティティ値 (テキスト)、トレーニングプロセス中に定義されたエンティティのタイプ、および対応する信頼スコアが含まれます。

カスタムエンティティ認識モデルをトレーニングし、それを使用して非同期分析ジョブを使用して非同期推論を実行する方法の詳細と完全なチュートリアルについては、次を参照してください。 Amazon Comprehendを使用して、ネイティブ形式のドキュメントからカスタムエンティティを抽出します.

まとめ

この投稿では、Amazon Comprehend を使用して半構造化ドキュメントをネイティブ形式で分類および分類し、そこからビジネス固有のエンティティを検出する方法を示しました。低レイテンシーのユースケースにはリアルタイム API を使用するか、ドキュメントの一括処理には非同期分析ジョブを使用できます。

次のステップとして、Amazon Comprehend にアクセスすることをお勧めします。 GitHubリポジトリ完全なコードサンプルについては、これらの新機能を試してください。また、 AmazonComprehend開発者ガイドおよび Amazon Comprehend 開発者リソースビデオ、チュートリアル、ブログなどに。

著者について

ウリック・タルクダー Amazon Comprehend Service チームのシニアアーキテクトです。彼は AWS のお客様と協力して、大規模な機械学習の導入を支援しています。仕事以外では、読書と写真を楽しんでいます。

アンジャンビスワス AI/ML とデータ分析を専門とするシニア AI サービスソリューションアーキテクトです。 Anjan は、世界規模の AI サービスチームの一員であり、お客様と協力して、AI と ML を使用したビジネス上の問題に対するソリューションの理解と開発を支援しています。 Anjan は、グローバルサプライチェーン、製造、および小売組織との 14 年以上の経験を持ち、お客様が AWS AI サービスを開始してスケールするのを積極的に支援しています。

ゴッドウィン・サハヤラージ ヴィンセント AWS のエンタープライズソリューションアーキテクトであり、機械学習に情熱を傾けており、お客様が AWS のワークロードとアーキテクチャを設計、デプロイ、管理するためのガイダンスを提供しています。余暇には、友人とクリケットをしたり、XNUMX 人の子供とテニスをしたりするのが大好きです。

タイムスタンプ： 2022 年 12 月 2 日2022 年 12 月 2 日

より多くの AWS機械学習

Amazon SageMaker 機能ストアがクロスアカウント共有、検出、アクセスをサポートするようになりました |アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 1947390

タイムスタンプ： 2024 年 2 月 13 日

AWS は、大規模言語モデル (LLM) で微調整を実行して、大手ゲーム会社向けに有害な音声を分類します。アマゾンウェブサービス

AWS機械学習

ソースノード： 1822975

タイムスタンプ： 2023 年 4 月 7 日

インテリジェントなドキュメント処理のための Amazon Comprehend によるワンステップ分類とエンティティ認識の導入

プラトン再発行

ソリューションの概要