インテリジェントなドキュメント処理 PlatoBlockchain Data Intelligence を実現する Amazon Comprehend によるワンステップの分類とエンティティ認識を導入します。垂直検索。あい。

インテリジェントなドキュメント処理のための Amazon Comprehend によるワンステップ分類とエンティティ認識の導入

「インテリジェントなドキュメント処理 (IDP) ソリューションは、大量の反復的なドキュメント処理タスクの自動化をサポートし、分析と洞察のためにデータを抽出します。 IDP は、自然言語技術とコンピューター ビジョンを使用して、構造化コンテンツと非構造化コンテンツ、特にドキュメントからデータを抽出し、自動化と拡張をサポートします。」  – ガートナー

Amazon のインテリジェント ドキュメント処理 (IDP) の目標は、機械学習 (ML) を使用して大量のドキュメントの処理を自動化し、生産性を高め、人件費に関連するコストを削減し、シームレスなユーザー エクスペリエンスを提供することです。 顧客は、ドキュメントを特定し、さまざまなユースケースでドキュメントから重要な情報を抽出するために、かなりの時間と労力を費やしています。 今日、 Amazon Comprehend は、プレーン テキスト ドキュメントの分類をサポートします。これには、半構造化形式 (スキャンされたデジタル PDF または PNG、JPG、TIFF などの画像) のドキュメントを前処理し、プレーン テキスト出力を使用して推論を実行する必要があります。 カスタム分類 モデル。 同様に、 カスタム エンティティの認識 PDF や画像ファイルなどの半構造化ドキュメントでは、リアルタイムでテキストを抽出するための前処理が必要です。 この XNUMX 段階のプロセスにより、ドキュメント処理ワークフローが複雑になります。

昨年、私たちは ネイティブ ドキュメント形式のサポートを発表 カスタム固有表現認識 (NER) を使用 非同期ジョブ. 本日、Amazon Comprehend を使用して、ネイティブ形式 (PDF、TIFF、JPG、PNG) の半構造化ドキュメントのワンステップ ドキュメント分類と NER のリアルタイム分析を発表できることを嬉しく思います。 具体的には、次の機能を発表しています。

  • カスタム分類のリアルタイム分析および非同期ジョブのためのネイティブ形式のドキュメントのサポート
  • カスタム エンティティ認識のリアルタイム分析のためのネイティブ形式のドキュメントのサポート

この新しいリリースでは、Amazon Comprehend のカスタム分類とカスタム エンティティ認識 (NER) は、PDF、TIFF、PNG、JPEG などの形式のドキュメントを直接サポートします。UTF8 でエンコードされたプレーン テキストをドキュメントから抽出する必要はありません。 次の図は、以前のプロセスと新しい手順およびサポートを比較しています。

この機能により、ドキュメントからプレーン テキストを抽出するために必要な前処理手順が不要になるため、ドキュメント処理ワークフローが簡素化され、それらの処理に必要な全体的な時間が短縮されます。

この投稿では、高レベルの IDP ワークフロー ソリューションの設計、いくつかの業界のユースケース、Amazon Comprehend の新機能、およびそれらの使用方法について説明します。

ソリューションの概要

保険業界での一般的なユースケースを探ることから始めましょう。 典型的な保険金請求プロセスには、複数のドキュメントを含む請求パッケージが含まれます。 保険金請求が提出されると、保険金請求フォーム、事故報告書、身分証明書、第三者請求書類などの書類が含まれます。 保険金請求の処理と裁定に必要なドキュメントの量は、請求の種類と関連するビジネス プロセスによっては、数百ページ、場合によっては数千ページにも及ぶことがあります。 保険金請求の担当者と裁定者は通常、数百または数千の請求書から情報を手作業で選別、分類、抽出するのに何百時間も費やしています。

保険業界のユース ケースと同様に、決済業界でも、国境を越えた支払い契約、請求書、外国為替取引明細書など、大量の半構造化ドキュメントを処理しています。 ビジネス ユーザーは、必要な情報の識別、整理、検証、抽出、ダウンストリーム アプリケーションへの受け渡しなどの手作業に多くの時間を費やしています。 この手動プロセスは、退屈で反復的で、エラーが発生しやすく、費用がかかり、スケーリングが困難です。 同様の課題に直面している他の業界には、住宅ローンと融資、ヘルスケアとライフ サイエンス、法律、会計、税務管理などがあります。 企業にとって、このような大量のドキュメントを高レベルの精度とわずかな手作業でタイムリーに処理することは非常に重要です。

Amazon Comprehend は、スケーラブルで費用対効果の高い方法で、ドキュメントの分類と大量のドキュメントからの情報抽出を高精度で自動化するための主要な機能を提供します。 次の図は、Amazon Comprehend を使用した IDP 論理ワークフローを示しています。 ワークフローの中核は、Amazon Comprehend カスタム モデルで NER を使用したドキュメントの分類と情報抽出で構成されます。 この図は、カスタム モデルを継続的に改善して、ドキュメントやビジネス プロセスの進化に合わせて精度を高める方法も示しています。

インテリジェントなドキュメント処理 PlatoBlockchain Data Intelligence を実現する Amazon Comprehend によるワンステップの分類とエンティティ認識を導入します。垂直検索。あい。

カスタム ドキュメントの分類

Amazon Comprehend カスタム分類を使用すると、ドキュメントを事前定義されたカテゴリ (クラス) に整理できます。 大まかに言うと、カスタム ドキュメント分類子を設定してドキュメント分類を実行する手順は次のとおりです。

  1. カスタム ドキュメント分類子をトレーニングするためのトレーニング データを準備します。
  2. トレーニング データを使用して顧客ドキュメント分類子をトレーニングします。
  3. モデルがトレーニングされたら、必要に応じてリアルタイム エンドポイントをデプロイします。
  4. エンドポイントを使用して、非同期ジョブまたはリアルタイムでドキュメントの分類を実行します。

ステップ 1 と 2 は通常、ビジネス プロセスに関連するドキュメント クラスが特定された後、IDP プロジェクトの開始時に実行されます。 その後、カスタム分類子モデルを定期的に再トレーニングして、精度を向上させ、新しいドキュメント クラスを導入できます。 カスタム分類モデルは、次のいずれかでトレーニングできます。 マルチクラスモード or マルチラベル モード. それぞれのトレーニングは、CSV ファイルを使用するか、拡張されたマニフェスト ファイルを使用する XNUMX つの方法のいずれかで実行できます。 参照する トレーニング データの準備 カスタム分類モデルのトレーニングの詳細については、 カスタム分類子モデルがトレーニングされた後、ドキュメントは次のいずれかを使用して分類できます。 リアルタイム分析 または 非同期ジョブ. リアルタイム分析には デプロイするエンドポイント ユースケースによっては、小さなドキュメントに最適です。 ドキュメントの数が多い場合は、非同期分類ジョブが最適です。

カスタム ドキュメント分類モデルをトレーニングする

新しい機能を実証するために、マルチラベル モードでカスタム分類モデルをトレーニングしました。これにより、保険書類を XNUMX つの異なるクラスのいずれかに分類できます。 クラスは INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY, CMS1500. サンプル ドキュメントをネイティブの PDF、PNG、および JPEG 形式で分類し、 Amazon シンプル ストレージ サービス (Amazon S3) バケット、分類モデルを使用。 非同期分類ジョブを開始するには、次の手順を実行します。

  1. Amazon Comprehendコンソールで、 分析ジョブ ナビゲーションペインに表示されます。
  2. 選択する ジョブを作成.
    ジョブの作成を選択
  3. 名前 で、分類ジョブの名前を入力します。
  4. 分析タイプ¸選ぶ カスタム分類.
  5. 分類器モデル、適切なトレーニング済み分類モデルを選択します。
  6. で、適切なモデル バージョンを選択します。
    バージョンには、適切なモデル バージョンを選択します

入力データ セクションでは、ドキュメントが保存されている場所を提供します。

  1. 入力形式、選択する ファイルごとにXNUMXつのドキュメント.
  2. ドキュメント読み取りモード¸選ぶ ドキュメント読み取りアクションを強制する.
  3. ドキュメント読み取りアクション、選択する Textract は文書テキストを検出します.

これにより、Amazon Comprehend は アマゾンテキストラック ドキュメントテキストの検出 分類を実行する前にドキュメントを読み取るための API。 の DetectDocumentText API は、ドキュメントからテキストの行や単語を抽出するのに役立ちます。 選択することもできます Textract 分析ドキュメント for ドキュメント読み取りアクション、この場合、Amazon Comprehend は Amazon Textract を使用します ドキュメントの分析 ドキュメントを読み取るための API。 とともに AnalyzeDocument API、抽出することを選択できます テーブル類, フォーム、 または両方。 NS ドキュメント読み取りモード オプションを使用すると、Amazon Comprehend はバックグラウンドでドキュメントからテキストを抽出できます。これにより、ドキュメント処理ワークフローで必要な、ドキュメントからテキストを抽出する余分な手順を減らすことができます。
ドキュメント読み取りモード オプションにより、Amazon Comprehend はバックグラウンドでドキュメントからテキストを抽出できます。これにより、ドキュメント処理ワークフローで必要な、ドキュメントからテキストを抽出する余分な手順を減らすことができます。

Amazon Comprehend カスタム分類子は、 DetectDocumentText および AnalyzeDocument 変更や前処理なしの API。 これは、Amazon Textract がドキュメントからのテキストの抽出に既に関与している既存のワークフローに役立ちます。 この場合、Amazon Textract からの JSON 出力は、Amazon Comprehend ドキュメント分類 API に直接フィードできます。

  1. 出力データ セクション、 S3の場所で、非同期ジョブが推論の結果を書き込む Amazon S3 の場所を指定します。
  2. 残りのオプションはデフォルトのままにします。
  3. 選択する ジョブを作成 ジョブを開始します。
    [ジョブの作成] を選択して、ジョブを開始します。

ジョブのステータスは、 分析ジョブ ページで見やすくするために変数を解析したりすることができます。

ジョブが完了すると、分析ジョブの出力を表示できます。この出力は、ジョブの構成中に指定された Amazon S3 の場所に保存されます。 単一ページの PDF サンプル CMS1500 ドキュメントの分類出力は次のとおりです。 出力は、読みやすくするためにフォーマットされた JSON 行形式のファイルです。

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

上記のサンプルは単一ページの PDF ドキュメントです。 ただし、カスタム分類は、複数ページの PDF ドキュメントも処理できます。 複数ページのドキュメントの場合、出力には複数の JSON 行が含まれます。各行は、ドキュメント内の各ページの分類結果です。 以下は、複数ページの分類出力のサンプルです。

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

カスタムエンティティの認識

Amazon Comprehend カスタム エンティティ認識エンジンを使用すると、ドキュメントを分析し、特定のニーズに合った製品コードやビジネス固有のエンティティなどのエンティティを抽出できます。 カスタム エンティティ認識エンジンを設定してエンティティ検出を実行する手順の概要は次のとおりです。

  1. カスタム エンティティ認識エンジンをトレーニングするためのトレーニング データを準備します。
  2. トレーニング データを使用してカスタム エンティティ認識エンジンをトレーニングします。
  3. モデルがトレーニングされたら、必要に応じてリアルタイム エンドポイントをデプロイします。
  4. エンドポイントを使用して、非同期ジョブまたはリアルタイムでエンティティ検出を実行します。

カスタム エンティティ認識モデルを定期的に再トレーニングして、精度を向上させ、新しいエンティティ タイプを導入することができます。 カスタム エンティティ認識モデルは、次のいずれかでトレーニングできます。 エンティティリスト or アノテーション. どちらの場合も、Amazon Comprehend はドキュメントの種類とエンティティが発生するコンテキストについて学習し、一般化して新しいエンティティを検出できるエンティティ認識モデルを構築します。 参照する トレーニングデータの準備 Custom Entity Recognizer のトレーニング データの準備の詳細については、 を参照してください。

カスタム エンティティ認識モデルをトレーニングした後、次のいずれかを使用してエンティティ検出を実行できます。 リアルタイム分析 または 非同期ジョブ. リアルタイム分析には デプロイするエンドポイント ユースケースによっては、小さなドキュメントに最適です。 ドキュメントの数が多い場合は、非同期分類ジョブが最適です。

カスタム エンティティ認識モデルをトレーニングする

エンティティ検出をリアルタイムで実証するために、カスタム アノテーションを使用して保険ドキュメントと拡張マニフェスト ファイルを使用してカスタム エンティティ認識モデルをトレーニングし、トレーニング済みモデルを使用してエンドポイントをデプロイしました。 エンティティの種類は次のとおりです。 Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action, Sender. レコグナイザー モデルを使用して、S3 バケットに保存されているネイティブ PDF、PNG、および JPEG 形式のサンプル ドキュメントからエンティティを検出したいと考えています。

PDF ドキュメントでトレーニングされたカスタム エンティティ認識モデルを使用して、PDF、TIFF、画像、Word、およびプレーン テキスト ドキュメントからカスタム エンティティを抽出できることに注意してください。 モデルがテキスト ドキュメントとエンティティ リストを使用してトレーニングされている場合、プレーン テキスト ドキュメントのみを使用してエンティティを抽出できます。

レコグナイザー モデルを使用して、任意のネイティブ PDF、PNG、および JPEG 形式のサンプル ドキュメントからエンティティを検出する必要があります。 同期エンティティ検出ジョブを開始するには、次の手順を実行します。

  1. Amazon Comprehendコンソールで、 リアルタイム分析 ナビゲーションペインに表示されます。
  2. 分析タイプ選択 カスタム.
  3. カスタムエンティティの認識で、カスタム モデル タイプを選択します。
  4. エンドポイントで、エンティティ認識モデル用に作成したリアルタイム エンドポイントを選択します。
  5. 選択 ファイルをアップロード 選択して ファイルを選択してください 推論のために PDF または画像ファイルをアップロードします。
  6. 拡大する 高度な文書入力 セクションと ドキュメント読み取りモード、選択する サービスのデフォルト.
  7. ドキュメント読み取りアクション、選択する Textract は文書テキストを検出します.
  8. 選択する 解析 ドキュメントをリアルタイムで分析します。
    [分析] を選択して、ドキュメントをリアルタイムで分析します

認識されたエンティティは、 分析 セクション。 各エンティティには、エンティティ値 (テキスト)、トレーニング プロセス中に定義されたエンティティのタイプ、および対応する信頼スコアが含まれます。
認識されたエンティティは、[インサイト] セクションに一覧表示されます。 各エンティティには、エンティティ値 (テキスト)、トレーニング プロセス中に定義されたエンティティのタイプ、および対応する信頼スコアが含まれます。

カスタム エンティティ認識モデルをトレーニングし、それを使用して非同期分析ジョブを使用して非同期推論を実行する方法の詳細と完全なチュートリアルについては、次を参照してください。 Amazon Comprehendを使用して、ネイティブ形式のドキュメントからカスタムエンティティを抽出します.

まとめ

この投稿では、Amazon Comprehend を使用して半構造化ドキュメントをネイティブ形式で分類および分類し、そこからビジネス固有のエンティティを検出する方法を示しました。 低レイテンシーのユースケースにはリアルタイム API を使用するか、ドキュメントの一括処理には非同期分析ジョブを使用できます。

次のステップとして、Amazon Comprehend にアクセスすることをお勧めします。 GitHubリポジトリ 完全なコード サンプルについては、これらの新機能を試してください。 また、 AmazonComprehend開発者ガイド および Amazon Comprehend 開発者リソース ビデオ、チュートリアル、ブログなどに。


著者について

インテリジェントなドキュメント処理 PlatoBlockchain Data Intelligence を実現する Amazon Comprehend によるワンステップの分類とエンティティ認識を導入します。垂直検索。あい。ウリック・タルクダー Amazon Comprehend Service チームのシニア アーキテクトです。 彼は AWS のお客様と協力して、大規模な機械学習の導入を支援しています。 仕事以外では、読書と写真を楽しんでいます。

インテリジェントなドキュメント処理 PlatoBlockchain Data Intelligence を実現する Amazon Comprehend によるワンステップの分類とエンティティ認識を導入します。垂直検索。あい。アンジャンビスワス AI/ML とデータ分析を専門とするシニア AI サービス ソリューション アーキテクトです。 Anjan は、世界規模の AI サービス チームの一員であり、お客様と協力して、AI と ML を使用したビジネス上の問題に対するソリューションの理解と開発を支援しています。 Anjan は、グローバルサプライチェーン、製造、および小売組織との 14 年以上の経験を持ち、お客様が AWS AI サービスを開始してスケールするのを積極的に支援しています。

インテリジェントなドキュメント処理 PlatoBlockchain Data Intelligence を実現する Amazon Comprehend によるワンステップの分類とエンティティ認識を導入します。垂直検索。あい。ゴッドウィン・サハヤ​​ラージ ヴィンセント AWS のエンタープライズ ソリューション アーキテクトであり、機械学習に情熱を傾けており、お客様が AWS のワークロードとアーキテクチャを設計、デプロイ、管理するためのガイダンスを提供しています。 余暇には、友人とクリケットをしたり、XNUMX 人の子供とテニスをしたりするのが大好きです。

タイムスタンプ:

より多くの AWS機械学習