保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。 垂直検索。 あい。

保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1

インテリジェント ドキュメント処理 (IDP) の目標は、AI を適用して書類を処理することにより、組織がより迅速かつ正確な意思決定を行えるようにすることです。 この XNUMX 部構成のシリーズでは、保険会社がビジネスプロセスをスピードアップするために使用できる AWS AI テクノロジーに焦点を当てています。 これらの AI テクノロジーは、請求、引受、顧客対応、契約、紛争解決の処理など、保険のユースケース全体で使用できます。 このシリーズでは、保険業界における請求処理のユース ケースに焦点を当てています。 AWS IDP ソリューションの基本的な概念の詳細については、次を参照してください。 二部シリーズ.

請求処理はワークフロー内の複数のチェックポイントで構成されており、これらのチェックポイントは、請求を裁定するためのレビュー、信頼性の検証、および正しい財務責任の決定に必要です。 保険会社は、請求の裁定を行う前に、請求についてこれらのチェックポイントを通過します。 請求がこれらすべてのチェックポイントを問題なく通過した場合、保険会社はそれを承認し、支払いを処理します。 ただし、請求を裁定するために追加のサポート情報が必要になる場合があります。 この請求処理プロセスは多くの場合手動で行われるため、費用がかかり、エラーが発生しやすく、時間がかかります。 保険会社のお客様は、AWS AI サービスを使用してこのプロセスを自動化し、請求処理のためのドキュメント処理パイプラインを自動化できます。

この XNUMX 部構成のシリーズでは、保険金請求処理のユースケースで AWS AI サービスを使用してドキュメントを大規模に自動化し、インテリジェントに処理する方法について説明します。

保険業界における AWS AI および分析サービスを使用したインテリジェントなドキュメント処理

ソリューションの概要

次の図は、IDP パイプラインで通常見られる各ステージを表しています。 これらの各段階と、申請書の提出から申請書の調査と終了まで、請求申請プロセスに含まれるステップにどのように接続するかについて説明します。 この投稿では、データの取得、分類、および抽出段階の技術的な詳細について説明します。 の 第2部、文書抽出段階を拡大し、文書化、レビュー、および検証を継続し、ソリューションを拡張して、請求詐欺のユースケースの分析と視覚化を提供します。

次のアーキテクチャ図は、請求処理アプリケーションのさまざまな段階に応じて、IDP パイプラインのフェーズで使用されるさまざまな AWS サービスを示しています。

IDP アーキテクチャ図

このソリューションでは、次の主要なサービスを使用します。

  • アマゾンテキストラック は、スキャンしたドキュメントからテキスト、手書き、およびデータを自動的に抽出する機械学習 (ML) サービスです。 単純な光学式文字認識 (OCR) を超えて、フォームやテーブルからデータを識別、理解し、抽出します。 Amazon Textract は ML を使用してあらゆるタイプのドキュメントを読み取って処理し、テキスト、手書き、表、およびその他のデータを手作業なしで正確に抽出します。
  • Amazon Comprehend ML を使用してテキストから洞察を抽出する自然言語処理 (NLP) サービスです。 Amazon Comprehend は、人、場所、日付、数量などのエンティティを検出できます。 また、支配的な言語、個人を特定できる情報 (PII) 情報を検出し、ドキュメントを関連するクラスに分類することもできます。
  • Amazon拡張AI (Amazon A2I) は、人間によるレビューに必要なワークフローの構築を容易にする ML サービスです。 Amazon A2I は、人間によるレビューをすべての開発者に提供し、人間によるレビュー システムの構築や多数の人間によるレビュー担当者の管理に関連する差別化されていない重労働を取り除きます。 Amazon A2I は両方を アマゾンテキストラック および Amazon Comprehend IDPワークフロー内で人間によるレビューまたは検証を導入する機能を提供します。

前提条件

以下のセクションでは、アーキテクチャの最初の XNUMX つのフェーズ、つまりデータの取得、分類、および抽出のフェーズに関連するさまざまなサービスについて説明します。

私たちを参照してください GitHubリポジトリ 完全なコード サンプルとクレーム処理パケットのドキュメント サンプルをご覧ください。

データ取得フェーズ

請求とその裏付けとなる文書は、ファックス、電子メール、管理ポータルなど、さまざまなチャネルを通じて提供されます。 これらのドキュメントは、次のような高度にスケーラブルで耐久性のあるストレージに保存できます。 Amazon シンプル ストレージ サービス (アマゾン S3)。 これらのドキュメントには、PDF、JPEG、PNG、TIFF など、さまざまな種類があります。 ドキュメントはさまざまな形式やレイアウトで提供され、さまざまなチャネルからデータ ストアに送られます。

分類フェーズ

ドキュメント分類段階では、Amazon Comprehend と Amazon Textract を組み合わせてテキストをドキュメント コンテキストに変換し、データ キャプチャ段階で保存されているドキュメントを分類できます。 その後、Amazon Comprehend でカスタム分類を使用して、請求処理パケットで定義したクラスにドキュメントを整理できます。 カスタム分類は、ドキュメント検証プロセスを自動化し、パケットから欠落しているドキュメントを特定するのにも役立ちます。 アーキテクチャ図に示すように、カスタム分類には XNUMX つの手順があります。

  1. Amazon Textract を使用して、データ ストレージ内のすべてのドキュメントからテキストを抽出し、カスタム分類子のトレーニング データを準備します。
  2. Amazon Comprehend カスタム分類モデル (または ドキュメント 分類します) テキストの内容に基づいて対象のクラスを認識します。

保険金請求パケットの文書分類

Amazon Comprehend カスタム分類モデルがトレーニングされた後、リアルタイム エンドポイントを使用してドキュメントを分類できます。 Amazon Comprehend は、キーと値のペアの配列 (Doc_nameConfidence_score)。 詳細なドキュメント分類のサンプル コードを確認することをお勧めします。 GitHubの.

抽出段階

抽出フェーズでは、Amazon Textract と Amazon Comprehend を使用してドキュメントからデータを抽出します。 この投稿では、請求処理パケットで次のサンプル ドキュメントを使用します: Center of Medicaid and Medicare Services (CMS)-1500 請求フォーム、運転免許証と保険 ID、および請求書。

CMS-1500 請求フォームからデータを抽出する

CMS-1500 フォームは、機関以外のプロバイダーまたはサプライヤーがメディケア キャリアに請求するために使用する標準的な請求フォームです。

CMS-1500 フォームを正確に処理することが重要です。そうしないと、請求プロセスが遅くなったり、運送業者による支払いが遅れたりする可能性があります。 Amazon Textract を使用 AnalyzeDocument API を使用すると、請求フォーム内の詳細な洞察を理解するために、ドキュメントからテキストを抽出するための抽出プロセスをより正確に高速化できます。 以下は、CMS-1500 請求フォームのサンプル ドキュメントです。

CMS1500 請求フォーム

現在、 AnalyzeDocument XNUMXつ抽出するAPI FeatureTypes, FORMS および TABLES、ドキュメントから:

from IPython.display import display, JSON
form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": cms_key}}, FeatureTypes=['FORMS', 'TABLES'])

# print tables
print(get_string(textract_json=form_resp, output_type=[Textract_Pretty_Print.TABLES], table_format=Pretty_Print_Table_Format.fancy_grid))

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(form_resp), root="Claim Form"))

次の結果は、読みやすくするために短縮されています。 詳細については、 GitHubレポ。

  FORMS 抽出はキーと値のペアとして識別されます。

保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。 垂直検索。 あい。

  TABLES 抽出には、請求フォームで検出されたテーブル内のセル、結合セル、および列ヘッダーが含まれます。

CMS1500フォームからのテーブル抽出

身分証明書からデータを抽出する

異なるレイアウトを持つことができる保険 ID のような身分証明書の場合、Amazon Textract を使用できます。 AnalyzeDocument API。 私たちは、 FeatureType FORMS の構成として AnalyzeDocument 保険 ID からキーと値のペアを抽出する API (次のサンプルを参照):

保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。 垂直検索。 あい。

次のコードを実行します。

ins_form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": ins_card_key}}, FeatureTypes=['FORMS'])

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(ins_form_resp), root="Insurance card"))

次のスクリーンショットに示すように、結果の配列でキーと値のペアを取得します。

保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。 垂直検索。 あい。

米国の運転免許証や米国のパスポートなどの ID ドキュメントの場合、Amazon Textract は、保険 ID の例で前に見たものとは異なり、テンプレートやフォーマットを必要とせずに主要な用語を自動的に抽出する特別なサポートを提供します。 とともに AnalyzeID API を使用すると、企業はさまざまなテンプレートや形式の ID ドキュメントから情報を迅速かつ正確に抽出できます。 の AnalyzeID API は、次の XNUMX つのカテゴリのデータ型を返します。

  • 生年月日、発行日、ID番号、クラス、制限など、IDで利用可能なキーと値のペア
  • 名前、住所、発行者など、明示的なキーが関連付けられていないドキュメントの暗黙のフィールド

請求処理パケットから、次のサンプルの米国運転免許証を使用します。

保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。 垂直検索。 あい。

次のコードを実行します。

ID_resp = textract.analyze_id(DocumentPages=[{'S3Object':{"Bucket": data_bucket, "Name": key}}])

# once again using the textract response parser
from trp.trp2_analyzeid import TAnalyzeIdDocument, TAnalyzeIdDocumentSchema

t_doc = TAnalyzeIdDocumentSchema().load(ID_resp)

list_of_results = t_doc.get_values_as_list()
print(tabulate([x[1:3] for x in list_of_results]))

次のスクリーンショットは、結果を示しています。

保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。 垂直検索。 あい。

結果のスクリーンショットから、運転免許証自体には含まれていない特定のキーが表示されていることがわかります。 例えば、 Veteran ライセンスにあるキーではありません。 ただし、これは事前入力された Key-Value です。 AnalyzeID 州間のライセンスに違いがあるため、サポートしています。

請求書と領収書からデータを抽出する

に似て AnalyzeID API、 AnalyzeExpense API は、請求書と領収書に特化したサポートを提供し、ベンダー名、小計と合計金額などの関連情報をあらゆる形式の請求書ドキュメントから抽出します。 抽出のためのテンプレートや構成は必要ありません。 Amazon Textract は ML を使用して、あいまいな請求書と領収書のコンテキストを理解します。

以下は、医療保険の請求書のサンプルです。

保険請求書のサンプル

私たちは、使用 AnalyzeExpense 標準化されたフィールドのリストを表示する API。 標準フィールドとして認識されないフィールドは、次のように分類されます。 OTHER:

expense_resp = textract.analyze_expense(Document={'S3Object':{"Bucket": data_bucket, "Name": invc_key}})

# print invoice summary

print(get_expensesummary_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

# print invoice line items

print(get_expenselineitemgroups_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

次のフィールドのリストをキーと値のペア (左側のスクリーンショットを参照) として取得し、購入した個々の品目の行全体 (右側のスクリーンショットを参照) を結果として取得します。

保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。 垂直検索。 あい。 保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。 垂直検索。 あい。

まとめ

この投稿では、請求処理における一般的な課題と、AWS AI サービスを使用してインテリジェントなドキュメント処理パイプラインを自動化し、請求を自動的に裁定する方法を紹介しました。 Amazon Comprehend カスタム分類子を使用してドキュメントをさまざまなドキュメント クラスに分類する方法と、Amazon Textract を使用して非構造化、半構造化、構造化、および特殊化されたドキュメント タイプを抽出する方法について説明しました。

In 第2部、Amazon Textract を使用して抽出フェーズを拡張します。 また、Amazon Comprehend の事前定義されたエンティティとカスタム エンティティを使用してデータを充実させ、IDP パイプラインを拡張して分析および視覚化サービスと統合してさらに処理する方法を示します。

のセキュリティ セクションを確認することをお勧めします。 アマゾンのテクストラクト、 アマゾン・コンプリヘンド、 および アマゾンA2I ドキュメンテーションおよび提供されたガイドラインに従うこと。 ソリューションの価格について詳しくは、次の価格の詳細を確認してください。 アマゾンのテクストラクト、 Amazon Comprehend, アマゾンA2I.


著者について

保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。 垂直検索。 あい。チンマイ・レーン アマゾン ウェブ サービスの AI/ML スペシャリスト ソリューション アーキテクトです。 彼女は応用数学と機械学習に情熱を注いでいます。 彼女は、AWS の顧客向けのインテリジェントなドキュメント処理ソリューションの設計に重点を置いています。 仕事以外では、サルサとバチャータ ダンスを楽しんでいます。


保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。 垂直検索。 あい。
ソナリ・サフ アマゾン ウェブ サービスのインテリジェント ドキュメント処理 AI/ML ソリューション アーキテクト チームを率いています。 彼女は情熱的な技術愛好家であり、イノベーションを使用して複雑な問題を解決するために顧客と協力することを楽しんでいます。 彼女の主な専門分野は、インテリジェントなドキュメント処理のための人工知能と機械学習です。


保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。 垂直検索。 あい。
ティム・コンデロ アマゾン ウェブ サービスのシニア AI/ML スペシャリスト ソリューション アーキテクトです。 彼の焦点は、自然言語処理とコンピューター ビジョンです。 Tim は、顧客のアイデアを取り入れて、それらをスケーラブルなソリューションに変えることを楽しんでいます。

タイムスタンプ:

より多くの AWS機械学習