保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1

プラトン再発行

フォロワー： 0

インテリジェントドキュメント処理 (IDP) の目標は、AI を適用して書類を処理することにより、組織がより迅速かつ正確な意思決定を行えるようにすることです。この XNUMX 部構成のシリーズでは、保険会社がビジネスプロセスをスピードアップするために使用できる AWS AI テクノロジーに焦点を当てています。これらの AI テクノロジーは、請求、引受、顧客対応、契約、紛争解決の処理など、保険のユースケース全体で使用できます。このシリーズでは、保険業界における請求処理のユースケースに焦点を当てています。 AWS IDP ソリューションの基本的な概念の詳細については、次を参照してください。二部シリーズ.

請求処理はワークフロー内の複数のチェックポイントで構成されており、これらのチェックポイントは、請求を裁定するためのレビュー、信頼性の検証、および正しい財務責任の決定に必要です。保険会社は、請求の裁定を行う前に、請求についてこれらのチェックポイントを通過します。請求がこれらすべてのチェックポイントを問題なく通過した場合、保険会社はそれを承認し、支払いを処理します。ただし、請求を裁定するために追加のサポート情報が必要になる場合があります。この請求処理プロセスは多くの場合手動で行われるため、費用がかかり、エラーが発生しやすく、時間がかかります。保険会社のお客様は、AWS AI サービスを使用してこのプロセスを自動化し、請求処理のためのドキュメント処理パイプラインを自動化できます。

この XNUMX 部構成のシリーズでは、保険金請求処理のユースケースで AWS AI サービスを使用してドキュメントを大規模に自動化し、インテリジェントに処理する方法について説明します。

保険業界における AWS AI および分析サービスを使用したインテリジェントなドキュメント処理

ソリューションの概要

次の図は、IDP パイプラインで通常見られる各ステージを表しています。これらの各段階と、申請書の提出から申請書の調査と終了まで、請求申請プロセスに含まれるステップにどのように接続するかについて説明します。この投稿では、データの取得、分類、および抽出段階の技術的な詳細について説明します。の第2部、文書抽出段階を拡大し、文書化、レビュー、および検証を継続し、ソリューションを拡張して、請求詐欺のユースケースの分析と視覚化を提供します。

次のアーキテクチャ図は、請求処理アプリケーションのさまざまな段階に応じて、IDP パイプラインのフェーズで使用されるさまざまな AWS サービスを示しています。

IDP アーキテクチャ図

このソリューションでは、次の主要なサービスを使用します。

アマゾンテキストラックは、スキャンしたドキュメントからテキスト、手書き、およびデータを自動的に抽出する機械学習 (ML) サービスです。単純な光学式文字認識 (OCR) を超えて、フォームやテーブルからデータを識別、理解し、抽出します。 Amazon Textract は ML を使用してあらゆるタイプのドキュメントを読み取って処理し、テキスト、手書き、表、およびその他のデータを手作業なしで正確に抽出します。
Amazon Comprehend ML を使用してテキストから洞察を抽出する自然言語処理 (NLP) サービスです。 Amazon Comprehend は、人、場所、日付、数量などのエンティティを検出できます。また、支配的な言語、個人を特定できる情報 (PII) 情報を検出し、ドキュメントを関連するクラスに分類することもできます。
Amazon拡張AI (Amazon A2I) は、人間によるレビューに必要なワークフローの構築を容易にする ML サービスです。 Amazon A2I は、人間によるレビューをすべての開発者に提供し、人間によるレビューシステムの構築や多数の人間によるレビュー担当者の管理に関連する差別化されていない重労働を取り除きます。 Amazon A2I は両方をアマゾンテキストラック & Amazon Comprehend IDPワークフロー内で人間によるレビューまたは検証を導入する機能を提供します。

前提条件

以下のセクションでは、アーキテクチャの最初の XNUMX つのフェーズ、つまりデータの取得、分類、および抽出のフェーズに関連するさまざまなサービスについて説明します。

私たちを参照してください GitHubリポジトリ完全なコードサンプルとクレーム処理パケットのドキュメントサンプルをご覧ください。

データ取得フェーズ

請求とその裏付けとなる文書は、ファックス、電子メール、管理ポータルなど、さまざまなチャネルを通じて提供されます。これらのドキュメントは、次のような高度にスケーラブルで耐久性のあるストレージに保存できます。 Amazon シンプルストレージサービス (アマゾン S3)。これらのドキュメントには、PDF、JPEG、PNG、TIFF など、さまざまな種類があります。ドキュメントはさまざまな形式やレイアウトで提供され、さまざまなチャネルからデータストアに送られます。

分類フェーズ

ドキュメント分類段階では、Amazon Comprehend と Amazon Textract を組み合わせてテキストをドキュメントコンテキストに変換し、データキャプチャ段階で保存されているドキュメントを分類できます。その後、Amazon Comprehend でカスタム分類を使用して、請求処理パケットで定義したクラスにドキュメントを整理できます。カスタム分類は、ドキュメント検証プロセスを自動化し、パケットから欠落しているドキュメントを特定するのにも役立ちます。アーキテクチャ図に示すように、カスタム分類には XNUMX つの手順があります。

Amazon Textract を使用して、データストレージ内のすべてのドキュメントからテキストを抽出し、カスタム分類子のトレーニングデータを準備します。
Amazon Comprehend カスタム分類モデル (または ドキュメント 分類します) テキストの内容に基づいて対象のクラスを認識します。

保険金請求パケットの文書分類

Amazon Comprehend カスタム分類モデルがトレーニングされた後、リアルタイムエンドポイントを使用してドキュメントを分類できます。 Amazon Comprehend は、キーと値のペアの配列 (Doc_name – Confidence_score）。詳細なドキュメント分類のサンプルコードを確認することをお勧めします。 GitHubの.

抽出段階

抽出フェーズでは、Amazon Textract と Amazon Comprehend を使用してドキュメントからデータを抽出します。この投稿では、請求処理パケットで次のサンプルドキュメントを使用します: Center of Medicaid and Medicare Services (CMS)-1500 請求フォーム、運転免許証と保険 ID、および請求書。

CMS-1500 請求フォームからデータを抽出する

CMS-1500 フォームは、機関以外のプロバイダーまたはサプライヤーがメディケアキャリアに請求するために使用する標準的な請求フォームです。

CMS-1500 フォームを正確に処理することが重要です。そうしないと、請求プロセスが遅くなったり、運送業者による支払いが遅れたりする可能性があります。 Amazon Textract を使用 AnalyzeDocument API を使用すると、請求フォーム内の詳細な洞察を理解するために、ドキュメントからテキストを抽出するための抽出プロセスをより正確に高速化できます。以下は、CMS-1500 請求フォームのサンプルドキュメントです。

CMS1500 請求フォーム

現在、 AnalyzeDocument XNUMXつ抽出するAPI FeatureTypes, FORMS & TABLES、ドキュメントから：

from IPython.display import display, JSON
form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": cms_key}}, FeatureTypes=['FORMS', 'TABLES'])

# print tables
print(get_string(textract_json=form_resp, output_type=[Textract_Pretty_Print.TABLES], table_format=Pretty_Print_Table_Format.fancy_grid))

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(form_resp), root="Claim Form"))

次の結果は、読みやすくするために短縮されています。詳細については、 GitHubレポ。

　 FORMS 抽出はキーと値のペアとして識別されます。

　 TABLES 抽出には、請求フォームで検出されたテーブル内のセル、結合セル、および列ヘッダーが含まれます。

CMS1500フォームからのテーブル抽出

身分証明書からデータを抽出する

異なるレイアウトを持つことができる保険 ID のような身分証明書の場合、Amazon Textract を使用できます。 AnalyzeDocument API。私たちは、 FeatureType FORMS の構成として AnalyzeDocument 保険 ID からキーと値のペアを抽出する API (次のサンプルを参照):

次のコードを実行します。

ins_form_resp = textract.analyze_document(Document={'S3Object':{"Bucket": data_bucket, "Name": ins_card_key}}, FeatureTypes=['FORMS'])

# using our constructed helper function - values returned as a dictionary

display(JSON(getformkeyvalue(ins_form_resp), root="Insurance card"))

次のスクリーンショットに示すように、結果の配列でキーと値のペアを取得します。

米国の運転免許証や米国のパスポートなどの ID ドキュメントの場合、Amazon Textract は、保険 ID の例で前に見たものとは異なり、テンプレートやフォーマットを必要とせずに主要な用語を自動的に抽出する特別なサポートを提供します。とともに AnalyzeID API を使用すると、企業はさまざまなテンプレートや形式の ID ドキュメントから情報を迅速かつ正確に抽出できます。の AnalyzeID API は、次の XNUMX つのカテゴリのデータ型を返します。

生年月日、発行日、ID番号、クラス、制限など、IDで利用可能なキーと値のペア
名前、住所、発行者など、明示的なキーが関連付けられていないドキュメントの暗黙のフィールド

請求処理パケットから、次のサンプルの米国運転免許証を使用します。

次のコードを実行します。

ID_resp = textract.analyze_id(DocumentPages=[{'S3Object':{"Bucket": data_bucket, "Name": key}}])

# once again using the textract response parser
from trp.trp2_analyzeid import TAnalyzeIdDocument, TAnalyzeIdDocumentSchema

t_doc = TAnalyzeIdDocumentSchema().load(ID_resp)

list_of_results = t_doc.get_values_as_list()
print(tabulate([x[1:3] for x in list_of_results]))

次のスクリーンショットは、結果を示しています。

結果のスクリーンショットから、運転免許証自体には含まれていない特定のキーが表示されていることがわかります。例えば、 Veteran ライセンスにあるキーではありません。ただし、これは事前入力された Key-Value です。 AnalyzeID 州間のライセンスに違いがあるため、サポートしています。

請求書と領収書からデータを抽出する

に似て AnalyzeID API、 AnalyzeExpense API は、請求書と領収書に特化したサポートを提供し、ベンダー名、小計と合計金額などの関連情報をあらゆる形式の請求書ドキュメントから抽出します。抽出のためのテンプレートや構成は必要ありません。 Amazon Textract は ML を使用して、あいまいな請求書と領収書のコンテキストを理解します。

以下は、医療保険の請求書のサンプルです。

保険請求書のサンプル

私たちは、使用 AnalyzeExpense 標準化されたフィールドのリストを表示する API。標準フィールドとして認識されないフィールドは、次のように分類されます。 OTHER:

expense_resp = textract.analyze_expense(Document={'S3Object':{"Bucket": data_bucket, "Name": invc_key}})

# print invoice summary

print(get_expensesummary_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

# print invoice line items

print(get_expenselineitemgroups_string(textract_json=expense_resp, table_format=Pretty_Print_Table_Format.fancy_grid))

次のフィールドのリストをキーと値のペア (左側のスクリーンショットを参照) として取得し、購入した個々の品目の行全体 (右側のスクリーンショットを参照) を結果として取得します。

保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1 PlatoBlockchain Data Intelligence。垂直検索。あい。

まとめ

この投稿では、請求処理における一般的な課題と、AWS AI サービスを使用してインテリジェントなドキュメント処理パイプラインを自動化し、請求を自動的に裁定する方法を紹介しました。 Amazon Comprehend カスタム分類子を使用してドキュメントをさまざまなドキュメントクラスに分類する方法と、Amazon Textract を使用して非構造化、半構造化、構造化、および特殊化されたドキュメントタイプを抽出する方法について説明しました。

In 第2部、Amazon Textract を使用して抽出フェーズを拡張します。また、Amazon Comprehend の事前定義されたエンティティとカスタムエンティティを使用してデータを充実させ、IDP パイプラインを拡張して分析および視覚化サービスと統合してさらに処理する方法を示します。

のセキュリティセクションを確認することをお勧めします。アマゾンのテクストラクト、アマゾン・コンプリヘンド、 & アマゾンA2I ドキュメンテーションおよび提供されたガイドラインに従うこと。ソリューションの価格について詳しくは、次の価格の詳細を確認してください。アマゾンのテクストラクト、 Amazon Comprehend, アマゾンA2I.

著者について

チンマイ・レーン アマゾンウェブサービスの AI/ML スペシャリストソリューションアーキテクトです。彼女は応用数学と機械学習に情熱を注いでいます。彼女は、AWS の顧客向けのインテリジェントなドキュメント処理ソリューションの設計に重点を置いています。仕事以外では、サルサとバチャータダンスを楽しんでいます。

ソナリ・サフ アマゾンウェブサービスのインテリジェントドキュメント処理 AI/ML ソリューションアーキテクトチームを率いています。彼女は情熱的な技術愛好家であり、イノベーションを使用して複雑な問題を解決するために顧客と協力することを楽しんでいます。彼女の主な専門分野は、インテリジェントなドキュメント処理のための人工知能と機械学習です。

ティム・コンデロ アマゾンウェブサービスのシニア AI/ML スペシャリストソリューションアーキテクトです。彼の焦点は、自然言語処理とコンピュータービジョンです。 Tim は、顧客のアイデアを取り入れて、それらをスケーラブルなソリューションに変えることを楽しんでいます。

タイムスタンプ： 2022 年 11 月 3 日2022 年 11 月 4 日

タイムスタンプ： 2024 年 4 月 3 日

保険業界における AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 1

プラトン再発行

ソリューションの概要

前提条件

データ取得フェーズ

分類フェーズ

抽出段階

CMS-1500 請求フォームからデータを抽出する

身分証明書からデータを抽出する

請求書と領収書からデータを抽出する

まとめ

著者について

より多くの AWS機械学習

データエクスペリエンスの再発明: 生成 AI と最新のデータアーキテクチャを使用して洞察を引き出す | アマゾンウェブサービス

「ID + Selfie」 – AWS を使用したデジタル ID 検証の改善

Amazon Rekognitionは、ライブビデオストリームでリアルタイムアラートを提供するストリーミングビデオイベントを導入しています

MLを利用したコーディングコンパニオンであるAmazonCodeWhispererの紹介

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー