Amazon Comprehend を使用して PDF ドキュメント用のカスタムエンティティ認識ツールを構築する

プラトン再発行

フォロワー： 0

多くの業界では、ドキュメントからカスタムエンティティをタイムリーに抽出することが重要です。これは難しいかもしれません。たとえば、保険請求には、多くの場合、長くて密度の高い文書に散りばめられた数十の重要な属性 (日付、名前、場所、報告書など) が含まれています。このような情報を手動でスキャンして抽出すると、エラーが発生しやすく、時間がかかる可能性があります。ルールベースのソフトウェアは役立ちますが、最終的には柔軟性が高すぎて、さまざまなドキュメントの種類やレイアウトに適応できません。

このプロセスを自動化して高速化するには、次のようにします。 Amazon Comprehend 機械学習 (ML) を使用してカスタムエンティティを迅速かつ正確に検出します。システムは過去に学習した内容を使用して新しいドキュメントに適応できるため、このアプローチは柔軟かつ正確です。ただし、最近まで、この機能はプレーンテキストドキュメントにのみ適用できました。これは、ドキュメントをネイティブ形式から変換するときに位置情報が失われることを意味していました。これに対処するために、最近発表された Amazon Comprehend は、PDF、画像、Word ファイル形式でカスタムエンティティを抽出できること。

この投稿では、PDF 注釈を使用してカスタム認識エンジンを構築する方法について、保険業界の具体例を紹介します。

ソリューションの概要

次の大まかな手順を説明します。

PDF注釈を作成します。
PDF 注釈を使用して、Python API を使用してカスタムモデルをトレーニングします。
トレーニングされたモデルから評価指標を取得します。
目に見えないドキュメントに対して推論を実行します。

この投稿を終えるまでに、生の PDF ドキュメントをトレーニング済みモデルに送信し、対象のラベルに関する情報を含む構造化ファイルを出力できるようにしたいと考えています。特に、保険請求との関連性を理由に選択した次の XNUMX つのエンティティを検出するようにモデルをトレーニングします。 DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, InsuredMailingAddress。構造化された出力を読み取った後、次の図のように、PDF ドキュメント上でラベル情報を直接視覚化できます。

この投稿には、同じ手順を含む Jupyter ノートブックが付属しています。その手順を実行しながら、自由に従ってください。ノート。を設定する必要があることに注意してください。アマゾンセージメーカー Amazon Comprehend が読み取りできる環境 Amazon シンプルストレージサービス (Amazon S3) ノートブックの上部で説明されています。

PDF注釈を作成する

PDF ドキュメントの注釈を作成するには、次を使用できます。 Amazon SageMakerグラウンドトゥルースは、ML 用の高精度のトレーニングデータセットを簡単に構築できる、フルマネージドのデータラベル付けサービスです。

このチュートリアルでは、Ground Truth を使用して、ネイティブ形式 (プレーンテキストに変換せず) で PDF に注釈を付けています。 Ground Truth ジョブは、カスタム Amazon Comprehend モデルのトレーニングに必要な XNUMX つのパスを生成します。

ソース – 入力 PDF へのパス。
注釈 – ラベル付きエンティティ情報を含む注釈 JSON ファイルへのパス。
マニフェスト – 注釈とソース PDF の場所を示すファイル。このファイルは、Amazon Comprehend カスタムエンティティ認識トレーニングジョブを作成し、カスタムモデルをトレーニングするために使用されます。

次のスクリーンショットは、注釈のサンプルを示しています。

カスタム Ground Truth ジョブは、エンティティに関するブロックレベルの情報をキャプチャする PDF 注釈を生成します。このようなブロックレベルの情報は、エンティティの正確な位置座標を提供します (子ブロックはエンティティブロック内の各単語を表します)。これは、PDF 内のデータがテキスト形式にフラット化され、注釈付け中に正確な座標情報ではなくオフセット情報のみがキャプチャされる標準の Ground Truth ジョブとは異なります。このカスタムアノテーションパラダイムで取得した豊富な位置情報により、より正確なモデルをトレーニングすることができます。

このタイプのジョブから生成されるマニフェストは、標準の注釈に使用される CSV とは対照的に、拡張マニフェストと呼ばれます。詳細については、「」を参照してください。注釈.

PDF 注釈を使用して、Python API を使用してカスタムモデルをトレーニングする

拡張マニフェストファイルは、JSON Lines 形式でフォーマットする必要があります。 JSON Lines 形式では、ファイル内の各行は、改行区切り文字が後に続く完全な JSON オブジェクトです。

次のコードは、この拡張されたマニフェストファイル内のエントリです。

注意すべきいくつかのこと：

このジョブには XNUMX つのラベル付けタイプが関連付けられています。 DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, InsuredMailingAddress.
マニフェストファイルは、ソース PDF の場所と注釈の場所の両方を参照します。
注釈ジョブに関するメタデータ (作成日など) がキャプチャされます。
Use-textract-only に設定されています Falseこれは、注釈ツールが PDFPlumber (ネイティブ PDF の場合) を使用するか、またはアマゾンテキストラック (スキャンされた PDF の場合)。に設定されている場合 true, どちらの場合でも Amazon Textract が使用されます (コストは高くなりますが、精度が向上する可能性があります)。

次のコード例に示すように、認識エンジンをトレーニングできるようになりました。

25 種類のエンティティすべてを認識するレコグナイザーを作成します。必要に応じて、これらのエンティティのサブセットを使用することもできました。最大 XNUMX 個のエンティティを使用できます。

各パラメータの詳細については、こちらを参照してください。 create_entity_recognizer.

トレーニングセットのサイズに応じて、トレーニング時間は異なる場合があります。このデータセットのトレーニングには約 1 時間かかります。トレーニングジョブのステータスを監視するには、 describe_entity_recognizer APIです。

トレーニング済みモデルから評価指標を取得する

Amazon Comprehend は、トレーニングされたモデルのモデルパフォーマンスメトリクスを提供します。これは、トレーニングされたモデルが同様の入力を使用して予測をどの程度うまく行うことが期待されるかを示します。グローバルな精度と再現率のメトリクスだけでなく、エンティティごとのメトリクスも取得できます。正確なモデルは精度が高く、再現率も高くなります。精度が高いということは、特定のラベルを示すモデルが通常は正しいことを意味します。再現率が高いということは、モデルがほとんどのラベルを検出したことを意味します。 F1 はこれらの測定値の複合メトリック (調和平均) であるため、両方の成分が高い場合には高くなります。メトリクスの詳細な説明については、「」を参照してください。カスタムエンティティ認識機能メトリック.

ドキュメントをトレーニングジョブに提供すると、Amazon Comprehend はドキュメントをトレーニングセットとテストセットに自動的に分離します。モデルが到着したら TRAINED ステータスを使用できます。 describe_entity_recognizer API を再度使用して、テストセットの評価メトリクスを取得します。

以下はグローバルメトリクスの例です。

以下はエンティティごとのメトリクスの例です。

高いスコアは、モデルがこれらのエンティティを検出する方法を十分に学習していることを示します。

目に見えないドキュメントに対して推論を実行する

トレーニング手順の一部ではなかったドキュメントに対して、トレーニング済みモデルを使用して推論を実行してみましょう。この非同期 API は、標準またはカスタム NER に使用できます。 (この投稿のように) カスタム NER に使用する場合は、トレーニングされたモデルの ARN を渡す必要があります。

応答を印刷することで、送信されたジョブを確認できます。

Pandas を使用した検出ジョブの出力をテーブルにフォーマットできます。の Score 値は、モデルがエンティティに関して持つ信頼レベルを示します。

最後に、未表示のドキュメントに予測をオーバーレイすることができ、この投稿の上部に示すような結果が得られます。

まとめ

この投稿では、Amazon Comprehend を使用してカスタムエンティティをネイティブ PDF 形式で抽出する方法を説明しました。次のステップとして、さらに深く掘り下げることを検討してください。

付属のノートブックを使用して独自の認識エンジンをトレーニングしますこちら。今後の料金が発生しないように、終了したら必ずリソースを削除してください。
独自のカスタム注釈ジョブを設定して、対象のエンティティの PDF 注釈を収集します。詳細については、以下を参照してください。 Amazon Comprehend を使用してドキュメント内の名前付きエンティティを抽出するためのカスタムドキュメントアノテーション.
Amazon Comprehend コンソールでカスタム NER モデルをトレーニングします。詳細については、「」を参照してください。 Amazon Comprehendを使用して、ネイティブ形式のドキュメントからカスタムエンティティを抽出します.

著者について

ジョシュア・レヴィ Amazon Machine Learning Solutions ラボの上級応用科学者であり、顧客が主要なビジネス上の問題を解決する AI/ML ソリューションの設計と構築を支援しています。

アンドリュー・アング Amazon Machine Learning Solutions Lab の機械学習エンジニアであり、さまざまな業界の顧客が最も差し迫ったビジネス上の問題を解決する AI/ML ソリューションを特定して構築できるよう支援しています。仕事以外では、旅行や食べ物の vlog を見るのが好きです。

アレックスチラヤス Amazon Machine Learning Solutions Lab のソフトウェアエンジニアであり、AWS AI/ML サービスの力を解放して現実世界のビジネス上の問題を解決する方法を顧客に示すユースケースベースのソリューションの構築に注力しています。

ジェニファー・ジュ Amazon AI Machine Learning Solutions Lab の応用科学者です。彼女は AWS の顧客と協力して、優先度の高いビジネスニーズに対応する AI/ML ソリューションを構築しています。

ニハリカ・ジャヤンティ Amazon Machine Learning Solutions Lab – Human in the Loop チームのフロントエンドエンジニアです。彼女は、Amazon SageMaker Ground Truth の顧客向けのユーザーエクスペリエンスソリューションの作成を支援しています。

ボリス・アロンチック Amazon AI Machine Learning Solutions Lab のマネージャーであり、ML 科学者とエンジニアのチームを率いて、AWS の顧客が AI/ML ソリューションを活用してビジネス目標を実現できるよう支援しています。

タイムスタンプ： 2022 年 4 月 8 日

タイムスタンプ： 2022 年 3 月 29 日

Amazon Comprehendを使用して、PDFドキュメント用のカスタムエンティティレコグナイザーを構築します

プラトン再発行

ソリューションの概要

PDF注釈を作成する

PDF 注釈を使用して、Python API を使用してカスタムモデルをトレーニングする

トレーニング済みモデルから評価指標を取得する

目に見えないドキュメントに対して推論を実行する

まとめ

著者について

より多くの AWS機械学習

Amazon SageMaker のマルチフレームワークモデルによるコスト効率の高い ML 推論

Amazon Rekognitionは、ライブビデオストリームでリアルタイムアラートを提供するストリーミングビデオイベントを導入しています

AWS 専用アクセラレータを使用して、機械学習ワークロードのエネルギー消費を最大 90% 削減 | アマゾンウェブサービス

Chronomics は、Amazon Rekognition カスタムラベルを使用して COVID-19 テスト結果を検出します

T-Mobile US, Inc. は、Amazon Transcribe と Amazon Translate を通じて人工知能を使用して、顧客が選択した言語でボイスメールを配信します。アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

ソリューションの概要

PDF注釈を作成する

PDF 注釈を使用して、Python API を使用してカスタム モデルをトレーニングする

トレーニング済みモデルから評価指標を取得する

目に見えないドキュメントに対して推論を実行する

まとめ

著者について

より多くの AWS機械学習

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

PDF 注釈を使用して、Python API を使用してカスタムモデルをトレーニングする