多くの業界では、ドキュメントからカスタム エンティティをタイムリーに抽出することが重要です。 これは難しいかもしれません。 たとえば、保険請求には、多くの場合、長くて密度の高い文書に散りばめられた数十の重要な属性 (日付、名前、場所、報告書など) が含まれています。 このような情報を手動でスキャンして抽出すると、エラーが発生しやすく、時間がかかる可能性があります。 ルールベースのソフトウェアは役立ちますが、最終的には柔軟性が高すぎて、さまざまなドキュメントの種類やレイアウトに適応できません。
このプロセスを自動化して高速化するには、次のようにします。 Amazon Comprehend 機械学習 (ML) を使用してカスタム エンティティを迅速かつ正確に検出します。 システムは過去に学習した内容を使用して新しいドキュメントに適応できるため、このアプローチは柔軟かつ正確です。 ただし、最近まで、この機能はプレーン テキスト ドキュメントにのみ適用できました。これは、ドキュメントをネイティブ形式から変換するときに位置情報が失われることを意味していました。 これに対処するために、 最近発表された Amazon Comprehend は、PDF、画像、Word ファイル形式でカスタムエンティティを抽出できること。
この投稿では、PDF 注釈を使用してカスタム認識エンジンを構築する方法について、保険業界の具体例を紹介します。
ソリューションの概要
次の大まかな手順を説明します。
- PDF注釈を作成します。
- PDF 注釈を使用して、Python API を使用してカスタム モデルをトレーニングします。
- トレーニングされたモデルから評価指標を取得します。
- 目に見えないドキュメントに対して推論を実行します。
この投稿を終えるまでに、生の PDF ドキュメントをトレーニング済みモデルに送信し、対象のラベルに関する情報を含む構造化ファイルを出力できるようにしたいと考えています。 特に、保険請求との関連性を理由に選択した次の XNUMX つのエンティティを検出するようにモデルをトレーニングします。 DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
, InsuredMailingAddress
。 構造化された出力を読み取った後、次の図のように、PDF ドキュメント上でラベル情報を直接視覚化できます。
この投稿には、同じ手順を含む Jupyter ノートブックが付属しています。 その手順を実行しながら、自由に従ってください。 ノート。 を設定する必要があることに注意してください。 アマゾンセージメーカー Amazon Comprehend が読み取りできる環境 Amazon シンプル ストレージ サービス (Amazon S3) ノートブックの上部で説明されています。
PDF注釈を作成する
PDF ドキュメントの注釈を作成するには、次を使用できます。 Amazon SageMakerグラウンドトゥルースは、ML 用の高精度のトレーニング データセットを簡単に構築できる、フルマネージドのデータ ラベル付けサービスです。
このチュートリアルでは、Ground Truth を使用して、ネイティブ形式 (プレーン テキストに変換せず) で PDF に注釈を付けています。 Ground Truth ジョブは、カスタム Amazon Comprehend モデルのトレーニングに必要な XNUMX つのパスを生成します。
- ソース – 入力 PDF へのパス。
- 注釈 – ラベル付きエンティティ情報を含む注釈 JSON ファイルへのパス。
- マニフェスト – 注釈とソース PDF の場所を示すファイル。 このファイルは、Amazon Comprehend カスタムエンティティ認識トレーニングジョブを作成し、カスタムモデルをトレーニングするために使用されます。
次のスクリーンショットは、注釈のサンプルを示しています。
カスタム Ground Truth ジョブは、エンティティに関するブロックレベルの情報をキャプチャする PDF 注釈を生成します。 このようなブロックレベルの情報は、エンティティの正確な位置座標を提供します (子ブロックはエンティティ ブロック内の各単語を表します)。 これは、PDF 内のデータがテキスト形式にフラット化され、注釈付け中に正確な座標情報ではなくオフセット情報のみがキャプチャされる標準の Ground Truth ジョブとは異なります。 このカスタム アノテーション パラダイムで取得した豊富な位置情報により、より正確なモデルをトレーニングすることができます。
このタイプのジョブから生成されるマニフェストは、標準の注釈に使用される CSV とは対照的に、拡張マニフェストと呼ばれます。 詳細については、「」を参照してください。 注釈.
PDF 注釈を使用して、Python API を使用してカスタム モデルをトレーニングする
拡張マニフェスト ファイルは、JSON Lines 形式でフォーマットする必要があります。 JSON Lines 形式では、ファイル内の各行は、改行区切り文字が後に続く完全な JSON オブジェクトです。
次のコードは、この拡張されたマニフェスト ファイル内のエントリです。
注意すべきいくつかのこと:
- このジョブには XNUMX つのラベル付けタイプが関連付けられています。
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
,InsuredMailingAddress
. - マニフェスト ファイルは、ソース PDF の場所と注釈の場所の両方を参照します。
- 注釈ジョブに関するメタデータ (作成日など) がキャプチャされます。
Use-textract-only
に設定されていますFalse
これは、注釈ツールが PDFPlumber (ネイティブ PDF の場合) を使用するか、または アマゾンテキストラック (スキャンされた PDF の場合)。 に設定されている場合true
, どちらの場合でも Amazon Textract が使用されます (コストは高くなりますが、精度が向上する可能性があります)。
次のコード例に示すように、認識エンジンをトレーニングできるようになりました。
25 種類のエンティティすべてを認識するレコグナイザーを作成します。 必要に応じて、これらのエンティティのサブセットを使用することもできました。 最大 XNUMX 個のエンティティを使用できます。
各パラメータの詳細については、こちらを参照してください。 create_entity_recognizer.
トレーニング セットのサイズに応じて、トレーニング時間は異なる場合があります。 このデータセットのトレーニングには約 1 時間かかります。 トレーニング ジョブのステータスを監視するには、 describe_entity_recognizer
APIです。
トレーニング済みモデルから評価指標を取得する
Amazon Comprehend は、トレーニングされたモデルのモデルパフォーマンスメトリクスを提供します。これは、トレーニングされたモデルが同様の入力を使用して予測をどの程度うまく行うことが期待されるかを示します。 グローバルな精度と再現率のメトリクスだけでなく、エンティティごとのメトリクスも取得できます。 正確なモデルは精度が高く、再現率も高くなります。 精度が高いということは、特定のラベルを示すモデルが通常は正しいことを意味します。 再現率が高いということは、モデルがほとんどのラベルを検出したことを意味します。 F1 はこれらの測定値の複合メトリック (調和平均) であるため、両方の成分が高い場合には高くなります。 メトリクスの詳細な説明については、「」を参照してください。 カスタムエンティティ認識機能メトリック.
ドキュメントをトレーニングジョブに提供すると、Amazon Comprehend はドキュメントをトレーニングセットとテストセットに自動的に分離します。 モデルが到着したら TRAINED
ステータスを使用できます。 describe_entity_recognizer
API を再度使用して、テスト セットの評価メトリクスを取得します。
以下はグローバル メトリクスの例です。
以下はエンティティごとのメトリクスの例です。
高いスコアは、モデルがこれらのエンティティを検出する方法を十分に学習していることを示します。
目に見えないドキュメントに対して推論を実行する
トレーニング手順の一部ではなかったドキュメントに対して、トレーニング済みモデルを使用して推論を実行してみましょう。 この非同期 API は、標準またはカスタム NER に使用できます。 (この投稿のように) カスタム NER に使用する場合は、トレーニングされたモデルの ARN を渡す必要があります。
応答を印刷することで、送信されたジョブを確認できます。
Pandas を使用した検出ジョブの出力をテーブルにフォーマットできます。 の Score
値は、モデルがエンティティに関して持つ信頼レベルを示します。
最後に、未表示のドキュメントに予測をオーバーレイすることができ、この投稿の上部に示すような結果が得られます。
まとめ
この投稿では、Amazon Comprehend を使用してカスタムエンティティをネイティブ PDF 形式で抽出する方法を説明しました。 次のステップとして、さらに深く掘り下げることを検討してください。
- 付属のノートブックを使用して独自の認識エンジンをトレーニングします こちら。 今後の料金が発生しないように、終了したら必ずリソースを削除してください。
- 独自のカスタム注釈ジョブを設定して、対象のエンティティの PDF 注釈を収集します。 詳細については、以下を参照してください。 Amazon Comprehend を使用してドキュメント内の名前付きエンティティを抽出するためのカスタムドキュメントアノテーション.
- Amazon Comprehend コンソールでカスタム NER モデルをトレーニングします。 詳細については、「」を参照してください。 Amazon Comprehendを使用して、ネイティブ形式のドキュメントからカスタムエンティティを抽出します.
著者について
ジョシュア・レヴィ Amazon Machine Learning Solutions ラボの上級応用科学者であり、顧客が主要なビジネス上の問題を解決する AI/ML ソリューションの設計と構築を支援しています。
アンドリュー・アング Amazon Machine Learning Solutions Lab の機械学習エンジニアであり、さまざまな業界の顧客が最も差し迫ったビジネス上の問題を解決する AI/ML ソリューションを特定して構築できるよう支援しています。 仕事以外では、旅行や食べ物の vlog を見るのが好きです。
アレックスチラヤス Amazon Machine Learning Solutions Lab のソフトウェアエンジニアであり、AWS AI/ML サービスの力を解放して現実世界のビジネス上の問題を解決する方法を顧客に示すユースケースベースのソリューションの構築に注力しています。
ジェニファー・ジュ Amazon AI Machine Learning Solutions Lab の応用科学者です。 彼女は AWS の顧客と協力して、優先度の高いビジネス ニーズに対応する AI/ML ソリューションを構築しています。
ニハリカ・ジャヤンティ Amazon Machine Learning Solutions Lab – Human in the Loop チームのフロントエンドエンジニアです。 彼女は、Amazon SageMaker Ground Truth の顧客向けのユーザーエクスペリエンスソリューションの作成を支援しています。
ボリス・アロンチック Amazon AI Machine Learning Solutions Lab のマネージャーであり、ML 科学者とエンジニアのチームを率いて、AWS の顧客が AI/ML ソリューションを活用してビジネス目標を実現できるよう支援しています。
- "
- &
- 100
- 私たちについて
- 正確な
- 越えて
- 住所
- AI
- すべて
- 既に
- Amazon
- API
- アプローチ
- 約
- 属性
- 増強された
- 自動化する
- AWS
- ブロック
- ビルド
- 建物
- ビジネス
- 挑戦
- 課金
- 子
- クレーム
- コード
- 収集する
- 信頼
- 領事
- 含まれています
- 調整する
- 可能性
- 創造
- 重大な
- カスタム
- Customers
- データ
- 試合日
- より深い
- 設計
- 検出
- 直接に
- ドキュメント
- エンジニア
- エンジニア
- エンティティ
- 環境
- 例
- 予想される
- 体験
- フレキシブル
- フォロー中
- フード
- フォーム
- 形式でアーカイブしたプロジェクトを保存します.
- 発見
- 無料版
- 未来
- グローバル
- 目標
- 助けます
- ことができます
- ハイ
- 非常に
- 認定条件
- How To
- HTTPS
- 人間
- 識別する
- 画像
- 重要
- 産業
- 産業を変えます
- 情報
- 保険
- 関心
- IT
- ジョブ
- キー
- ラボ
- ラベリング
- ラベル
- リード
- 学んだ
- 学習
- レベル
- 活用
- LINE
- 場所
- 場所
- 機械
- 機械学習
- 作る
- マネージド
- マネージャー
- 方法
- 手動で
- 意味
- メトリック
- ML
- モニター
- 他には?
- 最も
- 名
- ノート
- オフセット
- 自分の
- パラダイム
- パフォーマンス
- 電力
- 予測
- 問題
- プロセス
- 提供します
- は、大阪で
- すぐに
- Raw
- リーディング
- 現実の世界
- 実現する
- 認識する
- レポート
- リソース
- 応答
- レビュー
- ラン
- ランニング
- スキャニング
- 科学者
- 科学者たち
- サービス
- サービス
- セッションに
- 同様の
- 簡単な拡張で
- サイズ
- ソフトウェア
- ソフトウェアエンジニア
- ソリューション
- 解決する
- スピード
- 標準
- Status:
- ストレージ利用料
- 構造化された
- 提出された
- チーム
- test
- ソース
- 介して
- 時間
- 時間がかかる
- ツール
- top
- トレーニング
- 旅行
- アンロック
- us
- つかいます
- 通常
- 値
- この試験は
- かどうか
- while
- 以内
- 無し
- 仕事
- 作品
- 世界