Amazon Comprehend Document Classifier がレイアウトサポートを追加して精度を向上

プラトン再発行

フォロワー： 0

膨大な量のドキュメントを効果的に処理および処理する機能は、現代の企業にとって不可欠になっています。すべての企業が扱う情報の絶え間ない流入により、ドキュメントを手動で分類することはもはや現実的な選択肢ではありません。ドキュメント分類モデルは手順を自動化し、組織が時間とリソースを節約するのに役立ちます。手作業による処理やキーワードベースの検索などの従来の分類手法は、ドキュメントの量が増えるにつれて効率が低下し、時間がかかります。この非効率性により、生産性が低下し、運用コストが高くなります。さらに、必要なときに重要な情報にアクセスできなくなり、顧客体験が低下し、意思決定に影響を与える可能性があります。 AWS re:Invent 2022 では、 Amazon Comprehendは、機械学習 (ML) を使用してテキストから洞察を発見する自然言語処理 (NLP) サービスです。打ち上げネイティブドキュメントタイプのサポート。この新機能により、Amazon Comprehend を使用してネイティブ形式 (PDF、TIFF、JPG、PNG、DOCX) でドキュメントを分類できるようになりました。

本日、Amazon Comprehend が PDF、Word、画像形式などのドキュメントを使用したカスタム分類モデルのトレーニングをサポートするようになったことを発表できることを嬉しく思います。テキストに加えてレイアウトをサポートするネイティブドキュメントでオーダーメイドのドキュメント分類モデルをトレーニングできるようになり、結果の精度が向上しました。

この投稿では、Amazon Comprehend カスタムドキュメント分類モデルのトレーニングを開始する方法の概要を説明します。

概要

定義された空間内のオブジェクトの相対的な配置を理解する能力は、 レイアウト意識. この場合、ヘッダー、小見出し、表、およびグラフィックスがドキュメント内で互いにどのように関連しているかをモデルが理解するのに役立ちます。モデルは、テキストの構造とレイアウトを認識している場合、コンテンツに基づいてドキュメントをより効果的に分類できます。

Amazon Comprehend ドキュメント分類子は、より高精度の PlatoBlockchain データインテリジェンスのためのレイアウトサポートを追加します。垂直検索。あい。

この投稿では、関連するデータ準備手順について説明し、モデルのトレーニングプロセスを示し、Amazon Comprehend で新しいカスタムドキュメント分類モデルを使用する利点について説明します。ベストプラクティスとして、カスタムドキュメント分類モデルのトレーニングを開始する前に、次の点を考慮する必要があります。

ドキュメント分類のニーズを評価する

ユースケースをサポートするさまざまなクラスまたはカテゴリとともに、分類する必要があるさまざまな種類のドキュメントを特定します。分類する必要があるドキュメントの量と種類を評価した後、適切な分類構造または分類法を決定します。ドキュメントの種類は、PDF、Word、画像などさまざまです。ドキュメント管理システムまたはその他のストレージメカニズムを介して、さまざまなラベル付きドキュメントセットへのアクセスが許可されていることを確認します。

データを準備する

モデルのトレーニングに使用する予定のドキュメントファイルが暗号化またはロックされていないことを確認します。たとえば、PDF ファイルが暗号化されておらず、パスワードでロックされていないことを確認してください。トレーニング目的で使用する前に、そのようなファイルを復号化する必要があります。ドキュメントのサンプルに適切なカテゴリまたはラベル (クラス）。単一ラベル分類 (マルチクラスモード）またはマルチラベル分類ユースケースに適しています。マルチクラスモードでは、各ドキュメントに XNUMX つのクラスのみが関連付けられますが、マルチラベルモードでは、XNUMX つまたは複数のクラスがドキュメントに関連付けられます。

モデル評価を検討する

ラベル付けされたデータセットを使用してモデルをトレーニングし、新しいドキュメントを正確に分類する方法を学習し、モデルメトリクスを理解することで新しくトレーニングされたモデルバージョンのパフォーマンスを評価できるようにします。 Amazon Comprehend のポストモデルトレーニングによって提供されるメトリクスを理解するには、以下を参照してください。カスタム分類指標. トレーニングプロセスが完了したら、非同期またはリアルタイムでドキュメントの分類を開始できます。次のセクションでは、カスタム分類モデルをトレーニングする方法について説明します。

トレーニングデータを準備する

カスタム分類モデルをトレーニングする前に、トレーニングデータを準備する必要があります。トレーニングデータは、ラベル付けされた一連のドキュメントで構成されます。これらのドキュメントは、既にアクセスできるドキュメントリポジトリから事前に識別されたドキュメントにすることができます。この例では、健康保険請求の裁定プロセスで一般的に見られるいくつかの異なるドキュメントタイプ (患者の退院概要、請求書、領収書など) を使用してカスタム分類モデルをトレーニングしました。また、注釈ファイルを CSV 形式で準備する必要があります。以下は、トレーニングに必要な注釈ファイル CSV データの例です。

 discharge_summary,summary-1.pdf,1 discharge_summary,summary-2.pdf,1 invoice,invoice-1.pdf,1 invoice,invoice-1.pdf,2 invoice,invoice-2.pdf,1

注釈 CSV ファイルには XNUMX つの列が含まれている必要があります。最初の列にはドキュメントの目的のクラス (ラベル) が含まれ、XNUMX 番目の列はドキュメント名 (ファイル名) で、最後の列はトレーニングデータセットに含めるドキュメントのページ番号です。トレーニングプロセスはネイティブのマルチページ PDF および DOCX ファイルをサポートするため、ドキュメントが複数ページのドキュメントである場合は、ページ番号を指定する必要があります。複数ページのドキュメントのすべてのページをトレーニングデータセットに含める場合は、CSV 注釈ファイルで各ページを個別の行として指定する必要があります。たとえば、前述の注釈ファイルでは、 invoice-1.pdf は 1 ページのドキュメントであり、両方のページを分類データセットに含めたいと考えています。 PDF、PNG、TIFF などのファイルは画像形式であるため、ページ番号 (XNUMX 列目) の値は常に XNUMX にする必要があります。トレーニングプロセスでそれらを使用するために。

という注釈ファイルを用意しました。 test.csv カスタム分類モデルをトレーニングするための適切なデータを使用します。各サンプルドキュメントの CSV ファイルには、ドキュメントが属するクラス、ドキュメントの場所が含まれています。 Amazon シンプルストレージサービス (Amazon S3) など path/to/prefix/document.pdf、およびページ番号 (該当する場合)。ほとんどのドキュメントは単一ページの DOCX、PDF ファイル、または TIF、JPG、または PNG ファイルであるため、割り当てられたページ番号は 1 です。注釈 CSV とサンプルドキュメントはすべて同じ Amazon S3 プレフィックスの下にあるため、 10 列目にプレフィックスを明示的に指定する必要はありません。また、クラスごとに少なくとも XNUMX 個以上のドキュメントサンプルを用意し、モデルのトレーニングには JPG、PNG、DOCX、PDF、および TIF ファイルを組み合わせて使用しました。新しいドキュメントを認識する能力に影響を与えるモデルの過剰適合を避けるために、通常はモデルトレーニング用に多様なサンプルドキュメントセットを用意することをお勧めします。クラスごとのサンプル数を均等にすることもお勧めしますが、クラスごとのサンプル数が正確に同じである必要はありません。次に、アップロードします test.csv アノテーションファイルとすべてのドキュメントを Amazon S3 に保存します。次の画像は、注釈 CSV ファイルの一部を示しています。

カスタム分類モデルをトレーニングする

注釈ファイルとすべてのサンプルドキュメントの準備ができたので、カスタム分類モデルをセットアップしてトレーニングします。カスタム分類モデルトレーニングの設定を開始する前に、注釈 CSV とサンプルドキュメントが Amazon S3 の場所に存在することを確認してください。

Amazon Comprehendコンソールで、 カスタム分類 ナビゲーションペインに表示されます。
選択する 新しいモデルを作成する.
モデル名、一意の名前を入力します。
バージョン名で、一意のバージョン名を入力します。
トレーニングモデルタイプ選択 ネイティブドキュメント.

これにより、シリアル化されたテキストの代わりにネイティブドキュメントタイプを使用してモデルをトレーニングすることを Amazon Comprehend に伝えます。

分類子モード選択 単一ラベルモードの使用.

このモードは、ドキュメントを単一のクラスに分類するつもりであることを分類子に伝えます。マルチラベルモードでモデルをトレーニングする必要がある場合、つまりドキュメントが XNUMX つまたは複数のクラスに属している可能性がある場合は、注釈 CSV で特殊文字で区切られたドキュメントのクラスを指定して、注釈ファイルを適切に設定する必要があります。ファイル。その場合は、 マルチラベルモードの使用 オプションを選択します。

S3 上のアノテーションの場所で、注釈 CSV ファイルのパスを入力します。
S3 上のトレーニングデータの場所で、ドキュメントが存在する Amazon S3 の場所を入力します。
このセクションでは、他のすべてのオプションをデフォルトのままにします。
出力データ セクションで、出力用の Amazon S3 の場所を指定します。

これはオプションですが、Amazon Comprehend はこの場所でモデルトレーニング後の評価メトリクスを生成するため、出力場所を提供することをお勧めします。このデータは、モデルのパフォーマンスを評価し、反復し、モデルの精度を向上させるのに役立ちます。

IAMの役割 セクションで、適切な AWS IDおよびアクセス管理 Amazon Comprehend が Amazon S3 の場所にアクセスし、そこから読み書きできるようにする (IAM) ロール。
選択する 創造する モデルのトレーニングを開始します。

クラスの数とデータセットのサイズによっては、モデルのトレーニングに数分かかる場合があります。トレーニングのステータスは、 カスタム分類 ページ。トレーニングプロセスは、 提出された トレーニングプロセスが開始された直後のステータスは、 トレーニング トレーニングプロセスが開始されたときのステータス。モデルがトレーニングされると、 バージョンステータス 〜に変わります 訓練を受けた. Amazon Comprehend がトレーニングデータに矛盾を検出すると、ステータスが表示されます。 エラーで 適切なエラーメッセージを示すアラートとともに、修正アクションを実行し、修正されたデータを使用してトレーニングプロセスを再開できます。

この投稿では、Amazon Comprehend コンソールを使用してカスタム分類子モデルをトレーニングする手順を示しました。また、 AWSSDK どの言語でも (たとえば、 Python 用 Boto3）または AWSコマンドラインインターフェイス (AWS CLI) カスタム分類モデルのトレーニングを開始します。 SDK または AWS CLI を使用すると、 CreateDocumentClassifier モデルのトレーニングを開始し、その後、 DescriptionDocumentClassifier モデルの状態を確認するための API。

モデルがトレーニングされた後、次のいずれかを実行できますリアルタイム分析 or 非同期 (バッチ) 分析ジョブ新しいドキュメントについて。ドキュメントでリアルタイム分類を実行するには、トレーニング済みのカスタム分類モデルを使用して Amazon Comprehend リアルタイムエンドポイントをデプロイする必要があります。リアルタイムエンドポイントは、低レイテンシのリアルタイムの推論結果を必要とするユースケースに最適ですが、大量のドキュメントセットを分類するには、非同期分析ジョブがより適しています。トレーニング済みの分類モデルを使用して新しいドキュメントに対して非同期推論を実行する方法については、次を参照してください。インテリジェントなドキュメント処理のための Amazon Comprehend によるワンステップ分類とエンティティ認識の導入.

レイアウト対応のカスタム分類モデルの利点

新しい分類子モデルには、多くの改善点があります。新しいモデルのトレーニングが簡単になるだけでなく、クラスごとに数個のサンプルだけで新しいモデルをトレーニングすることもできます。さらに、トレーニングデータセットを準備するために、スキャンしたドキュメントや画像や PDF などのデジタルドキュメントからシリアル化されたプレーンテキストを抽出する必要がなくなりました。以下は、新しい分類モデルから期待できるその他の注目すべき改善点です。

精度の向上 – モデルは文書のレイアウトと構造を考慮に入れるようになり、文書の構造と内容をよりよく理解できるようになりました。これにより、テキストは似ているがレイアウトや構造が異なるドキュメントを区別するのに役立ち、分類の精度が向上します。
堅牢性 – モデルは、ドキュメントの構造とフォーマットのバリエーションを処理できるようになりました。これにより、さまざまなレイアウトや書式設定スタイルを持つさまざまなソースからのドキュメントを分類するのに適しています。これは、実際のドキュメント分類タスクでよくある課題です。いくつかのドキュメントタイプとネイティブに互換性があるため、さまざまな業界やユースケースに適用できる汎用性があります。
手動介入の削減 – 精度が高いほど、分類プロセスにおける手作業の介入が少なくなります。これにより、時間とリソースを節約し、ドキュメント処理ワークロードの運用効率を向上させることができます。

まとめ

レイアウト認識を組み込んだ新しい Amazon Comprehend ドキュメント分類モデルは、大量のドキュメントを扱うビジネスのゲームチェンジャーです。ドキュメントの構造とレイアウトを理解することで、このモデルは分類の精度と効率を向上させます。レイアウト対応モデルを使用して堅牢で正確なドキュメント分類ソリューションを実装すると、ビジネスの時間を節約し、運用コストを削減し、意思決定プロセスを強化することができます。

次のステップとして、新しい Amazon Comprehend カスタム分類モデルを試すことをお勧めします。 Amazon Comprehendコンソール. また、カスタム分類モデルの改善に関する発表を再確認することをお勧めします。昨年そして、訪問 GitHubリポジトリコードサンプル用。

著者について

アンジャンビスワス AI/ML とデータ分析を専門とするシニア AI サービスソリューションアーキテクトです。 Anjan は、世界規模の AI サービスチームの一員であり、お客様と協力して、AI と ML を使用したビジネス上の問題に対するソリューションの理解と開発を支援しています。 Anjan は、グローバルサプライチェーン、製造、および小売組織との 14 年以上の経験を持ち、お客様が AWS AI サービスを開始してスケールするのを積極的に支援しています。

ゴッドウィンサハヤラジヴィンセント はAWSのエンタープライズソリューションアーキテクトであり、機械学習に情熱を注いでおり、AWSのワークロードとアーキテクチャを設計、デプロイ、管理するためのガイダンスを顧客に提供しています。暇なときは、友達とクリケットをしたり、XNUMX人の子供とテニスをしたりするのが大好きです。