膨大な量のドキュメントを効果的に処理および処理する機能は、現代の企業にとって不可欠になっています。 すべての企業が扱う情報の絶え間ない流入により、ドキュメントを手動で分類することはもはや現実的な選択肢ではありません。 ドキュメント分類モデルは手順を自動化し、組織が時間とリソースを節約するのに役立ちます。 手作業による処理やキーワードベースの検索などの従来の分類手法は、ドキュメントの量が増えるにつれて効率が低下し、時間がかかります。 この非効率性により、生産性が低下し、運用コストが高くなります。 さらに、必要なときに重要な情報にアクセスできなくなり、顧客体験が低下し、意思決定に影響を与える可能性があります。 AWS re:Invent 2022 では、 Amazon Comprehendは、機械学習 (ML) を使用してテキストから洞察を発見する自然言語処理 (NLP) サービスです。 打ち上げ ネイティブ ドキュメント タイプのサポート。 この新機能により、Amazon Comprehend を使用してネイティブ形式 (PDF、TIFF、JPG、PNG、DOCX) でドキュメントを分類できるようになりました。
本日、Amazon Comprehend が PDF、Word、画像形式などのドキュメントを使用したカスタム分類モデルのトレーニングをサポートするようになったことを発表できることを嬉しく思います。 テキストに加えてレイアウトをサポートするネイティブ ドキュメントでオーダーメイドのドキュメント分類モデルをトレーニングできるようになり、結果の精度が向上しました。
この投稿では、Amazon Comprehend カスタム ドキュメント分類モデルのトレーニングを開始する方法の概要を説明します。
概要
定義された空間内のオブジェクトの相対的な配置を理解する能力は、 レイアウト意識. この場合、ヘッダー、小見出し、表、およびグラフィックスがドキュメント内で互いにどのように関連しているかをモデルが理解するのに役立ちます。 モデルは、テキストの構造とレイアウトを認識している場合、コンテンツに基づいてドキュメントをより効果的に分類できます。
この投稿では、関連するデータ準備手順について説明し、モデルのトレーニング プロセスを示し、Amazon Comprehend で新しいカスタム ドキュメント分類モデルを使用する利点について説明します。 ベスト プラクティスとして、カスタム ドキュメント分類モデルのトレーニングを開始する前に、次の点を考慮する必要があります。
ドキュメント分類のニーズを評価する
ユースケースをサポートするさまざまなクラスまたはカテゴリとともに、分類する必要があるさまざまな種類のドキュメントを特定します。 分類する必要があるドキュメントの量と種類を評価した後、適切な分類構造または分類法を決定します。 ドキュメントの種類は、PDF、Word、画像などさまざまです。 ドキュメント管理システムまたはその他のストレージ メカニズムを介して、さまざまなラベル付きドキュメント セットへのアクセスが許可されていることを確認します。
データを準備する
モデルのトレーニングに使用する予定のドキュメント ファイルが暗号化またはロックされていないことを確認します。たとえば、PDF ファイルが暗号化されておらず、パスワードでロックされていないことを確認してください。 トレーニング目的で使用する前に、そのようなファイルを復号化する必要があります。 ドキュメントのサンプルに適切なカテゴリまたはラベル (クラス)。 単一ラベル分類 (マルチクラスモード)または マルチラベル分類 ユースケースに適しています。 マルチクラス モードでは、各ドキュメントに XNUMX つのクラスのみが関連付けられますが、マルチラベル モードでは、XNUMX つまたは複数のクラスがドキュメントに関連付けられます。
モデル評価を検討する
ラベル付けされたデータセットを使用してモデルをトレーニングし、新しいドキュメントを正確に分類する方法を学習し、モデル メトリクスを理解することで新しくトレーニングされたモデル バージョンのパフォーマンスを評価できるようにします。 Amazon Comprehend のポストモデル トレーニングによって提供されるメトリクスを理解するには、以下を参照してください。 カスタム分類指標. トレーニング プロセスが完了したら、非同期またはリアルタイムでドキュメントの分類を開始できます。 次のセクションでは、カスタム分類モデルをトレーニングする方法について説明します。
トレーニングデータを準備する
カスタム分類モデルをトレーニングする前に、トレーニング データを準備する必要があります。 トレーニング データは、ラベル付けされた一連のドキュメントで構成されます。これらのドキュメントは、既にアクセスできるドキュメント リポジトリから事前に識別されたドキュメントにすることができます。 この例では、健康保険請求の裁定プロセスで一般的に見られるいくつかの異なるドキュメント タイプ (患者の退院概要、請求書、領収書など) を使用してカスタム分類モデルをトレーニングしました。 また、注釈ファイルを CSV 形式で準備する必要があります。 以下は、トレーニングに必要な注釈ファイル CSV データの例です。
注釈 CSV ファイルには XNUMX つの列が含まれている必要があります。 最初の列にはドキュメントの目的のクラス (ラベル) が含まれ、XNUMX 番目の列はドキュメント名 (ファイル名) で、最後の列はトレーニング データセットに含めるドキュメントのページ番号です。 トレーニング プロセスはネイティブのマルチページ PDF および DOCX ファイルをサポートするため、ドキュメントが複数ページのドキュメントである場合は、ページ番号を指定する必要があります。 複数ページのドキュメントのすべてのページをトレーニング データセットに含める場合は、CSV 注釈ファイルで各ページを個別の行として指定する必要があります。 たとえば、前述の注釈ファイルでは、 invoice-1.pdf
は 1 ページのドキュメントであり、両方のページを分類データセットに含めたいと考えています。 PDF、PNG、TIFF などのファイルは画像形式であるため、ページ番号 (XNUMX 列目) の値は常に XNUMX にする必要があります。トレーニングプロセスでそれらを使用するために。
という注釈ファイルを用意しました。 test.csv
カスタム分類モデルをトレーニングするための適切なデータを使用します。 各サンプル ドキュメントの CSV ファイルには、ドキュメントが属するクラス、ドキュメントの場所が含まれています。 Amazon シンプル ストレージ サービス (Amazon S3) など path/to/prefix/document.pdf
、およびページ番号 (該当する場合)。 ほとんどのドキュメントは単一ページの DOCX、PDF ファイル、または TIF、JPG、または PNG ファイルであるため、割り当てられたページ番号は 1 です。注釈 CSV とサンプル ドキュメントはすべて同じ Amazon S3 プレフィックスの下にあるため、 10 列目にプレフィックスを明示的に指定する必要はありません。 また、クラスごとに少なくとも XNUMX 個以上のドキュメント サンプルを用意し、モデルのトレーニングには JPG、PNG、DOCX、PDF、および TIF ファイルを組み合わせて使用しました。 新しいドキュメントを認識する能力に影響を与えるモデルの過剰適合を避けるために、通常はモデル トレーニング用に多様なサンプル ドキュメント セットを用意することをお勧めします。 クラスごとのサンプル数を均等にすることもお勧めしますが、クラスごとのサンプル数が正確に同じである必要はありません。 次に、アップロードします test.csv
アノテーション ファイルとすべてのドキュメントを Amazon S3 に保存します。 次の画像は、注釈 CSV ファイルの一部を示しています。
カスタム分類モデルをトレーニングする
注釈ファイルとすべてのサンプル ドキュメントの準備ができたので、カスタム分類モデルをセットアップしてトレーニングします。 カスタム分類モデル トレーニングの設定を開始する前に、注釈 CSV とサンプル ドキュメントが Amazon S3 の場所に存在することを確認してください。
- Amazon Comprehendコンソールで、 カスタム分類 ナビゲーションペインに表示されます。
- 選択する 新しいモデルを作成する.
- モデル名、一意の名前を入力します。
- バージョン名で、一意のバージョン名を入力します。
- トレーニングモデルタイプ選択 ネイティブ ドキュメント.
これにより、シリアル化されたテキストの代わりにネイティブ ドキュメント タイプを使用してモデルをトレーニングすることを Amazon Comprehend に伝えます。
- 分類子モード選択 単一ラベル モードの使用.
このモードは、ドキュメントを単一のクラスに分類するつもりであることを分類子に伝えます。 マルチラベル モードでモデルをトレーニングする必要がある場合、つまりドキュメントが XNUMX つまたは複数のクラスに属している可能性がある場合は、注釈 CSV で特殊文字で区切られたドキュメントのクラスを指定して、注釈ファイルを適切に設定する必要があります。ファイル。 その場合は、 マルチラベル モードの使用 オプションを選択します。
- S3 上のアノテーションの場所で、注釈 CSV ファイルのパスを入力します。
- S3 上のトレーニング データの場所で、ドキュメントが存在する Amazon S3 の場所を入力します。
- このセクションでは、他のすべてのオプションをデフォルトのままにします。
- 出力データ セクションで、出力用の Amazon S3 の場所を指定します。
これはオプションですが、Amazon Comprehend はこの場所でモデルトレーニング後の評価メトリクスを生成するため、出力場所を提供することをお勧めします。 このデータは、モデルのパフォーマンスを評価し、反復し、モデルの精度を向上させるのに役立ちます。
- IAMの役割 セクションで、適切な AWS IDおよびアクセス管理 Amazon Comprehend が Amazon S3 の場所にアクセスし、そこから読み書きできるようにする (IAM) ロール。
- 選択する 創造する モデルのトレーニングを開始します。
クラスの数とデータセットのサイズによっては、モデルのトレーニングに数分かかる場合があります。 トレーニングのステータスは、 カスタム分類 ページ。 トレーニング プロセスは、 提出された トレーニング プロセスが開始された直後のステータスは、 トレーニング トレーニングプロセスが開始されたときのステータス。 モデルがトレーニングされると、 バージョン ステータス 〜に変わります 訓練を受けた. Amazon Comprehend がトレーニング データに矛盾を検出すると、ステータスが表示されます。 エラーで 適切なエラー メッセージを示すアラートとともに、修正アクションを実行し、修正されたデータを使用してトレーニング プロセスを再開できます。
この投稿では、Amazon Comprehend コンソールを使用してカスタム分類子モデルをトレーニングする手順を示しました。 また、 AWSSDK どの言語でも (たとえば、 Python 用 Boto3) または AWSコマンドラインインターフェイス (AWS CLI) カスタム分類モデルのトレーニングを開始します。 SDK または AWS CLI を使用すると、 CreateDocumentClassifier モデルのトレーニングを開始し、その後、 DescriptionDocumentClassifier モデルの状態を確認するための API。
モデルがトレーニングされた後、次のいずれかを実行できます リアルタイム分析 or 非同期 (バッチ) 分析ジョブ 新しいドキュメントについて。 ドキュメントでリアルタイム分類を実行するには、トレーニング済みのカスタム分類モデルを使用して Amazon Comprehend リアルタイム エンドポイントをデプロイする必要があります。 リアルタイム エンドポイントは、低レイテンシのリアルタイムの推論結果を必要とするユース ケースに最適ですが、大量のドキュメント セットを分類するには、非同期分析ジョブがより適しています。 トレーニング済みの分類モデルを使用して新しいドキュメントに対して非同期推論を実行する方法については、次を参照してください。 インテリジェントなドキュメント処理のための Amazon Comprehend によるワンステップ分類とエンティティ認識の導入.
レイアウト対応のカスタム分類モデルの利点
新しい分類子モデルには、多くの改善点があります。 新しいモデルのトレーニングが簡単になるだけでなく、クラスごとに数個のサンプルだけで新しいモデルをトレーニングすることもできます。 さらに、トレーニング データセットを準備するために、スキャンしたドキュメントや画像や PDF などのデジタル ドキュメントからシリアル化されたプレーン テキストを抽出する必要がなくなりました。 以下は、新しい分類モデルから期待できるその他の注目すべき改善点です。
- 精度の向上 – モデルは文書のレイアウトと構造を考慮に入れるようになり、文書の構造と内容をよりよく理解できるようになりました。 これにより、テキストは似ているがレイアウトや構造が異なるドキュメントを区別するのに役立ち、分類の精度が向上します。
- 堅牢性 – モデルは、ドキュメントの構造とフォーマットのバリエーションを処理できるようになりました。 これにより、さまざまなレイアウトや書式設定スタイルを持つさまざまなソースからのドキュメントを分類するのに適しています。これは、実際のドキュメント分類タスクでよくある課題です。 いくつかのドキュメント タイプとネイティブに互換性があるため、さまざまな業界やユース ケースに適用できる汎用性があります。
- 手動介入の削減 – 精度が高いほど、分類プロセスにおける手作業の介入が少なくなります。 これにより、時間とリソースを節約し、ドキュメント処理ワークロードの運用効率を向上させることができます。
まとめ
レイアウト認識を組み込んだ新しい Amazon Comprehend ドキュメント分類モデルは、大量のドキュメントを扱うビジネスのゲームチェンジャーです。 ドキュメントの構造とレイアウトを理解することで、このモデルは分類の精度と効率を向上させます。 レイアウト対応モデルを使用して堅牢で正確なドキュメント分類ソリューションを実装すると、ビジネスの時間を節約し、運用コストを削減し、意思決定プロセスを強化することができます。
次のステップとして、新しい Amazon Comprehend カスタム分類モデルを試すことをお勧めします。 Amazon Comprehendコンソール. また、カスタム分類モデルの改善に関する発表を再確認することをお勧めします。 昨年 そして、訪問 GitHubリポジトリ コードサンプル用。
著者について
アンジャンビスワス AI/ML とデータ分析を専門とするシニア AI サービス ソリューション アーキテクトです。 Anjan は、世界規模の AI サービス チームの一員であり、お客様と協力して、AI と ML を使用したビジネス上の問題に対するソリューションの理解と開発を支援しています。 Anjan は、グローバルサプライチェーン、製造、および小売組織との 14 年以上の経験を持ち、お客様が AWS AI サービスを開始してスケールするのを積極的に支援しています。
ゴッドウィンサハヤラジヴィンセント はAWSのエンタープライズソリューションアーキテクトであり、機械学習に情熱を注いでおり、AWSのワークロードとアーキテクチャを設計、デプロイ、管理するためのガイダンスを顧客に提供しています。 暇なときは、友達とクリケットをしたり、XNUMX人の子供とテニスをしたりするのが大好きです。
ウリック・タルクダー Amazon Comprehend Service チームのシニア アーキテクトです。 彼は AWS のお客様と協力して、大規模な機械学習の導入を支援しています。 仕事以外では、読書と写真を楽しんでいます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 未来を鋳造する w エイドリエン・アシュリー。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/amazon-comprehend-document-classifier-adds-layout-support-for-higher-accuracy/
- :持っている
- :は
- $UP
- 1
- 10
- 100
- 11
- 2022
- 7
- a
- 能力
- 私たちについて
- アクセス
- アクセス可能な
- 精度
- 正確な
- 正確にデジタル化
- Action
- 積極的に
- 添加
- NEW
- さらに
- 追加
- 採用
- 後
- AI
- AIサービス
- AI / ML
- エイズ
- 警告
- すべて
- ことができます
- 沿って
- 既に
- しかし
- 常に
- Amazon
- Amazon Comprehend
- 量
- 金額
- 分析
- 分析論
- および
- アナウンス
- お知らせ
- 別の
- どれか
- API
- 適用可能な
- 適切な
- 適切に
- です
- AS
- 割り当てられた
- At
- 自動化する
- 認知度
- AWS
- AWS re:Invent
- ベース
- BE
- なぜなら
- になる
- 始まる
- さ
- 利点
- BEST
- より良いです
- の間に
- ビジネス
- ビジネス
- by
- 呼ばれます
- 缶
- 取得することができます
- 容量
- 場合
- 例
- カテゴリ
- 原因
- チェーン
- 挑戦する
- 変化する
- 文字
- チェック
- 選択する
- クレーム
- class
- クラス
- 分類
- 分類します
- コード
- コラム
- コラム
- コマンドと
- 互換性のあります
- コンプリート
- 理解する
- 構成
- 検討
- 領事
- 含む
- 含まれています
- コンテンツ
- 連続的な
- 訂正さ
- コスト
- 可能性
- クリケット
- 重大な
- カスタム
- 顧客
- 顧客満足体験
- Customers
- データ
- データ分析
- データの準備
- 取引
- 取引
- 意思決定
- 解読する
- デフォルト
- 定義済みの
- 実証します
- 実証
- によっては
- 展開します
- 設計
- 希望
- 決定する
- 開発する
- 異なります
- デジタル
- 発見する
- 話し合います
- ディスプレイ
- 見分けます
- 異なる
- ドキュメント
- 文書管理
- ドキュメント
- ドント
- 各
- 容易
- 効果的に
- 効率
- 効率的な
- どちら
- 奨励する
- では使用できません
- エンドポイント
- 巨大な
- 確保
- 入力します
- Enterprise
- 企業
- エンティティ
- エラー
- 本質的な
- 評価する
- 評価します
- 評価
- 例
- 興奮した
- 期待する
- 経費
- 体験
- エキス
- 特徴
- 少数の
- File
- 発見
- 名
- フォーカス
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- 発見
- 友達
- から
- ゲームチェンジャー
- 生成する
- 取得する
- グローバル
- 良い
- グラフィック
- ガイダンス
- ハンドル
- ハンドル
- 持ってる
- he
- ヘッダーの
- 健康
- 健康保険
- 助けます
- 助け
- ことができます
- より高い
- 認定条件
- How To
- HTML
- HTTP
- HTTPS
- アイデンティティ
- 画像
- 画像
- 影響
- 影響
- 実装
- 改善します
- 改善されました
- 改善
- 改善
- in
- include
- 増える
- 増加した
- 増加
- の増加
- 産業
- 流入
- 情報
- 開始する
- 洞察
- を取得する必要がある者
- 保険
- インテリジェント-
- 予定
- 介入
- 関係する
- IT
- ITS
- ジョブ
- JPG
- 子供たち
- ラベル
- ラベル
- 言語
- 大
- 姓
- レイアウト
- つながる
- リード
- LEARN
- 学習
- ような
- LINE
- 場所
- ロック
- より長いです
- 機械
- 機械学習
- make
- 作る
- 作成
- 管理します
- 管理
- マニュアル
- 手動で
- 製造業
- 五月..
- 意味
- メッセージ
- メトリック
- 分
- ML
- モード
- モデル
- モダン
- 他には?
- 最も
- 名
- ネイティブ
- ナチュラル
- 自然言語処理
- ナビゲーション
- 必要
- 新作
- 次の
- NLP
- 注目に値する
- 数
- オブジェクト
- of
- オファー
- on
- ONE
- オペレーティング
- オペレーショナル
- オプション
- オプション
- 注文
- 組織
- その他
- 私たちの
- 出力
- 外側
- が
- 概要
- ページ
- ペイン
- 部
- 情熱的な
- パスワード
- path
- 患者
- 実行する
- パフォーマンス
- 実行する
- 写真撮影
- 投資
- シンプルスタイル
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- ポイント
- 貧しいです
- ポスト
- 練習
- 準備
- 準備
- 防ぐ
- 問題
- プロセス
- ラボレーション
- 処理
- 生産性
- 提供します
- 提供
- 提供
- 目的
- RE
- 読む
- リーディング
- 準備
- リアル
- 現実の世界
- への
- 領収書
- 認識
- 認識する
- 推奨する
- 推奨される
- 減らします
- 言及
- 倉庫
- 必要とする
- の提出が必要です
- リソース
- 結果として
- 結果
- 小売
- レビュー
- 堅牢な
- 職種
- 同じ
- Save
- 規模
- SDDK
- 二番
- セクション
- セクション
- シニア
- 別
- サービス
- サービス
- セッションに
- 設定
- いくつかの
- すべき
- 表示する
- 作品
- 同様の
- 簡単な拡張で
- サイズ
- So
- 溶液
- ソリューション
- 一部
- ソース
- スペース
- 特別
- split
- 開始
- 開始
- Status:
- 手順
- ステップ
- ストレージ利用料
- 構造
- 続いて
- そのような
- 適当
- 概要
- 供給
- サプライチェーン
- サポート
- サポート
- 取る
- 取り
- タスク
- 分類
- チーム
- テクニック
- 伝える
- それ
- アプリ環境に合わせて
- それら
- 三番
- 三
- 介して
- 時間
- 時間がかかる
- 〜へ
- 伝統的な
- トレーニング
- 訓練された
- トレーニング
- 一般的に
- 下
- わかる
- 理解する
- ユニーク
- つかいます
- 使用事例
- 中古
- 通常
- 値
- さまざまな
- 多才な
- バージョン
- 、
- 実行可能な
- 訪問
- ボリューム
- ボリューム
- かどうか
- which
- 誰
- 意志
- 以内
- Word
- 仕事
- ワーキング
- 作品
- 世界
- でしょう
- 書きます
- 年
- You
- あなたの
- ゼファーネット