Amazon Comprehend は、テキスト データから洞察を引き出すための事前トレーニング済みのカスタム API を提供する自然言語処理 (NLP) サービスです。 Amazon Comprehend の顧客は、カスタムの固有表現認識 (NER) モデルをトレーニングして、場所、人名、日付など、自社のビジネスに固有の関心のあるエンティティを抽出できます。
カスタム モデルをトレーニングするには、まずドキュメント内のエンティティに手動で注釈を付けてトレーニング データを準備します。これは、 半構造化ドキュメントの理解注釈ツールを作成します。 Amazon SageMakerグラウンドトゥルース カスタム テンプレートを使用してジョブを作成すると、アノテーターは PDF ドキュメント上でエンティティの周囲に境界ボックスを直接描画できるようになります。ただし、SAP などの ERP システムに既存の表形式のエンティティ データがある企業の場合、手動での注釈付けは反復的で時間がかかる可能性があります。
トレーニング データを準備する労力を軽減するために、次を使用して事前ラベル付けツールを構築しました。 AWSステップ関数 既存の表形式エンティティ データを使用して、ドキュメントに自動的に事前アノテーションを付けます。これにより、Amazon Comprehend で正確なカスタムエンティティ認識モデルをトレーニングするために必要な手動作業が大幅に軽減されます。
この投稿では、事前ラベル付けツールの設定手順を説明し、公開されているドキュメントに自動的に注釈を付ける方法の例を示します。 データセット PDF 形式の銀行取引明細書のサンプル。完全なコードは次の場所で入手できます。 GitHubレポ.
ソリューションの概要
このセクションでは、事前ラベル付けツールの入力と出力について説明し、ソリューション アーキテクチャの概要を示します。
入力と出力
事前ラベル付けツールは、注釈を付けるテキストを含む PDF ドキュメントを入力として受け取ります。デモでは、次の例のようなシミュレートされた銀行取引明細書を使用します。
このツールは、PDF ドキュメントと、これらのドキュメントから抽出するエンティティをマップするマニフェスト ファイルも受け取ります。エンティティは XNUMX つのものから構成されます。 expected_text
ドキュメントから抽出するには (たとえば、 AnyCompany Bank
) および対応する entity_type
(例えば、 bank_name
)。この投稿の後半では、次の例のように CSV ドキュメントからこのマニフェスト ファイルを構築する方法を示します。
事前ラベル付けツールは、マニフェスト ファイルを使用して、対応するエンティティでドキュメントに自動的に注釈を付けます。これらのアノテーションを直接使用して、Amazon Comprehend モデルをトレーニングできます。
あるいは、次のスクリーンショットに示すように、人間によるレビューと編集のために SageMaker Ground Truth ラベル付けジョブを作成することもできます。
レビューが完了したら、注釈付きデータを使用して Amazon Comprehend カスタムエンティティ認識モデルをトレーニングできます。
アーキテクチャ
事前ラベル付けツールは複数のツールで構成されます。 AWSラムダ Step Functions ステート マシンによって調整される関数。これには、事前アノテーションを生成するために異なる手法を使用する XNUMX つのバージョンがあります。
最初のテクニックは、 あいまい一致。これには、予期されるエンティティを含むプレマニフェスト ファイルが必要です。このツールは、ファジー マッチング アルゴリズムを使用して、テキストの類似性を比較することによって事前アノテーションを生成します。
あいまい一致では、プレマニフェスト ファイルにリストされている予期されるエンティティと類似している (ただし、必ずしも同一であるとは限りません) 文字列がドキュメント内で検索されます。まず、予想されるテキストと文書内の単語の間のテキスト類似性スコアを計算し、次にしきい値を超えるすべてのペアと一致させます。したがって、完全に一致するものがない場合でも、あいまい一致では略語やスペルミスなどのバリエーションを見つけることができます。これにより、ツールはエンティティをそのまま表示する必要なく、ドキュメントに事前にラベルを付けることができます。たとえば、次の場合 'AnyCompany Bank'
が予期されるエンティティとしてリストされている場合、ファジー マッチングにより、次の出現箇所に注釈が付けられます。 'Any Companys Bank'
。これにより、厳密な文字列一致よりも柔軟性が高まり、事前ラベル付けツールがより多くのエンティティに自動的にラベルを付けることが可能になります。
次の図は、この Step Functions ステート マシンのアーキテクチャを示しています。
XNUMX 番目のテクニックには、 事前トレーニングされた Amazon Comprehend エンティティ認識モデル。このツールは、次の図に示すワークフローに従って、Amazon Comprehend モデルを使用して事前アノテーションを生成します。
次の図は、完全なアーキテクチャを示しています。
次のセクションでは、ソリューションを実装する手順を説明します。
事前ラベル付けツールを導入する
リポジトリのクローンをローカル マシンに作成します。
このリポジトリは Comprehend Semi-Structured Documents Annotation Tool の上に構築されており、SageMaker Ground Truth UI にすでに表示されている事前アノテーションを使用して SageMaker Ground Truth ラベル付けジョブを開始できるようにすることで、その機能を拡張します。
事前ラベル付けツールには、Comprehend Semi-Structured Documents Annotation Tool リソースと、事前ラベル付けツールに固有のいくつかのリソースの両方が含まれています。ソリューションをデプロイするには、 AWSサーバーレスアプリケーションモデル (AWS SAM) は、サーバーレス アプリケーション インフラストラクチャ コードを定義するために使用できるオープン ソース フレームワークです。
Comprehend Semi-Structured Documents Annotation Tool を以前に導入したことがある場合は、次の FAQ セクションを参照してください。 Pre_labeling_tool/README.md
事前ラベル付けツールに固有のリソースのみをデプロイする方法については、「」を参照してください。
これまでにツールをデプロイしたことがなく、新たに開始する場合は、次の手順を実行してソリューション全体をデプロイします。
現在のディレクトリを注釈ツール フォルダーに変更します。
ソリューションを構築してデプロイします。
プレマニフェストファイルを作成する
事前ラベル付けツールを使用する前に、データを準備する必要があります。主な入力は PDF ドキュメントとプレマニフェスト ファイルです。プレマニフェスト ファイルには、各 PDF ドキュメントの場所が含まれています。 'pdf'
ラベル付けが期待されるエンティティを含む JSON ファイルの場所 'expected_entities'
.
ノート generate_premanifest_file.ipynb このファイルの作成方法を示します。デモでは、プレマニフェスト ファイルには次のコードが示されています。
プレマニフェスト ファイルにリストされている各 JSON ファイル ( expected_entities
) には、予想されるエンティティごとに XNUMX つずつ、辞書のリストが含まれています。辞書には次のキーがあります。
- 「expected_texts」 – エンティティに一致する可能性のあるテキスト文字列のリスト。
- 「エンティティタイプ」 – 対応するエンティティ タイプ。
- 「ignore_list」(オプション) – 一致において無視されるべき単語のリスト。これらのパラメーターは、あいまい一致によって、間違っていることがわかっている単語の特定の組み合わせが一致するのを防ぐために使用する必要があります。これは、名前を表示するときに一部の番号や電子メール アドレスを無視したい場合に便利です。
例えば、 expected_entities
前に示した PDF は次のようになります。
事前ラベル付けツールを実行する
前の手順で作成したプレマニフェスト ファイルを使用して、プレラベル ツールの実行を開始します。詳細については、ノートを参照してください start_step_functions.ipynb.
事前ラベル付けツールを開始するには、 event
次のキーを使用して:
- プレマニフェスト – 各 PDF ドキュメントをそのドキュメントにマッピングします。
expected_entities
ファイル。これには、 Amazon シンプル ストレージ サービス (Amazon S3) バケット (以下)bucket
) とキー (下key
) ファイルの。 - 接頭辞 – を作成するために使用されます。
execution_id
、出力ストレージの S3 フォルダーと SageMaker Ground Truth ラベル付けジョブ名に名前を付けます。 - エンティティタイプ – アノテーターがラベルを付けるために UI に表示されます。これらには、予期されるエンティティ ファイル内のすべてのエンティティ タイプが含まれている必要があります。
- 作業チーム名 (オプション) – SageMaker Ground Truth ラベル付けジョブの作成に使用されます。利用する民間労働力に相当します。指定しない場合は、SageMaker Ground Truth ラベル付けジョブの代わりにマニフェスト ファイルのみが作成されます。マニフェスト ファイルを使用して、後で SageMaker Ground Truth ラベル付けジョブを作成できます。この記事の執筆時点では、ノートブックからラベル付けジョブを作成するときに外部の労働力を提供できないことに注意してください。ただし、作成したジョブのクローンを作成し、SageMaker Ground Truth コンソールで外部の従業員に割り当てることができます。
- comprehend_parameters (オプション) – Amazon Comprehend カスタムエンティティ認識モデルを直接トレーニングするためのパラメーター。省略した場合、この手順はスキップされます。
ステート マシンを開始するには、次の Python コードを実行します。
これにより、ステート マシンの実行が開始されます。 Step Functions コンソールでステート マシンの進行状況を監視できます。次の図は、ステート マシンのワークフローを示しています。
ステート マシンが完了したら、次の操作を実行します。
- に保存されている次の出力を検査します。
prelabeling/
のフォルダcomprehend-semi-structured-docs
S3バケット:- ドキュメントの各ページの個別の注釈ファイル (ドキュメントごとにページごとに XNUMX つ)
temp_individual_manifests/
- SageMaker Ground Truth ラベル付けジョブのマニフェスト
consolidated_manifest/consolidated_manifest.manifest
- カスタム Amazon Comprehend モデルをトレーニングするために使用できるマニフェスト
consolidated_manifest/consolidated_manifest_comprehend.manifest
- ドキュメントの各ページの個別の注釈ファイル (ドキュメントごとにページごとに XNUMX つ)
- SageMaker コンソールで、注釈を確認するために作成された SageMaker Ground Truth ラベル付けジョブを開きます。
- トレーニングされたカスタム Amazon Comprehend モデルを検査してテストする
前述したように、このツールは民間従業員向けの SageMaker Ground Truth ラベル付けジョブのみを作成できます。人間によるラベル付け作業をアウトソーシングするには、SageMaker Ground Truth コンソールでラベル付けジョブのクローンを作成し、新しいジョブに従業員をアタッチできます。
クリーンアップ
追加料金が発生しないようにするには、次のコマンドを使用して、作成したリソースを削除し、デプロイしたスタックを削除します。
まとめ
事前ラベル付けツールは、企業が既存の表形式データを使用して、Amazon Comprehend でカスタムエンティティ認識モデルをトレーニングするプロセスを加速する強力な方法を提供します。 PDF ドキュメントに自動的に事前注釈を付けることで、ラベル付けプロセスに必要な手動の労力を大幅に削減します。
このツールには、ファジーマッチングと Amazon Comprehend ベースの XNUMX つのバージョンがあり、初期アノテーションの生成方法に柔軟性を与えます。ドキュメントに事前にラベルが付けられた後、SageMaker Ground Truth ラベル付けジョブでドキュメントをすばやくレビューしたり、レビューをスキップして Amazon Comprehend カスタムモデルを直接トレーニングしたりすることもできます。
事前ラベル付けツールを使用すると、履歴エンティティ データの価値をすばやく解き放ち、それを特定のドメインに合わせたカスタム モデルの作成に使用できます。通常、プロセスの中で最も労働集約的な部分を高速化することで、Amazon Comprehend によるカスタムエンティティ認識がこれまで以上にアクセスしやすくなります。
SageMaker Ground Truth ラベル付けジョブを使用して PDF ドキュメントにラベルを付ける方法の詳細については、以下を参照してください。 Amazon Comprehend を使用してドキュメント内の名前付きエンティティを抽出するためのカスタムドキュメントアノテーション および Amazon SageMakerGroundTruthを使用してデータにラベルを付ける.
著者について
オスカー・シュナーク ジェネレーティブ AI イノベーション センターの応用科学者です。彼は、機械学習の背後にある科学を深く掘り下げて、顧客が機械学習を利用できるようにすることに情熱を注いでいます。仕事以外では、オスカーはサイクリングをしたり、情報理論のトレンドを追い続けることを楽しんでいます。
ロマン・ベソンブ ジェネレーティブ AI イノベーション センターのディープ ラーニング アーキテクトです。彼は、機械学習を使用して顧客のビジネス上の問題に対処するための革新的なアーキテクチャを構築することに情熱を注いでいます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/automate-pdf-pre-labeling-for-amazon-comprehend/
- :持っている
- :は
- :not
- $UP
- 100
- 11
- 150
- 152
- 19
- 400
- 500
- 600
- 7
- 804
- 9
- a
- 私たちについて
- 上記の.
- 加速する
- アクセス可能な
- 正確な
- NEW
- 住所
- アドレス
- 後
- AI
- アルゴリズム
- すべて
- 許可
- ことができます
- 既に
- また
- Amazon
- Amazon Comprehend
- アマゾンセージメーカー
- Amazon SageMakerグラウンドトゥルース
- Amazon Webサービス
- an
- および
- どれか
- API
- 現れる
- 申し込み
- 適用された
- 建築
- です
- 周りに
- AS
- At
- アタッチ
- 自動化する
- 自動的に
- 利用できます
- 避ける
- AWS
- 銀行
- BE
- き
- 背後に
- の間に
- 両言語で
- ボックス
- 建物
- 内蔵
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 計算する
- 缶
- センター
- 課金
- コード
- COM
- 組み合わせ
- 企業
- 比較
- コンプリート
- 理解する
- からなる
- 領事
- 構築する
- 含む
- 含まれています
- 対応する
- 対応する
- 作ります
- 作成した
- 作成します。
- 作成
- 電流プローブ
- カスタム
- Customers
- データ
- 日付
- 減少
- 深いです
- 深い学習
- 定義します
- デモ
- 展開します
- 展開
- 派生する
- 細部
- 異なります
- 直接に
- 話し合います
- 表示される
- ダイビング
- do
- ドキュメント
- ドキュメント
- doe
- ドメイン
- 行われ
- ドロー
- 各
- 努力
- 可能
- 有効にする
- エンティティ
- エンティティ
- ERP
- さらに
- EVER
- 例
- 例
- 既存の
- 予想される
- 拡張する
- 外部
- エキス
- よくある質問
- File
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- 柔軟性
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- フレームワーク
- 新鮮な
- から
- フル
- 機能性
- 機能
- 生成する
- 生成
- 生々しい
- 生成AI
- 与え
- 陸上
- 持ってる
- he
- 歴史的
- 認定条件
- How To
- しかしながら
- HTML
- HTTP
- HTTPS
- 人間
- 同一の
- if
- 無視する
- 説明する
- 実装する
- in
- include
- 含ま
- 情報
- インフラ関連事業
- 初期
- 革新的手法
- 革新的な
- 入力
- 洞察
- を取得する必要がある者
- 説明書
- 関心
- に
- IT
- ITS
- ジェーン
- ジョブ
- Jobs > Create New Job
- JPG
- JSON
- 保管
- キー
- キー
- 知っている
- ラベル
- ラベリング
- 後で
- 学習
- ような
- リスト
- リストされた
- ローカル
- 場所
- 探して
- LOOKS
- 機械
- 機械学習
- メイン
- make
- 作る
- マニュアル
- 手仕事
- 手動で
- ゲレンデマップ
- 一致
- マッチ
- マッチング
- 言及した
- モデル
- モニター
- 他には?
- 最も
- の試合に
- 名
- 名前付き
- 名
- 必ずしも
- 必要
- 必要とされる
- 新作
- NLP
- いいえ
- 注意
- ノート
- 番号
- of
- on
- ONE
- の
- 開いた
- オープンソース
- or
- 調整された
- 出力
- outputs
- 外側
- アウトソーシング
- 概要
- ページ
- 足
- パラメータ
- 部
- 情熱的な
- 以下のために
- 人
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 可能
- ポスト
- 強力な
- 準備
- 準備中
- 防ぐ
- 前
- 前に
- プライベート
- 問題
- プロセス
- 処理
- 進捗
- 提供します
- 提供
- は、大阪で
- 公共
- Python
- すぐに
- 認識
- 減らします
- 軽減
- 参照する
- 反復的な
- 倉庫
- の提出が必要です
- 必要
- リソース
- レビュー
- ラン
- ランニング
- セージメーカー
- サム
- 樹液
- 保存されました
- 科学
- 科学者
- 二番
- セクション
- セクション
- サーバレス
- サービス
- サービス
- 設定
- すべき
- 表示する
- 示す
- 作品
- 著しく
- 同様の
- 簡単な拡張で
- 溶液
- 一部
- ソース
- 特定の
- スタック
- start
- 起動
- 都道府県
- 文
- 手順
- ステップ
- ストレージ利用料
- 厳格な
- 文字列
- そのような
- システム
- テーラード
- 取り
- 技術
- テクニック
- template
- test
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- テキスト
- より
- それ
- ステート
- アプリ環境に合わせて
- それら
- その後
- 理論
- そこ。
- したがって、
- ボーマン
- 物事
- この
- しきい値
- 介して
- 時間がかかる
- 〜へ
- ツール
- top
- トレーニング
- トレーニング
- トレンド
- 真実
- 2
- type
- 一般的に
- ui
- 下
- ユニーク
- アンロック
- つかいます
- 中古
- 使用されます
- 値
- バージョン
- 歩く
- 欲しいです
- ました
- 仕方..
- we
- ウェブ
- Webサービス
- WELL
- この試験は
- 何ですか
- いつ
- which
- 全体
- Wikipedia
- 意志
- 無し
- 言葉
- 仕事
- ワークフロー
- 労働人口
- 書き込み
- 間違った
- You
- あなたの
- ゼファーネット
- 〒