Amazon SageMaker JumpStart は、カスタム分類とカスタムエンティティ検出用の Amazon Comprehend ノートブックを提供するようになりました。PlatoBlockchain Data Intelligence。垂直検索。あい。

Amazon SageMaker JumpStart は、カスタム分類とカスタムエンティティ検出のための Amazon Comprehend ノートブックを提供するようになりました

Amazon Comprehend 機械学習 (ML) を使用してテキストから洞察を発見する自然言語処理 (NLP) サービスです。 Amazon Comprehend はカスタマイズされた機能を提供し、 カスタム エンティティの認識, カスタム分類, 事前トレーニング済み API キー フレーズ抽出、センチメント分析、エンティティ認識などの機能を備えているため、NLP をアプリケーションに簡単に統合できます。

最近、Amazon Comprehend 関連のノートブックを Amazon SageMaker ジャンプスタート Amazon Comprehend カスタム分類子とカスタム エンティティ認識エンジンをすぐに使い始めるのに役立つノートブックです。 カスタム分類を使用して、定義したカテゴリ (クラス) にドキュメントを整理できます。 カスタム エンティティ認識は、Amazon Comprehend の事前トレーニング済みエンティティ検出 API の機能を拡張し、事前設定されたジェネリックにないドメインまたはビジネスに固有のエンティティ タイプを識別できるようにします。 エンティティタイプ.

この投稿では、JumpStart を使用して、エンタープライズ NLP のニーズの一部として Amazon Comprehend カスタム分類およびカスタム エンティティ検出モデルを構築する方法を紹介します。

SageMaker ジャンプスタート

  Amazon SageMakerスタジオ ランディング ページには、JumpStart を使用するオプションがあります。 JumpStart は、さまざまな種類の問題に対して事前にトレーニングされたモデルを提供することで、すぐに開始できる方法を提供します。 これらのモデルをトレーニングおよび調整できます。 JumpStart は、ノートブック、ブログ、ビデオなどの他のリソースも提供します。

JumpStart ノートブックは基本的に、すぐに作業を開始するための出発点として使用できるサンプル コードです。 現在、そのまま使用するか、必要に応じてカスタマイズできる 40 を超えるノートブックを提供しています。 検索またはタブ付きビュー パネルを使用して、ノートブックを見つけることができます。 使用するノートブックが見つかったら、ノートブックをインポートし、要件に合わせてカスタマイズして、ノートブックを実行するインフラストラクチャと環境を選択できます。

JumpStart ノートブックの使用を開始する

JumpStart を開始するには、 アマゾンセージメーカー コンソールを開き、Studio を開きます。 参照する SageMaker Studio の使用を開始する Studio の使用を開始する方法については、こちらをご覧ください。 次に、次の手順を実行します。

  1. Studio で、JumpStart の起動ページに移動し、 SageMakerJumpStartに移動します.

複数の検索方法が提供されています。 上部のタブを使用して必要なものを取得するか、次のスクリーンショットに示すように検索ボックスを使用できます。

  1. ノートブックを見つけるには、 ノートブック タブには何も表示されないことに注意してください。

[ノートブック] タブに移動します

これを書いている時点で、JumpStart は 47 のノートブックを提供しています。 フィルターを使用して、Amazon Comprehend 関連のノートブックを見つけることができます。

  1. ソフトウェア設定ページで、下図のように コンテンツタイプ ドロップダウンメニュー、選択 ノート.

次のスクリーンショットでわかるように、現在 XNUMX つの Amazon Comprehend ノートブックがあります。

Comprehend Notebook を探す

次のセクションでは、両方のノートブックについて説明します。

Amazon Comprehend カスタム分類子

このノートブックでは、 カスタム分類 API ドキュメント分類モデルを作成します。

カスタム分類子は、完全に管理された Amazon Comprehend 機能であり、ML の専門知識がほとんどまたはまったくない場合でも、ビジネスに固有のカスタム テキスト分類モデルを構築できます。 カスタム分類子は、Amazon Comprehend の既存の機能に基づいて構築されており、すでに数千万のドキュメントでトレーニングされています。 NLP 分類モデルの構築に必要な複雑さの多くを抽象化します。 カスタム分類子は、トレーニング データを自動的に読み込んで検査し、適切な ML アルゴリズムを選択し、モデルをトレーニングし、最適なハイパーパラメーターを見つけ、モデルをテストし、モデルのパフォーマンス メトリックを提供します。 Amazon Comprehend カスタム分類子は、ML ワークフロー全体に使いやすいコンソールも提供します。 Amazon SageMakerグラウンドトゥルース、モデルのトレーニングとデプロイ、およびテスト結果の視覚化。 Amazon Comprehend カスタム分類子を使用すると、次のモデルを構築できます。

  • 多クラス分類モデル – マルチクラス分類では、各ドキュメントに割り当てられるクラスは XNUMX つだけです。 個々のクラスは相互に排他的です。 たとえば、映画はドキュメンタリーまたはサイエンス フィクションとして分類できますが、両方を同時に分類することはできません。
  • マルチラベル分類モデル – マルチラベル分類では、個々のクラスは異なるカテゴリを表しますが、これらのカテゴリは何らかの形で関連しており、相互に排他的ではありません。 その結果、各ドキュメントには少なくとも XNUMX つのクラスが割り当てられますが、それ以上のクラスを割り当てることができます。 たとえば、映画は単にアクション映画である場合もあれば、アクション映画、SF 映画、コメディーである場合もあります。

このノートブックでは、サンプル データセットまたは独自のビジネス固有のデータセットを使用してモデルをトレーニングするために ML の専門知識は必要ありません。 このノートブックで説明されている API 操作を独自のアプリケーションで使用できます。

Amazonカスタムエンティティ認識装置

このノートブックでは、 カスタム エンティティ認識 API エンティティ認識モデルを作成します。

カスタム エンティティ認識は、事前設定された汎用エンティティ タイプにない特定のエンティティ タイプを識別できるようにすることで、Amazon Comprehend の機能を拡張します。 これは、ドキュメントを分析し、特定のニーズに合った製品コードやビジネス固有のエンティティなどのエンティティを抽出できることを意味します。

正確なカスタム エンティティ認識エンジンを独自に構築することは複雑なプロセスになる可能性があり、手動で注釈を付けたトレーニング ドキュメントの大規模なセットを準備し、モデル トレーニング用の適切なアルゴリズムとパラメーターを選択する必要があります。 Amazon Comprehend は、自動アノテーションとモデル開発を提供してカスタムエンティティ認識モデルを作成することにより、複雑さを軽減するのに役立ちます。

サンプル ノートブックは、トレーニング データセットを CSV 形式で取得し、テキスト入力に対して推論を実行します。 Amazon Comprehend は、Ground Truth の注釈付きデータをトレーニングに使用する高度なユースケースもサポートしており、PDF や Word ドキュメントで直接推論を実行できます。 詳細については、次を参照してください。 Amazon Comprehendを使用して、PDFドキュメント用のカスタムエンティティレコグナイザーを構築します.

Amazon Comprehend はアノテーションの制限を引き下げ、特にショット数の少ないサブサンプルの場合に、より安定した結果を得ることができるようにしました。 この改善の詳細については、次を参照してください。 Amazon Comprehend が、カスタム エンティティ認識のアノテーション制限の引き下げを発表.

このノートブックでは、サンプル データセットまたは独自のビジネス固有のデータセットを使用してモデルをトレーニングするために ML の専門知識は必要ありません。 このノートブックで説明されている API 操作を独自のアプリケーションで使用できます。

Amazon Comprehend JumpStart ノートブックを使用、カスタマイズ、デプロイする

使用する Amazon Comprehend ノートブックを選択したら、 ノートブックをインポートする. すると、ノートブック カーネルが起動しているのがわかります。

ノートブックをインポート

ノートブックをインポートすると、ノートブックの実行に使用されるノートブック インスタンス、カーネル、およびイメージの選択がトリガーされます。 デフォルトのインフラストラクチャがプロビジョニングされた後、要件に応じて選択を変更できます。

SageMaker Studio のノートブック

次に、ノートブックの概要を確認し、前提条件の設定、データの設定、モデルのトレーニング、推論の実行、モデルの停止に関するセクションを注意深く読んでください。 必要に応じて、生成されたコードを自由にカスタマイズしてください。

要件に基づいて、次のセクションをカスタマイズできます。

  • 権限 – 本番アプリケーションの場合、アクセス ポリシーをアプリケーションの実行に必要なものだけに制限することをお勧めします。 パーミッションは、トレーニングや推論などのユース ケース、およびフル リソースなどの特定のリソース名に基づいて制限できます。 Amazon シンプル ストレージ サービス (Amazon S3) バケット名または S3 バケット名パターン。 また、カスタム分類子または SageMaker 操作へのアクセスを、アプリケーションが必要とするものだけに制限する必要があります。
  • データと場所 – サンプル ノートブックは、サンプル データと S3 の場所を提供します。 要件に基づいて、トレーニング、検証、およびテストに独自のデータを使用し、必要に応じて別の S3 ロケーションを使用できます。 同様に、モデルの作成時に、モデルを別の場所に保持することを選択できます。 S3 バケットにアクセスするための適切なアクセス許可を提供していることを確認してください。
  • 前処理手順 – トレーニングとテストに異なるデータを使用している場合は、要件に応じて前処理手順を調整することができます。
  • テストデータ – テスト用に独自の推論データを持ち込むことができます。
  • クリーンアップ – 定期的な課金を避けるために、ノートブックによって起動されたリソースを削除します。

まとめ

この投稿では、JumpStart を使用して、必要に応じてコードを変更するオプションを備えながら、Studio から Amazon Comprehend 関連のノートブックを見つけて実行するのを便利にすることで、Amazon Comprehend API を使用して学習し、迅速に追跡する方法を示しました。 ノートブックは、AWS 製品の発表とサンプルのニュース記事を含むサンプル データセットを使用します。 このノートブックを使用して、Python ノートブックで Amazon Comprehend API を使用する方法を学習するか、開始点として使用して、固有の要件と本番環境のデプロイのためにコードをさらに拡張することができます。

JumpStart の使用を開始し、Studio が利用可能なすべてのリージョンで追加料金なしでさまざまなトピックの 40 を超えるノートブックを活用できます。


著者について

著者 - ラナ・チャンラナ・チャン AWS WWSO AI サービスチームのシニアソリューションアーキテクトであり、コンテンツモデレーションと認識のための AI と ML の専門知識を持っています。 彼女は、AWS AI サービスを宣伝し、顧客がビジネス ソリューションを変革するのを支援することに情熱を注いでいます。

著者 - Meenakshisundaram Thandavarayanミーナクシスンダラム・タンダヴァラヤン AWS のシニア AI/ML スペシャリストです。 彼は、AI と ML の旅でハイテクの戦略的アカウントを支援しています。 彼はデータ駆動型 AI に非常に情熱を注いでいます

著者 - Rachna Chadhaラクナ チャダ AWS の戦略的アカウントの主任ソリューション アーキテクト AI/ML です。 Rachna は楽観主義者であり、AI を倫理的かつ責任を持って使用することで、将来社会を改善し、経済的および社会的繁栄をもたらすことができると信じています。 余暇には、家族と過ごしたり、ハイキングをしたり、音楽を聴いたりするのが好きです。

タイムスタンプ:

より多くの AWS機械学習