Amazon Comprehend を使用してカスタム分類モデルの予測品質を向上させる |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

人工知能 (AI) と機械学習 (ML) は、企業や政府組織全体で広く採用されています。自然言語処理 (NLP) や次のようなユーザーフレンドリーな AI/ML サービスの進歩により、非構造化データの処理が容易になりました。アマゾンテキストラック, Amazon Transcribe, Amazon Comprehend。組織は、Amazon Comprehend などの AI/ML サービスを使用して、非構造化データを使用して分類モデルを構築し、これまで得られなかった深い洞察を得るようになりました。最小限の労力で事前トレーニングされたモデルを使用できますが、適切なデータキュレーションとモデルのチューニングがなければ、AI/ML モデルの利点を最大限に実現することはできません。

この投稿では、Amazon Comprehend を使用してカスタム分類モデルを構築および最適化する方法について説明します。 Amazon Comprehend カスタム分類を使用してマルチラベルのカスタム分類モデルを構築し、トレーニングデータセットを準備し、精度、精度、再現率、F1 スコアなどのパフォーマンス指標を満たすようにモデルを調整する方法に関するガイドラインを提供します。 Amazon Comprehend モデルのトレーニング出力アーティファクトを混同行列のように使用して、モデルのパフォーマンスを調整し、トレーニングデータの改善をガイドします。

ソリューションの概要

このソリューションは、Amazon Comprehend を使用して最適化されたカスタム分類モデルを構築するアプローチを示します。データの準備、モデルの作成、モデルのパフォーマンスメトリック分析、分析に基づく推論の最適化など、いくつかの手順を実行します。私たちは、アマゾンセージメーカーノートと AWSマネジメントコンソールこれらの手順の一部を完了するには、

また、データの準備、モデルの構築、モデルの調整の際のベストプラクティスと最適化手法も検討します。

前提条件

SageMaker ノートブックインスタンスがない場合は、作成できます。手順については、を参照してください。 Amazon SageMaker Notebookインスタンスを作成する.

データを準備する

この分析では、次の有害コメント分類データセットを使用します。 Kaggle。このデータセットには、6 個のデータポイントを持つ 158,571 つのラベルが含まれています。ただし、各ラベルには肯定的な例としてデータ全体の 10% 未満しか含まれておらず、ラベルのうちの 1 つは XNUMX% 未満です。

既存の Kaggle データセットを Amazon Comprehend の XNUMX 列 CSV 形式ラベルはパイプ (|) 区切り文字を使用して分割されます。 Amazon Comprehend では、データポイントごとに少なくとも 80 つのラベルが必要です。このデータセットでは、提供されたラベルのいずれにも当てはまらないデータポイントがいくつか見つかりました。 clean という新しいラベルを作成し、毒性のないデータポイントをこのラベルで陽性となるように割り当てます。最後に、ラベルごとに 20/XNUMX の比率で分割して、厳選したデータセットをトレーニングデータセットとテストデータセットに分割しました。

データ準備ノートブックを使用します。次の手順では、Kaggle データセットを使用し、モデル用のデータを準備します。

SageMakerコンソールで、 ノートブックインスタンス ナビゲーションペインに表示されます。
構成したノートブックインスタンスを選択し、 Jupyterを開く.
ソフトウェア設定ページで、下図のように新作メニュー、選択 ターミナル.

Amazon Comprehend を使用してカスタム分類モデルの予測品質を向上させる |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

ターミナルで次のコマンドを実行して、この投稿に必要なアーティファクトをダウンロードします。

cd SageMaker
wget https://aws-ml-blog.s3.amazonaws.com/artifacts/amazon-comprehend-improve-prediction-quality/comprehend-blog-artifacts.zip
unzip comprehend-blog-artifacts.zip
rm comprehend-blog-artifacts.zip
mkdir assets

ターミナルウィンドウを閉じます。

XNUMX つのノートブックが表示されます。 列車.csv ファイル。

ノートブックを選択してください データ準備.ipynb.
ノートブック内のすべての手順を実行します。

これらの手順では、厳選されたトレーニングおよびテストデータセットとして機能する生の Kaggle データセットを準備します。厳選されたデータセットはノートブックに保存され、 Amazon シンプルストレージサービス（Amazon S3）。

大規模なマルチラベルデータセットを扱う場合は、次のデータ準備ガイドラインを考慮してください。

データセットにはラベルごとに少なくとも 10 個のサンプルが必要です。
Amazon Comprehend は最大 100 個のラベルを受け入れます。これは増加できるソフト制限です。
データセットファイルが正しくフォーマットされた適切な区切り文字を使用してください。区切り文字が正しくないと、空白のラベルが発生する可能性があります。
すべてのデータポイントにはラベルが必要です。
トレーニングデータセットとテストデータセットには、ラベルごとにバランスの取れたデータ分布が必要です。トレーニングデータセットとテストデータセットに偏りが生じる可能性があるため、ランダム分布は使用しないでください。

カスタム分類モデルを構築する

データ準備ステップで作成した厳選されたトレーニングデータセットとテストデータセットを使用してモデルを構築します。次の手順では、Amazon Comprehend マルチラベルカスタム分類モデルを作成します。

Amazon Comprehendコンソールで、 カスタム分類 ナビゲーションペインに表示されます。
選択する 新しいモデルを作成する.
モデル名、有毒分類モデルを入力します。
バージョン名、1を入力します。
注釈とデータ形式、選択する マルチラベルモードの使用.
トレーニングデータセット、Amazon S3 上の厳選されたトレーニングデータセットの場所を入力します。
選択する お客様が提供したテストデータセット そして、Amazon S3 上の厳選されたテストデータの場所を入力します。
出力データ、Amazon S3の場所を入力します。
IAMの役割選択 IAM ロールを作成し、 名前のサフィックスを「comprehend-blog」として指定します。
選択する 創造する カスタム分類モデルのトレーニングとモデルの作成を開始します。

次のスクリーンショットは、Amazon Comprehend コンソールのカスタム分類モデルの詳細を示しています。

モデルのパフォーマンスを調整する

次のスクリーンショットは、モデルのパフォーマンスメトリックを示しています。これには、精度、再現率、F1 スコア、精度などの主要な指標が含まれます。

モデルがトレーニングされて作成されると、output.tar.gz ファイルが生成されます。このファイルには、データセットのラベルと各ラベルの混同行列が含まれます。モデルの予測パフォーマンスをさらに調整するには、各クラスの予測確率を使用してモデルを理解する必要があります。これを行うには、分析ジョブを作成して、Amazon Comprehend が各データポイントに割り当てたスコアを特定する必要があります。

分析ジョブを作成するには、次の手順を実行します。

Amazon Comprehendコンソールで、 分析ジョブ ナビゲーションペインに表示されます。
選択する ジョブを作成.
名前、入る toxic_train_data_analysis_job.
分析タイプ、選択する カスタム分類.
分類モデルとフライホイール、指定する toxic-classification-model.
、1を指定します。
入力データ S3 の場所、厳選されたトレーニングデータファイルの場所を入力します。
入力形式、選択する XNUMX 行に XNUMX つのドキュメント.
出力データS3の場所、場所を入力します。
アクセス許可選択 既存の IAM ロールを使用する をクリックして、以前に作成したロールを選択します。
選択する ジョブを作成 分析ジョブを開始します。
現在地に最も近い 分析ジョブ をクリックしてジョブの詳細を表示します。 [ジョブの詳細] にあるジョブ ID をメモしておいてください。次のステップでジョブ ID を使用します。

厳選されたテストデータの分析ジョブを開始する手順を繰り返します。分析ジョブからの予測出力を使用して、モデルの予測確率について学習します。トレーニングおよびテスト分析ジョブのジョブ ID をメモしておきます。

私たちは、使用 モデル-しきい値-分析.ipynb ノートブックを使用して、考えられるすべてのしきい値で出力をテストし、scikit-learn の関数を使用して予測確率に基づいて出力をスコア付けします。 precision_recall_curve 関数。さらに、各しきい値での F1 スコアを計算できます。

入力として Amazon Comprehend 分析ジョブ ID が必要になります。 モデル-しきい値-分析 ノート。ジョブ ID は Amazon Comprehend コンソールから取得できます。のすべての手順を実行します。 モデル-しきい値-分析 ノートブックを使用して、すべてのクラスのしきい値を観察します。

しきい値が上がると精度がどのように上がるのに対し、再現率ではその逆が起こることに注目してください。 1 つの間のバランスを見つけるために、曲線に目に見えるピークがある F1 スコアを使用します。 F0.5 スコアのピークは、モデルのパフォーマンスを向上させることができる特定のしきい値に対応します。ほとんどのラベルが、しきい値が 0.04 付近の脅威ラベルを除いて、しきい値の XNUMX マーク付近にあることに注目してください。

その後、デフォルトの 0.5 しきい値だけではパフォーマンスが低下する特定のラベルに対してこのしきい値を使用できます。最適化されたしきい値を使用することにより、テストデータに対するモデルの結果は、ラベルの脅威に関して 0.00 から 0.24 に改善されました。すべてのラベルの共通ベンチマーク (> 1 などの標準値) ではなく、そのラベルの陽性か陰性かを判断するためのベンチマークとして、しきい値での最大 F0.7 スコアを使用しています。

過小評価されたクラスの処理

不均衡なデータセットに効果的なもう XNUMX つのアプローチは、 オーバーサンプリング。過小評価されたクラスをオーバーサンプリングすることにより、モデルは過小評価されたクラスをより頻繁に認識し、それらのサンプルの重要性を強調します。私たちが使用するのは、 オーバーサンプリング-過小表現.ipynb ノートブックを使用してデータセットを最適化します。

このデータセットでは、より多くのサンプルを提供するにつれて、評価データセットでのモデルのパフォーマンスがどのように変化するかをテストしました。オーバーサンプリング手法を使用して、過小評価されているクラスの発生を増やし、パフォーマンスを向上させます。

この特定のケースでは、10、25、50、100、200、および 500 の陽性例でテストしました。データポイントを繰り返していますが、過小評価されているクラスの重要性を強調することで本質的にモデルのパフォーマンスを向上させていることに注目してください。

費用

Amazon Comprehend では、処理されたテキストの文字数に基づいて従量料金が発生します。参照する Amazon Comprehendの料金実際の費用。

クリーンアップ

このソリューションの実験が終了したら、リソースをクリーンアップして、この例でデプロイされたすべてのリソースを削除します。これにより、アカウントでの継続的なコストを回避できます。

まとめ

この投稿では、データの準備、予測確率を使用したモデルの調整、および過小評価されたデータクラスを処理する手法に関するベストプラクティスとガイダンスを提供しました。これらのベストプラクティスとテクニックを使用して、Amazon Comprehend カスタム分類モデルのパフォーマンスメトリクスを向上させることができます。

Amazon Comprehend の詳細については、次のサイトをご覧ください。 Amazon Comprehend 開発者リソースビデオリソースとブログ投稿を検索し、参照するには AWS Comprehend に関するよくある質問.

著者について

サティア・バラクリシュナン AWS のプロフェッショナルサービスチームのシニアカスタマーデリバリーアーキテクトであり、データと ML ソリューションを専門としています。彼は、米国連邦政府の金融クライアントと協力しています。彼は、顧客のビジネス上の問題を解決するための実用的なソリューションを構築することに情熱を注いでいます。余暇には、映画鑑賞や家族とのハイキングを楽しんでいます。

マラリ王子 AWS のプロフェッショナルサービスチームの NLP データサイエンティストであり、公共部門の顧客向けの NLP の適用を専門としています。彼は、顧客の生産性を高めるツールとして ML を使用することに情熱を注いでいます。余暇には、ビデオゲームを楽しんだり、友人とゲームを開発したりしています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/

タイムスタンプ： 2023 年 10 月 5 日

タイムスタンプ： 2023 年 5 月 17 日

Amazon Comprehend を使用してカスタム分類モデルの予測品質を向上させる | アマゾンウェブサービス

プラトン再発行

ソリューションの概要

前提条件

データを準備する

カスタム分類モデルを構築する

モデルのパフォーマンスを調整する

過小評価されたクラスの処理

費用

クリーンアップ

まとめ

著者について

より多くの AWS機械学習

Amazon SageMaker 異種クラスターを使用して、モデルトレーニングのコストパフォーマンスを向上させます

SaaS プラットフォームを Amazon SageMaker と統合して、ML を利用したアプリケーションを有効にする | アマゾンウェブサービス

履歴データ、Ray、Amazon SageMaker を使用して機器のパフォーマンスを最適化する | アマゾンウェブサービス

Amazon SageMaker JumpStart で大規模な言語モデルを使用してサーバーレス会議要約バックエンドを構築する | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー