Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。

Amazon SageMaker Canvas を使用してノーコード ML モデルを構築しながら、一般的なデータの問題を特定して回避する

ビジネス アナリストはデータを操作し、効果的なビジネス成果を達成するためにデータを分析、調査、理解することを好みます。 ビジネス上の問題に対処するために、多くの場合、データ サイエンティストなどの機械学習 (ML) の専門家に依存して、ML を利用して既存のデータを使用してモデルを構築し、予測を生成するなどの手法を支援します。 ただし、データ サイエンティストは通常​​、自分のタスクに縛られており、アナリストを支援する帯域幅がないため、常に可能であるとは限りません。

独立してビジネス アナリストとしての目標を達成するには、詳細を知らずにコードを使用する必要なく、ML を使用する使いやすく直感的で視覚的なツールを使用することが理想的です。 これらのツールを使用すると、ビジネス上の問題を解決し、望ましい結果を得ることができます。

あなたとあなたの組織がより効果的になり、コードを書かずに ML を使用できるようにすることを目標に、 AmazonSageMakerCanvasを導入. これは、ML アルゴリズムや評価指標などの技術的な詳細について学ぶ必要なく、正確な ML モデルを構築するのに役立つノーコード ML ソリューションです。 SageMaker Canvas は、コードを XNUMX 行も書かずに、データのインポート、ML モデルのトレーニング、モデル分析の実行、ML 予測の生成を可能にする視覚的で直感的なインターフェースを提供します。

SageMaker Canvas を使用して実験を行うと、値が欠落していたり​​、問題の種類が間違っていたりするなど、データ品質の問題が発生する場合があります。 これらの問題は、ML モデルのトレーニング後、プロセスのかなり後半になるまで発見されない場合があります。 この課題を軽減するために、SageMaker Canvas はデータ検証をサポートするようになりました。 この機能は、データの問題をプロアクティブにチェックし、解決策に関するガイダンスを提供します。

この投稿では、モデルを構築する前に SageMaker Canvas 内でデータ検証機能を使用する方法を紹介します。 名前が示すように、この機能はデータセットを検証し、問題を報告し、それらを修正するための有用なポインターを提供します。 より高品質のデータを使用することで、より優れたパフォーマンスの ML モデルが得られます。

SageMaker Canvas でデータを検証する

データ検証は、潜在的なデータ品質の問題を積極的にチェックする SageMaker Canvas の新機能です。 データをインポートしてターゲット列を選択すると、次のようにデータを検証する選択肢が表示されます。

データの検証を選択した場合、Canvas は次のようなさまざまな条件についてデータを分析します。

  • ターゲット列に固有のラベルが多すぎます – カテゴリ予測モデル タイプの場合
  • データの行数に対してターゲット列の一意のラベルが多すぎます – カテゴリ予測モデル タイプの場合
  • データのモデル タイプが正しくありません – モデル タイプが、ターゲット列で予測しているデータに適合しない
  • 無効な行が多すぎます – ターゲット列の欠損値
  • すべての機能列はテキスト列です – 標準ビルドでは削除されます
  • 列が少なすぎる – データの列が少なすぎます
  • 完全な行がありません – データのすべての行に欠損値が含まれています
  • XNUMX つ以上の列名にアンダースコアが XNUMX つ含まれています – SageMaker は列ヘッダーの (__) を処理できません

各検証基準の詳細については、この投稿の後のセクションで説明します。

すべてのチェックに合格すると、次の確認が表示されます。 「データセットに問題は見つかりませんでした」。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。

問題が見つかった場合は、表示して理解するための通知が表示されます。 これにより、データ品質の問題が早期に明らかになり、プロセスで時間とリソースを浪費する前にすぐに対処できます。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。 Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。

すべての問題が解決されるまで、調整を行い、データセットの検証を続けることができます。

ターゲット列とモデル タイプを検証する

SageMaker Canvas で ML モデルを構築している場合、 ターゲット列 モデルのビルドが失敗する可能性があります。 SageMaker Canvas は、あなたに影響を与える可能性のあるさまざまな種類の問題をチェックします ターゲット列。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。

  1. ターゲット列については、 データのモデル タイプが正しくありません. たとえば、2 カテゴリの予測モデルが選択されているが、ターゲット列に 2 つ以上の一意のラベルがある場合、SageMaker Canvas は次の検証警告を提供します。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。
  2. モデル タイプが 2 つまたは 3 つ以上のカテゴリ予測の場合は、検証する必要があります ユニークなラベルが多すぎる ターゲット列の. 一意のクラスの最大数は 2000 です。Target 列で 2000 を超える一意の値を持つ列を選択すると、Canvas は次の検証警告を表示します。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。
  3. ユニークなターゲット ラベルが多すぎることに加えて、次の点にも注意する必要があります。 データ内の行数に対する多数の一意のターゲット ラベル。 SageMaker Canvas は、合計行数に対するターゲットラベルの比率を 10% 未満にすることを強制します。 これにより、高品質のモデルの各カテゴリに十分な表現が確保され、過剰適合の可能性が減少します。 モデルがトレーニング データを適切に予測しているが、以前に見たことのない新しいデータを予測していない場合、そのモデルは過剰適合していると見なされます。 参照 こちら to learn more.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。
  4. 最後に、ターゲット列の最後のチェックは 無効な行が多すぎます. ターゲット列に欠落または無効なデータが 10% を超える場合、モデルのパフォーマンスに影響を与え、場合によってはモデルのビルドが失敗する原因となります。 次の例では、ターゲット列に多くの欠損値 (90% を超える欠損値) があり、次の検証警告が表示されます。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。

ターゲット列に対して上記の警告のいずれかが表示された場合は、次の手順を使用して問題を軽減します。

  1. 正しいターゲット列を使用していますか?
  2. 正しいモデル タイプを選択しましたか?
  3. ターゲット ラベルごとにデータセットの行数を増やすことはできますか?
  4. 類似のラベルをまとめて統合/グループ化できますか?
  5. 欠落している/無効な値を記入できますか?
  6. 欠落/無効な値を削除できる十分なデータがありますか?
  7. 上記のすべてのオプションで警告がクリアされない場合は、別のデータセットの使用を検討する必要があります。

Job Status ページの下部にある SageMaker Canvas データ変換ドキュメント 上記の代入手順を実行します。

すべての列を検証する

ターゲット列とは別に、他のデータ列 (特徴列) でもデータ品質の問題が発生する場合があります。 特徴列は、ML 予測を行うために使用される入力データです。

  • すべてのデータセットには、少なくとも 1 つの特徴列と 1 つのターゲット列 (合計 2 列) が必要です。 それ以外の場合、SageMaker Canvas はあなたに データの列が少なすぎます 警告。 モデルの構築に進む前に、この要件を満たす必要があります。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。
  • その後、データに少なくとも 1 つの数値列があることを確認する必要があります。 そうでない場合は、 すべての機能列はテキスト列です 警告。 これは、通常、標準ビルド中にテキスト列が削除され、モデルにトレーニングする機能がなくなるためです。 したがって、これによりモデルの構築が失敗します。 SageMaker Canvas を使用して、テキスト列の一部を数値にエンコードするか、標準ビルドの代わりにクイック ビルドを使用できます。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。
  • 機能列に対して表示される可能性のある XNUMX 番目のタイプの警告は次のとおりです。 完全な行がありません. この検証では、欠損値のない行が少なくとも XNUMX つあるかどうかを確認します。 SageMaker Canvas には、少なくとも XNUMX つの完全な行が必要です。 クイックビルド 失敗します。 モデルを構築する前に、不足している値を埋めてみてください。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。
  • 最後のタイプの検証は XNUMX つ以上の列名にアンダースコアが XNUMX つ含まれています. これは SageMaker Canvas 固有の要件です。 列ヘッダーにアンダースコア (__) が XNUMX つあると、 クイックビルド 失敗する。 列の名前を変更して二重下線を削除してから、もう一度やり直してください。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。

クリーンアップ

将来の発生を避けるため セッション料金、SageMakerCanvasからログアウトします。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。

まとめ

SageMaker Canvas は、ビジネス アナリストが正確な ML モデルを作成し、視覚的なポイント アンド クリック インターフェースを介して予測を生成できるようにするコード不要の ML ソリューションです。 データセットを事前に検証することで、SageMaker Canvas がデータ品質を確認し、データの問題を軽減するのにどのように役立つかを示しました。 問題を早期に特定することで、SageMaker Canvas は高品質の ML モデルを構築し、データ サイエンスやプログラミングの専門知識がなくても構築の繰り返しを減らすのに役立ちます。 この新機能の詳細については、 SageMaker キャンバスのドキュメント。

SageMaker Canvas の開始と詳細については、次のリソースを参照してください。


著者について

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。 ハリハラン・スレッシュ AWS のシニア ソリューション アーキテクトです。 彼は、データベース、機械学習、および革新的なソリューションの設計に情熱を注いでいます。 AWS に入社する前は、Hariharan は製品アーキテクト、コア バンキング実装スペシャリスト、および開発者であり、11 年以上にわたって BFSI 組織と協力してきました。 テクノロジー以外では、パラグライダーとサイクリングを楽​​しんでいます。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。サイナス・ミリヤラ は、AW​​S のシニア テクニカル アカウント マネージャーであり、米国の自動車業界の顧客のために働いています。 Sainath は、AI/ML を使用した大規模な分散アプリケーションの設計と構築に情熱を注いでいます。 余暇には、サイナスは家族や友人と時間を過ごします。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用してノーコード ML モデルを構築する際に、一般的なデータの問題を特定して回避します。垂直検索。あい。ジェームズ・ウー AWSのシニアAI/MLスペシャリストソリューションアーキテクトです。 お客様がAI/MLソリューションを設計および構築するのを支援します。 Jamesの仕事は、コンピュータビジョン、ディープラーニング、企業全体でのMLのスケーリングに主な関心を持って、幅広いMLユースケースをカバーしています。 AWSに入社する前、Jamesは、エンジニアリングで10年間、マーケティングおよび広告業界で6年間を含む、4年以上にわたってアーキテクト、開発者、およびテクノロジーのリーダーでした。

タイムスタンプ:

より多くの AWS機械学習