探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

探索的データ分析に Amazon SageMaker Canvas を使用する

探索的データ分析 (EDA) は、ビジネス アナリストがパターンを発見し、関係を理解し​​、仮定を検証し、データの異常を特定するために実行する一般的なタスクです。 機械学習 (ML) では、モデルの構築に入る前に、まずデータとその関係を理解することが重要です。 従来の ML 開発サイクルは、場合によっては数か月かかることがあり、高度なデータ サイエンスと ML エンジニアリングのスキルが必要になることがありますが、ノーコード ML ソリューションは、企業が ML ソリューションの提供を数日または数時間にまで加速するのに役立ちます。

Amazon SageMaker キャンバス は、コードを記述したり、ML の経験を必要とせずに、ビジネス アナリストが正確な ML 予測を生成するのに役立つノーコード ML ツールです。 Canvas は、データセットの読み込み、クレンジング、変換を行うための使いやすいビジュアル インターフェイスを提供し、続いて ML モデルを構築して正確な予測を生成します。

この投稿では、Canvas に組み込まれている高度な視覚化機能のおかげで、EDA を実行して ML モデルを構築する前にデータをよりよく理解する方法について説明します。 これらの視覚化は、データセット内の特徴間の関係を分析し、データをよりよく理解するのに役立ちます。 これは直感的に行われ、データを操作して、アドホック クエリでは見過ごされがちな洞察を発見することができます。 これらは、ML モデルを構築およびトレーニングする前に、Canvas 内の「データ ビジュアライザー」を使用してすばやく作成できます。

ソリューションの概要

これらのビジュアライゼーションは、Canvas がすでに提供しているデータの準備と探索のためのさまざまな機能に追加されます。 データセットのフィルタリング、結合、および変更。 タイムスタンプから特定の時間値を抽出します。 データセットのクレンジング、変換、準備に Canvas がどのように役立つかについて詳しくは、以下をご覧ください。 高度な変換を使用してデータを準備する.

このユース ケースでは、どのようなビジネスでも顧客が解約する理由を調べ、アナリストの観点から EDA がどのように役立つかを示します。 この投稿で使用するデータセットは、ダウンロード可能な顧客離れ予測用の通信携帯電話キャリアからの合成データセットです (チャーン.csv)、または独自のデータセットを持ち込んで実験します。 独自のデータセットをインポートする手順については、次を参照してください。 AmazonSageMakerCanvasにデータをインポートする.

前提条件

の指示に従ってください Amazon SageMaker Canvas をセットアップするための前提条件 さらに先に進む前に。

データセットを Canvas にインポートする

サンプル データセットを Canvas にインポートするには、次の手順を実行します。

  1. ビジネス ユーザーとして Canvas にログインするまず、前述のデータセットをローカル コンピューターから Canvas にアップロードします。 次のような他のソースを使用する場合は、 Amazonレッドシフト、 参照する 外部データ ソースに接続する.
  2. 選択する インポート.探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。
  3. 選択する アップロード、を選択します コンピューターからファイルを選択する.
  4. データセット (churn.csv) を選択し、 インポート日.探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。
  5. データセットを選択して選択します モデルを作成する.探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。
  6. モデル名、名前を入力します (この記事では、チャーン予測という名前を付けました)。
  7. 選択する 創造する.
    探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。
    データセットを選択するとすぐに、データ型、欠損値、不一致値、一意の値、およびそれぞれの列の平均値または最頻値を概説する概要が表示されます。探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。
    EDA の観点から、データセットに欠損値や不一致値がないことを確認できます。 ビジネス アナリストとして、データ探索を開始する前であっても、モデルのパフォーマンスとモデルのパフォーマンスに寄与している要因を特定するために、モデルの構築に関する初期の洞察を得たい場合があります。 Canvas を使用すると、最初にモデルをプレビューしてモデルを構築する前に、データから洞察を得ることができます。
  8. データ探索を行う前に、 プレビューモデル.探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。
  9. 予測 (チャーン) する列を選択します。Canvas は、これが XNUMX カテゴリ予測であることを自動的に検出します。
  10. 選択する プレビューモデル. SageMaker Canvas は、データのサブセットを使用してモデルを迅速に構築し、データが正確な予測を生成する準備ができているかどうかを確認します。 このサンプル モデルを使用すると、現在のモデルの精度と、予測に対する各列の相対的な影響を理解できます。

次のスクリーンショットは、プレビューを示しています。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

モデル プレビューは、モデルが 95.6% の確率で正しいターゲット (チャーン?) を予測することを示しています。 また、最初の列の影響 (各列がターゲット列に与える影響) も確認できます。 データの調査、視覚化、および変換を行ってから、モデルの構築に進みましょう。

データの探索

キャンバスは、グリッド ビューでのデータ分布など、いくつかの一般的な基本的な視覚化を既に提供しています。 完成に向けてあなたの背中を押してくれる、執筆のための持続可能で本物のモーメンタムを作り出す。 タブ。 これらは、データの概要を把握し、データがどのように分布しているかを理解し、データセットの概要を要約するのに最適です。

ビジネス アナリストは、モデルを構築する前に、データの関係を簡単に理解するために、データがどのように分散されているか、および分散がターゲット列 (チャーン) にどのように反映されているかについて、高レベルの洞察を得る必要がある場合があります。 選べるようになりました グリッドビュー データ分布の概要を取得します。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

次のスクリーンショットは、データセットの配布の概要を示しています。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

以下の観察を行うことができます。

  • 電話は、実際に使用するにはあまりにも多くの固有の値を取ります。 phone が顧客 ID であることはわかっているので、特定の顧客を考慮する可能性のあるモデルを構築したくはありませんが、より一般的な意味でチャーンにつながる可能性があることを学習します。 この変数は削除できます。
  • 数値特徴のほとんどは、次のように適切に分散されています。 ガウシアン 釣鐘曲線。 ML では、正規分布を示す変数はより高い精度で予測できるため、データを正規分布にする必要があります。

Canvas で利用できる高度なビジュアライゼーションを詳しく見てみましょう。

データの視覚化

ビジネス アナリストは、データ要素間に関係があるかどうか、およびそれらがチャーンにどのように関連しているかを確認したいと考えています。 Canvas を使用すると、データを探索して視覚化できるため、ML モデルを構築する前にデータに関する高度な洞察を得ることができます。 散布図、棒グラフ、箱ひげ図を使用して視覚化できます。これは、データを理解し、モデルの精度に影響を与える可能性のある特徴間の関係を発見するのに役立ちます。

ビジュアライゼーションの作成を開始するには、次の手順を完了します。

  • ソフトウェア設定ページで、下図のように 完成に向けてあなたの背中を押してくれる、執筆のための持続可能で本物のモーメンタムを作り出す。 キャンバス アプリのタブで、 データビジュアライザー.

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

Canvas での視覚化の主要なアクセラレーターは、 データビジュアライザー. サンプルサイズを変更して、より良い視点を得てみましょう。

  • 横の行数を選択 可視化サンプル.
  • スライダーを使用して、目的のサンプル サイズを選択します。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

  • 選択する アップデイト サンプルサイズの変更を確認します。

データセットに基づいてサンプル サイズを変更することができます。 場合によっては、データセット全体を選択できる行数が数百から数千になることがあります。 場合によっては、数千行になることもありますが、その場合は、ユース ケースに基づいて数百行または数千行を選択できます。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

散布図は、同じ個人について測定された XNUMX つの量的変数間の関係を示します。 この場合、相関関係をチェックするために値間の関係を理解することが重要です。

Calls、Mins、および Charge があるため、昼、夜、および夜のそれらの間の相関関係をプロットします。

まず、作成します 散布図 Day Charge と Day Mins の間。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

Day Mins が増加すると、Day Charge も増加することがわかります。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

同じことが夕方の電話にも当てはまります。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

夜勤も同じパターンです。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

分数と料金は直線的に増加しているように見えるため、相互に高い相関関係があることがわかります。 一部の ML アルゴリズムにこれらの機能ペアを含めると、追加のストレージが必要になり、トレーニングの速度が低下する可能性があります。また、複数の列に同様の情報があると、モデルが影響を過度に強調し、モデルに望ましくないバイアスが生じる可能性があります。 相関性の高いペアのそれぞれから XNUMX つの機能を削除しましょう。Day Mins のペアから Day Charge、Night Mins のペアから Night Charge、Intl Mins のペアから Intl Charge です。

データのバランスと変動

棒グラフは、x 軸のカテゴリ変数と y 軸の数値変数の間のプロットで、両方の変数間の関係を調べます。 棒グラフを作成して、True と False のターゲット列 Churn にコールがどのように分布しているかを確認しましょう。 選ぶ 棒グラフ デイコールとチャーンをそれぞれ y 軸と x 軸にドラッグ アンド ドロップします。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

では、イブニング コールとチャーンの同じ棒グラフを作成してみましょう。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

次に、夜間通話とチャーンの棒グラフを作成しましょう。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

解約した顧客とそうでない顧客では行動に違いがあるようです。

箱ひげ図は、クラス (チャーンかどうか) ごとのデータの動作の違いを示すので便利です。 チャーン (ターゲット列) を予測するため、ターゲット列に対していくつかの特徴の箱ひげ図を作成して、平均、最大、最小、中央値、外れ値などのデータセットの記述統計を推測しましょう。

選択する 箱ひげ図 Day mins と Churn をそれぞれ y 軸と x 軸にドラッグ アンド ドロップします。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

ターゲット列 (チャーン) に対して、他の列に対して同じアプローチを試すこともできます。

ここで、カスタマー サービス コールに対する XNUMX 日の分数のボックス プロットを作成して、カスタマー サービス コールが XNUMX 日の分数の値にどのように及ぶかを理解しましょう。 顧客サービスへの電話には、日の最小値に対する依存関係や相関関係がないことがわかります。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

私たちの観察から、データセットがかなりバランスが取れていると判断できます。 モデルが XNUMX つの値に偏らないように、データが true 値と false 値に均等に分散されるようにします。

変換

私たちの観察に基づいて、電話番号の列は単なるアカウント番号であるため削除し、Day Charge、Eve Charge、Night Charge の列には mins 列などの重複する情報が含まれているため削除しますが、プレビューを再度実行して確認できます。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

データの分析と変換が終わったら、モデルをもう一度プレビューしてみましょう。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

モデルの推定精度が 95.6% から 93.6% (これは異なる場合があります) に変化したことがわかりますが、特定の列に対する列の影響 (機能の重要性) が大幅に変化したため、トレーニングの速度と列の影響が改善されました。モデル構築の次のステップに進むときの予測。 私たちのデータセットは追加の変換を必要としませんが、必要に応じて利用できます ML データ変換 モデル構築のためにデータをクリーニング、変換、および準備します。

モデルを構築する

これで、モデルの構築と結果の分析に進むことができます。 詳細については、次を参照してください。 Amazon SageMaker Canvasを使用して、コードなしの機械学習で顧客離れを予測する.

クリーンアップ

将来の発生を避けるため セッション料金, ログアウト キャンバスの。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。

まとめ

この投稿では、EDA の Canvas 視覚化機能を使用して、モデルを構築する前にデータをよりよく理解し、正確な ML モデルを作成し、ノーコードの視覚的なポイント アンド クリック インターフェイスを使用して予測を生成する方法を示しました。


著者について

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。ラジャクマールサンパスクマール AWSのプリンシパルテクニカルアカウントマネージャーであり、ビジネステクノロジーの調整に関するガイダンスをお客様に提供し、クラウド運用モデルとプロセスの再発明をサポートしています。 彼はクラウドと機械学習に情熱を注いでいます。 Rajは機械学習のスペシャリストでもあり、AWSのお客様と協力して、AWSのワークロードとアーキテクチャを設計、デプロイ、管理しています。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。ラフル・ナベラ AWSProfessionalServicesのデータ分析コンサルタントです。 彼の現在の仕事は、顧客がAWSでデータと機械学習のワークロードを構築できるようにすることに焦点を当てています。 余暇には、クリケットやバレーボールを楽しんでいます。

探索的データ分析 PlatoBlockchain Data Intelligence には Amazon SageMaker Canvas を使用します。 垂直検索。 あい。ラビテヤ・エラマンチリ ニューヨークを拠点とするアマゾン ウェブ サービスのエンタープライズ ソリューション アーキテクトです。 彼は、大規模な金融サービス企業の顧客と協力して、安全性、スケーラビリティ、信頼性、費用対効果の高いアプリケーションをクラウド上で設計および展開しています。 彼は、11 年以上のリスク管理、技術コンサルティング、データ分析、および機械学習の経験をもたらします。 顧客をサポートしていないときは、旅行と PS5 を楽しんでいます。

タイムスタンプ:

より多くの AWS機械学習