AmazonSageMakerCanvasを使用したコードなしの機械学習で顧客離れを予測する

プラトン再発行

フォロワー： 0

今日のすべてのビジネスでは、顧客の行動を理解することが最優先事項です。顧客が購入する理由と方法についての洞察を得ることが、収益の増加に役立ちます。しかし、顧客を失うこと（顧客離れとも呼ばれる）は常にリスクであり、顧客が離れる理由についての洞察は、収益と利益を維持するためにも同様に重要です。機械学習（ML）は洞察に役立ちますが、これまでは、解約を予測するモデルを構築するためにMLの専門家が必要でした。その欠如は、顧客を維持するための企業による洞察主導の行動を遅らせる可能性があります。

この投稿では、ビジネスアナリストが顧客チャーンMLモデルを構築する方法を紹介します。 Amazon SageMaker キャンバス、コードは必要ありません。 Canvasは、ビジネスアナリストに視覚的なポイントアンドクリックインターフェイスを提供します。これにより、MLの経験やコードをXNUMX行も記述しなくても、モデルを構築して正確なML予測を自分で生成できます。

ソリューションの概要

この投稿では、携帯電話事業者のマーケティング部門でマーケティングアナリストの役割を担っています。私たちは、解約のリスクがある可能性のある顧客を特定する任務を負っています。サービスの使用状況やその他の顧客行動データにアクセスできます。このデータが、顧客が離れる理由を説明するのに役立つかどうかを知りたいと考えています。チャーンを説明する要因を特定できれば、ターゲットを絞った保持キャンペーンを実行するなど、予測される動作を変更するための修正アクションを実行できます。

これを行うには、CSVファイルにあるデータを使用します。このファイルには、顧客の使用状況とチャーンに関する情報が含まれています。 Canvasを使用して、次の手順を実行します。

チャーンデータセットをからインポートします Amazon シンプルストレージサービス（Amazon S3）。
チャーンモデルをトレーニングして構築します。
モデルの結果を分析します。
モデルに対して予測をテストします。

データセットには、合成データセット電気通信携帯電話会社から。このサンプルデータセットには5,000のレコードが含まれており、各レコードは21の属性を使用して顧客プロファイルを記述しています。属性は次のとおりです。

都道府県 – XNUMX文字の略語で示される、顧客が居住する米国の州。たとえば、OHまたはNJ
アカウントの長さ –このアカウントがアクティブであった日数
市外局番 –顧客の電話番号のXNUMX桁の市外局番
電話 –残りのXNUMX桁の電話番号
国際計画 –顧客が国際電話プランを持っているかどうか（はい/いいえ）
VMailプラン –顧客がボイスメール機能を持っているかどうか（はい/いいえ）
VMailメッセージ –XNUMXか月あたりのボイスメールメッセージの平均数
日分 –XNUMX日の間に使用された通話時間の合計数
デイコール –XNUMX日の間に発信された通話の総数
日額 –日中の通話料金
イブミンズ, イブコール, イブチャージ –イブニングコールの請求コスト
夜の分, ナイトコール, 夜間料金 –夜間通話の請求コスト
国際分, 国際電話, インターナショナルチャージ –国際電話の請求コスト
CustServコール –カスタマーサービスにかけられた電話の数
チャーン？ –顧客がサービスを終了したかどうか（true / false）

最後の属性、 Churn?、は、MLモデルで予測する属性です。ターゲット属性はバイナリです。つまり、モデルは出力をXNUMXつのカテゴリのいずれかとして予測します（True or False).

前提条件

のクラウド管理者 AWSアカウント次の前提条件を完了するには、適切な権限が必要です。

を展開するアマゾンセージメーカー手順については、 AmazonSageMakerドメインにオンボード.
キャンバスを展開します。手順については、を参照してください。 Amazon SageMaker Canvasのセットアップと管理（IT管理者向け）.
Canvasのクロスオリジンリソースシェアリング（CORS）ポリシーを構成します。手順については、を参照してください。ユーザーがローカルファイルをアップロードできるようにする.

顧客解約モデルを作成する

まず、ダウンロードしましょうチャーンデータセットファイルを確認して、すべてのデータがそこにあることを確認します。次に、次の手順を実行します。

にサインインする AWSマネジメントコンソール、Canvasにアクセスするための適切な権限を持つアカウントを使用します。
Canvasコンソールにログインします。

ここで、データセットを管理し、モデルを作成できます。

選択する インポート.

キャンバスインポートボタンの選択

選択する アップロード 選択 churn.csv ファイルにソフトウェアを指定する必要があります。
選択する インポート日 Canvasにアップロードします。

キャンバスはs3からデータを選択します

インポートプロセスには約10秒かかります（これはデータセットのサイズによって異なります）。完了すると、データセットが Ready 状態。

CanvasReadyデータセット

データセットの最初の100行をプレビューするには、目のアイコンの上にマウスを置きます。

キャンバスビューデータセット

データセットのプレビューが表示されます。ここで、データが正しいことを確認できます。

Canvas検証データ

インポートしたデータセットの準備ができたことを確認したら、モデルを作成します。

選択する新型.

Canvasの新しいモデル

churn.csvデータセットを選択し、 データセットを選択.

CanvasSelectデータセット

次に、ビルドモデルプロセスを構成します。

ターゲット列を選択してください Churn? コラム。

モデルタイプ、Canvasはこの場合、モデルタイプを自動的に推奨します 2カテゴリ予測 （データサイエンティストが二項分類と呼ぶもの）。可能な予測値はXNUMXつしかないため、これはユースケースに適しています。 True or False、したがって、Canvasが作成した推奨事項を使用します。

キャンバスビルドモデル

ここで、いくつかの仮定を検証します。ターゲット列が他の列によって予測できるかどうかをすばやく確認したいと思います。モデルの推定精度と列への影響（ターゲット列を予測する際の各列の推定重要度）をすばやく確認できます。.

21列すべてを選択し、 プレビューモデル.

この機能は、データセットのサブセットとモデリングでの2回のパスのみを使用します。このユースケースでは、プレビューモデルの構築に約XNUMX分かかります。

キャンバスプレビューモデル

次のスクリーンショットに示すように、 Phone & State 列が予測に与える影響ははるかに少なくなります。テキスト入力を削除するときは注意が必要です。テキスト入力には、予測に寄与する重要な個別のカテゴリ機能が含まれている可能性があるためです。ここで、電話番号はアカウント番号と同等であり、他のアカウントの解約の可能性を予測する上で価値がなく、顧客の状態はモデルにあまり影響を与えません。

これらの列には主要な機能の重要性がないため、これらの列を削除します。
削除した後 Phone & State 列、プレビューをもう一度実行してみましょう。

次のスクリーンショットに示すように、モデルの精度は0.1％向上しました。プレビューモデルの推定精度は95.9％で、最も影響の大きい列は次のとおりです。 Night Calls, Eve Mins, Night Charge。これにより、どの列がモデルのパフォーマンスに最も影響を与えるかについての洞察が得られます。ここでは、特徴選択を行う際に注意する必要があります。これは、単一の特徴がモデルの結果に非常に影響を与える場合、それがターゲットリーク、およびこの機能は予測時には使用できません。この場合、非常に類似した影響を示した列はほとんどないため、モデルの作成を続けます。

後のキャンバス特徴エンジニアリング

CanvasにはXNUMXつのビルドオプションがあります。

標準ビルド –によって供給される最適化されたプロセスから最高のモデルを構築します AutoML; 速度は最高の精度と交換されます
クイックビルド –標準のビルドと比較して、わずかな時間でモデルをビルドします。潜在的な精度は速度と交換されます。

この投稿では、 標準ビルド 最高のモデルが必要であり、結果を待つために追加の時間を費やすことをいとわないためです。

キャンバス標準ビルド

ビルドプロセスには2〜4時間かかる場合があります。この間、Canvasは何百もの候補パイプラインをテストし、提示するのに最適なモデルを選択します。次のスクリーンショットでは、予想されるビルド時間と進行状況を確認できます。

CanvasAnalyzeモデル

モデルのパフォーマンスを評価する

モデル構築プロセスが完了すると、モデルは97.9％の確率でチャーンを予測しました。これは問題ないように見えますが、アナリストとして、モデルを信頼してそれに基づいて決定を下せるかどうかをさらに深く掘り下げたいと考えています。に得点タブをクリックすると、結果にマッピングされた予測の視覚的なプロットを確認できます。これにより、モデルをより深く理解することができます。

Canvasは、データセットをトレーニングセットとテストセットに分割します。トレーニングデータセットは、Canvasがモデルを構築するために使用するデータです。テストセットは、モデルが新しいデータで適切に機能するかどうかを確認するために使用されます。次のスクリーンショットのSankeyダイアグラムは、モデルがテストセットでどのように実行されたかを示しています。詳細については、を参照してください。 AmazonSageMakerCanvasでのモデルのパフォーマンスの評価.

サンキーダイアグラムに表示されているものを超えてより詳細な洞察を得るために、ビジネスアナリストは混同行列彼らのビジネスソリューションの分析。たとえば、モデルが誤った予測を行う可能性をよりよく理解したいと考えています。これはサンキーダイアグラムで確認できますが、より多くの洞察が必要なため、 高度な指標。混同行列が表示されます。これは、ポジティブクラスに固有の次の値を使用して、モデルのパフォーマンスを視覚的な形式で表示します。実際にチャーンするかどうかに基づいて測定しているため、ポジティブクラスは次のようになります。 True この例では：

真陽性（TP） –の数 True 正しく予測された結果 True
トゥルーネガティブ（TN） –の数 False 正しく予測された結果 False
誤検知（FP） –の数 False 誤って予測された結果 True
フォールスネガティブ（FN） –の数 True 誤って予測された結果 False

このマトリックスチャートを使用して、モデルがどれだけ正確であるかだけでなく、モデルが間違っている場合、それがどのくらいの頻度で、どのように間違っているかを判断できます。

キャンバスF1マトリックス

高度なメトリックは見栄えがします。モデルの結果を信頼できます。誤検知と誤検知は非常に少なくなっています。これらは、モデルがデータセット内の顧客が解約すると実際には解約しない（誤検知）場合、またはモデルが顧客が解約すると実際に解約する（誤検知）場合です。どちらかの数値が高いと、モデルを使用して決定を下すことができるかどうかについて、より深く考えるようになる可能性があります。

に戻りましょう概要タブ、各列の影響を確認します。この情報は、マーケティングチームが顧客離れを減らすための行動を取ることにつながる洞察を得るのに役立ちます。たとえば、低いものと高いものの両方を見ることができます CustServ Calls 解約の可能性を高めます。マーケティングチームは、これらの学習に基づいて顧客離れを防ぐための行動を取ることができます。例としては、顧客サービスへの問い合わせを減らすためにWebサイトで詳細なFAQを作成したり、FAQで顧客との教育キャンペーンを実行してエンゲージメントを維持したりすることが含まれます。

私たちのモデルはかなり正確に見えます。でインタラクティブな予測を直接実行できます 予測する タブ、バッチまたは単一（リアルタイム）予測。この例では、特定の列の値にいくつかの変更を加え、リアルタイムの予測を実行しました。 Canvasは、信頼水準とともに予測結果を表示します。

キャンバス予測推論

次の使用法を持つ既存の顧客がいるとしましょう。 Night Mins 40とは Eve Mins は40です。予測を実行できます。モデルは、この顧客が解約する93.2％の信頼スコアを返します（True）。この顧客を維持するために、プロモーション割引を提供することを選択する場合があります。

XNUMXつの予測を実行することは、個々のwhat-if分析に最適ですが、一度に多くのレコードに対して予測を実行する必要もあります。キャンバスはすることができますバッチ予測を実行する、これにより、大規模な予測を実行できます。

まとめ

この投稿では、ビジネスアナリストがサンプルデータを使用してSageMakerCanvasで顧客離れモデルを作成する方法を示しました。 Canvasを使用すると、ビジネスアナリストは、コードなし、視覚的なポイントアンドクリックインターフェイスを使用して、正確なMLモデルを作成し、予測を生成できます。マーケティング分析では、この情報を使用して、ターゲットを絞った保持キャンペーンを実行し、新しいキャンペーン戦略をより迅速にテストできるようになり、顧客離れを減らすことができます。

アナリストは、データサイエンティストの同僚とモデルを共有することで、これを次のレベルに引き上げることができます。データサイエンティストは、キャンバスモデルを次の場所で表示できます。 Amazon SageMakerスタジオ、Canvas AutoMLが行った選択を調査し、モデルの結果を検証し、数回クリックするだけでモデルを生産化することもできます。これにより、MLベースの価値創造が加速され、改善された結果をより迅速にスケーリングできます。

Canvasの使用の詳細については、を参照してください。構築、共有、デプロイ：ビジネスアナリストとデータサイエンティストがノーコードMLとAmazonSageMakerCanvasを使用して市場投入までの時間を短縮する方法。コードなしのソリューションを使用したMLモデルの作成の詳細については、を参照してください。 Amazon SageMaker Canvasの発表–ビジネスアナリスト向けの視覚的でノーコードの機械学習機能.

著者について

ヘンリー・ロバリノ ニュージャージーを拠点とするAWSのソリューションアーキテクトです。彼はクラウドと機械学習、そしてそれらが社会で果たすことができる役割に情熱を注いでいます。彼は、お客様と協力してAWSクラウドを使用してビジネス目標を達成できるようにすることでこれを実現しています。仕事以外では、ヘンリーが毛皮の娘アーリーと一緒に屋外を旅行したり探索したりしているのを見つけることができます。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用したコードなしの機械学習で顧客の離脱を予測します。垂直検索。あい。 チャオラン・ワン は、テキサス州ダラスを拠点とするAWSのソリューションアーキテクトです。彼は、2016年にテキサス大学ダラス校をコンピューターサイエンスの修士号で卒業して以来、AWSで働いています。 Chaoranは、お客様がスケーラブルで安全で費用効果の高いアプリケーションを構築し、AWSクラウドでのビジネス上の課題を解決するためのソリューションを見つけるのに役立ちます。仕事以外では、チャオランは家族とXNUMX匹の犬、ビウビウとココと過ごすのが大好きです。

タイムスタンプ： 2022 年 5 月 5 日

タイムスタンプ： 2023 年 8 月 2 日

プラトン再発行

Amazon SageMaker で Amazon EMR と RStudio を接続する

評価と分析を強化するための Amazon Textract Bulk Document Uploader の紹介 | アマゾンウェブサービス

Amazon Kinesis、AWS Glue、AmazonSageMakerを使用して予知保全ソリューションを構築します

安全なAmazonSageMakerStudioの事前署名されたURLパート1：基盤インフラストラクチャ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー