コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

コードなしでAmazonSageMakerでリスク管理機械学習ワークフローを構築する

世界的な金融危機以来、リスク管理は、潜在的な顧客の融資状況を予測することを含め、銀行の意思決定を形作る上で主要な役割を果たしてきました。 これは多くの場合、機械学習(ML)を必要とするデータ集約型の演習です。 ただし、すべての組織がリスク管理MLワークフローを構築するためのデータサイエンスリソースと専門知識を持っているわけではありません。

アマゾンセージメーカー はフルマネージドのMLプラットフォームであり、データエンジニアやビジネスアナリストがMLモデルをすばやく簡単に構築、トレーニング、デプロイできるようにします。 データエンジニアとビジネスアナリストは、SageMakerのノーコード/ローコード機能を使用して共同作業を行うことができます。 データエンジニアは使用できます AmazonSageMakerデータラングラー コードを記述せずに、モデル構築用のデータをすばやく集約して準備します。 次に、ビジネスアナリストは、の視覚的なポイントアンドクリックインターフェイスを使用できます。 Amazon SageMaker キャンバス 独自に正確なML予測を生成します。

この投稿では、データエンジニアとビジネスアナリストが協力して、コードを記述せずにデータの準備、モデルの構築、推論を含むMLワークフローを構築することがいかに簡単であるかを示します。

ソリューションの概要

ML開発は複雑で反復的なプロセスですが、MLワークフローをデータ準備、モデル開発、モデル展開の各段階に一般化することができます。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

Data WranglerとCanvasは、データの準備とモデル開発の複雑さを抽象化するため、コード開発の専門家でなくても、データから洞察を引き出すことで、ビジネスに価値を提供することに集中できます。 次のアーキテクチャ図は、ノーコード/ローコードソリューションのコンポーネントを示しています。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

Amazon シンプル ストレージ サービス (Amazon S3)は、生データ、エンジニアリングデータ、モデルアーティファクトのデータリポジトリとして機能します。 からデータをインポートすることもできます Amazonレッドシフト, アマゾンアテナ、Databricks、およびSnowflake。

次に、データサイエンティストとして、探索的データ分析と特徴エンジニアリングにデータラングラーを使用します。 Canvasは特徴エンジニアリングタスクを実行できますが、特徴エンジニアリングでは通常、データセットをモデル開発に適した形式に強化するために、統計およびドメインの知識が必要です。 したがって、データエンジニアがデータラングラーでコードを記述せずにデータを変換できるように、この責任をデータエンジニアに与えます。

データの準備後、モデル構築の責任をデータアナリストに渡します。データアナリストは、Canvasを使用して、コードを記述せずにモデルをトレーニングできます。

最後に、モデルエンドポイントを自分でデプロイすることなく、結果のモデルからCanvas内で直接単一およびバッチ予測を行います。

データセットの概要

SageMakerの機能を使用して、LendingClubの修正バージョンを使用してローンのステータスを予測します。 公開されているローン分析データセット。 データセットには、2007年から2011年までに発行されたローンのローンデータが含まれています。 ローンと借り手を説明する列が私たちの特徴です。 列loan_statusはターゲット変数であり、これが予測しようとしているものです。

データラングラーで示すために、データセットをXNUMXつのCSVファイルに分割します。 パート1 & パート2。 デモを簡素化するために、LendingClubの元のデータセットからいくつかの列を削除しました。 次の表に示すように、データセットには37,000を超える行と21の機能列が含まれています。

列名 説明
loan_status ローンの現在のステータス(ターゲット変数)。
loan_amount 借り手が申請したローンの記載金額。 与信部門が融資額を減らす場合、それはこの値に反映されます。
funded_amount_by_investors その時点でそのローンに対して投資家がコミットした合計金額。
term ローンの支払い回数。 値は月単位で、36または60のいずれかになります。
interest_rate ローンの利率。
installment ローンが発生した場合に借り手が支払うべき毎月の支払い。
grade LCはローングレードを割り当てました。
sub_grade LCはローンの路床を割り当てました。
employment_length 年単位の雇用期間。 可能な値は0〜10の間です。ここで、0は10年未満を意味し、XNUMXはXNUMX年以上を意味します。
home_ownership 登録時に借り手から提供された住宅所有状況。 私たちの価値観は、RENT、OWN、MORTGAGE、およびOTHERです。
annual_income 登録時に借り手から提供された自己申告による年収。
verification_status 収入がLCによって確認されたかどうかを示します。
issued_amount ローンが資金提供された月。
purpose ローン要求に対して借り手が提供するカテゴリ。
dti 住宅ローンと要求されたLCローンを除く、債務総額に対する借り手の毎月の債務返済総額を、借り手の自己申告による月収で割って計算された比率。
earliest_credit_line 借り手の最も早く報告されたクレジットラインが開設された月。
inquiries_last_6_months 過去6か月間の問い合わせ件数(自動車および住宅ローンの問い合わせを除く)。
open_credit_lines 借り手のクレジットファイルで開いているクレジットラインの数。
derogatory_public_records 蔑称的な公共記録の数。
revolving_line_utilization_rate リボルビングラインの利用率、または利用可能なすべてのリボルビングクレジットに対する借り手が使用しているクレジットの量。
total_credit_lines 借り手のクレジットファイルに現在あるクレジットラインの総数。

このデータセットは、データの準備とモデルのトレーニングに使用します。

前提条件

次の前提条件の手順を実行します。

  1. 両方のローンファイルをアップロードする 選択したS3バケットに。
  2. 必要な権限があることを確認してください。 詳細については、を参照してください。 データラングラーの使用を開始する.
  3. DataWranglerを使用するように設定されたSageMakerドメインをセットアップします。 手順については、を参照してください。 AmazonSageMakerドメインにオンボード.

データをインポートする

新しいデータラングラーデータフローを作成する Amazon SageMaker スタジオ UI.

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

データセットを配置したS3バケットからCSVファイルを選択して、AmazonS3からデータをインポートします。 両方のファイルをインポートすると、XNUMXつの別々のワークフローが表示されます。 データフロー ビュー。

データラングラーフローにデータをインポートするときに、いくつかのサンプリングオプションを選択できます。 サンプリングは、データセットが大きすぎてインタラクティブに準備できない場合、またはサンプリングされたデータセット内のまれなイベントの割合を保持したい場合に役立ちます。 データセットが小さいため、サンプリングは使用しません。

データを準備する

このユースケースでは、共通の列を持つXNUMXつのデータセットがあります。 id。 データ準備の最初のステップとして、これらのファイルを結合して結合します。 手順については、を参照してください。 データを変換する.

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

私たちは、使用 加入 データ変換ステップと使用 Inner(インナー) の参加タイプ id コラム。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

結合変換の結果として、DataWranglerはXNUMXつの追加の列を作成します。 id_0 & id_1。 ただし、これらの列は、モデル構築の目的には不要です。 これらの冗長な列を使用して削除します 列を管理する 変換ステップ。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。
コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

データセットをインポートして結合し、不要な列を削除しました。 これで、特徴エンジニアリングを通じてデータを充実させ、モデル構築の準備をする準備が整いました。

特徴エンジニアリングを実行する

データの作成にはデータラングラーを使用しました。 また、使用することができます データ品質とインサイトレポート機能 データラングラー内でデータ品質を検証し、データの異常を検出します。 データサイエンティストは、適切なドメイン知識をエンジニアリング機能に効率的に適用するために、これらのデータインサイトを使用する必要があることがよくあります。 この投稿では、これらの品質評価が完了し、特徴エンジニアリングに進むことができると想定しています。

このステップでは、数値、カテゴリ、およびテキストの列にいくつかの変換を適用します。

まず、金利を正規化して、0〜1の値をスケーリングします。 これは、 数値を処理する スケーリングするために変換します interest_rate 最小-最大スケーラーを使用したカラム。 正規化(または標準化)の目的は、モデルからバイアスを排除することです。 異なるスケールで測定された変数は、モデルの学習プロセスに等しく貢献しません。 したがって、最小-最大スケーラー変換のような変換関数は、機能の正規化に役立ちます。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

カテゴリ変数を数値に変換するには、ワンホットエンコーディングを使用します。 私たちは カテゴリをエンコードする 変換してから、 ワンホットエンコード。 ワンホットエンコーディングにより、MLモデルの予測能力が向上します。 このプロセスでは、フィーチャに1または0のバイナリ値を割り当てることにより、カテゴリ値を新しいフィーチャに変換します。 簡単な例として、次のいずれかの値を保持する列がXNUMXつある場合 yes or no、ワンホットエンコーディングは、その列をXNUMXつの列に変換します。 Yes 列と No 桁。 yesの値は、 Yes 列と0 No 桁。 ワンホットエンコーディングは、数値が予測の確率をより簡単に決定できるため、データをより有用にします。

最後に、 employer_title 文字列値を数値ベクトルに変換する列。 適用します カウントベクトライザー および内の標準トークナイザー ベクトル化する 変身。 トークン化は文または一連のテキストを単語に分解しますが、ベクトル化はテキストデータを機械可読形式に変換します。 これらの単語はベクトルとして表されます。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

すべての特徴エンジニアリングの手順が完了すると、データをエクスポートして結果をS3バケットに出力できます。 または、フローをPythonコード、またはJupyterノートブックとしてエクスポートして、を使用してビューでパイプラインを作成することもできます。 AmazonSageMakerパイプライン。 特徴エンジニアリングのステップを大規模に、またはMLパイプラインの一部として実行する場合は、これを考慮してください。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

これで、Canvasの入力としてDataWrangler出力ファイルを使用できます。 これをCanvasのデータセットとして参照して、MLモデルを構築します。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

この例では、準備したデータセットをデフォルトのStudioバケットにエクスポートしました。 output プレフィックス。 次にモデルを構築するためにデータをCanvasにロードするときに、このデータセットの場所を参照します。

Canvasを使用してMLモデルを構築およびトレーニングする

SageMakerコンソールで、Canvasアプリケーションを起動します。 前のセクションで準備したデータからMLモデルを構築するには、次の手順を実行します。

  1. 準備したデータセットをS3バケットからCanvasにインポートします。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

前のセクションのデータラングラーの結果をエクスポートしたのと同じS3パスを参照します。

  1. Canvasで新しいモデルを作成し、名前を付けます loan_prediction_model.
  2. インポートしたデータセットを選択して、モデルオブジェクトに追加します。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

Canvasにモデルを作成させるには、ターゲット列を選択する必要があります。

  1. 私たちの目標は、貸し手がローンを返済する能力の確率を予測することであるため、 loan_status コラム。

Canvasは、ML問題ステートメントのタイプを自動的に識別します。 執筆時点で、Canvasは回帰、分類、および時系列予測の問題をサポートしています。 問題のタイプを指定するか、Canvasにデータから問題を自動的に推測させることができます。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

  1. モデル構築プロセスを開始するオプションを選択します。 クイックビルド or 標準ビルド.

  クイックビルド オプションは、データセットを使用して2〜15分以内にモデルをトレーニングします。 これは、新しいデータセットを試して、使用しているデータセットが予測を行うのに十分かどうかを判断する場合に役立ちます。 この投稿にはこのオプションを使用します。

  標準ビルド オプションは速度よりも精度を選択し、約250のモデル候補を使用してモデルをトレーニングします。 このプロセスには通常1〜2時間かかります。

モデルが作成されたら、モデルの結果を確認できます。 Canvasは、モデルが82.9%の確率で正しい結果を予測できると推定しています。 トレーニングモデルのばらつきにより、実際の結果が異なる場合があります。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

さらに、モデルの詳細分析を深く掘り下げて、モデルの詳細を学ぶことができます。

特徴の重要度は、ターゲット列を予測する際の各特徴の推定重要度を表します。 この場合、クレジットラインの列は、顧客がローン金額を返済するかどうかを予測する上で最も重要な影響を及ぼし、次に金利と年収が続きます。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

の混同行列 高度な指標 このセクションには、モデルのパフォーマンスをより深く理解したいユーザー向けの情報が含まれています。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

実稼働ワークロード用にモデルをデプロイする前に、Canvasを使用してモデルをテストします。 Canvasはモデルエンドポイントを管理し、Canvasユーザーインターフェイスで直接予測を行うことができます。

  1. 選択する 予測する いずれかの調査結果を確認します バッチ予測 or 単一の予測 タブには何も表示されないことに注意してください。

次の例では、値を変更してターゲット変数を予測することにより、単一の予測を行います。 loan_status リアルタイムで

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

より大きなデータセットを選択して、Canvasに代わりにバッチ予測を生成させることもできます。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。

まとめ

エンドツーエンドの機械学習は複雑で反復的であり、多くの場合、複数のペルソナ、テクノロジー、プロセスが関係しています。 Data WranglerとCanvasを使用すると、これらのチームがコードを記述しなくても、チーム間のコラボレーションが可能になります。

データエンジニアは、コードを記述せずにData Wranglerを使用してデータを簡単に準備し、準備したデータセットをビジネスアナリストに渡すことができます。 ビジネスアナリストは、Canvasを使用して数回クリックするだけで、正確なMLモデルを簡単に構築し、リアルタイムまたはバッチで正確な予測を取得できます。

データラングラーを使い始める インフラストラクチャを管理せずにこれらのツールを使用します。 あなたはできる Canvasを設定する ビジネスニーズをサポートするMLモデルの作成を迅速かつ迅速に開始します。


著者について

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。ピーター・チョン はAWSのソリューションアーキテクトであり、お客様がデータから洞察を発見できるよう支援することに情熱を注いでいます。 彼は、組織が公共部門と民間部門の両方でデータ主導の意思決定を行うのに役立つソリューションを構築してきました。 彼は、すべてのAWS認定とXNUMXつのGCP認定を保持しています。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。 ミーナクシスンダラム・タンダヴァラヤン AWSのシニアAI/MLスペシャリストです。 彼は、AIとMLの旅でハイテク戦略アカウントを支援しています。 彼はデータ駆動型AIに非常に情熱を注いでいます。

コードPlatoBlockchainDataIntelligenceを使用せずに、AmazonSageMakerでリスク管理機械学習ワークフローを構築します。 垂直検索。 愛。ダン・ファーガソン は、米国ニューヨークを拠点とするAWSのソリューションアーキテクトです。 機械学習サービスの専門家として、ダンはMLワークフローを効率的、効果的、持続的に統合するための顧客のサポートに取り組んでいます。

タイムスタンプ:

より多くの AWS機械学習