世界的な金融危機以来、リスク管理は、潜在的な顧客の融資状況を予測することを含め、銀行の意思決定を形作る上で主要な役割を果たしてきました。 これは多くの場合、機械学習(ML)を必要とするデータ集約型の演習です。 ただし、すべての組織がリスク管理MLワークフローを構築するためのデータサイエンスリソースと専門知識を持っているわけではありません。
アマゾンセージメーカー はフルマネージドのMLプラットフォームであり、データエンジニアやビジネスアナリストがMLモデルをすばやく簡単に構築、トレーニング、デプロイできるようにします。 データエンジニアとビジネスアナリストは、SageMakerのノーコード/ローコード機能を使用して共同作業を行うことができます。 データエンジニアは使用できます AmazonSageMakerデータラングラー コードを記述せずに、モデル構築用のデータをすばやく集約して準備します。 次に、ビジネスアナリストは、の視覚的なポイントアンドクリックインターフェイスを使用できます。 Amazon SageMaker キャンバス 独自に正確なML予測を生成します。
この投稿では、データエンジニアとビジネスアナリストが協力して、コードを記述せずにデータの準備、モデルの構築、推論を含むMLワークフローを構築することがいかに簡単であるかを示します。
ソリューションの概要
ML開発は複雑で反復的なプロセスですが、MLワークフローをデータ準備、モデル開発、モデル展開の各段階に一般化することができます。
Data WranglerとCanvasは、データの準備とモデル開発の複雑さを抽象化するため、コード開発の専門家でなくても、データから洞察を引き出すことで、ビジネスに価値を提供することに集中できます。 次のアーキテクチャ図は、ノーコード/ローコードソリューションのコンポーネントを示しています。
Amazon シンプル ストレージ サービス (Amazon S3)は、生データ、エンジニアリングデータ、モデルアーティファクトのデータリポジトリとして機能します。 からデータをインポートすることもできます Amazonレッドシフト, アマゾンアテナ、Databricks、およびSnowflake。
次に、データサイエンティストとして、探索的データ分析と特徴エンジニアリングにデータラングラーを使用します。 Canvasは特徴エンジニアリングタスクを実行できますが、特徴エンジニアリングでは通常、データセットをモデル開発に適した形式に強化するために、統計およびドメインの知識が必要です。 したがって、データエンジニアがデータラングラーでコードを記述せずにデータを変換できるように、この責任をデータエンジニアに与えます。
データの準備後、モデル構築の責任をデータアナリストに渡します。データアナリストは、Canvasを使用して、コードを記述せずにモデルをトレーニングできます。
最後に、モデルエンドポイントを自分でデプロイすることなく、結果のモデルからCanvas内で直接単一およびバッチ予測を行います。
データセットの概要
SageMakerの機能を使用して、LendingClubの修正バージョンを使用してローンのステータスを予測します。 公開されているローン分析データセット。 データセットには、2007年から2011年までに発行されたローンのローンデータが含まれています。 ローンと借り手を説明する列が私たちの特徴です。 列loan_statusはターゲット変数であり、これが予測しようとしているものです。
データラングラーで示すために、データセットをXNUMXつのCSVファイルに分割します。 パート1 & パート2。 デモを簡素化するために、LendingClubの元のデータセットからいくつかの列を削除しました。 次の表に示すように、データセットには37,000を超える行と21の機能列が含まれています。
列名 | 説明 |
loan_status |
ローンの現在のステータス(ターゲット変数)。 |
loan_amount |
借り手が申請したローンの記載金額。 与信部門が融資額を減らす場合、それはこの値に反映されます。 |
funded_amount_by_investors |
その時点でそのローンに対して投資家がコミットした合計金額。 |
term |
ローンの支払い回数。 値は月単位で、36または60のいずれかになります。 |
interest_rate |
ローンの利率。 |
installment |
ローンが発生した場合に借り手が支払うべき毎月の支払い。 |
grade |
LCはローングレードを割り当てました。 |
sub_grade |
LCはローンの路床を割り当てました。 |
employment_length |
年単位の雇用期間。 可能な値は0〜10の間です。ここで、0は10年未満を意味し、XNUMXはXNUMX年以上を意味します。 |
home_ownership |
登録時に借り手から提供された住宅所有状況。 私たちの価値観は、RENT、OWN、MORTGAGE、およびOTHERです。 |
annual_income |
登録時に借り手から提供された自己申告による年収。 |
verification_status |
収入がLCによって確認されたかどうかを示します。 |
issued_amount |
ローンが資金提供された月。 |
purpose |
ローン要求に対して借り手が提供するカテゴリ。 |
dti |
住宅ローンと要求されたLCローンを除く、債務総額に対する借り手の毎月の債務返済総額を、借り手の自己申告による月収で割って計算された比率。 |
earliest_credit_line |
借り手の最も早く報告されたクレジットラインが開設された月。 |
inquiries_last_6_months |
過去6か月間の問い合わせ件数(自動車および住宅ローンの問い合わせを除く)。 |
open_credit_lines |
借り手のクレジットファイルで開いているクレジットラインの数。 |
derogatory_public_records |
蔑称的な公共記録の数。 |
revolving_line_utilization_rate |
リボルビングラインの利用率、または利用可能なすべてのリボルビングクレジットに対する借り手が使用しているクレジットの量。 |
total_credit_lines |
借り手のクレジットファイルに現在あるクレジットラインの総数。 |
このデータセットは、データの準備とモデルのトレーニングに使用します。
前提条件
次の前提条件の手順を実行します。
- 両方のローンファイルをアップロードする 選択したS3バケットに。
- 必要な権限があることを確認してください。 詳細については、を参照してください。 データラングラーの使用を開始する.
- DataWranglerを使用するように設定されたSageMakerドメインをセットアップします。 手順については、を参照してください。 AmazonSageMakerドメインにオンボード.
データをインポートする
新しいデータラングラーデータフローを作成する Amazon SageMaker スタジオ UI.
データセットを配置したS3バケットからCSVファイルを選択して、AmazonS3からデータをインポートします。 両方のファイルをインポートすると、XNUMXつの別々のワークフローが表示されます。 データフロー ビュー。
データラングラーフローにデータをインポートするときに、いくつかのサンプリングオプションを選択できます。 サンプリングは、データセットが大きすぎてインタラクティブに準備できない場合、またはサンプリングされたデータセット内のまれなイベントの割合を保持したい場合に役立ちます。 データセットが小さいため、サンプリングは使用しません。
データを準備する
このユースケースでは、共通の列を持つXNUMXつのデータセットがあります。 id
。 データ準備の最初のステップとして、これらのファイルを結合して結合します。 手順については、を参照してください。 データを変換する.
私たちは、使用 加入 データ変換ステップと使用 Inner(インナー) の参加タイプ id
コラム。
結合変換の結果として、DataWranglerはXNUMXつの追加の列を作成します。 id_0
& id_1
。 ただし、これらの列は、モデル構築の目的には不要です。 これらの冗長な列を使用して削除します 列を管理する 変換ステップ。
データセットをインポートして結合し、不要な列を削除しました。 これで、特徴エンジニアリングを通じてデータを充実させ、モデル構築の準備をする準備が整いました。
特徴エンジニアリングを実行する
データの作成にはデータラングラーを使用しました。 また、使用することができます データ品質とインサイトレポート機能 データラングラー内でデータ品質を検証し、データの異常を検出します。 データサイエンティストは、適切なドメイン知識をエンジニアリング機能に効率的に適用するために、これらのデータインサイトを使用する必要があることがよくあります。 この投稿では、これらの品質評価が完了し、特徴エンジニアリングに進むことができると想定しています。
このステップでは、数値、カテゴリ、およびテキストの列にいくつかの変換を適用します。
まず、金利を正規化して、0〜1の値をスケーリングします。 これは、 数値を処理する スケーリングするために変換します interest_rate
最小-最大スケーラーを使用したカラム。 正規化(または標準化)の目的は、モデルからバイアスを排除することです。 異なるスケールで測定された変数は、モデルの学習プロセスに等しく貢献しません。 したがって、最小-最大スケーラー変換のような変換関数は、機能の正規化に役立ちます。
カテゴリ変数を数値に変換するには、ワンホットエンコーディングを使用します。 私たちは カテゴリをエンコードする 変換してから、 ワンホットエンコード。 ワンホットエンコーディングにより、MLモデルの予測能力が向上します。 このプロセスでは、フィーチャに1または0のバイナリ値を割り当てることにより、カテゴリ値を新しいフィーチャに変換します。 簡単な例として、次のいずれかの値を保持する列がXNUMXつある場合 yes
or no
、ワンホットエンコーディングは、その列をXNUMXつの列に変換します。 Yes
列と No
桁。 yesの値は、 Yes
列と0 No
桁。 ワンホットエンコーディングは、数値が予測の確率をより簡単に決定できるため、データをより有用にします。
最後に、 employer_title
文字列値を数値ベクトルに変換する列。 適用します カウントベクトライザー および内の標準トークナイザー ベクトル化する 変身。 トークン化は文または一連のテキストを単語に分解しますが、ベクトル化はテキストデータを機械可読形式に変換します。 これらの単語はベクトルとして表されます。
すべての特徴エンジニアリングの手順が完了すると、データをエクスポートして結果をS3バケットに出力できます。 または、フローをPythonコード、またはJupyterノートブックとしてエクスポートして、を使用してビューでパイプラインを作成することもできます。 AmazonSageMakerパイプライン。 特徴エンジニアリングのステップを大規模に、またはMLパイプラインの一部として実行する場合は、これを考慮してください。
これで、Canvasの入力としてDataWrangler出力ファイルを使用できます。 これをCanvasのデータセットとして参照して、MLモデルを構築します。
この例では、準備したデータセットをデフォルトのStudioバケットにエクスポートしました。 output
プレフィックス。 次にモデルを構築するためにデータをCanvasにロードするときに、このデータセットの場所を参照します。
Canvasを使用してMLモデルを構築およびトレーニングする
SageMakerコンソールで、Canvasアプリケーションを起動します。 前のセクションで準備したデータからMLモデルを構築するには、次の手順を実行します。
- 準備したデータセットをS3バケットからCanvasにインポートします。
前のセクションのデータラングラーの結果をエクスポートしたのと同じS3パスを参照します。
- Canvasで新しいモデルを作成し、名前を付けます
loan_prediction_model
. - インポートしたデータセットを選択して、モデルオブジェクトに追加します。
Canvasにモデルを作成させるには、ターゲット列を選択する必要があります。
- 私たちの目標は、貸し手がローンを返済する能力の確率を予測することであるため、
loan_status
コラム。
Canvasは、ML問題ステートメントのタイプを自動的に識別します。 執筆時点で、Canvasは回帰、分類、および時系列予測の問題をサポートしています。 問題のタイプを指定するか、Canvasにデータから問題を自動的に推測させることができます。
- モデル構築プロセスを開始するオプションを選択します。 クイックビルド or 標準ビルド.
クイックビルド オプションは、データセットを使用して2〜15分以内にモデルをトレーニングします。 これは、新しいデータセットを試して、使用しているデータセットが予測を行うのに十分かどうかを判断する場合に役立ちます。 この投稿にはこのオプションを使用します。
標準ビルド オプションは速度よりも精度を選択し、約250のモデル候補を使用してモデルをトレーニングします。 このプロセスには通常1〜2時間かかります。
モデルが作成されたら、モデルの結果を確認できます。 Canvasは、モデルが82.9%の確率で正しい結果を予測できると推定しています。 トレーニングモデルのばらつきにより、実際の結果が異なる場合があります。
さらに、モデルの詳細分析を深く掘り下げて、モデルの詳細を学ぶことができます。
特徴の重要度は、ターゲット列を予測する際の各特徴の推定重要度を表します。 この場合、クレジットラインの列は、顧客がローン金額を返済するかどうかを予測する上で最も重要な影響を及ぼし、次に金利と年収が続きます。
の混同行列 高度な指標 このセクションには、モデルのパフォーマンスをより深く理解したいユーザー向けの情報が含まれています。
実稼働ワークロード用にモデルをデプロイする前に、Canvasを使用してモデルをテストします。 Canvasはモデルエンドポイントを管理し、Canvasユーザーインターフェイスで直接予測を行うことができます。
- 選択する 予測する いずれかの調査結果を確認します バッチ予測 or 単一の予測 タブには何も表示されないことに注意してください。
次の例では、値を変更してターゲット変数を予測することにより、単一の予測を行います。 loan_status
リアルタイムで
より大きなデータセットを選択して、Canvasに代わりにバッチ予測を生成させることもできます。
まとめ
エンドツーエンドの機械学習は複雑で反復的であり、多くの場合、複数のペルソナ、テクノロジー、プロセスが関係しています。 Data WranglerとCanvasを使用すると、これらのチームがコードを記述しなくても、チーム間のコラボレーションが可能になります。
データエンジニアは、コードを記述せずにData Wranglerを使用してデータを簡単に準備し、準備したデータセットをビジネスアナリストに渡すことができます。 ビジネスアナリストは、Canvasを使用して数回クリックするだけで、正確なMLモデルを簡単に構築し、リアルタイムまたはバッチで正確な予測を取得できます。
データラングラーを使い始める インフラストラクチャを管理せずにこれらのツールを使用します。 あなたはできる Canvasを設定する ビジネスニーズをサポートするMLモデルの作成を迅速かつ迅速に開始します。
著者について
ピーター・チョン はAWSのソリューションアーキテクトであり、お客様がデータから洞察を発見できるよう支援することに情熱を注いでいます。 彼は、組織が公共部門と民間部門の両方でデータ主導の意思決定を行うのに役立つソリューションを構築してきました。 彼は、すべてのAWS認定とXNUMXつのGCP認定を保持しています。
ミーナクシスンダラム・タンダヴァラヤン AWSのシニアAI/MLスペシャリストです。 彼は、AIとMLの旅でハイテク戦略アカウントを支援しています。 彼はデータ駆動型AIに非常に情熱を注いでいます。
ダン・ファーガソン は、米国ニューヨークを拠点とするAWSのソリューションアーキテクトです。 機械学習サービスの専門家として、ダンはMLワークフローを効率的、効果的、持続的に統合するための顧客のサポートに取り組んでいます。
- "
- 000
- 10
- 100
- 私たちについて
- 抽象
- 正確な
- 添加
- NEW
- AI
- すべて
- しかし
- Amazon
- 量
- 分析
- アナリスト
- 毎年恒例の
- 申し込み
- 申し込む
- 約
- 建築
- 割り当てられた
- オート
- 利用できます
- AWS
- 銀行
- さ
- 国境
- 休憩
- ビルド
- 建物
- ビジネス
- 候補
- キャンバス
- 機能
- カテゴリー
- 選択
- 選択する
- 分類
- コード
- 協力します
- 環境、テクノロジーを推奨
- コラム
- コミットした
- コマンドと
- 複雑な
- 複雑さ
- 混乱
- 領事
- 含まれています
- 貢献する
- 作ります
- 作成します。
- 作成
- クレジット
- 危機
- 現在
- 顧客
- Customers
- データ
- データ分析
- データサイエンス
- 借金
- 決定
- より深い
- 配信する
- 実証します
- 展開します
- 展開
- 記載された
- 細部
- 決定する
- 開発
- 異なります
- 直接に
- ドメイン
- ダウン
- 描画
- Drop
- 間に
- 簡単に
- 効率良く
- 排除する
- enable
- エンドポイント
- エンジニア
- エンジニアリング
- エンジニア
- 推定
- 見積もり
- イベント
- 例
- 運動
- エキスパート
- 専門知識
- 特徴
- 特徴
- ファイナンシャル
- 経済危機
- 名
- フロー
- フォーカス
- フォロー中
- フォーム
- function
- 積立
- 生成する
- グローバル
- 目標
- 持って
- 高さ
- 助けます
- 助け
- ことができます
- 保持している
- ホーム
- 認定条件
- しかしながら
- HTTPS
- 影響
- 重要性
- インポート
- 含めて
- 所得
- 情報
- インフラ
- 洞察
- 関心
- インタフェース
- 主要株主
- IT
- join
- 参加した
- 旅
- 知識
- 大
- より大きい
- 起動する
- LEARN
- 学習
- 貸し出し
- LINE
- リストされた
- ローディング
- ローン
- 場所
- 機械
- 機械学習
- 主要な
- 作る
- 管理します
- マネージド
- 管理
- マトリックス
- 手段
- ML
- モデル
- 月
- ヶ月
- 他には?
- 最も
- の試合に
- 必要
- ニーズ
- ニューヨーク
- ノート
- 数
- 義務
- 開いた
- オプション
- オプション
- 組織
- その他
- 自分の
- 所有権
- 部
- 情熱的な
- 支払う
- 支払い
- 支払い
- パフォーマンス
- プラットフォーム
- 可能
- 潜在的な
- 予測する
- 予測
- 予測
- 準備
- 前
- プライベート
- 問題
- 問題
- プロセス
- ラボレーション
- 生産
- 公共
- 目的
- 目的
- 品質
- クイック
- すぐに
- Raw
- 記録
- 参加申し込み
- 家賃
- レポート
- 倉庫
- で表さ
- 表し
- 要求
- 必要
- リソース
- 責任
- 責任
- 結果
- レビュー
- リスク
- リスク管理
- ラン
- 規模
- 科学
- 科学者たち
- セクター
- シリーズ
- サービス
- いくつかの
- 重要
- 簡単な拡張で
- 小さい
- So
- 固体
- 溶液
- ソリューション
- 一部
- 専門家
- スピード
- split
- ステージ
- 標準
- start
- 開始
- ステートメント
- 統計的
- Status:
- ストレージ利用料
- 戦略的
- 研究
- サポート
- サポート
- ターゲット
- タスク
- テクノロジー
- test
- したがって、
- 介して
- 時間
- トークン化
- 豊富なツール群
- トレーニング
- 最適化の適用
- 変換
- 理解する
- us
- USA
- つかいます
- users
- 通常
- 値
- 確認する
- バージョン
- 詳しく見る
- この試験は
- 誰
- 以内
- 無し
- 言葉
- 作品
- でしょう
- 書き込み
- 年
- 年