本日、財務グラフ機械学習(ML)の新しいソリューションをリリースします。 Amazon SageMaker ジャンプスタート。 JumpStartは、MLの使用をすばやく開始するのに役立ち、数回クリックするだけでトレーニングおよび展開できる最も一般的なユースケースの一連のソリューションを提供します。
新しいJumpStartソリューション(グラフベースのクレジットスコアリング)は、SECファイリング(長い形式のテキストデータ)から企業ネットワークを構築し、これを財務比率(表形式データ)と組み合わせ、グラフニューラルネットワーク(GNN)を使用してクレジットを構築する方法を示しています格付け予測モデル。 この投稿では、この完全にカスタマイズ可能なソリューションをクレジットスコアリングに使用して、グラフのMLジャーニーを加速する方法について説明します。 グラフMLは、従来の表形式のデータセットと組み合わせてネットワークデータを使用できるため、財務MLにとって実り多い分野になりつつあります。 詳細については、を参照してください。 WSDMでのAmazon:グラフニューラルネットワークの未来.
ソリューションの概要
このソリューションではCorpNet(企業ネットワークの略)と呼ばれるグラフを作成できるビジネスリンケージのデータを活用することで、クレジットスコアを向上させることができます。 次に、このグラフのGNNとノードの表形式の機能セットを使用してグラフML分類を適用し、ネットワーク関係の情報をさらに活用して、より優れたMLモデルを構築できるかどうかを確認できます。 したがって、このソリューションは、サプライチェーン関係グラフやソーシャルネットワークグラフなどを使用するなど、ネットワークデータを活用するビジネスモデルのテンプレートを提供します。
このソリューションは、企業ネットワークを構築して合成財務データを生成することでいくつかの新しい成果物を開発し、両方の形式のデータを組み合わせてグラフMLを使用してモデルを作成します。
このソリューションは、SEC 10-K / QファイリングのMD&Aセクションを使用して、接続された企業のネットワークを構築する方法を示しています。 同様の将来の見通しに関する記述を持つ企業は、クレジットイベントにつながる可能性があります。 これらの接続はグラフで表されます。 グラフノード機能の場合、ソリューションはAltmanZスコアモデルの変数と各企業の業界カテゴリを使用します。 これらは、デモンストレーション目的で利用できるようになった合成データセットで提供されます。 グラフデータと表形式のデータは、GNNを使用して評価分類子を適合させるために使用されます。 説明のために、グラフ情報がある場合とない場合のモデルのパフォーマンスを比較します。
グラフベースのクレジットスコアリングソリューションを使用する
JumpStartの使用を開始するには、を参照してください。 AmazonSageMakerの使用を開始する。 グラフベースのクレジットスコアリングソリューションのJumpStartカードは、 Amazon SageMakerスタジオ.
このソリューションは、ノートブックで使用する推論とエンドポイントのモデルを生成します。
このノートブックを使用して、このソリューションの使用方法を学習し、自分のデータで他のアプリケーション用に変更することができます。 このソリューションには合成データが付属しており、そのサブセットを使用して、モデルをトレーニングし、エンドポイントにデプロイしてから、推論のためにエンドポイントを呼び出すために必要な手順を例示します。 ノートブックには、独自のエンドポイントをデプロイするためのコードも含まれています。
- XNUMX番目のノートブック(推論に使用)を開くには、 ノートブックでエンドポイントを使用する エンドポイントアーティファクトの横。
このノートブックでは、サンプルエンドポイントを呼び出してサンプルのバッチで推論を実行するためのデータを準備する方法を確認できます。
エンドポイントは、推論ノートブックの最後のコードブロックの次のスクリーンショットに示すように、モデルのパフォーマンスを評価するために使用される予測評価を返します。
このソリューションは、グラフで強化された信用格付けモデルのテンプレートとして使用できます。 この例の機能セットに制限されることはありません。独自のユースケースに合わせて、グラフデータと表形式データの両方を変更できます。 必要なコード変更の範囲は最小限です。 テンプレートの例を参考にしてソリューションの構造を理解し、必要に応じて変更することをお勧めします。
このソリューションは、説明のみを目的としています。 これは財務上のアドバイスではなく、財務上または投資上のアドバイスとして信頼されるべきではありません。 トレーニング済みモデルを含む関連するノートブックは、合成データを使用しており、本番環境での使用を目的としていません。 SECファイリングからのテキストが使用されますが、財務データは合成的かつランダムに生成され、企業の実際の財務とは関係ありません。 したがって、総合的に生成された格付けも、実際の企業の真の格付けとは何の関係もありません。
ソリューションで使用されるデータ
データセットには、さまざまな会計比率(数値)や業界コード(カテゴリ)などの合成表形式データが含まれています。 データセットには 𝑁=3286行。 評価ラベルも追加されます。 これらは、グラフMLで使用されるノード機能です。
データセットには、無向で重み付けされていない企業グラフも含まれています。 このソリューションでは、リンクを含める方法を変えることで、グラフの構造を調整できます。 表形式のデータセット内の各企業は、企業グラフのノードで表されます。 関数 construct_network_data()
ソースノードと宛先ノードのリストで構成されるグラフの作成に役立ちます。
格付けラベルは、GNNを使用した分類に使用されます。これは、投資適格債(AAA、AA、A、BBB)と非投資適格債(BB、B、CCC、CC、C、 D)。 ここでのDはデフォルトを表します。
データを読み込んでソリューションを実行するための完全なコードは、ソリューションノートブックに記載されています。 次のスクリーンショットは、合成表形式データの構造を示しています。
グラフ情報はに渡されます ディープグラフライブラリ 表形式のデータと組み合わせて、グラフMLを作成します。 独自のグラフを持参する場合は、ソースノードと宛先ノードのセットとしてグラフを提供するだけです。
モデルトレーニング
比較のために、最初に表形式のデータのみでモデルをトレーニングします。 オートグルオン、企業の信用格付けに対する従来のアプローチを模倣しています。 次に、グラフデータを追加し、トレーニングにGNNを使用します。 完全な詳細はノートブックに記載されており、簡単な概要がこの投稿に記載されています。 ノートブックには、選択した参照を含むグラフMLの概要も表示されます。
GNNのトレーニングは次のように行われます。 私たちはの適応を使用します GraphSAGEモデル ディープグラフライブラリに実装されています。
- からグラフデータを読み込む Amazon シンプル ストレージ サービス (Amazon S3)そして、CorpNetのソースノードリストと宛先ノードリストを作成します。
- グラフノードの機能セット(トレーニングとテスト)を読み込みます。 必要に応じてデータを正規化します。
- 調整可能なハイパーパラメータを設定します。 PyTorchを実行している特殊なグラフMLコンテナーを呼び出して、ハイパーパラメーター最適化(HPO)なしでGNNに適合させます。
- HPOでグラフMLを繰り返します。
実装を簡単で安定させるために、次のコードを使用してコンテナでモデルトレーニングを実行します(このトレーニングコードの前のセットアップコードはソリューションノートブックにあります)。
現在のトレーニングプロセスは、変換設定で行われ、テストデータセットの機能(ターゲット列を含まない)を使用してグラフが作成されるため、テストノードがトレーニングプロセスに含まれます。 トレーニングの最後に、テストデータセットの予測が生成され、に保存されます。 output_location
S3バケット内。
トレーニングは変換的ですが、テストデータセットのラベルはトレーニングに使用されません。この演習は、テストデータセットノードのノード埋め込みを使用してこれらのラベルを予測することを目的としています。 GraphSAGEの重要な機能は、このソリューションでは活用されていませんが、グラフの一部ではない新しい観測値の帰納的学習も可能であることです。
ハイパーパラメーターの最適化
このソリューションは、GNNでHPOを実行することによってさらに拡張されます。 これはSageMaker内で行われます。 次のコードを参照してください。
次に、この場合のF1スコアを最大化するために、トレーニング目標を設定します。
SageMakerで選択した環境とトレーニングリソースを確立します。
最後に、ハイパーパラメータ最適化を使用してトレーニングジョブを実行します。
結果
ネットワークデータとハイパーパラメータの最適化を含めると、結果が向上します。 次の表のパフォーマンスメトリックは、クレジットスコアリングに使用される標準の表形式のデータセットにCorpNetを追加することの利点を示しています。
AutoGluonの結果はグラフを使用せず、表形式のデータのみを使用します。 グラフデータを追加してHPOを使用すると、パフォーマンスが大幅に向上します。
F1スコア | ROCAUC | 正確さ | MCC | バランスの取れた精度 | 精度 | リコール | |
オートグルオン | 0.72 | 0.74323 | 0.68037 | 0.35233 | 0.67323 | 0.68528 | 0.75843 |
HPOなしのGCN | 0.64 | 0.84498 | 0.69406 | 0.45619 | 0.71154 | 0.88177 | 0.50281 |
HPOを使用したGCN | 0.81 | 0.87116 | 0.78082 | 0.563 | 0.77081 | 0.75119 | 0.89045 |
(注:MCCはマシューズ相関係数です。 https://en.wikipedia.org/wiki/Phi_coefficient.)
クリーンアップ
このノートブックの使用を終えたら、モデルの成果物やその他のリソースを削除して、追加料金が発生しないようにします。 モデルアーティファクトのS3バケット、トレーニングデータセット、アーティファクトの処理など、ノートブックの実行中に作成した可能性のあるリソースを手動で削除する必要があります。 アマゾンクラウドウォッチ ロググループ。
まとめ
この投稿では、JumpStartにグラフベースのクレジットスコアリングソリューションを紹介し、グラフのMLジャーニーを加速するのに役立てています。 ノートブックは、既存の表形式モデルを使用してグラフを変更および活用して、パフォーマンスを向上させることができるパイプラインを提供します。
開始するには、JumpStartのグラフベースのクレジットスコアリングソリューションを見つけることができます。 SageMaker スタジオ.
著者について
サンジブ・ダス博士 アマゾンの学者であり、サンタクララ大学の財務およびデータサイエンスのテリー教授です。 彼は、財務(ニューヨーク大学でM.PhilとPh.D.)とコンピューターサイエンス(UC BerkeleyでMS)の大学院の学位を取得し、アーメダバードのインド経営研究所でMBAを取得しています。 学者になる前は、シティバンクの副社長としてアジア太平洋地域のデリバティブビジネスに従事していました。 彼は金融アプリケーションの分野でマルチモーダル機械学習に取り組んでいます。
XinHuang博士 の応用科学者です Amazon SageMaker ジャンプスタート および AmazonSageMakerの組み込みアルゴリズム。 彼はスケーラブルな機械学習アルゴリズムの開発に焦点を当てています。 彼の研究対象は、自然言語処理、表形式データの深層学習、およびノンパラメトリック時空間クラスタリングの堅牢な分析の分野です。
アデシナ宗司 AWSの応用科学者であり、詐欺や乱用、知識グラフ、レコメンダーシステム、ライフサイエンスへのアプリケーションを使用して、グラフタスクで機械学習を行うためのグラフニューラルネットワークベースのモデルを開発しています。 暇なときは、読書や料理を楽しんでいます。
パトリック・ヤン はAmazonSageMakerのソフトウェア開発エンジニアです。 彼は、顧客向けの機械学習ツールと製品の構築に注力しています。
- "
- 100
- 70
- 9
- 加速する
- 会計
- アドバイス
- アルゴリズム
- すべて
- しかし
- Amazon
- 分析
- アプローチ
- 建築
- AREA
- 周りに
- 利用できます
- AWS
- になる
- さ
- 恩恵
- バークリー
- ブロック
- 国境
- ビルド
- 建物
- 内蔵
- ビジネス
- コール
- 例
- カテゴリー
- チェーン
- 変化する
- 課金
- 選択する
- 分類
- コード
- コラム
- 組み合わせた
- コマンドと
- 企業
- 会社
- 会社の
- コンピュータ
- コンピュータサイエンス
- 交流
- Connections
- コンテナ
- 含まれています
- 企業
- 作ります
- 作成した
- クレジット
- 電流プローブ
- Customers
- カスタマイズ可能な
- データ
- データサイエンス
- 実証します
- 展開します
- 展開
- 展開
- デリバティブ
- 細部
- 開発
- 開発
- ダイナミック
- エンドポイント
- エンジニア
- 環境
- イベント
- 例
- 運動
- 既存の
- 悪用する
- 特徴
- 特徴
- ファイナンス
- ファイナンシャル
- 財務データ
- 財務
- 会社
- 名
- フィット
- 焦点を当てて
- フォロー中
- フォーム
- 将来を見据えた
- 詐欺
- フル
- function
- さらに
- 未来
- 生成
- グループの
- 高さ
- 助けます
- ことができます
- こちら
- 保持している
- 認定条件
- How To
- HTTPS
- 実装
- 実装
- 重要
- 改善します
- 改善されました
- 含まれました
- 含めて
- 包含
- 産業を変えます
- 情報
- 利益
- 投資
- IT
- ジョブ
- Jobs > Create New Job
- 知識
- ラベル
- 言語
- LEARN
- 学習
- 図書館
- 生命科学
- 可能性が高い
- リンク
- リスト
- 機械
- 機械学習
- 製
- 管理
- 手動で
- 材料
- メトリック
- ML
- モデル
- モニター
- 他には?
- 最も
- ナチュラル
- ネットワーク
- ネットワークデータ
- ネットワークベース
- ネットワーク
- ニューヨーク
- ノード
- ノート
- 提供
- オファー
- 開いた
- 最適化
- その他
- 自分の
- パフォーマンス
- プール
- 可能
- 予測
- 予測
- 準備
- 社長
- 前
- プロセス
- 処理
- 生産
- 製品
- は、大阪で
- 目的
- 目的
- クイック
- すぐに
- 評価
- 評価
- リーディング
- 推奨する
- 関係
- の関係
- の提出が必要です
- 研究
- リソース
- 結果
- 収益
- ラン
- ランニング
- サンタ
- ド電源のデ
- 科学
- 科学
- 科学者
- を検索
- SEC
- 選択
- セッションに
- 設定
- ショート
- 同様の
- 簡単な拡張で
- So
- 社会
- 社会的ネットワーク
- ソフトウェア
- ソフトウェア開発
- 固体
- 溶液
- ソリューション
- 専門の
- 標準
- スタンド
- start
- 開始
- 文
- Status:
- ストレージ利用料
- 首尾よく
- 供給
- サプライチェーン
- システム
- ターゲット
- タスク
- test
- ソース
- したがって、
- 介して
- 時間
- 豊富なツール群
- 伝統的な
- トレーニング
- わかる
- 大学
- つかいます
- さまざまな
- 副会長
- while
- Wikipedia
- 以内
- 無し
- 仕事
- 働いていました
- ワーキング
- 作品