GraphStorm を使用したグラフ ML の高速化: エンタープライズ規模のグラフの問題を解決する新しい方法

プラトン再発行

フォロワー： 0

のオープンソースリリースを発表できることを嬉しく思います。グラフストーム 0.1 は、エンタープライズ規模の複雑なグラフ上でグラフ ML ソリューションを数か月ではなく数日で構築、トレーニング、デプロイするためのローコードエンタープライズグラフ機械学習 (ML) フレームワークです。 GraphStorm を使用すると、不正検出シナリオ、推奨事項、コミュニティ検出、検索/取得の問題など、ほとんどの実世界のデータに本質的に埋め込まれている数十億のエンティティ間の関係や相互作用の構造を直接考慮したソリューションを構築できます。

これまで、数十億のノード、数千億のエッジ、数十の属性を簡単に持つ複雑なエンタープライズグラフ向けのグラフ ML ソリューションを構築、トレーニング、デプロイするのは非常に難しいことで知られていました。Amazon.com の商品をキャプチャしたグラフを想像してみてください。、製品の属性、顧客など。 GraphStorm では、大規模なグラフ ML ソリューションを本番環境に導入するために Amazon が内部で使用するツールをリリースします。 GraphStorm はグラフ ML の専門家である必要はなく、GitHub の Apache v2.0 ライセンスに基づいて利用できます。 GraphStorm について詳しくは、次のサイトをご覧ください。 GitHubリポジトリ.

この投稿では、GraphStorm の概要、そのアーキテクチャ、およびその使用方法のサンプルケースを紹介します。

GraphStorm の紹介

グラフアルゴリズムとグラフ ML は、トランザクションリスクの予測、顧客の好みの予測、侵入の検出、サプライチェーンの最適化、ソーシャルネットワーク分析、トラフィック予測など、多くの重要なビジネス上の問題に対する最先端のソリューションとして登場しつつあります。例えば、アマゾンガードデューティは、ネイティブ AWS 脅威検出サービスであり、数十億のエッジを含むグラフを使用して、脅威インテリジェンスの範囲と精度を向上させています。これにより、GuardDuty は、既知の悪意のあるドメインとの関連性に基づいて、これまで確認されていなかったドメインを悪意のあるドメインまたは良性である可能性が高いものとして分類できます。グラフニューラルネットワーク (GNN) を使用することで、GuardDuty は顧客に警告する機能を強化できます。

ただし、グラフ ML ソリューションの開発、立ち上げ、運用には数か月かかり、グラフ ML の専門知識が必要です。最初のステップとして、グラフ ML サイエンティストは、Deep Graph Library (DGL) などのフレームワークを使用して、特定のユースケースのグラフ ML モデルを構築する必要があります。このようなモデルのトレーニングは、数十億のノード、数千億のエッジ、さまざまなノードとエッジの種類、数百のノードとエッジの属性に日常的に到達するエンタープライズアプリケーションのグラフのサイズと複雑さのため、困難です。エンタープライズグラフにはテラバイト規模のメモリストレージが必要になる場合があり、グラフ ML サイエンティストは複雑なトレーニングパイプラインを構築する必要があります。最後に、モデルをトレーニングした後、推論のためにモデルをデプロイする必要があります。これには、トレーニングパイプラインと同じくらい構築が難しい推論パイプラインが必要です。

GraphStorm 0.1 は、ローコードのエンタープライズグラフ ML フレームワークで、ML 実践者が効果的であることが証明されている事前定義されたグラフ ML モデルを簡単に選択し、数十億のノードを含むグラフで分散トレーニングを実行し、そのモデルを実稼働環境にデプロイできるようにします。 GraphStorm は、異種グラフを使用するエンタープライズアプリケーション向けに、リレーショナルグラフ畳み込みネットワーク (RGCN)、リレーショナルグラフアテンションネットワーク (RGAT)、異種グラフトランスフォーマー (HGT) などの組み込みグラフ ML モデルのコレクションを提供します。これにより、ML エンジニアはほとんどの労力を必要とせずに済みます。 ML の専門知識をグラフ化して、タスクに応じてさまざまなモデルソリューションを試し、適切なソリューションを迅速に選択します。エンドツーエンドの分散トレーニングおよび推論パイプラインは、数十億規模のエンタープライズグラフに拡張できるため、推論のトレーニング、デプロイ、実行が容易になります。 GraphStorm やグラフ ML 全般を初めて使用する場合は、事前定義されたモデルとパイプラインの恩恵を受けることができます。あなたがエキスパートであれば、最高のパフォーマンスを得るためにトレーニングパイプラインとモデルアーキテクチャを調整するためのあらゆるオプションがあります。 GraphStorm は、GNN モデル開発用の広く普及しているフレームワークである DGL 上に構築されており、Apache v2.0 ライセンスの下でオープンソースコードとして利用できます。

「GraphStorm は、顧客が業界アプリケーション向けにグラフ ML 手法を実験および運用し、グラフ ML の導入を加速できるように設計されています」と、Amazon AI/ML 研究の上級主席研究員である George Karypis 氏は述べています。「Amazon 内でのリリース以来、GraphStorm はグラフ ML ベースのソリューションを構築する労力を最大 XNUMX 分の XNUMX に削減しました。」

「GraphStorm を使用すると、私たちのチームは、288 億 2 万のノードと 24 億のエッジを持つグラフ上で、自己教師型の方法で GNN 埋め込みをトレーニングできるようになります」と、Amazon Measurement、Ad Tech、および Data Science の主任応用科学者である Haining Yu 氏は述べています。「事前トレーニングされた GNN 埋め込みは、買い物客の活動予測タスクにおいて、最先端の BERT ベースのベースラインと比較して XNUMX% の改善を示しています。また、他の広告アプリケーションのベンチマークパフォーマンスも上回っています。」

「GraphStorm が登場する前は、顧客は 500 億エッジのグラフを処理するために垂直方向にしかスケールできませんでした」と、Amazon Neptune および Amazon Timestream のゼネラルマネージャーである Brad Bebee 氏は述べています。「GraphStorm を使用すると、顧客は数百億のエッジを持つ大規模な Amazon Neptune グラフ上で GNN モデルのトレーニングをスケーリングできます。」

GraphStorm の技術アーキテクチャ

次の図は、GraphStorm の技術アーキテクチャを示しています。

GraphStorm を使用した高速グラフ ML: エンタープライズ規模のグラフの問題を解決する新しい方法 |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

GraphStorm は PyTorch 上に構築されており、単一 GPU、複数 GPU、および複数 GPU マシン上で実行できます。これは XNUMX つのレイヤーで構成されます (上の図の黄色のボックスでマークされています)。

最下層 (Dist GraphEngine) – 最下層は、分散グラフ、分散テンソル、分散エンベディング、分散サンプラーなど、分散グラフ ML を有効にする基本コンポーネントを提供します。 GraphStorm は、グラフ ML トレーニングを XNUMX 億ノードのグラフに拡張するためのこれらのコンポーネントの効率的な実装を提供します。
中間層 (GS トレーニング/推論パイプライン) – 中間層は、組み込みモデルとカスタムモデルの両方のモデルのトレーニングと推論を簡素化するためのトレーナー、評価者、予測子を提供します。基本的に、このレイヤーの API を使用することで、モデルのトレーニングをどのようにスケールするかを気にすることなく、モデルの開発に集中できます。
最上層（GS一般模型動物園） – 最上層は、さまざまなグラフタイプの人気のある GNN モデルと非 GNN モデルを備えたモデル動物園です。この記事の執筆時点では、異種グラフには RGCN、RGAT、HGT が、テキストグラフには BERTGNN が提供されています。将来的には、時相グラフ用の TGAT やナレッジグラフ用の TransE や DistMult などの時相グラフモデルのサポートを追加する予定です。

グラフストームの使い方

GraphStorm をインストールした後、アプリケーション用の GML モデルを構築およびトレーニングするために必要な手順は XNUMX つだけです。

まず、データ (カスタム特徴エンジニアリングを含む可能性があります) を前処理し、GraphStorm で必要なテーブル形式に変換します。ノードタイプごとに、そのタイプのすべてのノードとその機能をリストするテーブルを定義し、各ノードに一意の ID を提供します。エッジタイプごとに、各行にそのタイプのエッジの送信元ノード ID と宛先ノード ID が含まれるテーブルを同様に定義します (詳細については、「独自のデータを使用するチュートリアル）。さらに、全体的なグラフ構造を記述する JSON ファイルを提供します。

XNUMX 番目に、コマンドラインインターフェイス (CLI) を介して、GraphStorm の組み込み construct_graph 一部の GraphStorm 固有のデータ処理用コンポーネント。これにより、効率的な分散トレーニングと推論が可能になります。

XNUMX 番目に、YAML ファイルでモデルとトレーニングを構成します (例) そして、再び CLI を使用して、XNUMX つの組み込みコンポーネント (gs_node_classification, gs_node_regression, gs_edge_classification, gs_edge_regression, gs_link_prediction) モデルをトレーニングするためのトレーニングパイプラインとして使用します。このステップにより、トレーニングされたモデルアーティファクトが生成されます。推論を行うには、最初の XNUMX つの手順を繰り返して、同じ GraphStorm コンポーネント (construct_graph）従来通り。

最後に、モデルのトレーニングに使用されたものと同じ XNUMX つの組み込みコンポーネントの XNUMX つを推論パイプラインとして呼び出して、エンベディングまたは予測結果を生成できます。

全体的なフローは次の図にも示されています。

次のセクションでは、使用例を示します。

生の OAG データを予測する

この投稿では、GraphStorm を使用して、大規模な生データセット上でグラフ ML トレーニングと推論をいかに簡単に実現できるかを示します。のアカデミックグラフを開く (OAG) には 500 つのエンティティ (論文、著者、会場、所属、研究分野) が含まれています。生のデータセットは、XNUMX GB を超える JSON ファイルに保存されます。

私たちの仕事は、論文の研究分野を予測するモデルを構築することです。研究分野を予測するには、それを複数ラベルの分類タスクとして定式化できますが、フィールドが数十万あるため、ワンホットエンコーディングを使用してラベルを保存するのは困難です。したがって、フィールドオブスタディノードを作成し、この問題をリンク予測タスクとして定式化し、ペーパーノードがどのフィールドオブスタディノードに接続するかを予測する必要があります。

グラフ手法を使用してこのデータセットをモデル化するには、最初のステップとしてデータセットを処理し、エンティティとエッジを抽出します。次の図に示すように、JSON ファイルから XNUMX 種類のエッジを抽出してグラフを定義できます。 GraphStorm で Jupyter ノートブックを使用できますコード例データセットを処理し、エンティティタイプごとに XNUMX つのエンティティテーブルと、エッジタイプごとに XNUMX つのエッジテーブルを生成します。 Jupyter ノートブックは、論文などのテキストデータを含むエンティティに BERT 埋め込みも生成します。

エンティティとエンティティ間のエッジを定義した後、 mag_bert.json、グラフスキーマを定義し、組み込みのグラフ構築パイプラインを呼び出します construct_graph GraphStorm でグラフを構築します (次のコードを参照)。 GraphStorm グラフ構築パイプラインは単一マシンで実行されますが、ノードとエッジフィーチャを並行して処理するマルチ処理をサポートしています (--num_processes) エンティティとエッジのフィーチャを外部メモリに保存できます (--ext-mem-workspace) 大規模なデータセットに拡張します。

python3 -m graphstorm.gconstruct.construct_graph --num-processes 16 --output-dir /data/oagv2.1/mag_bert_constructed --graph-name mag --num-partitions 4 --skip-nonexist-edges --ext-mem-workspace /mnt/raid0/tmp_oag --ext-mem-feat-size 16 --conf-file mag_bert.json

このような大きなグラフを処理するには、グラフを構築するための大容量メモリ CPU インスタンスが必要です。使用できますアマゾンエラスティックコンピューティングクラウド (Amazon EC2) r6id.32xlarge インスタンス (128 vCPU および 1 TB RAM) または r6a.48xlarge インスタンス (192 vCPU および 1.5 TB RAM) を使用して OAG グラフを構築します。

グラフを構築した後、次を使用できます。 gs_link_prediction 5.48 つの gXNUMXxlarge インスタンスでリンク予測モデルをトレーニングします。組み込みモデルを使用する場合は、XNUMX つのコマンドラインを呼び出すだけで分散トレーニングジョブを起動できます。次のコードを参照してください。

python3 -m graphstorm.run.gs_link_prediction --num-trainers 8 --part-config /data/oagv2.1/mag_bert_constructed/mag.json --ip-config ip_list.txt --cf ml_lp.yaml --num-epochs 1 --save-model-path /data/mag_lp_model

モデルのトレーニング後、モデルアーティファクトはフォルダーに保存されます。 /data/mag_lp_model.

これで、リンク予測推論を実行して GNN 埋め込みを生成し、モデルのパフォーマンスを評価できるようになりました。 GraphStorm は、モデルのパフォーマンスを評価するための複数の組み込み評価メトリクスを提供します。たとえば、リンク予測の問題の場合、GraphStorm はメトリック平均逆ランク (MRR) を自動的に出力します。 MRR は、実際のリンクが予測されたリンクの中でどの程度ランク付けされているかを評価するため、グラフリンク予測モデルを評価するための貴重な指標です。これにより予測の品質が把握され、モデルが真の接続に正しく優先順位を付けることが保証されます。これがここでの目的です。

次のコードに示すように、0.31 つのコマンドラインで推論を実行できます。この場合、モデルは、構築されたグラフのテストセットで MRR XNUMX に達します。

python3 -m graphstorm.run.gs_link_prediction --inference --num_trainers 8 --part-config /data/oagv2.1/mag_bert_constructed/mag.json --ip-config ip_list.txt --cf ml_lp.yaml --num-epochs 3 --save-embed-path /data/mag_lp_model/emb --restore-model-path /data/mag_lp_model/epoch-0/

推論パイプラインはリンク予測モデルからエンベディングを生成することに注意してください。特定の論文の研究分野を見つける問題を解決するには、埋め込みに対して k 最近傍検索を実行するだけです。

まとめ

GraphStorm は、業界グラフ上でグラフ ML モデルを簡単に構築、トレーニング、展開できるようにする新しいグラフ ML フレームワークです。これは、スケーラビリティや使いやすさなど、グラフ ML におけるいくつかの重要な課題に対処します。生の入力データからモデルトレーニングやモデル推論まで、数十億規模のグラフを処理するための組み込みコンポーネントを提供し、複数の Amazon チームがさまざまなアプリケーションで最先端のグラフ ML モデルをトレーニングできるようになりました。私たちをチェックしてください GitHubリポジトリ。

著者について

GraphStorm を使用した高速グラフ ML: エンタープライズ規模のグラフの問題を解決する新しい方法 |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。大正 AWS AI/ML 研究の上級応用科学者であり、グラフ機械学習チームを率いて、グラフ機械学習を本番環境に導入するための技術とフレームワークを開発しています。 Da は、ジョンズホプキンス大学でコンピューターサイエンスの博士号を取得しました。

GraphStorm を使用した高速グラフ ML: エンタープライズ規模のグラフの問題を解決する新しい方法 |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 フロリアン・ソーペ AWS AI/ML 研究の主任テクニカルプロダクトマネージャーで、グラフ機械学習グループなどの高度な科学チームをサポートし、ML 機能を備えた Amazon DataZone などの製品を改善しています。 AWS に入社する前は、フロリアンはボッシュで自動運転の技術製品管理をリードし、マッキンゼー・アンド・カンパニーで戦略コンサルタントを務め、制御システム/ロボット科学者として働いていましたが、この分野で博士号を取得しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
EVMファイナンス。分散型金融のための統一インターフェイス。こちらからアクセスしてください。
クォンタムメディアグループ。 IR/PR増幅。こちらからアクセスしてください。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/fast-track-graph-ml-with-graphstorm-a-new-way-to-solve-problems-on-enterprise-scale-graphs/

タイムスタンプ： 2023 年 6 月 9 日

タイムスタンプ： 2022 年 11 月 17 日

プラトン再発行

エンドツーエンドの従業員管理を入手: Amazon Forecast と AWS Step Functions | アマゾンウェブサービス

Amazon SageMaker Python SDK を使用して、Amazon SageMaker オフライン機能ストアから機械学習対応のデータセットを構築する | アマゾンウェブサービス

AWS Machine Learning Engineer Scholarshipを通じて、MLスキルでキャリアを加速させましょう

Amazon SageMaker Ground Truthを使用してカスタムQ＆Aデータセットを構築し、Hugging Face Q＆ANLUモデルをトレーニングします

Sportradar がディープ Java ライブラリを使用して実稼働規模の ML プラットフォームを構築し、パフォーマンスと効率を向上させた方法

Amazon SageMaker JumpStart を使用して高性能の画像分類モデルを構築する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー