AWS Trainium と Amazon EKS を使用した分散トレーニングのスケーリング

プラトン再発行

フォロワー： 0

最近の深層学習の発展により、GPT-3、BLOOM、OPT などのモデルがますます大きくなり、そのうちのいくつかはすでに 100 億のパラメーターを超えています。大規模なモデルはより強力になる傾向がありますが、そのようなモデルのトレーニングにはかなりの計算リソースが必要です。 FSDP や DeepSpeed などの高度な分散トレーニングライブラリを使用しても、トレーニングジョブで数週間または数か月間、数百のアクセラレータデバイスが必要になるのはよくあることです。

2022 年後半、AWS はの一般提供を発表しました。 Amazon EC2 Trn1 インスタンスを搭載 AWS トレーニング—クラウドでディープラーニングモデルをトレーニングするための高性能で費用対効果が高く、非常にスケーラブルなプラットフォームを提供するために最適化された専用の機械学習 (ML) アクセラレータ。 Trn1 インスタンスはさまざまなサイズで利用でき (次の表を参照)、インスタンスごとに最大 16 個の Trainium アクセラレータを使用できます。

インスタンスサイズ	トレーニングアクセラレーター	アクセラレータメモリ (GB)	vCPU	インスタンスメモリ (GiB)	Network Bandwidth (Gbps)
trn1.2xlarge	1	32	8	32	最大12.5
trn1.32xlarge	16	512	128	512	800
trn1n.32xlarge (近日公開予定)	16	512	128	512	1600

Trn1 インスタンスは、小規模なトレーニングジョブ用のスタンドアロンインスタンスとしてデプロイすることも、数万の Trainium アクセラレータにわたる分散トレーニングをサポートする非常にスケーラブルなウルトラクラスターでデプロイすることもできます。すべての Trn1 インスタンスはスタンドアロン構成をサポートしますが、Trn1 ウルトラクラスターには trn1.32xlarge または trn1n.32xlarge インスタンスが必要です。ウルトラクラスターでは、複数の Trn1 インスタンスが特定の AWS アベイラビリティーゾーンに配置され、高速で低レイテンシーの Elastic Fabric Adapter (EFA) ネットワークに接続され、インスタンスごとに 800 Gbps のノンブロッキングネットワーク帯域幅を提供して、集合的なコンピューティング操作を実現します。 . 1 年初頭にリリースされる trn32n.2023xlarge インスタンスタイプでは、この帯域幅がインスタンスあたり 1600 Gbps に増加します。

多くの企業顧客は、クラウドでのコンテナオーケストレーションのデファクトスタンダードである Kubernetes を使用してディープラーニングワークロードをデプロイすることを選択しています。 AWS のお客様は、多くの場合、これらのワークロードを Amazon Elastic Kubernetesサービス (Amazon EKS)。 Amazon EKS は、アップストリーム Kubernetes の完全な柔軟性を提供しながら、Kubernetes クラスターの作成、構成、ライフサイクル、およびモニタリングを簡素化するマネージド Kubernetes サービスです。

本日、Amazon EKS および EC2 Trn1 インスタンスを使用した分散トレーニングジョブの公式サポートを発表できることを嬉しく思います。この発表により、Trn1 インスタンスが提供するコストパフォーマンス、スケーラビリティ、使いやすさを最大限に活用しながら、Amazon EKS 内で大規模なコンテナ化されたトレーニングジョブを簡単に実行できるようになりました。

この発表とともに、Amazon EKS および Trn1 インスタンスを使用して、マルチインスタンス分散トレーニングジョブ (BERT フェーズ 1 事前トレーニング) を実行するために必要な手順を説明する詳細なチュートリアルも公開しています。この投稿では、ソリューションアーキテクチャについて学び、チュートリアルのいくつかの重要な手順を確認します。を参照してください。公式チュートリアルリポジトリ完全なエンドツーエンドのワークフローのために。

理解を深めるために、次のようなコア AWS サービスに関する幅広い知識が必要です。アマゾンエラスティックコンピューティングクラウド (Amazon EC2) と Amazon EKS が暗示され、ディープラーニングと PyTorch の基本的な知識が役立ちます。

ソリューションのアーキテクチャ

次の図は、ソリューションのアーキテクチャを示しています。

AWS Trainium と Amazon EKS PlatoBlockchain Data Intelligence を使用した分散トレーニングのスケーリング。垂直検索。あい。

このソリューションは、次の主要コンポーネントで構成されています。

EKS クラスター
trn1.32xlarge インスタンスで構成される EKS ノードグループ
　 AWS ニューロン SDK
Neuron および EFA 用の EKS プラグイン
An Amazon エラスティックコンテナレジストリ (Amazon ECR) レポジトリ
トレーニングコンテナイメージ
An 光沢のためのAmazonFSx ファイルシステム
Volcano バッチスケジューラと etcd サーバー
TorchX ユニバーサルジョブランチャー
Trainium 用の TorchX DDP モジュール

ソリューションの中心にあるのは、EKS サービスエンドポイントを介してコア Kubernetes 管理機能を提供する EKS クラスターです。 Amazon EKS の利点の 1.32 つは、サービスが負荷に基づいてコントロールプレーンを積極的に監視およびスケーリングすることです。これにより、分散トレーニングなどの大規模なワークロードで高いパフォーマンスが保証されます。 EKS クラスター内には、同じアベイラビリティーゾーンに存在する XNUMX つ以上の trnXNUMXxlarge Tranium ベースのインスタンスで構成されるノードグループがあります。

Neuron SDK は、ドライバ、コンパイラ、ランタイム、フレームワーク統合 (PyTorch Neuron など)、Trainium アクセラレータの利点にアクセスできるユーザーツールを提供するソフトウェアスタックです。 Neuron デバイスドライバーは、EKS ノード (Trn1 インスタンス) で直接実行され、ノードで起動されるトレーニングコンテナー内から Trainium チップへのアクセスを提供します。 Neuron および EFA プラグインは EKS クラスター内にインストールされ、分散トレーニングに必要な Trainium チップおよび EFA ネットワークデバイスへのアクセスを提供します。

ECR リポジトリは、トレーニングコンテナーイメージの保存に使用されます。これらのイメージには、Neuron SDK (Trn1 インスタンスで直接実行される Neuron ドライバーを除く)、PyTorch トレーニングスクリプト、および必要な依存関係が含まれています。トレーニングジョブが EKS クラスターで起動されると、最初にコンテナーイメージが Amazon ECR から EKS ノードにプルされ、次に PyTorch ワーカーコンテナーがイメージからインスタンス化されます。

共有ストレージは、trn1.32xlarge インスタンスと同じアベイラビリティーゾーンに存在する高性能 FSx for Lustre ファイルシステムを使用して提供されます。 FSx for Lustre ファイルシステムの作成と EKS クラスターへの接続は、 Amazon FSx for Lustre CSI ドライバー. このソリューションでは、共有ストレージを使用して、トレーニングデータセットと、トレーニングプロセス中に作成されたログまたはアーティファクトを保存します。

解決策は TorchX ユニバーサルジョブランチャー Amazon EKS 内で分散トレーニングジョブを起動します。 TorchX には、Volcano バッチスケジューラと etcd サーバーという XNUMX つの重要な依存関係があります。 Volcano はトレーニングジョブのスケジューリングとキューイングを処理しますが、etcd サーバーは、ジョブの起動時に同期とピア検出のために TorchElastic によって使用されるキーと値のストアです。

TorchX を使用してトレーニングジョブが起動されると、起動コマンドは、Trainium 用に提供された TorchX 分散 DDP モジュールを使用して、トレーニングジョブ全体を構成し、各 PyTorch ワーカーポッドで適切な torchrun コマンドを実行します。ジョブの実行中は、標準の Kubernetes ツール (kubectl など) または TensorBoard などの標準の ML ツールセットを使用して監視できます。

ソリューションの概要

このソリューションの重要な手順を見てみましょう。この概要では、 TorchX と EKS を使用して、Trainium でマルチノード PyTorch ニューロントレーニングジョブを起動する GitHub のチュートリアル。

EKS クラスターを作成する

Trn1 インスタンスを使用して Amazon EKS で分散トレーニングジョブを開始するには、最初に EKS クラスターを作成します。 GitHub のチュートリアル. クラスタの作成は、次のような標準ツールを使用して実現できます。 eksctl および AWS CloudFormation.

EKS ノードグループを作成する

次に、サポートされているリージョンに 1.32 つ以上の trnXNUMXxlarge インスタンスを含む EKS ノードグループを作成する必要があります。チュートリアルでは、 AWS CloudFormation を使用して、Trainium 固有の EC2 起動テンプレートを作成しますこれにより、Trn1 インスタンスが適切な Amazon マシンイメージ (AMI) と、分散トレーニングをサポートするために必要な正しい EFA ネットワーク構成で起動されます。 AMI には、Trainium アクセラレータチップをサポートする Neuron デバイスドライバも含まれています。とともに eksctl Amazon EKS 管理ツールを使用すると、新しく作成された起動テンプレートを参照する基本的な YAML マニフェストを使用して、Trainium ノードグループを簡単に作成できます。例えば：

apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig metadata: name: my-trn1-cluster region: us-west-2 version: "1.23" iam: withOIDC: true availabilityZones: ["us-west-xx","us-west-yy"] managedNodeGroups: - name: trn1-ng1 launchTemplate: id: TRN1_LAUNCH_TEMPLATE_ID minSize: 2 desiredCapacity: 2 maxSize: 2 availabilityZones: ["us-west-xx"] privateNetworking: true efaEnabled: true

前のマニフェストでは、EKS クラスターで Trn1 インスタンスを使用できるように、いくつかの属性が構成されています。初め、 metadata.region Trn1 インスタンスをサポートするリージョンの XNUMX つに設定されます (現在、 us-east-1 および us-west-2）。次に、availabilityZones の場合、Amazon EKS では 1 つのアベイラビリティーゾーンを指定する必要があります。これらのアベイラビリティーゾーンの XNUMX つは TrnXNUMX インスタンスの使用をサポートする必要があり、もう XNUMX つはランダムに選択できます。チュートリアルでは、 AWS アカウント内で Trn1 インスタンスを許可するアベイラビリティーゾーンを決定する. 同じ Trn1 をサポートするアベイラビリティーゾーンも、 availabiltyZones EKS ノードグループに関連付けられた属性。 efaEnabled に設定されています true 分散トレーニングに必要な適切な EFA ネットワーク構成でノードを構成します。最後に、 launchTemplate.id ノードグループに関連付けられた属性は、前のステップで AWS CloudFormation を介して作成された EC2 起動テンプレートを指します。

すでに CloudFormation テンプレートを適用し、 eksctl 管理ツールを使用すると、次のコードを実行して、Trainium 対応の EKS ノードグループを作成できます。

> eksctl create nodegroup -f TEMPLATE.yaml

Trainium および EFA デバイス用の Kubernetes プラグインをインストールする

ノードグループを配置したら、次のステップは、Trainium アクセラレータ (Neuron プラグイン経由) と EFA デバイス (EFA プラグイン経由) のサポートを提供する Kubernetes プラグインをインストールすることです。これらのプラグインは、標準のプラグインを使用してクラスターに簡単にインストールできます。 kubectl チュートリアルに示されている管理ツール。

TorchX ユニバーサル PyTorch ランチャーを使用して分散トレーニングジョブを起動するには、Volcano バッチスケジューラと etcd サーバーの XNUMX つの前提条件が必要です。 Neuron や EFA プラグインと同じように、 kubectl ツールを使用して、Volcano と etcd サーバーを EKS クラスターにインストールします。

共有ストレージを EKS クラスターにアタッチする

チュートリアルでは、FSx for Lustre を使用して、さまざまな EKS ワーカーポッドからアクセスできる高性能の共有ファイルシステムを提供します。この共有ストレージは、トレーニングデータセット、およびトレーニングプロセス中に作成されるアーティファクトとログをホストするために使用されます。このチュートリアルでは、共有ストレージを作成してクラスターにアタッチする方法について説明します。 Amazon FSx for Lustre CSI ドライバー.

トレーニングコンテナイメージを作成する

次に、PyTorch トレーニングスクリプトと依存関係を含むトレーニングコンテナーイメージを作成する必要があります。サンプルの Dockerfile がチュートリアルに含まれており、BERT 事前トレーニングスクリプトとそのソフトウェア依存関係が組み込まれています。 Dockerfile を使用してトレーニングコンテナーイメージを構築し、その後イメージを ECR リポジトリにプッシュします。このリポジトリから、トレーニングジョブがクラスターで起動されたときに PyTorch ワーカーがイメージをプルできます。

トレーニングデータを設定する

トレーニングジョブを起動する前に、まずトレーニングデータが FSx for Lustre の共有ストレージボリュームにコピーされます。このチュートリアルでは、共有ストレージボリュームにアクセスできる一時的な Kubernetes ポッドを作成する方法を概説し、ポッドにログインして、標準の Linux シェルコマンドを使用してトレーニングデータセットをダウンロードおよび抽出する方法を示します。

さまざまなインフラストラクチャとソフトウェアの前提条件が整ったので、ソリューションの Trainium の側面に集中できます。

モデルをプリコンパイルする

Neuron SDK は、PyTorch と呼ばれる統合レイヤーを通じて PyTorch をサポートします。 PyTorch ニューロン. デフォルトでは、PyTorch Neuron はジャストインタイムコンパイルで動作します。このコンパイルでは、トレーニングジョブ内のさまざまなニューラルネットワーク計算グラフが、トレーニングプロセス中に遭遇したときにコンパイルされます。より大きなモデルの場合、提供されている neuron_parallel_compile トレーニング時のグラフのコンパイルを回避するために、さまざまな計算グラフを事前にプリコンパイルおよびキャッシュするツール。 EKS クラスターでトレーニングジョブを起動する前に、チュートリアルでは、TorchX を使用してプリコンパイルジョブを起動する方法を示します neuron_parallel_compile 道具。事前コンパイルジョブが完了すると、Neuron コンパイラはすべてのニューラルネットワーク計算グラフを識別してコンパイルし、後で実際の BERT 事前トレーニングジョブで使用できるように共有ストレージボリュームにキャッシュします。

分散トレーニングジョブを起動する

プリコンパイルが完了すると、TorchX を使用して、インスタンスあたり 64 ワーカーで、1.32 つの trn32xlarge インスタンスにわたって 32 ワーカーの分散トレーニングジョブを起動します。各 trn1.32xlarge インスタンスには 16 個の Trainium アクセラレータが含まれており、各アクセラレータは 2 個を提供するため、インスタンスごとに XNUMX 個のワーカーを使用します。ニューロンコア. 各 NeuronCore は、一意としてアクセスできます。 PyTorch XLA デバイストレーニングスクリプトで。チュートリアルの TorchX 起動コマンドの例は、次のコードのようになります。

 torchx run -s kubernetes --workspace="file:///$PWD/docker" -cfg queue=test,image_repo=$ECR_REPO lib/trn1_dist_ddp.py:generateAppDef --name berttrain --script_args "--batch_size 16 --grad_accum_usteps 32 --data_dir /data/bert_pretrain_wikicorpus_tokenized_hdf5_seqlen128 --output_dir /data/output" --nnodes 2 --nproc_per_node 32 --image $ECR_REPO:bert_pretrain --script dp_bert_large_hf_pretrain_hdf5.py --bf16 True --cacheset bert-large

前述の TorchX コマンドのさまざまなコマンドライン引数については、チュートリアルで詳しく説明されています。ただし、トレーニングジョブの構成では、次の引数が最も重要です。

-cfg キュー=テスト – トレーニングジョブに使用する Volcano キューを指定します
-cfg イメージリポジトリ – TorchX コンテナイメージに使用する ECR リポジトリを指定します
–script_args – PyTorch トレーニングスクリプトに渡す必要がある引数を指定します
–nnodes および –nproc_per_node – トレーニングジョブに使用するインスタンスとインスタンスごとのワーカーの数
-脚本 – トレーニングコンテナ内で起動する PyTorch トレーニングスクリプトの名前
-画像 – Amazon ECR のトレーニングコンテナイメージへのパス
–bf16 – BF16 データ型を有効にするかどうか

トレーニングジョブを監視する

トレーニングジョブが開始された後、さまざまな方法でジョブを監視できます。このチュートリアルでは、コマンドラインで基本的なトレーニングスクリプトメトリックを監視する方法を示します。 kubectl、TensorBoard でトレーニングスクリプトの進行状況を視覚的に監視する方法 (次のスクリーンショットを参照)、Trainium アクセラレータの使用状況を neuron-top Neuron SDK のツール。

AWS Trainium と Amazon EKS PlatoBlockchain Data Intelligence を使用した分散トレーニングのスケーリング。垂直検索。あい。

環境をクリーンアップまたは再利用する

トレーニングジョブが完了すると、クラスターを再利用したり、追加のトレーニングジョブ用に再構成したりできます。たとえば、EKS ノードグループは、 eksctl コマンドを使用して、追加の Trn1 インスタンスを必要とするトレーニングジョブをサポートします。同様に、提供されている Dockerfile と TorchX の起動コマンドは、追加のディープラーニングモデルと分散トレーニングトポロジをサポートするように簡単に変更できます。

クラスターが不要になった場合、チュートリアルには、EKS インフラストラクチャと関連リソースを削除するために必要なすべての手順も含まれています。

まとめ

この投稿では、Trn1 インスタンスと Amazon EKS が、ディープラーニングモデルの高性能で費用対効果が高く、非常にスケーラブルな分散型トレーニングのためのマネージドプラットフォームを提供する方法について説明しました。また、Trn1 インスタンスを使用して Amazon EKS で実際のマルチインスタンス分散トレーニングジョブを実行する方法を示す包括的なチュートリアルを共有し、ソリューションの主要なステップとコンポーネントのいくつかを強調しました。このチュートリアルの内容は、他のモデルやワークロードに簡単に適応させることができ、AWS での深層学習モデルの分散トレーニングの基本的なソリューションを提供します。

Trainium を利用した Trn1 インスタンスの使用を開始する方法の詳細については、次を参照してください。ニューロンのドキュメント.

著者について

スコットペリー AWS の Annapurna ML アクセラレータチームのソリューションアーキテクトです。カナダを拠点とし、AWS Inferentia と AWS Trainium を使用して、顧客が深層学習トレーニングと推論ワークロードをデプロイおよび最適化するのを支援しています。彼の興味には、大規模言語モデル、深層強化学習、IoT、およびゲノミクスが含まれます。

ロレア・アリサバラガ は、英国の公共部門に所属するソリューションアーキテクトであり、Amazon SageMaker を使用して顧客が ML ソリューションを設計するのを支援しています。また、ハードウェアアクセラレーションに特化した Technical Field Community の一員でもあり、AWS Inferentia および AWS Trainium ワークロードのテストとベンチマークを支援しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/scaling-distributed-training-with-aws-trainium-and-amazon-eks/

タイムスタンプ： 2023 年 2 月 1 日

タイムスタンプ： 2023 年 7 月 31 日

プラトン再発行

AWS は、AI 戦略を計画するための新しい人工知能、機械学習、生成 AI ガイドを提供します | アマゾンウェブサービス

Amazon SageMaker シャドウテストで ML モデルの更新による本番環境への影響を最小限に抑える

Amazon Fraud Detector の新しい Account Takeover Insights モデルを使用して、ログイン時のアカウントの乗っ取りを防ぎます

Amazon SageMaker Edge Manager と AWS IoT Greengrass を使用したエッジでの MLOps

エンドツーエンドの従業員管理を入手: Amazon Forecast と AWS Step Functions | アマゾンウェブサービス

AWS Low Code-No Code サービスで投資プロセスを加速

Amazon Titan Text Embeddings V2 を使ってみる: Amazon Bedrock の新しい最先端の埋め込みモデル |アマゾンウェブサービス

Amazon SageMaker データ並列ライブラリを使用してトレーニングを高速化する | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー