Amazon EC2 Trn1 UltraClusters を使用した大規模言語モデル (LLM) トレーニングのスケーリング

プラトン再発行

フォロワー： 0

最新モデルの事前トレーニングでは、時間とコストを削減するために、より大規模なクラスターのデプロイが必要になることがよくあります。サーバーレベルでは、このようなトレーニングワークロードには、より高速なコンピューティングとメモリ割り当ての増加が必要です。モデルが数千億のパラメーターに成長するにつれて、複数のノード (インスタンス) にまたがる分散トレーニングメカニズムが必要になります。

2022 年 XNUMX 月に Amazon EC2 Trn1 インスタンス、を搭載 AWS トレーニングは、AWS が設計した第 1 世代の機械学習アクセラレータです。 Trn50 インスタンスは、ハイパフォーマンスの深層学習モデルのトレーニング専用に構築されており、同等の GPU ベースのインスタンスよりも最大 2% のトレーニング費用を節約できます。トレーニング時間を数週間から数日、または数日から数時間に短縮し、大規模なモデルのトレーニングジョブを分散するために、EC1 Trn1 UltraCluster を使用できます。ノンブロッキングのペタバイト規模のネットワーキング。これは、これまでで最大の UltraCluster であり、最大 6 の Trainium チップで 30,000 エクサフロップスの計算能力をオンデマンドで提供します。

この投稿では、Hugging Face BERT-Large モデルの事前トレーニングワークロードを簡単な例として使用して、Trn1 UltraClusters の使用方法を説明します。

Trn1 ウルトラクラスター

Trn1 UltraCluster は、データセンター内の Trn1 インスタンスの配置グループです。単一のクラスター実行の一部として、Trainium アクセラレーターを使用して Trn1 インスタンスのクラスターをスピンアップできます。次の図に例を示します。

Trn1 ウルトラクラスター

Trn1 インスタンスの UltraCluster はデータセンター内に配置され、相互接続されています。エラスティックファブリックアダプター（EFA）これはペタバイト規模のノンブロッキングネットワークインターフェイスであり、最大 800 Gbps のネットワーク帯域幅を備えています。これは、AWS P4d インスタンスでサポートされる帯域幅の 1.6 倍です (1 Tbps、今後の Trn1n インスタンスでは XNUMX 倍になります)。これらの EFA インターフェイスは、Neuron Collective Communication Libraries を使用するモデルトレーニングワークロードを大規模に実行するのに役立ちます。 TrnXNUMX UltraClusters には、次のようなコロケーションネットワーク接続ストレージサービスも含まれます。光沢のためのAmazonFSx 大規模なデータセットへの高スループットアクセスを可能にし、クラスターが効率的に動作するようにします。 Trn1 UltraCluster は、最大 30,000 台の Trainium デバイスをホストでき、6 つのクラスターで最大 2 エクサフロップのコンピューティングを提供できます。 EC1 Trn6 UltraCluster は、従量課金制の使用モデルで、文字通りオンデマンドのスーパーコンピューターである最大 XNUMX エクサフロップスのコンピューティングを提供します。この投稿では、Slurm などの HPC ツールを使用して UltraCluster を立ち上げ、ワークロードを管理します。

ソリューションの概要

AWS は、分散モデルのトレーニングやワークロードの推論を大規模に行うためのさまざまなサービスを提供しています。 AWSバッチ, Amazon Elastic Kubernetesサービス (Amazon EKS)、および UltraClusters です。この投稿では、UltraCluster でのモデルトレーニングに焦点を当てています。私たちのソリューションは、 AWS パラレルクラスター Trn1 UltraCluster を起動するために必要なインフラストラクチャと環境を作成するための管理ツール。インフラストラクチャは、仮想プライベートクラウド (VPC) 内のヘッドノードと複数の Trn1 コンピューティングノードで構成されます。クラスタ管理およびジョブスケジューリングシステムとして Slurm を使用します。次の図は、ソリューションアーキテクチャを示しています。

ソリューションの概要

詳細とこのソリューションの展開方法については、次を参照してください。 AWS Trn1 ParallelCluster でモデルをトレーニングする.

このソリューションのいくつかの重要な手順を見てみましょう。

VPC とサブネットを作成します。
コンピューティングフリートを構成します。
クラスターを作成します。
クラスタを検査します。
トレーニングジョブを起動します。

前提条件

この投稿を進めるには、次のような AWS のコアサービスに関する幅広い知識が必要です。アマゾンエラスティックコンピューティングクラウド (Amazon EC2) が暗示され、ディープラーニングと PyTorch の基本的な知識が役立つでしょう。

VPC とサブネットを作成する

VPC とサブネットを作成する簡単な方法は、アマゾンバーチャルプライベートクラウド (Amazon VPC) コンソール。完全な手順については、 GitHubの. VPC とサブネットをインストールしたら、コンピューティングフリートでインスタンスを構成する必要があります。簡単に言うと、これは、ParallelCluster の作成に使用される YAML ファイルの CustomActions で指定されたインストールスクリプトによって可能になります ( ParallelCluster の作成）。 ParallelCluster には、前のアーキテクチャ図に示すように、1 つのサブネットとネットワークアドレス変換 (NAT) ゲートウェイを持つ VPC が必要です。この VPC は、Trn1 インスタンスが利用可能なアベイラビリティーゾーンに存在する必要があります。また、この VPC には、ヘッドノードと Trn1 コンピューティングノードをそれぞれ保持するためのパブリックサブネットとプライベートサブネットが必要です。また、TrnXNUMX 計算ノードがダウンロードできるように、NAT ゲートウェイのインターネットアクセスも必要です。 AWS ニューロンパッケージ。通常、計算ノードは、OS パッケージ、Neuron ドライバーとランタイム、およびマルチインスタンストレーニング用の EFA ドライバーの更新を受け取ります。

ヘッドノードに関しては、計算ノード用の前述のコンポーネントに加えて、PyTorch-NeuronX および NeuronX コンパイラも受け取ります。これにより、Trainium などの XLA デバイスでのモデルコンパイルプロセスが可能になります。

コンピューティングフリートを構成する

Trn1 UltraCluster を作成するための YAML ファイルで、 InstanceType trn1.32xlarge として指定されます。 MaxCount および MinCount は、コンピューティングフリートのサイズ範囲を示すために使用されます。あなたは使用することができます MinCount 一部またはすべての Trn1 インスタンスを常に利用できるようにします。 MinCount ゼロに設定すると、実行中のジョブがない場合に Trn1 インスタンスがこのクラスターから解放されます。

Trn1 は、複数のキューを持つ UltraCluster に展開することもできます。次の例では、Slurm ジョブの送信用に設定されているキューが XNUMX つだけあります。

InstanceType: trn1.32xlarge
MaxCount: 16
MinCount: 0
Name: queue1-i1

複数のキューが必要な場合は、複数指定できます InstanceType、それぞれ独自の MaxCount, MinCount, Name:

InstanceType: trn1.32xlarge
MaxCount: 8
MinCount: 0
Name: queue-0
InstanceType: trn1.32xlarge
MaxCount: 8
MinCount: 0
Name: queue-1

ここでは、XNUMX つのキューが設定されているため、ユーザーは Slurm ジョブのリソースを柔軟に選択できます。

クラスターを作成する

Trn1 UltraCluster を起動するには、次を使用します。 pcluster あなたのどこからコマンド ParallelCluster ツールインストールされています：

pcluster create-cluster --cluster-configuration <YAML FILE NAME> -n <CLUSTER NAME>

このコマンドでは、次のオプションを使用します。

--cluster-configuration – このオプションでは、クラスター構成を記述する YAML ファイルが必要です
-n （または --cluster-name) – このクラスターの名前

このコマンドは、AWS アカウントに Trn1 クラスターを作成します。クラスタ作成の進行状況は、 AWS CloudFormation コンソール。詳細については、次を参照してください。 AWS CloudFormation コンソールの使用.

または、次のコマンドを使用して、リクエストのステータスを確認できます。

pcluster describe-cluster -n <CLUSTER NAME>

コマンドはステータスを示します。次に例を示します。

{ "creationTime": "2023-01-09T03:26:17.235Z", "headNode": { "launchTime": "2023-01-09T03:29:23.000Z", "instanceId": "XXXXX", "publicIpAddress": "XX.XX.XXX.XXX", "instanceType": "c5.4xlarge", "state": "running", "privateIpAddress": "XX.XX.XX.XXX"
}, "version": "3.3.0", "clusterConfiguration": { "url": "XXXX....“
}, "tags": [
{ "value": "3.2.1", "key": "parallelcluster:version"
},
{ "value": "PC16Trn1", "key": "parallelcluster:cluster-name"
}
], "cloudFormationStackStatus": "CREATE_IN_PROGRESS", "clusterName": "PC16Trn1", "computeFleetStatus": "UNKNOWN", "cloudformationStackArn": "arn:aws:cloudformation:us-west-2:...:stack/PC16Trn1/...", "lastUpdatedTime": "2023-01-09T03:26:17.235Z", "region": "us-west-2", "clusterStatus": "CREATE_IN_PROGRESS", "scheduler": { "type": "slurm"
}
}

以下は、出力からの重要なパラメーターです。

インスタンスID – これはヘッドノードのインスタンス ID であり、Amazon EC2 コンソールに表示されます
フリートステータスを計算する – この属性は、計算ノードの準備ができていることを示します
タグ – この属性は、 pcluster このクラスターの作成に使用したツール

クラスターを検査する

前述のものを使用できます pcluster describe-cluster コマンドを実行してクラスターを確認します。クラスターが作成されると、次の出力が表示されます。

"clusterStatus": "CREATE_COMPLETE"

この時点で、ヘッドノード (Amazon EC2 コンソールのインスタンス ID で識別) に SSH で接続できます。以下は、クラスターの論理図です。

クラスタの論理図

ヘッドノードに SSH 接続した後、次のような Slurm コマンドを使用して、コンピューティングフリートとその状態を確認できます。 sinfo システムのノード情報を表示します。次に出力例を示します。

PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
compute1* up infinite 16 alloc compute1-st-queue1-i1-[1-16]

これは、16 つのパーティションで示されるように、キューが XNUMX つあることを示します。 XNUMX 個のノードが利用可能で、リソースが割り当てられています。ヘッドノードから、任意の計算ノードに SSH で接続できます。

ssh compute1-st-queue1-i1-16

　 exit ヘッドノードに戻ります。

同様に、別の計算ノードから計算ノードに SSH で接続できます。各計算ノードには、Neuron ツールがインストールされています。 neuron-top。呼び出すことができます neuron-top トレーニングスクリプトの実行中に、各ノードでの NeuronCore の使用率を調べます。

トレーニングジョブを開始する

私たちは、使用 Hugging Face BERT-Large 事前トレーニングチュートリアルこのクラスターで実行する例として。トレーニングデータとスクリプトがクラスターにダウンロードされたら、Slurm コントローラーを使用してワークロードを管理および調整します。トレーニングジョブを送信します sbatch 指図。シェルスクリプトは、 neuron_parallel_compile 完全なトレーニングを実行せずにモデルをグラフにコンパイルするための API。次のコードを参照してください。

sbatch --exclusive --nodes=16 --wrap "srun neuron_parallel_compile ./run_dp_bert_large_hf_pretrain_bf16_s128.sh"

このコマンドでは、次のオプションを使用します。

--exclusive – このジョブはすべてのノードを使用し、現在のジョブの実行中に他のジョブとノードを共有しません。
--nodes – このジョブのノード数。
--wrap – これは、Slurm コントローラーによって実行されるコマンド文字列を定義します。この場合、すべてのノードを使用してモデルを並列にコンパイルするだけです。

モデルが正常にコンパイルされたら、次のコマンドを使用して完全なトレーニングジョブを開始できます。

sbatch --exclusive --nodes=16 --wrap "srun ./run_dp_bert_large_hf_pretrain_bf16_s128.sh"

このコマンドは、Hugging Face BERT-Large モデルのトレーニングジョブを起動します。 16 個の Trn1.32xlarge ノードを使用すると、8 時間以内に完了することが期待できます。

この時点で、次のような Slurm コマンドを使用できます。 squeue 送信されたジョブを検査します。出力例は次のとおりです。

JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
3 compute1 wrap ubuntu R 45:27 16 compute1-st-queue1-i1-[1-16]

この出力は、ジョブが実行されていることを示しています (R) 16 の計算ノードで。

ジョブの実行中、出力がキャプチャされ、Slurm ログファイルに追加されます。ヘッドノードのターミナルから、リアルタイムで検査できます。

tail -f slurm-3.out

また、Slurm ログファイルと同じディレクトリに、このジョブに対応するディレクトリがあります。このディレクトリには、次のものが含まれます(例):

-rw-rw-r— 1 ubuntu ubuntu 3772 Jan 10 21:41 results.json
-rw-rw-r— 1 ubuntu ubuntu 4160336620 Jan 10 21:42 ckpt_2593.pt
-rw-rw-r— 1 ubuntu ubuntu 106712 Jan 10 21:43 log_ph1_bf16_1_2
-rw-rw-r— 1 ubuntu ubuntu 429325 Jan 10 21:58 log_ph1_bf16_0_2
.....

このディレクトリは、すべての計算ノードからアクセスできます。 results.json モデルの構成、バッチサイズ、合計ステップ、勾配累積ステップ、トレーニングデータセット名など、この特定のジョブ実行のメタデータをキャプチャします。各計算ノードごとのモデルチェックポイントと出力ログも、このディレクトリにキャプチャされます。

クラスタのスケーラビリティを考慮する

Trn1 UltraCluster では、相互接続された複数の Trn1 インスタンスが大規模なモデルトレーニングワークロードを並行して実行し、合計計算時間または収束までの時間を短縮します。クラスタのスケーラビリティには、次の XNUMX つの尺度があります。 強力なスケーリング および 弱いスケーリング. 通常、モデルのトレーニングでは、トレーニングの実行を高速化する必要があります。これは、勾配更新のラウンドのサンプルスループットによって使用コストが決まるためです。ストロングスケーリングとは、プロセッサの数が増加しても問題の合計サイズが変わらないシナリオを指します。ストロングスケーリングは、モデルトレーニングのスケーラビリティの重要な尺度です。強力なスケーリング (つまり、並列化の影響) を評価する際には、グローバルバッチサイズを同じに保ち、収束にかかる時間を確認したいと考えています。このようなシナリオでは、計算ノードの数に応じて勾配累積マイクロステップを調整する必要があります。これは、トレーニングシェルスクリプトで次のように実行されます。 run_dp_bert_large_hf_pretrain_bf16_s128.sh:

GRAD_ACCUM_USTEPS=$(($GRAD_ACCUM_USTEPS/$WORLD_SIZE_JOB))

一方、ノードを追加することで一定時間にどれだけ多くのワークロードを実行できるかを評価したい場合は、弱いスケーリングを使用してスケーラビリティを測定します。弱いスケーリングでは、NeuronCores の数と同じ割合で問題のサイズが増加するため、NeuronCores ごとの作業量が同じに保たれます。弱いスケーリング、またはワークロードの増加に対するノードの追加の影響を評価するには、トレーニングスクリプトから上記の行を削除し、トレーニングスクリプトで提供されるデフォルト値 (32) で勾配累積のステップ数を一定に保ちます。

結果を評価する

いくつかのベンチマーク結果をニューロンパフォーマンスページスケーリングの効果を実証します。このデータは、複数のインスタンスを使用してトレーニングジョブを並列化し、多くの異なる大規模モデルを大規模にトレーニングする利点を示しています。

インフラストラクチャをクリーンアップする

この UltraCluster のすべてのインフラストラクチャを削除するには、 pcluster コマンドを実行して、クラスターとそのリソースを削除します。

pcluster delete-cluster -n <CLUSTER NAME>

まとめ

この投稿では、AWS の Trainium アクセラレーターを利用した Trn1-UltraCluster でトレーニングジョブをスケーリングすることで、モデルのトレーニング時間を短縮する方法について説明しました。へのリンクも提供しました。ニューロンサンプルリポジトリには、BERT-Large モデルの分散トレーニングジョブをデプロイする方法が記載されています。 Trn1-UltraCluster は、分散トレーニングワークロードを実行して、超大規模なディープラーニングモデルを大規模にトレーニングします。分散トレーニングの設定により、単一の Trn1 インスタンスでのトレーニングと比較して、モデルの収束がはるかに高速になります。

Trainium を利用した Trn1 インスタンスの使用を開始する方法の詳細については、次の Web サイトにアクセスしてください。ニューロンのドキュメント.

著者について

KC トゥン AWS Annapurna Labs のシニアソリューションアーキテクトです。彼は、クラウドでの大規模なディープラーニングモデルのトレーニングと展開を専門としています。彼は博士号を持っています。ダラスのテキサス大学サウスウェスタン医療センターで分子生物物理学の博士号を取得しています。彼は AWS Summits と AWS Reinvent で講演しました。現在、彼はお客様が AWS クラウドで大規模な PyTorch および TensorFlow モデルをトレーニングおよびデプロイするのを支援しています。彼は次の XNUMX 冊の本の著者です。 TensorFlow Enterprise を学ぶおよび TensorFlow 2 ポケットリファレンス.

ジェフリー・ハイン AWS Annapurna Labs のプリンシパルエンジニアです。彼は、Trainium および Inferentia アクセラレータデバイスでトレーニングと推論のワークロードを実行する顧客を支援することに情熱を注いでいます。 AWS ニューロン SDK. 彼はカリフォルニア工科大学/スタンフォード大学の卒業生で、物理学と EE の学位を取得しています。趣味はランニング、テニス、料理、科学技術に関する読書です。

シュルティ・コパーカー AWS のシニアプロダクトマーケティングマネージャーです。彼女は、顧客が機械学習のニーズに合わせて EC2 アクセラレーテッドコンピューティングインフラストラクチャを調査、評価、採用するのを支援しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/scaling-large-language-model-llm-training-with-amazon-ec2-trn1-ultraclusters/

タイムスタンプ： 2023 年 2 月 16 日

タイムスタンプ： 2023 年 9 月 28 日

プラトン再発行

Amazon Textract のクエリ機能を使用してワクチン接種検証ソリューションを構築する |アマゾンウェブサービス

Amazon Personalize の推奨事項のビジネスへの影響を測定する

Amazon SageMaker Profiler のプレビューの発表: モデルトレーニングワークロードの詳細なハードウェアパフォーマンスデータを追跡および視覚化 | アマゾンウェブサービス

Amazon SageMaker Canvas UI と AutoML API を使用して時系列予測を最大 50% 高速化 | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

Trn1 ウルトラクラスター

ソリューションの概要

前提条件

VPC とサブネットを作成する

コンピューティング フリートを構成する

クラスターを作成する

クラスターを検査する

トレーニング ジョブを開始する

クラスタのスケーラビリティを考慮する

結果を評価する

インフラストラクチャをクリーンアップする

まとめ

著者について

より多くの AWS機械学習

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

コンピューティングフリートを構成する

トレーニングジョブを開始する