Amazon SageMaker Profiler のプレビューを発表: モデルのトレーニングワークロードの詳細なハードウェアパフォーマンスデータを追跡および視覚化 |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

本日は、以下のプレビューを発表できることを嬉しく思います。 Amazon SageMaker プロファイラー、の機能アマゾンセージメーカーこれは、SageMaker での深層学習モデルのトレーニング中にプロビジョニングされた AWS コンピューティングリソースの詳細なビューを提供します。 SageMaker Profiler を使用すると、CPU と GPU の使用率、GPU でのカーネルの実行、CPU でのカーネルの起動、同期操作、GPU 間のメモリ操作、カーネルの起動と対応する実行の間のレイテンシー、データ転送など、CPU と GPU 上のすべてのアクティビティを追跡できます。 CPUとGPUの間。この投稿では、SageMaker Profiler の機能について説明します。

SageMaker Profiler は、PyTorch または TensorFlow トレーニングスクリプトに注釈を付け、SageMaker Profiler をアクティブ化するための Python モジュールを提供します。また、視覚化するユーザーインターフェイス (UI) も提供します。 プロフィール、プロファイリングされたイベントの統計的概要、および GPU と CPU 間のイベントの時間関係を追跡して理解するためのトレーニングジョブのタイムライン。

プロファイリングトレーニングジョブの必要性

ディープラーニング (DL) の台頭により、機械学習 (ML) はコンピューティングとデータを大量に使用するようになり、通常はマルチノード、マルチ GPU クラスターが必要になります。最先端のモデルのサイズが数兆パラメータのオーダーで増大するにつれて、計算の複雑さとコストも急速に増加します。 ML の実践者は、このような大規模なモデルをトレーニングする際に、リソースの効率的な利用という共通の課題に対処する必要があります。これは、大規模言語モデル (LLM) で特に顕著です。LLM には通常、数十億のパラメーターがあるため、効率的にトレーニングするには大規模なマルチノード GPU クラスターが必要です。

これらのモデルを大規模なコンピューティングクラスターでトレーニングすると、I/O ボトルネック、カーネル起動遅延、メモリ制限、リソース使用率の低さなど、コンピューティングリソースの最適化に関する課題が発生する可能性があります。トレーニングジョブの構成が最適化されていない場合、これらの課題によりハードウェアの使用効率が低下し、トレーニング時間が長くなったり、トレーニングの実行が不完全になったりして、プロジェクト全体のコストとスケジュールが増加する可能性があります。

前提条件

SageMaker Profiler の使用を開始するための前提条件は次のとおりです。

AWS アカウントの SageMaker ドメイン – ドメインの設定手順については、次を参照してください。クイックセットアップを使用して Amazon SageMaker ドメインにオンボードする。また、SageMaker Profiler UI アプリケーションにアクセスするには、個々のユーザーのドメインユーザープロファイルを追加する必要があります。詳細については、を参照してください。 SageMaker ドメインユーザープロファイルの追加と削除.
権限 – 次のリストは、SageMaker Profiler UI アプリケーションを使用するために実行ロールに割り当てる必要がある最小限の権限セットです。
- sagemaker:CreateApp
- sagemaker:DeleteApp
- sagemaker:DescribeTrainingJob
- sagemaker:SearchTrainingJobs
- s3:GetObject
- s3:ListBucket

SageMaker Profiler を使用してトレーニングジョブを準備して実行する

トレーニングジョブの実行中に GPU で実行されるカーネルのキャプチャを開始するには、SageMaker Profiler Python モジュールを使用してトレーニングスクリプトを変更します。ライブラリをインポートし、 start_profiling() および stop_profiling() プロファイリングの開始と終了を定義するメソッド。オプションのカスタムアノテーションを使用してトレーニングスクリプトにマーカーを追加し、各ステップの特定の操作中のハードウェアアクティビティを視覚化することもできます。

SageMaker Profiler を使用してトレーニングスクリプトをプロファイリングするために使用できるアプローチは XNUMX つあります。最初のアプローチは、完全な機能のプロファイリングに基づいています。 XNUMX 番目のアプローチは、関数内の特定のコード行のプロファイリングに基づいています。

関数ごとにプロファイリングするには、コンテキストマネージャーを使用します。 smppy.annotate 完全な関数に注釈を付けるため。次のサンプルスクリプトは、コンテキストマネージャーを実装して、各反復でトレーニングループと完全な関数をラップする方法を示しています。

import smppy sm_prof = smppy.SMProfiler.instance()
config = smppy.Config()
config.profiler = { "EnableCuda": "1",
}
sm_prof.configure(config)
sm_prof.start_profiling() for epoch in range(args.epochs): if world_size > 1: sampler.set_epoch(epoch) tstart = time.perf_counter() for i, data in enumerate(trainloader, 0): with smppy.annotate("step_"+str(i)): inputs, labels = data inputs = inputs.to("cuda", non_blocking=True) labels = labels.to("cuda", non_blocking=True) optimizer.zero_grad() with smppy.annotate("Forward"): outputs = net(inputs) with smppy.annotate("Loss"): loss = criterion(outputs, labels) with smppy.annotate("Backward"): loss.backward() with smppy.annotate("Optimizer"): optimizer.step() sm_prof.stop_profiling()

使用することもできます smppy.annotation_begin() および smppy.annotation_end() 関数内のコードの特定の行に注釈を付けるため。詳細については、以下を参照してください。ドキュメント.

SageMaker トレーニングジョブランチャーを構成する

アノテーション付けとプロファイラー開始モジュールの設定が完了したら、トレーニングスクリプトを保存し、SageMaker Python SDK を使用したトレーニング用に SageMaker フレームワーク推定ツールを準備します。

デジタルフィルターボックス(フィルターと増幅用)と周波数応答アナライザーを使用して profiler_config を使用するオブジェクト ProfilerConfig および Profiler 次のようなモジュール:
```
from sagemaker import ProfilerConfig, Profiler
profiler_config = ProfilerConfig( profiler_params = Profiler(cpu_profiling_duration=3600))
```

以下を使用して SageMaker 推定器を作成します。 profiler_config 前のステップで作成されたオブジェクト。次のコードは、PyTorch 推定器の作成例を示しています。

import sagemaker
from sagemaker.pytorch import PyTorch estimator = PyTorch( framework_version="2.0.0", image_uri="763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker", role=sagemaker.get_execution_role(), entry_point="train_with_profiler_demo.py", # your training job entry point source_dir=source_dir, # source dir for your training script output_path=output_path, base_job_name="sagemaker-profiler-demo", hyperparameters=hyperparameters, # if any instance_count=1, instance_type=ml.p4d.24xlarge, profiler_config=profiler_config
)

TensorFlow エスティメーターを作成したい場合は、インポートします。 sagemaker.tensorflow.TensorFlow 代わりに、SageMaker Profiler でサポートされている TensorFlow バージョンの XNUMX つを指定します。サポートされているフレームワークとインスタンスタイプの詳細については、を参照してください。サポートされているフレームワーク.

fit メソッドを実行してトレーニングジョブを開始します。
```
estimator.fit(wait=False)
```

SageMaker プロファイラー UI を起動する

トレーニングジョブが完了したら、SageMaker Profiler UI を起動して、トレーニングジョブのプロファイルを視覚化して探索できます。 SageMaker Profiler UI アプリケーションには、SageMaker コンソールの SageMaker Profiler ランディングページまたは SageMaker ドメインを通じてアクセスできます。

SageMaker コンソールで SageMaker Profiler UI アプリケーションを起動するには、次の手順を実行します。

SageMakerコンソールで、 プロファイラー ナビゲーションペインに表示されます。
始める、SageMaker Profiler UI アプリケーションを起動するドメインを選択します。

ユーザープロファイルが XNUMX つのドメインにのみ属している場合、ドメインを選択するオプションは表示されません。

SageMaker Profiler UI アプリケーションを起動するユーザープロファイルを選択します。

ドメインにユーザープロファイルがない場合は、 ユーザープロファイルの作成。新しいユーザープロファイルの作成の詳細については、次を参照してください。ユーザープロファイルの追加と削除.

選択する プロファイラーを開く.

また、ワイルドカード*を使用すると、任意の文字にマッチし、XNUMXつのコマンドで複数のファイルを削除することができます。ドメインの詳細ページから SageMaker Profiler UI を起動します。.

SageMaker Profiler から洞察を得る

SageMaker Profiler UI を開くと、 プロファイルを選択してロードする 次のスクリーンショットに示すように、ページが開きます。

Amazon SageMaker Profiler のプレビューの発表: モデルトレーニングワークロードの詳細なハードウェアパフォーマンスデータを追跡および視覚化 |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

SageMaker Profiler に送信されたすべてのトレーニングジョブのリストを表示し、名前、作成時間、実行ステータス (進行中、完了、失敗、停止、または停止中) によって特定のトレーニングジョブを検索できます。プロファイルをロードするには、表示したいトレーニングジョブを選択し、負荷。ジョブ名が ロードされたプロファイル 上部のセクション。

ダッシュボードとタイムラインを生成するジョブ名を選択します。ジョブを選択すると、UI によってダッシュボードが自動的に開くことに注意してください。一度に XNUMX つのプロファイルをロードして視覚化できます。別のプロファイルをロードするには、まず以前にロードしたプロファイルをアンロードする必要があります。プロファイルをアンロードするには、 ロードされたプロファイル のセクションから無料でダウンロードできます。

この投稿では、ある人のプロフィールを表示します。アルベフ 4 つの ml.p24d.XNUMXxlarge インスタンスでのトレーニングジョブ。

トレーニングジョブの読み込みと選択が完了すると、UI が開きます。 ダッシュボード 次のスクリーンショットに示すように、ページ。

主要なメトリクス、つまり GPU アクティブ時間、経時的な GPU 使用率、CPU アクティブ時間、および経時的な CPU 使用率のプロットを確認できます。 GPU アクティブ時間の円グラフには、GPU アクティブ時間と GPU アイドル時間の割合が表示されます。これにより、トレーニングジョブ全体を通じて GPU がアイドル時間よりもアクティブであるかどうかを確認できます。. 時間の経過に伴う GPU 使用率のタイムライングラフには、ノードごとの時間の経過に伴う平均 GPU 使用率が表示され、すべてのノードが XNUMX つのグラフに集計されます。特定の時間間隔中に、GPU に不均衡なワークロード、使用率不足の問題、ボトルネック、またはアイドルの問題があるかどうかを確認できます。. これらのメトリクスの解釈の詳細については、以下を参照してください。ドキュメント.

ダッシュボードには、次のスクリーンショットに示すように、すべての GPU カーネルが費やした時間、上位 15 の GPU カーネルが費やした時間、すべての GPU カーネルの起動数、上位 15 の GPU カーネルの起動数などの追加のプロットが表示されます。

最後に、ダッシュボードでは、GPU でのステップ時間の分布を示すヒストグラムであるステップ時間分布や、カーネルの実行に費やされた時間の割合を示すカーネル精度分布円グラフなどの追加のメトリクスを視覚化できます。 FP32、FP16、INT32、INT8 などのさまざまなデータ型で。

また、GPU アクティビティの分布に関する円グラフを取得して、カーネルの実行やメモリなどの GPU アクティビティに費やされた時間の割合を示すこともできます (memcpy および memset)、および同期 (sync）。 GPU メモリ操作の分布円グラフから、GPU メモリ操作に費やされた時間の割合を視覚化できます。

この投稿で前述したように、手動で注釈を付けたカスタムメトリックに基づいて独自のヒストグラムを作成することもできます。新しいヒストグラムにカスタム注釈を追加する場合、トレーニングスクリプトに追加した注釈の名前を選択または入力します。

タイムラインインターフェース

SageMaker Profiler UI にはタイムラインインターフェイスも含まれており、これにより、CPU 上でスケジュールされ、GPU 上で実行されるオペレーションおよびカーネルのレベルでコンピューティングリソースの詳細が表示されます。次のスクリーンショットに示すように、タイムラインはツリー構造で編成され、ホストレベルからデバイスレベルまでの情報が表示されます。

CPU ごとに、次のような CPU パフォーマンスカウンターを追跡できます。 clk_unhalted_ref.tsc および itlb_misses.miss_causes_a_walk。 2x p4d.24xlarge インスタンス上の各 GPU について、ホストタイムラインとデバイスタイムラインを確認できます。カーネルの起動はホストのタイムライン上で行われ、カーネルの実行はデバイスのタイムライン上で行われます。

個々のステップにズームインすることもできます。次のスクリーンショットでは、step_41 を拡大しています。次のスクリーンショットで選択されているタイムラインストリップは、 AllReduce 分散トレーニングにおける重要な通信と同期のステップである操作は、GPU-0 で実行されます。スクリーンショットでは、GPU-0 ホストでのカーネル起動が、シアンの矢印で示されている GPU-0 デバイスストリーム 1 で実行されるカーネルに接続していることに注目してください。

可用性と考慮事項

SageMaker Profiler は、PyTorch (バージョン 2.0.0 および 1.13.1) および TensorFlow (バージョン 2.12.0 および 2.11.1) で利用できます。次の表に、サポートされているリンクへのリンクを示します。 SageMaker 用の AWS 深層学習コンテナ.

フレームワーク		AWS DLC イメージ URI
パイトーチ	2.0.0	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker`
パイトーチ	1.13.1	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker`
TensorFlow	2.12.0	`763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.12.0-gpu-py310-cu118-ubuntu20.04-sagemaker`
TensorFlow	2.11.1	`763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.11.1-gpu-py39-cu112-ubuntu20.04-sagemaker`

SageMaker Profiler は現在、米国東部 (オハイオ、バージニア北部)、米国西部 (オレゴン)、および欧州 (フランクフルト、アイルランド) のリージョンで利用できます。

SageMaker Profiler は、トレーニングインスタンスタイプ ml.p4d.24xlarge、ml.p3dn.24xlarge、および ml.g4dn.12xlarge で使用できます。

サポートされているフレームワークとバージョンの完全なリストについては、以下を参照してください。ドキュメント.

SageMaker Profiler は、SageMaker 無料利用枠または機能の無料試用期間が終了した後に料金が発生します。詳細については、「」を参照してください。 Amazon SageMakerの価格.

SageMaker プロファイラーのパフォーマンス

SageMaker Profiler のオーバーヘッドをさまざまなオープンソースプロファイラーと比較しました。比較に使用されるベースラインは、プロファイラーを使用せずにトレーニングジョブを実行することで取得されました。

私たちの主な調査結果では、SageMaker Profiler はエンドツーエンドのトレーニング実行のオーバーヘッド時間が少ないため、一般に請求対象となるトレーニング期間が短くなることが明らかになりました。また、オープンソースの代替手段と比較した場合、生成されるプロファイリングデータも少なくなります (最大 10 分の XNUMX)。 SageMaker Profiler によって生成されるプロファイリングアーティファクトが小さいほど、必要なストレージが少なくなるため、コストも節約されます。

まとめ

SageMaker Profiler を使用すると、深層学習モデルをトレーニングする際のコンピューティングリソースの使用状況に関する詳細な洞察を得ることができます。これにより、パフォーマンスのホットスポットとボトルネックを解決してリソースを効率的に使用できるようになり、最終的にはトレーニングコストが削減され、トレーニング全体の期間が短縮されます。

SageMaker Profiler の使用を開始するには、以下を参照してください。ドキュメント.

著者について

ロイ・アレラ は、ドイツのミュンヘンを拠点とする AWS のシニア AI/ML スペシャリストソリューションアーキテクトです。 Roy は、小規模なスタートアップから大企業まで、AWS の顧客が AWS 上で大規模な言語モデルを効率的にトレーニングしてデプロイできるよう支援します。 Roy は、計算最適化問題と AI ワークロードのパフォーマンスの向上に情熱を注いでいます。

Amazon SageMaker Profiler のプレビューの発表: モデルトレーニングワークロードの詳細なハードウェアパフォーマンスデータを追跡および視覚化 |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 スシャント・ムーン インドの AWS のデータサイエンティストで、AI/ML の取り組みを通じて顧客を指導することに特化しています。小売、金融、保険の分野にわたる多様な背景を持ち、革新的でカスタマイズされたソリューションを提供しています。スシャントは職業生活を超えて、水泳に若返りを見出し、さまざまな場所への旅行からインスピレーションを求めています。

Amazon SageMaker Profiler のプレビューの発表: モデルトレーニングワークロードの詳細なハードウェアパフォーマンスデータを追跡および視覚化 |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ディクシャ・シャルマ Worldwide Specialist Organization の AI/ML スペシャリストソリューションアーキテクトです。彼女は公共部門の顧客と協力して、AWS 上の生成 AI ソリューションを含む、効率的で安全かつスケーラブルな機械学習アプリケーションの設計を支援しています。ディクシャは余暇には、本を読んだり、絵を描いたり、家族と時間を過ごすのが大好きです。