Amazon SageMaker トレーニングマネージド型ウォームプールのベストプラクティス

プラトン再発行

フォロワー： 0

Amazon SageMaker Training Managed Warm Pools を使用すると、ユーザーが定義した期間、基盤となるインフラストラクチャを再利用して保持することを柔軟に選択できます。これは、コンピューティングインスタンスを管理するという差別化されていない重労働を Amazon SageMaker モデルトレーニング. この投稿では、SageMaker Training Managed Warm Pools によって対処される主な利点と問題点、およびベンチマークとベストプラクティスについて概説します。

SageMaker トレーニングマネージドウォームプールの概要

SageMaker Model Training は、ジョブごとにインスタンスをスピンアップし、モデルをトレーニングし、実行して、ジョブの後にインスタンスをスピンダウンするフルマネージド機能です。秒までのジョブの期間に対してのみ請求されます。この完全に管理された機能により、モデルのトレーニング中に、インフラストラクチャ管理などの差別化されていない重労働について心配することなく、自由に機械学習 (ML) アルゴリズムに専念できます。

このメカニズムでは、トレーニングジョブの起動時間が限られています。この起動時間は、 コールドスタート起動時間、かなり低いですが、最も要求の厳しい顧客のユースケースの一部では、20 秒未満など、さらに短い起動時間が必要です。これらの要件を持つ XNUMX つの顕著な使用例があります。

XNUMX つ目は、データサイエンティストによるアクティブな ML 実験です。アマゾンセージメーカートレーニングプラットフォーム、特に GPT3 のような大規模なモデルのトレーニング中は、本番環境で使用できる状態にするために複数回の反復が必要です。
XNUMX つ目は、スケジュールされた頻度で、同じ種類のインスタンスで多数 (数百または数千のオーダー) の連続したジョブをプログラムによって起動することです。たとえば、パラメーター検索やインクリメンタルトレーニングなどです。

このようなユースケースでは、トレーニングジョブの起動時間などのオーバーヘッドに費やされる XNUMX 秒ごとに、これらすべてのジョブに累積的な影響があります。

SageMaker Training Managed Warm Pools を使用すると、データサイエンティストと ML エンジニアは、SageMaker トレーニングインスタンスまたはマルチインスタンスクラスターを事前に指定された再構成可能な時間、ウォーム状態に保つことを選択できます (keep_alive_period_in_seconds) 各トレーニングジョブが完了した後。そのため、インスタンスまたはクラスターで実行される最初のトレーニングジョブでコールドスタートペナルティが発生したとしても、その後のすべてのトレーニングジョブで、インスタンスはすでに稼働しています。その結果、インスタンスで開始されるこれらの後続のトレーニングジョブは、 keep_alive_period_in_seconds 期限が切れても、コールドスタートの起動時間のオーバーヘッドは発生しません。これにより、トレーニングジョブの起動時間を約 20 秒未満に短縮できます (P90)。

データサイエンティストと ML エンジニアは、SageMaker Training Managed Warm Pools を使用して、実験用のトレーニング実行間で単一または複数のインスタンスをウォーム状態に維持したり、同じ単一または複数インスタンスのクラスターで複数のジョブを連続して実行したりできます。お支払いいただくのは、トレーニングジョブと再構成可能な期間の料金のみです。 keep_alive_period_in_seconds 単一のインスタンスごとに指定する他の場所と同様です。

本質的に、SageMaker Training Managed Warm Pools を使用すると、SageMaker マネージドインスタンスの使用率と、容量をオプトインしてプロビジョニングし、短い間隔で使用率を自己管理する機能を組み合わせることができます。これらの間隔はジョブの前に構成できますが、 keep_alive_period_in_seconds 間隔を減らすか増やす必要があります。そうすることができます。に増加します keep_alive_period_in_seconds インスタンスまたはクラスターの最大期間は 60 日間で、最大 7 分の間隔で実行できます。

温水プールを始めるには、まずウォームプールクォータ制限の引き上げをリクエストする、次に指定します keep_alive_period_in_seconds パラメーター研修の仕事を始めるとき。

ベンチマーク

1.34 GB の TensorFlow イメージ、2 GB のデータ、およびさまざまなトレーニングデータ入力モード (Amazon FSx、高速ファイルモード、ファイルモード) を使用して、ジョブの起動レイテンシを測定するベンチマークテストを実行しました。テストは、us-east-4 リージョンの m4、c5、m5、c2 ファミリーのさまざまなインスタンスタイプで実行されました。起動レイテンシは、ジョブの作成からインスタンスでの実際のトレーニングジョブの開始までの時間として測定されました。クラスターを開始し、ウォームプールを作成した最初のジョブの起動待ち時間は 2 ～ 3 分でした。この待ち時間の増加は、インフラストラクチャのプロビジョニング、イメージのダウンロード、およびデータのダウンロードにかかる時間によるものです。ウォームプールクラスターを利用した後続ジョブの起動レイテンシーは、Fast File Mode (FFM) または Amazon FSx で約 20 秒、File Mode (FM) で 70 秒でした。このデルタは、FM がジョブの開始前に Amazon S3 からデータセット全体をダウンロードすることを要求した結果です。

トレーニングデータ入力モードの選択は、ウォームプールを使用する場合でも、起動時間に影響します。どの入力モードを選択するかについてのガイダンスは、この投稿の後半のベストプラクティスセクションにあります。

次の表は、さまざまなトレーニングデータ入力モードのジョブ起動レイテンシ P90 をまとめたものです。

データ入力モード	起動待ち時間 P90 (秒)
データ入力モード	最初の仕事	ウォームプールジョブ (XNUMX つ目以降のジョブ)
FSx	136	19
高速ファイルモード	143	21
ファイルモード	176	70

ウォームプールを使用するためのベストプラクティス

次のセクションでは、ウォームプールを使用する際のベストプラクティスをいくつか紹介します。

いつ温水プールを使用する必要がありますか?

次のシナリオでは、ウォームプールをお勧めします。

一連の短いジョブでスクリプトをインタラクティブに実験および調整しています。
独自のカスタムメイドの大規模なハイパーパラメータ最適化を実行しています (たとえば、シネ・チューン).
毎日または毎週の頻度で、同じ種類のインスタンスで多数 (数百または数千のオーダー) の連続したジョブを実行するバッチプロセスがあります。たとえば、都市ごとに ML モデルをトレーニングします。

有効期限が切れる前に誰かがウォームプールを再利用する可能性が低い場合、ウォームプールはお勧めしません。たとえば、自動化された ML パイプラインを介して実行される単一の長いジョブです。

ウォームプールトレーニングジョブの起動待ち時間を最小限に抑える

ウォームプールを再利用するトレーニングジョブは、ウォームプールを作成した最初のジョブよりも速く開始されます。これは、キャッシュされたトレーニングコンテナー Docker イメージを使用してジョブ間で ML インスタンスを実行し続け、コンテナーのプルをスキップするためです。 Amazon エラスティックコンテナレジストリ (アマゾン ECR)。ただし、ウォームプールを再利用する場合でも、すべてのジョブに対して特定の初期化手順が発生します。これらの手順を最適化すると、ジョブの起動時間を短縮できます (最初のジョブと後続のジョブの両方)。次の点を考慮してください。

トレーニングデータ入力モードは起動時間に影響を与える可能性があります – 管理されたトレーニングデータ入力チャネルは、トレーニングジョブごとに再作成されるため、ジョブの起動の待ち時間が長くなります。そのため、小さなデータセットで初期実験を行うと、起動時間 (およびトレーニング時間) が短縮されます。実験の後の段階で大規模なデータセットが必要な場合は、初期化時間が最小または固定の入力モードタイプを使用することを検討してください。たとえば、FILE 入力モードでは、データセット全体がコピーされます。 Amazon シンプルストレージサービス (Amazon S3) をトレーニングインスタンスに送信します。これは、大規模なデータセット (ウォームプールを使用する場合でも) には時間がかかります。高速ファイルモードは、ワークロードを開始する前に Amazon S3 から読み取る必要があるのは S3 オブジェクトメタデータのみであるため、起動のレイテンシーを下げるのに適しています。の光沢のためのAmazonFSxまたは AmazonElasticファイルシステム (Amazon EFS) ファイルシステム入力モードでは、ファイルシステム内のファイル数に関係なく初期化時間が固定されているため、大規模なデータセットを操作する場合に役立ちます。
入力チャンネルの選択方法の詳細については、を参照してください。 AmazonSageMakerトレーニングジョブに最適なデータソースを選択してください.
パッケージのランタイムインストールを減らす – Python の pip やオペレーティングシステムの apt-get など、コンテナーの起動時にソフトウェアをインストールすると、トレーニングジョブの待機時間が長くなります。この起動時の待ち時間を最小限に抑えるには、ランタイムインストールの柔軟性とシンプルさと、コンテナーのビルド時のインストールとの間でトレードオフを行う必要があります。 SageMaker で独自の Docker コンテナを使用する場合は、以下を参照してください。 SageMaker で動作するように独自の Docker コンテナを適応させる。あなたが頼るならビルド済みの SageMaker コンテナイメージ、あなたがする必要がありますビルド済みコンテナを拡張するこれらのコンテナを明示的に管理します。ランタイムのインストールによって起動時の待ち時間が大幅に増加する場合は、これを考慮してください。
Docker イメージを頻繁に更新しない – SageMaker で独自の Docker コンテナを使用する場合は、ジョブを実行するたびに更新しないようにしてください。ジョブの送信の間に Docker イメージが変更された場合、ウォームプールが再利用されますが、起動プロセスでは、キャッシュされたコンテナイメージを再利用する代わりに、Amazon ECR からコンテナイメージを再プルする必要があります。 Docker イメージを更新する必要がある場合は、更新を最後の Docker レイヤーに限定して、Docker レイヤーのキャッシュを利用します。理想的には、ハイパーパラメーター、データセット定義、ML コード自体など、反復によって変更される可能性が高い Dockerfile コンテンツを削除する必要があります。変更のたびに Docker イメージを再構築することなく ML コードを反復するには、SageMaker トレーニングツールキットで提唱されているフレームワークコンテナーパラダイムを採用できます。独自のコードでフレームワークコンテナーを開発する場合は、こちらを参照してください。 Amazon SageMaker チュートリアル.

複数のユーザー間でウォームプールを共有する

データサイエンティストの大規模なチームで作業する場合、ウォームプールを共有できます。一致するジョブ条件、同じなど AWS IDおよびアクセス管理 (IAM) ロールまたはコンテナーイメージ。

タイムラインの例を見てみましょう。ユーザー 1 がトレーニングジョブを開始すると、そのジョブが完了し、新しいウォームプールが作成されます。ユーザー 2 がトレーニングジョブを開始すると、ジョブは既存のウォームプールを再利用するため、ジョブの起動が高速になります。ユーザー 2 のジョブがウォームプールを使用して実行されている間に、別のユーザーがトレーニングジョブを開始すると、XNUMX つ目のウォームプールが作成されます。

この再利用動作は、同様のジョブを開始するユーザー間でウォームプールを共有することにより、コストを削減するのに役立ちます。ユーザー間でウォームプールを共有したくない場合は、ユーザーのジョブに一致するジョブ条件 (たとえば、別の IAM ロールを使用する必要があります)。

ジョブの完了時にユーザーに通知する

実験にウォームプールを使用する場合は、ジョブの完了時にユーザーに通知することをお勧めします。これにより、ユーザーはウォームプールの有効期限が切れる前に実験を再開できます。 stop 不要になった場合は、ウォームプール。あなたもすることができます通知を自動的にトリガーする　アマゾンイベントブリッジ.

迅速な実験とトレーニングジョブのトラブルシューティングのためのその他のツール

ウォームプールを使用すると、20 秒未満でジョブを開始できます。一部のシナリオでは、リアルタイムで実践的なインタラクティブな実験とトラブルシューティングが必要です。オープンソース SageMaker SSH ヘルパーライブラリ SageMaker トレーニングコンテナにシェルを作成し、リモートでの開発とデバッグを行うことができます。

まとめ

SageMaker Training Managed Warm Pools を使用すると、指定された期間、すべてのジョブの後、モデルトレーニングハードウェアインスタンスをウォーム状態に保つことができます。これにより、モデルトレーニングジョブの起動レイテンシを最大 8 分の XNUMX に短縮できます。 SageMaker Training Managed Warm Pools は、SageMaker Model Training が利用可能なすべてのパブリック AWS リージョンで利用できます。

開始するには、を参照してください SageMaker マネージドウォームプールを使用したトレーニング.

著者について

ロミ・ダッタ博士 Amazon SageMaker チームの製品管理のシニアマネージャーで、トレーニング、処理、機能ストアを担当しています。彼は AWS に 4 年以上勤務しており、SageMaker、S3、および IoT でいくつかの製品管理のリーダーシップの役割を果たしています。 AWS に入社する前は、IBM、Texas Instruments、および Nvidia で、さまざまな製品管理、エンジニアリング、および運用上のリーダーシップの役割を果たしてきました。修士号と博士号を取得しています。テキサス大学オースティン校で電気工学およびコンピュータ工学の学士号を取得し、シカゴ大学ブースビジネススクールで MBA を取得しています。

アルン・ナガラジャン Amazon SageMaker チームのプリンシパルエンジニアであり、トレーニングと MLOps の分野に重点を置いています。彼は立ち上げの年から SageMaker チームに所属しており、リアルタイム推論やモデルモニター製品など、SageMaker のさまざまな分野に貢献することを楽しんでいます。彼は、太平洋岸北西部地域のアウトドアを探索し、山に登るのが好きです。

エイミー・ユー AWS SageMaker のソフトウェア開発マネージャーです。彼女は、ソフトウェアエンジニアのチームをまとめて、お客様が ML モデルをより効率的かつ簡単にトレーニングできるようにする SageMaker Training プラットフォームの新しい機能を構築、維持、開発することに重点を置いています。彼女は ML と AI テクノロジーに情熱を傾けており、特に大学院での研究で得たイメージとビジョンに関連しています。余暇には、家族と一緒に音楽やアートに取り組むのが大好きです。

リー・シフェイ 彼女は Amazon AI のソフトウェアエンジニアであり、Amazon Machine Learning Platform の構築に取り組んでおり、Amazon SageMaker の立ち上げチームの一員でした。余暇には、音楽の演奏と読書が好きです。

ジェナ・ジャオ AWS SageMaker のソフトウェア開発エンジニアです。彼女は ML/AI テクノロジーに情熱を傾けており、顧客が機械学習モデルを迅速かつ簡単にトレーニングできるようにする SageMaker トレーニングプラットフォームの構築に注力しています。仕事以外では、旅行や家族との時間を楽しんでいます。

パラス・メーラ AWS のシニアプロダクトマネージャーです。彼は、Amazon SageMaker のトレーニングと処理の構築を支援することに専念しています。余暇には、パラスは家族と過ごしたり、ベイエリアでロードバイクを楽しんだりしています。あなたは彼を見つけることができます LinkedIn.

ギリナチュム は、EMEAのAmazonMachineLearningチームの一員として働くシニアAI/MLスペシャリストソリューションアーキテクトです。 Giliは、ディープラーニングモデルのトレーニングの課題と、機械学習が世界をどのように変えているかについて情熱を注いでいます。暇なときは、ギリは卓球を楽しんでいます。

オリヴィエ・クルシャン フランスを拠点とするAWSの機械学習スペシャリストソリューションアーキテクトです。 Olivierは、小規模なスタートアップから大企業まで、AWSのお客様が本番環境グレードの機械学習アプリケーションを開発およびデプロイするのを支援します。余暇には、研究論文を読んだり、友人や家族と一緒に荒野を探索したりしています。

エミリー・ウェバー SageMakerがリリースされた直後にAWSに参加し、それ以来、世界中にそのことを伝えようとしています。エミリーは、顧客のために新しいML体験を構築する以外に、チベット仏教の瞑想と勉強を楽しんでいます。

タイムスタンプ： 2022 年 12 月 16 日2022 年 12 月 18 日

Amazon SageMaker トレーニングマネージド型ウォームプールのベストプラクティス

プラトン再発行

SageMaker トレーニングマネージドウォームプールの概要

ベンチマーク