Amazon SageMaker の支出を分析し、使用量に基づいてコスト最適化の機会を決定する、パート 4: トレーニングジョブ |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

2021年に、 AWS サポートプロアクティブサービスの一部として AWSエンタープライズサポートプラン。導入以来、私たちは何百ものお客様のワークロードの最適化、ガードレールの設定、機械学習 (ML) ワークロードのコストと使用状況の可視性の向上を支援してきました。

この一連の投稿では、コストの最適化について学んだ教訓を共有します。アマゾンセージメーカー。この投稿では、SageMaker のトレーニングジョブに焦点を当てます。

SageMakerトレーニングジョブ

SageMaker トレーニングジョブは、ML モデルのトレーニングと最適化のための機能が組み込まれた非同期バッチプロセスです。

SageMaker トレーニングジョブでは、独自のアルゴリズムを使用することも、25 を超える組み込みアルゴリズムから選択することもできます。 SageMaker は、さまざまなデータソースとアクセスパターン、異種クラスターを含む分散トレーニング、実験管理機能、自動モデルチューニングをサポートしています。

トレーニングジョブのコストは、インスタンスの実行期間 (秒単位) で使用するリソース (インスタンスとストレージ) に基づきます。これには、トレーニングが行われる時間が含まれます。温水プール機能、構成するキープアライブ期間。で第1部の使用を開始する方法を説明しました。 AWSコストエクスプローラー SageMaker でのコスト最適化の機会を特定します。使用量タイプにフィルターを適用することで、トレーニングコストをフィルターできます。これらの使用タイプの名前は次のとおりです。

REGION-Train:instanceType （例えば、 USE1-Train:ml.m5.large)
REGION-Train:VolumeUsage.gp2 （例えば、 USE1-Train:VolumeUsage.gp2)

Cost Explorer でトレーニングコストの内訳を表示するには、次のように入力します。 train: の接頭辞として 使用タイプ。使用時間のみをフィルターすると (次のスクリーンショットを参照)、Cost Explorer はコストと使用量の XNUMX つのグラフを生成します。このビューは、最適化の機会に優先順位を付け、実行時間が長くコストがかかるインスタンスを特定するのに役立ちます。

Amazon SageMaker の支出を分析し、使用量に基づいてコスト最適化の機会を決定する、パート 4: トレーニングジョブ |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

既存のトレーニングジョブを最適化する前に、次のベストプラクティスに従うことをお勧めします。 Amazon SageMaker を使用した機械学習のコストの最適化: コードをローカルでテストして使用しますローカルモードテストには、可能な場合は事前トレーニングされたモデルを使用し、次のことを考慮してください。マネージドスポットトレーニング (オンデマンドインスタンスよりもコストを最大 90% 最適化できます)。

オンデマンドジョブが開始されると、開始、ダウンロード、トレーニング、アップロード、完了の XNUMX つのフェーズを経ます。これらのフェーズと説明は、SageMaker コンソールのトレーニングジョブのページで確認できます。

価格の観点から見ると、ダウンロード、トレーニング、アップロードの各フェーズに対して料金が発生します。

これらのフェーズを確認することは、トレーニングコストを最適化する場所を診断するための最初のステップです。この投稿では、ダウンロードとトレーニングのフェーズについて説明します。

ダウンロード段階

前の例では、ダウンロードフェーズにかかる時間は XNUMX 分未満でした。ただし、データのダウンロードがトレーニングコストの大きな要素である場合は、使用しているデータソースとアクセス方法を考慮する必要があります。 SageMaker トレーニングジョブは、次の XNUMX つのデータソースをネイティブでサポートします。 AmazonElasticファイルシステム（Amazon EFS）、 Amazon シンプルストレージサービス (Amazon S3)、および光沢のためのAmazonFSx。 Amazon S3 の場合、SageMaker はアルゴリズムがトレーニングにアクセスできる XNUMX つの管理された方法を提供します: ファイルモード (データがインスタンスのブロックストレージにダウンロードされる)、パイプモード (データがインスタンスにストリーミングされるため、ダウンロードフェーズの時間が不要になります)高速ファイルモード (既存のファイルモードの使いやすさとパイプモードのパフォーマンスを組み合わせたもの)。適切なデータソースとアクセス方法の選択に関する詳細なガイダンスについては、以下を参照してください。 AmazonSageMakerトレーニングジョブに最適なデータソースを選択してください.

マネージドスポットトレーニングを使用する場合、中断により発生したダウンロードフェーズの繰り返しには料金はかかりません (したがって、データダウンロードの期間に対して XNUMX 回だけ料金が請求されます)。

SageMaker トレーニングジョブは前述のデータソースをサポートしていますが、必須ではないことに注意することが重要です。トレーニングコードでは、任意のソースからトレーニングデータをダウンロードする任意のメソッドを実装できます (トレーニングインスタンスがアクセスできる場合)。マルチプロセッシングを備えた Boto3 API を使用してファイルを同時にダウンロードしたり、WebDataset や s5cmd などのサードパーティライブラリを使用して Amazon S3 からのダウンロードを高速化するなど、ダウンロード時間を短縮する追加の方法があります。詳細については、以下を参照してください。 s3cmd を使用した S5 ワークロードの並列化.

トレーニング段階

トレーニングフェーズのコストの最適化は、適切なインフラストラクチャ (インスタンスファミリとサイズ) の選択とトレーニング自体の最適化という XNUMX つのベクトルの最適化で構成されます。トレーニングインスタンスは、主に深層学習モデル用の高速 GPU ベースと、一般的な ML フレームワーク用の CPU ベースの XNUMX つのカテゴリに大まかに分類できます。トレーニングに適切なインスタンスファミリーを選択するためのガイダンスについては、以下を参照してください。 Amazon SageMaker で効率的なコンピューティングリソースを確保する。トレーニングに GPU インスタンスが必要な場合は、ビデオを参照することをお勧めします。ディープラーニング用の Amazon EC2 GPU インスタンスを選択する方法.

一般的なガイダンスとして、ワークロードに NVIDIA GPU が必要な場合、お客様は XNUMX つの GPU を使用することで大幅なコスト削減が得られることがわかりました。アマゾンエラスティックコンピューティングクラウド (Amazon EC2) インスタンスタイプ: ml.g4dn および ml.g5。 ml.g4dn には NVIDIA T4 が搭載されており、メモリあたりのコストが特に低くなります。 ml.g5 インスタンスには NVIDIA A10g Tensor コアが搭載されており、CUDA フロップあたりのコストが最も低くなります (fp32)。

AWS は、ディープラーニングトレーニング向けに特定のコスト削減機能を提供します。

インスタンスのサイズを適切に調整して最適化するには、まず次の点を確認する必要があります。アマゾンクラウドウォッチトレーニングジョブが生成するメトリクス。詳細については、以下を参照してください。 SageMaker ジョブとエンドポイントメトリクス。 CloudWatch をさらに使用することもできますトレーニングのパフォーマンスを監視するためのカスタムアルゴリズムメトリクス.

これらのメトリクスは、リソースのボトルネックまたは過剰プロビジョニングを示す可能性があります。たとえば、GPU 使用率が低くても CPU が高いことが観察されている場合は、次のようにして問題に対処できます。異種クラスタ。別の例としては、ジョブ期間中一貫して CPU 使用率が低いことが挙げられます。これにより、インスタンスのサイズが削減される可能性があります。

あなたが使用している場合分散トレーニング、さまざまな分散方法 (タワー、Ring-AllReduce、ミラーリングなど) をテストして最大使用率を検証し、それに応じてフレームワークパラメーターを微調整する必要があります (例については、を参照してください)。 Amazon SageMaker での TensorFlow 1.x アクセラレーショントレーニングのベストプラクティス）。 SageMaker ディストリビューション API と次のようなライブラリを使用できることを強調することが重要です。 SageMaker 分散データ並列, SageMaker モデルパラレル, SageMaker シャードデータパラレル、AWS インフラストラクチャ向けに最適化されており、トレーニングコストの削減に役立ちます。

分散トレーニングは必ずしも線形にスケールするとは限らず、オーバーヘッドが発生する可能性があり、それが全体の実行時間に影響を与える可能性があることに注意してください。

深層学習モデルの場合、混合精度を使用する別の最適化手法もあります。混合精度を使用するとトレーニングを高速化できるため、モデルの精度への影響を最小限に抑えながら、トレーニング時間とメモリ使用量の両方を削減できます。詳細については、「 データ並列とモデル並列によるトレーニング のセクション Amazon SageMaker での分散トレーニング.

最後に、フレームワーク固有のパラメーターを最適化すると、トレーニングプロセスの最適化に大きな影響を与える可能性があります。 SageMaker自動モデル調整選択した客観的なメトリクスによって測定され、最高のパフォーマンスを発揮するハイパーパラメータを見つけます。トレーニング時間を客観的なメトリックとして設定し、フレームワーク構成をハイパーパラメーターとして設定すると、ボトルネックを解消し、全体のトレーニング時間を短縮できます。デフォルトの TensorFlow 設定を最適化し、CPU ボトルネックを除去する例については、を参照してください。 Aeroboticsは、Amazon SageMakerとTensorFlowを使用して、サンプルごとにトレーニング速度を24倍向上させます.

ダウンロード時間と処理時間の両方を最適化するもう XNUMX つの方法は、データのサブセットでのトレーニングを検討することです。データが複数の重複エントリまたは情報利得の低い特徴で構成されている場合は、データのサブセットでトレーニングして、ダウンロードとトレーニングの時間を短縮したり、より小さなインスタンスを使用したり、 Amazon Elastic Blockストア (Amazon EBS) ボリューム。例については、以下を参照してください。データ中心のアプローチを使用して、Amazon SageMaker モデルのトレーニングに必要なデータ量を最小限に抑えるよりも優先されます。また、 AmazonSageMakerデータラングラートレーニングサンプルの分析と作成を簡素化できます。詳細については、以下を参照してください。 Amazon SageMaker Data Wranglerを使用して、ランダムで層化されたデータのサンプルを作成します.

SageMakerデバッガー

効率的なトレーニングとリソースの利用を確保するために、SageMaker は次を使用してトレーニングジョブをプロファイリングできます。 Amazon SageMakerデバッガ。デバッガのオファー組み込みルール CPU ボトルネック、GPU メモリの増加、I/O ボトルネックなど、トレーニングに影響を与える一般的な問題について警告することも、独自のルールを作成することもできます。生成されたレポートにアクセスして分析できます。 Amazon SageMakerスタジオ。詳細については、を参照してください。 Amazon SageMaker Studio Experiments の Amazon SageMaker デバッガー UI。次のスクリーンショットは、Studio のデバッガービューを示しています。

Python 演算子と関数 ( GPU での主な操作 セクション) は、トレーニングジョブを実行するために実行されます。トレーニング開始前のデータダウンロードによる過剰なトレーニング初期化時間やトレーニングループ内のステップ期間の外れ値など、監視フレームワークの操作関連の問題をプロファイリングするためのデバッガー組み込みルール。組み込みルールの使用は無料ですが、カスタムルールの料金は、トレーニングジョブの期間中に構成したインスタンスとそれに接続されているストレージに基づいて適用されることに注意してください。

まとめ

この投稿では、SageMaker トレーニングジョブを使用して ML モデルをトレーニングする際のコスト分析とベストプラクティスに関するガイダンスを提供しました。機械学習が業界全体で強力なツールとしての地位を確立するにつれて、ML モデルのトレーニングと実行はコスト効率を維持する必要があります。 SageMaker は、ML パイプラインの各ステップを促進するための幅広く深い機能セットを提供し、パフォーマンスや俊敏性に影響を与えることなくコストを最適化する機会を提供します。

著者について

ディーパリ・ラジャレ AWS のシニア AI/ML スペシャリストです。彼女は企業顧客と協力して、AWS エコシステムで AI/ML ソリューションをデプロイおよび維持するためのベストプラクティスに関する技術ガイダンスを提供しています。彼女は、NLP とコンピュータービジョンを含むさまざまな深層学習のユースケースについて、幅広い組織と協力してきました。彼女は、組織が生成 AI を活用して使用エクスペリエンスを向上できるようにすることに情熱を注いでいます。余暇には、映画、音楽、文学を楽しんでいます。

ユリ・ローゼンバーグ は、ヨーロッパ、中東、アフリカの AI および ML スペシャリストテクニカルマネージャーです。 Uri はイスラエルに拠点を置き、ML に関するあらゆる分野で企業顧客が大規模に設計、構築、運用できるよう支援することに取り組んでいます。余暇には、サイクリング、ハイキング、エントロピーの増大を楽しんでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
PREIPO® を使用して PRE-IPO 企業の株式を売買します。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/part-4-analyze-amazon-sagemaker-spend-and-determine-cost-optimization-opportunities-based-on-usage-part-4-training-jobs/

タイムスタンプ： 2023 年 5 月 30 日

タイムスタンプ： 2022 年 8 月 10 日

プラトン再発行

Amazon SageMaker Pipelines を使用して、コンピュータービジョン皮膚病変分類器のソリューションを構築する

Bundesliga Match Fact Pressure Handling: AWS でのプレッシャーの高い状況でのプレーヤーのパフォーマンスの評価

パート4：NatWestGroupがMLモデルをAmazonSageMakerアーキテクチャに移行した方法

Amazon SageMaker JumpStart によるゼロショットテキスト分類 | アマゾンウェブサービス

AmazonSageMakerAutopilotが時系列データをサポートするようになりました

倹約性と精度の融合: AWS Trainium を使用した GPT NeoX および Pythia モデルのコスト効率の高いトレーニング | アマゾンウェブサービス

Amazon SageMaker 自動モデルチューニングが SageMaker トレーニングインスタンスのフォールバックをサポートするようになりました

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー