Amazon SageMaker トレーニングジョブに最適なデータソースを選択する

プラトン再発行

フォロワー： 0

アマゾンセージメーカーは、機械学習 (ML) モデルの構築、トレーニング、デプロイを容易にするマネージドサービスです。データサイエンティストは、SageMaker トレーニングジョブを使用して、ML モデルを簡単にトレーニングします。コンピューティングリソースの管理について心配する必要はなく、実際のトレーニング時間に対してのみ料金を支払います。データの取り込みはあらゆるトレーニングパイプラインに不可欠な部分であり、SageMaker トレーニングジョブは、幅広いトレーニングワークロードに適合するさまざまなデータストレージと入力モードをサポートしています。

この投稿は、SageMaker ML トレーニングのユースケースに最適なデータソースを選択するのに役立ちます。 SageMaker トレーニングジョブがネイティブにサポートするデータソースオプションを紹介します。データソースと入力モードごとに、その使いやすさ、パフォーマンス特性、コスト、制限事項について概説します。すぐに開始できるように、主要なワークロードの特性に基づいて従うことができるサンプルの意思決定フローを図に示します。最後に、現実的なトレーニングシナリオに対していくつかのベンチマークを実行し、全体的なトレーニングのコストとパフォーマンスに対する実際的な影響を示します。

ネイティブ SageMaker データソースと入力モード

パフォーマンスの高い方法でトレーニングデータを簡単かつ柔軟に読み取ることは、ML トレーニングで繰り返し発生する一般的な懸念事項です。 SageMaker は、データソースと呼ばれる効率的で高スループットのデータ取り込みメカニズムとそれぞれの入力モードを選択することにより、データの取り込みを簡素化します。これにより、実際のデータソースからトレーニングコードを分離し、ファイルシステムを自動的にマウントし、高パフォーマンスで読み取り、GPU とインスタンス間のデータシャーディングを簡単にオンにしてデータの並列処理を可能にし、各エポックの開始時にデータを自動シャッフルすることができます。

SageMaker トレーニング取り込みメカニズムは、次の XNUMX つの AWS マネージドストレージサービスとネイティブに統合されています。

Amazon シンプルストレージサービス (Amazon S3) は、業界をリードするスケーラビリティ、データ可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスです。
光沢のためのAmazonFSx は、人気のある Lustre ファイルシステムの拡張性とパフォーマンスを備えたフルマネージドの共有ストレージです。通常、既存の S3 バケットにリンクされます。
AmazonElasticファイルシステム (Amazon EFS) は、複数の価格帯を持つ汎用、スケーラブル、可用性の高い共有ファイルシステムです。 Amazon EFS はサーバーレスであり、ファイルを追加および削除すると自動的に拡大および縮小します。

SageMaker トレーニングを使用すると、トレーニングスクリプトは、Amazon S3、FSx for Lustre、または Amazon EFS に保存されているデータセットに、あたかもローカルファイルシステム上で利用できるかのように (POSIX 準拠のファイルシステムインターフェイス経由で) アクセスできます。

データソースとして Amazon S3 を使用すると、ファイルモード、FastFile モード、およびパイプモードのいずれかを選択できます。

ファイルモード – SageMaker は、Amazon S3 から ML インスタンスストレージにデータセットをコピーします。 Amazon Elastic Blockストア (Amazon EBS) ボリュームまたは NVMe SSD ボリューム (トレーニングスクリプトを開始する前)。
高速ファイルモード – SageMaker は、Amazon S3 に存在するデータセットをトレーニングインスタンス上の POSIX ファイルシステムとして公開します。データセットファイルは、トレーニングスクリプトがデータセットファイルを読み取るときに、オンデマンドで Amazon S3 からストリーミングされます。
パイプモード – SageMaker は、Amazon S3 にあるデータセットを Unix パイプとして ML トレーニングインスタンスにストリーミングします。これは、トレーニングスクリプトがパイプからデータを読み取るときにオンデマンドで Amazon S3 からストリーミングします。

FSx for Lustre または Amazon EFS をデータソースとして使用すると、SageMaker はトレーニングスクリプトを開始する前にファイルシステムをマウントします。

トレーニング入力チャンネル

SageMaker トレーニングジョブを起動するときは、最大 20 個の管理対象ジョブを指定できます。トレーニング入力チャンネル。チャネルは、アルゴリズムコードがファイルシステムパスから読み取るために利用できるデータをどこでどのように取得するかをトレーニングジョブに指示するための抽象化単位と考えることができます (たとえば、 /opt/ml/input/data/input-channel-name) ML インスタンス上。選択したトレーニングチャネルは、トレーニングジョブの再現性やモデルガバナンス目的などのユースケースで完全なモデルリネージ追跡を可能にするために、トレーニングジョブメタデータの一部としてキャプチャされます。

Amazon S3 をデータソースとして使用するには、トレーニングインプット次のように指定します。

入力モード (File、FastFile、または Pipe モード)
販売 & シャッフリングの監視
An S3DataType データセットを構成する Amazon S3 内のオブジェクトを指定する XNUMX つの方法の XNUMX つとして使用します。
- S3Prefix (S3 プレフィックスの下にあるすべてのオブジェクト)
- マニフェストファイル (S3 オブジェクトのリスト)
- 拡張されたマニフェストファイル (S3 オブジェクトとそれぞれのラベルのリスト)

あるいは、FSx for Lustre または Amazon EFS の場合は、ファイルシステム入力.

次の図は、それぞれが異なるデータソースと入力モードの組み合わせで構成された XNUMX つのトレーニングジョブを示しています。

データソースと入力モード

次のセクションでは、Amazon S3 (ファイルモード、FastFile モード、および Pipe モード)、FSx for Lustre、および SageMaker 取り込みメカニズムとしての Amazon EFS の違いを詳しく説明します。

Amazon S3 ファイルモード

ファイルモードはデフォルトの入力モード (明示的に指定しなかった場合) であり、より簡単に使用できます。この入力オプションを使用すると、SageMaker は、モデルのトレーニングを開始する前に、ユーザーに代わって Amazon S3 から ML トレーニングインスタンスストレージ (インスタンスタイプに応じて Amazon EBS またはローカル NVMe) にデータセットをダウンロードします。これにより、トレーニングスクリプトは、トレーニングスクリプトからデータセットを読み取ることができます。ローカルファイルシステム。この場合、インスタンスには、データセット全体に適合するのに十分なストレージ容量が必要です。

S3 プレフィックス、マニフェストファイル、または拡張マニフェストファイルのいずれかを指定して、ファイルモードのデータセットを構成します。

すべてのデータセットファイルが共通の S3 プレフィックス内にある場合は、S3 プレフィックスを使用する必要があります (サブフォルダーは問題ありません)。

マニフェストファイルには、データセットを構成するファイルがリストされます。通常、マニフェストは、データ前処理ジョブがマニフェストファイルを生成する場合、またはデータセットファイルが複数の S3 プレフィックスにまたがる場合に使用します。拡張マニフェストは JSON 行ファイルで、各行には Amazon S3 内のファイルへの参照などの属性のリストと、追加の属性 (主にラベル) が含まれます。その使用例はマニフェストの使用例と似ています。

ファイルモードは互換性があります SageMaker ローカルモード (SageMaker トレーニングコンテナを数秒で対話的に開始します)。分散トレーニングの場合、次のコマンドを使用して複数のインスタンスにわたってデータセットをシャーディングできます。 ShardedByS3Key オプションを選択します。

ファイルモードのダウンロード速度は、データセットサイズ、平均ファイルサイズ、ファイル数によって異なります。たとえば、データセットが大きくなるほど (またはデータセットに含まれるファイルが多くなればなるほど)、ダウンロード段階は長くなり、その間、インスタンスのコンピューティングリソースは実質的にアイドル状態のままになります。スポットインスタンスを使用してトレーニングする場合、スポットの中断後にジョブが再開されるたびにデータセットがダウンロードされます。通常、データのダウンロードは、大きなファイルの場合、約 200 MB/秒で行われます (たとえば、5 分/50 GB)。この起動時のオーバーヘッドが許容できるかどうかは、主にトレーニングジョブの全体的な期間によって決まります。これは、トレーニングフェーズが長いほどダウンロードフェーズが比例して短くなることを意味するためです。

Amazon S3 FastFile モード

FastFile モードは、トレーニングインスタンスのローカルディスク上でファイルが利用可能であるかのように、POSIX 準拠のファイルシステムインターフェイスを介して S3 オブジェクトを公開し、トレーニングスクリプトによってデータが消費されるときにオンデマンドでコンテンツをストリーミングします。つまり、データセットをトレーニングインスタンスのストレージスペースに収める必要がなくなり、トレーニングを開始する前にデータセットがトレーニングインスタンスにダウンロードされるのを待つ必要がなくなりました。

これを容易にするために、SageMaker はトレーニングスクリプトを実行する前に、指定された S3 プレフィックスの下に保存されているすべてのオブジェクトメタデータをリストします。このメタデータは、読み取り専用のファイルを作成するために使用されます。 FUSE (ユーザー空間のファイルシステム) これはトレーニングスクリプトで利用できます。 /opt/ml/data/training-channel-name。 S3 オブジェクトのリスト表示は、サイズに関係なく、5,500 秒あたり 3 個のオブジェクトの速度で実行されます。これは、ファイルモードの場合と同様に、事前にファイルをダウンロードするよりもはるかに高速です。トレーニングスクリプトの実行中、ファイルがローカルで利用可能であるかのようにファイルを一覧表示したり、読み取ったりできます。各読み取り操作は FUSE サービスに委任され、実際のファイルのコンテンツを呼び出し元に配信するために Amazon SXNUMX への GET リクエストをプロキシします。ローカルファイルシステムと同様に、FastFile はファイルをバイトとして扱うため、ファイル形式に依存しません。 FastFile モードは、複数のワーカーを使用して大きなファイルを順次読み取る場合、XNUMX GB/秒を超えるスループットに達する可能性があります。 FastFile を使用して小さなファイルを読み取ったり、ランダムなバイト範囲を取得したりできますが、そのようなアクセスパターンではスループットが低下することが予想されます。多くの小さなファイルを大きなファイルコンテナーにシリアル化し、それらを順番に読み取ることで、読み取りアクセスパターンを最適化できます。

FastFile は現在 S3 プレフィックスのみをサポートしており (マニフェストおよび拡張マニフェストはサポートされていません)、FastFile モードは SageMaker ローカルモードと互換性があります。

Amazon S3 パイプモード

パイプモードはもう XNUMX つのストリーミングモードであり、その大部分は、より新しくて使いやすい FastFile モードに置き換えられます。

パイプモードでは、データは高い同時実行性とスループットで Amazon S3 からプリフェッチされ、Unix の名前付き FIFO パイプにストリーミングされます。各パイプは単一のプロセスによってのみ読み取られます。 TensorFlow に対する SageMaker 固有の便利な拡張機能 Pipe モードをネイティブ TensorFlow データローダーに統合しますストリーミングテキスト、TFRecords、または RecordIO ファイル形式の場合。パイプモードは、データのマネージドシャーディングとシャッフルもサポートします。

光沢のためのFSx

FSx for Lustre は、低遅延のファイル取得により、数百 GB/秒のスループットと数百万の IOPS まで拡張できます。

トレーニングジョブを開始するとき、SageMaker は FSx for Lustre ファイルシステムをトレーニングインスタンスファイルシステムにマウントし、トレーニングスクリプトを開始します。マウント自体は比較的高速な操作であり、FSx for Lustre に保存されているデータセットのサイズに依存しません。

多くの場合、FSx for Lustre ファイルシステムを作成し、 S3 バケットとプレフィックスにリンクします。ソースとして S3 バケットにリンクされている場合、ファイルは、トレーニングスクリプトがファイルを読み取るときにファイルシステムに遅延ロードされます。これは、最初のトレーニング実行の最初のエポックの直後に、データセット全体が Amazon S3 から FSx for Lustre ストレージにコピーされることを意味します (トレーニング例ではエポックが単一の完全なスイープとして定義されており、割り当てられた FSx が光沢ストレージは十分な大きさです）。これにより、後続のエポックおよび同じデータセットを使用したトレーニングジョブに対して低遅延のファイルアクセスが可能になります。

また、ワイルドカード*を使用すると、任意の文字にマッチし、XNUMXつのコマンドで複数のファイルを削除することができます。ファイルをファイルシステムにプリロードするこれにより、遅延読み込みによるコールドスタートが軽減されます。同じ FSx for Lustre ファイルシステムによってサービスされる複数のトレーニングジョブを並行して実行することもできます。 FSx for Lustre にアクセスするには、トレーニングジョブが VPC に接続する必要があります (「 VPCConfig 設定)、DevOps のセットアップと関与が必要です。データ転送コストを回避するために、ファイルシステムは単一のアベイラビリティゾーンを使用するため、トレーニングジョブを実行するときにこのアベイラビリティゾーン ID を指定する必要があります。 Amazon S3 を長期データストレージとして使用しているため、高スループットを実現するコスト効率の高い短期ストレージの選択肢として、Scratch 2 ストレージを使用して FSx for Lustre をデプロイし、200 MB/秒のベースラインを提供することをお勧めします。プロビジョニングされたストレージの 1300 TB あたり最大 XNUMX MB/秒のバースト。

FSx for Lustre ファイルシステムが常に実行されていると、ファイルシステムが作成されるのを待たずに新しいトレーニングジョブを開始でき、最初のエポック中のコールドスタートを心配する必要はありません (ファイルはまだキャッシュされている可能性があるため) FSx for Lustre ファイルシステム)。このシナリオの欠点は、ファイルシステムの実行維持に関連する追加コストがかかることです。あるいは、各トレーニングジョブの前後にファイルシステムを作成および削除することもできます (おそらく、スクリプトによる自動化が役立つでしょう)。ただし、FSx for Lustre ファイルシステムの初期化には時間がかかります。これは、保持するファイルの数に比例します。たとえば、Amazon S2 から約 3 万個のオブジェクトのインデックスを作成するには、約 XNUMX 時間かかります)。

アマゾンEFS

ML トレーニング以外のユースケースにより、トレーニングデータがすでに Amazon EFS に存在する場合は、Amazon EFS を使用することをお勧めします。 Amazon EFS をデータソースとして使用するには、トレーニング前にデータが Amazon EFS に存在している必要があります。 SageMaker は、指定された Amazon EFS ファイルシステムをトレーニングインスタンスにマウントし、トレーニングスクリプトを開始します。 Amazon EFS ファイルシステムを構成するときは、レイテンシーに最適化されたデフォルトの汎用パフォーマンスモード (小さなファイルに適しています) と、より高いレベルの総スループットに拡張できる最大 I/O パフォーマンスモードのどちらかを選択する必要があります。 XNUMX 秒あたりの操作数 (多数の I/O ワーカーを使用するトレーニングジョブに適しています)。詳細については、を参照してください。適切なパフォーマンスモードの使用.

さらに、バーストスループットとプロビジョニングスループットの 1 つの従量制スループットオプションから選択できます。 150 TB ファイルシステムのバーストスループットは 300 MB/秒のベースラインを提供しますが、12 日 3072 時間の期間では XNUMX MB/秒までバーストすることができます。より高いベースラインスループットが必要な場合、またはバーストクレジットが何度も不足していることに気付いた場合は、ファイルシステムのサイズを増やすか、プロビジョニングされたスループットに切り替えることができます。プロビジョニングされたスループットでは、最大 XNUMX MB/秒の読み取りまで、必要なベースラインスループットに対して料金を支払います。

トレーニングジョブは VPC に接続する必要があります (「 VPCConfig 設定) Amazon EFS にアクセスします。

最適なデータソースの選択

トレーニングジョブに最適なデータソースは、データセットサイズ、ファイル形式、平均ファイルサイズ、トレーニング期間、シーケンシャルまたはランダムデータローダー読み取りパターン、モデルがトレーニングデータを消費する速度などのワークロードの特性によって異なります。

次のフローチャートは、開始に役立ついくつかのガイドラインを示しています。

Amazon EFS を使用する場合

データセットが主に Amazon EFS に保存されている場合は、ストレージに Amazon EFS を使用する前処理または注釈アプリケーションが存在する可能性があります。 Amazon EFS ファイルシステムを指すデータチャネルで構成されたトレーニングジョブを簡単に実行できます (詳細については、「 Amazon FSx for LusterおよびAmazon EFSファイルシステムを使用して、Amazon SageMakerでのトレーニングを高速化します）。パフォーマンスが期待したほど良くない場合は、最適化オプションを確認してください。 Amazon EFS パフォーマンスガイド、または他の入力モードを検討してください。

小規模なデータセットにはファイルモードを使用する

データセットが Amazon S3 に保存されており、その全体のボリュームが比較的小さい (たとえば、50 ～ 100 GB 未満) 場合は、ファイルモードを使用してみてください。. 50 GB のデータセットをダウンロードするオーバーヘッドは、ファイルの総数によって異なります (たとえば、5 MB のシャードに分割した場合は約 100 分)。この起動時のオーバーヘッドが許容できるかどうかは、主にトレーニングジョブの全体的な期間によって決まります。これは、トレーニングフェーズが長いほどダウンロードフェーズが比例して短くなることを意味するためです。

多数の小さなファイルをまとめてシリアル化する

データセットのサイズは小さい (50 ～ 100 GB 未満) ものの、多数の小さなファイル (50 MB 未満) で構成されている場合、各ファイルを Amazon S3 からトレーニングインスタンスのボリューム。このオーバーヘッドを軽減し、一般にデータトラバーサルを高速化するには、次のようなファイル形式を使用して、小さなファイルのグループを少数の大きなファイルコンテナー (ファイルあたり 150 MB など) にシリアル化することを検討してください。 TFレコード TensorFlowの場合、ウェブデータセット PyTorch の場合、または記録IO MXNet用。これらの形式では、データローダーがサンプルを順番に繰り返す必要があります。各エポックの後に TFRecord ファイルのリストをランダムに並べ替えたり、ローカルシャッフルバッファからデータをランダムにサンプリングしたりすることで、データをシャッフルすることもできます (次を参照) TensorFlow の例).

FastFile モードを使用する場合

より大きなファイル (50 MB を超える) を含む大規模なデータセットの場合、最初のオプションは FastFile モードを試すことです。これは、ファイルシステムの作成や VPC への接続が必要ないため、FSx for Lustre よりも簡単に使用できます。 FastFile モードは、大きなファイルコンテナー (150 MB を超える) に最適ですが、50 MB を超えるファイルにも適している可能性があります。 FastFile モードは POSIX インターフェイスを提供するため、ランダム読み取り (非連続バイト範囲の読み取り) をサポートします。ただし、これは理想的な使用例ではなく、おそらくシーケンシャル読み取りよりもスループットが低下するでしょう。ただし、比較的大規模で計算量の多い ML モデルがある場合、FastFile モードでもトレーニングパイプラインの有効帯域幅が飽和状態になり、I/O ボトルネックが発生しない可能性があります。実験して確認する必要があります。幸いなことに、ファイルモードから FastFile モードへの切り替え (またはその逆) は、ファイルを追加 (または削除) するのと同じくらい簡単です。 input_mode='FastFile' SageMaker Python SDK を使用して入力チャネルを定義する際に、パラメータを追加します。

sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER, input_mode='FastFile')

他のコードや構成を変更する必要はありません。

Lustre に FSx を使用する場合

データセットがファイルモードには大きすぎる場合、小さなファイルが多数ある場合 (簡単にシリアル化できない)、またはランダム読み取りアクセスパターンがある場合は、FSx for Lustre を検討することをお勧めします。そのファイルシステムは、数百 GB/秒のスループットと数百万の IOPS まで拡張できるため、小さなファイルが多数ある場合に最適です。ただし、すでに説明したように、遅延読み込みによるコールドスタートの問題と、FSx for Lustre ファイルシステムのセットアップと初期化のオーバーヘッドに注意してください。

コストに関する考慮事項

大部分の ML トレーニングジョブ、特に GPU または専用の ML チップを利用するジョブでは、トレーニングのコストのほとんどは、ML トレーニングインスタンスの請求対象秒数です。月あたりのストレージ GB、API リクエスト、プロビジョニングされたスループットは、使用するデータソースに直接関連する追加コストです。

XNUMX か月あたりのストレージ GB

動画、LiDAR センサーデータ、AdTech のリアルタイム入札ログなど、大規模なデータセットの場合、1 か月あたりのストレージ GB が大きくなる可能性があります。たとえば、XNUMX TB を Amazon S3 インテリジェント階層化の高頻度アクセス階層月額 23 ドルかかります。 Amazon S3 上に FSx for Lustre ファイルシステムを追加すると、追加コストが発生します。たとえば、データ圧縮を無効にして SSD バックアップの Scratch 1.2 タイプの 2 TB ファイルシステムを作成すると、月額 168 ドルの追加料金がかかります (140TB/月あたり XNUMX ドル)。

Amazon S3 と Amazon EFS では、使用した分だけお支払いいただきます。つまり、実際のデータセットのサイズに応じて料金が請求されます。 FSx for Lustre では、プロビジョニングされたファイルシステムのサイズ (最小 1.2 TB) に応じて料金が発生します。 EBS ボリュームで ML インスタンスを実行する場合、Amazon EBS は ML インスタンスとは独立して課金されます。これは通常、インスタンスの実行コストに比べてはるかに低いコストです。たとえば、3.2 GB EBS ボリュームを持つ ml.p100xlarge インスタンスを 1 時間実行すると、インスタンスに $3.825、EBS ボリュームに $0.02 かかります。

API リクエストとプロビジョニングされたスループットコスト

トレーニングジョブがデータセットを処理している間、Amazon S3 API リクエストをディスパッチしてファイルをリストし、取得します。たとえば、0.4 万件の GET リクエストの価格は 3 ドルです (Intelligent-Tiering クラスの場合)。トレーニングは単一のアベイラビリティーゾーンで行われるため、Amazon SXNUMX の内外の帯域幅に対するデータ転送コストは発生しないと考えられます。

S3 バケットにリンクされた FSx for Lustre を使用する場合、FSx For Lustre はリクエストを Amazon S3 にプロキシする (そして結果をキャッシュする) ため、ファイルシステムにまだキャッシュされていないデータを読み取るための Amazon S3 API リクエストのコストが発生します。）。 FSx for Lustre 自体には直接リクエストのコストはかかりません。 FSx for Lustre ファイルシステムを使用する場合は、ファイルシステムをプロビジョニングしたのと同じアベイラビリティゾーンに接続してトレーニングジョブを実行することで、アベイラビリティゾーン間のデータ転送のコストを回避します。プロビジョニングされたスループットを備えた Amazon EFS では、それ以上の追加コストを考慮する必要があります。 XNUMX か月あたりの GB。

パフォーマンスのケーススタディ

前述のトレーニングパフォーマンスに関する考慮事項を実証するために、コンピュータービジョンドメインの現実的な使用例に対して一連のベンチマークを実行しました。このセクションのベンチマーク (および要点) はすべてのシナリオに適用できるわけではなく、DNN など、使用したさまざまな事前決定要素の影響を受けます。次の 12 の組み合わせについてテストを実行しました。

入力モード – FSx for Lustre、ファイルモード、FastFile モード
データセットのサイズ – 小さいデータセット (1 GB)、大きいデータセット (54 GB)
ファイルサイズ – 小さいファイル (JPG、約 39 KB)、大きいファイル (TFRecord、約 110 MB)

このケーススタディでは、最も広く使用されている入力モードを選択したため、Amazon EFS と Pipe モードは省略しました。

ケーススタディのベンチマークは、ml.p3.2xlarge シングル GPU インスタンス上のエンドツーエンドの SageMaker TensorFlow トレーニングジョブとして設計されました。分類タスクのバックボーンモデルとして有名な ResNet-50 を選択し、より小さなトレーニングデータセットとして Caltech-256 を選択しました (より大きなデータセットバージョンを作成するために 50 回複製しました)。トレーニング例では XNUMX 回の完全なスイープとして定義される XNUMX エポックでトレーニングを実行しました。

次のグラフは、各ベンチマークシナリオの SageMaker トレーニングジョブの合計請求可能時間を示しています。ジョブの合計時間自体は、ダウンロード、トレーニング、およびその他の段階 (コンテナーの起動や、トレーニング済みのモデルアーティファクトの Amazon S3 へのアップロードなど) で構成されます。請求可能時間が短縮されると、トレーニングジョブがより速く、より安価になります。

まずは話し合いましょう シナリオ A とシナリオ Cこれは、データセットが多数の小さなファイルで構成されている場合の入力モード間のパフォーマンスの違いをわかりやすく示しています。

シナリオA (ファイルが小さく、データセットが小さい) ことから、FSx for Lustre ファイルシステムを使用したトレーニングジョブの請求可能時間が最小であることがわかります。ダウンロードフェーズが最も短く、トレーニングステージはファイルモードと同じくらい高速ですが、FastFile よりも高速です。 FSx for Lustre は、この単一エポックテストの勝者です。そうは言っても、複数のエポックがある同様のワークロードを考えてみましょう。ダウンロード段階によるファイルモードの相対的なオーバーヘッドは、エポックが追加されるにつれて減少します。この場合、使いやすさからファイルモードを好みます。さらに、FSx for Lustre ファイルシステムの料金を支払ってプロビジョニングするよりも、ファイルモードを使用して追加の請求対象秒数を支払う方が良い選択であることがわかる場合があります。

シナリオC (ファイルが小さく、データセットが大きい) では、FSx for Lustre が最速のモードとして示されており、合計請求可能時間はわずか 5,000 秒です。また、FSx for Lustre ファイルシステムのマウントはファイルシステム内のファイル数 (この場合は 1.5 万ファイル) に依存しないため、ダウンロード段階が最も短くなります。 FastFile のダウンロードのオーバーヘッドも小さいです。ファイルのコンテンツはトレーニング段階で読み取られますが、指定された S3 バケットプレフィックスの下にあるファイルのメタデータのみを取得します。ファイルモードは最も遅いモードで、トレーニングを開始する前にデータセット全体を事前にダウンロードするのに 10,000 秒かかります。トレーニング段階を見ると、FSx for Lustre モードとファイルモードは同様の優れたパフォーマンスを示しています。 FastFile モードに関しては、小さいファイルを Amazon S3 から直接ストリーミングする場合、(プリフェッチバッファーを備えた高度な並列データローダーを使用しているにもかかわらず) ファイル転送の合計時間に比べて、各ファイルの新しい GET リクエストをディスパッチするためのオーバーヘッドが大きくなります。その結果、FastFile モードのスループットが全体的に低下し、トレーニングジョブの I/O ボトルネックが生じます。このシナリオでは、FSx for Lustre が明らかに勝者です。

シナリオ B と D データセットが少数の大きなファイルで構成されている場合の、入力モード間のパフォーマンスの違いを示しています。より大きなファイルを使用して順次読み取ると、効果的なバッファリングが可能になり、I/O 操作の数が減るため、通常、I/O パフォーマンスが向上します。

シナリオB (ファイルが大きく、データセットが小さい) は、すべてのモードで同様のトレーニングステージ時間を示しています (トレーニングが I/O バウンドではないことを証明しています)。このシナリオでは、ダウンロード段階が短いため、ファイルモードよりも FastFile モードを好みます。また、前者の使いやすさのため、FSx for Lustre よりも FastFile モードを好みます。

シナリオD (より大きなファイル、より大きなデータセット) は、54 つのモードすべてで比較的類似した合計請求可能時間を示しています。ファイルモードのダウンロードフェーズは、FSx for Lustre および FastFile のダウンロードフェーズよりも長くなります。ファイルモードでは、トレーニングステージを開始する前に、Amazon S3 からトレーニングインスタンスにデータセット全体 (4 GB) をダウンロードします。すべてのモードは十分な速度でデータをフェッチでき、GPU 依存であるため、24 つのモードはすべてトレーニングフェーズで同様の時間を費やします。 ml.p3.2d.3.8xlarge など、追加の CPU または GPU リソースを備えた ML インスタンスを使用すると、コンピューティングリソースを飽和させるために必要なデータ I/O スループットが増加します。このような場合、FastFile と FSx for Lustre がスループットを正常に拡張できることが期待できます (ただし、FSx for Lustre のスループットはプロビジョニングされたファイルシステムのサイズに依存します)。ファイルモードがスループットを拡張できるかどうかは、インスタンスに接続されているディスクボリュームのスループットによって異なります。たとえば、Amazon EBS ベースのインスタンス (ml.p3.16xlarge、ml.p250xlarge、ml.p5xlarge など) は最大スループット 4MB/s に制限されますが、ローカル NVMe ベースのインスタンス (ml.p24xlarge、ml.pXNUMXxlarge、ml.pXNUMXxlarge など) は最大スループットが XNUMXMB/s に制限されます。 gXNUMX.* または ml.pXNUMXd.XNUMXxlarge) は、はるかに大きなスループットに対応できます。

要約すると、FastFile はファイルモードよりも高速で、FSx for Lustre と同じくらい高速でありながら、より簡単に使用でき、コストが低く、必要に応じてスループットを簡単にスケールアップできるため、このシナリオでは FastFile が勝者であると考えられます。

さらに、はるかに大きなデータセット (サイズが数 TB) がある場合、ファイルモードではトレーニングを開始する前にデータセットのダウンロードに何時間もかかりますが、FastFile ではトレーニングをより迅速に開始できます。

独自のデータ取り込みを導入する

SageMaker のネイティブデータソースは、考えられるすべてではありませんが、ほとんどの ML トレーニングシナリオに適合します。他のデータ取り込みオプションを探す必要がある状況には、サードパーティのストレージ製品から直接データを読み取る場合 (Amazon S3 への簡単かつタイムリーなエクスポートが不可能であると仮定)、または同じトレーニングに対する強い要件がある場合が含まれます。 SageMaker と SageMaker の両方で変更せずに実行されるスクリプトアマゾンエラスティックコンピューティングクラウド（Amazon EC2）または Amazon Elastic Kubernetesサービス (アマゾンEKS)。データ取り込みメカニズムをトレーニングスクリプトに実装することで、これらのケースに対処できます。このメカニズムは、外部データソースからトレーニングインスタンスにデータセットを読み取る役割を果たします。たとえば、 TFRecordDataset TensorFlow の tf.data ライブラリは Amazon S3 ストレージから直接読み取ることができます。

データ取り込みメカニズムで AWS のサービスを呼び出す必要がある場合は、 Amazon リレーショナルデータベースサービス (Amazon RDS)、 AWS IDおよびアクセス管理トレーニングジョブの (IAM) 役割には、関連する IAM ポリシーが含まれます。データソースが次の場所にある場合アマゾンバーチャルプライベートクラウド (Amazon VPC)、同じ VPC に接続してトレーニングジョブを実行する必要があります。

データセットの取り込みを自分で管理している場合、SageMaker リネージ追跡はトレーニング中に使用されたデータセットを自動的にログに記録できません。したがって、関連するメタデータを取得するには、トレーニングジョブタグやハイパーパラメータなどの代替メカニズムを検討してください。

まとめ

適切な SageMaker トレーニングデータソースの選択は、ML モデルのトレーニングの速度、使いやすさ、コストに大きな影響を与える可能性があります。提供されているフローチャートを使用して、すぐに開始し、結果を観察し、必要に応じて追加の構成を試してください。各データソースの長所、短所、制限と、それらがトレーニングジョブの個々の要件にどの程度適合するかを念頭に置いてください。さらに詳しい情報とサポートが必要な場合は、AWS の担当者にお問い合わせください。

著者について

ギリナチュム は、EMEAのAmazonMachineLearningチームの一員として働くシニアAI/MLスペシャリストソリューションアーキテクトです。 Giliは、ディープラーニングモデルのトレーニングの課題と、機械学習が世界をどのように変えているかについて情熱を注いでいます。暇なときは、ギリは卓球を楽しんでいます。

アレクサンダーアルザノフ博士 ドイツのフランクフルトを拠点とするAI/MLスペシャリストソリューションアーキテクトです。彼は、AWSのお客様がEMEA地域全体でMLソリューションを設計およびデプロイするのを支援しています。 AWSに参加する前、アレクサンダーは私たちの宇宙の重元素の起源を研究しており、大規模な科学計算でMLを使用した後、MLに情熱を注いでいました。

タイムスタンプ： 2022 年 2 月 23 日

タイムスタンプ： 2023 年 3 月 29 日

プラトン再発行

AWS ローカリゼーションは Amazon Translate を使用してローカリゼーションをスケーリングします

VMware が GitLab、Amazon MWAA、Amazon SageMaker を使用してゼロから MLOps パイプラインを構築した方法

ドメイン固有および言語固有のカスタマイズを使用して、多言語ドキュメント翻訳ワークフローを構築します

Chronomics は、Amazon Rekognition カスタムラベルを使用して COVID-19 テスト結果を検出します

Amazon SageMaker の MLOps を使用した堅牢な時系列予測 | アマゾンウェブサービス

Amazon Lookout for Vision の画像拡張パイプライン

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

ネイティブ SageMaker データ ソースと入力モード