Amazon SageMaker 自動モデルチューニングが SageMaker トレーニングインスタンスのフォールバックをサポートするようになりました

プラトン再発行

フォロワー： 0

今日アマゾンセージメーカーの SageMaker トレーニングインスタンスフォールバックのサポートを発表しました。 Amazon SageMaker 自動モデルチューニング (AMT) ユーザーが別のコンピューティングリソース構成を指定できるようにします。

SageMaker の自動モデルチューニングは、範囲アルゴリズムに指定するハイパーパラメータ。次に、最高のパフォーマンスを発揮するモデルが得られるハイパーパラメータ値を選択します。メトリックあなたが選ぶこと。

以前は、ユーザーは単一インスタンス構成を指定するオプションしかありませんでした。これにより、使用率が高いために指定されたインスタンスタイプが使用できない場合に問題が発生する可能性があります。以前は、トレーニングジョブが InsufficientCapacityError (ICE) で失敗していました。多くの場合、AMT はスマートな再試行を使用してこれらの障害を回避しましたが、持続的な低容量に直面しても無力なままでした。

この新機能は、インスタンス構成のリストを優先順に指定できることを意味します。これにより、容量が不足した場合に AMT ジョブがリスト内の次のインスタンスに自動的にフォールバックします。

次のセクションでは、ICE を克服するための大まかな手順について説明します。

ハイパーパラメータ調整ジョブ構成の定義
トレーニングジョブパラメータの定義
ハイパーパラメータ調整ジョブを作成する
トレーニングジョブの説明

ハイパーパラメータ調整ジョブ構成の定義

　 HyperParameterTuningJobConfig object は、検索戦略、トレーニングジョブの評価に使用される目的のメトリック、検索するパラメーターの範囲、チューニングジョブのリソース制限など、チューニングジョブを記述します。この側面は、本日の機能リリースでは変更されていません。それにもかかわらず、完全な例を示すためにそれを調べます。

　 ResourceLimits object は、このチューニングジョブのトレーニングジョブと並列トレーニングジョブの最大数を指定します。この例では、ランダム検索戦略を作成し、最大 10 個のジョブを指定します (MaxNumberOfTrainingJobs) および 5 つの同時ジョブ (MaxParallelTrainingJobs）一度に。

　 ParameterRanges object は、この調整ジョブが検索するハイパーパラメーターの範囲を指定します。検索するハイパーパラメータの名前と最小値と最大値を指定します。この例では、Continuous および Integer パラメーター範囲の最小値と最大値、およびハイパーパラメーターの名前 (「eta」、「max_depth」) を定義します。

AmtTuningJobConfig={
            "Strategy": "Random",
            "ResourceLimits": {
              "MaxNumberOfTrainingJobs": 10,
              "MaxParallelTrainingJobs": 5
            },
            "HyperParameterTuningJobObjective": {
              "MetricName": "validation:rmse",
              "Type": "Minimize"
            },
            "ParameterRanges": {
              "CategoricalParameterRanges": [],
              "ContinuousParameterRanges": [
                {
                    "MaxValue": "1",
                    "MinValue": "0",
                    "Name": "eta"
                }
              ],
              "IntegerParameterRanges": [
                {
                  "MaxValue": "6",
                  "MinValue": "2",
                  "Name": "max_depth"
                }
              ]
            }
          }

トレーニングジョブパラメータの定義

トレーニングジョブ定義では、指定したアルゴリズムを使用してトレーニングジョブを実行するために必要な入力を定義します。トレーニングが完了すると、SageMaker は結果のモデルアーティファクトを Amazon Simple Storage Service（Amazon S3）指定した場所。

以前は、インスタンスタイプ、数、およびボリュームサイズを ResourceConfig パラメータ。このパラメーターのインスタンスが使用できない場合、容量不足エラー (ICE) がスローされました。

これを回避するために、 HyperParameterTuningResourceConfig の下のパラメータ TrainingJobDefinition、フォールバックするインスタンスのリストを指定します。これらのインスタンスの形式は、 ResourceConfig. ジョブは、リストを上から下に走査して、使用可能なインスタンス構成を見つけます。インスタンスが利用できない場合、容量不足エラー (ICE) の代わりに、リスト内の次のインスタンスが選択され、ICE を克服します。

TrainingJobDefinition={
            "HyperParameterTuningResourceConfig": {
      		"InstanceConfigs": [
            		{
                		"InstanceType": "ml.m4.xlarge",
                		"InstanceCount": 1,
                		"VolumeSizeInGB": 5
            		},
            		{
                		"InstanceType": "ml.m5.4xlarge",
                		"InstanceCount": 1,
                		"VolumeSizeInGB": 5
            		}
        		 ]
    		  },
            "AlgorithmSpecification": {
              "TrainingImage": "433757028032.dkr.ecr.us-west-2.amazonaws.com/xgboost:latest",
              "TrainingInputMode": "File"
            },
            "InputDataConfig": [
              {
                "ChannelName": "train",
                "CompressionType": "None",
                "ContentType": "json",
                "DataSource": {
                  "S3DataSource": {
                    "S3DataDistributionType": "FullyReplicated",
                    "S3DataType": "S3Prefix",
                    "S3Uri": "s3://<bucket>/test/"
                  }
                },
                "RecordWrapperType": "None"
              }
            ],
            "OutputDataConfig": {
              "S3OutputPath": "s3://<bucket>/output/"
            },
            "RoleArn": "arn:aws:iam::340308762637:role/service-role/AmazonSageMaker-ExecutionRole-20201117T142856",
            "StoppingCondition": {
              "MaxRuntimeInSeconds": 259200
            },
            "StaticHyperParameters": {
              "training_script_loc": "q2bn-sagemaker-test_6"
            },
          }

ハイパーパラメータ調整ジョブを実行する

このステップでは、上で定義したハイパーパラメータ調整リソース構成を使用して、ハイパーパラメータ調整ジョブを作成して実行します。

SageMaker クライアントを初期化し、チューニング構成、トレーニングジョブ定義、およびジョブ名を指定してジョブを作成します。

import boto3
sm = boto3.client('sagemaker')     
                    
sm.create_hyper_parameter_tuning_job(
    HyperParameterTuningJobName="my-job-name",
    HyperParameterTuningJobConfig=AmtTuningJobConfig,
    TrainingJobDefinition=TrainingJobDefinition)

SageMaker トレーニングインスタンスのフォールバックをサポートして AMT ジョブを実行すると、ユーザーは容量不足を自分で克服できるようになり、ジョブが失敗する可能性が減ります。

トレーニングジョブの説明

次の関数は、実験中に使用されたすべてのインスタンスタイプを一覧表示し、リソース割り当て中に SageMaker トレーニングインスタンスがリスト内の次のインスタンスに自動的にフォールバックしたかどうかを確認するために使用できます。

def list_instances(name):
    job_list = []
    instances = []
    def _get_training_jobs(name, next=None):
        if next:
            list = sm.list_training_jobs_for_hyper_parameter_tuning_job(
            HyperParameterTuningJobName=name, NextToken=next)
        else:
            list = sm.list_training_jobs_for_hyper_parameter_tuning_job(
            HyperParameterTuningJobName=name)
        for jobs in list['TrainingJobSummaries']:
            job_list.append(jobs['TrainingJobName'])
        next = list.get('NextToken', None)
        if next:
            _get_training_jobs(name, next=next)
            pass
        else:
            pass
    _get_training_jobs(name)


    for job_name in job_list:
        ec2 = sm.describe_training_job(
        TrainingJobName=job_name
        )
        instances.append(ec2['ResourceConfig'])
    return instances

list_instances("my-job-name")

上記の関数の出力には、AMT ジョブが実験の実行に使用しているすべてのインスタンスが表示されます。

まとめ

この投稿では、AMT 実験が次の場合にフォールバックできるインスタンスのプールを定義する方法を示しました。 InsufficientCapacityError. ハイパーパラメータ調整ジョブ構成を定義する方法と、トレーニングジョブの最大数と最大並列ジョブを指定する方法を見てきました。最後に、私たちは克服する方法を見ました InsufficientCapacityError 使用して、 HyperParameterTuningResourceConfig パラメーター。トレーニングジョブ定義で指定できます。

AMT の詳細については、次の Web サイトをご覧ください。 Amazon SageMaker 自動モデルチューニング.