デフォルトのライフサイクル設定でAmazonSageMakerStudioでAmazonSageMakerデータラングラーを使用する

プラトン再発行

フォロワー： 0

ドメインまたはユーザープロファイルのデフォルトのライフサイクル構成を使用する場合 Amazon SageMakerスタジオ使用する AmazonSageMakerデータラングラーデータの準備のために、この投稿はあなたのためです。この投稿では、データラングラーフローを作成し、それをデフォルトのライフサイクル構成のStudio環境でのデータ準備に使用する方法を示します。

データラングラーはアマゾンセージメーカーこれにより、データサイエンティストやエンジニアは、ビジュアルインターフェイスを介して機械学習（ML）アプリケーション用のデータをすばやく準備できます。データの準備はMLライフサイクルの重要なステップであり、Data Wranglerは、視覚的なローコードエクスペリエンスで、MLのデータをインポート、探索、変換、機能化、および処理するためのエンドツーエンドのソリューションを提供します。これにより、次のようなAWSコンポーネントに簡単かつ迅速に接続できます。 Amazon シンプルストレージサービス（Amazon S3）、アマゾンアテナ, Amazonレッドシフト, AWSレイクフォーメーション、およびSnowflakeやDataBricksDeltaLakeなどの外部ソース。データラングラーは、CSV、JSON、ORC、Parquetなどの標準データ型をサポートしています。

Studioアプリは、Studioのビジュアルインターフェイス、コードオーサリング、および実行エクスペリエンスを可能にするインタラクティブなアプリケーションです。アプリの種類は、JupyterServerまたはKernelGatewayのいずれかです。

Jupyterサーバー –Studioのビジュアルインターフェイスへのアクセスを有効にします。 Studioのすべてのユーザーは、独自のJupyterServerアプリを取得します。
カーネルゲートウェイ –Studioノートブックおよびターミナルのコード実行環境およびカーネルへのアクセスを有効にします。詳細については、を参照してください。 Jupyterカーネルゲートウェイ.

ライフサイクル構成（LCC）は、JupyterLab拡張機能のインストール、データセットのプリロード、ソースコードリポジトリの設定など、Studio環境のカスタマイズを自動化するシェルスクリプトです。 LCCスクリプトは、新しいStudioノートブックの起動などのStudioライフサイクルイベントによってトリガーされます。ライフサイクル構成をドメインまたはユーザープロファイルのデフォルトとしてプログラムで設定するには、新しいリソースを作成するか、既存のリソースを更新します。ライフサイクル構成をデフォルトとして関連付けるには、最初に次の手順に従ってライフサイクル構成を作成する必要があります。ライフサイクル構成の作成と関連付け

注：ドメインレベルで設定されたデフォルトのライフサイクル構成はすべてのユーザーに継承されますが、ユーザーレベルで設定された構成は特定のユーザーにスコープされます。ドメインレベルとユーザープロファイルレベルの両方のライフサイクル構成を同時に適用する場合、ユーザープロファイルレベルのライフサイクル構成が優先され、ドメインレベルで適用されるライフサイクル構成に関係なくアプリケーションに適用されます。詳細については、を参照してください。デフォルトのライフサイクル構成の設定.

データラングラーはデフォルトのカーネルゲートウェイライフサイクル構成を受け入れますが、デフォルトのカーネルゲートウェイライフサイクル構成で定義されたコマンドの一部はデータラングラーに適用できないため、データラングラーの起動に失敗する可能性があります。次のスクリーンショットは、データラングラーフローを起動したときに表示される可能性のあるエラーメッセージの例を示しています。これは、デフォルトのライフサイクル構成でのみ発生する可能性があり、ライフサイクル構成では発生しない可能性があります。

データラングラーエラー

ソリューションの概要

Studioでデフォルトのライフサイクル構成を使用しているお客様は、この投稿に従い、ライフサイクル構成スクリプト内で提供されているコードブロックを使用して、エラーなしでデータラングラーアプリを起動できます。

デフォルトのライフサイクル構成を設定します

デフォルトのライフサイクル構成を設定するには、それをに追加する必要があります DefaultResourceSpec 適切なアプリタイプの。ライフサイクル構成の動作は、ライフサイクル構成がに追加されているかどうかによって異なります。 DefaultResourceSpec Jupyterサーバーまたはカーネルゲートウェイアプリの場合：

Jupyterサーバーアプリ –に追加された場合 DefaultResourceSpec Jupyter Serverアプリの場合、デフォルトのライフサイクル構成スクリプトは、ユーザーがStudioに初めてログインするか、Studioを再起動したときに自動的に実行されます。これを使用して、ノートブック拡張機能のインストールやGitHubリポジトリのセットアップなど、Studio開発者環境のXNUMX回限りのセットアップアクションを自動化できます。この例については、を参照してください。ライフサイクル設定を使用してAmazonSageMakerStudioをカスタマイズする.
カーネルゲートウェイアプリ –に追加された場合 DefaultResourceSpec カーネルゲートウェイアプリの場合、StudioはデフォルトでStudioランチャーからライフサイクル構成スクリプトを選択します。デフォルトのスクリプトを使用してノートブックまたはターミナルを起動するか、ライフサイクル構成のリストから別のスクリプトを選択できます。

で指定されているデフォルトのカーネルゲートウェイライフサイクル構成 DefaultResourceSpec Studioランチャーに表示されるリストから別のスクリプトを選択しない限り、Studioドメイン内のすべてのカーネルゲートウェイイメージに適用されます。

Studioのライフサイクル構成を操作するときは、ライフサイクル構成を作成し、それをStudioドメインまたはユーザープロファイルのいずれかに添付します。次に、JupyterServerまたはKernelGatewayアプリケーションを起動して、ライフサイクル構成を使用できます。

次の表は、デフォルトのライフサイクル構成でDataWranglerアプリケーションを起動するときに発生する可能性のあるこれらのエラーをまとめたものです。

ライフサイクル構成のレベル適用されます	データラングラーフローの作成動作（または）エラー	回避方法
ドメイン	不正なリクエストエラー	スクリプトを適用します（以下を参照）
ユーザープロファイル	不正なリクエストエラー	スクリプトを適用します（以下を参照）
申し込み	動作-問題なし	必須ではありません

StudioおよびDataWrangler（カーネルゲートウェイアプリ）に関連付けられたデフォルトのライフサイクル構成を使用すると、カーネルゲートウェイアプリで障害が発生する場合があります。この投稿では、デフォルトのライフサイクル構成を適切に設定して、データラングラーアプリケーションで実行中のコマンドを除外し、カーネルゲートウェイアプリの障害が発生しないようにする方法を示します。

あなたがインストールしたいとしましょう git-クローン-レポ Jupyterサーバーの起動時にユーザーのホームフォルダーの下にあるGitリポジトリーを自動的にチェックアウトするデフォルトのライフサイクル構成としてのスクリプト。ライフサイクル構成（Studioドメイン、ユーザープロファイル、またはアプリケーションレベル）を適用する各シナリオを見てみましょう。

Studioドメインまたはユーザープロファイルレベルでライフサイクル構成を適用する

Studioドメインまたはユーザープロファイルレベルでデフォルトのカーネルゲートウェイライフサイクル構成を適用するには、このセクションの手順を実行します。まず、ユーザープロファイルレベルの手順から始めます。

ライフサイクル構成スクリプトには、Data WranglerKernelGatewayアプリをチェックしてスキップする次のコードブロックを含める必要があります。

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

たとえば、次のスクリプトオリジナルとして（リポジトリのクローンを作成するフォルダーが次のように変更されていることに注意してください） /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

新しく変更されたスクリプトは次のようになります。

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

このスクリプトを次のように保存できます git_command_test.sh.

ここで、ターミナルまたはコマンドプロンプトで一連のコマンドを実行します。を構成する必要があります AWSコマンドラインインターフェイス（AWS CLI）AWSと対話します。 AWS CLIを設定していない場合は、以下を参照してください。 AWSCLIの設定.

あなたの変換 git_command_test.sh ファイルをBase64形式に変換します。この要件により、間隔と改行のエンコードによるエラーが防止されます。
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```
Studioライフサイクル構成を作成します。次のコマンドは、関連付けられたカーネルゲートウェイアプリの起動時に実行されるライフサイクル構成を作成します。
```
aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway
```
次のAPI呼び出しを使用して、ライフサイクル構成が関連付けられた新しいユーザープロファイルを作成します。
```
aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'
```
または、Studioドメインを作成して、ライフサイクル構成をドメインレベルで関連付ける場合、またはユーザープロファイルまたはドメインを更新する場合は、次の手順に従います。デフォルトのライフサイクル構成の設定.
これで、SageMakerコントロールパネルからStudioアプリを起動できます。
スタジオ環境では、 File メニュー、選択新作 & データラングラーの流れ。新しいデータラングラーフローは問題なく開くはずです。
Gitクローンを検証するために、Studioで新しいランチャーを開くことができます。
ノートブックとコンピューティングリソース、Python3ノートブックと データサイエンス デフォルトのライフサイクル設定スクリプトとしてスクリプトを開始するためのSageMakerイメージ。

にクローンされたGitを見ることができます /root 次のスクリーンショットで。

/rootにクローンされたGit

デフォルトのカーネルライフサイクル構成をユーザープロファイルレベルで正常に適用し、データラングラーフローを作成しました。 Studioドメインレベルで構成するには、ユーザープロファイルを作成する代わりに、ライフサイクル構成のARNをドメインの作成コール。

アプリケーションレベルでライフサイクル構成を適用する

デフォルトのカーネルゲートウェイライフサイクル構成をアプリケーションレベルで適用する場合、Data Wranglerはアプリケーションレベルで適用されるライフサイクル構成をスキップするため、問題は発生しません。

まとめ

この投稿では、データの準備と視覚化の要件にData Wranglerを使用する場合に、Studioのデフォルトのライフサイクル構成を適切に構成する方法を示しました。

要約すると、デフォルトを使用する必要がある場合 Studioのライフサイクル構成 Studio環境のカスタマイズを自動化し、データの準備にData Wranglerを使用するには、ユーザープロファイルまたはStudioドメインレベルでデフォルトのカーネルゲートウェイライフサイクル構成を適用し、ライフサイクル構成に適切なコードブロックを含めて、デフォルトのライフサイクル構成でチェックします。データラングラーカーネルゲートウェイアプリをスキップします。

詳細については、次のリソースを参照してください。

著者について

ラジャクマールサンパスクマール AWSのプリンシパルテクニカルアカウントマネージャーであり、ビジネステクノロジーの調整に関するガイダンスをお客様に提供し、クラウド運用モデルとプロセスの再発明をサポートしています。彼はクラウドと機械学習に情熱を注いでいます。 Rajは機械学習のスペシャリストでもあり、AWSのお客様と協力して、AWSのワークロードとアーキテクチャを設計、デプロイ、管理しています。

ヴィッキー・チャン はAmazonSageMakerのソフトウェア開発エンジニアです。彼女は問題解決に情熱を注いでいます。余暇には、探偵映画を見たり、バドミントンをしたりしています。

ラフル・ナベラ AWSProfessionalServicesのデータ分析コンサルタントです。彼の現在の仕事は、顧客がAWSでデータと機械学習のワークロードを構築できるようにすることに焦点を当てています。余暇には、クリケットやバレーボールを楽しんでいます。

タイムスタンプ：２０２２年７月１１日

タイムスタンプ： 2022 年 6 月 27 日

デフォルトのライフサイクル設定でAmazonSageMakerStudioでAmazonSageMakerDataWranglerを使用する

プラトン再発行

ソリューションの概要

デフォルトのライフサイクル構成を設定します

Studioドメインまたはユーザープロファイルレベルでライフサイクル構成を適用する

アプリケーションレベルでライフサイクル構成を適用する

まとめ

著者について

より多くの AWS機械学習

AWS Graviton で Amazon SageMaker の推論コストを削減する

AWS Trainium を使用した高速かつコスト効率の高い LLaMA 2 微調整 | アマゾンウェブサービス

AmazonLexのヒントで発信者エクスペリエンスを強化します

AmazonTranslateで冒とく的な表現のマスキングを適用する

Amazon Comprehend の PDF 事前ラベル付けを自動化する | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー