ドメインまたはユーザープロファイルのデフォルトのライフサイクル構成を使用する場合 Amazon SageMakerスタジオ 使用する AmazonSageMakerデータラングラー データの準備のために、この投稿はあなたのためです。 この投稿では、データラングラーフローを作成し、それをデフォルトのライフサイクル構成のStudio環境でのデータ準備に使用する方法を示します。
データラングラーは アマゾンセージメーカー これにより、データサイエンティストやエンジニアは、ビジュアルインターフェイスを介して機械学習(ML)アプリケーション用のデータをすばやく準備できます。 データの準備はMLライフサイクルの重要なステップであり、Data Wranglerは、視覚的なローコードエクスペリエンスで、MLのデータをインポート、探索、変換、機能化、および処理するためのエンドツーエンドのソリューションを提供します。 これにより、次のようなAWSコンポーネントに簡単かつ迅速に接続できます。 Amazon シンプル ストレージ サービス (Amazon S3)、 アマゾンアテナ, Amazonレッドシフト, AWSレイクフォーメーション、およびSnowflakeやDataBricksDeltaLakeなどの外部ソース。 データラングラーは、CSV、JSON、ORC、Parquetなどの標準データ型をサポートしています。
Studioアプリは、Studioのビジュアルインターフェイス、コードオーサリング、および実行エクスペリエンスを可能にするインタラクティブなアプリケーションです。 アプリの種類は、JupyterServerまたはKernelGatewayのいずれかです。
- Jupyterサーバー –Studioのビジュアルインターフェイスへのアクセスを有効にします。 Studioのすべてのユーザーは、独自のJupyterServerアプリを取得します。
- カーネルゲートウェイ –Studioノートブックおよびターミナルのコード実行環境およびカーネルへのアクセスを有効にします。 詳細については、を参照してください。 Jupyterカーネルゲートウェイ.
ライフサイクル構成 (LCC)は、JupyterLab拡張機能のインストール、データセットのプリロード、ソースコードリポジトリの設定など、Studio環境のカスタマイズを自動化するシェルスクリプトです。 LCCスクリプトは、新しいStudioノートブックの起動などのStudioライフサイクルイベントによってトリガーされます。 ライフサイクル構成をドメインまたはユーザープロファイルのデフォルトとしてプログラムで設定するには、新しいリソースを作成するか、既存のリソースを更新します。 ライフサイクル構成をデフォルトとして関連付けるには、最初に次の手順に従ってライフサイクル構成を作成する必要があります。 ライフサイクル構成の作成と関連付け
注:ドメインレベルで設定されたデフォルトのライフサイクル構成はすべてのユーザーに継承されますが、ユーザーレベルで設定された構成は特定のユーザーにスコープされます。 ドメインレベルとユーザープロファイルレベルの両方のライフサイクル構成を同時に適用する場合、ユーザープロファイルレベルのライフサイクル構成が優先され、ドメインレベルで適用されるライフサイクル構成に関係なくアプリケーションに適用されます。 詳細については、を参照してください。 デフォルトのライフサイクル構成の設定.
データラングラーはデフォルトのカーネルゲートウェイライフサイクル構成を受け入れますが、デフォルトのカーネルゲートウェイライフサイクル構成で定義されたコマンドの一部はデータラングラーに適用できないため、データラングラーの起動に失敗する可能性があります。 次のスクリーンショットは、データラングラーフローを起動したときに表示される可能性のあるエラーメッセージの例を示しています。 これは、デフォルトのライフサイクル構成でのみ発生する可能性があり、ライフサイクル構成では発生しない可能性があります。
ソリューションの概要
Studioでデフォルトのライフサイクル構成を使用しているお客様は、この投稿に従い、ライフサイクル構成スクリプト内で提供されているコードブロックを使用して、エラーなしでデータラングラーアプリを起動できます。
デフォルトのライフサイクル構成を設定します
デフォルトのライフサイクル構成を設定するには、それをに追加する必要があります DefaultResourceSpec
適切なアプリタイプの。 ライフサイクル構成の動作は、ライフサイクル構成がに追加されているかどうかによって異なります。 DefaultResourceSpec
Jupyterサーバーまたはカーネルゲートウェイアプリの場合:
- Jupyterサーバーアプリ –に追加された場合
DefaultResourceSpec
Jupyter Serverアプリの場合、デフォルトのライフサイクル構成スクリプトは、ユーザーがStudioに初めてログインするか、Studioを再起動したときに自動的に実行されます。 これを使用して、ノートブック拡張機能のインストールやGitHubリポジトリのセットアップなど、Studio開発者環境のXNUMX回限りのセットアップアクションを自動化できます。 この例については、を参照してください。 ライフサイクル設定を使用してAmazonSageMakerStudioをカスタマイズする. - カーネルゲートウェイアプリ –に追加された場合
DefaultResourceSpec
カーネルゲートウェイアプリの場合、StudioはデフォルトでStudioランチャーからライフサイクル構成スクリプトを選択します。 デフォルトのスクリプトを使用してノートブックまたはターミナルを起動するか、ライフサイクル構成のリストから別のスクリプトを選択できます。
で指定されているデフォルトのカーネルゲートウェイライフサイクル構成 DefaultResourceSpec
Studioランチャーに表示されるリストから別のスクリプトを選択しない限り、Studioドメイン内のすべてのカーネルゲートウェイイメージに適用されます。
Studioのライフサイクル構成を操作するときは、ライフサイクル構成を作成し、それをStudioドメインまたはユーザープロファイルのいずれかに添付します。 次に、JupyterServerまたはKernelGatewayアプリケーションを起動して、ライフサイクル構成を使用できます。
次の表は、デフォルトのライフサイクル構成でDataWranglerアプリケーションを起動するときに発生する可能性のあるこれらのエラーをまとめたものです。
ライフサイクル構成のレベル 適用されます |
データラングラーフローの作成 動作(または)エラー |
回避方法 |
ドメイン | 不正なリクエストエラー | スクリプトを適用します(以下を参照) |
ユーザープロファイル | 不正なリクエストエラー | スクリプトを適用します(以下を参照) |
申し込み | 動作-問題なし | 必須ではありません |
StudioおよびDataWrangler(カーネルゲートウェイアプリ)に関連付けられたデフォルトのライフサイクル構成を使用すると、カーネルゲートウェイアプリで障害が発生する場合があります。 この投稿では、デフォルトのライフサイクル構成を適切に設定して、データラングラーアプリケーションで実行中のコマンドを除外し、カーネルゲートウェイアプリの障害が発生しないようにする方法を示します。
あなたがインストールしたいとしましょう git-クローン-レポ Jupyterサーバーの起動時にユーザーのホームフォルダーの下にあるGitリポジトリーを自動的にチェックアウトするデフォルトのライフサイクル構成としてのスクリプト。 ライフサイクル構成(Studioドメイン、ユーザープロファイル、またはアプリケーションレベル)を適用する各シナリオを見てみましょう。
Studioドメインまたはユーザープロファイルレベルでライフサイクル構成を適用する
Studioドメインまたはユーザープロファイルレベルでデフォルトのカーネルゲートウェイライフサイクル構成を適用するには、このセクションの手順を実行します。 まず、ユーザープロファイルレベルの手順から始めます。
ライフサイクル構成スクリプトには、Data WranglerKernelGatewayアプリをチェックしてスキップする次のコードブロックを含める必要があります。
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
たとえば、 次のスクリプト オリジナルとして(リポジトリのクローンを作成するフォルダーが次のように変更されていることに注意してください) /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
新しく変更されたスクリプトは次のようになります。
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
このスクリプトを次のように保存できます git_command_test.sh
.
ここで、ターミナルまたはコマンドプロンプトで一連のコマンドを実行します。 を構成する必要があります AWSコマンドラインインターフェイス (AWS CLI)AWSと対話します。 AWS CLIを設定していない場合は、以下を参照してください。 AWSCLIの設定.
- あなたの変換
git_command_test.sh
ファイルをBase64形式に変換します。 この要件により、間隔と改行のエンコードによるエラーが防止されます。 - Studioライフサイクル構成を作成します。 次のコマンドは、関連付けられたカーネルゲートウェイアプリの起動時に実行されるライフサイクル構成を作成します。
- 次のAPI呼び出しを使用して、ライフサイクル構成が関連付けられた新しいユーザープロファイルを作成します。
または、Studioドメインを作成して、ライフサイクル構成をドメインレベルで関連付ける場合、またはユーザープロファイルまたはドメインを更新する場合は、次の手順に従います。 デフォルトのライフサイクル構成の設定.
- これで、SageMakerコントロールパネルからStudioアプリを起動できます。
- スタジオ環境では、 File メニュー、選択 新作 & データラングラーの流れ。新しいデータラングラーフローは問題なく開くはずです。
- Gitクローンを検証するために、Studioで新しいランチャーを開くことができます。
- ノートブックとコンピューティングリソース、Python3ノートブックと データサイエンス デフォルトのライフサイクル設定スクリプトとしてスクリプトを開始するためのSageMakerイメージ。
にクローンされたGitを見ることができます /root
次のスクリーンショットで。
デフォルトのカーネルライフサイクル構成をユーザープロファイルレベルで正常に適用し、データラングラーフローを作成しました。 Studioドメインレベルで構成するには、ユーザープロファイルを作成する代わりに、ライフサイクル構成のARNを ドメインの作成 コール。
アプリケーションレベルでライフサイクル構成を適用する
デフォルトのカーネルゲートウェイライフサイクル構成をアプリケーションレベルで適用する場合、Data Wranglerはアプリケーションレベルで適用されるライフサイクル構成をスキップするため、問題は発生しません。
まとめ
この投稿では、データの準備と視覚化の要件にData Wranglerを使用する場合に、Studioのデフォルトのライフサイクル構成を適切に構成する方法を示しました。
要約すると、デフォルトを使用する必要がある場合 Studioのライフサイクル構成 Studio環境のカスタマイズを自動化し、データの準備にData Wranglerを使用するには、ユーザープロファイルまたはStudioドメインレベルでデフォルトのカーネルゲートウェイライフサイクル構成を適用し、ライフサイクル構成に適切なコードブロックを含めて、デフォルトのライフサイクル構成でチェックします。データラングラーカーネルゲートウェイアプリをスキップします。
詳細については、次のリソースを参照してください。
著者について
ラジャクマールサンパスクマール AWSのプリンシパルテクニカルアカウントマネージャーであり、ビジネステクノロジーの調整に関するガイダンスをお客様に提供し、クラウド運用モデルとプロセスの再発明をサポートしています。 彼はクラウドと機械学習に情熱を注いでいます。 Rajは機械学習のスペシャリストでもあり、AWSのお客様と協力して、AWSのワークロードとアーキテクチャを設計、デプロイ、管理しています。
ヴィッキー・チャン はAmazonSageMakerのソフトウェア開発エンジニアです。 彼女は問題解決に情熱を注いでいます。 余暇には、探偵映画を見たり、バドミントンをしたりしています。
ラフル・ナベラ AWSProfessionalServicesのデータ分析コンサルタントです。 彼の現在の仕事は、顧客がAWSでデータと機械学習のワークロードを構築できるようにすることに焦点を当てています。 余暇には、クリケットやバレーボールを楽しんでいます。
- "
- 100
- a
- 私たちについて
- アクセス
- 行動
- 追加されました
- すべて
- Amazon
- 分析論
- API
- アプリ
- 適用可能な
- 申し込み
- 適用された
- 申し込む
- 適用
- 適切な
- アプリ
- 仲間
- 関連する
- 自動化する
- 自動的に
- AWS
- なぜなら
- 以下
- ブロック
- 国境
- 休憩
- ビルド
- コール
- 原因となる
- 変化する
- 小切手
- 選択する
- クラウド
- コード
- コンプリート
- コンポーネント
- 計算
- お問合せ
- コンサルタント
- 含まれています
- コントロール
- 作ります
- 作成した
- 作成します。
- 作成
- クリケット
- 重大な
- 電流プローブ
- Customers
- データ
- データ分析
- 実証します
- 依存
- 展開します
- 設計
- Developer
- 開発
- 異なります
- ドメイン
- 各
- 簡単に
- echo
- enable
- 可能
- 有効にする
- 端から端まで
- エンジニア
- エンジニア
- 環境
- イベント
- 例
- 既存の
- 体験
- 探る
- エクステンション
- 不良解析
- 速いです
- 名
- 初回
- フロー
- 焦点を当てて
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- から
- ゲートウェイ
- Gitの
- GitHubの
- 起こる
- 高さ
- こちら
- ホーム
- 認定条件
- How To
- HTTPS
- 画像
- 画像
- include
- 含まれました
- 情報
- install
- 相互作用的
- インタフェース
- 問題
- IT
- 起動する
- 発射
- 学習
- レベル
- LINE
- リスト
- 見て
- 機械
- 機械学習
- 作る
- 管理します
- マネージャー
- かもしれない
- ML
- モデル
- 他には?
- 動画
- ノート
- 開いた
- 操作
- オリジナル
- 自分の
- パネル
- 情熱的な
- 再生
- 準備
- 校長
- 問題
- プロセス
- ラボレーション
- プロ
- プロフィール
- は、大阪で
- 提供
- すぐに
- 倉庫
- 要求
- 要件
- リソースを追加する。
- リソース
- ラン
- ランニング
- 同じ
- Save
- 科学
- 科学者たち
- シリーズ
- サービス
- セッションに
- 設定
- シェル(Shell)
- 表示する
- 簡単な拡張で
- So
- ソフトウェア
- ソフトウェア開発
- 固体
- 溶液
- 解決
- 一部
- ソースコード
- 専門家
- 特定の
- 標準
- start
- 開始
- ストレージ利用料
- 研究
- 首尾よく
- 支援する
- サポート
- 技術的
- ターミナル
- test
- 時間
- 最適化の適用
- トリガ
- 下
- アップデイト
- つかいます
- users
- 可視化
- この試験は
- かどうか
- 以内
- 無し
- 仕事
- 作品
- あなたの