アマゾンセージメーカー ビッグ データ処理用の人気のある分散コンピューティング フレームワークである Apache Spark を使用して分散データ処理ジョブを実行するいくつかの方法を提供します。
Spark アプリケーションを対話的に実行できます。 Amazon SageMakerスタジオ 接続することで SageMaker Studio ノートブックと AWS Glue インタラクティブ セッション サーバーレス クラスターで Spark ジョブを実行します。 インタラクティブなセッションでは、Apache Spark または Ray を選択して、クラスター管理を気にせずに大規模なデータセットを簡単に処理できます。
あるいは、環境をより詳細に制御する必要がある場合は、事前に構築された SageMaker Spark コンテナを使用して、完全に管理された分散クラスター上で Spark アプリケーションをバッチ ジョブとして実行できます。 Amazon SageMaker処理。 このオプションを使用すると、複数のタイプのインスタンス (コンピューティングの最適化、メモリの最適化など)、クラスター内のノードの数、クラスター構成を選択できるため、データ処理とモデルのトレーニングの柔軟性が向上します。
最後に、Studio ノートブックを アマゾンEMR クラスタ、または Spark クラスターを実行することにより、 アマゾン エラスティック コンピューティング クラウド (Amazon EC2)。
これらすべてのオプションを使用すると、Spark イベント ログを生成および保存し、一般に と呼ばれる Web ベースのユーザー インターフェイスを通じて分析できます。 スパークUI。Spark History Server を実行して、Spark アプリケーションの進行状況を監視し、リソースの使用状況を追跡し、エラーをデバッグします。
この投稿では、 溶液 SageMaker Studio に Spark History Server をインストールして実行し、SageMaker Studio IDE から直接 Spark UI にアクセスするため、さまざまな AWS サービス (AWS Glue Interactive Sessions、SageMaker Processing ジョブ、および Amazon EMR) によって生成され、 Amazon シンプル ストレージ サービス (Amazon S3)バケット。
ソリューションの概要
このソリューションは、Spark History Server を SageMaker Studio の Jupyter Server アプリに統合します。 これにより、ユーザーは SageMaker Studio IDE から Spark ログに直接アクセスできるようになります。 統合された Spark History Server は以下をサポートします。
- SageMaker 処理 Spark ジョブによって生成されたログへのアクセス
- AWS Glue Spark アプリケーションによって生成されたログへのアクセス
- 自己管理型の Spark クラスターと Amazon EMR によって生成されたログへのアクセス
と呼ばれるユーティリティ コマンド ライン インターフェイス (CLI) sm-spark-cli
SageMaker Studio システム ターミナルから Spark UI と対話するためにも提供されます。 の sm-spark-cli
SageMaker Studio を離れることなく Spark History Server を管理できるようになります。
このソリューションは、次のアクションを実行するシェル スクリプトで構成されます。
- SageMaker Studio ユーザー プロファイルまたは SageMaker Studio 共有スペース用に、Jupyter Server に Spark をインストールします。
- インストール
sm-spark-cli
ユーザープロファイルまたは共有スペース用
SageMaker Studio ドメインに Spark UI を手動でインストールする
SageMaker Studio で Spark UI をホストするには、次の手順を実行します。
- 選択する システム端末 SageMaker Studio ランチャーから。
- システム端末で次のコマンドを実行します。
コマンドが完了するまでに数秒かかります。
- インストールが完了したら、提供されているツールを使用して Spark UI を開始できます。
sm-spark-cli
次のコードを実行して、Web ブラウザからアクセスします。
sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>
SageMaker Processing、AWS Glue、または Amazon EMR によって生成されたイベント ログが保存される S3 の場所は、Spark アプリケーションの実行時に設定できます。
SageMaker Studio ノートブックと AWS Glue インタラクティブ セッションの場合、ノートブックから直接 Spark イベント ログの場所を設定できます。 sparkmagic
カーネル。
sparkmagic
カーネルには、ノートブックを通じてリモート Spark クラスターと対話するためのツールのセットが含まれています。 それは魔法を提供します(%spark
, %sql
) コマンドを使用して、Spark コードを実行し、SQL クエリを実行し、エグゼキューターのメモリやコアなどの Spark 設定を構成します。
SageMaker Processing ジョブの場合、SageMaker Python SDK から直接 Spark イベント ログの場所を設定できます。
詳細については、AWS のドキュメントを参照してください。
生成された URL を選択して、Spark UI にアクセスできます。
次のスクリーンショットは、Spark UI の例を示しています。
Spark 履歴サーバーのステータスを確認するには、 sm-spark-cli status
Studio System ターミナルのコマンド。
必要に応じて、Spark History Server を停止することもできます。
SageMaker Studio ドメイン内のユーザーの Spark UI インストールを自動化する
IT 管理者は、 ライフサイクル構成。 これは、SageMaker Studio ドメイン内のすべてのユーザー プロファイル、または特定のユーザー プロファイルに対して実行できます。 見る ライフサイクル設定を使用してAmazonSageMakerStudioをカスタマイズする のガイドをご参照ください。
からライフサイクル構成を作成できます。 インストール履歴サーバー.sh スクリプトを作成し、既存の SageMaker Studio ドメインにアタッチします。 インストールは、ドメイン内のすべてのユーザー プロファイルに対して実行されます。
で設定された端末から AWSコマンドラインインターフェイス (AWS CLI) と適切なアクセス許可を持っている場合は、次のコマンドを実行します。
Jupyter Server が再起動すると、Spark UI と sm-spark-cli
SageMaker Studio 環境で利用できるようになります。
クリーンアップ
このセクションでは、SageMaker Studio ドメインの Spark UI を手動または自動でクリーンアップする方法を示します。
Spark UI を手動でアンインストールする
SageMaker Studio で Spark UI を手動でアンインストールするには、次の手順を実行します。
- 選択する システム端末 SageMaker Studio ランチャー内。
- システム端末で次のコマンドを実行します。
すべての SageMaker Studio ユーザー プロファイルの Spark UI を自動的にアンインストールする
SageMaker Studio ですべてのユーザー プロファイルの Spark UI を自動的にアンインストールするには、次の手順を実行します。
- SageMakerコンソールで、 ドメイン ナビゲーションペインで、SageMaker Studio ドメインを選択します。
- ドメインの詳細ページで、 環境 タブには何も表示されないことに注意してください。
- SageMaker Studio で Spark UI のライフサイクル構成を選択します。
- 選択する デタッチ.
- SageMaker Studio ユーザー プロファイルの Jupyter Server アプリを削除して再起動します。
まとめ
この投稿では、SageMaker Studio に Spark UI をすばやくインストールするために使用できるソリューションを共有しました。 SageMaker でホストされる Spark UI を使用すると、機械学習 (ML) チームとデータ エンジニアリング チームは、スケーラブルなクラウド コンピューティングを使用して、どこからでも Spark ログにアクセスして分析し、プロジェクトの配信を迅速化できます。 IT 管理者は、クラウドでのソリューションのプロビジョニングを標準化して迅速化し、ML プロジェクト用のカスタム開発環境の急増を回避できます。
この投稿の一部として示されているすべてのコードは、 GitHubリポジトリ.
著者について
ジュゼッペアンジェロポルチェッリ アマゾン ウェブ サービスのプリンシパル機械学習スペシャリスト ソリューション アーキテクトです。 数年間のソフトウェア エンジニアリングと ML のバックグラウンドを持つ彼は、あらゆる規模の顧客と協力してビジネスと技術的なニーズを理解し、AWS クラウドと Amazon Machine Learning スタックを最大限に活用する AI および ML ソリューションを設計しています。 彼は、MLOps、コンピューター ビジョン、NLP など、幅広い AWS サービスを含むさまざまなドメインのプロジェクトに取り組んできました。 ジュゼッペは自由時間にはサッカーを楽しんでいます。
ブルーノ・ピストン ミラノを拠点とする AWS の AI/ML スペシャリスト ソリューション アーキテクトです。 彼はあらゆる規模の顧客と協力し、顧客が技術的なニーズを理解し、AWS クラウドと Amazon Machine Learning スタックを最大限に活用する AI および ML ソリューションを設計できるよう支援しています。 彼の専門分野には、機械学習のエンドツーエンド、機械学習の産業化、生成 AI が含まれます。 彼は、友達と時間を過ごしたり、新しい場所を探索したり、新しい目的地へ旅行したりすることを楽しんでいます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 自動車/EV、 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- ブロックオフセット。 環境オフセット所有権の近代化。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/host-the-spark-ui-on-amazon-sagemaker-studio/
- :持っている
- :は
- :どこ
- $UP
- 1
- 100
- 12
- 7
- 8
- 9
- a
- 私たちについて
- アクセス
- アクセス
- 行動
- NEW
- 追加情報
- 管理人
- AI
- AI / ML
- すべて
- 許す
- ことができます
- また
- Amazon
- Amazon EC2
- アマゾンEMR
- アマゾン機械学習
- アマゾンセージメーカー
- Amazon SageMakerスタジオ
- Amazon Webサービス
- an
- 分析します
- 分析する
- および
- どれか
- どこにでも
- アパッチ
- アプリ
- 適切な
- アプリ
- です
- AS
- アタッチ
- 自動化する
- 自動的に
- 利用できます
- 避ける
- AWS
- AWSグルー
- 背景
- ベース
- BE
- BEST
- ビッグ
- ビッグデータ
- 広い
- ブラウザ
- ビジネス
- by
- 呼ばれます
- 缶
- CD
- チェック
- 選択する
- クラウド
- クラスタ
- コード
- 一般に
- コンプリート
- 計算
- コンピュータ
- Computer Vision
- コンピューティング
- 設定された
- 接続する
- からなる
- 領事
- コンテナ
- 含まれています
- コントロール
- 作ります
- カスタム
- Customers
- データ
- データ処理
- データセット
- 配達
- 設計
- 目的地
- 細部
- 開発
- 異なります
- 直接に
- 配布
- 分散コンピューティング
- ドキュメント
- ドメイン
- ドメイン
- 行われ
- 簡単に
- どちら
- 可能
- 有効にする
- end
- エンジニアリング
- 環境
- 環境
- エラー
- イベント
- 例
- 既存の
- 迅速化する
- 探る
- 少数の
- フィールド
- 柔軟性
- フォロー中
- サッカー
- フレームワーク
- 無料版
- 友達
- から
- 完全に
- 生成する
- 生成された
- 生々しい
- 生成AI
- 大きい
- he
- 助け
- 彼の
- history
- host
- 主催
- 認定条件
- How To
- HTML
- HTTP
- HTTPS
- if
- in
- 含ま
- 含めて
- 情報
- install
- インストール
- インストールする
- 統合された
- 統合する
- 相互作用
- 相互作用的
- インタフェース
- に
- 関与
- IT
- ジョブ
- Jobs > Create New Job
- JPG
- 大
- 学習
- 残す
- wifecycwe
- ような
- LINE
- 場所
- ログ
- 機械
- 機械学習
- マジック
- make
- マネージド
- 管理
- 管理する
- 手動で
- メモリ
- MILAN
- ML
- MLOps
- モニター
- 他には?
- 名前付き
- ナビゲート
- ナビゲーション
- 必要
- 必要とされる
- ニーズ
- 新作
- NLP
- ノード
- ノート
- 数
- of
- オファー
- on
- もの
- 最適化
- オプション
- オプション
- or
- が
- ページ
- ペイン
- 部
- 実行する
- パーミッション
- 場所
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 再生
- 人気
- ポスト
- 校長
- プロセス
- 処理
- 生産された
- プロフィール
- 対応プロファイル
- 進捗
- プロジェクト
- プロジェクト(実績作品)
- 提供
- Python
- クエリ
- すぐに
- RAY
- リモート
- リソースを追加する。
- ラン
- ランニング
- 実行
- セージメーカー
- ド電源のデ
- スクリプト
- SDDK
- 秒
- セクション
- サーバレス
- サービス
- セッション
- セッションに
- 設定
- いくつかの
- シェアする
- shared
- シェル(Shell)
- 表示する
- 示す
- 作品
- 簡単な拡張で
- サイズ
- ソフトウェア
- ソフトウェア工学
- 溶液
- ソリューション
- スパーク
- 専門家
- 特定の
- スピード
- 支出
- スタック
- start
- Status:
- ステップ
- Force Stop
- ストレージ利用料
- 店舗
- 保存され
- 研究
- サポート
- 取る
- チーム
- 技術的
- ターミナル
- それ
- アプリ環境に合わせて
- それら
- その後
- それによって
- ボーマン
- この
- 介して
- 時間
- 〜へ
- 豊富なツール群
- 追跡する
- トレーニング
- 旅行
- ui
- 下
- わかる
- URL
- 使用法
- つかいます
- ユーザー
- ユーザーインターフェース
- users
- ユーティリティ
- ビジョン
- 方法
- we
- ウェブ
- ウェブブラウザ
- Webサービス
- ウェブベースの
- WELL
- いつ
- which
- 意志
- 無し
- 働いていました
- 作品
- 年
- You
- あなたの
- ゼファーネット