Amazon SageMaker Studio'da Spark Kullanıcı Arayüzünü Barındırın | Amazon Web Hizmetleri

Amazon SageMaker Studio'da Spark Kullanıcı Arayüzünü Barındırın | Amazon Web Hizmetleri

Amazon Adaçayı Yapıcı büyük veri işleme için popüler bir dağıtılmış bilgi işlem çerçevesi olan Apache Spark ile dağıtılmış veri işleme işlerini çalıştırmak için çeşitli yollar sunar.

Spark uygulamalarını etkileşimli olarak çalıştırabilirsiniz. Amazon SageMaker Stüdyosu bağlanarak SageMaker Studio not defterleri ve AWS Glue Interactive Sessions Spark işlerini sunucusuz bir kümeyle çalıştırmak için. Etkileşimli oturumlarla, büyük veri kümelerini küme yönetimi konusunda endişelenmeden kolayca işlemek için Apache Spark veya Ray'i seçebilirsiniz.

Alternatif olarak, ortam üzerinde daha fazla kontrole ihtiyacınız varsa, Spark uygulamalarını tamamen yönetilen dağıtılmış bir kümede toplu işler olarak çalıştırmak için önceden oluşturulmuş bir SageMaker Spark kapsayıcısı kullanabilirsiniz. Amazon SageMaker İşleme. Bu seçenek, çeşitli bulut sunucusu türleri (işlem için optimize edilmiş, bellek için optimize edilmiş ve daha fazlası), kümedeki düğüm sayısı ve küme yapılandırması seçmenize olanak tanıyarak veri işleme ve model eğitimi için daha fazla esneklik sağlar.

Son olarak, Studio not defterlerini aşağıdakilere bağlayarak Spark uygulamalarını çalıştırabilirsiniz: Amazon EMR'si kümelerveya üzerinde Spark kümenizi çalıştırarak Amazon Elastik Bilgi İşlem Bulutu (Amazon EC2).

Tüm bu seçenekler, Spark olay günlüklerini yaygın olarak adlandırılan web tabanlı kullanıcı arabirimi aracılığıyla analiz etmek için oluşturmanıza ve depolamanıza olanak tanır. Kıvılcım Kullanıcı ArayüzüSpark uygulamalarının ilerlemesini izlemek, kaynak kullanımını izlemek ve hataları ayıklamak için bir Spark Geçmişi Sunucusu çalıştıran.

Bu gönderide, bir çözüm Spark History Server'ı SageMaker Studio'ya yüklemek ve çalıştırmak ve Spark UI'ye doğrudan SageMaker Studio IDE'den erişmek, farklı AWS hizmetleri (AWS Glue Interactive Sessions, SageMaker Processing işleri ve Amazon EMR) tarafından üretilen ve bir sunucuda depolanan Spark günlüklerini analiz etmek için Amazon Basit Depolama Hizmeti (Amazon S3) kovası.

Çözüme genel bakış

Çözüm, Spark History Server'ı SageMaker Studio'daki Jupyter Server uygulamasına entegre eder. Bu, kullanıcıların Spark günlüklerine doğrudan SageMaker Studio IDE'den erişmesine olanak tanır. Entegre Kıvılcım Geçmişi Sunucusu aşağıdakileri destekler:

  • SageMaker Processing Spark işleri tarafından oluşturulan günlüklere erişme
  • AWS Glue Spark uygulamaları tarafından oluşturulan günlüklere erişme
  • Kendi kendini yöneten Spark kümeleri ve Amazon EMR tarafından oluşturulan günlüklere erişme

adlı bir yardımcı program komut satırı arabirimi (CLI) sm-spark-cli SageMaker Studio sistem terminalinden Spark UI ile etkileşim için de sağlanır. bu sm-spark-cli SageMaker Studio'dan ayrılmadan Spark Geçmişi Sunucusunu yönetmeyi sağlar.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Çözüm, aşağıdaki eylemleri gerçekleştiren kabuk betiklerinden oluşur:

  • SageMaker Studio kullanıcı profilleri veya bir SageMaker Studio paylaşılan alanı için Spark'ı Jupyter Sunucusuna kurun
  • kurmak sm-spark-cli bir kullanıcı profili veya paylaşılan alan için

Spark kullanıcı arayüzünü manuel olarak bir SageMaker Studio etki alanına kurun

Spark UI'yi SageMaker Studio'da barındırmak için aşağıdaki adımları tamamlayın:

  1. Klinik Sistem terminali SageMaker Studio başlatıcısından.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

  1. Sistem terminalinde aşağıdaki komutları çalıştırın:
curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts
chmod +x install-history-server.sh
./install-history-server.sh

Komutların tamamlanması birkaç saniye sürecektir.

  1. Kurulum tamamlandığında, sağlananı kullanarak Spark kullanıcı arayüzünü başlatabilirsiniz. sm-spark-cli ve aşağıdaki kodu çalıştırarak bir web tarayıcısından erişin:

sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>

SageMaker Processing, AWS Glue veya Amazon EMR tarafından üretilen olay günlüklerinin depolandığı S3 konumu, Spark uygulamaları çalıştırılırken yapılandırılabilir.

SageMaker Studio not defterleri ve AWS Glue Interactive Sessions için Spark olay günlüğü konumunu doğrudan not defterinden ayarlayabilirsiniz. sparkmagic çekirdek.

The sparkmagic çekirdek, not defterleri aracılığıyla uzak Spark kümeleriyle etkileşim kurmak için bir dizi araç içerir. Sihir sunar (%spark, %sql) Spark kodunu çalıştırma, SQL sorguları gerçekleştirme ve yürütücü belleği ve çekirdekler gibi Spark ayarlarını yapılandırma komutları.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

SageMaker İşleme işi için, Spark olay günlüğü konumunu doğrudan SageMaker Python SDK'dan yapılandırabilirsiniz.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Ek bilgi için AWS belgelerine bakın:

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Spark kullanıcı arayüzüne erişmek için oluşturulan URL'yi seçebilirsiniz.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Aşağıdaki ekran görüntüsü, Spark kullanıcı arabiriminin bir örneğini göstermektedir.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Kıvılcım Geçmişi Sunucusunun durumunu aşağıdakileri kullanarak kontrol edebilirsiniz: sm-spark-cli status Studio Sistem terminalinde komut.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Gerektiğinde Kıvılcım Geçmişi Sunucusunu da durdurabilirsiniz.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Bir SageMaker Studio alanındaki kullanıcılar için Spark UI kurulumunu otomatikleştirin

Bir BT yöneticisi olarak, SageMaker Studio kullanıcıları için kurulumu otomatik hale getirebilirsiniz. yaşam döngüsü yapılandırması. Bu, bir SageMaker Studio alanı altındaki tüm kullanıcı profilleri veya belirli profiller için yapılabilir. Görmek Amazon SageMaker Studio'yu Yaşam Döngüsü Yapılandırmalarını kullanarak özelleştirin daha fazla ayrıntı için.

Bir yaşam döngüsü yapılandırması oluşturabilirsiniz. install-history-server.sh komut dosyası oluşturun ve onu mevcut bir SageMaker Studio etki alanına ekleyin. Kurulum, etki alanındaki tüm kullanıcı profilleri için çalıştırılır.

ile yapılandırılmış bir terminalden AWS Komut Satırı Arayüzü (AWS CLI) ve uygun izinler için aşağıdaki komutları çalıştırın:

curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts LCC_CONTENT=`openssl base64 -A -in install-history-server.sh` aws sagemaker create-studio-lifecycle-config --studio-lifecycle-config-name install-spark-ui-on-jupyterserver --studio-lifecycle-config-content $LCC_CONTENT --studio-lifecycle-config-app-type JupyterServer --query 'StudioLifecycleConfigArn' aws sagemaker update-domain --region {YOUR_AWS_REGION} --domain-id {YOUR_STUDIO_DOMAIN_ID} --default-user-settings '{ "JupyterServerAppSettings": { "DefaultResourceSpec": { "LifecycleConfigArn": "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver", "InstanceType": "system" }, "LifecycleConfigArns": [ "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver" ] }}'

Jupyter Sunucusu yeniden başlatıldıktan sonra, Spark Kullanıcı Arayüzü ve sm-spark-cli SageMaker Studio ortamınızda mevcut olacaktır.

Temizlemek

Bu bölümde, bir SageMaker Studio alanındaki Spark kullanıcı arayüzünü manuel veya otomatik olarak nasıl temizleyeceğinizi gösteriyoruz.

Spark kullanıcı arayüzünü manuel olarak kaldırın

Spark kullanıcı arayüzünü SageMaker Studio'da manuel olarak kaldırmak için aşağıdaki adımları tamamlayın:

  1. Klinik Sistem terminali SageMaker Studio başlatıcısında.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

  1. Sistem terminalinde aşağıdaki komutları çalıştırın:
cd amazon-sagemaker-spark-ui-0.1.0/install-scripts chmod +x uninstall-history-server.sh
./uninstall-history-server.sh

Tüm SageMaker Studio kullanıcı profilleri için Spark kullanıcı arayüzünü otomatik olarak kaldırın

Tüm kullanıcı profilleri için SageMaker Studio'daki Spark kullanıcı arayüzünü otomatik olarak kaldırmak üzere aşağıdaki adımları tamamlayın:

  1. SageMaker konsolunda, Alanlar gezinti bölmesinde, ardından SageMaker Studio etki alanını seçin.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

  1. Etki alanı ayrıntıları sayfasında şuraya gidin: çevre sekmesi.
  2. SageMaker Studio'da Spark kullanıcı arabirimi için yaşam döngüsü yapılandırmasını seçin.
  3. Klinik Ayır.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

  1. SageMaker Studio kullanıcı profilleri için Jupyter Server uygulamalarını silin ve yeniden başlatın.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Sonuç

Bu gönderide, Spark kullanıcı arayüzünü SageMaker Studio'ya hızlı bir şekilde yüklemek için kullanabileceğiniz bir çözümü paylaştık. SageMaker'da barındırılan Spark UI ile makine öğrenimi (ML) ve veri mühendisliği ekipleri, Spark günlüklerine her yerden erişip bunları analiz etmek ve proje teslimatlarını hızlandırmak için ölçeklenebilir bulut bilişimi kullanabilir. BT yöneticileri, çözümün bulutta sağlanmasını standartlaştırıp hızlandırabilir ve makine öğrenimi projeleri için özel geliştirme ortamlarının çoğalmasını önleyebilir.

Bu gönderinin bir parçası olarak gösterilen tüm kodlar şu adreste mevcuttur: GitHub deposu.


Yazarlar Hakkında

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Giuseppe Angelo Porcelli Amazon Web Services için Baş Makine Öğrenimi Uzmanı Çözüm Mimarıdır. Birkaç yıllık yazılım mühendisliği ve makine öğrenimi geçmişiyle, her büyüklükteki müşteriyle iş ve teknik ihtiyaçlarını anlamak ve AWS Cloud ve Amazon Machine Learning yığınından en iyi şekilde yararlanan yapay zeka ve makine öğrenimi çözümleri tasarlamak için çalışıyor. Çok çeşitli AWS hizmetlerini içeren MLOps, bilgisayar görüşü ve NLP dahil olmak üzere farklı alanlardaki projelerde çalıştı. Giuseppe boş zamanlarında futbol oynamaktan hoşlanır.

Spark Kullanıcı Arayüzünü Amazon SageMaker Studio'da Barındırın | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Bruno Piston Milan merkezli AWS için bir AI/ML Uzman Çözüm Mimarıdır. Her ölçekten müşteriyle çalışarak onların teknik ihtiyaçlarını anlamalarına ve AWS Cloud ile Amazon Machine Learning yığınından en iyi şekilde yararlanan yapay zeka ve makine öğrenimi çözümleri tasarlamalarına yardımcı olur. Uzmanlık alanı uçtan uca makine öğrenimi, makine öğrenimi sanayileştirme ve üretken yapay zekayı içerir. Arkadaşları ile vakit geçirmekten, yeni yerler keşfetmekten ve yeni yerlere seyahat etmekten hoşlanır.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi