Amazon SageMaker oferă mai multe modalități de a rula joburi de procesare a datelor distribuite cu Apache Spark, un cadru de calcul distribuit popular pentru procesarea datelor mari.
Puteți rula aplicațiile Spark în mod interactiv de la Amazon SageMaker Studio prin conectare Notebook-uri SageMaker Studio și sesiuni interactive AWS Glue pentru a rula joburi Spark cu un cluster fără server. Cu sesiunile interactive, puteți alege Apache Spark sau Ray pentru a procesa cu ușurință seturi de date mari, fără să vă faceți griji cu privire la gestionarea clusterelor.
În mod alternativ, dacă aveți nevoie de mai mult control asupra mediului, puteți utiliza un container SageMaker Spark pre-construit pentru a rula aplicații Spark sub formă de joburi batch pe un cluster distribuit complet gestionat cu Procesare Amazon SageMaker. Această opțiune vă permite să selectați mai multe tipuri de instanțe (optimizate pentru calcul, optimizate pentru memorie și altele), numărul de noduri din cluster și configurația clusterului, permițând astfel o mai mare flexibilitate pentru procesarea datelor și formarea modelului.
În cele din urmă, puteți rula aplicațiile Spark conectând notebook-urile Studio cu Amazon EMR clustere, sau rulând clusterul Spark Cloud Elastic de calcul Amazon (Amazon EC2).
Toate aceste opțiuni vă permit să generați și să stocați jurnalele de evenimente Spark pentru a le analiza prin interfața de utilizator bazată pe web, denumită în mod obișnuit Spark UI, care rulează un Spark History Server pentru a monitoriza progresul aplicațiilor Spark, pentru a urmări utilizarea resurselor și pentru a remedia erorile.
În această postare, împărtășim un soluţie pentru instalarea și rularea Spark History Server pe SageMaker Studio și accesarea interfeței de utilizare Spark direct din SageMaker Studio IDE, pentru analiza jurnalelor Spark produse de diferite servicii AWS (AWS Glue Interactive Sessions, joburi de procesare SageMaker și Amazon EMR) și stocate într-un Serviciul Amazon de stocare simplă Găleată (Amazon S3)
Prezentare generală a soluțiilor
Soluția integrează Spark History Server în aplicația Jupyter Server din SageMaker Studio. Acest lucru permite utilizatorilor să acceseze jurnalele Spark direct din SageMaker Studio IDE. Serverul Spark History integrat acceptă următoarele:
- Accesarea jurnalelor generate de SageMaker Processing jobs Spark
- Accesarea jurnalelor generate de aplicațiile AWS Glue Spark
- Accesarea jurnalelor generate de clusterele Spark autogestionate și Amazon EMR
A apelat o interfață de linie de comandă (CLI) utilitar sm-spark-cli
este, de asemenea, furnizat pentru interacțiunea cu Spark UI din terminalul de sistem SageMaker Studio. The sm-spark-cli
permite gestionarea Spark History Server fără a părăsi SageMaker Studio.
Soluția constă din scripturi shell care efectuează următoarele acțiuni:
- Instalați Spark pe serverul Jupyter pentru profilurile de utilizator SageMaker Studio sau pentru un spațiu partajat SageMaker Studio
- instalaţi
sm-spark-cli
pentru un profil de utilizator sau un spațiu comun
Instalați manual interfața de utilizare Spark într-un domeniu SageMaker Studio
Pentru a găzdui Spark UI pe SageMaker Studio, parcurgeți următorii pași:
- Alege Terminal de sistem din lansatorul SageMaker Studio.
- Rulați următoarele comenzi în terminalul de sistem:
Comenzile vor dura câteva secunde pentru a fi finalizate.
- Când instalarea este finalizată, puteți porni interfața Spark utilizând cea furnizată
sm-spark-cli
și accesați-l dintr-un browser web rulând următorul cod:
sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>
Locația S3 în care sunt stocate jurnalele de evenimente produse de SageMaker Processing, AWS Glue sau Amazon EMR poate fi configurată atunci când rulează aplicațiile Spark.
Pentru notebook-urile SageMaker Studio și AWS Glue Interactive Sessions, puteți configura locația jurnalului de evenimente Spark direct din blocnotes, folosind sparkmagic
nucleu.
sparkmagic
kernel-ul conține un set de instrumente pentru interacțiunea cu clusterele Spark la distanță prin notebook-uri. Oferă magie (%spark
, %sql
) pentru a rula codul Spark, a efectua interogări SQL și a configura setările Spark, cum ar fi memoria executorului și nucleele.
Pentru jobul de procesare SageMaker, puteți configura locația jurnalului de evenimente Spark direct din SDK-ul SageMaker Python.
Consultați documentația AWS pentru informații suplimentare:
Puteți alege adresa URL generată pentru a accesa interfața de utilizare Spark.
Următoarea captură de ecran arată un exemplu de interfață de utilizare Spark.
Puteți verifica starea Spark History Server utilizând sm-spark-cli status
comandă în terminalul Studio System.
De asemenea, puteți opri Spark History Server atunci când este necesar.
Automatizați instalarea Spark UI pentru utilizatorii dintr-un domeniu SageMaker Studio
În calitate de administrator IT, puteți automatiza instalarea pentru utilizatorii SageMaker Studio utilizând a configurația ciclului de viață. Acest lucru se poate face pentru toate profilurile de utilizator dintr-un domeniu SageMaker Studio sau pentru anumite profiluri. Vedea Personalizați Amazon SageMaker Studio folosind Configurații ciclului de viață pentru mai multe detalii.
Puteți crea o configurație ciclului de viață din install-history-server.sh script și atașați-l la un domeniu SageMaker Studio existent. Instalarea se execută pentru toate profilurile de utilizator din domeniu.
De la un terminal configurat cu Interfața liniei de comandă AWS (AWS CLI) și permisiunile corespunzătoare, executați următoarele comenzi:
După repornirea Jupyter Server, interfața de utilizare Spark și sm-spark-cli
va fi disponibil în mediul dumneavoastră SageMaker Studio.
A curăța
În această secțiune, vă arătăm cum să curățați interfața de utilizare Spark într-un domeniu SageMaker Studio, fie manual, fie automat.
Dezinstalați manual interfața de utilizare Spark
Pentru a dezinstala manual Spark UI în SageMaker Studio, parcurgeți următorii pași:
- Alege Terminal de sistem în lansatorul SageMaker Studio.
- Rulați următoarele comenzi în terminalul de sistem:
Dezinstalați automat interfața de utilizare Spark pentru toate profilurile de utilizator SageMaker Studio
Pentru a dezinstala automat interfața de utilizare Spark în SageMaker Studio pentru toate profilurile de utilizator, parcurgeți următorii pași:
- Pe consola SageMaker, alegeți domenii în panoul de navigare, apoi alegeți domeniul SageMaker Studio.
- În pagina cu detaliile domeniului, navigați la Mediu inconjurator tab.
- Selectați configurația ciclului de viață pentru Spark UI pe SageMaker Studio.
- Alege Desprinde.
- Ștergeți și reporniți aplicațiile Jupyter Server pentru profilurile de utilizator SageMaker Studio.
Concluzie
În această postare, am distribuit o soluție pe care o puteți folosi pentru a instala rapid interfața de utilizare Spark pe SageMaker Studio. Cu interfața Spark găzduită pe SageMaker, echipele de învățare automată (ML) și de inginerie a datelor pot folosi cloud compute scalabil pentru a accesa și analiza jurnalele Spark de oriunde și pentru a-și accelera livrarea proiectelor. Administratorii IT pot standardiza și accelera furnizarea soluției în cloud și pot evita proliferarea mediilor de dezvoltare personalizate pentru proiectele ML.
Tot codul afișat ca parte a acestei postări este disponibil în GitHub depozit.
Despre Autori
Giuseppe Angelo Porcelli este arhitect principal de soluții de specialitate în învățare automată pentru Amazon Web Services. Cu câțiva ani în inginerie software și cunoștințe de ML, el lucrează cu clienți de orice dimensiune pentru a înțelege nevoile lor de afaceri și tehnice și pentru a proiecta soluții AI și ML care folosesc cel mai bine AWS Cloud și Amazon Machine Learning. El a lucrat la proiecte în diferite domenii, inclusiv MLOps, viziune computerizată și NLP, implicând un set larg de servicii AWS. În timpul liber lui Giuseppe îi place să joace fotbal.
Bruno Pistone este un arhitect specializat în soluții AI/ML pentru AWS cu sediul în Milano. Lucrează cu clienți de orice dimensiune, ajutându-i să-și înțeleagă nevoile tehnice și să proiecteze soluții AI și ML care folosesc cel mai bine AWS Cloud și Amazon Machine Learning. Domeniul său de expertiză include învățarea automată de la capăt la capăt, industrializarea învățării automate și AI generativă. Îi place să petreacă timpul cu prietenii săi și să exploreze locuri noi, precum și să călătorească către noi destinații.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
- PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
- PlatoESG. Automobile/VE-uri, carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
- BlockOffsets. Modernizarea proprietății de compensare a mediului. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/machine-learning/host-the-spark-ui-on-amazon-sagemaker-studio/
- :are
- :este
- :Unde
- $UP
- 1
- 100
- 12
- 7
- 8
- 9
- a
- Despre Noi
- acces
- accesarea
- acțiuni
- Suplimentar
- informatii suplimentare
- admin
- AI
- AI / ML
- TOATE
- permite
- permite
- de asemenea
- Amazon
- Amazon EC2
- Amazon EMR
- Învățare automată Amazon
- Amazon SageMaker
- Amazon SageMaker Studio
- Amazon Web Services
- an
- analiza
- analiza
- și
- Orice
- oriunde
- Apache
- aplicaţia
- aplicatii
- adecvat
- Apps
- SUNT
- AS
- atașa
- automatizarea
- în mod automat
- disponibil
- evita
- AWS
- AWS Adeziv
- fundal
- bazat
- BE
- CEL MAI BUN
- Mare
- Datele mari
- larg
- browser-ul
- afaceri
- by
- denumit
- CAN
- CD
- verifica
- Alege
- Cloud
- Grup
- cod
- în mod obișnuit
- Completă
- Calcula
- calculator
- Computer Vision
- tehnica de calcul
- Configuraţie
- configurat
- Conectarea
- constă
- Consoleze
- Recipient
- conține
- Control
- crea
- personalizat
- clienţii care
- de date
- de prelucrare a datelor
- seturi de date
- livrare
- Amenajări
- destinații
- detalii
- Dezvoltare
- diferit
- direct
- distribuite
- calcul distribuit
- documentaţie
- domeniu
- domenii
- făcut
- cu ușurință
- oricare
- permite
- permițând
- capăt
- Inginerie
- Mediu inconjurator
- medii
- Erori
- eveniment
- exemplu
- existent
- accelera
- Explorarea
- puțini
- camp
- Flexibilitate
- următor
- Fotbal
- Pentru
- Cadru
- Gratuit
- Prietenii lui
- din
- complet
- genera
- generată
- generativ
- AI generativă
- mai mare
- he
- ajutor
- lui
- istorie
- gazdă
- găzduit
- Cum
- Cum Pentru a
- HTML
- http
- HTTPS
- if
- in
- include
- Inclusiv
- informații
- instala
- instalare
- Instalarea
- integrate
- integreaza
- interacționând
- interactiv
- interfaţă
- în
- implicând
- IT
- Loc de munca
- Locuri de munca
- jpg
- mare
- învăţare
- lăsând
- ciclu de viață
- ca
- Linie
- locaţie
- log
- maşină
- masina de învățare
- magie
- face
- gestionate
- administrare
- de conducere
- manual
- Memorie
- MILAN
- ML
- MLOps
- model
- monitor
- mai mult
- Numit
- Navigaţi
- Navigare
- Nevoie
- necesar
- nevoilor
- Nou
- nlp
- noduri
- caiet
- număr
- of
- promoții
- on
- cele
- optimizate
- Opțiune
- Opţiuni
- or
- peste
- pagină
- pâine
- parte
- Efectua
- permisiuni
- Locuri
- Plato
- Informații despre date Platon
- PlatoData
- joc
- Popular
- Post
- Principal
- proces
- prelucrare
- Produs
- Profil
- Profiluri
- Progres
- proiect
- Proiecte
- prevăzut
- Piton
- interogări
- repede
- RAY
- la distanta
- resursă
- Alerga
- funcţionare
- ruleaza
- sagemaker
- scalabil
- script-uri
- sdk
- secunde
- Secțiune
- vedea
- serverless
- Servicii
- Sesiunile
- set
- setări
- câteva
- Distribuie
- comun
- Coajă
- Arăta
- indicat
- Emisiuni
- simplu
- Mărimea
- Software
- Inginerie software
- soluţie
- soluţii
- Scânteie
- specialist
- specific
- viteză
- Cheltuire
- stivui
- Începe
- Stare
- paşi
- Stop
- depozitare
- stoca
- stocate
- studio
- Sprijină
- sistem
- Lua
- echipe
- Tehnic
- Terminal
- acea
- lor
- Lor
- apoi
- astfel
- Acestea
- acest
- Prin
- timp
- la
- Unelte
- urmări
- Pregătire
- Traveling
- Tipuri
- ui
- în
- înţelege
- URL-ul
- Folosire
- utilizare
- Utilizator
- User Interface
- utilizatorii
- folosind
- utilitate
- viziune
- modalități de
- we
- web
- browser web
- servicii web
- bazat pe web
- BINE
- cand
- care
- voi
- cu
- fără
- a lucrat
- fabrică
- ani
- Tu
- Ta
- zephyrnet