Amazon Sage Maker tarjoaa useita tapoja suorittaa hajautettuja tietojenkäsittelytöitä Apache Sparkilla, joka on suosittu hajautettu laskentakehys suurdatan käsittelyyn.
Voit ajaa Spark-sovelluksia interaktiivisesti osoitteesta Amazon SageMaker Studio yhdistämällä SageMaker Studio -muistikirjat ja AWS Glue Interactive Sessions suorittaa Spark-töitä palvelimettoman klusterin kanssa. Interaktiivisten istuntojen avulla voit valita Apache Sparkin tai Rayn käsitelläksesi helposti suuria tietojoukkoja ilman, että sinun tarvitsee huolehtia klusterinhallinnasta.
Vaihtoehtoisesti, jos tarvitset enemmän ympäristön hallintaa, voit käyttää valmiiksi rakennettua SageMaker Spark -säilöä Spark-sovellusten suorittamiseen erätöinä täysin hallitussa hajautetussa klusterissa. Amazon SageMaker -käsittely. Tämän vaihtoehdon avulla voit valita usean tyyppisiä ilmentymiä (laskentaoptimoitu, muistioptimoitu ja paljon muuta), klusterin solmujen lukumäärän ja klusterin kokoonpanon, mikä mahdollistaa suuremman joustavuuden tietojenkäsittelyssä ja mallin koulutuksessa.
Lopuksi voit käyttää Spark-sovelluksia yhdistämällä Studio-kannettavat Amazonin EMR klusterittai käynnistämällä Spark-klusterin Amazonin elastinen laskentapilvi (Amazon EC2).
Kaikkien näiden vaihtoehtojen avulla voit luoda ja tallentaa Spark-tapahtumalokeja analysoidaksesi niitä verkkopohjaisen käyttöliittymän kautta, jota kutsutaan yleisesti nimellä Spark UI, joka käyttää Spark History Serveriä valvomaan Spark-sovellusten edistymistä, seuraamaan resurssien käyttöä ja virheenkorjausvirheitä.
Tässä postauksessa jaamme a ratkaisu Spark History Serverin asentamiseen ja käyttämiseen SageMaker Studiossa sekä Spark-käyttöliittymän käyttämiseen suoraan SageMaker Studion IDE:stä, eri AWS-palveluiden (AWS Glue Interactive Sessions, SageMaker Processing -työt ja Amazon EMR) tuottamien Spark-lokien analysointiin, jotka on tallennettu Amazonin yksinkertainen tallennuspalvelu (Amazon S3)-kauha.
Ratkaisun yleiskatsaus
Ratkaisu integroi Spark History Serverin SageMaker Studion Jupyter Server -sovellukseen. Näin käyttäjät voivat käyttää Spark-lokeja suoraan SageMaker Studio IDE:stä. Integroitu Spark History Server tukee seuraavia:
- SageMaker Processing Spark -töiden luomien lokien käyttö
- Pääsy AWS Glue Spark -sovellusten luomiin lokeihin
- Itsehallittujen Spark-klusterien ja Amazon EMR:n luomien lokien käyttö
Kutsutaan apuohjelman komentoriviliitäntä (CLI). sm-spark-cli
on myös tarkoitettu vuorovaikutukseen Spark UI:n kanssa SageMaker Studio -järjestelmäpäätteestä. The sm-spark-cli
mahdollistaa Spark History Serverin hallinnan poistumatta SageMaker Studiosta.
Ratkaisu koostuu shell-skripteistä, jotka suorittavat seuraavat toiminnot:
- Asenna Spark Jupyter Serveriin SageMaker Studion käyttäjäprofiileja tai SageMaker Studion jaettua tilaa varten
- Asenna
sm-spark-cli
käyttäjäprofiilia tai jaettua tilaa varten
Asenna Spark UI manuaalisesti SageMaker Studio -verkkotunnukseen
Jos haluat isännöidä Spark-käyttöliittymää SageMaker Studiossa, suorita seuraavat vaiheet:
- Valita Järjestelmän pääte SageMaker Studion käynnistysohjelmasta.
- Suorita seuraavat komennot järjestelmäpäätteessä:
Komennon suorittaminen kestää muutaman sekunnin.
- Kun asennus on valmis, voit käynnistää Spark UI:n käyttämällä mukana toimitettua
sm-spark-cli
ja käytä sitä verkkoselaimella suorittamalla seuraava koodi:
sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>
S3-sijainti, johon SageMaker Processingin, AWS Gluen tai Amazon EMR:n tuottamat tapahtumalokit tallennetaan, voidaan määrittää käytettäessä Spark-sovelluksia.
SageMaker Studio -muistikirjoille ja AWS Glue Interactive Sessions -istunnoille voit määrittää Spark-tapahtumalokin sijainnin suoraan muistikirjasta käyttämällä sparkmagic
ydin.
- sparkmagic
ydin sisältää joukon työkaluja vuorovaikutukseen Spark-etäklusterien kanssa muistikirjojen kautta. Se tarjoaa taikuutta (%spark
, %sql
) -komennot suorittamaan Spark-koodia, suorittamaan SQL-kyselyitä ja määrittämään Spark-asetuksia, kuten suorittimen muistia ja ytimiä.
SageMaker Processing -työtä varten voit määrittää Spark-tapahtumalokin sijainnin suoraan SageMaker Python SDK:sta.
Katso lisätietoja AWS-dokumentaatiosta:
Voit valita luodun URL-osoitteen päästäksesi Spark-käyttöliittymään.
Seuraavassa kuvakaappauksessa on esimerkki Spark-käyttöliittymästä.
Voit tarkistaa Spark History Serverin tilan käyttämällä sm-spark-cli status
-komento Studio System -päätteessä.
Voit myös pysäyttää Spark History Serverin tarvittaessa.
Automatisoi Spark UI -asennus SageMaker Studio -verkkotunnuksen käyttäjille
IT-järjestelmänvalvojana voit automatisoida asennuksen SageMaker Studion käyttäjille käyttämällä a elinkaaren kokoonpano. Tämä voidaan tehdä kaikille SageMaker Studio -verkkotunnuksen käyttäjäprofiileille tai tietyille käyttäjäprofiileille. Katso Räätälöi Amazon SageMaker Studio käyttämällä Lifecycle Configurations -asetuksia lisätietoja.
Voit luoda elinkaarimäärityksen install-history-server.sh komentosarja ja liitä se olemassa olevaan SageMaker Studio -verkkotunnukseen. Asennus suoritetaan kaikille toimialueen käyttäjäprofiileille.
Päätteestä, joka on määritetty AWS-komentoriviliitäntä (AWS CLI) ja asianmukaiset oikeudet, suorita seuraavat komennot:
Kun Jupyter Server käynnistyy uudelleen, Spark-käyttöliittymä ja sm-spark-cli
on saatavilla SageMaker Studio -ympäristössäsi.
Puhdistaa
Tässä osiossa näytämme, kuinka voit puhdistaa Spark-käyttöliittymän SageMaker Studio -verkkotunnuksessa joko manuaalisesti tai automaattisesti.
Poista Spark-käyttöliittymä manuaalisesti
Voit poistaa Spark-käyttöliittymän manuaalisesti SageMaker Studiossa seuraavasti:
- Valita Järjestelmän pääte SageMaker Studio -käynnistysohjelmassa.
- Suorita seuraavat komennot järjestelmäpäätteessä:
Poista Spark UI automaattisesti kaikista SageMaker Studion käyttäjäprofiileista
Voit poistaa Spark-käyttöliittymän automaattisesti SageMaker Studiosta kaikista käyttäjäprofiileista seuraavasti:
- Valitse SageMaker-konsolissa Verkkotunnukset navigointiruudussa ja valitse sitten SageMaker Studio -toimialue.
- Siirry verkkotunnuksen tietosivulla kohtaan ympäristö Tab.
- Valitse Spark-käyttöliittymän elinkaarikokoonpano SageMaker Studiossa.
- Valita Irrottaa.
- Poista SageMaker Studion käyttäjäprofiilien Jupyter Server -sovellukset ja käynnistä ne uudelleen.
Yhteenveto
Tässä viestissä jaoimme ratkaisun, jonka avulla voit asentaa Spark-käyttöliittymän nopeasti SageMaker Studioon. SageMakerissa isännöidyn Spark-käyttöliittymän ansiosta koneoppimis- (ML)- ja tietotekniikkatiimit voivat käyttää skaalautuvaa pilvilaskentaa Spark-lokien käyttämiseen ja analysoimiseen mistä tahansa ja nopeuttaakseen projektiensa toimitusta. IT-järjestelmänvalvojat voivat standardoida ja nopeuttaa ratkaisun provisiointia pilvessä ja välttää räätälöityjen kehitysympäristöjen leviämisen ML-projekteihin.
Kaikki tämän viestin osana näkyvä koodi on saatavilla osoitteessa GitHub-arkisto.
Tietoja Tekijät
Giuseppe Angelo Porcelli on pääasiallinen koneoppimisen asiantuntijaratkaisuarkkitehti Amazon Web Servicesille. Hänellä on useiden vuosien ohjelmistokehitys ja ML-tausta. Hän työskentelee kaikenkokoisten asiakkaiden kanssa ymmärtääkseen heidän liiketoimintaansa ja teknisiä tarpeitaan sekä suunnitellakseen tekoäly- ja ML-ratkaisuja, jotka hyödyntävät AWS-pilviä ja Amazon Machine Learning -pinoa parhaalla mahdollisella tavalla. Hän on työskennellyt projekteissa eri aloilla, mukaan lukien MLOps, tietokonenäkö ja NLP, joihin liittyy laaja valikoima AWS-palveluita. Vapaa-ajallaan Giuseppe pelaa jalkapalloa.
Bruno Pistone on AWS:n AI/ML Specialist Solutions -arkkitehti Milanossa. Hän työskentelee kaikenkokoisten asiakkaiden kanssa auttaen heitä ymmärtämään teknisiä tarpeitaan ja suunnittelemaan tekoäly- ja ML-ratkaisuja, jotka hyödyntävät AWS Cloudia ja Amazon Machine Learning -pinoa parhaalla mahdollisella tavalla. Hänen osaamisalueeseensa kuuluvat koneoppiminen päästä päähän, koneoppimisen lopputrialisointi ja generatiivinen tekoäly. Hän nauttii ajan viettämisestä ystäviensä kanssa ja uusien paikkojen tutkimisesta sekä matkustamisesta uusiin kohteisiin.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. Autot / sähköautot, hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- BlockOffsets. Ympäristövastuun omistuksen nykyaikaistaminen. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/host-the-spark-ui-on-amazon-sagemaker-studio/
- :on
- :On
- :missä
- $ YLÖS
- 1
- 100
- 12
- 7
- 8
- 9
- a
- Meistä
- pääsy
- Pääsy
- toimet
- lisä-
- lisäinformaatio
- admin
- AI
- AI / ML
- Kaikki
- sallia
- mahdollistaa
- Myös
- Amazon
- Amazon EC2
- Amazonin EMR
- Amazonin koneoppiminen
- Amazon Sage Maker
- Amazon SageMaker Studio
- Amazon Web Services
- an
- analysoida
- analysointi
- ja
- Kaikki
- kaikkialla
- Apache
- sovelluksen
- sovellukset
- sopiva
- sovellukset
- OVAT
- AS
- liittää
- automatisoida
- automaattisesti
- saatavissa
- välttää
- AWS
- AWS-liima
- tausta
- perustua
- BE
- PARAS
- Iso
- Big Data
- laaja
- selain
- liiketoiminta
- by
- nimeltään
- CAN
- CD
- tarkastaa
- Valita
- pilvi
- Cluster
- koodi
- yleisesti
- täydellinen
- Laskea
- tietokone
- Tietokoneen visio
- tietojenkäsittely
- Konfigurointi
- määritetty
- Kytkeminen
- muodostuu
- Console
- Kontti
- sisältää
- ohjaus
- luoda
- asiakassuhde
- Asiakkaat
- tiedot
- tietojenkäsittely
- aineistot
- toimitus
- Malli
- kohteet
- yksityiskohdat
- Kehitys
- eri
- suoraan
- jaettu
- hajautettu laskenta
- dokumentointi
- verkkotunnuksen
- verkkotunnuksia
- tehty
- helposti
- myöskään
- mahdollistaa
- mahdollistaa
- loppu
- Tekniikka
- ympäristö
- ympäristöissä
- virheet
- tapahtuma
- esimerkki
- olemassa
- nopeuttaa
- Tutkiminen
- harvat
- ala
- Joustavuus
- jälkeen
- jalkapallo
- varten
- Puitteet
- Ilmainen
- ystäviä
- alkaen
- täysin
- tuottaa
- syntyy
- generatiivinen
- Generatiivinen AI
- suurempi
- he
- auttaa
- hänen
- historia
- isäntä
- isännöi
- Miten
- Miten
- HTML
- http
- HTTPS
- if
- in
- sisältää
- Mukaan lukien
- tiedot
- asentaa
- asennus
- asentaminen
- integroitu
- integroi
- vuorovaikutuksessa
- vuorovaikutteinen
- liitäntä
- tulee
- johon
- IT
- Job
- Työpaikat
- jpg
- suuri
- oppiminen
- jättäen
- elinkaari
- pitää
- linja
- sijainti
- log
- kone
- koneoppiminen
- taika-
- tehdä
- onnistui
- johto
- toimitusjohtaja
- käsin
- Muisti
- MILAN
- ML
- MLOps
- malli
- monitori
- lisää
- nimetty
- Navigoida
- suunnistus
- Tarve
- tarvitaan
- tarpeet
- Uusi
- NLP
- solmut
- muistikirja
- numero
- of
- Tarjoukset
- on
- yhdet
- optimoitu
- Vaihtoehto
- Vaihtoehdot
- or
- yli
- sivulla
- lasi
- osa
- Suorittaa
- Oikeudet
- paikat
- Platon
- Platonin tietotieto
- PlatonData
- pelaa
- Suosittu
- Kirje
- Pääasiallinen
- prosessi
- käsittely
- valmistettu
- Profiili
- Profiilit
- Edistyminen
- projekti
- hankkeet
- mikäli
- Python
- kyselyt
- nopeasti
- RAY
- kaukosäädin
- resurssi
- ajaa
- juoksu
- toimii
- sagemaker
- skaalautuva
- skriptejä
- sdk
- sekuntia
- Osa
- nähdä
- serverless
- Palvelut
- istuntoja
- setti
- settings
- useat
- Jaa:
- yhteinen
- Kuori
- näyttää
- esitetty
- Näytä
- Yksinkertainen
- Koko
- Tuotteemme
- ohjelmistotuotanto
- ratkaisu
- Ratkaisumme
- Kipinä
- asiantuntija
- erityinen
- nopeus
- menot
- pino
- Alkaa
- Tila
- Askeleet
- stop
- Levytila
- verkkokaupasta
- tallennettu
- studio
- Tukee
- järjestelmä
- ottaa
- tiimit
- Tekninen
- terminaali
- että
- -
- heidän
- Niitä
- sitten
- siten
- Nämä
- tätä
- Kautta
- aika
- että
- työkalut
- raita
- koulutus
- Matkustaminen
- tyypit
- ui
- varten
- ymmärtää
- URL
- Käyttö
- käyttää
- käyttäjä
- Käyttöliittymä
- Käyttäjät
- käyttämällä
- hyödyllisyys
- visio
- tavalla
- we
- verkko
- Web-selain
- verkkopalvelut
- Web-pohjainen
- HYVIN
- kun
- joka
- tulee
- with
- ilman
- työskenteli
- toimii
- vuotta
- Voit
- Sinun
- zephyrnet