Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services

Amazon Sage Maker tarjoaa useita tapoja suorittaa hajautettuja tietojenkäsittelytöitä Apache Sparkilla, joka on suosittu hajautettu laskentakehys suurdatan käsittelyyn.

Voit ajaa Spark-sovelluksia interaktiivisesti osoitteesta Amazon SageMaker Studio yhdistämällä SageMaker Studio -muistikirjat ja AWS Glue Interactive Sessions suorittaa Spark-töitä palvelimettoman klusterin kanssa. Interaktiivisten istuntojen avulla voit valita Apache Sparkin tai Rayn käsitelläksesi helposti suuria tietojoukkoja ilman, että sinun tarvitsee huolehtia klusterinhallinnasta.

Vaihtoehtoisesti, jos tarvitset enemmän ympäristön hallintaa, voit käyttää valmiiksi rakennettua SageMaker Spark -säilöä Spark-sovellusten suorittamiseen erätöinä täysin hallitussa hajautetussa klusterissa. Amazon SageMaker -käsittely. Tämän vaihtoehdon avulla voit valita usean tyyppisiä ilmentymiä (laskentaoptimoitu, muistioptimoitu ja paljon muuta), klusterin solmujen lukumäärän ja klusterin kokoonpanon, mikä mahdollistaa suuremman joustavuuden tietojenkäsittelyssä ja mallin koulutuksessa.

Lopuksi voit käyttää Spark-sovelluksia yhdistämällä Studio-kannettavat Amazonin EMR klusterittai käynnistämällä Spark-klusterin Amazonin elastinen laskentapilvi (Amazon EC2).

Kaikkien näiden vaihtoehtojen avulla voit luoda ja tallentaa Spark-tapahtumalokeja analysoidaksesi niitä verkkopohjaisen käyttöliittymän kautta, jota kutsutaan yleisesti nimellä Spark UI, joka käyttää Spark History Serveriä valvomaan Spark-sovellusten edistymistä, seuraamaan resurssien käyttöä ja virheenkorjausvirheitä.

Tässä postauksessa jaamme a ratkaisu Spark History Serverin asentamiseen ja käyttämiseen SageMaker Studiossa sekä Spark-käyttöliittymän käyttämiseen suoraan SageMaker Studion IDE:stä, eri AWS-palveluiden (AWS Glue Interactive Sessions, SageMaker Processing -työt ja Amazon EMR) tuottamien Spark-lokien analysointiin, jotka on tallennettu Amazonin yksinkertainen tallennuspalvelu (Amazon S3)-kauha.

Ratkaisun yleiskatsaus

Ratkaisu integroi Spark History Serverin SageMaker Studion Jupyter Server -sovellukseen. Näin käyttäjät voivat käyttää Spark-lokeja suoraan SageMaker Studio IDE:stä. Integroitu Spark History Server tukee seuraavia:

  • SageMaker Processing Spark -töiden luomien lokien käyttö
  • Pääsy AWS Glue Spark -sovellusten luomiin lokeihin
  • Itsehallittujen Spark-klusterien ja Amazon EMR:n luomien lokien käyttö

Kutsutaan apuohjelman komentoriviliitäntä (CLI). sm-spark-cli on myös tarkoitettu vuorovaikutukseen Spark UI:n kanssa SageMaker Studio -järjestelmäpäätteestä. The sm-spark-cli mahdollistaa Spark History Serverin hallinnan poistumatta SageMaker Studiosta.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Ratkaisu koostuu shell-skripteistä, jotka suorittavat seuraavat toiminnot:

  • Asenna Spark Jupyter Serveriin SageMaker Studion käyttäjäprofiileja tai SageMaker Studion jaettua tilaa varten
  • Asenna sm-spark-cli käyttäjäprofiilia tai jaettua tilaa varten

Asenna Spark UI manuaalisesti SageMaker Studio -verkkotunnukseen

Jos haluat isännöidä Spark-käyttöliittymää SageMaker Studiossa, suorita seuraavat vaiheet:

  1. Valita Järjestelmän pääte SageMaker Studion käynnistysohjelmasta.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Suorita seuraavat komennot järjestelmäpäätteessä:
curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts
chmod +x install-history-server.sh
./install-history-server.sh

Komennon suorittaminen kestää muutaman sekunnin.

  1. Kun asennus on valmis, voit käynnistää Spark UI:n käyttämällä mukana toimitettua sm-spark-cli ja käytä sitä verkkoselaimella suorittamalla seuraava koodi:

sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>

S3-sijainti, johon SageMaker Processingin, AWS Gluen tai Amazon EMR:n tuottamat tapahtumalokit tallennetaan, voidaan määrittää käytettäessä Spark-sovelluksia.

SageMaker Studio -muistikirjoille ja AWS Glue Interactive Sessions -istunnoille voit määrittää Spark-tapahtumalokin sijainnin suoraan muistikirjasta käyttämällä sparkmagic ydin.

- sparkmagic ydin sisältää joukon työkaluja vuorovaikutukseen Spark-etäklusterien kanssa muistikirjojen kautta. Se tarjoaa taikuutta (%spark, %sql) -komennot suorittamaan Spark-koodia, suorittamaan SQL-kyselyitä ja määrittämään Spark-asetuksia, kuten suorittimen muistia ja ytimiä.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

SageMaker Processing -työtä varten voit määrittää Spark-tapahtumalokin sijainnin suoraan SageMaker Python SDK:sta.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Katso lisätietoja AWS-dokumentaatiosta:

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voit valita luodun URL-osoitteen päästäksesi Spark-käyttöliittymään.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Seuraavassa kuvakaappauksessa on esimerkki Spark-käyttöliittymästä.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voit tarkistaa Spark History Serverin tilan käyttämällä sm-spark-cli status -komento Studio System -päätteessä.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voit myös pysäyttää Spark History Serverin tarvittaessa.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Automatisoi Spark UI -asennus SageMaker Studio -verkkotunnuksen käyttäjille

IT-järjestelmänvalvojana voit automatisoida asennuksen SageMaker Studion käyttäjille käyttämällä a elinkaaren kokoonpano. Tämä voidaan tehdä kaikille SageMaker Studio -verkkotunnuksen käyttäjäprofiileille tai tietyille käyttäjäprofiileille. Katso Räätälöi Amazon SageMaker Studio käyttämällä Lifecycle Configurations -asetuksia lisätietoja.

Voit luoda elinkaarimäärityksen install-history-server.sh komentosarja ja liitä se olemassa olevaan SageMaker Studio -verkkotunnukseen. Asennus suoritetaan kaikille toimialueen käyttäjäprofiileille.

Päätteestä, joka on määritetty AWS-komentoriviliitäntä (AWS CLI) ja asianmukaiset oikeudet, suorita seuraavat komennot:

curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts LCC_CONTENT=`openssl base64 -A -in install-history-server.sh` aws sagemaker create-studio-lifecycle-config --studio-lifecycle-config-name install-spark-ui-on-jupyterserver --studio-lifecycle-config-content $LCC_CONTENT --studio-lifecycle-config-app-type JupyterServer --query 'StudioLifecycleConfigArn' aws sagemaker update-domain --region {YOUR_AWS_REGION} --domain-id {YOUR_STUDIO_DOMAIN_ID} --default-user-settings '{ "JupyterServerAppSettings": { "DefaultResourceSpec": { "LifecycleConfigArn": "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver", "InstanceType": "system" }, "LifecycleConfigArns": [ "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver" ] }}'

Kun Jupyter Server käynnistyy uudelleen, Spark-käyttöliittymä ja sm-spark-cli on saatavilla SageMaker Studio -ympäristössäsi.

Puhdistaa

Tässä osiossa näytämme, kuinka voit puhdistaa Spark-käyttöliittymän SageMaker Studio -verkkotunnuksessa joko manuaalisesti tai automaattisesti.

Poista Spark-käyttöliittymä manuaalisesti

Voit poistaa Spark-käyttöliittymän manuaalisesti SageMaker Studiossa seuraavasti:

  1. Valita Järjestelmän pääte SageMaker Studio -käynnistysohjelmassa.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Suorita seuraavat komennot järjestelmäpäätteessä:
cd amazon-sagemaker-spark-ui-0.1.0/install-scripts chmod +x uninstall-history-server.sh
./uninstall-history-server.sh

Poista Spark UI automaattisesti kaikista SageMaker Studion käyttäjäprofiileista

Voit poistaa Spark-käyttöliittymän automaattisesti SageMaker Studiosta kaikista käyttäjäprofiileista seuraavasti:

  1. Valitse SageMaker-konsolissa Verkkotunnukset navigointiruudussa ja valitse sitten SageMaker Studio -toimialue.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Siirry verkkotunnuksen tietosivulla kohtaan ympäristö Tab.
  2. Valitse Spark-käyttöliittymän elinkaarikokoonpano SageMaker Studiossa.
  3. Valita Irrottaa.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  1. Poista SageMaker Studion käyttäjäprofiilien Jupyter Server -sovellukset ja käynnistä ne uudelleen.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Yhteenveto

Tässä viestissä jaoimme ratkaisun, jonka avulla voit asentaa Spark-käyttöliittymän nopeasti SageMaker Studioon. SageMakerissa isännöidyn Spark-käyttöliittymän ansiosta koneoppimis- (ML)- ja tietotekniikkatiimit voivat käyttää skaalautuvaa pilvilaskentaa Spark-lokien käyttämiseen ja analysoimiseen mistä tahansa ja nopeuttaakseen projektiensa toimitusta. IT-järjestelmänvalvojat voivat standardoida ja nopeuttaa ratkaisun provisiointia pilvessä ja välttää räätälöityjen kehitysympäristöjen leviämisen ML-projekteihin.

Kaikki tämän viestin osana näkyvä koodi on saatavilla osoitteessa GitHub-arkisto.


Tietoja Tekijät

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Giuseppe Angelo Porcelli on pääasiallinen koneoppimisen asiantuntijaratkaisuarkkitehti Amazon Web Servicesille. Hänellä on useiden vuosien ohjelmistokehitys ja ML-tausta. Hän työskentelee kaikenkokoisten asiakkaiden kanssa ymmärtääkseen heidän liiketoimintaansa ja teknisiä tarpeitaan sekä suunnitellakseen tekoäly- ja ML-ratkaisuja, jotka hyödyntävät AWS-pilviä ja Amazon Machine Learning -pinoa parhaalla mahdollisella tavalla. Hän on työskennellyt projekteissa eri aloilla, mukaan lukien MLOps, tietokonenäkö ja NLP, joihin liittyy laaja valikoima AWS-palveluita. Vapaa-ajallaan Giuseppe pelaa jalkapalloa.

Isännöi Spark-käyttöliittymää Amazon SageMaker Studiossa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Bruno Pistone on AWS:n AI/ML Specialist Solutions -arkkitehti Milanossa. Hän työskentelee kaikenkokoisten asiakkaiden kanssa auttaen heitä ymmärtämään teknisiä tarpeitaan ja suunnittelemaan tekoäly- ja ML-ratkaisuja, jotka hyödyntävät AWS Cloudia ja Amazon Machine Learning -pinoa parhaalla mahdollisella tavalla. Hänen osaamisalueeseensa kuuluvat koneoppiminen päästä päähän, koneoppimisen lopputrialisointi ja generatiivinen tekoäly. Hän nauttii ajan viettämisestä ystäviensä kanssa ja uusien paikkojen tutkimisesta sekä matkustamisesta uusiin kohteisiin.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen