Hozd a Spark felhasználói felületet az Amazon SageMaker Studio | Amazon webszolgáltatások

Hozd a Spark felhasználói felületet az Amazon SageMaker Studio | Amazon webszolgáltatások

Amazon SageMaker többféle módot kínál az elosztott adatfeldolgozási feladatok futtatására az Apache Spark, a nagy adatfeldolgozás népszerű elosztott számítási keretrendszerével.

A Spark-alkalmazásokat interaktív módon futtathatja a webhelyről Amazon SageMaker Studio összekapcsolásával SageMaker Studio notebookok és AWS Glue Interactive Sessions Spark-feladatok futtatásához kiszolgáló nélküli fürttel. Az interaktív munkamenetekkel az Apache Spark vagy a Ray közül választhat a nagy adatkészletek egyszerű feldolgozásához, anélkül, hogy a fürtkezelés miatt kellene aggódnia.

Alternatív megoldásként, ha nagyobb szabályozásra van szüksége a környezet felett, használhat egy előre beépített SageMaker Spark tárolót a Spark-alkalmazások kötegelt feladatként történő futtatásához egy teljesen felügyelt elosztott fürtön. Amazon SageMaker feldolgozás. Ez a beállítás lehetővé teszi többféle példány kiválasztását (számításoptimalizált, memóriaoptimalizált stb.), a fürtben lévő csomópontok számát és a fürt konfigurációját, ezáltal nagyobb rugalmasságot tesz lehetővé az adatfeldolgozás és a modelltanítás terén.

Végül a Spark alkalmazásokat a Studio notebookok csatlakoztatásával futtathatja Amazon EMR klaszterek, vagy a Spark-fürt futtatásával Amazon rugalmas számítási felhő (Amazon EC2).

Mindezek a lehetőségek lehetővé teszik a Spark eseménynaplók létrehozását és tárolását, hogy elemezze azokat a webalapú felhasználói felületen keresztül, amelyet általában Spark UI, amely egy Spark History Servert futtat a Spark-alkalmazások előrehaladásának figyelésére, az erőforrás-használat nyomon követésére és a hibakeresési hibákra.

Ebben a bejegyzésben megosztjuk a megoldások a Spark History Server telepítéséhez és futtatásához a SageMaker Studio rendszeren, valamint a Spark felhasználói felület közvetlen eléréséhez a SageMaker Studio IDE-ből, a különböző AWS-szolgáltatások (AWS Glue Interactive Sessions, SageMaker Processing feladatok és Amazon EMR) által előállított és egy tárolóban tárolt Spark-naplók elemzéséhez. Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör.

Megoldás áttekintése

A megoldás integrálja a Spark History Servert a SageMaker Studio Jupyter Server alkalmazásába. Ez lehetővé teszi a felhasználók számára, hogy közvetlenül a SageMaker Studio IDE-ből hozzáférjenek a Spark-naplókhoz. Az integrált Spark History Server a következőket támogatja:

  • A SageMaker Processing Spark-feladatok által generált naplók elérése
  • Az AWS Glue Spark alkalmazások által generált naplók elérése
  • Az önállóan kezelt Spark-fürtök és az Amazon EMR által generált naplók elérése

Egy segédprogram parancssori felület (CLI) hívott sm-spark-cli a Spark UI-val való interakcióhoz is rendelkezésre áll a SageMaker Studio rendszerterminálról. A sm-spark-cli lehetővé teszi a Spark History Server kezelését a SageMaker Studio elhagyása nélkül.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A megoldás shell szkriptekből áll, amelyek a következő műveleteket hajtják végre:

  • Telepítse a Sparkot a Jupyter szerveren a SageMaker Studio felhasználói profilokhoz vagy a SageMaker Studio megosztott területéhez
  • Telepítse a sm-spark-cli felhasználói profilhoz vagy megosztott térhez

Telepítse manuálisan a Spark felhasználói felületet egy SageMaker Studio tartományban

A Spark UI SageMaker Studio szolgáltatásban való üzemeltetéséhez hajtsa végre a következő lépéseket:

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Rendszerterminál a SageMaker Studio indítójából.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Futtassa a következő parancsokat a rendszerterminálon:
curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts
chmod +x install-history-server.sh
./install-history-server.sh

A parancsok végrehajtása néhány másodpercet vesz igénybe.

  1. Amikor a telepítés befejeződött, elindíthatja a Spark felhasználói felületet a mellékelt eszköz segítségével sm-spark-cli és elérheti egy webböngészőből a következő kód futtatásával:

sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>

Az S3 hely, ahol a SageMaker Processing, az AWS Glue vagy az Amazon EMR által előállított eseménynaplókat tárolják, a Spark-alkalmazások futtatásakor konfigurálható.

SageMaker Studio notebookok és AWS Glue Interactive Sessions esetén a Spark eseménynapló helyét közvetlenül a notebookból állíthatja be a sparkmagic kernel.

A sparkmagic A kernel eszközöket tartalmaz a távoli Spark-fürtök notebookokon keresztüli interakciójához. varázslatot kínál (%spark, %sql) parancsokat a Spark kód futtatásához, SQL-lekérdezések végrehajtásához és a Spark-beállítások, például a végrehajtó memória és a magok konfigurálásához.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A SageMaker feldolgozási feladathoz közvetlenül a SageMaker Python SDK-ból konfigurálhatja a Spark eseménynapló helyét.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

További információkért tekintse meg az AWS dokumentációját:

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Kiválaszthatja a generált URL-t a Spark UI eléréséhez.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A következő képernyőképen a Spark UI példája látható.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A Spark History Server állapotát a segítségével ellenőrizheti sm-spark-cli status parancsot a Studio System terminálon.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Szükség esetén leállíthatja a Spark History Servert is.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Automatizálja a Spark UI telepítését a SageMaker Studio tartomány felhasználói számára

Rendszergazdaként automatizálhatja a telepítést a SageMaker Studio felhasználói számára az a életciklus konfiguráció. Ez megtehető a SageMaker Studio domain alatti összes felhasználói profilnál vagy bizonyos profiloknál. Lát Az Amazon SageMaker Studio testreszabása az életciklus-konfigurációk segítségével fül alatt találsz.

Létrehozhat életciklus-konfigurációt a install-history-server.sh szkriptet, és csatolja egy meglévő SageMaker Studio tartományhoz. A telepítés a tartomány összes felhasználói profiljára fut.

A következővel konfigurált terminálról AWS parancssori interfész (AWS CLI) és a megfelelő engedélyekkel, futtassa a következő parancsokat:

curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts LCC_CONTENT=`openssl base64 -A -in install-history-server.sh` aws sagemaker create-studio-lifecycle-config --studio-lifecycle-config-name install-spark-ui-on-jupyterserver --studio-lifecycle-config-content $LCC_CONTENT --studio-lifecycle-config-app-type JupyterServer --query 'StudioLifecycleConfigArn' aws sagemaker update-domain --region {YOUR_AWS_REGION} --domain-id {YOUR_STUDIO_DOMAIN_ID} --default-user-settings '{ "JupyterServerAppSettings": { "DefaultResourceSpec": { "LifecycleConfigArn": "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver", "InstanceType": "system" }, "LifecycleConfigArns": [ "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver" ] }}'

A Jupyter Server újraindítása után a Spark UI és a sm-spark-cli elérhető lesz a SageMaker Studio környezetben.

Tisztítsuk meg

Ebben a részben bemutatjuk, hogyan tisztíthatja meg a Spark felhasználói felületet egy SageMaker Studio tartományban, akár manuálisan, akár automatikusan.

Manuálisan távolítsa el a Spark felhasználói felületet

A Spark felhasználói felület manuális eltávolításához a SageMaker Studio alkalmazásban hajtsa végre a következő lépéseket:

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Rendszerterminál a SageMaker Studio indítójában.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Futtassa a következő parancsokat a rendszerterminálon:
cd amazon-sagemaker-spark-ui-0.1.0/install-scripts chmod +x uninstall-history-server.sh
./uninstall-history-server.sh

Távolítsa el automatikusan a Spark UI-t az összes SageMaker Studio felhasználói profilból

A Spark UI automatikus eltávolításához a SageMaker Studio összes felhasználói profiljához, hajtsa végre a következő lépéseket:

  1. A SageMaker konzolon válassza a lehetőséget Domains a navigációs ablakban, majd válassza ki a SageMaker Studio tartományt.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. A domain részleteinek oldalán navigáljon a Környezet Tab.
  2. Válassza ki a Spark UI életciklus-konfigurációját a SageMaker Studio alkalmazásban.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Leválasztás.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Törölje és indítsa újra a Jupyter Server alkalmazásokat a SageMaker Studio felhasználói profilokhoz.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Következtetés

Ebben a bejegyzésben megosztottunk egy megoldást, amellyel gyorsan telepítheti a Spark UI-t a SageMaker Studio-ban. A SageMakeren tárolt Spark felhasználói felülettel a gépi tanulási (ML) és adatmérnöki csapatok méretezhető számítási felhő segítségével bárhonnan hozzáférhetnek és elemezhetik a Spark-naplókat, és felgyorsíthatják projektjeik megvalósítását. Az informatikai rendszergazdák szabványosíthatják és felgyorsíthatják a megoldás kiépítését a felhőben, és elkerülhetik az egyéni fejlesztői környezetek elterjedését az ML projektekhez.

A bejegyzés részeként megjelenő összes kód elérhető a GitHub tárház.


A szerzőkről

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Giuseppe Angelo Porcelli az Amazon Web Services vezető gépi tanulási specialistája. Több éves szoftverfejlesztéssel és ML háttérrel dolgozik bármilyen méretű ügyféllel, hogy megértse üzleti és műszaki igényeiket, és olyan AI és ML megoldásokat tervezzen, amelyek a lehető legjobban használják ki az AWS Cloud és az Amazon Machine Learning veremét. Különböző területeken dolgozott projekteken, beleértve az MLOps-t, a számítógépes látást és az NLP-t, amelyek az AWS-szolgáltatások széles körét foglalják magukban. Szabadidejében Giuseppe szívesen focizik.

Host the Spark UI on Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Bruno Pistone a milánói székhelyű AWS AI/ML Specialist Solutions Architect. Bármilyen méretű ügyfelekkel dolgozik, segít nekik megérteni műszaki igényeiket, és olyan AI és ML megoldásokat tervezni, amelyek a lehető legjobban használják ki az AWS Cloud és az Amazon Machine Learning veremét. Szakterülete magában foglalja a gépi tanulás végpontokig, a gépi tanulás végtrializációját és a generatív AI-t. Szívesen tölt időt barátaival és új helyeket fedez fel, valamint új úti célokra utazik.

Időbélyeg:

Még több AWS gépi tanulás