Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού της Amazon

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού της Amazon

Amazon Sage Maker προσφέρει διάφορους τρόπους εκτέλεσης εργασιών επεξεργασίας κατανεμημένων δεδομένων με το Apache Spark, ένα δημοφιλές κατανεμημένο υπολογιστικό πλαίσιο για την επεξεργασία μεγάλων δεδομένων.

Μπορείτε να εκτελέσετε εφαρμογές Spark διαδραστικά από Στούντιο Amazon SageMaker με τη σύνδεση Σημειωματάρια SageMaker Studio και AWS Glue Interactive Sessions για εκτέλεση εργασιών Spark με σύμπλεγμα χωρίς διακομιστή. Με διαδραστικές περιόδους σύνδεσης, μπορείτε να επιλέξετε Apache Spark ή Ray για να επεξεργάζεστε εύκολα μεγάλα σύνολα δεδομένων, χωρίς να ανησυχείτε για τη διαχείριση συμπλέγματος.

Εναλλακτικά, εάν χρειάζεστε περισσότερο έλεγχο στο περιβάλλον, μπορείτε να χρησιμοποιήσετε ένα προκατασκευασμένο κοντέινερ SageMaker Spark για να εκτελέσετε εφαρμογές Spark ως δέσμες εργασιών σε ένα πλήρως διαχειριζόμενο κατανεμημένο σύμπλεγμα με Επεξεργασία Amazon SageMaker. Αυτή η επιλογή σάς επιτρέπει να επιλέξετε διάφορους τύπους παρουσιών (βελτιστοποιημένος υπολογισμός, βελτιστοποιημένη μνήμη και άλλα), τον αριθμό των κόμβων στο σύμπλεγμα και τη διαμόρφωση του συμπλέγματος, επιτρέποντας έτσι μεγαλύτερη ευελιξία για την επεξεργασία δεδομένων και την εκπαίδευση μοντέλων.

Τέλος, μπορείτε να εκτελέσετε εφαρμογές Spark συνδέοντας φορητούς υπολογιστές Studio με EMR Αμαζονίου συστάδες, ή εκτελώντας το σύμπλεγμα Spark σας Amazon Elastic Compute Cloud (Amazon EC2).

Όλες αυτές οι επιλογές σάς επιτρέπουν να δημιουργείτε και να αποθηκεύετε αρχεία καταγραφής συμβάντων Spark για να τα αναλύετε μέσω της διεπαφής χρήστη που βασίζεται στον ιστό που συνήθως ονομάζεται Spark UI, ο οποίος εκτελεί έναν διακομιστή Spark History για να παρακολουθεί την πρόοδο των εφαρμογών Spark, να παρακολουθεί τη χρήση πόρων και τα σφάλματα εντοπισμού σφαλμάτων.

Σε αυτή την ανάρτηση, μοιραζόμαστε ένα λύση για εγκατάσταση και εκτέλεση Spark History Server στο SageMaker Studio και πρόσβαση στο Spark UI απευθείας από το SageMaker Studio IDE, για ανάλυση αρχείων καταγραφής Spark που παράγονται από διαφορετικές υπηρεσίες AWS (AWS Glue Interactive Sessions, SageMaker Processing jobs και Amazon EMR) και αποθηκεύονται σε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος.

Επισκόπηση λύσεων

Η λύση ενσωματώνει το Spark History Server στην εφαρμογή Jupyter Server στο SageMaker Studio. Αυτό επιτρέπει στους χρήστες να έχουν πρόσβαση στα αρχεία καταγραφής Spark απευθείας από το SageMaker Studio IDE. Ο ενσωματωμένος διακομιστής Spark History υποστηρίζει τα ακόλουθα:

  • Πρόσβαση σε αρχεία καταγραφής που δημιουργούνται από εργασίες SageMaker Processing Spark
  • Πρόσβαση σε αρχεία καταγραφής που δημιουργούνται από εφαρμογές AWS Glue Spark
  • Πρόσβαση σε αρχεία καταγραφής που δημιουργούνται από αυτοδιαχειριζόμενα συμπλέγματα Spark και Amazon EMR

Καλείται μια διεπαφή γραμμής εντολών βοηθητικού προγράμματος (CLI). sm-spark-cli παρέχεται επίσης για αλληλεπίδραση με το Spark UI από το τερματικό συστήματος SageMaker Studio. ο sm-spark-cli επιτρέπει τη διαχείριση του Spark History Server χωρίς να φύγετε από το SageMaker Studio.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η λύση αποτελείται από σενάρια φλοιού που εκτελούν τις ακόλουθες ενέργειες:

  • Εγκαταστήστε το Spark στον διακομιστή Jupyter για προφίλ χρηστών SageMaker Studio ή για κοινόχρηστο χώρο του SageMaker Studio
  • εγκαταστήστε το sm-spark-cli για προφίλ χρήστη ή κοινόχρηστο χώρο

Εγκαταστήστε το Spark UI με μη αυτόματο τρόπο σε έναν τομέα SageMaker Studio

Για να φιλοξενήσετε το Spark UI στο SageMaker Studio, ολοκληρώστε τα παρακάτω βήματα:

  1. Επιλέξτε Τερματικό συστήματος από το πρόγραμμα εκκίνησης SageMaker Studio.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Εκτελέστε τις ακόλουθες εντολές στο τερματικό συστήματος:
curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts
chmod +x install-history-server.sh
./install-history-server.sh

Οι εντολές θα χρειαστούν μερικά δευτερόλεπτα για να ολοκληρωθούν.

  1. Όταν ολοκληρωθεί η εγκατάσταση, μπορείτε να ξεκινήσετε το Spark UI χρησιμοποιώντας το παρεχόμενο sm-spark-cli και αποκτήστε πρόσβαση από ένα πρόγραμμα περιήγησης ιστού τρέχοντας τον ακόλουθο κώδικα:

sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>

Η τοποθεσία S3 όπου αποθηκεύονται τα αρχεία καταγραφής συμβάντων που παράγονται από το SageMaker Processing, το AWS Glue ή το Amazon EMR μπορεί να διαμορφωθεί κατά την εκτέλεση εφαρμογών Spark.

Για σημειωματάρια SageMaker Studio και AWS Glue Interactive Sessions, μπορείτε να ρυθμίσετε τη θέση καταγραφής συμβάντων Spark απευθείας από το σημειωματάριο χρησιμοποιώντας το sparkmagic πυρήνας.

Η sparkmagic Ο πυρήνας περιέχει ένα σύνολο εργαλείων για αλληλεπίδραση με απομακρυσμένα συμπλέγματα Spark μέσω σημειωματάριων. Προσφέρει μαγεία (%spark, %sql) εντολές για την εκτέλεση του κώδικα Spark, την εκτέλεση ερωτημάτων SQL και τη διαμόρφωση ρυθμίσεων Spark, όπως μνήμη εκτελεστή και πυρήνες.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Για την εργασία SageMaker Processing, μπορείτε να διαμορφώσετε τη θέση του αρχείου καταγραφής συμβάντων Spark απευθείας από το SageMaker Python SDK.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ανατρέξτε στην τεκμηρίωση του AWS για πρόσθετες πληροφορίες:

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορείτε να επιλέξετε τη διεύθυνση URL που δημιουργείται για πρόσβαση στο Spark UI.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το ακόλουθο στιγμιότυπο οθόνης δείχνει ένα παράδειγμα του Spark UI.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορείτε να ελέγξετε την κατάσταση του Spark History Server χρησιμοποιώντας το sm-spark-cli status εντολή στο τερματικό Studio System.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορείτε επίσης να σταματήσετε τον διακομιστή Spark History όταν χρειάζεται.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αυτοματοποιήστε την εγκατάσταση του Spark UI για χρήστες σε τομέα SageMaker Studio

Ως διαχειριστής IT, μπορείτε να αυτοματοποιήσετε την εγκατάσταση για τους χρήστες του SageMaker Studio χρησιμοποιώντας α διαμόρφωση κύκλου ζωής. Αυτό μπορεί να γίνει για όλα τα προφίλ χρηστών σε έναν τομέα SageMaker Studio ή για συγκεκριμένα. Βλέπω Προσαρμόστε το Amazon SageMaker Studio χρησιμοποιώντας τις διαμορφώσεις κύκλου ζωής Για περισσότερες πληροφορίες.

Μπορείτε να δημιουργήσετε μια διαμόρφωση κύκλου ζωής από το install-history-server.sh script και επισυνάψτε το σε έναν υπάρχοντα τομέα SageMaker Studio. Η εγκατάσταση εκτελείται για όλα τα προφίλ χρηστών στον τομέα.

Από ένα τερματικό που έχει διαμορφωθεί με το Διεπαφή γραμμής εντολών AWS (AWS CLI) και τα κατάλληλα δικαιώματα, εκτελέστε τις ακόλουθες εντολές:

curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts LCC_CONTENT=`openssl base64 -A -in install-history-server.sh` aws sagemaker create-studio-lifecycle-config --studio-lifecycle-config-name install-spark-ui-on-jupyterserver --studio-lifecycle-config-content $LCC_CONTENT --studio-lifecycle-config-app-type JupyterServer --query 'StudioLifecycleConfigArn' aws sagemaker update-domain --region {YOUR_AWS_REGION} --domain-id {YOUR_STUDIO_DOMAIN_ID} --default-user-settings '{ "JupyterServerAppSettings": { "DefaultResourceSpec": { "LifecycleConfigArn": "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver", "InstanceType": "system" }, "LifecycleConfigArns": [ "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver" ] }}'

Μετά την επανεκκίνηση του διακομιστή Jupyter, το Spark UI και το sm-spark-cli θα είναι διαθέσιμο στο περιβάλλον του SageMaker Studio.

εκκαθάριση

Σε αυτήν την ενότητα, σας δείχνουμε πώς να καθαρίσετε το Spark UI σε έναν τομέα SageMaker Studio, είτε με μη αυτόματο τρόπο είτε αυτόματα.

Απεγκαταστήστε με μη αυτόματο τρόπο το Spark UI

Για να απεγκαταστήσετε μη αυτόματα το Spark UI στο SageMaker Studio, ολοκληρώστε τα παρακάτω βήματα:

  1. Επιλέξτε Τερματικό συστήματος στην εκκίνηση του SageMaker Studio.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Εκτελέστε τις ακόλουθες εντολές στο τερματικό συστήματος:
cd amazon-sagemaker-spark-ui-0.1.0/install-scripts chmod +x uninstall-history-server.sh
./uninstall-history-server.sh

Απεγκαταστήστε αυτόματα το Spark UI για όλα τα προφίλ χρηστών του SageMaker Studio

Για να απεγκαταστήσετε αυτόματα το Spark UI στο SageMaker Studio για όλα τα προφίλ χρηστών, ολοκληρώστε τα παρακάτω βήματα:

  1. Στην κονσόλα SageMaker, επιλέξτε Domains στο παράθυρο πλοήγησης και, στη συνέχεια, επιλέξτε τον τομέα SageMaker Studio.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Στη σελίδα λεπτομερειών τομέα, μεταβείτε στο Περιβάλλον Tab.
  2. Επιλέξτε τη διαμόρφωση κύκλου ζωής για το Spark UI στο SageMaker Studio.
  3. Επιλέξτε Αποσπώ.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

  1. Διαγράψτε και επανεκκινήστε τις εφαρμογές Jupyter Server για τα προφίλ χρηστών του SageMaker Studio.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Συμπέρασμα

Σε αυτήν την ανάρτηση, μοιραστήκαμε μια λύση που μπορείτε να χρησιμοποιήσετε για να εγκαταστήσετε γρήγορα το Spark UI στο SageMaker Studio. Με το Spark UI που φιλοξενείται στο SageMaker, οι ομάδες μηχανικής εκμάθησης (ML) και μηχανικής δεδομένων μπορούν να χρησιμοποιήσουν κλιμακωτό υπολογιστικό νέφος για να έχουν πρόσβαση και να αναλύουν αρχεία καταγραφής Spark από οπουδήποτε και να επιταχύνουν την παράδοση του έργου τους. Οι διαχειριστές IT μπορούν να τυποποιήσουν και να επιταχύνουν την παροχή της λύσης στο cloud και να αποφύγουν τον πολλαπλασιασμό προσαρμοσμένων περιβαλλόντων ανάπτυξης για έργα ML.

Όλος ο κώδικας που εμφανίζεται ως μέρος αυτής της ανάρτησης είναι διαθέσιμος στο Αποθετήριο GitHub.


Σχετικά με τους Συγγραφείς

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Giuseppe Angelo Porcelli είναι Κύριος Αρχιτέκτονας Λύσεων Specialist Machine Learning για τις Υπηρεσίες Ιστού της Amazon. Με πολλά χρόνια μηχανικής λογισμικού και υπόβαθρο ML, συνεργάζεται με πελάτες οποιουδήποτε μεγέθους για να κατανοήσει τις επιχειρηματικές και τεχνικές τους ανάγκες και να σχεδιάσει λύσεις AI και ML που κάνουν την καλύτερη χρήση του AWS Cloud και της στοίβας Amazon Machine Learning. Έχει εργαστεί σε έργα σε διαφορετικούς τομείς, συμπεριλαμβανομένων των MLOps, όρασης υπολογιστών και NLP, που περιλαμβάνουν ένα ευρύ σύνολο υπηρεσιών AWS. Στον ελεύθερο χρόνο του, ο Τζουζέπε απολαμβάνει το ποδόσφαιρο.

Φιλοξενήστε το Spark UI στο Amazon SageMaker Studio | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Μπρούνο Πίστον είναι AI/ML Specialist Solutions Architect για την AWS με έδρα το Μιλάνο. Συνεργάζεται με πελάτες οποιουδήποτε μεγέθους, βοηθώντας τους να κατανοήσουν τις τεχνικές τους ανάγκες και να σχεδιάσουν λύσεις AI και ML που αξιοποιούν με τον καλύτερο τρόπο το AWS Cloud και τη στοίβα Machine Learning της Amazon. Το πεδίο εξειδίκευσής του περιλαμβάνει τη μηχανική μάθηση από άκρο σε άκρο, την βιομηχανοποίηση μηχανικής μάθησης και τη γενετική τεχνητή νοημοσύνη. Του αρέσει να περνά χρόνο με τους φίλους του και να εξερευνά νέα μέρη, καθώς και να ταξιδεύει σε νέους προορισμούς.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS