Amazon Sage Maker προσφέρει διάφορους τρόπους εκτέλεσης εργασιών επεξεργασίας κατανεμημένων δεδομένων με το Apache Spark, ένα δημοφιλές κατανεμημένο υπολογιστικό πλαίσιο για την επεξεργασία μεγάλων δεδομένων.
Μπορείτε να εκτελέσετε εφαρμογές Spark διαδραστικά από Στούντιο Amazon SageMaker με τη σύνδεση Σημειωματάρια SageMaker Studio και AWS Glue Interactive Sessions για εκτέλεση εργασιών Spark με σύμπλεγμα χωρίς διακομιστή. Με διαδραστικές περιόδους σύνδεσης, μπορείτε να επιλέξετε Apache Spark ή Ray για να επεξεργάζεστε εύκολα μεγάλα σύνολα δεδομένων, χωρίς να ανησυχείτε για τη διαχείριση συμπλέγματος.
Εναλλακτικά, εάν χρειάζεστε περισσότερο έλεγχο στο περιβάλλον, μπορείτε να χρησιμοποιήσετε ένα προκατασκευασμένο κοντέινερ SageMaker Spark για να εκτελέσετε εφαρμογές Spark ως δέσμες εργασιών σε ένα πλήρως διαχειριζόμενο κατανεμημένο σύμπλεγμα με Επεξεργασία Amazon SageMaker. Αυτή η επιλογή σάς επιτρέπει να επιλέξετε διάφορους τύπους παρουσιών (βελτιστοποιημένος υπολογισμός, βελτιστοποιημένη μνήμη και άλλα), τον αριθμό των κόμβων στο σύμπλεγμα και τη διαμόρφωση του συμπλέγματος, επιτρέποντας έτσι μεγαλύτερη ευελιξία για την επεξεργασία δεδομένων και την εκπαίδευση μοντέλων.
Τέλος, μπορείτε να εκτελέσετε εφαρμογές Spark συνδέοντας φορητούς υπολογιστές Studio με EMR Αμαζονίου συστάδες, ή εκτελώντας το σύμπλεγμα Spark σας Amazon Elastic Compute Cloud (Amazon EC2).
Όλες αυτές οι επιλογές σάς επιτρέπουν να δημιουργείτε και να αποθηκεύετε αρχεία καταγραφής συμβάντων Spark για να τα αναλύετε μέσω της διεπαφής χρήστη που βασίζεται στον ιστό που συνήθως ονομάζεται Spark UI, ο οποίος εκτελεί έναν διακομιστή Spark History για να παρακολουθεί την πρόοδο των εφαρμογών Spark, να παρακολουθεί τη χρήση πόρων και τα σφάλματα εντοπισμού σφαλμάτων.
Σε αυτή την ανάρτηση, μοιραζόμαστε ένα λύση για εγκατάσταση και εκτέλεση Spark History Server στο SageMaker Studio και πρόσβαση στο Spark UI απευθείας από το SageMaker Studio IDE, για ανάλυση αρχείων καταγραφής Spark που παράγονται από διαφορετικές υπηρεσίες AWS (AWS Glue Interactive Sessions, SageMaker Processing jobs και Amazon EMR) και αποθηκεύονται σε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος.
Επισκόπηση λύσεων
Η λύση ενσωματώνει το Spark History Server στην εφαρμογή Jupyter Server στο SageMaker Studio. Αυτό επιτρέπει στους χρήστες να έχουν πρόσβαση στα αρχεία καταγραφής Spark απευθείας από το SageMaker Studio IDE. Ο ενσωματωμένος διακομιστής Spark History υποστηρίζει τα ακόλουθα:
- Πρόσβαση σε αρχεία καταγραφής που δημιουργούνται από εργασίες SageMaker Processing Spark
- Πρόσβαση σε αρχεία καταγραφής που δημιουργούνται από εφαρμογές AWS Glue Spark
- Πρόσβαση σε αρχεία καταγραφής που δημιουργούνται από αυτοδιαχειριζόμενα συμπλέγματα Spark και Amazon EMR
Καλείται μια διεπαφή γραμμής εντολών βοηθητικού προγράμματος (CLI). sm-spark-cli
παρέχεται επίσης για αλληλεπίδραση με το Spark UI από το τερματικό συστήματος SageMaker Studio. ο sm-spark-cli
επιτρέπει τη διαχείριση του Spark History Server χωρίς να φύγετε από το SageMaker Studio.
Η λύση αποτελείται από σενάρια φλοιού που εκτελούν τις ακόλουθες ενέργειες:
- Εγκαταστήστε το Spark στον διακομιστή Jupyter για προφίλ χρηστών SageMaker Studio ή για κοινόχρηστο χώρο του SageMaker Studio
- εγκαταστήστε το
sm-spark-cli
για προφίλ χρήστη ή κοινόχρηστο χώρο
Εγκαταστήστε το Spark UI με μη αυτόματο τρόπο σε έναν τομέα SageMaker Studio
Για να φιλοξενήσετε το Spark UI στο SageMaker Studio, ολοκληρώστε τα παρακάτω βήματα:
- Επιλέξτε Τερματικό συστήματος από το πρόγραμμα εκκίνησης SageMaker Studio.
- Εκτελέστε τις ακόλουθες εντολές στο τερματικό συστήματος:
Οι εντολές θα χρειαστούν μερικά δευτερόλεπτα για να ολοκληρωθούν.
- Όταν ολοκληρωθεί η εγκατάσταση, μπορείτε να ξεκινήσετε το Spark UI χρησιμοποιώντας το παρεχόμενο
sm-spark-cli
και αποκτήστε πρόσβαση από ένα πρόγραμμα περιήγησης ιστού τρέχοντας τον ακόλουθο κώδικα:
sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>
Η τοποθεσία S3 όπου αποθηκεύονται τα αρχεία καταγραφής συμβάντων που παράγονται από το SageMaker Processing, το AWS Glue ή το Amazon EMR μπορεί να διαμορφωθεί κατά την εκτέλεση εφαρμογών Spark.
Για σημειωματάρια SageMaker Studio και AWS Glue Interactive Sessions, μπορείτε να ρυθμίσετε τη θέση καταγραφής συμβάντων Spark απευθείας από το σημειωματάριο χρησιμοποιώντας το sparkmagic
πυρήνας.
Η sparkmagic
Ο πυρήνας περιέχει ένα σύνολο εργαλείων για αλληλεπίδραση με απομακρυσμένα συμπλέγματα Spark μέσω σημειωματάριων. Προσφέρει μαγεία (%spark
, %sql
) εντολές για την εκτέλεση του κώδικα Spark, την εκτέλεση ερωτημάτων SQL και τη διαμόρφωση ρυθμίσεων Spark, όπως μνήμη εκτελεστή και πυρήνες.
Για την εργασία SageMaker Processing, μπορείτε να διαμορφώσετε τη θέση του αρχείου καταγραφής συμβάντων Spark απευθείας από το SageMaker Python SDK.
Ανατρέξτε στην τεκμηρίωση του AWS για πρόσθετες πληροφορίες:
Μπορείτε να επιλέξετε τη διεύθυνση URL που δημιουργείται για πρόσβαση στο Spark UI.
Το ακόλουθο στιγμιότυπο οθόνης δείχνει ένα παράδειγμα του Spark UI.
Μπορείτε να ελέγξετε την κατάσταση του Spark History Server χρησιμοποιώντας το sm-spark-cli status
εντολή στο τερματικό Studio System.
Μπορείτε επίσης να σταματήσετε τον διακομιστή Spark History όταν χρειάζεται.
Αυτοματοποιήστε την εγκατάσταση του Spark UI για χρήστες σε τομέα SageMaker Studio
Ως διαχειριστής IT, μπορείτε να αυτοματοποιήσετε την εγκατάσταση για τους χρήστες του SageMaker Studio χρησιμοποιώντας α διαμόρφωση κύκλου ζωής. Αυτό μπορεί να γίνει για όλα τα προφίλ χρηστών σε έναν τομέα SageMaker Studio ή για συγκεκριμένα. Βλέπω Προσαρμόστε το Amazon SageMaker Studio χρησιμοποιώντας τις διαμορφώσεις κύκλου ζωής Για περισσότερες πληροφορίες.
Μπορείτε να δημιουργήσετε μια διαμόρφωση κύκλου ζωής από το install-history-server.sh script και επισυνάψτε το σε έναν υπάρχοντα τομέα SageMaker Studio. Η εγκατάσταση εκτελείται για όλα τα προφίλ χρηστών στον τομέα.
Από ένα τερματικό που έχει διαμορφωθεί με το Διεπαφή γραμμής εντολών AWS (AWS CLI) και τα κατάλληλα δικαιώματα, εκτελέστε τις ακόλουθες εντολές:
Μετά την επανεκκίνηση του διακομιστή Jupyter, το Spark UI και το sm-spark-cli
θα είναι διαθέσιμο στο περιβάλλον του SageMaker Studio.
εκκαθάριση
Σε αυτήν την ενότητα, σας δείχνουμε πώς να καθαρίσετε το Spark UI σε έναν τομέα SageMaker Studio, είτε με μη αυτόματο τρόπο είτε αυτόματα.
Απεγκαταστήστε με μη αυτόματο τρόπο το Spark UI
Για να απεγκαταστήσετε μη αυτόματα το Spark UI στο SageMaker Studio, ολοκληρώστε τα παρακάτω βήματα:
- Επιλέξτε Τερματικό συστήματος στην εκκίνηση του SageMaker Studio.
- Εκτελέστε τις ακόλουθες εντολές στο τερματικό συστήματος:
Απεγκαταστήστε αυτόματα το Spark UI για όλα τα προφίλ χρηστών του SageMaker Studio
Για να απεγκαταστήσετε αυτόματα το Spark UI στο SageMaker Studio για όλα τα προφίλ χρηστών, ολοκληρώστε τα παρακάτω βήματα:
- Στην κονσόλα SageMaker, επιλέξτε Domains στο παράθυρο πλοήγησης και, στη συνέχεια, επιλέξτε τον τομέα SageMaker Studio.
- Στη σελίδα λεπτομερειών τομέα, μεταβείτε στο Περιβάλλον Tab.
- Επιλέξτε τη διαμόρφωση κύκλου ζωής για το Spark UI στο SageMaker Studio.
- Επιλέξτε Αποσπώ.
- Διαγράψτε και επανεκκινήστε τις εφαρμογές Jupyter Server για τα προφίλ χρηστών του SageMaker Studio.
Συμπέρασμα
Σε αυτήν την ανάρτηση, μοιραστήκαμε μια λύση που μπορείτε να χρησιμοποιήσετε για να εγκαταστήσετε γρήγορα το Spark UI στο SageMaker Studio. Με το Spark UI που φιλοξενείται στο SageMaker, οι ομάδες μηχανικής εκμάθησης (ML) και μηχανικής δεδομένων μπορούν να χρησιμοποιήσουν κλιμακωτό υπολογιστικό νέφος για να έχουν πρόσβαση και να αναλύουν αρχεία καταγραφής Spark από οπουδήποτε και να επιταχύνουν την παράδοση του έργου τους. Οι διαχειριστές IT μπορούν να τυποποιήσουν και να επιταχύνουν την παροχή της λύσης στο cloud και να αποφύγουν τον πολλαπλασιασμό προσαρμοσμένων περιβαλλόντων ανάπτυξης για έργα ML.
Όλος ο κώδικας που εμφανίζεται ως μέρος αυτής της ανάρτησης είναι διαθέσιμος στο Αποθετήριο GitHub.
Σχετικά με τους Συγγραφείς
Giuseppe Angelo Porcelli είναι Κύριος Αρχιτέκτονας Λύσεων Specialist Machine Learning για τις Υπηρεσίες Ιστού της Amazon. Με πολλά χρόνια μηχανικής λογισμικού και υπόβαθρο ML, συνεργάζεται με πελάτες οποιουδήποτε μεγέθους για να κατανοήσει τις επιχειρηματικές και τεχνικές τους ανάγκες και να σχεδιάσει λύσεις AI και ML που κάνουν την καλύτερη χρήση του AWS Cloud και της στοίβας Amazon Machine Learning. Έχει εργαστεί σε έργα σε διαφορετικούς τομείς, συμπεριλαμβανομένων των MLOps, όρασης υπολογιστών και NLP, που περιλαμβάνουν ένα ευρύ σύνολο υπηρεσιών AWS. Στον ελεύθερο χρόνο του, ο Τζουζέπε απολαμβάνει το ποδόσφαιρο.
Μπρούνο Πίστον είναι AI/ML Specialist Solutions Architect για την AWS με έδρα το Μιλάνο. Συνεργάζεται με πελάτες οποιουδήποτε μεγέθους, βοηθώντας τους να κατανοήσουν τις τεχνικές τους ανάγκες και να σχεδιάσουν λύσεις AI και ML που αξιοποιούν με τον καλύτερο τρόπο το AWS Cloud και τη στοίβα Machine Learning της Amazon. Το πεδίο εξειδίκευσής του περιλαμβάνει τη μηχανική μάθηση από άκρο σε άκρο, την βιομηχανοποίηση μηχανικής μάθησης και τη γενετική τεχνητή νοημοσύνη. Του αρέσει να περνά χρόνο με τους φίλους του και να εξερευνά νέα μέρη, καθώς και να ταξιδεύει σε νέους προορισμούς.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Αυτοκίνητο / EVs, Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- BlockOffsets. Εκσυγχρονισμός της περιβαλλοντικής αντιστάθμισης ιδιοκτησίας. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/host-the-spark-ui-on-amazon-sagemaker-studio/
- :έχει
- :είναι
- :που
- $UP
- 1
- 100
- 12
- 7
- 8
- 9
- a
- Σχετικα
- πρόσβαση
- πρόσβαση
- ενεργειών
- Πρόσθετος
- Επιπλέον πληροφορίες
- διαχειριστής
- AI
- AI / ML
- Όλα
- επιτρέπουν
- επιτρέπει
- Επίσης
- Amazon
- Amazon EC2
- EMR Αμαζονίου
- Εκμάθηση μηχανών του Αμαζονίου
- Amazon Sage Maker
- Στούντιο Amazon SageMaker
- Amazon υπηρεσίες Web
- an
- αναλύσει
- αναλύοντας
- και
- κάθε
- οπουδήποτε
- Apache
- app
- εφαρμογές
- κατάλληλος
- εφαρμογές
- ΕΙΝΑΙ
- AS
- αποδίδουν
- αυτοματοποίηση
- αυτομάτως
- διαθέσιμος
- αποφύγετε
- AWS
- Κόλλα AWS
- φόντο
- βασίζονται
- BE
- ΚΑΛΎΤΕΡΟΣ
- Μεγάλος
- Big Data
- ευρύς
- πρόγραμμα περιήγησης
- επιχείρηση
- by
- που ονομάζεται
- CAN
- CD
- έλεγχος
- Επιλέξτε
- Backup
- συστάδα
- κωδικός
- συνήθως
- πλήρης
- Υπολογίστε
- υπολογιστή
- Computer Vision
- χρήση υπολογιστή
- διαμόρφωση
- έχει ρυθμιστεί
- Συνδετικός
- αποτελείται
- πρόξενος
- Δοχείο
- Περιέχει
- έλεγχος
- δημιουργία
- έθιμο
- Πελάτες
- ημερομηνία
- επεξεργασία δεδομένων
- σύνολα δεδομένων
- διανομή
- Υπηρεσίες
- προορισμοί
- καθέκαστα
- Ανάπτυξη
- διαφορετικές
- κατευθείαν
- διανέμονται
- κατανεμημένων υπολογιστών
- τεκμηρίωση
- τομέα
- domains
- γίνεται
- εύκολα
- είτε
- δίνει τη δυνατότητα
- ενεργοποίηση
- τέλος
- Μηχανική
- Περιβάλλον
- περιβάλλοντα
- λάθη
- Συμβάν
- παράδειγμα
- υφιστάμενα
- επισπεύδω
- Εξερευνώντας
- λίγοι
- πεδίο
- Ευελιξία
- Εξής
- ποδόσφαιρο
- Για
- Πλαίσιο
- Δωρεάν
- φίλους
- από
- πλήρως
- παράγουν
- παράγεται
- γενετική
- Παραγωγική τεχνητή νοημοσύνη
- μεγαλύτερη
- he
- βοήθεια
- του
- ιστορία
- οικοδεσπότης
- φιλοξενείται
- Πως
- Πώς να
- HTML
- http
- HTTPS
- if
- in
- περιλαμβάνει
- Συμπεριλαμβανομένου
- πληροφορίες
- εγκαθιστώ
- εγκατάσταση
- εγκατάσταση
- ενσωματωθεί
- Ενσωματώνει
- αλληλεπιδρώντας
- διαδραστικό
- περιβάλλον λειτουργίας
- σε
- συμμετοχή
- IT
- Δουλειά
- Θέσεις εργασίας
- jpg
- large
- μάθηση
- αφήνοντας
- κύκλος ζωής
- Μου αρέσει
- γραμμή
- τοποθεσία
- κούτσουρο
- μηχανή
- μάθηση μηχανής
- μαγεία
- κάνω
- διαχειρίζεται
- διαχείριση
- διαχείριση
- χειροκίνητα
- Μνήμη
- MILAN
- ML
- MLOps
- μοντέλο
- Παρακολούθηση
- περισσότερο
- Ονομάστηκε
- Πλοηγηθείτε
- Πλοήγηση
- Ανάγκη
- που απαιτούνται
- ανάγκες
- Νέα
- nlp
- κόμβων
- σημειωματάριο
- αριθμός
- of
- προσφορές
- on
- αυτά
- βελτιστοποιημένη
- Επιλογή
- Επιλογές
- or
- επί
- σελίδα
- παράθυρο
- μέρος
- Εκτελέστε
- δικαιώματα
- Μέρη
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- παιχνίδι
- Δημοφιλής
- Θέση
- Κύριος
- διαδικασια μας
- μεταποίηση
- Παράγεται
- Προφίλ ⬇️
- προφίλ
- Πρόοδος
- σχέδιο
- έργα
- παρέχεται
- Python
- ερωτήματα
- γρήγορα
- RAY
- μακρινός
- πόρος
- τρέξιμο
- τρέξιμο
- τρέχει
- σοφός
- επεκτάσιμη
- Εφαρμογές
- SDK
- δευτερόλεπτα
- Τμήμα
- δείτε
- Χωρίς διακομιστή
- Υπηρεσίες
- συνεδρίες
- σειρά
- ρυθμίσεις
- διάφοροι
- Κοινοποίηση
- Shared
- κέλυφος
- δείχνουν
- παρουσιάζεται
- Δείχνει
- Απλούς
- Μέγεθος
- λογισμικό
- τεχνολογία λογισμικού
- λύση
- Λύσεις
- Σπινθήρας
- ειδικός
- συγκεκριμένες
- ταχύτητα
- Δαπάνες
- σωρός
- Εκκίνηση
- Κατάσταση
- Βήματα
- στάση
- χώρος στο δίσκο
- κατάστημα
- αποθηκεύονται
- στούντιο
- Υποστηρίζει
- σύστημα
- Πάρτε
- ομάδες
- Τεχνικός
- τερματικό
- ότι
- Η
- τους
- Τους
- τότε
- εκ τούτου
- Αυτοί
- αυτό
- Μέσω
- ώρα
- προς την
- εργαλεία
- τροχιά
- Εκπαίδευση
- Ταξίδια
- τύποι
- ui
- υπό
- καταλαβαίνω
- URL
- Χρήση
- χρήση
- Χρήστες
- Διεπαφής χρήστη
- Χρήστες
- χρησιμοποιώντας
- χρησιμότητα
- όραμα
- τρόπους
- we
- ιστός
- πρόγραμμα περιήγησης στο Web
- διαδικτυακές υπηρεσίες
- Web-based
- ΛΟΙΠΌΝ
- πότε
- Ποιό
- θα
- με
- χωρίς
- εργάστηκαν
- λειτουργεί
- χρόνια
- Εσείς
- Σας
- zephyrnet