Εάν χρησιμοποιείτε την προεπιλεγμένη διαμόρφωση κύκλου ζωής για τον τομέα σας ή το προφίλ χρήστη στο Στούντιο Amazon SageMaker Και χρήση Amazon SageMaker Data Wrangler για προετοιμασία δεδομένων, τότε αυτή η ανάρτηση είναι για εσάς. Σε αυτήν την ανάρτηση, δείχνουμε πώς μπορείτε να δημιουργήσετε μια ροή δεδομένων Wrangler και να τη χρησιμοποιήσετε για προετοιμασία δεδομένων σε περιβάλλον Studio με προεπιλεγμένη διαμόρφωση κύκλου ζωής.
Το Data Wrangler είναι μια ικανότητα του Amazon Sage Maker Αυτό καθιστά ταχύτερο για τους επιστήμονες δεδομένων και τους μηχανικούς την προετοιμασία δεδομένων για εφαρμογές μηχανικής μάθησης (ML) μέσω μιας οπτικής διεπαφής. Η προετοιμασία δεδομένων είναι ένα κρίσιμο βήμα του κύκλου ζωής της ML και το Data Wrangler παρέχει μια ολοκληρωμένη λύση για εισαγωγή, εξερεύνηση, μετατροπή, χαρακτηρισμό και επεξεργασία δεδομένων για ML σε μια οπτική εμπειρία χαμηλού κώδικα. Σας επιτρέπει να συνδεθείτε εύκολα και γρήγορα με στοιχεία AWS όπως Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Αμαζόν Αθηνά, Amazon RedShift, να Σχηματισμός Λίμνης AWSκαι εξωτερικές πηγές όπως το Snowflake και το DataBricks DeltaLake. Το Data Wrangler υποστηρίζει τυπικούς τύπους δεδομένων όπως CSV, JSON, ORC και Parquet.
Οι εφαρμογές Studio είναι διαδραστικές εφαρμογές που επιτρέπουν την οπτική διεπαφή, τη σύνταξη κώδικα και την εμπειρία εκτέλεσης του Studio. Οι τύποι εφαρμογών μπορεί να είναι είτε Jupyter Server είτε Kernel Gateway:
- Διακομιστής Jupyter – Επιτρέπει την πρόσβαση στην οπτική διεπαφή για το Studio. Κάθε χρήστης στο Studio έχει τη δική του εφαρμογή Jupyter Server.
- Πύλη πυρήνα – Επιτρέπει την πρόσβαση στο περιβάλλον εκτέλεσης κώδικα και στους πυρήνες για τους φορητούς υπολογιστές και τα τερματικά του Studio. Για περισσότερες πληροφορίες, βλ Jupyter Kernel Gateway.
Διαμορφώσεις κύκλου ζωής Τα (LCC) είναι σενάρια φλοιού για την αυτοματοποίηση της προσαρμογής για τα περιβάλλοντα του Studio σας, όπως η εγκατάσταση επεκτάσεων του JupyterLab, η προφόρτωση συνόλων δεδομένων και η ρύθμιση αποθετηρίων πηγαίου κώδικα. Τα σενάρια LCC ενεργοποιούνται από συμβάντα κύκλου ζωής του Studio, όπως η εκκίνηση ενός νέου σημειωματάριου Studio. Για να ορίσετε μια διαμόρφωση κύκλου ζωής ως προεπιλογή για τον τομέα σας ή το προφίλ χρήστη μέσω προγραμματισμού, μπορείτε να δημιουργήσετε έναν νέο πόρο ή να ενημερώσετε έναν υπάρχοντα πόρο. Για να συσχετίσετε μια διαμόρφωση κύκλου ζωής ως προεπιλογή, πρέπει πρώτα να δημιουργήσετε μια διαμόρφωση κύκλου ζωής ακολουθώντας τα βήματα στο Δημιουργία και συσχέτιση μιας διαμόρφωσης κύκλου ζωής
Σημείωση: Οι προεπιλεγμένες διαμορφώσεις κύκλου ζωής που έχουν ρυθμιστεί σε επίπεδο τομέα κληρονομούνται από όλους τους χρήστες, ενώ αυτές που έχουν ρυθμιστεί σε επίπεδο χρήστη καλύπτονται από συγκεκριμένο χρήστη. Εάν εφαρμόζετε ταυτόχρονα διαμορφώσεις κύκλου ζωής σε επίπεδο τομέα και σε επίπεδο προφίλ χρήστη, η διαμόρφωση κύκλου ζωής σε επίπεδο προφίλ χρήστη έχει προτεραιότητα και εφαρμόζεται στην εφαρμογή ανεξάρτητα από τη διαμόρφωση κύκλου ζωής που εφαρμόζεται σε επίπεδο τομέα. Για περισσότερες πληροφορίες, βλ Ρύθμιση προεπιλεγμένων διαμορφώσεων κύκλου ζωής.
Το Data Wrangler αποδέχεται την προεπιλεγμένη διαμόρφωση κύκλου ζωής της πύλης πυρήνα, αλλά ορισμένες από τις εντολές που ορίζονται στην προεπιλεγμένη διαμόρφωση κύκλου ζωής της πύλης πυρήνα δεν ισχύουν για το Data Wrangler, γεγονός που μπορεί να προκαλέσει την αποτυχία εκκίνησης του Data Wrangler. Το παρακάτω στιγμιότυπο οθόνης δείχνει ένα παράδειγμα ενός μηνύματος σφάλματος που ενδέχεται να λάβετε κατά την εκκίνηση της ροής δεδομένων Wrangler. Αυτό μπορεί να συμβεί μόνο με προεπιλεγμένες διαμορφώσεις κύκλου ζωής και όχι με διαμορφώσεις κύκλου ζωής.
Επισκόπηση λύσεων
Οι πελάτες που χρησιμοποιούν την προεπιλεγμένη διαμόρφωση κύκλου ζωής στο Studio μπορούν να ακολουθήσουν αυτήν την ανάρτηση και να χρησιμοποιήσουν το παρεχόμενο μπλοκ κώδικα μέσα στο σενάριο διαμόρφωσης κύκλου ζωής για να ξεκινήσουν μια εφαρμογή Data Wrangler χωρίς σφάλματα.
Ρυθμίστε την προεπιλεγμένη διαμόρφωση κύκλου ζωής
Για να ρυθμίσετε μια προεπιλεγμένη διαμόρφωση κύκλου ζωής, πρέπει να την προσθέσετε στο DefaultResourceSpec
του κατάλληλου τύπου εφαρμογής. Η συμπεριφορά της διαμόρφωσης του κύκλου ζωής σας εξαρτάται από το αν έχει προστεθεί στο DefaultResourceSpec
μιας εφαρμογής Jupyter Server ή Kernel Gateway:
- Εφαρμογές διακομιστή Jupyter – Όταν προστεθεί στο
DefaultResourceSpec
μιας εφαρμογής Jupyter Server, το προεπιλεγμένο σενάριο διαμόρφωσης κύκλου ζωής εκτελείται αυτόματα όταν ο χρήστης συνδέεται στο Studio για πρώτη φορά ή κάνει επανεκκίνηση του Studio. Μπορείτε να το χρησιμοποιήσετε για να αυτοματοποιήσετε τις εφάπαξ ενέργειες εγκατάστασης για το περιβάλλον προγραμματιστή του Studio, όπως η εγκατάσταση επεκτάσεων φορητού υπολογιστή ή η ρύθμιση ενός αποθετηρίου GitHub. Για ένα παράδειγμα αυτού, βλ Προσαρμόστε το Amazon SageMaker Studio χρησιμοποιώντας τις διαμορφώσεις κύκλου ζωής. - Εφαρμογές Kernel Gateway – Όταν προστεθεί στο
DefaultResourceSpec
μιας εφαρμογής Kernel Gateway, το Studio επιλέγει από προεπιλογή το σενάριο διαμόρφωσης κύκλου ζωής από την εκκίνηση του Studio. Μπορείτε να εκκινήσετε ένα σημειωματάριο ή ένα τερματικό με την προεπιλεγμένη δέσμη ενεργειών ή να επιλέξετε ένα διαφορετικό από τη λίστα των διαμορφώσεων κύκλου ζωής.
Μια προεπιλεγμένη διαμόρφωση κύκλου ζωής της πύλης πυρήνα που καθορίζεται στο DefaultResourceSpec
ισχύει για όλες τις εικόνες της πύλης πυρήνα στον τομέα Studio, εκτός εάν επιλέξετε διαφορετικό σενάριο από τη λίστα που παρουσιάζεται στην εκκίνηση του Studio.
Όταν εργάζεστε με διαμορφώσεις κύκλου ζωής για το Studio, δημιουργείτε μια διαμόρφωση κύκλου ζωής και την επισυνάπτετε είτε στον τομέα Studio είτε στο προφίλ χρήστη. Στη συνέχεια, μπορείτε να εκκινήσετε μια εφαρμογή Jupyter Server ή Kernel Gateway για να χρησιμοποιήσετε τη διαμόρφωση του κύκλου ζωής.
Ο παρακάτω πίνακας συνοψίζει αυτά τα σφάλματα που μπορεί να συναντήσετε κατά την εκκίνηση μιας εφαρμογής Data Wrangler με προεπιλεγμένες διαμορφώσεις κύκλου ζωής.
Επίπεδο στο οποίο η διαμόρφωση του κύκλου ζωής Εφαρμόζεται |
Δημιουργία ροής δεδομένων Wrangler Λειτουργεί (ή) Σφάλμα |
Εναλλακτικός τρόπος αντιμετώπισης |
Domain | Σφάλμα κακού αιτήματος | Εφαρμόστε το σενάριο (δείτε παρακάτω) |
Προφίλ χρήστη | Σφάλμα κακού αιτήματος | Εφαρμόστε το σενάριο (δείτε παρακάτω) |
Εφαρμογή | Λειτουργεί — Κανένα πρόβλημα | Δεν απαιτείται |
Όταν χρησιμοποιείτε την προεπιλεγμένη διαμόρφωση κύκλου ζωής που σχετίζεται με το Studio και το Data Wrangler (εφαρμογή Kernel Gateway), ενδέχεται να αντιμετωπίσετε αποτυχία της εφαρμογής Kernel Gateway. Σε αυτήν την ανάρτηση, δείχνουμε πώς να ρυθμίσετε σωστά την προεπιλεγμένη διαμόρφωση κύκλου ζωής για να αποκλείσετε τις εντολές που εκτελούνται σε μια εφαρμογή Data Wrangler, ώστε να μην αντιμετωπίσετε αποτυχία της εφαρμογής Kernel Gateway.
Ας υποθέσουμε ότι θέλετε να εγκαταστήσετε ένα git-clone-repo script ως η προεπιλεγμένη διαμόρφωση κύκλου ζωής που ελέγχει αυτόματα ένα αποθετήριο Git κάτω από τον αρχικό φάκελο του χρήστη κατά την εκκίνηση του διακομιστή Jupyter. Ας δούμε κάθε σενάριο εφαρμογής μιας διαμόρφωσης κύκλου ζωής (τομέας στούντιο, προφίλ χρήστη ή επίπεδο εφαρμογής).
Εφαρμόστε τη διαμόρφωση του κύκλου ζωής σε επίπεδο τομέα Studio ή προφίλ χρήστη
Για να εφαρμόσετε την προεπιλεγμένη διαμόρφωση κύκλου ζωής της πύλης πυρήνα σε επίπεδο τομέα Studio ή προφίλ χρήστη, ολοκληρώστε τα βήματα σε αυτήν την ενότητα. Ξεκινάμε με οδηγίες για το επίπεδο προφίλ χρήστη.
Στο σενάριο διαμόρφωσης κύκλου ζωής, πρέπει να συμπεριλάβετε το ακόλουθο μπλοκ κώδικα που ελέγχει και παρακάμπτει την εφαρμογή Data Wrangler Kernel Gateway:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
Για παράδειγμα, ας χρησιμοποιήσουμε το παρακάτω σενάριο ως πρωτότυπο (σημειώστε ότι ο φάκελος για την κλωνοποίηση του repo έχει αλλάξει /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
Το νέο τροποποιημένο σενάριο έχει την εξής μορφή:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
Μπορείτε να αποθηκεύσετε αυτό το σενάριο ως git_command_test.sh
.
Τώρα εκτελείτε μια σειρά από εντολές στο τερματικό σας ή στη γραμμή εντολών. Θα πρέπει να διαμορφώσετε το Διεπαφή γραμμής εντολών AWS (AWS CLI) για αλληλεπίδραση με το AWS. Εάν δεν έχετε ρυθμίσει το AWS CLI, ανατρέξτε στο Διαμόρφωση του AWS CLI.
- Μετατρέψτε το δικό σας
git_command_test.sh
αρχείο σε μορφή Base64. Αυτή η απαίτηση αποτρέπει σφάλματα που οφείλονται στην κωδικοποίηση των διαστημάτων και των αλλαγών γραμμής. - Δημιουργήστε μια διαμόρφωση κύκλου ζωής Studio. Η ακόλουθη εντολή δημιουργεί μια διαμόρφωση κύκλου ζωής που εκτελείται κατά την εκκίνηση μιας συσχετισμένης εφαρμογής Kernel Gateway:
- Χρησιμοποιήστε την ακόλουθη κλήση API για να δημιουργήσετε ένα νέο προφίλ χρήστη με συσχετισμένη διαμόρφωση κύκλου ζωής:
Εναλλακτικά, εάν θέλετε να δημιουργήσετε έναν τομέα Studio για να συσχετίσετε τη διαμόρφωση του κύκλου ζωής σας σε επίπεδο τομέα ή να ενημερώσετε το προφίλ χρήστη ή τον τομέα, μπορείτε να ακολουθήσετε τα βήματα στο Ρύθμιση προεπιλεγμένων διαμορφώσεων κύκλου ζωής.
- Τώρα μπορείτε να εκκινήσετε την εφαρμογή Studio από τον Πίνακα Ελέγχου του SageMaker.
- Στο περιβάλλον του Studio σας, στο Αρχεία μενού, επιλέξτε Νέα και Ροή Wrangler δεδομένων.Η νέα ροή δεδομένων Wrangler θα πρέπει να ανοίξει χωρίς προβλήματα.
- Για να επικυρώσετε τον κλώνο Git, μπορείτε να ανοίξετε ένα νέο Launcher στο Studio.
- Κάτω από Σημειωματάρια και υπολογιστικοί πόροι, επιλέξτε το σημειωματάριο Python 3 και το Επιστήμη δεδομένων Εικόνα SageMaker για να ξεκινήσετε το σενάριό σας ως το προεπιλεγμένο σενάριο διαμόρφωσης κύκλου ζωής.
Μπορείτε να δείτε το Git σε κλωνοποίηση /root
στο παρακάτω στιγμιότυπο οθόνης.
Εφαρμόσαμε με επιτυχία την προεπιλεγμένη διαμόρφωση κύκλου ζωής πυρήνα σε επίπεδο προφίλ χρήστη και δημιουργήσαμε μια ροή δεδομένων Wrangler. Για να ρυθμίσετε τις παραμέτρους σε επίπεδο τομέα Studio, η μόνη αλλαγή είναι αντί να δημιουργήσετε ένα προφίλ χρήστη, μεταβιβάζετε το ARN της διαμόρφωσης του κύκλου ζωής σε ένα δημιουργία-τομέα κλήση.
Εφαρμόστε τη διαμόρφωση του κύκλου ζωής σε επίπεδο εφαρμογής
Εάν εφαρμόσετε την προεπιλεγμένη ρύθμιση παραμέτρων του κύκλου ζωής του Kernel Gateway σε επίπεδο εφαρμογής, δεν θα έχετε προβλήματα επειδή το Data Wrangler παραλείπει τη διαμόρφωση κύκλου ζωής που εφαρμόζεται σε επίπεδο εφαρμογής.
Συμπέρασμα
Σε αυτήν την ανάρτηση, δείξαμε πώς να διαμορφώνετε σωστά τις παραμέτρους του προεπιλεγμένου κύκλου ζωής σας για το Studio όταν χρησιμοποιείτε το Data Wrangler για απαιτήσεις προετοιμασίας δεδομένων και οπτικοποίησης.
Για να συνοψίσουμε, εάν χρειάζεται να χρησιμοποιήσετε την προεπιλογή διαμόρφωση κύκλου ζωής για το Studio για να αυτοματοποιήσετε την προσαρμογή για τα περιβάλλοντα Studio σας και να χρησιμοποιήσετε το Data Wrangler για προετοιμασία δεδομένων, μπορείτε να εφαρμόσετε την προεπιλεγμένη διαμόρφωση κύκλου ζωής του Kernel Gateway στο προφίλ χρήστη ή στο επίπεδο τομέα Studio με το κατάλληλο μπλοκ κώδικα που περιλαμβάνεται στη διαμόρφωση του κύκλου ζωής σας, ώστε να το ελέγχει η προεπιλεγμένη διαμόρφωση κύκλου ζωής και παραλείπει την εφαρμογή Data Wrangler Kernel Gateway.
Για περισσότερες πληροφορίες, ανατρέξτε στους ακόλουθους πόρους:
- Τεκμηρίωση διαμόρφωσης κύκλου ζωής του Amazon SageMaker Studio
- Στούντιο Amazon SageMaker
- Αποθετήριο παραδειγμάτων σεναρίων διαμόρφωσης κύκλου ζωής
- Εντοπισμός σφαλμάτων διαμορφώσεων κύκλου ζωής
Σχετικά με τους Συγγραφείς
Rajakumar Sampathkumar είναι Κύριος Τεχνικός Διευθυντής Λογαριασμού στην AWS, παρέχοντας καθοδήγηση στους πελάτες σχετικά με την ευθυγράμμιση επιχειρηματικής τεχνολογίας και υποστηρίζοντας την επανεφεύρεση των μοντέλων και διαδικασιών λειτουργίας cloud. Είναι παθιασμένος με το cloud και τη μηχανική μάθηση. Ο Raj είναι επίσης ειδικός στη μηχανική εκμάθηση και συνεργάζεται με πελάτες AWS για το σχεδιασμό, την ανάπτυξη και τη διαχείριση του φόρτου εργασίας και των αρχιτεκτονικών τους AWS.
Βίκυ Ζανγκ είναι Μηχανικός Ανάπτυξης Λογισμικού στο Amazon SageMaker. Είναι παθιασμένη με την επίλυση προβλημάτων. Στον ελεύθερο χρόνο της, της αρέσει να βλέπει αστυνομικές ταινίες και να παίζει μπάντμιντον.
Ραχούλ Ναμπέρα είναι Σύμβουλος Data Analytics στην AWS Professional Services. Η τρέχουσα δουλειά του επικεντρώνεται στο να δίνει τη δυνατότητα στους πελάτες να δημιουργούν τα δεδομένα τους και τους φόρτους εργασίας μηχανικής εκμάθησης στο AWS. Στον ελεύθερο χρόνο του, του αρέσει να παίζει κρίκετ και βόλεϊ.
- Coinsmart. Το καλύτερο ανταλλακτήριο Bitcoin και Crypto στην Ευρώπη.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. ΕΛΕΥΘΕΡΗ ΠΡΟΣΒΑΣΗ.
- CryptoHawk. Ραντάρ Altcoin. Δωρεάν δοκιμή.
- Πηγή: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- Σχετικά
- πρόσβαση
- Λογαριασμός
- ενεργειών
- προστιθέμενη
- Όλα
- Amazon
- analytics
- api
- app
- εφαρμόσιμος
- Εφαρμογή
- εφαρμογές
- εφαρμοσμένος
- Εφαρμογή
- εφαρμόζοντας
- κατάλληλος
- εφαρμογές
- Συνεργάτης
- συσχετισμένη
- αυτοματοποίηση
- αυτομάτως
- AWS
- επειδή
- παρακάτω
- Αποκλεισμός
- σύνορο
- φρένα
- χτίζω
- κλήση
- Αιτία
- αλλαγή
- έλεγχοι
- Επιλέξτε
- Backup
- κωδικός
- πλήρης
- εξαρτήματα
- Υπολογίστε
- διαμόρφωση
- Connect
- σύμβουλος
- Περιέχει
- έλεγχος
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- δημιουργία
- κρίκετ
- κρίσιμος
- Ρεύμα
- Πελάτες
- ημερομηνία
- Δεδομένα Analytics
- αποδεικνύουν
- εξαρτάται
- παρατάσσω
- Υπηρεσίες
- Εργολάβος
- Ανάπτυξη
- διαφορετικές
- τομέα
- κάθε
- εύκολα
- ηχώ
- ενεργοποιήσετε
- δίνει τη δυνατότητα
- ενεργοποίηση
- από άκρη σε άκρη
- μηχανικός
- Μηχανικοί
- Περιβάλλον
- εκδηλώσεις
- παράδειγμα
- υφιστάμενα
- εμπειρία
- διερευνήσει
- επεκτάσεις
- Αποτυχία
- γρηγορότερα
- Όνομα
- πρώτη φορά
- ροή
- εστιάζει
- ακολουθήστε
- Εξής
- μορφή
- από
- πύλη
- Git
- GitHub
- συμβαίνω
- ύψος
- εδώ
- Αρχική
- Πως
- Πώς να
- HTTPS
- εικόνα
- εικόνες
- περιλαμβάνουν
- περιλαμβάνονται
- πληροφορίες
- εγκαθιστώ
- παράδειγμα
- διαδραστικό
- περιβάλλον λειτουργίας
- θέματα
- IT
- ξεκινήσει
- δρομολόγηση
- μάθηση
- Επίπεδο
- γραμμή
- Λίστα
- ματιά
- μηχανή
- μάθηση μηχανής
- ΚΑΝΕΙ
- διαχείριση
- διευθυντής
- ενδέχεται να
- ML
- μοντέλα
- περισσότερο
- Κινηματογράφος
- σημειωματάριο
- ανοίξτε
- λειτουργία
- πρωτότυπο
- δική
- πίνακας
- παθιασμένος
- παιχνίδι
- Προετοιμάστε
- Κύριος
- Πρόβλημα
- διαδικασια μας
- Διεργασίες
- επαγγελματίας
- Προφίλ ⬇️
- παρέχει
- χορήγηση
- γρήγορα
- Αποθήκη
- ζητήσει
- απαιτήσεις
- πόρος
- Υποστηρικτικό υλικό
- τρέξιμο
- τρέξιμο
- ίδιο
- Αποθήκευση
- Επιστήμη
- επιστήμονες
- Σειρές
- Υπηρεσίες
- σειρά
- τον καθορισμό
- setup
- κέλυφος
- δείχνουν
- Απλούς
- So
- λογισμικό
- ανάπτυξη λογισμικού
- στέρεο
- λύση
- Επίλυση
- μερικοί
- πρωτογενής κώδικας
- ειδικός
- συγκεκριμένες
- πρότυπο
- Εκκίνηση
- ξεκινά
- χώρος στο δίσκο
- στούντιο
- Επιτυχώς
- Στήριξη
- Υποστηρίζει
- Τεχνικός
- τερματικό
- δοκιμή
- Η
- ώρα
- Μεταμορφώστε
- ενεργοποιήθηκε
- τύποι
- υπό
- Ενημέρωση
- χρήση
- Χρήστες
- οραματισμός
- Τι
- αν
- εντός
- χωρίς
- Εργασία
- λειτουργεί
- Σας