Αναλύστε τις δαπάνες του Amazon SageMaker και καθορίστε ευκαιρίες βελτιστοποίησης κόστους με βάση τη χρήση, Μέρος 4: Εργασίες εκπαίδευσης | Υπηρεσίες Ιστού της Amazon

Αναλύστε τις δαπάνες του Amazon SageMaker και καθορίστε ευκαιρίες βελτιστοποίησης κόστους με βάση τη χρήση, Μέρος 4: Εργασίες εκπαίδευσης | Υπηρεσίες Ιστού της Amazon

Το 2021 ξεκινήσαμε Προληπτικές Υπηρεσίες Υποστήριξης AWS ως μέρος του Υποστήριξη AWS Enterprise σχέδιο. Από την εισαγωγή του, έχουμε βοηθήσει εκατοντάδες πελάτες να βελτιστοποιήσουν τον φόρτο εργασίας τους, να ορίσουν προστατευτικά κιγκλιδώματα και να βελτιώσουν την ορατότητα του κόστους και της χρήσης του φόρτου εργασίας μηχανικής εκμάθησης (ML).

Σε αυτήν τη σειρά αναρτήσεων, μοιραζόμαστε διδάγματα σχετικά με τη βελτιστοποίηση του κόστους Amazon Sage Maker. Σε αυτήν την ανάρτηση, εστιάζουμε στις εργασίες εκπαίδευσης του SageMaker.

Θέσεις εργασίας εκπαίδευσης SageMaker

Οι εργασίες εκπαίδευσης του SageMaker είναι ασύγχρονες μαζικές διεργασίες με ενσωματωμένες δυνατότητες για εκπαίδευση και βελτιστοποίηση μοντέλων ML.

Με τις εργασίες εκπαίδευσης του SageMaker, μπορείτε να φέρετε τον δικό σας αλγόριθμο ή να επιλέξετε από περισσότερους από 25 ενσωματωμένους αλγόριθμους. Το SageMaker υποστηρίζει διάφορες πηγές δεδομένων και μοτίβα πρόσβασης, κατανεμημένη εκπαίδευση, συμπεριλαμβανομένων ετερογενών συμπλεγμάτων, καθώς και λειτουργίες διαχείρισης πειράματος και αυτόματο συντονισμό μοντέλων.

Το κόστος μιας εργασίας εκπαίδευσης βασίζεται στους πόρους που χρησιμοποιείτε (παρουσίες και αποθήκευση) για τη διάρκεια (σε δευτερόλεπτα) που εκτελούνται αυτές οι παρουσίες. Αυτό περιλαμβάνει τον χρόνο που λαμβάνει χώρα η εκπαίδευση και, εάν χρησιμοποιείτε το λειτουργία ζεστής πισίνας, την περίοδο διατήρησης ζωντανής που ρυθμίζετε. Σε Μέρος 1, δείξαμε πώς να ξεκινήσετε να χρησιμοποιείτε Εξερεύνηση κόστους AWS για τον εντοπισμό ευκαιριών βελτιστοποίησης κόστους στο SageMaker. Μπορείτε να φιλτράρετε το κόστος εκπαίδευσης εφαρμόζοντας ένα φίλτρο για τον τύπο χρήσης. Τα ονόματα αυτών των τύπων χρήσης είναι τα εξής:

  • REGION-Train:instanceType (για παράδειγμα, USE1-Train:ml.m5.large)
  • REGION-Train:VolumeUsage.gp2 (για παράδειγμα, USE1-Train:VolumeUsage.gp2)

Για να δείτε μια ανάλυση των δαπανών εκπαίδευσής σας στο Cost Explorer, μπορείτε να εισαγάγετε train: ως πρόθεμα για Τύπος χρήσης. Εάν φιλτράρετε μόνο τις ώρες χρήσης (δείτε το παρακάτω στιγμιότυπο οθόνης), η Εξερεύνηση κόστους θα δημιουργήσει δύο γραφήματα: Κόστος και Χρήση. Αυτή η προβολή θα σας βοηθήσει να δώσετε προτεραιότητα στις ευκαιρίες βελτιστοποίησης και να προσδιορίσετε ποιες περιπτώσεις είναι μακροχρόνιες και δαπανηρές.

Αναλύστε τις δαπάνες του Amazon SageMaker και καθορίστε ευκαιρίες βελτιστοποίησης κόστους με βάση τη χρήση, Μέρος 4: Εργασίες εκπαίδευσης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Πριν βελτιστοποιήσετε μια υπάρχουσα εργασία κατάρτισης, συνιστούμε να ακολουθείτε τις βέλτιστες πρακτικές που καλύπτονται Βελτιστοποίηση του κόστους για τη μηχανική εκμάθηση με το Amazon SageMaker: δοκιμάστε τον κωδικό σας τοπικά και χρησιμοποιήστε τοπική λειτουργία για δοκιμές, χρησιμοποιήστε προεκπαιδευμένα μοντέλα όπου είναι δυνατόν και σκεφτείτε διαχειριζόμενη επιτόπου εκπαίδευση (το οποίο μπορεί να βελτιστοποιήσει το κόστος έως και 90% σε σχέση με τις περιπτώσεις κατ' απαίτηση).

Όταν ξεκινά μια εργασία κατ' απαίτηση, περνάει από πέντε φάσεις: Έναρξη, Λήψη, Εκπαίδευση, Μεταφόρτωση και Ολοκλήρωση. Μπορείτε να δείτε αυτές τις φάσεις και τις περιγραφές στη σελίδα της εργασίας εκπαίδευσης στην κονσόλα SageMaker.

Αναλύστε τις δαπάνες του Amazon SageMaker και καθορίστε ευκαιρίες βελτιστοποίησης κόστους με βάση τη χρήση, Μέρος 4: Εργασίες εκπαίδευσης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Από την άποψη της τιμολόγησης, χρεώνεστε για τις φάσεις λήψης, εκπαίδευσης και μεταφόρτωσης.

Η επανεξέταση αυτών των φάσεων είναι ένα πρώτο βήμα για τη διάγνωση του πού να βελτιστοποιήσετε το κόστος της προπόνησής σας. Σε αυτήν την ανάρτηση, συζητάμε τις φάσεις λήψης και εκπαίδευσης.

Φάση λήψης

Στο προηγούμενο παράδειγμα, η φάση λήψης κράτησε λιγότερο από ένα λεπτό. Ωστόσο, εάν η λήψη δεδομένων είναι ένας μεγάλος παράγοντας του κόστους της εκπαίδευσής σας, θα πρέπει να λάβετε υπόψη την πηγή δεδομένων που χρησιμοποιείτε και τις μεθόδους πρόσβασης. Οι εργασίες εκπαίδευσης του SageMaker υποστηρίζουν εγγενώς τρεις πηγές δεδομένων: Σύστημα αρχείων ελαστικού Amazon (Amazon EFS), Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), και Amazon FSx για λάμψη. Για το Amazon S3, το SageMaker προσφέρει τρεις διαχειριζόμενους τρόπους με τους οποίους ο αλγόριθμός σας μπορεί να έχει πρόσβαση στην εκπαίδευση: Λειτουργία αρχείου (όπου γίνεται λήψη δεδομένων στο χώρο αποθήκευσης μπλοκ παρουσίασης), λειτουργία Pipe (τα δεδομένα μεταδίδονται σε ροή στην παρουσία, εξαλείφοντας έτσι τη διάρκεια της φάσης λήψης) και Fast File mode (συνδυάζει την ευκολία χρήσης της υπάρχουσας λειτουργίας File με την απόδοση της λειτουργίας Pipe). Για λεπτομερείς οδηγίες σχετικά με την επιλογή της σωστής πηγής δεδομένων και μεθόδων πρόσβασης, ανατρέξτε στο Επιλέξτε την καλύτερη πηγή δεδομένων για την εργασία εκπαίδευσης στο Amazon SageMaker.

Κατά τη χρήση της εκπαίδευσης διαχειριζόμενου σημείου, τυχόν επαναλαμβανόμενες φάσεις λήψης που προέκυψαν λόγω διακοπής δεν χρεώνονται (άρα χρεώνεστε για τη διάρκεια της λήψης δεδομένων μόνο μία φορά).

Είναι σημαντικό να σημειωθεί ότι παρόλο που οι εργασίες εκπαίδευσης του SageMaker υποστηρίζουν τις πηγές δεδομένων που αναφέραμε, δεν είναι υποχρεωτικές. Στον κώδικα εκπαίδευσης, μπορείτε να εφαρμόσετε οποιαδήποτε μέθοδο για τη λήψη των δεδομένων εκπαίδευσης από οποιαδήποτε πηγή (υπό την προϋπόθεση ότι η παρουσία εκπαίδευσης μπορεί να έχει πρόσβαση σε αυτά). Υπάρχουν πρόσθετοι τρόποι για να επιταχύνετε τον χρόνο λήψης, όπως η χρήση του Boto3 API με πολλαπλή επεξεργασία για τη λήψη αρχείων ταυτόχρονα ή η χρήση βιβλιοθηκών τρίτων όπως το WebDataset ή το s5cmd για ταχύτερη λήψη από το Amazon S3. Για περισσότερες πληροφορίες, ανατρέξτε στο Παραλληλισμός φόρτου εργασίας S3 με s5cmd.

Προπονητική φάση

Η βελτιστοποίηση του κόστους της φάσης εκπαίδευσης αποτελείται από τη βελτιστοποίηση δύο διανυσμάτων: την επιλογή της σωστής υποδομής (παρουσιαστική οικογένεια και μέγεθος) και τη βελτιστοποίηση της ίδιας της εκπαίδευσης. Μπορούμε να χωρίσουμε χονδρικά τα στιγμιότυπα εκπαίδευσης σε δύο κατηγορίες: βασισμένα σε επιταχυνόμενη GPU, κυρίως για μοντέλα βαθιάς μάθησης, και βασισμένα σε CPU για κοινά πλαίσια ML. Για καθοδήγηση σχετικά με την επιλογή της σωστής οικογένειας περιπτώσεων για εκπαίδευση, ανατρέξτε στο Εξασφαλίστε αποτελεσματικούς υπολογιστικούς πόρους στο Amazon SageMaker. Εάν η εκπαίδευσή σας απαιτεί παρουσίες GPU, συνιστούμε να ανατρέξετε στο βίντεο Πώς να επιλέξετε παρουσίες GPU της Amazon EC2 για βαθιά εκμάθηση.

Ως γενική καθοδήγηση, εάν ο φόρτος εργασίας σας απαιτεί GPU NVIDIA, διαπιστώσαμε ότι οι πελάτες κερδίζουν σημαντική εξοικονόμηση κόστους με δύο Amazon Elastic Compute Cloud Τύποι παρουσιών (Amazon EC2): ml.g4dn και ml.g5. Το ml.g4dn είναι εξοπλισμένο με NVIDIA T4 και προσφέρει ιδιαίτερα χαμηλό κόστος ανά μνήμη. Η παρουσία ml.g5 είναι εξοπλισμένη με NVIDIA A10g Tensor Core και έχει το χαμηλότερο κόστος ανά CUDA flop (fp32).

Το AWS προσφέρει συγκεκριμένες δυνατότητες εξοικονόμησης κόστους για εκπαίδευση σε βάθος:

Για να προσαρμόσετε το σωστό μέγεθος και να βελτιστοποιήσετε την παρουσία σας, θα πρέπει πρώτα να εξετάσετε το amazoncloudwatch μετρήσεις που δημιουργούν οι εργασίες κατάρτισης. Για περισσότερες πληροφορίες, ανατρέξτε στο SageMaker Jobs and Endpoint Metrics. Μπορείτε να χρησιμοποιήσετε περαιτέρω το CloudWatch προσαρμοσμένες μετρήσεις αλγορίθμων για την παρακολούθηση της απόδοσης της εκπαίδευσης.

Αναλύστε τις δαπάνες του Amazon SageMaker και καθορίστε ευκαιρίες βελτιστοποίησης κόστους με βάση τη χρήση, Μέρος 4: Εργασίες εκπαίδευσης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αυτές οι μετρήσεις μπορεί να υποδεικνύουν συμφόρηση ή υπερβολική παροχή πόρων. Για παράδειγμα, εάν παρατηρείτε υψηλή CPU με χαμηλή χρήση GPU, μπορείτε να αντιμετωπίσετε το πρόβλημα χρησιμοποιώντας ετερογενείς συστάδες. Ένα άλλο παράδειγμα μπορεί να είναι η συνεπής χαμηλή χρήση της CPU σε όλη τη διάρκεια της εργασίας—αυτό μπορεί να οδηγήσει σε μείωση του μεγέθους της παρουσίας.

Αν χρησιμοποιείτε κατανεμημένη εκπαίδευση, θα πρέπει να δοκιμάσετε διαφορετικές μεθόδους διανομής (πύργος, Ring-AllReduce, mirrored και ούτω καθεξής) για να επικυρώσετε τη μέγιστη χρήση και να ρυθμίσετε τις παραμέτρους του πλαισίου σας ανάλογα (για παράδειγμα, βλ. Βέλτιστες πρακτικές για εκπαίδευση επιτάχυνσης TensorFlow 1.x στο Amazon SageMaker). Είναι σημαντικό να επισημάνετε ότι μπορείτε να χρησιμοποιήσετε το API διανομής SageMaker και βιβλιοθήκες όπως Παράλληλη κατανομή δεδομένων SageMaker, SageMaker Model Parallel, να SageMaker Sharded Data Parallel, τα οποία είναι βελτιστοποιημένα για την υποδομή AWS και συμβάλλουν στη μείωση του κόστους εκπαίδευσης.

Σημειώστε ότι η κατανεμημένη εκπαίδευση δεν κλιμακώνεται απαραιτήτως γραμμικά και μπορεί να εισάγει κάποια επιβάρυνση, η οποία θα επηρεάσει το συνολικό χρόνο εκτέλεσης.

Για μοντέλα βαθιάς μάθησης, μια άλλη τεχνική βελτιστοποίησης είναι η χρήση μικτής ακρίβειας. Η μικτή ακρίβεια μπορεί να επιταχύνει την προπόνηση, μειώνοντας έτσι τόσο τον χρόνο προπόνησης όσο και τη χρήση μνήμης με ελάχιστο έως καθόλου αντίκτυπο στην ακρίβεια του μοντέλου. Για περισσότερες πληροφορίες, δείτε το Προπονηθείτε με Παράλληλο Δεδομένων και Παράλληλο Μοντέλου ενότητα στο Κατανεμημένη εκπαίδευση στο Amazon SageMaker.

Τέλος, η βελτιστοποίηση των συγκεκριμένων παραμέτρων του πλαισίου μπορεί να έχει σημαντικό αντίκτυπο στη βελτιστοποίηση της εκπαιδευτικής διαδικασίας. Αυτόματος συντονισμός μοντέλου SageMaker βρίσκει υπερπαραμέτρους που έχουν την καλύτερη απόδοση, όπως μετράται από μια αντικειμενική μέτρηση που επιλέγετε. Η ρύθμιση του χρόνου εκπαίδευσης ως αντικειμενικής μέτρησης και η διαμόρφωση πλαισίου ως υπερπαράμετροι μπορεί να βοηθήσει στην άρση των σημείων συμφόρησης και στη μείωση του συνολικού χρόνου εκπαίδευσης. Για ένα παράδειγμα βελτιστοποίησης των προεπιλεγμένων ρυθμίσεων TensorFlow και αφαίρεσης συμφόρησης CPU, ανατρέξτε στο Η αεροβική βελτιώνει την ταχύτητα προπόνησης κατά 24 φορές ανά δείγμα με τα Amazon SageMaker και TensorFlow.

Μια άλλη ευκαιρία για τη βελτιστοποίηση του χρόνου λήψης και επεξεργασίας είναι να εξετάσετε το ενδεχόμενο εκπαίδευσης σε ένα υποσύνολο των δεδομένων σας. Εάν τα δεδομένα σας αποτελούνται από πολλαπλές διπλότυπες εγγραφές ή λειτουργίες με χαμηλό κέρδος πληροφοριών, ενδέχεται να μπορείτε να εκπαιδεύεστε σε ένα υποσύνολο δεδομένων και να μειώσετε τον χρόνο λήψης και εκπαίδευσης, καθώς και να χρησιμοποιήσετε μικρότερη παρουσία και Κατάστημα Amazon Elastic Block τόμος (Amazon EBS). Για παράδειγμα, ανατρέξτε στο Χρησιμοποιήστε μια προσέγγιση με επίκεντρο τα δεδομένα για να ελαχιστοποιήσετε την ποσότητα δεδομένων που απαιτείται για την εκπαίδευση των μοντέλων του Amazon SageMaker. Επίσης, Amazon SageMaker Data Wrangler μπορεί να απλοποιήσει την ανάλυση και τη δημιουργία δειγμάτων εκπαίδευσης. Για περισσότερες πληροφορίες, ανατρέξτε στο Δημιουργήστε τυχαία και στρωματοποιημένα δείγματα δεδομένων με το Amazon SageMaker Data Wrangler.

Εντοπιστής σφαλμάτων SageMaker

Για να διασφαλίσει την αποτελεσματική εκπαίδευση και χρήση πόρων, το SageMaker μπορεί να δημιουργήσει προφίλ της εκπαιδευτικής σας εργασίας χρησιμοποιώντας Debugger Amazon SageMaker. Προσφορές προγράμματος εντοπισμού σφαλμάτων ενσωματωμένοι κανόνες για να ειδοποιήσετε για κοινά ζητήματα που επηρεάζουν την εκπαίδευσή σας, όπως η συμφόρηση της CPU, η αύξηση της μνήμης GPU ή η συμφόρηση εισόδου/εξόδου, ή μπορείτε να δημιουργήσετε τους δικούς σας κανόνες. Μπορείτε να αποκτήσετε πρόσβαση και να αναλύσετε την αναφορά που δημιουργήθηκε στο Στούντιο Amazon SageMaker. Για περισσότερες πληροφορίες, ανατρέξτε στο Διεπαφή χρήστη του Amazon SageMaker Debugger στα πειράματα του Amazon SageMaker Studio. Το ακόλουθο στιγμιότυπο οθόνης δείχνει την προβολή του προγράμματος εντοπισμού σφαλμάτων στο Studio.

Αναλύστε τις δαπάνες του Amazon SageMaker και καθορίστε ευκαιρίες βελτιστοποίησης κόστους με βάση τη χρήση, Μέρος 4: Εργασίες εκπαίδευσης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μπορείτε να διερευνήσετε τους τελεστές και τις συναρτήσεις της Python (το Κορυφαίες λειτουργίες σε GPU ενότητα) που εκτελούνται για την εκτέλεση της εργασίας εκπαίδευσης. Οι ενσωματωμένοι κανόνες του Debugger για τη δημιουργία προφίλ ζητημάτων που σχετίζονται με τη λειτουργία του πλαισίου παρακολούθησης, συμπεριλαμβανομένου του υπερβολικού χρόνου προετοιμασίας της εκπαίδευσης λόγω λήψης δεδομένων πριν από την έναρξη της εκπαίδευσης και των ακραίων τιμών διάρκειας βημάτων στους βρόχους εκπαίδευσης. Θα πρέπει να σημειώσετε ότι παρόλο που η χρήση των ενσωματωμένων κανόνων είναι δωρεάν, το κόστος για τους προσαρμοσμένους κανόνες ισχύει με βάση την περίπτωση που διαμορφώνετε για τη διάρκεια της εργασίας εκπαίδευσης και της αποθήκευσης που είναι συνδεδεμένη σε αυτήν.

Συμπέρασμα

Σε αυτήν την ανάρτηση, παρέχουμε οδηγίες σχετικά με την ανάλυση κόστους και τις βέλτιστες πρακτικές κατά την εκπαίδευση μοντέλων ML χρησιμοποιώντας εργασίες εκπαίδευσης του SageMaker. Καθώς η μηχανική εκμάθηση καθιερώνεται ως ισχυρό εργαλείο σε όλες τις βιομηχανίες, η εκπαίδευση και η λειτουργία μοντέλων ML πρέπει να παραμένουν οικονομικά αποδοτικές. Το SageMaker προσφέρει ένα ευρύ και βαθύ σύνολο χαρακτηριστικών για τη διευκόλυνση κάθε βήματος στη γραμμή ML και παρέχει ευκαιρίες βελτιστοποίησης κόστους χωρίς να επηρεάζει την απόδοση ή την ευελιξία.


Σχετικά με τους Συγγραφείς

Αναλύστε τις δαπάνες του Amazon SageMaker και καθορίστε ευκαιρίες βελτιστοποίησης κόστους με βάση τη χρήση, Μέρος 4: Εργασίες εκπαίδευσης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Deepali Rajale είναι Ανώτερος Ειδικός AI/ML στο AWS. Συνεργάζεται με εταιρικούς πελάτες παρέχοντας τεχνική καθοδήγηση με βέλτιστες πρακτικές για την ανάπτυξη και τη διατήρηση λύσεων AI/ML στο οικοσύστημα AWS. Έχει συνεργαστεί με ένα ευρύ φάσμα οργανισμών σε διάφορες περιπτώσεις χρήσης βαθιάς μάθησης που αφορούν το NLP και την όραση υπολογιστών. Είναι παθιασμένη με την ενδυνάμωση των οργανισμών να αξιοποιήσουν τη γενετική τεχνητή νοημοσύνη για να βελτιώσουν την εμπειρία χρήσης τους. Στον ελεύθερο χρόνο της, της αρέσει ο κινηματογράφος, η μουσική και η λογοτεχνία.

Αναλύστε τις δαπάνες του Amazon SageMaker και καθορίστε ευκαιρίες βελτιστοποίησης κόστους με βάση τη χρήση, Μέρος 4: Εργασίες εκπαίδευσης | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ούρι Ρόζενμπεργκ είναι ο Ειδικός Τεχνικός Διευθυντής AI & ML για την Ευρώπη, τη Μέση Ανατολή και την Αφρική. Με έδρα το Ισραήλ, η Uri εργάζεται για να ενδυναμώσει τους εταιρικούς πελάτες σε όλα τα πράγματα ML ώστε να σχεδιάζουν, να κατασκευάζουν και να λειτουργούν σε κλίμακα. Στον ελεύθερο χρόνο του, του αρέσει η ποδηλασία, η πεζοπορία και η αυξανόμενη εντροπία.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS