Μειώστε την κατανάλωση ενέργειας των φόρτων εργασίας μηχανικής εκμάθησης έως και 90% με ειδικά κατασκευασμένους επιταχυντές AWS | Υπηρεσίες Ιστού της Amazon

Μειώστε την κατανάλωση ενέργειας των φόρτων εργασίας μηχανικής εκμάθησης έως και 90% με ειδικά κατασκευασμένους επιταχυντές AWS | Υπηρεσίες Ιστού της Amazon

Οι μηχανικοί μηχανικής μάθησης (ML) έχουν παραδοσιακά επικεντρωθεί στην επίτευξη ισορροπίας μεταξύ της εκπαίδευσης του μοντέλου και του κόστους ανάπτυξης έναντι της απόδοσης. Όλο και περισσότερο, η βιωσιμότητα (ενεργειακή απόδοση) γίνεται ένας επιπλέον στόχος για τους πελάτες. Αυτό είναι σημαντικό επειδή η εκπαίδευση μοντέλων ML και στη συνέχεια η χρήση των εκπαιδευμένων μοντέλων για την πραγματοποίηση προβλέψεων (συμπεράσματα) μπορεί να είναι εργασίες υψηλής έντασης ενέργειας. Επιπλέον, όλο και περισσότερες εφαρμογές γύρω μας έχουν εμποτιστεί με ML και νέες εφαρμογές που υποστηρίζονται από ML δημιουργούνται καθημερινά. Ένα δημοφιλές παράδειγμα είναι το ChatGPT του OpenAI, το οποίο τροφοδοτείται από ένα υπερσύγχρονο μοντέλο μεγάλων γλωσσών (LMM). Για αναφορά, GPT-3, μια προηγούμενη γενιά LLM έχει 175 δισεκατομμύρια παραμέτρους και απαιτεί μήνες συνεχούς εκπαίδευσης σε ένα σύμπλεγμα χιλιάδων επιταχυνόμενων επεξεργαστών. ο Μελέτη Carbontracker εκτιμά ότι η εκπαίδευση GPT-3 από την αρχή μπορεί να εκπέμπει έως και 85 μετρικούς τόνους ισοδύναμου CO2, χρησιμοποιώντας ομάδες εξειδικευμένων επιταχυντών υλικού.

Υπάρχουν διάφοροι τρόποι με τους οποίους το AWS επιτρέπει στους επαγγελματίες ML να μειώσουν τις περιβαλλοντικές επιπτώσεις του φόρτου εργασίας τους. Ένας τρόπος είναι μέσω της παροχής καθοδήγηση σχετικά με την αρχιτεκτονική του φόρτου εργασίας AI/ML για βιωσιμότητα. Ένας άλλος τρόπος είναι προσφέροντας υπηρεσίες εκπαίδευσης και ενορχήστρωσης διαχειριζόμενης ML όπως π.χ Στούντιο Amazon SageMaker, το οποίο καταρρίπτει αυτόματα και μειώνει τους πόρους ML όταν δεν χρησιμοποιούνται, και παρέχει μια πλειάδα εργαλείων out-of-the-box που εξοικονομούν κόστος και πόρους. Ένας άλλος σημαντικός παράγοντας είναι η ανάπτυξη του ενεργειακά αποδοτικοί, υψηλής απόδοσης, ειδικά κατασκευασμένοι επιταχυντές για εκπαίδευση και ανάπτυξη μοντέλων ML.

Η εστίαση αυτής της ανάρτησης είναι στο υλικό ως μοχλός για βιώσιμη ML. Παρουσιάζουμε τα αποτελέσματα των πρόσφατων πειραμάτων απόδοσης και εξαγωγής ισχύος που πραγματοποιήθηκαν από το AWS και ποσοτικοποιούν τα οφέλη ενεργειακής απόδοσης που μπορείτε να περιμένετε κατά τη μετεγκατάσταση του φόρτου εργασίας βαθιάς μάθησής σας από άλλα επιταχυνόμενα βελτιστοποιημένα συμπεράσματα και εκπαίδευση Amazon Elastic Compute Cloud (Amazon EC2) περιπτώσεις σε Αίσθηση AWS και Aws trainium. Το Inferentia και το Trainium είναι Η πρόσφατη προσθήκη της AWS στο χαρτοφυλάκιό της με ειδικά κατασκευασμένους επιταχυντές ειδικά σχεδιασμένο από την Amazon Εργαστήρια Annapurna για φόρτους εργασίας συμπερασμάτων ML και εκπαίδευσης.

AWS Inferentia και AWS Trainium για βιώσιμη ML

Για να σας παρέχουμε ρεαλιστικούς αριθμούς των δυνατοτήτων εξοικονόμησης ενέργειας του AWS Inferentia και του AWS Trainium σε μια εφαρμογή πραγματικού κόσμου, έχουμε πραγματοποιήσει αρκετά πειράματα αναφοράς για την ανάληψη ισχύος. Σχεδιάσαμε αυτά τα σημεία αναφοράς έχοντας υπόψη τα ακόλουθα βασικά κριτήρια:

  • Αρχικά, θέλαμε να βεβαιωθούμε ότι καταγράψαμε την άμεση κατανάλωση ενέργειας που αποδίδεται στον φόρτο εργασίας της δοκιμής, συμπεριλαμβανομένου όχι μόνο του επιταχυντή ML αλλά και του υπολογισμού, της μνήμης και του δικτύου. Επομένως, στη ρύθμιση της δοκιμής μας, μετρήσαμε την κατανάλωση ισχύος σε αυτό το επίπεδο.
  • Δεύτερον, κατά την εκτέλεση του φόρτου εργασίας εκπαίδευσης και εξαγωγής συμπερασμάτων, διασφαλίσαμε ότι όλες οι περιπτώσεις λειτουργούσαν στα αντίστοιχα όρια φυσικού υλικού και λάβαμε μετρήσεις μόνο μετά την επίτευξη αυτού του ορίου για να διασφαλίσουμε τη συγκρισιμότητα.
  • Τέλος, θέλαμε να είμαστε σίγουροι ότι η εξοικονόμηση ενέργειας που αναφέρεται σε αυτήν την ανάρτηση θα μπορούσε να επιτευχθεί σε μια πρακτική εφαρμογή στον πραγματικό κόσμο. Ως εκ τούτου, χρησιμοποιήσαμε κοινές περιπτώσεις χρήσης ML εμπνευσμένες από τους πελάτες για συγκριτική αξιολόγηση και δοκιμές.

Τα αποτελέσματα αναφέρονται στις ακόλουθες ενότητες.

Πείραμα συμπερασμάτων: Κατανόηση εγγράφων σε πραγματικό χρόνο με LayoutLM

Το συμπέρασμα, σε αντίθεση με την εκπαίδευση, είναι ένας συνεχής, απεριόριστος φόρτος εργασίας που δεν έχει καθορισμένο σημείο ολοκλήρωσης. Ως εκ τούτου, αποτελεί ένα μεγάλο μέρος της κατανάλωσης πόρων κατά τη διάρκεια ζωής ενός φόρτου εργασίας ML. Η σωστή εξαγωγή συμπερασμάτων είναι το κλειδί για την επίτευξη υψηλής απόδοσης, χαμηλού κόστους και βιωσιμότητας (καλύτερη ενεργειακή απόδοση) κατά τη διάρκεια του πλήρους κύκλου ζωής του ML. Με τις εργασίες εξαγωγής συμπερασμάτων, οι πελάτες συνήθως ενδιαφέρονται να επιτύχουν ένα συγκεκριμένο ποσοστό συμπερασμάτων για να συμβαδίσουν με τη ζήτηση απορρόφησης.

Το πείραμα που παρουσιάζεται σε αυτήν την ανάρτηση είναι εμπνευσμένο από μια περίπτωση χρήσης κατανόησης εγγράφων σε πραγματικό χρόνο, η οποία είναι μια κοινή εφαρμογή σε κλάδους όπως ο τραπεζικός ή ο ασφαλιστικός κλάδος (για παράδειγμα, για διεκπεραίωση απαιτήσεων ή εντύπων αίτησης). Συγκεκριμένα επιλέγουμε LayoutLM, ένα προεκπαιδευμένο μοντέλο μετασχηματιστή που χρησιμοποιείται για την επεξεργασία εικόνας εγγράφων και την εξαγωγή πληροφοριών. Ορίζουμε ένα στόχο SLA 1,000,000 συμπερασμάτων ανά ώρα, μια τιμή που συχνά θεωρείται σε πραγματικό χρόνο, και στη συνέχεια καθορίζουμε δύο διαμορφώσεις υλικού ικανές να ικανοποιήσουν αυτήν την απαίτηση: η μία χρησιμοποιεί Εμφανίσεις Amazon EC2 Inf1, που διαθέτει AWS Inferentia, και ένα που χρησιμοποιεί συγκρίσιμες επιταχυνόμενες περιπτώσεις EC2 βελτιστοποιημένες για εργασίες εξαγωγής συμπερασμάτων. Σε όλο το πείραμα, παρακολουθούμε αρκετούς δείκτες για να μετρήσουμε την απόδοση συμπερασμάτων, το κόστος και την ενεργειακή απόδοση και των δύο διαμορφώσεων υλικού. Τα αποτελέσματα παρουσιάζονται στο παρακάτω σχήμα.

Μειώστε την κατανάλωση ενέργειας του φόρτου εργασίας μηχανικής εκμάθησης έως και 90% με ειδικά κατασκευασμένους επιταχυντές AWS | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αποτελέσματα απόδοσης, κόστους και ενεργειακής απόδοσης σημείων αναφοράς συμπερασμάτων

Το AWS Inferentia παρέχει 6.3 φορές υψηλότερη απόδοση συμπερασμάτων. Ως αποτέλεσμα, με το Inferentia, μπορείτε να εκτελέσετε τον ίδιο φόρτο εργασίας κατανόησης εγγράφων που βασίζεται σε LayoutLM σε πραγματικό χρόνο σε λιγότερες παρουσίες (6 περιπτώσεις AWS Inferentia έναντι 33 άλλες επιταχυνόμενες παρουσίες EC2 βελτιστοποιημένες για συμπέρασμα, ισοδύναμο με μείωση 82%), χρησιμοποιήστε λιγότερο από το ένα δέκατο (-92%) της ενέργειας στη διαδικασία, επιτυγχάνοντας ταυτόχρονα σημαντικά χαμηλότερο κόστος ανά συμπέρασμα (2 USD έναντι 25 USD ανά εκατομμύριο συμπεράσματα, που ισοδυναμεί με μείωση του κόστους κατά 91%).

Προπονητικό πείραμα: Training BERT Large από την αρχή

Η εκπαίδευση, σε αντίθεση με το συμπέρασμα, είναι μια πεπερασμένη διαδικασία που επαναλαμβάνεται πολύ λιγότερο συχνά. Οι μηχανικοί ML συνήθως ενδιαφέρονται για υψηλή απόδοση συμπλέγματος για μείωση του χρόνου εκπαίδευσης, διατηρώντας παράλληλα το κόστος υπό έλεγχο. Η ενεργειακή απόδοση είναι μια δευτερεύουσα (αλλά αυξανόμενη) ανησυχία. Με το AWS Trainium, δεν υπάρχει απόφαση αντιστάθμισης: οι μηχανικοί ML μπορούν να επωφεληθούν από την υψηλή απόδοση εκπαίδευσης, ενώ παράλληλα βελτιστοποιούν το κόστος και μειώνουν τις περιβαλλοντικές επιπτώσεις.

Για να το δείξουμε αυτό, επιλέγουμε BERT Large, ένα δημοφιλές γλωσσικό μοντέλο που χρησιμοποιείται για την κατανόηση φυσικής γλώσσας και χρησιμοποιεί περιπτώσεις όπως η απάντηση ερωτήσεων που βασίζεται σε chatbot και η πρόβλεψη απόκρισης συνομιλίας. Η εκπαίδευση ενός μοντέλου BERT Large με καλή απόδοση από την αρχή απαιτεί συνήθως 450 εκατομμύρια ακολουθίες για επεξεργασία. Συγκρίνουμε δύο διαμορφώσεις συμπλέγματος, καθεμία με σταθερό μέγεθος 16 περιπτώσεων και ικανή να εκπαιδεύσει το BERT Large από την αρχή (450 εκατομμύρια ακολουθίες υποβλήθηκαν σε επεξεργασία) σε λιγότερο από μία ημέρα. Το πρώτο χρησιμοποιεί παραδοσιακές επιταχυνόμενες περιπτώσεις EC2. Η δεύτερη ρύθμιση χρησιμοποιεί Περιπτώσεις Amazon EC2 Trn1 με το AWS Trainium. Και πάλι, συγκρίνουμε και τις δύο διαμορφώσεις όσον αφορά την απόδοση της εκπαίδευσης, το κόστος και τις περιβαλλοντικές επιπτώσεις (ενεργειακή απόδοση). Τα αποτελέσματα φαίνονται στο παρακάτω σχήμα.

Μειώστε την κατανάλωση ενέργειας του φόρτου εργασίας μηχανικής εκμάθησης έως και 90% με ειδικά κατασκευασμένους επιταχυντές AWS | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αποτελέσματα απόδοσης, κόστους και ενεργειακής απόδοσης σημείων αναφοράς κατάρτισης

Στα πειράματα, τα στιγμιότυπα που βασίζονται στο AWS Trainium ξεπέρασαν τις συγκρίσιμες επιταχυνόμενες περιπτώσεις EC2 βελτιστοποιημένης εκπαίδευσης κατά συντελεστή 1.7 όσον αφορά τις ακολουθίες που υποβλήθηκαν σε επεξεργασία ανά ώρα, μειώνοντας τον συνολικό χρόνο εκπαίδευσης κατά 43% (2.3 ώρες έναντι 4 ωρών σε συγκρίσιμες επιταχυνόμενες περιπτώσεις EC2) . Ως αποτέλεσμα, όταν χρησιμοποιείτε ένα σύμπλεγμα παρουσιών που βασίζεται στο Trainium, η συνολική κατανάλωση ενέργειας για την προπόνηση BERT Large από την αρχή είναι περίπου 29% χαμηλότερη σε σύγκριση με ένα σύμπλεγμα ίδιου μεγέθους με συγκρίσιμες επιταχυνόμενες παρουσίες EC2. Και πάλι, αυτά τα οφέλη απόδοσης και ενεργειακής απόδοσης συνοδεύονται επίσης από σημαντικές βελτιώσεις κόστους: το κόστος εκπαίδευσης για τον φόρτο εργασίας BERT ML είναι περίπου 62% χαμηλότερο στις περιπτώσεις Trainium (787 USD έναντι 2091 USD ανά πλήρη εκπαίδευση).

Ξεκινώντας με τους ειδικούς επιταχυντές AWS για ML

Αν και τα πειράματα που διεξάγονται εδώ χρησιμοποιούν όλα τυπικά μοντέλα από τον τομέα επεξεργασίας φυσικής γλώσσας (NLP), το AWS Inferentia και το AWS Trainium υπερέχουν με πολλές άλλες σύνθετες αρχιτεκτονικές μοντέλων, συμπεριλαμβανομένων των LLM και των πιο απαιτητικών γενετική AI αρχιτεκτονικές που δημιουργούν οι χρήστες (όπως το GPT-3). Αυτοί οι επιταχυντές τα πάνε ιδιαίτερα καλά με μοντέλα με περισσότερες από 10 δισεκατομμύρια παραμέτρους ή μοντέλα υπολογιστικής όρασης όπως η σταθερή διάχυση (βλ. Model Architecture Fit Guidelines Για περισσότερες πληροφορίες). Πράγματι, πολλοί από τους πελάτες μας χρησιμοποιούν ήδη το Inferentia και το Trainium για μια μεγάλη ποικιλία περιπτώσεις χρήσης ML.

Για να εκτελέσετε τους φόρτους εργασίας βαθιάς εκμάθησης από άκρο σε άκρο σε περιπτώσεις που βασίζονται σε AWS Inferentia και AWS Trainium, μπορείτε να χρησιμοποιήσετε AWS Neuron. Το Neuron είναι ένα κιτ ανάπτυξης λογισμικού από άκρο σε άκρο (SDK) που περιλαμβάνει έναν μεταγλωττιστή βαθιάς εκμάθησης, χρόνο εκτέλεσης και εργαλεία που είναι εγγενώς ενσωματωμένα στα πιο δημοφιλή πλαίσια ML όπως το TensorFlow και το PyTorch. Μπορείτε να χρησιμοποιήσετε το Neuron SDK για να μεταφέρετε εύκολα τους υπάρχοντες φόρτους εργασίας ML βαθιάς εκμάθησης TensorFlow ή PyTorch σε Inferentia και Trainium και να αρχίσετε να δημιουργείτε νέα μοντέλα χρησιμοποιώντας τα ίδια γνωστά πλαίσια ML. Για ευκολότερη ρύθμιση, χρησιμοποιήστε ένα από τα δικά μας Amazon Machine Images (AMI) για βαθιά μάθηση, τα οποία συνοδεύονται από πολλά από τα απαιτούμενα πακέτα και εξαρτήσεις. Ακόμα πιο απλό: μπορείτε να χρησιμοποιήσετε το Amazon SageMaker Studio, το οποίο υποστηρίζει εγγενώς το TensorFlow και το PyTorch σε Inferentia και Trainium (βλ. aws-samples αποθετήριο GitHub για παράδειγμα).

Μια τελευταία σημείωση: ενώ το Inferentia και το Trainium έχουν κατασκευαστεί για φόρτους εργασίας βαθιάς μάθησης, πολλοί λιγότερο σύνθετοι αλγόριθμοι ML μπορούν να έχουν καλή απόδοση σε στιγμιότυπα που βασίζονται σε CPU (για παράδειγμα, XGBoost και LightGBM και ακόμη μερικά CNN). Σε αυτές τις περιπτώσεις, μια μετανάστευση σε AWS Graviton3 μπορεί να μειώσει σημαντικά τον περιβαλλοντικό αντίκτυπο του φόρτου εργασίας ML σας. Οι παρουσίες που βασίζονται στο AWS Graviton χρησιμοποιούν έως και 60% λιγότερη ενέργεια για την ίδια απόδοση από συγκρίσιμες επιταχυνόμενες περιπτώσεις EC2.

Συμπέρασμα

Υπάρχει μια κοινή παρανόηση ότι η εκτέλεση φόρτου εργασίας ML με βιώσιμο και ενεργειακά αποδοτικό τρόπο σημαίνει θυσία στην απόδοση ή το κόστος. Με τους ειδικά κατασκευασμένους επιταχυντές AWS για μηχανική μάθηση, οι μηχανικοί ML δεν χρειάζεται να κάνουν αυτόν τον συμβιβασμό. Αντίθετα, μπορούν να εκτελέσουν τον φόρτο εργασίας βαθιάς μάθησης σε εξαιρετικά εξειδικευμένο υλικό βαθιάς μάθησης, όπως το AWS Inferentia και το AWS Trainium, που ξεπερνά σημαντικά τους συγκρίσιμους τύπους επείγουσας παρουσίας EC2, παρέχοντας χαμηλότερο κόστος, υψηλότερη απόδοση και καλύτερη ενεργειακή απόδοση—μέχρι 90%—όλα την ίδια στιγμή. Για να ξεκινήσετε να εκτελείτε τους φόρτους εργασίας ML σε Inferentia και Trainium, ρίξτε μια ματιά στο Τεκμηρίωση AWS Neuron ή περιστρέψτε ένα από τα δείγματα τετραδίων. Μπορείτε επίσης να παρακολουθήσετε την ομιλία του AWS re:Invent 2022 Βιωσιμότητα και πυρίτιο AWS (SUS206), το οποίο καλύπτει πολλά από τα θέματα που συζητούνται σε αυτήν την ανάρτηση.


Σχετικά με τους Συγγραφείς

Μειώστε την κατανάλωση ενέργειας του φόρτου εργασίας μηχανικής εκμάθησης έως και 90% με ειδικά κατασκευασμένους επιταχυντές AWS | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Κάρστεν Σρόερ είναι αρχιτέκτονας λύσεων στην AWS. Υποστηρίζει τους πελάτες στη μόχλευση δεδομένων και τεχνολογίας για την προώθηση της βιωσιμότητας της υποδομής πληροφορικής τους και τη δημιουργία λύσεων που βασίζονται σε δεδομένα που επιτρέπουν βιώσιμες λειτουργίες στους αντίστοιχους κλάδους τους. Ο Karsten εντάχθηκε στην AWS μετά τις διδακτορικές του σπουδές στην εφαρμοσμένη μηχανική μάθηση και διαχείριση λειτουργιών. Είναι πραγματικά παθιασμένος με τις λύσεις που υποστηρίζουν την τεχνολογία για τις κοινωνικές προκλήσεις και του αρέσει να βουτάει βαθιά στις μεθόδους και τις αρχιτεκτονικές εφαρμογών που αποτελούν τη βάση αυτών των λύσεων.

Μειώστε την κατανάλωση ενέργειας του φόρτου εργασίας μηχανικής εκμάθησης έως και 90% με ειδικά κατασκευασμένους επιταχυντές AWS | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Kamran Khan είναι Τεχνικός Διευθυντής Προϊόντων Sr. στην AWS Annapurna Labs. Συνεργάζεται στενά με πελάτες AI/ML για να διαμορφώσει τον οδικό χάρτη για καινοτομίες πυριτίου που έχουν δημιουργηθεί ειδικά για το AWS που προέρχονται από τα εργαστήρια Annapurna της Amazon. Η ιδιαίτερη εστίασή του είναι σε τσιπ επιταχυνόμενης βαθιάς μάθησης, συμπεριλαμβανομένων των AWS Trainium και AWS Inferentia. Ο Kamran έχει 18 χρόνια εμπειρίας στη βιομηχανία ημιαγωγών. Ο Kamran έχει πάνω από μια δεκαετία εμπειρίας βοηθώντας τους προγραμματιστές να επιτύχουν τους στόχους τους ML.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS