Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference Server στο Amazon SageMaker

Οι εφαρμογές μηχανικής μάθησης (ML) είναι πολύπλοκες στην ανάπτυξη και συχνά απαιτούν πολλά μοντέλα ML για την εξυπηρέτηση ενός μόνο αιτήματος συμπερασμάτων. Ένα τυπικό αίτημα μπορεί να ρέει σε πολλά μοντέλα με βήματα όπως προεπεξεργασία, μετασχηματισμοί δεδομένων, λογική επιλογής μοντέλου, συνάθροιση μοντέλων και μεταεπεξεργασία. Αυτό οδήγησε στην εξέλιξη κοινών μοτίβων σχεδίασης, όπως σειριακές αγωγές συμπερασμάτων, σύνολα (συσσώρευση διασποράς) και ροές εργασιών επιχειρηματικής λογικής, με αποτέλεσμα την υλοποίηση ολόκληρης της ροής εργασίας του αιτήματος ως Κατευθυνόμενο Ακυκλικό Γράφημα (DAG). Ωστόσο, καθώς οι ροές εργασίας γίνονται πιο περίπλοκες, αυτό οδηγεί σε αύξηση των συνολικών χρόνων απόκρισης ή καθυστέρησης αυτών των εφαρμογών, γεγονός που με τη σειρά του επηρεάζει τη συνολική εμπειρία χρήστη. Επιπλέον, εάν αυτά τα στοιχεία φιλοξενούνται σε διαφορετικές παρουσίες, η πρόσθετη καθυστέρηση δικτύου μεταξύ αυτών των παρουσιών αυξάνει τη συνολική καθυστέρηση. Εξετάστε ένα παράδειγμα μιας δημοφιλής περίπτωσης χρήσης ML για έναν εικονικό βοηθό στην υποστήριξη πελατών. Ένα τυπικό αίτημα μπορεί να πρέπει να περάσει από πολλά βήματα που περιλαμβάνουν αναγνώριση ομιλίας, επεξεργασία φυσικής γλώσσας (NLP), παρακολούθηση κατάστασης διαλόγου, πολιτική διαλόγου, δημιουργία κειμένου και, τέλος, κείμενο σε ομιλία. Επιπλέον, για να κάνετε την αλληλεπίδραση με τον χρήστη πιο εξατομικευμένη, μπορείτε επίσης να χρησιμοποιήσετε τελευταίας τεχνολογίας μοντέλα NLP που βασίζονται σε μετασχηματιστές, όπως διαφορετικές εκδόσεις ΜΠΕΡΤ, BART, να GPT. Το τελικό αποτέλεσμα είναι μεγάλοι χρόνοι απόκρισης για αυτά τα σύνολα μοντέλων και κακή εμπειρία πελάτη.

Ένα κοινό μοτίβο για την επίτευξη χαμηλότερων χρόνων απόκρισης χωρίς να διακυβεύεται η συνολική απόδοση είναι να φιλοξενούνται αυτά τα μοντέλα στην ίδια παρουσία μαζί με την ελαφριά επιχειρηματική λογική που είναι ενσωματωμένη σε αυτό. Αυτά τα μοντέλα μπορούν περαιτέρω να ενθυλακωθούν σε μεμονωμένα ή πολλαπλά δοχεία στο ίδιο στιγμιότυπο προκειμένου να παρέχουν απομόνωση για διεργασίες που εκτελούνται και να διατηρούν χαμηλά την καθυστέρηση. Επιπλέον, η συνολική καθυστέρηση εξαρτάται επίσης από τη λογική της εφαρμογής συμπερασμάτων, τις βελτιστοποιήσεις μοντέλων, την υποκείμενη υποδομή (συμπεριλαμβανομένου υπολογισμού, αποθήκευσης και δικτύωσης) και τον υποκείμενο διακομιστή ιστού που λαμβάνει αιτήματα συμπερασμάτων. NVIDIA Triton Inference Server είναι ένα λογισμικό παροχής συμπερασμάτων ανοιχτού κώδικα με δυνατότητες μεγιστοποίησης της απόδοσης και της χρήσης υλικού με εξαιρετικά χαμηλό (μονοψήφιο χιλιοστά του δευτερολέπτου) καθυστέρηση συμπερασμάτων. Διαθέτει ευρεία υποστήριξη πλαισίων ML (συμπεριλαμβανομένων των TensorFlow, PyTorch, ONNX, XGBoost και NVIDIA TensorRT) και υποδομών υποστήριξης, συμπεριλαμβανομένων των GPU, CPU και Αίσθηση AWS. Επιπλέον, ο Triton Inference Server είναι ενσωματωμένος Amazon Sage Maker, μια πλήρως διαχειριζόμενη υπηρεσία ML από άκρο σε άκρο, η οποία παρέχει επιλογές συμπερασμάτων σε πραγματικό χρόνο, όπως ενιαίας και πολυμοντέλο φιλοξενία. Αυτές οι επιλογές συμπερασμάτων περιλαμβάνουν τη φιλοξενία πολλαπλών μοντέλων στο ίδιο κοντέινερ πίσω από ένα ενιαίο τελικό σημείο, και φιλοξενία πολλαπλά μοντέλα με πολλαπλά δοχεία πίσω από ένα μόνο τελικό σημείο.

Τον Νοέμβριο του 2021, ανακοινώσαμε την ενσωμάτωση του Triton Inference Server στο SageMaker. Το AWS συνεργάστηκε στενά με τη NVIDIA για να σας επιτρέψει να αξιοποιήσετε το καλύτερο και των δύο κόσμων και να διευκολύνετε την ανάπτυξη του μοντέλου με το Triton στο AWS.

Σε αυτήν την ανάρτηση, εξετάζουμε τις βέλτιστες πρακτικές για την ανάπτυξη μοντέλων μετασχηματιστών σε κλίμακα σε GPU χρησιμοποιώντας Triton Inference Server στο SageMaker. Αρχικά, ξεκινάμε με μια σύνοψη βασικών εννοιών σχετικά με τον λανθάνοντα χρόνο στο SageMaker και μια επισκόπηση των οδηγιών ρύθμισης απόδοσης. Στη συνέχεια, παρέχουμε μια επισκόπηση του Triton και των δυνατοτήτων του, καθώς και παράδειγμα κώδικα για ανάπτυξη στο SageMaker. Τέλος, πραγματοποιούμε δοκιμές φορτίου χρησιμοποιώντας SageMaker Inference Recommender και συνοψίστε τις γνώσεις και τα συμπεράσματα από τη δοκιμή φορτίου ενός δημοφιλούς μοντέλου μετασχηματιστή που παρέχεται από το Hugging Face.

Μπορείτε να αναθεωρήσετε το σημειωματάριο χρησιμοποιούσαμε για την ανάπτυξη μοντέλων και την εκτέλεση δοκιμών φόρτωσης μόνοι σας χρησιμοποιώντας τον κωδικό στο GitHub.

Ρύθμιση απόδοσης και βελτιστοποίηση για προβολή μοντέλων στο SageMaker

Ο συντονισμός και η βελτιστοποίηση απόδοσης είναι μια εμπειρική διαδικασία που συχνά περιλαμβάνει πολλαπλές επαναλήψεις. Ο αριθμός των παραμέτρων για συντονισμό είναι συνδυαστικός και το σύνολο των τιμών των παραμέτρων διαμόρφωσης δεν είναι ανεξάρτητο το ένα από το άλλο. Διάφοροι παράγοντες επηρεάζουν τον βέλτιστο συντονισμό παραμέτρων, όπως το μέγεθος ωφέλιμου φορτίου, ο τύπος και ο αριθμός των μοντέλων ML στο γράφημα ροής αιτήματος συμπερασμάτων, ο τύπος αποθήκευσης, ο τύπος υπολογιστικού στιγμιότυπου, η υποδομή δικτύου, ο κώδικας εφαρμογής, ο χρόνος εκτέλεσης και η διαμόρφωση λογισμικού που εξυπηρετεί συμπεράσματα και άλλα.

Εάν χρησιμοποιείτε το SageMaker για την ανάπτυξη μοντέλων ML, πρέπει να επιλέξετε μια υπολογιστική παρουσία με την καλύτερη απόδοση τιμής, η οποία είναι μια περίπλοκη και επαναληπτική διαδικασία που μπορεί να διαρκέσει εβδομάδες πειραματισμού. Αρχικά, πρέπει να επιλέξετε τον σωστό τύπο παρουσίας ML από περισσότερες από 70 επιλογές με βάση τις απαιτήσεις πόρων των μοντέλων σας και το μέγεθος των δεδομένων εισόδου. Στη συνέχεια, πρέπει να βελτιστοποιήσετε το μοντέλο για τον επιλεγμένο τύπο παρουσίας. Τέλος, πρέπει να παρέχετε και να διαχειριστείτε την υποδομή για να εκτελέσετε δοκιμές φόρτωσης και να ρυθμίσετε τη διαμόρφωση του cloud για βέλτιστη απόδοση και κόστος. Όλα αυτά μπορεί να καθυστερήσουν την ανάπτυξη του μοντέλου και τον χρόνο για την αγορά. Επιπλέον, πρέπει να αξιολογήσετε τις αντισταθμίσεις μεταξύ καθυστέρησης, απόδοσης και κόστους για να επιλέξετε τη βέλτιστη διαμόρφωση ανάπτυξης. SageMaker Inference Recommender επιλέγει αυτόματα τον σωστό τύπο υπολογιστικού στιγμιότυπου, πλήθος παρουσιών, παραμέτρους κοντέινερ και βελτιστοποιήσεις μοντέλων για συμπέρασμα για τη μεγιστοποίηση της απόδοσης, τη μείωση της καθυστέρησης και την ελαχιστοποίηση του κόστους.

Συμπεράσματα και καθυστέρηση σε πραγματικό χρόνο στο SageMaker

Συμπεράσματα SageMaker σε πραγματικό χρόνο είναι ιδανικό για φόρτους εργασίας εξαγωγής συμπερασμάτων όπου έχετε απαιτήσεις σε πραγματικό χρόνο, διαδραστικές και χαμηλής καθυστέρησης. Υπάρχουν τέσσερις πιο συχνά χρησιμοποιούμενες μετρήσεις για την παρακολούθηση του λανθάνοντος χρόνου αιτήματος συμπερασμάτων για τα τελικά σημεία συμπερασμάτων SageMaker

  • Καθυστέρηση κοντέινερ – Ο χρόνος που χρειάζεται για την αποστολή του αιτήματος, την ανάκτηση της απάντησης από το κοντέινερ του μοντέλου και το πλήρες συμπέρασμα στο κοντέινερ. Αυτή η μέτρηση είναι διαθέσιμη στο Amazon CloudWatch ως μέρος του Μετρήσεις επίκλησης δημοσιεύτηκε από το SageMaker.
  • Καθυστέρηση μοντέλου – Ο συνολικός χρόνος που απαιτείται από όλα τα δοχεία SageMaker σε ένα αγωγός συμπερασμάτων. Αυτή η μέτρηση είναι διαθέσιμη στο Amazon CloudWatch ως μέρος του Μετρήσεις επίκλησης δημοσιεύτηκε από το SageMaker.
  • Καθυστερημένη καθυστέρηση – Μετράται από τη στιγμή που το SageMaker λαμβάνει το αίτημα μέχρι να επιστρέψει μια απάντηση στον πελάτη, μείον την καθυστέρηση του μοντέλου. Αυτή η μέτρηση είναι διαθέσιμη στο Amazon CloudWatch ως μέρος του Μετρήσεις επίκλησης δημοσιεύτηκε από το SageMaker.
  • Καθυστερημένος χρόνος από άκρο σε άκρο – Μετράται από τη στιγμή που ο πελάτης στέλνει το αίτημα συμπερασμάτων μέχρι να λάβει μια απάντηση. Οι πελάτες μπορούν να το δημοσιεύσουν ως προσαρμοσμένη μέτρηση στο Amazon CloudWatch.

Το παρακάτω διάγραμμα απεικονίζει αυτά τα εξαρτήματα.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η καθυστέρηση του κοντέινερ εξαρτάται από διάφορους παράγοντες. τα ακόλουθα είναι από τα πιο σημαντικά:

  • Υποκείμενο πρωτόκολλο (HTTP(s)/gRPC) που χρησιμοποιείται για την επικοινωνία με τον διακομιστή συμπερασμάτων
  • Γενικά έξοδα που σχετίζονται με τη δημιουργία νέων συνδέσεων TLS
  • Χρόνος αποσειριοποίησης του ωφέλιμου φορτίου αιτήματος/απόκρισης
  • Ζητήστε δυνατότητες ουράς και παρτίδας που παρέχονται από τον υποκείμενο διακομιστή συμπερασμάτων
  • Ζητήστε δυνατότητες προγραμματισμού που παρέχονται από τον υποκείμενο διακομιστή συμπερασμάτων
  • Υποκείμενη απόδοση χρόνου εκτέλεσης του διακομιστή συμπερασμάτων
  • Απόδοση βιβλιοθηκών προεπεξεργασίας και μεταεπεξεργασίας πριν από την κλήση της συνάρτησης πρόβλεψης μοντέλου
  • Υποκείμενες επιδόσεις backend πλαισίου ML
  • Βελτιστοποιήσεις για συγκεκριμένο μοντέλο και για υλικό

Σε αυτήν την ανάρτηση, εστιάζουμε κυρίως στη βελτιστοποίηση της καθυστέρησης του κοντέινερ μαζί με τη συνολική απόδοση και το κόστος. Συγκεκριμένα, εξερευνούμε τη ρύθμιση απόδοσης του Triton Inference Server που εκτελείται μέσα σε ένα κοντέινερ SageMaker.

Χρησιμοποιήστε επισκόπηση περίπτωσης

Η ανάπτυξη και η κλιμάκωση μοντέλων NLP σε μια εγκατάσταση παραγωγής μπορεί να είναι αρκετά δύσκολη. Τα μοντέλα NLP είναι συχνά πολύ μεγάλα σε μέγεθος, περιέχουν εκατομμύρια παραμέτρους μοντέλων. Απαιτούνται βέλτιστες διαμορφώσεις μοντέλων για την ικανοποίηση των αυστηρών απαιτήσεων απόδοσης και επεκτασιμότητας των εφαρμογών NLP ποιότητας παραγωγής.

Σε αυτήν την ανάρτηση, συγκρίνουμε μια περίπτωση χρήσης NLP χρησιμοποιώντας ένα τελικό σημείο SageMaker σε πραγματικό χρόνο που βασίζεται σε ένα κοντέινερ διακομιστή Triton Inference και προτείνουμε βελτιστοποιήσεις συντονισμού απόδοσης για την περίπτωση χρήσης ML. Χρησιμοποιούμε ένα μεγάλο, προεκπαιδευμένο πρόσωπο αγκαλιάς με μετασχηματιστή BERT μεγάλο χωρίς περίβλημα μοντέλο, το οποίο έχει περίπου 336 εκατομμύρια παραμέτρους μοντέλου. Η πρόταση εισόδου που χρησιμοποιείται για το μοντέλο δυαδικής ταξινόμησης συμπληρώνεται και περικόπτεται σε μέγιστο μήκος ακολουθίας εισόδου 512 διακριτικών. Η δοκιμή φορτίου συμπερασμάτων προσομοιώνει 500 επικλήσεις ανά δευτερόλεπτο (30,000 μέγιστες επικλήσεις ανά λεπτό) και ModelLatency λιγότερο από 0.5 δευτερόλεπτα (500 χιλιοστά του δευτερολέπτου).

Ο παρακάτω πίνακας συνοψίζει τη διαμόρφωση του σημείου αναφοράς μας.

Όνομα μοντέλου Αγκαλιάζοντας το πρόσωπο bert-large-uncased
Μέγεθος μοντέλου 1.25 GB
Απαίτηση καθυστέρησης 0.5 δευτερόλεπτα (500 χιλιοστά του δευτερολέπτου)
Επικλήσεις ανά δευτερόλεπτο 500 αιτήματα (30,000 ανά λεπτό)
Μήκος ακολουθίας εισόδου 512 μάρκες
Εργασία ML Δυαδική ταξινόμηση

NVIDIA Triton Inference Server

Ο Triton Inference Server έχει σχεδιαστεί ειδικά για να επιτρέπει την επεκτάσιμη, γρήγορη και εύκολη ανάπτυξη μοντέλων στην παραγωγή. Το Triton υποστηρίζει μια ποικιλία σημαντικών πλαισίων AI, συμπεριλαμβανομένων των TensorFlow, TensorRT, PyTorch, XGBoost και ONNX. Με το προσαρμοσμένο backend Python και C++, μπορείτε επίσης να εφαρμόσετε τον φόρτο εργασίας εξαγωγής συμπερασμάτων για πιο προσαρμοσμένες περιπτώσεις χρήσης.

Το πιο σημαντικό, το Triton παρέχει μια απλή ρύθμιση που βασίζεται στη διαμόρφωση για να φιλοξενήσει τα μοντέλα σας, η οποία εκθέτει ένα πλούσιο σύνολο λειτουργιών βελτιστοποίησης απόδοσης που μπορείτε να χρησιμοποιήσετε με λίγη προσπάθεια κωδικοποίησης.

Το Triton αυξάνει την απόδοση συμπερασμάτων μεγιστοποιώντας τη χρήση του υλικού με διαφορετικές τεχνικές βελτιστοποίησης (η ταυτόχρονη εκτέλεση μοντέλων και η δυναμική παρτίδα είναι οι πιο συχνά χρησιμοποιούμενες). Η εύρεση των βέλτιστων διαμορφώσεων μοντέλων από διάφορους συνδυασμούς δυναμικών μεγεθών παρτίδας και του αριθμού των ταυτόχρονων παρουσιών μοντέλων είναι το κλειδί για την επίτευξη συμπερασμάτων σε πραγματικό χρόνο σε υπηρεσίες χαμηλού κόστους χρησιμοποιώντας το Triton.

Δυναμική παρτίδα

Πολλοί επαγγελματίες τείνουν να εκτελούν τα συμπεράσματα διαδοχικά όταν ο διακομιστής καλείται με πολλαπλά ανεξάρτητα αιτήματα. Αν και είναι πιο εύκολο να ρυθμίσετε, συνήθως δεν είναι η καλύτερη πρακτική να χρησιμοποιήσετε την υπολογιστική ισχύ της GPU. Για να αντιμετωπιστεί αυτό, το Triton προσφέρει τις ενσωματωμένες βελτιστοποιήσεις του δυναμική παρτίδα για να συνδυάσετε αυτές τις ανεξάρτητες αιτήσεις συμπερασμάτων στην πλευρά του διακομιστή για να σχηματίσετε μια μεγαλύτερη παρτίδα δυναμικά για να αυξήσετε την απόδοση. Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική χρόνου εκτέλεσης Triton.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Στην προηγούμενη αρχιτεκτονική, όλα τα αιτήματα φτάνουν πρώτα στη δυναμική παρτίδα πριν εισέλθουν στις ουρές του πραγματικού προγραμματιστή μοντέλων για να περιμένουν το συμπέρασμα. Μπορείτε να ορίσετε τα μεγέθη παρτίδων που προτιμάτε για δυναμική παρτίδα χρησιμοποιώντας το προτιμώμενο_μέγεθος_παρτίδας ρυθμίσεις στη διαμόρφωση του μοντέλου. (Σημειώστε ότι το μέγεθος της παρτίδας που σχηματίζεται πρέπει να είναι μικρότερο από το μέγιστο_μέγεθος_παρτίδας το μοντέλο υποστηρίζει.) Μπορείτε επίσης να διαμορφώσετε max_queue_delay_microseconds για να καθορίσετε τον μέγιστο χρόνο καθυστέρησης στη δέσμη για να περιμένετε άλλα αιτήματα να ενταχθούν στην παρτίδα με βάση τις απαιτήσεις λανθάνοντος χρόνου.

Το παρακάτω απόσπασμα κώδικα δείχνει πώς μπορείτε να προσθέσετε αυτήν τη δυνατότητα με αρχεία διαμόρφωσης μοντέλου για να ορίσετε τη δυναμική παρτίδα με προτιμώμενο μέγεθος παρτίδας 16 για το πραγματικό συμπέρασμα. Με τις τρέχουσες ρυθμίσεις, το στιγμιότυπο μοντέλου καλείται αμέσως όταν πληρούται το προτιμώμενο μέγεθος παρτίδας των 16 ή έχει παρέλθει ο χρόνος καθυστέρησης των 100 μικροδευτερόλεπτων από τότε που το πρώτο αίτημα έφτασε στη δυναμική παρτίδα.

dynamic_batching { preferred_batch_size: 16 max_queue_delay_microseconds: 100 }

Μοντέλα που τρέχουν ταυτόχρονα

Μια άλλη ουσιαστική βελτιστοποίηση που προσφέρεται στο Triton για τη μεγιστοποίηση της χρήσης υλικού χωρίς πρόσθετο κόστος καθυστέρησης είναι ταυτόχρονη εκτέλεση του μοντέλου, το οποίο επιτρέπει την παράλληλη εκτέλεση πολλαπλών μοντέλων ή πολλαπλών αντιγράφων του ίδιου μοντέλου. Αυτή η δυνατότητα επιτρέπει στο Triton να χειρίζεται πολλαπλά αιτήματα συμπερασμάτων ταυτόχρονα, γεγονός που αυξάνει τη διεκπεραίωση συμπερασμάτων χρησιμοποιώντας κατά τα άλλα αδρανή υπολογιστική ισχύ στο υλικό.

Το παρακάτω σχήμα δείχνει πώς μπορείτε εύκολα να διαμορφώσετε διαφορετικές πολιτικές ανάπτυξης μοντέλων με λίγες μόνο γραμμές αλλαγών κώδικα. Για παράδειγμα, η διαμόρφωση Α (αριστερά) δείχνει ότι μπορείτε να μεταδώσετε την ίδια διαμόρφωση δύο παρουσιών μοντέλων bert-large-uncased σε όλες τις διαθέσιμες GPU. Αντίθετα, η διαμόρφωση Β (μέση) εμφανίζει διαφορετική διαμόρφωση μόνο για την GPU 0, χωρίς να αλλάζει τις πολιτικές στις άλλες GPU. Μπορείτε επίσης να αναπτύξετε στιγμιότυπα διαφορετικών μοντέλων σε μία μόνο GPU, όπως φαίνεται στη διαμόρφωση C (δεξιά).

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Στη διαμόρφωση C, το παράδειγμα υπολογισμού μπορεί να χειριστεί δύο ταυτόχρονες αιτήσεις για το μοντέλο DistilGPT-2 και επτά ταυτόχρονες αιτήσεις για το bert-large-uncased μοντέλο παράλληλα. Με αυτές τις βελτιστοποιήσεις, οι πόροι υλικού μπορούν να χρησιμοποιηθούν καλύτερα για τη διαδικασία εξυπηρέτησης, βελτιώνοντας έτσι την απόδοση και παρέχοντας καλύτερη οικονομική απόδοση για τον φόρτο εργασίας σας.

TensorRT

NVIDIA TensorRT είναι ένα SDK για συμπεράσματα βαθιάς μάθησης υψηλής απόδοσης που λειτουργεί άψογα με το Triton. Το TensorRT, το οποίο υποστηρίζει κάθε σημαντικό πλαίσιο βαθιάς εκμάθησης, περιλαμβάνει βελτιστοποιητή συμπερασμάτων και χρόνο εκτέλεσης που παρέχει χαμηλή καθυστέρηση και υψηλή απόδοση για την εκτέλεση συμπερασμάτων με τεράστιο όγκο δεδομένων μέσω ισχυρών βελτιστοποιήσεων.

Το TensorRT βελτιστοποιεί το γράφημα για να ελαχιστοποιήσει το αποτύπωμα μνήμης ελευθερώνοντας την περιττή μνήμη και επαναχρησιμοποιώντας την αποτελεσματικά. Επιπλέον, η μεταγλώττιση TensorRT συγχωνεύει τις αραιές λειτουργίες μέσα στο γράφημα του μοντέλου για να σχηματίσει έναν μεγαλύτερο πυρήνα για να αποφύγει την επιβάρυνση πολλαπλών εκκινήσεων μικρών πυρήνων. Ο αυτόματος συντονισμός πυρήνα σάς βοηθά να χρησιμοποιήσετε πλήρως το υλικό επιλέγοντας τον καλύτερο αλγόριθμο στη GPU-στόχο σας. Οι ροές CUDA επιτρέπουν στα μοντέλα να εκτελούνται παράλληλα για να μεγιστοποιήσουν τη χρήση της GPU για βέλτιστη απόδοση. Τελευταίο αλλά εξίσου σημαντικό, η τεχνική κβαντοποίησης μπορεί να χρησιμοποιήσει πλήρως την επιτάχυνση μικτής ακρίβειας των πυρήνων Tensor για να εκτελέσει το μοντέλο σε FP32, TF32, FP16 και INT8 για να επιτύχει την καλύτερη απόδοση συμπερασμάτων.

Triton στη φιλοξενία SageMaker

Φιλοξενία SageMaker Οι υπηρεσίες είναι το σύνολο των λειτουργιών του SageMaker που στοχεύουν στη διευκόλυνση της ανάπτυξης και της εξυπηρέτησης του μοντέλου. Παρέχει μια ποικιλία επιλογών για εύκολη ανάπτυξη, αυτόματη κλίμακα, παρακολούθηση και βελτιστοποίηση μοντέλων ML προσαρμοσμένων για διαφορετικές περιπτώσεις χρήσης. Αυτό σημαίνει ότι μπορείτε να βελτιστοποιήσετε τις αναπτύξεις σας για όλους τους τύπους μοτίβων χρήσης, από τις επίμονες και πάντα διαθέσιμες με επιλογές χωρίς διακομιστή, έως τις παροδικές, μακροχρόνιες ή ομαδικές ανάγκες συμπερασμάτων.

Κάτω από την ομπρέλα φιλοξενίας του SageMaker βρίσκεται επίσης το σύνολο των SageMaker Inference Deep Learning Containers (DLC), τα οποία είναι προσυσκευασμένα με το κατάλληλο λογισμικό διακομιστή μοντέλου για το αντίστοιχο υποστηριζόμενο πλαίσιο ML. Αυτό σας δίνει τη δυνατότητα να επιτύχετε υψηλή απόδοση συμπερασμάτων χωρίς ρύθμιση διακομιστή μοντέλου, η οποία είναι συχνά η πιο περίπλοκη τεχνική πτυχή της ανάπτυξης του μοντέλου και γενικά, δεν αποτελεί μέρος του συνόλου δεξιοτήτων ενός επιστήμονα δεδομένων. Ο διακομιστής συμπερασμάτων Triton είναι τώρα διαθέσιμος σε SageMaker Deep Learning Containers (DLC).

Αυτό το εύρος επιλογών, η αρθρωτότητα και η ευκολία χρήσης διαφορετικών πλαισίων προβολής καθιστούν το SageMaker και το Triton ένα ισχυρό ταίριασμα.

SageMaker Inference Recommender για συγκριτική αξιολόγηση των αποτελεσμάτων δοκιμών

Χρησιμοποιούμε το SageMaker Inference Recommender για να εκτελέσουμε τα πειράματά μας. Το SageMaker Inference Recommender προσφέρει δύο τύπους εργασιών: προεπιλεγμένες και προηγμένες, όπως φαίνεται στο παρακάτω διάγραμμα.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Η προεπιλεγμένη εργασία παρέχει συστάσεις για τύπους παρουσιών με μόνο το μοντέλο και ένα δείγμα ωφέλιμου φορτίου για συγκριτική αξιολόγηση. Εκτός από τις προτάσεις για παράδειγμα, η υπηρεσία προσφέρει επίσης παραμέτρους χρόνου εκτέλεσης που βελτιώνουν την απόδοση. Οι προτάσεις της προεπιλεγμένης εργασίας έχουν σκοπό να περιορίσουν την αναζήτηση παρουσίας. Σε ορισμένες περιπτώσεις, θα μπορούσε να είναι η οικογένεια παρουσιών και σε άλλες, θα μπορούσε να είναι οι συγκεκριμένοι τύποι παρουσιών. Στη συνέχεια, τα αποτελέσματα της προεπιλεγμένης εργασίας τροφοδοτούνται στη σύνθετη εργασία.

Η προηγμένη εργασία προσφέρει περισσότερα χειριστήρια για περαιτέρω βελτιστοποίηση της απόδοσης. Αυτοί οι έλεγχοι προσομοιώνουν το πραγματικό περιβάλλον και τις απαιτήσεις παραγωγής. Μεταξύ αυτών των στοιχείων ελέγχου είναι το μοτίβο επισκεψιμότητας, το οποίο στοχεύει στη διαμόρφωση του μοτίβου αιτήματος για τα σημεία αναφοράς. Μπορείτε να ορίσετε ράμπες ή σταθερή κυκλοφορία χρησιμοποιώντας τις πολλαπλές φάσεις του μοτίβου κυκλοφορίας. Για παράδειγμα, ένα InitialNumberOfUsers του 1, Ποσοστό ωοτοκίας από 1, και Διάρκεια Σε δευτερόλεπτα των 600 μπορεί να οδηγήσει σε κίνηση ράμπας 10 λεπτών με 1 ταυτόχρονο χρήστη στην αρχή και 10 στο τέλος. Επιπλέον, στα χειριστήρια, MaxInvocations και ModelLatency Thresholds ορίστε το όριο παραγωγής, οπότε όταν ξεπεραστεί ένα από τα όρια, η συγκριτική αξιολόγηση σταματά.

Τέλος, μετρήσεις συστάσεων περιλαμβάνουν απόδοση, καθυστέρηση στη μέγιστη απόδοση και κόστος ανά συμπέρασμα, επομένως είναι εύκολο να τα συγκρίνετε.

Χρησιμοποιούμε τον προηγμένο τύπο εργασίας του SageMaker Inference Recommender για να εκτελέσουμε τα πειράματά μας για να αποκτήσουμε πρόσθετο έλεγχο στα μοτίβα κυκλοφορίας και να ρυθμίσουμε με ακρίβεια τη διαμόρφωση του κοντέινερ σερβιρίσματος.

Ρύθμιση πειράματος

Χρησιμοποιούμε τη δυνατότητα προσαρμοσμένης δοκιμής φόρτωσης του SageMaker Inference Recommender για τη συγκριτική αξιολόγηση του προφίλ NLP που περιγράφεται στην περίπτωση χρήσης μας. Αρχικά ορίζουμε τις ακόλουθες προϋποθέσεις που σχετίζονται με το μοντέλο NLP και την εργασία ML. Το SageMaker Inference Recommender χρησιμοποιεί αυτές τις πληροφορίες για να αντλήσει μια εικόνα Docker συμπερασμάτων από Μητρώο εμπορευματοκιβωτίων Amazon Elastic (Amazon ECR) και καταχωρήστε το μοντέλο στο μητρώο μοντέλων SageMaker.

Domain NATURAL_LANGUAGE_PROCESSING
Έργο FILL_MASK
Πλαίσιο PYTORCH: 1.6.0
Μοντέλο bert-large-uncased

Οι διαμορφώσεις μοτίβων κυκλοφορίας στο SageMaker Inference Recommender μας επιτρέπουν να ορίσουμε διαφορετικές φάσεις για τη δοκιμή προσαρμοσμένου φορτίου. Η δοκιμή φόρτωσης ξεκινά με δύο αρχικούς χρήστες και δημιουργεί δύο νέους χρήστες κάθε λεπτό, για συνολική διάρκεια 25 λεπτών (1500 δευτερόλεπτα), όπως φαίνεται στον ακόλουθο κώδικα:

"TrafficPattern": { "TrafficType": "PHASES", "Phases": [ { "InitialNumberOfUsers": 2, "SpawnRate": 2, "DurationInSeconds": 1500 }, ],
}

Πειραματιζόμαστε με τη δοκιμή φορτίου του ίδιου μοντέλου σε δύο διαφορετικές καταστάσεις. Τα πειράματα που βασίζονται στο PyTorch χρησιμοποιούν το τυπικό, αμετάβλητο μοντέλο PyTorch. Για τα πειράματα που βασίζονται στο TensorRT, μετατρέπουμε το μοντέλο PyTorch σε μηχανή TensorRT εκ των προτέρων.

Εφαρμόζουμε διαφορετικούς συνδυασμούς των χαρακτηριστικών βελτιστοποίησης απόδοσης σε αυτά τα δύο μοντέλα, που συνοψίζονται στον παρακάτω πίνακα.

Όνομα διαμόρφωσης Περιγραφή διαμόρφωσης Μοντέλο Διαμόρφωση
pt-base Βασική γραμμή PyTorch Βασικό μοντέλο PyTorch, χωρίς αλλαγές
pt-db PyTorch με δυναμική παρτίδα dynamic_batching
{}
pt-ig PyTorch με πολλαπλές παρουσίες μοντέλων instance_group [
    {
      count: 2
      kind: KIND_GPU
    }
  ]
pt-ig-db PyTorch με πολλαπλές παρουσίες μοντέλων και δυναμική παρτίδα dynamic_batching
{},
instance_group [
     {
          count: 2
          kind: KIND_GPU
     }
]
trt-base Γραμμή βάσης TensorRT Το μοντέλο PyTorch μεταγλωττίστηκε με το TensoRT trtexec χρησιμότητα
trt-db TensorRT με δυναμική παρτίδα dynamic_batching
{}
trt-ig TensorRT με πολλαπλές περιπτώσεις μοντέλων instance_group [
     {
          count: 2
          kind: KIND_GPU
     }
]
trt-ig-db TensorRT με πολλαπλές παρουσίες μοντέλων και δυναμική παρτίδα dynamic_batching
{},
instance_group [
     {
          count: 2
          kind: KIND_GPU
      }
]

Αποτελέσματα δοκιμών και παρατηρήσεις

Πραγματοποιήσαμε δοκιμές φορτίου για τρεις τύπους περιπτώσεων στην ίδια οικογένεια g4dn: ml.g4dn.xlarge, ml.g4dn.2xlarge και ml.g4dn.12xlarge. Όλοι οι τύποι παρουσίας g4dn έχουν πρόσβαση σε επεξεργαστές NVIDIA T4 Tensor Core και 2ης γενιάς επεξεργαστές Intel Cascade Lake. Η λογική πίσω από την επιλογή των τύπων παρουσιών ήταν να υπάρχει τόσο μια παρουσία με μόνο μία διαθέσιμη GPU, όσο και μια παρουσία με πρόσβαση σε πολλές GPU—τέσσερις στην περίπτωση ml.g4dn.12xlarge. Επιπλέον, θέλαμε να ελέγξουμε εάν η αύξηση της χωρητικότητας vCPU στην περίπτωση με μία μόνο διαθέσιμη GPU θα απέφερε βελτίωση της σχέσης κόστους-απόδοσης.

Ας δούμε πρώτα την επιτάχυνση της μεμονωμένης βελτιστοποίησης. Το παρακάτω γράφημα δείχνει ότι η βελτιστοποίηση TensorRT παρέχει 50% μείωση στην καθυστέρηση του μοντέλου σε σύγκριση με την εγγενή στο PyTorch στην περίπτωση ml.g4dn.xlarge. Αυτή η μείωση του λανθάνοντος χρόνου αυξάνεται σε πάνω από τρεις φορές στις παρουσίες πολλαπλών GPU του ml.g4dn.12xlarge. Εν τω μεταξύ, η βελτίωση της απόδοσης κατά 30% είναι συνεπής και στις δύο περιπτώσεις, με αποτέλεσμα καλύτερη σχέση κόστους-αποτελεσματικότητας μετά την εφαρμογή βελτιστοποιήσεων TensorRT.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Με τη δυναμική παρτίδα, μπορούμε να έχουμε σχεδόν 2 φορές βελτίωση στη διεκπεραίωση χρησιμοποιώντας την ίδια αρχιτεκτονική υλικού σε όλα τα παραδείγματα πειραμάτων ml.g4dn.xlarge, ml.g4dn.2xlarge και ml.g4dn.12xlarge χωρίς αξιοσημείωτη αύξηση του λανθάνοντος χρόνου.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ομοίως, η ταυτόχρονη εκτέλεση του μοντέλου μας δίνει τη δυνατότητα να επιτύχουμε περίπου 3-4 φορές βελτίωση στη διεκπεραίωση μεγιστοποιώντας τη χρήση της GPU στην παρουσία ml.g4dn.xlarge και περίπου 2 φορές τη βελτίωση τόσο στην παρουσία ml.g4dn.2xlarge όσο και στην παρουσία πολλαπλών GPU των ml. g4dn.12xlarge.. Αυτή η αύξηση της απόδοσης έρχεται χωρίς καμία επιβάρυνση στην καθυστέρηση.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ακόμα καλύτερα, μπορούμε να ενσωματώσουμε όλες αυτές τις βελτιστοποιήσεις για να παρέχουμε την καλύτερη απόδοση χρησιμοποιώντας στο έπακρο τους πόρους υλικού. Ο παρακάτω πίνακας και τα γραφήματα συνοψίζουν τα αποτελέσματα που λάβαμε στα πειράματά μας.

Όνομα διαμόρφωσης Βελτιστοποίηση μοντέλου

Δυναμικός

Δοσολογία

Διαμόρφωση ομάδας παρουσίας Τύπος παρουσίας vCPU GPU

Μνήμη GPU

(ΓΙΓΑΜΠΑΪΤ)

Αρχικός αριθμός περιπτώσεων[1] Επικλήσεις ανά λεπτό ανά Περίπτωση Μοντέλο καθυστέρησης Κόστος ανά ώρα[2]
pt-βάση NA Οχι NA ml.g4dn.xlarge 4 1 16 62 490 1500 45.6568
pt-db NA Ναι NA ml.g4dn.xlarge 4 1 16 57 529 1490 41.9748
pt-ig NA Οχι 2 ml.g4dn.xlarge 4 1 16 34 906 868 25.0376
pt-ig-db NA Ναι 2 ml.g4dn.xlarge 4 1 16 34 892 1158 25.0376
trt-βάση TensorRT Οχι NA ml.g4dn.xlarge 4 1 16 47 643 742 34.6108
trt-db TensorRT Ναι NA ml.g4dn.xlarge 4 1 16 28 1078 814 20.6192
trt-ig TensorRT Οχι 2 ml.g4dn.xlarge 4 1 16 14 2202 1273 10.3096
trt-db-ig TensorRT Ναι 2 ml.g4dn.xlarge 4 1 16 10 3192 783 7.364
pt-βάση NA Οχι NA ml.g4dn.2xlarge 8 1 32 56 544 1500 52.64
pt-db NA Ναι NA ml.g4dn.2xlarge 8 1 32 59 517 1500 55.46
pt-ig NA Οχι 2 ml.g4dn.2xlarge 8 1 32 29 1054 960 27.26
pt-ig-db NA Ναι 2 ml.g4dn.2xlarge 8 1 32 30 1017 992 28.2
trt-βάση TensorRT Οχι NA ml.g4dn.2xlarge 8 1 32 42 718 1494 39.48
trt-db TensorRT Ναι NA ml.g4dn.2xlarge 8 1 32 23 1335 499 21.62
trt-ig TensorRT Οχι 2 ml.g4dn.2xlarge 8 1 32 23 1363 1017 21.62
trt-db-ig TensorRT Ναι 2 ml.g4dn.2xlarge 8 1 32 22 1369 963 20.68
pt-βάση NA Οχι NA ml.g4dn.12xlarge 48 4 192 15 2138 906 73.35
pt-db NA Ναι NA ml.g4dn.12xlarge 48 4 192 15 2110 907 73.35
pt-ig NA Οχι 2 ml.g4dn.12xlarge 48 4 192 8 3862 651 39.12
pt-ig-db NA Ναι 2 ml.g4dn.12xlarge 48 4 192 8 3822 642 39.12
trt-βάση TensorRT Οχι NA ml.g4dn.12xlarge 48 4 192 11 2892 279 53.79
trt-db TensorRT Ναι NA ml.g4dn.12xlarge 48 4 192 6 5356 278 29.34
trt-ig TensorRT Οχι 2 ml.g4dn.12xlarge 48 4 192 6 5210 328 29.34
trt-db-ig TensorRT Ναι 2 ml.g4dn.12xlarge 48 4 192 6 5235 439 29.34
[1] Ο αρχικός αριθμός παρουσιών στον παραπάνω πίνακα είναι ο συνιστώμενος αριθμός παρουσιών για χρήση με μια πολιτική αυτόματης κλιμάκωσης για τη διατήρηση των απαιτήσεων απόδοσης και καθυστέρησης για το φόρτο εργασίας σας.
[2] Το κόστος ανά ώρα στον παραπάνω πίνακα υπολογίζεται με βάση τον αρχικό αριθμό παρουσιών και την τιμή για τον τύπο παρουσίας.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τα αποτελέσματα επικυρώνουν κυρίως τον αντίκτυπο που αναμενόταν από διαφορετικές λειτουργίες βελτιστοποίησης απόδοσης:

  • Η συλλογή TensorRT έχει τον πιο αξιόπιστο αντίκτυπο σε όλους τους τύπους παρουσιών. Οι συναλλαγές ανά λεπτό ανά περίπτωση αυξήθηκαν κατά 30–35%, με σταθερή μείωση κόστους περίπου 25% σε σύγκριση με την απόδοση του κινητήρα TensorRT με το προεπιλεγμένο PyTorch BERT (pt-base). Η αυξημένη απόδοση του κινητήρα TensorRT συνδυάζεται και αξιοποιείται από τα άλλα δοκιμασμένα χαρακτηριστικά ρύθμισης απόδοσης.
  • Η φόρτωση δύο μοντέλων σε κάθε GPU (ομάδα παρουσίας) σχεδόν διπλασίασε αυστηρά όλες τις μετρημένες μετρήσεις. Οι κλήσεις ανά λεπτό ανά παρουσία αυξήθηκαν περίπου 80–90%, με αποτέλεσμα μείωση του κόστους στο εύρος 50%, σχεδόν σαν να χρησιμοποιούσαμε δύο GPU. Στην πραγματικότητα, amazoncloudwatch Οι μετρήσεις για τα πειράματά μας στο g4dn.2xlarge (για παράδειγμα) επιβεβαιώνουν ότι η χρήση τόσο της CPU όσο και της GPU διπλασιάζεται όταν διαμορφώνουμε μια ομάδα παρουσίας δύο μοντέλων.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Περαιτέρω συμβουλές απόδοσης και βελτιστοποίησης κόστους

Το σημείο αναφοράς που παρουσιάζεται σε αυτήν την ανάρτηση απλώς γρατσούνισε την επιφάνεια των πιθανών χαρακτηριστικών και τεχνικών που μπορείτε να χρησιμοποιήσετε με το Triton για να βελτιώσετε την απόδοση συμπερασμάτων. Αυτά κυμαίνονται από τεχνικές προεπεξεργασίας δεδομένων, όπως η αποστολή δυαδικών ωφέλιμων φορτίων στον διακομιστή μοντέλου ή ωφέλιμων φορτίων με μεγαλύτερες παρτίδες, έως εγγενείς λειτουργίες Triton, όπως τα ακόλουθα:

  • Προθέρμανση μοντέλου, το οποίο αποτρέπει τις αρχικές, αργές αιτήσεις συμπερασμάτων αρχικοποιώντας πλήρως το μοντέλο πριν ληφθεί το πρώτο αίτημα συμπερασμάτων.
  • Προσωρινή μνήμη απόκρισης, το οποίο αποθηκεύει στην κρυφή μνήμη επαναλαμβανόμενα αιτήματα.
  • Μοντέλο συνόλου, το οποίο σας δίνει τη δυνατότητα να δημιουργήσετε μια διοχέτευση ενός ή περισσότερων μοντέλων και τη σύνδεση τανυστών εισόδου και εξόδου μεταξύ αυτών των μοντέλων. Αυτό ανοίγει τη δυνατότητα προσθήκης βημάτων προεπεξεργασίας και μεταεπεξεργασίας, ή ακόμα και συμπερασμάτων με άλλα μοντέλα, στη ροή επεξεργασίας για κάθε αίτημα.

Αναμένουμε να δοκιμάσουμε και να αξιολογήσουμε αυτές τις τεχνικές και χαρακτηριστικά σε μελλοντική ανάρτηση, οπότε μείνετε συντονισμένοι!

Συμπέρασμα

Σε αυτήν την ανάρτηση, εξερευνήσαμε μερικές παραμέτρους που μπορείτε να χρησιμοποιήσετε για να μεγιστοποιήσετε την απόδοση του τελικού σημείου σας σε πραγματικό χρόνο του SageMaker για την εξυπηρέτηση μοντέλων PyTorch BERT με το Triton Inference Server. Χρησιμοποιήσαμε το SageMaker Inference Recommender για να εκτελέσουμε τις δοκιμές συγκριτικής αξιολόγησης για να βελτιώσουμε αυτές τις παραμέτρους. Αυτές οι παράμετροι σχετίζονται ουσιαστικά με τη βελτιστοποίηση μοντέλων που βασίζεται στο TensorRT, οδηγώντας σε σχεδόν 50% βελτίωση στους χρόνους απόκρισης σε σύγκριση με τη μη βελτιστοποιημένη έκδοση. Επιπλέον, η ταυτόχρονη εκτέλεση μοντέλων και η χρήση δυναμικής παρτίδας Triton οδήγησαν σε σχεδόν 70% αύξηση της απόδοσης. Η ακριβής ρύθμιση αυτών των παραμέτρων οδήγησε σε συνολική μείωση του κόστους συμπερασμάτων επίσης.

Ο καλύτερος τρόπος για να εξαχθούν οι σωστές τιμές είναι μέσω πειραματισμού. Ωστόσο, για να ξεκινήσετε να χτίζετε εμπειρικές γνώσεις σχετικά με τον συντονισμό και τη βελτιστοποίηση απόδοσης, μπορείτε να παρατηρήσετε τους συνδυασμούς διαφορετικών παραμέτρων που σχετίζονται με το Triton και την επίδρασή τους στην απόδοση σε μοντέλα ML και παρουσίες SageMaker ML.

Το SageMaker παρέχει τα εργαλεία για την αφαίρεση της αδιαφοροποίητης ανύψωσης βαρέων βαρών από κάθε στάδιο του κύκλου ζωής ML, διευκολύνοντας έτσι τον γρήγορο πειραματισμό και την εξερεύνηση που απαιτούνται για την πλήρη βελτιστοποίηση των αναπτύξεων του μοντέλου σας.

Μπορείτε να βρείτε το σημειωματάριο που χρησιμοποιείται για τη δοκιμή φόρτωσης και την ανάπτυξη GitHub. Μπορείτε να ενημερώσετε τις διαμορφώσεις του Triton και τις ρυθμίσεις του SageMaker Inference Recommender για να ταιριάζουν καλύτερα στην περίπτωση χρήσης σας για να επιτύχετε οικονομικά αποδοτικούς φόρτους εργασίας συμπερασμάτων με την καλύτερη απόδοση.


Σχετικά με τους Συγγραφείς

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Vikram Elango είναι Αρχιτέκτονας Specialist Solutions AI/ML στην Amazon Web Services, με έδρα τη Βιρτζίνια των ΗΠΑ. Η Vikram βοηθά τους πελάτες του χρηματοοικονομικού και ασφαλιστικού κλάδου με σχεδιασμό, ηγετική σκέψη να δημιουργήσουν και να αναπτύξουν εφαρμογές μηχανικής εκμάθησης σε κλίμακα. Επί του παρόντος επικεντρώνεται στην επεξεργασία φυσικής γλώσσας, στην υπεύθυνη τεχνητή νοημοσύνη, στη βελτιστοποίηση συμπερασμάτων και στην κλιμάκωση της ML σε όλη την επιχείρηση. Στον ελεύθερο χρόνο του, του αρέσει να ταξιδεύει, να κάνει πεζοπορία, να μαγειρεύει και να κατασκηνώνει με την οικογένειά του.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τζοάο Μούρα είναι Αρχιτέκτονας Ειδικών Λύσεων AI/ML στο Amazon Web Services. Εστιάζει κυρίως σε περιπτώσεις χρήσης NLP και βοηθά τους πελάτες να βελτιστοποιήσουν την εκπαίδευση και την ανάπτυξη του μοντέλου Deep Learning. Είναι επίσης ενεργός υποστηρικτής των λύσεων ML χαμηλού κώδικα και του υλικού εξειδικευμένου για ML.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Μοχάν Γκάντι είναι Ανώτερος Μηχανικός Λογισμικού στην AWS. Είναι με την AWS τα τελευταία 9 χρόνια και έχει εργαστεί σε διάφορες υπηρεσίες AWS όπως EMR, EFA και RDS σε Outposts. Επί του παρόντος, επικεντρώνεται στη βελτίωση της εμπειρίας συμπερασμάτων SageMaker. Στον ελεύθερο χρόνο του, του αρέσει η πεζοπορία και οι μαραθώνιοι τρεξίματος.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Dhawal Patel είναι Κύριος Αρχιτέκτονας Μηχανικής Μάθησης στο AWS. Έχει συνεργαστεί με οργανισμούς που κυμαίνονται από μεγάλες επιχειρήσεις έως νεοφυείς επιχειρήσεις μεσαίου μεγέθους για προβλήματα που σχετίζονται με τους κατανεμημένους υπολογιστές και την Τεχνητή Νοημοσύνη. Εστιάζεται στη Deep Learning, συμπεριλαμβανομένων των τομέων NLP και Computer Vision. Βοηθά τους πελάτες να επιτύχουν συμπεράσματα μοντέλων υψηλής απόδοσης στο SageMaker.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Santosh Bhavani είναι ανώτερος τεχνικός υπεύθυνος προϊόντων με την ομάδα του Amazon SageMaker Elastic Inference. Επικεντρώνεται στο να βοηθά τους πελάτες του SageMaker να επιταχύνουν τα συμπεράσματα και την ανάπτυξη μοντέλων. Στον ελεύθερο χρόνο του, του αρέσει να ταξιδεύει, να παίζει τένις και να πίνει πολύ τσάι Pu'er.

Επιτύχετε απόδοση υπερκλίμακας για την εξυπηρέτηση μοντέλων χρησιμοποιώντας τον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Τζιαόνγκ Λιου είναι αρχιτέκτονας λύσεων στην ομάδα του Cloud Service Provider της NVIDIA. Βοηθά τους πελάτες στην υιοθέτηση λύσεων μηχανικής μάθησης και τεχνητής νοημοσύνης που αξιοποιούν την επιτάχυνση της NVIDIA για την αντιμετώπιση των προκλήσεων εκπαίδευσης και συμπερασμάτων τους. Στον ελεύθερο χρόνο του, του αρέσει το origami, τα DIY projects και το μπάσκετ.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS