Μοτίβα φιλοξενίας μοντέλων στο Amazon SageMaker, Μέρος 1: Κοινά μοτίβα σχεδίασης για τη δημιουργία εφαρμογών ML στο Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Οι εφαρμογές μηχανικής μάθησης (ML) είναι πολύπλοκες στην ανάπτυξη και συχνά απαιτούν την ικανότητα υπερκλιμάκωσης και έχουν εξαιρετικά χαμηλές απαιτήσεις καθυστέρησης και αυστηρούς προϋπολογισμούς κόστους. Οι περιπτώσεις χρήσης όπως ο εντοπισμός απάτης, οι προτάσεις προϊόντων και η πρόβλεψη επισκεψιμότητας είναι παραδείγματα όπου τα χιλιοστά του δευτερολέπτου έχουν σημασία και είναι κρίσιμα για την επιτυχία της επιχείρησης. Πρέπει να πληρούνται αυστηρές συμφωνίες επιπέδου υπηρεσιών (SLAs) και ένα τυπικό αίτημα μπορεί να απαιτεί πολλαπλά βήματα, όπως προεπεξεργασία, μετασχηματισμός δεδομένων, μηχανική χαρακτηριστικών, λογική επιλογής μοντέλου, συνάθροιση μοντέλων και μεταεπεξεργασία.

Η ανάπτυξη μοντέλων ML σε κλίμακα με βελτιστοποιημένη απόδοση κόστους και υπολογισμού μπορεί να είναι μια αποθαρρυντική και δυσκίνητη εργασία. Κάθε μοντέλο έχει τα δικά του πλεονεκτήματα και εξαρτήσεις με βάση τις εξωτερικές πηγές δεδομένων καθώς και το περιβάλλον χρόνου εκτέλεσης, όπως η ισχύς CPU/GPU των υποκείμενων υπολογιστικών πόρων. Μια εφαρμογή μπορεί να απαιτεί πολλά μοντέλα ML για την εξυπηρέτηση ενός μόνο αιτήματος συμπερασμάτων. Σε ορισμένα σενάρια, ένα αίτημα μπορεί να ρέει σε πολλά μοντέλα. Δεν υπάρχει μια ενιαία προσέγγιση για όλους και είναι σημαντικό για τους επαγγελματίες ML να αναζητούν δοκιμασμένες και αποδεδειγμένες μεθόδους για την αντιμετώπιση των επαναλαμβανόμενων προκλήσεων φιλοξενίας ML. Αυτό οδήγησε στην εξέλιξη των μοτίβων σχεδιασμού για τη φιλοξενία μοντέλων ML.

Σε αυτήν την ανάρτηση, εξερευνούμε κοινά μοτίβα σχεδίασης για τη δημιουργία εφαρμογών ML Amazon Sage Maker.

Σχεδιαστικά μοτίβα για τη δημιουργία εφαρμογών ML

Ας δούμε τα παρακάτω μοτίβα σχεδίασης που θα χρησιμοποιηθούν για τη φιλοξενία εφαρμογών ML.

Εφαρμογές ML βασισμένες σε ένα μοντέλο

Αυτή είναι μια εξαιρετική επιλογή όταν η περίπτωση χρήσης ML απαιτεί ένα μόνο μοντέλο για την εξυπηρέτηση ενός αιτήματος. Το μοντέλο αναπτύσσεται σε μια αποκλειστική υπολογιστική υποδομή με δυνατότητα κλιμάκωσης με βάση την κίνηση εισόδου. Αυτή η επιλογή είναι επίσης ιδανική όταν η εφαρμογή πελάτη έχει απαίτηση συμπερασμάτων χαμηλής καθυστέρησης (της τάξης των χιλιοστών του δευτερολέπτου ή δευτερολέπτων).

Εφαρμογές ML βασισμένες σε πολλά μοντέλα

Για να κάνετε τη φιλοξενία πιο οικονομική, αυτό το μοτίβο σχεδιασμού σάς επιτρέπει να φιλοξενείτε πολλά μοντέλα στην ίδια υποδομή μισθωτή. Πολλά μοντέλα ML μπορούν να μοιράζονται τους πόρους κεντρικού υπολογιστή ή κοντέινερ, συμπεριλαμβανομένης της προσωρινής αποθήκευσης των πιο χρησιμοποιούμενων μοντέλων ML στη μνήμη, με αποτέλεσμα την καλύτερη χρήση της μνήμης και των πόρων υπολογισμού. Ανάλογα με τους τύπους των μοντέλων που επιλέξατε να αναπτύξετε, η από κοινού φιλοξενία μοντέλων μπορεί να χρησιμοποιήσει τις ακόλουθες μεθόδους:

Φιλοξενία πολλαπλών μοντέλων – Αυτή η επιλογή σάς επιτρέπει να φιλοξενείτε πολλά μοντέλα χρησιμοποιώντας ένα κοινόχρηστο κοντέινερ σερβιρίσματος σε ένα μόνο τελικό σημείο. Αυτή η λειτουργία είναι ιδανική όταν έχετε μεγάλο αριθμό παρόμοιων μοντέλων που μπορείτε να σερβίρετε μέσω ενός κοινόχρηστου κοντέινερ σερβιρίσματος και δεν χρειάζεται να έχετε πρόσβαση σε όλα τα μοντέλα ταυτόχρονα.
Φιλοξενία πολλαπλών κοντέινερ – Αυτή η επιλογή είναι ιδανική όταν έχετε πολλά μοντέλα που εκτελούνται σε διαφορετικές στοίβες εξυπηρέτησης με παρόμοιες ανάγκες σε πόρους και όταν μεμονωμένα μοντέλα δεν έχουν επαρκή επισκεψιμότητα για να αξιοποιήσουν την πλήρη χωρητικότητα των παρουσιών τελικού σημείου. Η φιλοξενία πολλαπλών κοντέινερ σάς επιτρέπει να αναπτύξετε πολλά κοντέινερ που χρησιμοποιούν διαφορετικά μοντέλα ή πλαίσια σε ένα μόνο τελικό σημείο. Τα μοντέλα μπορεί να είναι εντελώς ετερογενή, με τη δική τους ανεξάρτητη στοίβα σερβιρίσματος.
Μοντέλα σύνολα – Σε πολλές περιπτώσεις χρήσης παραγωγής, μπορεί συχνά να υπάρχουν πολλά μοντέλα ανάντη που τροφοδοτούν εισροές σε ένα δεδομένο μοντέλο κατάντη. Εδώ είναι χρήσιμα τα σύνολα. Τα μοτίβα συνόλου περιλαμβάνουν ανάμειξη εξόδου από ένα ή περισσότερα βασικά μοντέλα προκειμένου να μειωθεί το σφάλμα γενίκευσης της πρόβλεψης. Τα βασικά μοντέλα μπορούν να είναι διαφορετικά και να εκπαιδεύονται από διαφορετικούς αλγόριθμους. Τα σύνολα μοντέλων μπορούν να έχουν καλύτερη απόδοση από μεμονωμένα μοντέλα επειδή το σφάλμα πρόβλεψης του μοντέλου μειώνεται όταν χρησιμοποιείται η προσέγγιση συνόλου.

Τα ακόλουθα είναι συνήθεις περιπτώσεις χρήσης μοτίβων συνόλων και των αντίστοιχων σχεδίων σχεδίων τους:

Σκορπίζω-μαζεύω – Σε ένα μοτίβο scatter-gather, ένα αίτημα για συμπέρασμα δρομολογείται σε έναν αριθμό μοντέλων. Στη συνέχεια, χρησιμοποιείται ένας συσσωρευτής για τη συλλογή των απαντήσεων και την απόσταξη τους σε μια ενιαία απόκριση συμπερασμάτων. Για παράδειγμα, μια περίπτωση χρήσης ταξινόμησης εικόνας μπορεί να χρησιμοποιεί τρία διαφορετικά μοντέλα για την εκτέλεση της εργασίας. Το μοτίβο scatter-gather σάς επιτρέπει να συνδυάσετε αποτελέσματα από συμπεράσματα που εκτελούνται σε τρία διαφορετικά μοντέλα και να επιλέξετε το πιο πιθανό μοντέλο ταξινόμησης.

Μοντέλα φιλοξενίας μοτίβων στο Amazon SageMaker, Μέρος 1: Κοινά μοτίβα σχεδίασης για τη δημιουργία εφαρμογών ML στο Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μοντέλο συγκεντρωτικό – Σε ένα μοτίβο συνάθροισης, υπολογίζονται κατά μέσο όρο τα αποτελέσματα από πολλά μοντέλα. Για τα μοντέλα ταξινόμησης, οι προβλέψεις πολλαπλών μοντέλων αξιολογούνται για να προσδιοριστεί η τάξη που έλαβε τις περισσότερες ψήφους και αντιμετωπίζεται ως το τελικό αποτέλεσμα του συνόλου. Για παράδειγμα, σε ένα πρόβλημα ταξινόμησης δύο τάξεων για την ταξινόμηση ενός σετ φρούτων ως πορτοκαλιών ή μήλων, εάν δύο μοντέλα ψηφίζουν για ένα πορτοκάλι και ένα μοντέλο ψηφίζει για ένα μήλο, τότε η συνολική παραγωγή θα είναι ένα πορτοκάλι. Η συγκέντρωση βοηθά στην καταπολέμηση της ανακρίβειας σε μεμονωμένα μοντέλα και κάνει την έξοδο πιο ακριβή.

Δυναμική επιλογή – Ένα άλλο μοτίβο για τα μοντέλα συνόλου είναι η δυναμική εκτέλεση επιλογής μοντέλου για τα δεδομένα εισόδου. Για παράδειγμα, σε μια δεδομένη είσοδο εικόνων φρούτων, εάν η είσοδος περιέχει πορτοκάλι, θα χρησιμοποιηθεί το μοντέλο Α επειδή είναι εξειδικευμένο για πορτοκάλια. Εάν η είσοδος περιέχει ένα μήλο, το μοντέλο Β θα χρησιμοποιηθεί επειδή είναι εξειδικευμένο για μήλα.

Σειριακά συμπεράσματα ML εφαρμογές – Με ένα σειριακό μοτίβο συμπερασμάτων, γνωστό και ως αγωγός συμπερασμάτων, οι περιπτώσεις χρήσης έχουν απαιτήσεις για την προεπεξεργασία των εισερχόμενων δεδομένων πριν από την επίκληση ενός προεκπαιδευμένου μοντέλου ML για τη δημιουργία συμπερασμάτων. Επιπλέον, σε ορισμένες περιπτώσεις, τα συμπεράσματα που δημιουργούνται μπορεί να χρειαστεί να υποβληθούν σε περαιτέρω επεξεργασία, έτσι ώστε να μπορούν να καταναλωθούν εύκολα από τις μεταγενέστερες εφαρμογές. Μια διοχέτευση συμπερασμάτων σάς επιτρέπει να επαναχρησιμοποιήσετε τον ίδιο κώδικα προεπεξεργασίας που χρησιμοποιήθηκε κατά την εκπαίδευση του μοντέλου για την επεξεργασία των δεδομένων αιτήματος συμπερασμάτων που χρησιμοποιούνται για προβλέψεις.

Επαγγελματική λογική – Η παραγωγή ML περιλαμβάνει πάντα επιχειρηματική λογική. Τα μοτίβα επιχειρηματικής λογικής περιλαμβάνουν όλα όσα χρειάζονται για την εκτέλεση μιας εργασίας ML που δεν είναι συμπέρασμα μοντέλου ML. Αυτό περιλαμβάνει τη φόρτωση του μοντέλου από Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), για παράδειγμα, αναζητά τη βάση δεδομένων για την επικύρωση της εισαγωγής, τη λήψη προ-υπολογισμένων χαρακτηριστικών από το χώρο αποθήκευσης χαρακτηριστικών κ.λπ. Αφού ολοκληρωθούν αυτά τα βήματα επιχειρηματικής λογικής, οι είσοδοι περνούν στα μοντέλα ML.

Επιλογές συμπερασμάτων ML

Για την ανάπτυξη του μοντέλου, είναι σημαντικό να εργάζεστε προς τα πίσω από την περίπτωση χρήσης σας. Ποια είναι η συχνότητα της πρόβλεψης; Αναμένετε ζωντανή επισκεψιμότητα στην εφαρμογή σας και ανταπόκριση σε πραγματικό χρόνο στους πελάτες σας; Έχετε πολλά μοντέλα εκπαιδευμένα για διαφορετικά υποσύνολα δεδομένων για την ίδια περίπτωση χρήσης; Η κίνηση της πρόβλεψης παρουσιάζει διακυμάνσεις; Είναι ανησυχητικός ο λανθάνουσα κατάσταση συμπερασμάτων; Με βάση αυτές τις λεπτομέρειες, όλα τα προηγούμενα μοτίβα σχεδίασης μπορούν να εφαρμοστούν χρησιμοποιώντας τις ακόλουθες επιλογές ανάπτυξης:

Συμπεράσματα σε πραγματικό χρόνο – Η εξαγωγή συμπερασμάτων σε πραγματικό χρόνο είναι ιδανική για φόρτους εργασίας εξαγωγής συμπερασμάτων όπου έχετε απαιτήσεις σε πραγματικό χρόνο, διαδραστικές και χαμηλής καθυστέρησης. Οι φόρτοι εργασίας συμπερασμάτων ML σε πραγματικό χρόνο μπορεί να περιλαμβάνουν μια εφαρμογή ML που βασίζεται σε ένα μοντέλο, όπου μια εφαρμογή απαιτεί μόνο ένα μοντέλο ML για την εξυπηρέτηση ενός μεμονωμένου αιτήματος ή μια εφαρμογή ML που βασίζεται σε πολλά μοντέλα, όπου μια εφαρμογή απαιτεί πολλά μοντέλα ML για την εξυπηρέτηση ενός μεμονωμένου αίτηση.
Συμπεράσματα σχεδόν σε πραγματικό χρόνο (ασύγχρονη). – Με συμπέρασμα σχεδόν σε πραγματικό χρόνο, μπορείτε να βάλετε σε ουρά τα εισερχόμενα αιτήματα. Αυτό μπορεί να χρησιμοποιηθεί για την εκτέλεση συμπερασμάτων σε εισόδους που είναι εκατοντάδες MB. Λειτουργεί σε σχεδόν πραγματικό χρόνο και επιτρέπει στους χρήστες να χρησιμοποιούν την είσοδο για συμπέρασμα και να διαβάζουν την έξοδο από το τελικό σημείο από έναν κάδο S3. Μπορεί να είναι ιδιαίτερα βολικό σε περιπτώσεις με NLP και υπολογιστική όραση, όπου υπάρχουν μεγάλα ωφέλιμα φορτία που απαιτούν μεγαλύτερους χρόνους προεπεξεργασίας.
Μαζική συναγωγή – Το συμπέρασμα παρτίδας μπορεί να χρησιμοποιηθεί για την εκτέλεση συμπερασμάτων εκτός σύνδεσης σε ένα μεγάλο σύνολο δεδομένων. Επειδή εκτελείται εκτός σύνδεσης, το συμπέρασμα παρτίδας δεν προσφέρει τη χαμηλότερη καθυστέρηση. Εδώ, το αίτημα συμπερασμάτων υποβάλλεται σε επεξεργασία είτε με προγραμματισμένο είτε βάσει συμβάντων ενεργοποίηση μιας εργασίας συμπερασμάτων παρτίδας.
Συμπεράσματα χωρίς διακομιστή – Το συμπέρασμα χωρίς διακομιστή είναι ιδανικό για φόρτους εργασίας που έχουν περιόδους αδράνειας μεταξύ εκρήξεων κυκλοφορίας και μπορούν να ανεχθούν μερικά επιπλέον δευτερόλεπτα καθυστέρησης (ψυχρή εκκίνηση) για την πρώτη κλήση μετά από μια περίοδο αδράνειας. Για παράδειγμα, μια υπηρεσία chatbot ή μια εφαρμογή για την επεξεργασία φορμών ή την ανάλυση δεδομένων από έγγραφα. Σε αυτήν την περίπτωση, μπορεί να θέλετε μια ηλεκτρονική επιλογή συμπερασμάτων που να μπορεί να παρέχει αυτόματα και να κλιμακώνει την υπολογιστική χωρητικότητα με βάση τον όγκο των αιτημάτων συμπερασμάτων. Και κατά τη διάρκεια της αδράνειας, θα πρέπει να μπορεί να απενεργοποιήσει πλήρως την υπολογιστική ικανότητα, έτσι ώστε να μην χρεώνεστε. Η εξαγωγή συμπερασμάτων χωρίς διακομιστή αφαιρεί την αδιαφοροποίητη βαρύτητα της επιλογής και της διαχείρισης διακομιστών, εκκινώντας αυτόματα τους υπολογιστικούς πόρους και κλιμακώνοντάς τους μέσα και έξω ανάλογα με την κίνηση.

Χρησιμοποιήστε τις λειτουργίες φυσικής κατάστασης για να επιλέξετε τη σωστή επιλογή συμπερασμάτων ML

Η απόφαση για τη σωστή επιλογή φιλοξενίας είναι σημαντική επειδή επηρεάζει τους τελικούς χρήστες που αποδίδονται από τις εφαρμογές σας. Για το σκοπό αυτό, δανειζόμαστε την έννοια του λειτουργίες φυσικής κατάστασης, το οποίο επινοήθηκε από τον Neal Ford και τους συναδέλφους του από το AWS Partner ThoughtWorks στην εργασία τους Κτιριακές Εξελικτικές Αρχιτεκτονικές. Οι λειτουργίες γυμναστικής παρέχουν μια συνταγογραφική αξιολόγηση των διαφόρων επιλογών φιλοξενίας με βάση τους στόχους του πελάτη. Οι λειτουργίες γυμναστικής σάς βοηθούν να αποκτήσετε τα απαραίτητα δεδομένα για την προγραμματισμένη εξέλιξη της αρχιτεκτονικής σας. Θέτουν μετρήσιμες τιμές για να αξιολογήσουν πόσο κοντά είναι η λύση σας στην επίτευξη των στόχων που έχετε θέσει. Οι λειτουργίες γυμναστικής μπορούν και πρέπει να προσαρμοστούν καθώς η αρχιτεκτονική εξελίσσεται για να καθοδηγήσει μια επιθυμητή διαδικασία αλλαγής. Αυτό παρέχει στους αρχιτέκτονες ένα εργαλείο για να καθοδηγούν τις ομάδες τους διατηρώντας παράλληλα την αυτονομία της ομάδας.

Υπάρχουν πέντε κύριες λειτουργίες φυσικής κατάστασης για τις οποίες ενδιαφέρονται οι πελάτες όταν πρόκειται να επιλέξουν τη σωστή επιλογή συμπερασμάτων ML για τη φιλοξενία των μοντέλων και των εφαρμογών τους ML.

Λειτουργία γυμναστικής	Περιγραφή
Κόστος	Η ανάπτυξη και η διατήρηση ενός μοντέλου ML και μιας εφαρμογής ML σε ένα επεκτάσιμο πλαίσιο είναι μια κρίσιμη επιχειρηματική διαδικασία και το κόστος μπορεί να ποικίλλει σημαντικά ανάλογα με τις επιλογές που γίνονται σχετικά με την υποδομή φιλοξενίας μοντέλων, την επιλογή φιλοξενίας, τα πλαίσια ML, τα χαρακτηριστικά του μοντέλου ML, τις βελτιστοποιήσεις, την πολιτική κλιμάκωσης, κι αλλα. Οι φόρτοι εργασίας πρέπει να χρησιμοποιούν την υποδομή υλικού με τον βέλτιστο τρόπο ώστε να διασφαλίζεται ότι το κόστος παραμένει υπό έλεγχο. Αυτή η λειτουργία φυσικής κατάστασης αναφέρεται συγκεκριμένα στο κόστος υποδομής, το οποίο αποτελεί μέρος του συνολικού συνολικού κόστους ιδιοκτησίας (TCO). Το κόστος υποδομής είναι το συνδυασμένο κόστος αποθήκευσης, δικτύου και υπολογισμού. Είναι επίσης σημαντικό να κατανοήσετε άλλα στοιχεία του TCO, συμπεριλαμβανομένων των λειτουργικών δαπανών και του κόστους ασφάλειας και συμμόρφωσης. Το λειτουργικό κόστος είναι το συνδυασμένο κόστος λειτουργίας, παρακολούθησης και συντήρησης της υποδομής ML. Το λειτουργικό κόστος υπολογίζεται ως ο αριθμός των μηχανικών που απαιτούνται με βάση κάθε σενάριο και ο ετήσιος μισθός των μηχανικών, αθροιστικά για μια συγκεκριμένη περίοδο. Πελάτες που χρησιμοποιούν αυτοδιαχειριζόμενες λύσεις ML σε Amazon Elastic Compute Cloud (Amazon EC2), Υπηρεσία ελαστικών εμπορευματοκιβωτίων Amazon (Amazon ECS), και Υπηρεσία Amazon Elastic Kubernetes (Amazon EKS) πρέπει να δημιουργήσουν οι ίδιοι λειτουργικά εργαλεία. Οι πελάτες που χρησιμοποιούν το SageMaker επιβαρύνονται σημαντικά με λιγότερο TCO. Η εξαγωγή συμπερασμάτων SageMaker είναι μια πλήρως διαχειριζόμενη υπηρεσία και παρέχει δυνατότητες εκτός πλαισίου για την ανάπτυξη μοντέλων ML για εξαγωγή συμπερασμάτων. Δεν χρειάζεται να παρέχετε παρουσίες, να παρακολουθείτε την υγεία της παρουσίας, να διαχειρίζεστε ενημερώσεις ή ενημερώσεις κώδικα ασφαλείας, να εκπέμπετε λειτουργικές μετρήσεις ή να δημιουργείτε παρακολούθηση για τους φόρτους εργασίας συμπερασμάτων ML. Διαθέτει ενσωματωμένες δυνατότητες για να εξασφαλίσει υψηλή διαθεσιμότητα και ανθεκτικότητα. Το SageMaker υποστηρίζει ασφάλεια με κρυπτογράφηση από άκρο σε άκρο σε κατάσταση ηρεμίας και μεταφοράς, συμπεριλαμβανομένης της κρυπτογράφησης του ριζικού τόμου και Κατάστημα Amazon Elastic Block τόμος (Amazon EBS), Εικονικό ιδιωτικό σύννεφο Amazon Υποστήριξη (Amazon VPC), AWS PrivateLink, κλειδιά διαχείρισης πελατών, Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) λεπτόκοκκος έλεγχος πρόσβασης, AWS CloudTrail ελέγχους, κρυπτογράφηση internode για εκπαίδευση, έλεγχος πρόσβασης βάσει ετικετών, απομόνωση δικτύου και Interactive Application Proxy. Όλα αυτά τα χαρακτηριστικά ασφαλείας παρέχονται από το κουτί στο SageMaker και μπορούν να εξοικονομήσουν τις επιχειρήσεις από δεκάδες μήνες ανάπτυξης μηχανικής προσπάθειας για μια περίοδο 3 ετών. Το SageMaker είναι μια υπηρεσία κατάλληλη για HIPAA και είναι πιστοποιημένη βάσει PCI, SOC, GDPR και ISO. Το SageMaker υποστηρίζει επίσης τελικά σημεία FIPS. Για περισσότερες πληροφορίες σχετικά με το TCO, ανατρέξτε στο Το συνολικό κόστος ιδιοκτησίας του Amazon SageMaker.
Καθυστέρηση συμπερασμάτων	Πολλά μοντέλα και εφαρμογές ML είναι κρίσιμα για τον λανθάνοντα χρόνο, στα οποία η καθυστέρηση συμπερασμάτων πρέπει να είναι εντός των ορίων που καθορίζονται από έναν στόχο επιπέδου υπηρεσίας. Ο λανθάνουσα κατάσταση συναγωγής εξαρτάται από πολλούς παράγοντες, όπως το μέγεθος και η πολυπλοκότητα του μοντέλου, η πλατφόρμα υλικού, το περιβάλλον λογισμικού και η αρχιτεκτονική δικτύου. Για παράδειγμα, μεγαλύτερα και πιο σύνθετα μοντέλα μπορεί να χρειαστούν περισσότερο χρόνο για να εκτελεστούν τα συμπεράσματα.
Διακίνηση (συναλλαγές ανά δευτερόλεπτο)	Για την εξαγωγή συμπερασμάτων μοντέλων, η βελτιστοποίηση της απόδοσης είναι ζωτικής σημασίας για τη ρύθμιση της απόδοσης και την επίτευξη του επιχειρηματικού στόχου της εφαρμογής ML. Καθώς συνεχίζουμε να προοδεύουμε γρήγορα σε όλες τις πτυχές της ML, συμπεριλαμβανομένων των εφαρμογών χαμηλού επιπέδου μαθηματικών πράξεων στο σχεδιασμό τσιπ, οι βιβλιοθήκες ειδικά για το υλικό διαδραματίζουν μεγαλύτερο ρόλο στη βελτιστοποίηση της απόδοσης. Διάφοροι παράγοντες, όπως το μέγεθος του ωφέλιμου φορτίου, τα άλματα δικτύου, η φύση των αναπηδήσεων, τα χαρακτηριστικά γραφήματος μοντέλου, οι τελεστές στο μοντέλο και η CPU, η GPU και το προφίλ μνήμης των παρουσιών φιλοξενίας του μοντέλου επηρεάζουν την απόδοση του μοντέλου ML.
Πολυπλοκότητα διαμόρφωσης κλιμάκωσης	Είναι ζωτικής σημασίας για τα μοντέλα ή τις εφαρμογές ML να εκτελούνται σε ένα επεκτάσιμο πλαίσιο που μπορεί να χειριστεί τη ζήτηση ποικίλης κυκλοφορίας. Επιτρέπει επίσης τη μέγιστη χρήση των πόρων CPU και GPU και αποτρέπει την υπερβολική παροχή υπολογιστικών πόρων.
Αναμενόμενο μοτίβο κίνησης	Τα μοντέλα ή οι εφαρμογές ML μπορεί να έχουν διαφορετικά μοτίβα επισκεψιμότητας, που κυμαίνονται από συνεχή ζωντανή κίνηση σε πραγματικό χρόνο έως περιοδικές αιχμές χιλιάδων αιτημάτων ανά δευτερόλεπτο και από σπάνια, απρόβλεπτα μοτίβα αιτημάτων έως αιτήματα ομαδικών αιτημάτων εκτός σύνδεσης σε μεγαλύτερα σύνολα δεδομένων. Συνιστάται να εργάζεστε προς τα πίσω από το αναμενόμενο μοτίβο επισκεψιμότητας, προκειμένου να επιλέξετε τη σωστή επιλογή φιλοξενίας για το μοντέλο ML σας.

Ανάπτυξη μοντέλων με το SageMaker

SageMaker είναι μια πλήρως διαχειριζόμενη υπηρεσία AWS που παρέχει σε κάθε προγραμματιστή και επιστήμονα δεδομένων τη δυνατότητα να δημιουργεί γρήγορα, να εκπαιδεύει και να αναπτύσσει μοντέλα ML σε κλίμακα. Με το συμπέρασμα SageMaker, μπορείτε να αναπτύξετε τα μοντέλα ML σας σε φιλοξενούμενα τελικά σημεία και να λάβετε αποτελέσματα συμπερασμάτων. Το SageMaker παρέχει μια ευρεία επιλογή υλικού και λειτουργιών για την κάλυψη των απαιτήσεων του φόρτου εργασίας σας, επιτρέποντάς σας να επιλέξετε πάνω από 70 τύπους παρουσιών με επιτάχυνση υλικού. Το SageMaker μπορεί επίσης να παρέχει σύσταση τύπου παρουσίας συμπερασμάτων χρησιμοποιώντας μια νέα δυνατότητα που ονομάζεται SageMaker Inference Recommender, σε περίπτωση που δεν είστε σίγουροι ποια θα ήταν η βέλτιστη για τον φόρτο εργασίας σας.

Μπορείτε να επιλέξετε επιλογές ανάπτυξης για να ανταποκρίνονται καλύτερα στις περιπτώσεις χρήσης σας, όπως συμπέρασμα σε πραγματικό χρόνο, ασύγχρονα, παρτίδα, ακόμη και τελικά σημεία χωρίς διακομιστή. Επιπλέον, το SageMaker προσφέρει διάφορες στρατηγικές ανάπτυξης, όπως καναρίνι, μπλε πράσινο, σκιά, και δοκιμές A/B για ανάπτυξη μοντέλου, μαζί με οικονομική ανάπτυξη με πολλαπλά μοντέλα, τελικά σημεία πολλαπλών κοντέινερ και ελαστική κλιμάκωση. Με το συμπέρασμα SageMaker, μπορείτε να δείτε τις μετρήσεις απόδοσης για τα τελικά σημεία σας amazoncloudwatch, αυτόματη κλιμάκωση των τελικών σημείων με βάση την επισκεψιμότητα και ενημερώστε τα μοντέλα σας στην παραγωγή χωρίς να χάσετε καμία διαθεσιμότητα.

Το SageMaker προσφέρει τέσσερις επιλογές για την ανάπτυξη του μοντέλου σας, ώστε να μπορείτε να αρχίσετε να κάνετε προβλέψεις:

Συμπεράσματα σε πραγματικό χρόνο – Αυτό είναι κατάλληλο για φόρτους εργασίας με απαιτήσεις καθυστέρησης χιλιοστού του δευτερολέπτου, μεγέθη ωφέλιμου φορτίου έως 6 MB και χρόνους επεξεργασίας έως και 60 δευτερόλεπτα.
Μαζική μεταμόρφωση – Αυτό είναι ιδανικό για προβλέψεις εκτός σύνδεσης σε μεγάλες παρτίδες δεδομένων που είναι διαθέσιμες εκ των προτέρων.
Ασύγχρονη συναγωγή – Αυτό έχει σχεδιαστεί για φόρτους εργασίας που δεν έχουν απαιτήσεις καθυστέρησης δευτερολέπτων, μεγέθη ωφέλιμου φορτίου έως 1 GB και χρόνους επεξεργασίας έως 15 λεπτά.
Συμπεράσματα χωρίς διακομιστή – Με την εξαγωγή συμπερασμάτων χωρίς διακομιστή, μπορείτε να αναπτύξετε γρήγορα μοντέλα ML για εξαγωγή συμπερασμάτων χωρίς να χρειάζεται να διαμορφώσετε ή να διαχειριστείτε την υποκείμενη υποδομή. Επιπλέον, πληρώνετε μόνο για την υπολογιστική χωρητικότητα που χρησιμοποιείται για την επεξεργασία αιτημάτων συμπερασμάτων, η οποία είναι ιδανική για διακοπτόμενους φόρτους εργασίας.

Το παρακάτω διάγραμμα μπορεί να σας βοηθήσει να κατανοήσετε τις επιλογές ανάπτυξης του μοντέλου φιλοξενίας SageMaker μαζί με τις σχετικές αξιολογήσεις λειτουργιών φυσικής κατάστασης.

Ας εξερευνήσουμε κάθε μία από τις επιλογές ανάπτυξης με περισσότερες λεπτομέρειες.

Συμπεράσματα σε πραγματικό χρόνο στο SageMaker

Συνιστάται η εξαγωγή συμπερασμάτων σε πραγματικό χρόνο του SageMaker εάν έχετε συνεχή επισκεψιμότητα και χρειάζεστε χαμηλότερο και σταθερό λανθάνοντα χρόνο για τα αιτήματά σας με μεγέθη ωφέλιμου φορτίου έως 6 MB και χρόνους επεξεργασίας έως και 60 δευτερόλεπτα. Αναπτύξτε το μοντέλο σας σε υπηρεσίες φιλοξενίας SageMaker και λαμβάνετε ένα τελικό σημείο που μπορεί να χρησιμοποιηθεί για συμπεράσματα. Αυτά τα τελικά σημεία διαχειρίζονται πλήρως και υποστηρίζουν την αυτόματη κλιμάκωση. Το συμπέρασμα σε πραγματικό χρόνο είναι δημοφιλές για περιπτώσεις χρήσης όπου αναμένετε μια χαμηλής καθυστέρησης, σύγχρονη απόκριση με προβλέψιμα μοτίβα επισκεψιμότητας, όπως εξατομικευμένες προτάσεις για προϊόντα και υπηρεσίες ή περιπτώσεις χρήσης ανίχνευσης απάτης συναλλαγών.

Συνήθως, μια εφαρμογή πελάτη στέλνει αιτήματα στο τελικό σημείο HTTPS του SageMaker για να λαμβάνει συμπεράσματα από ένα αναπτυγμένο μοντέλο. Μπορείτε να αναπτύξετε πολλές παραλλαγές ενός μοντέλου στο ίδιο τελικό σημείο HTTPS του SageMaker. Αυτό είναι χρήσιμο για τη δοκιμή παραλλαγών ενός μοντέλου στην παραγωγή. Η αυτόματη κλιμάκωση σάς επιτρέπει να προσαρμόζετε δυναμικά τον αριθμό των παρουσιών που προβλέπονται για ένα μοντέλο ως απόκριση στις αλλαγές στο φόρτο εργασίας σας.

Ο παρακάτω πίνακας παρέχει οδηγίες για την αξιολόγηση των συμπερασμάτων του SageMaker σε πραγματικό χρόνο με βάση τις λειτουργίες φυσικής κατάστασης.

Λειτουργία γυμναστικής	Περιγραφή
Κόστος	Τα τελικά σημεία σε πραγματικό χρόνο προσφέρουν σύγχρονη απόκριση σε αιτήματα συμπερασμάτων. Επειδή το τελικό σημείο εκτελείται πάντα και είναι διαθέσιμο για την παροχή σύγχρονης απόκρισης συμπερασμάτων σε πραγματικό χρόνο, πληρώνετε για τη χρήση της παρουσίας. Τα κόστη μπορούν να αθροιστούν γρήγορα όταν αναπτύσσετε πολλά τελικά σημεία, ειδικά εάν τα τελικά σημεία δεν χρησιμοποιούν πλήρως τις υποκείμενες παρουσίες. Η επιλογή της σωστής παρουσίας για το μοντέλο σας βοηθά να διασφαλίσετε ότι έχετε την πιο αποδοτική παρουσία με το χαμηλότερο κόστος για τα μοντέλα σας. Συνιστάται η αυτόματη κλιμάκωση για δυναμική προσαρμογή της χωρητικότητας ανάλογα με την κίνηση, ώστε να διατηρείται σταθερή και προβλέψιμη απόδοση με το δυνατό χαμηλότερο κόστος. Το SageMaker επεκτείνει την πρόσβαση σε οικογένειες παρουσιών ML που βασίζονται σε Graviton2 και Graviton3. AWS Graviton Οι επεξεργαστές είναι προσαρμοσμένοι κατασκευασμένοι από την Amazon Web Services χρησιμοποιώντας πυρήνες Arm Neoverse 64-bit για να προσφέρουν την καλύτερη απόδοση τιμής για τους φόρτους εργασίας στο cloud που εκτελούνται στο Amazon EC2. Με τις παρουσίες που βασίζονται στο Graviton, έχετε περισσότερες επιλογές για τη βελτιστοποίηση του κόστους και της απόδοσης κατά την ανάπτυξη των μοντέλων σας ML στο SageMaker. Το SageMaker υποστηρίζει επίσης Εμφανίσεις Inf1, παρέχοντας υψηλή απόδοση και οικονομικά συμπεράσματα ML. Με 1–16 Τσιπ AWS Inferentia ανά περίπτωση, οι παρουσίες Inf1 μπορούν να κλιμακωθούν σε απόδοση και να προσφέρουν έως και τρεις φορές υψηλότερη απόδοση και έως και 50% χαμηλότερο κόστος ανά συμπέρασμα σε σύγκριση με τις παρουσίες που βασίζονται σε GPU AWS. Για να χρησιμοποιήσετε παρουσίες Inf1 στο SageMaker, μπορείτε να μεταγλωττίσετε τα εκπαιδευμένα μοντέλα σας χρησιμοποιώντας Amazon SageMaker Neo και επιλέξτε τις περιπτώσεις Inf1 για να αναπτύξετε το μεταγλωττισμένο μοντέλο στο SageMaker. Μπορείτε επίσης να εξερευνήσετε Αποταμιευτικά σχέδια για το SageMaker να επωφεληθείτε από εξοικονόμηση κόστους έως και 64% σε σύγκριση με την τιμή κατ' απαίτηση. Όταν δημιουργείτε ένα τελικό σημείο, το SageMaker επισυνάπτει έναν τόμο αποθήκευσης EBS σε κάθε παρουσία υπολογισμού ML που φιλοξενεί το τελικό σημείο. Το μέγεθος του όγκου αποθήκευσης εξαρτάται από τον τύπο του στιγμιότυπου. Το πρόσθετο κόστος για τα τελικά σημεία σε πραγματικό χρόνο περιλαμβάνει το κόστος GB-μήνα της προβλεπόμενης αποθήκευσης, συν τα δεδομένα GB που υποβάλλονται σε επεξεργασία εντός και τα δεδομένα GB που υποβάλλονται σε επεξεργασία εκτός της παρουσίας τελικού σημείου.
Καθυστέρηση συμπερασμάτων	Το συμπέρασμα σε πραγματικό χρόνο είναι ιδανικό όταν χρειάζεστε ένα μόνιμο τελικό σημείο με απαιτήσεις καθυστέρησης χιλιοστού του δευτερολέπτου. Υποστηρίζει μεγέθη ωφέλιμου φορτίου έως 6 MB και χρόνους επεξεργασίας έως 60 δευτερόλεπτα.
Διακίνηση	Μια ιδανική τιμή της απόδοσης συμπερασμάτων εξαρτάται από παράγοντες όπως το μοντέλο, το μέγεθος εισόδου του μοντέλου, το μέγεθος παρτίδας και ο τύπος του στιγμιότυπου τελικού σημείου. Ως βέλτιστη πρακτική, ελέγξτε τις μετρήσεις CloudWatch για αιτήματα εισόδου και χρήση πόρων και επιλέξτε τον κατάλληλο τύπο παρουσίας για να επιτύχετε τη βέλτιστη απόδοση. Μια επιχειρηματική εφαρμογή μπορεί να είναι είτε βελτιστοποιημένη απόδοση είτε βελτιστοποιημένη καθυστέρηση. Για παράδειγμα, η δυναμική ομαδοποίηση μπορεί να συμβάλει στην αύξηση της απόδοσης για εφαρμογές ευαίσθητες σε λανθάνουσα κατάσταση χρησιμοποιώντας συμπεράσματα σε πραγματικό χρόνο. Ωστόσο, υπάρχουν όρια στο μέγεθος της παρτίδας, χωρίς τα οποία θα μπορούσε να επηρεαστεί η καθυστέρηση συμπερασμάτων. Η καθυστέρηση συμπερασμάτων θα αυξάνεται καθώς αυξάνετε το μέγεθος της παρτίδας για να βελτιώσετε την απόδοση. Επομένως, το συμπέρασμα σε πραγματικό χρόνο είναι μια ιδανική επιλογή για εφαρμογές ευαίσθητες σε καθυστέρηση. Το SageMaker παρέχει επιλογές ασύγχρονης εξαγωγής συμπερασμάτων και μετασχηματισμού παρτίδας, οι οποίες είναι βελτιστοποιημένες για να παρέχουν υψηλότερη απόδοση σε σύγκριση με την εξαγωγή συμπερασμάτων σε πραγματικό χρόνο, εάν οι επιχειρηματικές εφαρμογές μπορούν να ανεχθούν μια ελαφρώς υψηλότερη καθυστέρηση.
Πολυπλοκότητα διαμόρφωσης κλιμάκωσης	Υποστήριξη τελικών σημείων σε πραγματικό χρόνο του SageMaker αυτόματη κλιμάκωση έξω από το κουτί. Όταν ο φόρτος εργασίας αυξάνεται, η αυτόματη κλιμάκωση φέρνει περισσότερες παρουσίες στο διαδίκτυο. Όταν ο φόρτος εργασίας μειώνεται, η αυτόματη κλιμάκωση αφαιρεί περιττές περιπτώσεις, βοηθώντας σας να μειώσετε το κόστος υπολογισμού σας. Χωρίς αυτόματη κλιμάκωση, πρέπει να προβλέψετε την αιχμή της κυκλοφορίας ή τη μη διαθεσιμότητα του μοντέλου κινδύνου. Εάν η κίνηση προς το μοντέλο σας δεν είναι σταθερή καθ' όλη τη διάρκεια της ημέρας, θα υπάρχει υπερβολική αχρησιμοποίητη χωρητικότητα. Αυτό οδηγεί σε χαμηλή χρήση και σπατάλη πόρων. Με το SageMaker, μπορείτε να διαμορφώσετε διαφορετικές επιλογές κλιμάκωσης με βάση το αναμενόμενο μοτίβο επισκεψιμότητας. Η απλή κλιμάκωση ή η κλιμάκωση παρακολούθησης στόχου είναι ιδανική όταν θέλετε να κλιμακώσετε με βάση μια συγκεκριμένη μέτρηση CloudWatch. Μπορείτε να το κάνετε επιλέγοντας μια συγκεκριμένη μέτρηση και ορίζοντας τιμές κατωφλίου. Οι προτεινόμενες μετρήσεις για αυτήν την επιλογή είναι μέσες `CPUUtilization` or `SageMakerVariantInvocationsPerInstance`. Εάν χρειάζεστε σύνθετη διαμόρφωση, μπορείτε να ορίσετε μια πολιτική κλιμάκωσης βημάτων για να προσαρμόσετε δυναμικά τον αριθμό των παρουσιών σε κλίμακα με βάση το μέγεθος της παραβίασης του συναγερμού. Αυτό σας βοηθά να διαμορφώσετε μια πιο επιθετική απόκριση όταν η ζήτηση φτάσει σε ένα συγκεκριμένο επίπεδο. Μπορείτε να χρησιμοποιήσετε μια επιλογή προγραμματισμένης κλίμακας όταν γνωρίζετε ότι η ζήτηση ακολουθεί ένα συγκεκριμένο χρονοδιάγραμμα την ημέρα, την εβδομάδα, το μήνα ή το έτος. Αυτό σας βοηθά να καθορίσετε ένα χρονοδιάγραμμα μίας χρήσης ή ένα επαναλαμβανόμενο χρονοδιάγραμμα ή εκφράσεις cron μαζί με τους χρόνους έναρξης και λήξης, οι οποίοι αποτελούν τα όρια της έναρξης και της λήξης της ενέργειας αυτόματης κλιμάκωσης. Για περισσότερες λεπτομέρειες, ανατρέξτε στο Διαμόρφωση τελικών σημείων συμπερασμάτων αυτόματης κλιμάκωσης στο Amazon SageMaker και Φορτώστε τη δοκιμή και βελτιστοποιήστε ένα τελικό σημείο του Amazon SageMaker χρησιμοποιώντας αυτόματη κλιμάκωση.
Μοτίβο κυκλοφορίας	Το συμπέρασμα σε πραγματικό χρόνο είναι ιδανικό για φόρτους εργασίας με συνεχή ή κανονικό μοτίβο κυκλοφορίας.

Ασύγχρονη συμπέρασμα στο SageMaker

Το ασύγχρονο συμπέρασμα του SageMaker είναι μια νέα δυνατότητα στο SageMaker που τοποθετεί σε ουρά τα εισερχόμενα αιτήματα και τα επεξεργάζεται ασύγχρονα. Αυτή η επιλογή είναι ιδανική για αιτήματα με μεγάλα μεγέθη ωφέλιμου φορτίου (έως 1 GB), μεγάλους χρόνους επεξεργασίας (έως 15 λεπτά) και απαιτήσεις καθυστέρησης σχεδόν σε πραγματικό χρόνο. Παραδείγματα φόρτου εργασίας για ασύγχρονα συμπεράσματα περιλαμβάνουν εταιρείες υγειονομικής περίθαλψης που επεξεργάζονται βιοϊατρικές εικόνες υψηλής ανάλυσης ή βίντεο, όπως ηχοκαρδιογραφήματα, για τον εντοπισμό ανωμαλιών. Αυτές οι εφαρμογές λαμβάνουν εκρήξεις εισερχόμενης κίνησης σε διαφορετικές ώρες της ημέρας και απαιτούν επεξεργασία σχεδόν σε πραγματικό χρόνο με χαμηλό κόστος. Οι χρόνοι επεξεργασίας για αυτά τα αιτήματα μπορεί να κυμαίνονται της τάξης των λεπτών, εξαλείφοντας την ανάγκη εκτέλεσης συμπερασμάτων σε πραγματικό χρόνο. Αντίθετα, τα ωφέλιμα φορτία εισόδου μπορούν να υποβληθούν σε επεξεργασία ασύγχρονα από ένα χώρο αποθήκευσης αντικειμένων όπως το Amazon S3 με αυτόματη ουρά και ένα προκαθορισμένο όριο ταυτότητος. Κατά την επεξεργασία, το SageMaker τοποθετεί την απόκριση συμπερασμάτων στην τοποθεσία Amazon S3 που επιστράφηκε προηγουμένως. Μπορείτε προαιρετικά να επιλέξετε να λαμβάνετε ειδοποιήσεις επιτυχίας ή σφάλματος μέσω Υπηρεσία απλών ειδοποιήσεων Amazon (Amazon SNS).

Ο παρακάτω πίνακας παρέχει οδηγίες για την αξιολόγηση του ασύγχρονου συμπεράσματος του SageMaker με βάση τις συναρτήσεις φυσικής κατάστασης.

Λειτουργία γυμναστικής	Περιγραφή
Κόστος	Το ασύγχρονο συμπέρασμα είναι μια εξαιρετική επιλογή για φόρτους εργασίας που είναι ευαίσθητοι στο κόστος με μεγάλο ωφέλιμο φορτίο και ριπή κυκλοφορίας. Το ασύγχρονο συμπέρασμα σάς δίνει τη δυνατότητα να εξοικονομήσετε κόστος με την αυτόματη κλιμάκωση του αριθμού παρουσιών στο μηδέν όταν δεν υπάρχουν αιτήματα για επεξεργασία, επομένως πληρώνετε μόνο όταν το τελικό σημείο επεξεργάζεται αιτήματα. Τα αιτήματα που λαμβάνονται όταν υπάρχουν μηδέν παρουσίες βρίσκονται στην ουρά για επεξεργασία μετά την κλιμάκωση του τελικού σημείου.
Καθυστέρηση συμπερασμάτων	Το ασύγχρονο συμπέρασμα είναι ιδανικό για απαιτήσεις λανθάνοντος χρόνου σχεδόν σε πραγματικό χρόνο. Τα αιτήματα τοποθετούνται σε μια ουρά και υποβάλλονται σε επεξεργασία μόλις ο υπολογισμός είναι διαθέσιμος. Αυτό συνήθως οδηγεί σε δεκάδες χιλιοστά του δευτερολέπτου σε καθυστέρηση.
Διακίνηση	Η ασύγχρονη εξαγωγή συμπερασμάτων είναι ιδανική για περιπτώσεις χρήσης που δεν είναι ευαίσθητες σε λανθάνουσα κατάσταση, επειδή οι εφαρμογές δεν χρειάζεται να θέτουν σε κίνδυνο την απόδοση. Τα αιτήματα δεν απορρίπτονται κατά τη διάρκεια αυξήσεων της επισκεψιμότητας επειδή το ασύγχρονο τελικό σημείο συμπερασμάτων θέτει σε ουρά αιτήματα αντί να τα απορρίπτει.
Πολυπλοκότητα διαμόρφωσης κλιμάκωσης	Υποστηρίζει το SageMaker αυτόματη κλιμάκωση για ασύγχρονο τελικό σημείο. Σε αντίθεση με τα τελικά σημεία που φιλοξενούνται σε πραγματικό χρόνο, τα ασύγχρονα τελικά σημεία συμπερασμάτων υποστηρίζουν τη μείωση των παρουσιών στο μηδέν ορίζοντας την ελάχιστη χωρητικότητα σε μηδέν. Για ασύγχρονα τελικά σημεία, το SageMaker συνιστά ανεπιφύλακτα να δημιουργήσετε μια διαμόρφωση πολιτικής για την κλιμάκωση της παρακολούθησης στόχου για ένα αναπτυγμένο μοντέλο (παραλλαγή). Για περιπτώσεις χρήσης που μπορούν να ανεχθούν ποινή ψυχρής εκκίνησης λίγων λεπτών, μπορείτε προαιρετικά να μειώσετε το πλήθος των παρουσιών τελικού σημείου στο μηδέν όταν δεν υπάρχουν εκκρεμή αιτήματα και να κάνετε εφεδρική κλίμακα καθώς φτάνουν νέα αιτήματα, ώστε να πληρώνετε μόνο για τη διάρκεια που Τα τελικά σημεία επεξεργάζονται ενεργά αιτήματα.
Μοτίβο κυκλοφορίας	Τα ασύγχρονα τελικά σημεία τοποθετούν σε ουρά τα εισερχόμενα αιτήματα και τα επεξεργάζονται ασύγχρονα. Είναι μια καλή επιλογή για διαλείπουσα ή σπάνια κυκλοφορία.

Συμπεράσματα παρτίδας στο SageMaker

Ο μετασχηματισμός παρτίδας του SageMaker είναι ιδανικός για προβλέψεις εκτός σύνδεσης σε μεγάλες παρτίδες δεδομένων που είναι διαθέσιμες εκ των προτέρων. Η δυνατότητα μετασχηματισμού παρτίδας είναι μια μέθοδος υψηλής απόδοσης και υψηλής απόδοσης για τον μετασχηματισμό δεδομένων και τη δημιουργία συμπερασμάτων. Είναι ιδανικό για σενάρια όπου αντιμετωπίζετε μεγάλες παρτίδες δεδομένων, δεν χρειάζεστε δευτερεύοντα λανθάνοντα χρόνο ή χρειάζεται να προεπεξεργαστείτε και να μετασχηματίσετε τα δεδομένα εκπαίδευσης. Οι πελάτες σε ορισμένους τομείς όπως η διαφήμιση και το μάρκετινγκ ή η υγειονομική περίθαλψη χρειάζεται συχνά να κάνουν προβλέψεις εκτός σύνδεσης σε σύνολα δεδομένων υπερκλίμακας όπου η υψηλή απόδοση είναι συχνά ο στόχος της περίπτωσης χρήσης και η καθυστέρηση δεν προκαλεί ανησυχία.

Όταν ξεκινά μια εργασία μετασχηματισμού παρτίδας, το SageMaker προετοιμάζει τις περιπτώσεις υπολογισμού και κατανέμει το φόρτο εργασίας συμπερασμάτων μεταξύ τους. Απελευθερώνει τους πόρους όταν ολοκληρωθούν οι εργασίες, επομένως πληρώνετε μόνο για ό,τι χρησιμοποιήθηκε κατά τη διάρκεια της εργασίας σας. Όταν ολοκληρωθεί η εργασία, το SageMaker αποθηκεύει τα αποτελέσματα πρόβλεψης σε έναν κάδο S3 που έχετε καθορίσει. Οι εργασίες συμπερασμάτων παρτίδας είναι συνήθως καλοί υποψήφιοι για οριζόντια κλιμάκωση. Κάθε εργαζόμενος σε ένα σύμπλεγμα μπορεί να λειτουργήσει σε διαφορετικό υποσύνολο δεδομένων χωρίς την ανάγκη ανταλλαγής πληροφοριών με άλλους εργαζόμενους. Το AWS προσφέρει πολλαπλές επιλογές αποθήκευσης και υπολογισμού που επιτρέπουν την οριζόντια κλιμάκωση. Παραδείγματα φόρτου εργασίας για ομαδικό μετασχηματισμό του SageMaker περιλαμβάνουν εφαρμογές εκτός σύνδεσης, όπως τραπεζικές εφαρμογές για την πρόβλεψη εκτροπής πελατών, όπου μια εργασία εκτός σύνδεσης μπορεί να προγραμματιστεί να εκτελείται περιοδικά.

Ο παρακάτω πίνακας παρέχει οδηγίες για την αξιολόγηση του μετασχηματισμού παρτίδας του SageMaker με βάση τις λειτουργίες φυσικής κατάστασης.

Λειτουργία γυμναστικής	Περιγραφή
Κόστος	Ο μετασχηματισμός παρτίδας του SageMaker σάς επιτρέπει να εκτελείτε προβλέψεις σε μεγάλα ή μικρά σύνολα δεδομένων παρτίδας. Χρεώνεστε για τον τύπο παρουσίας που επιλέγετε, με βάση τη διάρκεια χρήσης. Το SageMaker διαχειρίζεται την παροχή πόρων στην αρχή της εργασίας και τους αποδεσμεύει όταν ολοκληρωθεί η εργασία. Δεν υπάρχει επιπλέον κόστος επεξεργασίας δεδομένων.
Καθυστέρηση συμπερασμάτων	Μπορείτε να χρησιμοποιήσετε επίκληση βάσει συμβάντων ή προγραμματισμένη. Η καθυστέρηση μπορεί να ποικίλλει ανάλογα με το μέγεθος των δεδομένων εξαγωγής συμπερασμάτων, τη ταυτόχρονη εργασία, την πολυπλοκότητα του μοντέλου και την ικανότητα υπολογισμού του στιγμιότυπου.
Διακίνηση	Οι εργασίες μετασχηματισμού παρτίδας μπορούν να γίνουν σε μια σειρά συνόλων δεδομένων, από petabyte δεδομένων έως πολύ μικρά σύνολα δεδομένων. Δεν χρειάζεται να αλλάξετε το μέγεθος των μεγαλύτερων συνόλων δεδομένων σε μικρά κομμάτια δεδομένων. Μπορείτε να επιταχύνετε εργασίες μαζικής μετατροπής χρησιμοποιώντας βέλτιστες τιμές για παραμέτρους όπως π.χ MaxPayloadInMB, MaxConcurrentTransforms, ή Στρατηγική παρτίδας. Η ιδανική τιμή για `MaxConcurrentTransforms` ισούται με τον αριθμό των εργαζομένων στον υπολογιστή στην εργασία μετασχηματισμού παρτίδας. Η μαζική επεξεργασία μπορεί να αυξήσει την απόδοση και να βελτιστοποιήσει τους πόρους σας, επειδή συμβάλλει στην ολοκλήρωση μεγαλύτερου αριθμού συμπερασμάτων σε ένα ορισμένο χρονικό διάστημα εις βάρος του λανθάνοντος χρόνου. Για να βελτιστοποιήσετε την ανάπτυξη του μοντέλου για υψηλότερη απόδοση, η γενική οδηγία είναι να αυξήσετε το μέγεθος της παρτίδας μέχρι να μειωθεί η απόδοση.
Πολυπλοκότητα διαμόρφωσης κλιμάκωσης	Ο μετασχηματισμός παρτίδας του SageMaker χρησιμοποιείται για συμπεράσματα εκτός σύνδεσης που δεν είναι ευαίσθητα σε καθυστέρηση.
Μοτίβο κυκλοφορίας	Για συμπεράσματα εκτός σύνδεσης, προγραμματίζεται ή ξεκινά μια εργασία μετασχηματισμού παρτίδας χρησιμοποιώντας έναν κανόνα που βασίζεται σε συμβάντα.

Συμπεράσματα χωρίς διακομιστή στο SageMaker

Το συμπέρασμα χωρίς διακομιστή του SageMaker σάς επιτρέπει να αναπτύξετε μοντέλα ML για εξαγωγή συμπερασμάτων χωρίς να χρειάζεται να διαμορφώσετε ή να διαχειριστείτε την υποκείμενη υποδομή. Με βάση τον όγκο των αιτημάτων συμπερασμάτων που λαμβάνει το μοντέλο σας, το συμπέρασμα χωρίς διακομιστή SageMaker παρέχει αυτόματα, κλιμακώνει και απενεργοποιεί την υπολογιστική ικανότητα. Ως αποτέλεσμα, πληρώνετε μόνο για τον υπολογιστικό χρόνο εκτέλεσης του κωδικού συμπερασμάτων σας και την ποσότητα των δεδομένων που υποβάλλονται σε επεξεργασία, όχι για τον χρόνο αδράνειας. Μπορείτε να χρησιμοποιήσετε τους ενσωματωμένους αλγόριθμους του SageMaker και τα κοντέινερ που εξυπηρετούν πλαίσιο ML για να αναπτύξετε το μοντέλο σας σε ένα τελικό σημείο συμπερασμάτων χωρίς διακομιστή ή να επιλέξετε να φέρετε το δικό σας κοντέινερ. Εάν η κυκλοφορία γίνει προβλέψιμη και σταθερή, μπορείτε εύκολα να ενημερώσετε από ένα τελικό σημείο συμπερασμάτων χωρίς διακομιστή σε ένα τελικό σημείο SageMaker σε πραγματικό χρόνο χωρίς να χρειάζεται να κάνετε αλλαγές στην εικόνα του κοντέινερ σας. Με το συμπέρασμα χωρίς διακομιστή, επωφεληθείτε επίσης από άλλες δυνατότητες του SageMaker, συμπεριλαμβανομένων των ενσωματωμένων μετρήσεων, όπως ο αριθμός κλήσεων, τα σφάλματα, ο λανθάνοντας χρόνος, οι μετρήσεις κεντρικού υπολογιστή και τα σφάλματα στο CloudWatch.

Ο παρακάτω πίνακας παρέχει οδηγίες για την αξιολόγηση των συμπερασμάτων χωρίς διακομιστή του SageMaker με βάση τις λειτουργίες φυσικής κατάστασης.

Λειτουργία γυμναστικής	Περιγραφή
Κόστος	Με ένα μοντέλο πληρωμής, το συμπέρασμα χωρίς διακομιστή είναι μια οικονομικά αποδοτική επιλογή εάν έχετε σπάνια ή διακοπτόμενα μοτίβα κυκλοφορίας. Πληρώνετε μόνο για τη διάρκεια για την οποία το τελικό σημείο επεξεργάζεται το αίτημα και επομένως μπορείτε να εξοικονομήσετε κόστος εάν το μοτίβο επισκεψιμότητας είναι διακοπτόμενο.
Καθυστέρηση συμπερασμάτων	Τα τελικά σημεία χωρίς διακομιστή προσφέρουν χαμηλό λανθάνοντα χρόνο συμπερασμάτων (της τάξης των χιλιοστών του δευτερολέπτου έως δευτερολέπτων), με δυνατότητα άμεσης κλίμακας από δεκάδες σε χιλιάδες συμπεράσματα μέσα σε δευτερόλεπτα βάσει των μοτίβων χρήσης, καθιστώντας το ιδανικό για εφαρμογές ML με διακοπτόμενη ή απρόβλεπτη κίνηση. Επειδή η παροχή τερματικών σημείων χωρίς διακομιστή υπολογίζει πόρους κατ' απαίτηση, το τελικό σημείο μπορεί να αντιμετωπίσει μερικά επιπλέον δευτερόλεπτα καθυστέρησης (ψυχρή εκκίνηση) για την πρώτη κλήση μετά από μια περίοδο αδράνειας. Ο χρόνος ψυχρής εκκίνησης εξαρτάται από το μέγεθος του μοντέλου σας, τον χρόνο που χρειάζεται για τη λήψη του μοντέλου σας και τον χρόνο εκκίνησης του κοντέινερ σας.
Διακίνηση	Όταν διαμορφώνετε το τελικό σημείο χωρίς διακομιστή, μπορείτε να καθορίσετε το μέγεθος της μνήμης και τον μέγιστο αριθμό ταυτόχρονων κλήσεων. Το συμπέρασμα χωρίς διακομιστή SageMaker εκχωρεί αυτόματα υπολογιστικούς πόρους ανάλογα με τη μνήμη που επιλέγετε. Εάν επιλέξετε μεγαλύτερο μέγεθος μνήμης, το κοντέινερ σας έχει πρόσβαση σε περισσότερες vCPU. Κατά γενικό κανόνα, το μέγεθος της μνήμης πρέπει να είναι τουλάχιστον τόσο μεγάλο όσο το μέγεθος του μοντέλου σας. Τα μεγέθη μνήμης που μπορείτε να επιλέξετε είναι 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB και 6144 MB. Ανεξάρτητα από το μέγεθος της μνήμης που επιλέγετε, τα τελικά σημεία χωρίς διακομιστή διαθέτουν 5 GB εφήμερης αποθήκευσης δίσκου.
Πολυπλοκότητα διαμόρφωσης κλιμάκωσης	Τα τελικά σημεία χωρίς διακομιστή εκκινούν αυτόματα υπολογιστικούς πόρους και τους κλιμακώνουν μέσα και έξω ανάλογα με την επισκεψιμότητα, εξαλείφοντας την ανάγκη επιλογής τύπων παρουσιών ή διαχείρισης πολιτικών κλιμάκωσης. Αυτό αφαιρεί την αδιαφοροποίητη βαριά άρση της επιλογής και της διαχείρισης διακομιστών.
Μοτίβο κυκλοφορίας	Το συμπέρασμα χωρίς διακομιστή είναι ιδανικό για φόρτους εργασίας με σπάνια ή διακοπτόμενα μοτίβα κυκλοφορίας.

Μοτίβα σχεδιασμού φιλοξενίας μοντέλων στο SageMaker

Τα τελικά σημεία συμπερασμάτων SageMaker χρησιμοποιούν κοντέινερ Docker για τη φιλοξενία μοντέλων ML. Τα κοντέινερ σάς επιτρέπουν να πακετάρετε λογισμικό σε τυποποιημένες μονάδες που εκτελούνται με συνέπεια σε οποιαδήποτε πλατφόρμα που υποστηρίζει το Docker. Αυτό εξασφαλίζει φορητότητα σε όλες τις πλατφόρμες, αμετάβλητες αναπτύξεις υποδομής και ευκολότερη διαχείριση αλλαγών και υλοποιήσεις CI/CD. Το SageMaker παρέχει προκατασκευασμένα διαχειριζόμενα κοντέινερ για δημοφιλή πλαίσια όπως το Apache MXNet, το TensorFlow, το PyTorch, το Sklearn και το Hugging Face. Για μια πλήρη λίστα με τις διαθέσιμες εικόνες κοντέινερ SageMaker, ανατρέξτε στο Διαθέσιμες εικόνες Deep Learning Containers. Στην περίπτωση που το SageMaker δεν διαθέτει υποστηριζόμενο κοντέινερ, μπορείτε επίσης να δημιουργήσετε το δικό σας κοντέινερ (BYOC) και να προωθήσετε τη δική σας προσαρμοσμένη εικόνα, εγκαθιστώντας τις εξαρτήσεις που είναι απαραίτητες για το μοντέλο σας.

Για να αναπτύξετε ένα μοντέλο στο SageMaker, χρειάζεστε ένα κοντέινερ (κοντέινερ διαχειριζόμενου πλαισίου SageMaker ή BYOC) και μια υπολογιστική παρουσία για να φιλοξενήσει το κοντέινερ. Το SageMaker υποστηρίζει πολλαπλές προηγμένες επιλογές για κοινά μοτίβα σχεδιασμού φιλοξενίας μοντέλων ML, όπου τα μοντέλα μπορούν να φιλοξενηθούν σε ένα μόνο κοντέινερ ή να φιλοξενηθούν από κοινού σε ένα κοινόχρηστο κοντέινερ.

Μια εφαρμογή ML σε πραγματικό χρόνο μπορεί να χρησιμοποιεί ένα μόνο μοντέλο ή πολλά μοντέλα για να εξυπηρετήσει ένα μόνο αίτημα πρόβλεψης. Το παρακάτω διάγραμμα δείχνει διάφορα σενάρια συμπερασμάτων για μια εφαρμογή ML.

Ας εξερευνήσουμε μια κατάλληλη επιλογή φιλοξενίας SageMaker για καθένα από τα προηγούμενα σενάρια συμπερασμάτων. Μπορείτε να ανατρέξετε στις λειτουργίες φυσικής κατάστασης για να αξιολογήσετε εάν είναι η σωστή επιλογή για τη συγκεκριμένη περίπτωση χρήσης.

Φιλοξενία μιας εφαρμογής ML που βασίζεται σε ένα μοντέλο

Υπάρχουν πολλές επιλογές για τη φιλοξενία εφαρμογών ML που βασίζονται σε ένα μοντέλο χρησιμοποιώντας υπηρεσίες φιλοξενίας SageMaker ανάλογα με το σενάριο ανάπτυξης.

Τελικό σημείο ενός μοντέλου

Τα τελικά σημεία ενός μοντέλου του SageMaker σάς επιτρέπουν να φιλοξενείτε ένα μοντέλο σε ένα κοντέινερ που φιλοξενείται σε αποκλειστικές παρουσίες για χαμηλό λανθάνοντα χρόνο και υψηλή απόδοση. Αυτά τα τελικά σημεία διαχειρίζονται πλήρως και υποστηρίζουν την αυτόματη κλιμάκωση. Μπορείτε να διαμορφώσετε το τελικό σημείο ενός μοντέλου ως προβλεπόμενο τελικό σημείο όπου μεταβιβάζετε στη διαμόρφωση υποδομής τελικού σημείου, όπως ο τύπος και ο αριθμός παρουσίας, ή ένα τελικό σημείο χωρίς διακομιστή όπου το SageMaker εκκινεί αυτόματα υπολογιστικούς πόρους και τους κλιμακώνει εντός και εκτός ανάλογα με την κίνηση, εξαλείφοντας την ανάγκη για να επιλέξετε τύπους παρουσιών ή να διαχειριστείτε πολιτικές κλιμάκωσης. Τα τελικά σημεία χωρίς διακομιστή προορίζονται για εφαρμογές με διακοπτόμενη ή απρόβλεπτη κίνηση.

Το παρακάτω διάγραμμα δείχνει σενάρια συμπερασμάτων τελικού σημείου ενός μοντέλου.

Ο παρακάτω πίνακας παρέχει καθοδήγηση σχετικά με την αξιολόγηση των λειτουργιών φυσικής κατάστασης για ένα προβλεπόμενο τελικό σημείο ενός μοντέλου. Για αξιολογήσεις λειτουργιών καταλληλότητας τελικού σημείου χωρίς διακομιστή, ανατρέξτε στην ενότητα τελικού σημείου χωρίς διακομιστή σε αυτήν την ανάρτηση.

Λειτουργία γυμναστικής	Περιγραφή
Κόστος	Χρεώνεστε για τη χρήση του τύπου παρουσίας που επιλέγετε. Επειδή το τελικό σημείο είναι πάντα σε λειτουργία και διαθέσιμο, το κόστος μπορεί γρήγορα να αυξηθεί. Η επιλογή της σωστής παρουσίας για το μοντέλο σας βοηθά να διασφαλίσετε ότι έχετε την πιο αποδοτική παρουσία με το χαμηλότερο κόστος για τα μοντέλα σας. Συνιστάται η αυτόματη κλιμάκωση για δυναμική προσαρμογή της χωρητικότητας ανάλογα με την κίνηση, ώστε να διατηρείται σταθερή και προβλέψιμη απόδοση με το δυνατό χαμηλότερο κόστος.
Καθυστέρηση συμπερασμάτων	Ένα τελικό σημείο ενός μοντέλου παρέχει σε πραγματικό χρόνο, διαδραστικά, σύγχρονα συμπεράσματα με απαιτήσεις καθυστέρησης χιλιοστού του δευτερολέπτου.
Διακίνηση	Η απόδοση μπορεί να επηρεαστεί από διάφορους παράγοντες, όπως το μέγεθος εισόδου του μοντέλου, το μέγεθος παρτίδας, τον τύπο εμφάνισης τελικού σημείου και ούτω καθεξής. Συνιστάται να ελέγχετε τις μετρήσεις CloudWatch για αιτήματα εισόδου και χρήση πόρων και να επιλέξετε τον κατάλληλο τύπο παρουσίας για να επιτύχετε τη βέλτιστη απόδοση. Το SageMaker παρέχει δυνατότητες διαχείρισης πόρων και βελτιστοποίησης της απόδοσης συμπερασμάτων κατά την ανάπτυξη μοντέλων ML. Μπορείς βελτιστοποιήστε την απόδοση του μοντέλου χρησιμοποιώντας το Neo, ή χρησιμοποιήστε παρουσίες Inf1 για καλύτερη απόδοση των μοντέλων που φιλοξενούνται στο SageMaker χρησιμοποιώντας μια παρουσία GPU για το τελικό σας σημείο.
Πολυπλοκότητα διαμόρφωσης κλιμάκωσης	Η αυτόματη κλιμάκωση υποστηρίζεται εκτός συσκευασίας. Το SageMaker συνιστά να επιλέξετε ένα κατάλληλο διαμόρφωση κλιμάκωσης με την εκτέλεση δοκιμές φορτίου.
Μοτίβο κυκλοφορίας	Ένα τελικό σημείο ενός μοντέλου είναι ιδανικό για φόρτους εργασίας με προβλέψιμα μοτίβα κυκλοφορίας.

Συν-φιλοξενία πολλαπλών μοντέλων

Όταν έχετε να κάνετε με μεγάλο αριθμό μοντέλων, η ανάπτυξη του καθενός σε ένα μεμονωμένο τελικό σημείο με ένα αποκλειστικό κοντέινερ και παράδειγμα μπορεί να οδηγήσει σε σημαντική αύξηση του κόστους. Επιπλέον, γίνεται επίσης δύσκολο να διαχειριστείτε τόσα πολλά μοντέλα στην παραγωγή, ειδικά όταν δεν χρειάζεται να επικαλεστείτε όλα τα μοντέλα ταυτόχρονα, αλλά εξακολουθείτε να χρειάζεστε να είναι διαθέσιμα ανά πάσα στιγμή. Η από κοινού φιλοξενία πολλαπλών μοντέλων στους ίδιους υποκείμενους υπολογιστικούς πόρους καθιστά εύκολη τη διαχείριση των αναπτύξεων ML σε κλίμακα και μειώνει το κόστος φιλοξενίας μέσω της αυξημένης χρήσης του τελικού σημείου και των υποκείμενων υπολογιστικών πόρων του. Το SageMaker υποστηρίζει προηγμένες επιλογές από κοινού φιλοξενίας μοντέλων, όπως τελικό σημείο πολλαπλών μοντέλων (MME) για ομοιογενή μοντέλα και τελικό σημείο πολλαπλών κοντέινερ (MCE) για ετερογενή μοντέλα. Τα ομοιογενή μοντέλα χρησιμοποιούν το ίδιο πλαίσιο ML σε ένα κοινόχρηστο κοντέινερ υπηρεσίας, ενώ τα ετερογενή μοντέλα σάς επιτρέπουν να αναπτύξετε πολλά κοντέινερ εξυπηρέτησης που χρησιμοποιούν διαφορετικά μοντέλα ή πλαίσια σε ένα μόνο τελικό σημείο.

Το παρακάτω διάγραμμα δείχνει τις επιλογές συν-φιλοξενίας μοντέλου χρησιμοποιώντας το SageMaker.

Καταληκτικά σημεία πολλαπλών μοντέλων SageMaker

SageMaker ΜΜΕ σας επιτρέπει να φιλοξενείτε πολλά μοντέλα χρησιμοποιώντας ένα κοινόχρηστο κοντέινερ σερβιρίσματος σε ένα μόνο τελικό σημείο. Αυτή είναι μια επεκτάσιμη και οικονομικά αποδοτική λύση για την ανάπτυξη μεγάλου αριθμού μοντέλων που καλύπτουν την ίδια περίπτωση χρήσης, πλαίσιο ή λογική συμπερασμάτων. Τα MME μπορούν να εξυπηρετούν δυναμικά αιτήματα με βάση το μοντέλο που επικαλείται ο καλών. Επίσης, μειώνει τα έξοδα ανάπτυξης, επειδή το SageMaker διαχειρίζεται τη φόρτωση μοντέλων στη μνήμη και την κλιμάκωση τους με βάση τα μοτίβα κυκλοφορίας σε αυτά. Αυτή η λειτουργία είναι ιδανική όταν έχετε μεγάλο αριθμό παρόμοιων μοντέλων που μπορείτε να σερβίρετε μέσω ενός κοινόχρηστου κοντέινερ σερβιρίσματος και δεν χρειάζεται να έχετε πρόσβαση σε όλα τα μοντέλα ταυτόχρονα. Τα τελικά σημεία πολλαπλών μοντέλων επιτρέπουν επίσης τη χρονική κοινή χρήση πόρων μνήμης στα μοντέλα σας. Αυτό λειτουργεί καλύτερα όταν τα μοντέλα είναι αρκετά παρόμοια σε μέγεθος και καθυστέρηση επίκλησης, επιτρέποντας στα MME να χρησιμοποιούν αποτελεσματικά τις παρουσίες σε όλα τα μοντέλα. Τα MME του SageMaker υποστηρίζουν τη φιλοξενία μοντέλων με υποστήριξη CPU και GPU. Χρησιμοποιώντας μοντέλα που υποστηρίζονται από GPU, μπορείτε να μειώσετε το κόστος ανάπτυξης του μοντέλου σας μέσω της αυξημένης χρήσης του τελικού σημείου και των υποκείμενων επιταχυνόμενων παρουσιών υπολογισμού του. Για μια πραγματική περίπτωση χρήσης MME, ανατρέξτε στο Πώς να κλιμακώσετε τα συμπεράσματα μηχανικής εκμάθησης για περιπτώσεις χρήσης SaaS πολλαπλών μισθωτών.

Ο παρακάτω πίνακας παρέχει οδηγίες για την αξιολόγηση των λειτουργιών φυσικής κατάστασης για MME.

Λειτουργία γυμναστικής	Περιγραφή
Κόστος	Τα MME επιτρέπουν τη χρήση ενός κοινόχρηστου κοντέινερ εξυπηρέτησης για τη φιλοξενία χιλιάδων μοντέλων σε ένα μόνο τελικό σημείο. Αυτό μειώνει σημαντικά το κόστος φιλοξενίας βελτιώνοντας τη χρήση τελικού σημείου σε σύγκριση με τη χρήση τελικών σημείων ενός μοντέλου. Για παράδειγμα, εάν έχετε 10 μοντέλα για ανάπτυξη χρησιμοποιώντας μια παρουσία ml.c5.large, με βάση Τιμολόγηση SageMaker, το κόστος της ύπαρξης 10 μόνιμων τελικών σημείων ενός μοντέλου είναι: 10 * 0.102 $ = 1.02 $ ανά ώρα. Ενώ με ένα MME που φιλοξενεί τα 10 μοντέλα, επιτυγχάνουμε 10 φορές εξοικονόμηση κόστους: 1 * 0.102 $ = 0.102 $ ανά ώρα.
Καθυστέρηση συμπερασμάτων	Από προεπιλογή, τα MME αποθηκεύουν στην κρυφή μνήμη τα μοντέλα που χρησιμοποιούνται συχνά στη μνήμη και στο δίσκο για να παρέχουν συμπεράσματα χαμηλής καθυστέρησης. Τα μοντέλα που έχουν αποθηκευτεί στην κρυφή μνήμη εκφορτώνονται ή διαγράφονται από το δίσκο μόνο όταν εξαντλείται η μνήμη ή ο χώρος στο κοντέινερ για να φιλοξενήσει ένα νέο στοχευμένο μοντέλο. Τα MME επιτρέπουν την αργή φόρτωση μοντέλων, πράγμα που σημαίνει ότι τα μοντέλα φορτώνονται στη μνήμη όταν καλούνται για πρώτη φορά. Αυτό βελτιστοποιεί τη χρήση της μνήμης. Ωστόσο, προκαλεί αιχμές στο χρόνο απόκρισης κατά την πρώτη φόρτιση, με αποτέλεσμα ένα πρόβλημα ψυχρής εκκίνησης. Επομένως, τα MME είναι επίσης κατάλληλα για σενάρια που μπορούν να ανεχτούν περιστασιακές ποινές καθυστέρησης που σχετίζονται με την ψυχρή εκκίνηση που προκύπτουν κατά την επίκληση μοντέλων που δεν χρησιμοποιούνται συχνά. Για την επίτευξη των στόχων καθυστέρησης και απόδοσης των εφαρμογών ML, οι παρουσίες GPU προτιμώνται έναντι των παρουσιών CPU (δεδομένης της προσφοράς των GPU υπολογιστικής ισχύος). Με την υποστήριξη MME για GPU, μπορείτε να αναπτύξετε χιλιάδες μοντέλα βαθιάς εκμάθησης πίσω από ένα τελικό σημείο του SageMaker. Τα MME μπορούν να εκτελούν πολλά μοντέλα σε έναν πυρήνα GPU, να μοιράζονται στιγμιότυπα GPU πίσω από ένα τελικό σημείο σε πολλά μοντέλα και να φορτώνουν και να ξεφορτώνουν δυναμικά μοντέλα με βάση την εισερχόμενη κίνηση. Με αυτό, μπορείτε να εξοικονομήσετε σημαντικά κόστος και να επιτύχετε την καλύτερη απόδοση τιμής. Εάν η περίπτωση χρήσης σας απαιτεί σημαντικά υψηλότερες συναλλαγές ανά δευτερόλεπτο (TPS) ή απαιτήσεις καθυστέρησης, συνιστούμε τη φιλοξενία των μοντέλων σε αποκλειστικά τελικά σημεία.
Διακίνηση	Μια ιδανική τιμή της απόδοσης συμπερασμάτων MME εξαρτάται από παράγοντες όπως το μοντέλο, το μέγεθος ωφέλιμου φορτίου και ο τύπος παρουσίας τελικού σημείου. Η μεγαλύτερη ποσότητα μνήμης στιγμιότυπων σάς επιτρέπει να έχετε φορτωμένα περισσότερα μοντέλα και έτοιμα να εξυπηρετήσουν αιτήματα συμπερασμάτων. Δεν χρειάζεται να χάσετε χρόνο για να φορτώσετε το μοντέλο. Ένας μεγαλύτερος αριθμός vCPU σάς δίνει τη δυνατότητα να επικαλείτε περισσότερα μοναδικά μοντέλα ταυτόχρονα. Τα MME φορτώνουν και ξεφορτώνουν δυναμικά το μοντέλο προς και από τη μνήμη παρουσίας, κάτι που μπορεί να επηρεάσει την απόδοση I/O. Τα MME SageMaker με GPU λειτουργούν χρησιμοποιώντας NVIDIA Triton Inference Server, το οποίο είναι ένα λογισμικό παροχής συμπερασμάτων ανοιχτού κώδικα που απλοποιεί τη διαδικασία εξυπηρέτησης συμπερασμάτων και παρέχει υψηλή απόδοση συμπερασμάτων. Το SageMaker φορτώνει το μοντέλο στη μνήμη του κοντέινερ NVIDIA Triton σε μια παρουσία με επιτάχυνση GPU και εξυπηρετεί το αίτημα συμπερασμάτων. Ο πυρήνας της GPU είναι κοινός σε όλα τα μοντέλα σε μια περίπτωση. Εάν το μοντέλο έχει ήδη φορτωθεί στη μνήμη του κοντέινερ, τα επόμενα αιτήματα εξυπηρετούνται πιο γρήγορα επειδή το SageMaker δεν χρειάζεται να το κατεβάσει και να το φορτώσει ξανά. Συνιστάται η σωστή δοκιμή και ανάλυση απόδοσης σε επιτυχημένες αναπτύξεις παραγωγής. Το SageMaker παρέχει μετρήσεις CloudWatch για τελικά σημεία πολλαπλών μοντέλων, ώστε να μπορείτε να προσδιορίσετε τη χρήση του τελικού σημείου και το ποσοστό επισκέψεων στην κρυφή μνήμη για να βελτιστοποιήσετε το τελικό σημείο σας.
Πολυπλοκότητα διαμόρφωσης κλιμάκωσης	Τα τελικά σημεία πολλαπλών μοντέλων του SageMaker υποστηρίζουν πλήρως την αυτόματη κλιμάκωση, η οποία διαχειρίζεται αντίγραφα μοντέλων για να διασφαλίσει την κλίμακα μοντέλων με βάση τα μοτίβα κυκλοφορίας. Ωστόσο, συνιστάται μια σωστή δοκιμή φορτίου για τον προσδιορισμό του βέλτιστου μεγέθους των περιπτώσεων για αυτόματη κλιμάκωση του τελικού σημείου. Το σωστό μέγεθος του στόλου MME είναι σημαντικό για να αποφευχθεί η εκφόρτωση πολλών μοντέλων. Η φόρτωση εκατοντάδων μοντέλων σε μερικές μεγαλύτερες περιπτώσεις μπορεί να οδηγήσει σε στραγγαλισμό σε ορισμένες περιπτώσεις και θα μπορούσε να προτιμηθεί η χρήση περισσότερων και μικρότερων παρουσιών. Για να επωφεληθείτε από την αυτοματοποιημένη κλιμάκωση μοντέλων στο SageMaker, βεβαιωθείτε ότι έχετε ρύθμιση αυτόματης κλιμάκωσης για την παροχή πρόσθετης χωρητικότητας παρουσίας. Ρυθμίστε την πολιτική κλιμάκωσης σε επίπεδο τελικού σημείου είτε με προσαρμοσμένες παραμέτρους είτε με επικλήσεις ανά λεπτό (συνιστάται) για να προσθέσετε περισσότερες παρουσίες στο στόλο τελικών σημείων. Τα ποσοστά επίκλησης που χρησιμοποιούνται για την ενεργοποίηση ενός συμβάντος αυτόματης κλίμακας βασίζονται στο συγκεντρωτικό σύνολο προβλέψεων σε όλο το σύνολο των μοντέλων που εξυπηρετούνται από το τελικό σημείο.
Μοτίβο κυκλοφορίας	Τα MME είναι ιδανικά όταν έχετε μεγάλο αριθμό μοντέλων παρόμοιου μεγέθους που μπορείτε να σερβίρετε μέσω ενός κοινόχρηστου κοντέινερ σερβιρίσματος και δεν χρειάζεται να έχετε πρόσβαση σε όλα τα μοντέλα ταυτόχρονα.

Τελικά σημεία SageMaker πολλαπλών κοντέινερ

SageMaker MCEs υποστηρίζει την ανάπτυξη έως και 15 κοντέινερ που χρησιμοποιούν διαφορετικά μοντέλα ή πλαίσια σε ένα μόνο τελικό σημείο και την επίκλησή τους ανεξάρτητα ή διαδοχικά για εξαγωγή συμπερασμάτων χαμηλής καθυστέρησης και εξοικονόμηση κόστους. Τα μοντέλα μπορεί να είναι εντελώς ετερογενή, με τη δική τους ανεξάρτητη στοίβα σερβιρίσματος. Η ασφαλής φιλοξενία πολλαπλών μοντέλων από διαφορετικά πλαίσια σε μία μόνο περίπτωση θα μπορούσε να σας εξοικονομήσει έως και 90% σε κόστος.

Τα μοτίβα επίκλησης MCE είναι τα εξής:

Σωληνώσεις συμπερασμάτων – Τα κοντέινερ σε ένα MME μπορούν να κληθούν με γραμμική ακολουθία, γνωστή και ως α σειριακός αγωγός συμπερασμάτων. Συνήθως χρησιμοποιούνται για τον διαχωρισμό της προεπεξεργασίας, της εξαγωγής μοντέλων και της μεταεπεξεργασίας σε ανεξάρτητα δοχεία. Η έξοδος από το τρέχον κοντέινερ μεταβιβάζεται ως είσοδος στο επόμενο. Αντιπροσωπεύονται ως ένα μοντέλο ενιαίου αγωγού στο SageMaker. Ένας αγωγός συμπερασμάτων μπορεί να αναπτυχθεί ως MME, όπου ένα από τα κοντέινερ στον αγωγό μπορεί να εξυπηρετεί δυναμικά αιτήματα με βάση το μοντέλο που επικαλείται.
Απευθείας επίκληση - Με άμεση επίκληση, ένα αίτημα μπορεί να σταλεί σε ένα συγκεκριμένο κοντέινερ συμπερασμάτων που φιλοξενείται σε ένα MCE.

Ο παρακάτω πίνακας παρέχει οδηγίες για την αξιολόγηση των λειτουργιών φυσικής κατάστασης για MCE.

Λειτουργία γυμναστικής	Περιγραφή
Κόστος	Τα MCE σάς επιτρέπουν να τρέχετε έως και 15 διαφορετικά κοντέινερ ML σε ένα μόνο τελικό σημείο και να τα επικαλείτε ανεξάρτητα, εξοικονομώντας έτσι κόστος. Αυτή η επιλογή είναι ιδανική όταν έχετε πολλά μοντέλα που εκτελούνται σε διαφορετικές στοίβες εξυπηρέτησης με παρόμοιες ανάγκες σε πόρους και όταν μεμονωμένα μοντέλα δεν έχουν επαρκή επισκεψιμότητα για να αξιοποιήσουν την πλήρη χωρητικότητα των παρουσιών τελικού σημείου. Ως εκ τούτου, τα MCE είναι πιο οικονομικά αποδοτικά από ένα τελικό σημείο ενός μοντέλου. Τα MCE προσφέρουν σύγχρονη απόκριση συμπερασμάτων, πράγμα που σημαίνει ότι το τελικό σημείο είναι πάντα διαθέσιμο και πληρώνετε για το χρόνο λειτουργίας της παρουσίας. Το κόστος μπορεί να αθροιστεί ανάλογα με τον αριθμό και τον τύπο των περιπτώσεων.
Καθυστέρηση συμπερασμάτων	Τα MCE είναι ιδανικά για την εκτέλεση εφαρμογών ML με διαφορετικά πλαίσια και αλγόριθμους ML για κάθε μοντέλο, στα οποία γίνεται σπάνια πρόσβαση, αλλά εξακολουθούν να απαιτούν συμπέρασμα χαμηλής καθυστέρησης. Τα μοντέλα είναι πάντα διαθέσιμα για συμπέρασμα χαμηλής καθυστέρησης και δεν υπάρχει πρόβλημα ψυχρής εκκίνησης.
Διακίνηση	Τα MCE περιορίζονται σε έως και 15 κοντέινερ σε ένα τελικό σημείο πολλαπλών κοντέινερ και δεν υποστηρίζεται συμπέρασμα GPU λόγω διαμάχης πόρων. Για τα τελικά σημεία πολλών κοντέινερ που χρησιμοποιούν τη λειτουργία άμεσης επίκλησης, το SageMaker όχι μόνο παρέχει μετρήσεις σε επίπεδο παρουσίας όπως κάνει με άλλα κοινά τελικά σημεία, αλλά υποστηρίζει και μετρήσεις ανά κοντέινερ. Ως βέλτιστη πρακτική, ελέγξτε τις μετρήσεις CloudWatch για αιτήματα εισόδου και χρήση πόρων και επιλέξτε τον κατάλληλο τύπο παρουσίας για να επιτύχετε τη βέλτιστη απόδοση.
Πολυπλοκότητα διαμόρφωσης κλιμάκωσης	Τα MCE υποστηρίζουν αυτόματη κλιμάκωση. Ωστόσο, για να διαμορφωθεί η αυτόματη κλιμάκωση, συνιστάται το μοντέλο σε κάθε κοντέινερ να εμφανίζει παρόμοια χρήση της CPU και καθυστέρηση σε κάθε αίτημα συμπερασμάτων. Αυτό συνιστάται επειδή εάν η επισκεψιμότητα στο τελικό σημείο πολλαπλών κοντέινερ μετατοπιστεί από ένα μοντέλο χαμηλής χρήσης CPU σε ένα μοντέλο υψηλής χρήσης CPU, αλλά ο συνολικός όγκος κλήσεων παραμένει ίδιος, το τελικό σημείο δεν μειώνεται και ενδέχεται να μην υπάρχουν αρκετές παρουσίες για να χειριστεί όλα τα αιτήματα στο μοντέλο υψηλής χρήσης CPU.
Μοτίβο κυκλοφορίας	Τα MCE είναι ιδανικά για φόρτους εργασίας με συνεχή ή κανονικά μοτίβα επισκεψιμότητας, για φιλοξενία μοντέλων σε διαφορετικά πλαίσια (όπως το TensorFlow, το PyTorch ή το Sklearn) που ενδέχεται να μην έχουν επαρκή επισκεψιμότητα για να κορεστεί η πλήρης χωρητικότητα μιας παρουσίας τελικού σημείου.

Φιλοξενία μιας εφαρμογής ML που βασίζεται σε πολλά μοντέλα

Πολλές επιχειρηματικές εφαρμογές πρέπει να χρησιμοποιούν πολλαπλά μοντέλα ML για να εξυπηρετήσουν ένα μόνο αίτημα πρόβλεψης στους καταναλωτές τους. Για παράδειγμα, μια εταιρεία λιανικής που θέλει να παρέχει συστάσεις στους χρήστες της. Η εφαρμογή ML σε αυτήν την περίπτωση χρήσης μπορεί να θέλει να χρησιμοποιήσει διαφορετικά προσαρμοσμένα μοντέλα για να προτείνει διαφορετικές κατηγορίες προϊόντων. Εάν η εταιρεία θέλει να προσθέσει εξατομίκευση στις προτάσεις χρησιμοποιώντας μεμονωμένα στοιχεία χρήστη, ο αριθμός των προσαρμοσμένων μοντέλων αυξάνεται περαιτέρω. Η φιλοξενία κάθε προσαρμοσμένου μοντέλου σε μια ξεχωριστή παρουσία υπολογιστών δεν είναι μόνο απαγορευτική από το κόστος, αλλά οδηγεί επίσης σε υποχρησιμοποίηση των πόρων φιλοξενίας, εάν δεν χρησιμοποιούνται συχνά όλα τα μοντέλα. Το SageMaker προσφέρει αποτελεσματικές επιλογές φιλοξενίας για εφαρμογές ML που βασίζονται σε πολλά μοντέλα.

Το παρακάτω διάγραμμα δείχνει επιλογές φιλοξενίας πολλαπλών μοντέλων για ένα μόνο τελικό σημείο χρησιμοποιώντας το SageMaker.

Σειριακός αγωγός συμπερασμάτων

Ένας αγωγός συμπερασμάτων είναι ένα μοντέλο SageMaker που αποτελείται από μια γραμμική ακολουθία 2–15 δοχείων που επεξεργάζονται αιτήματα για συμπεράσματα σε δεδομένα. Χρησιμοποιείτε μια διοχέτευση συμπερασμάτων για να ορίσετε και να αναπτύξετε οποιονδήποτε συνδυασμό προεκπαιδευμένων ενσωματωμένων αλγορίθμων του SageMaker και των δικών σας προσαρμοσμένων αλγορίθμων συσκευασμένων σε κοντέινερ Docker. Μπορείτε να χρησιμοποιήσετε μια διοχέτευση συμπερασμάτων για να συνδυάσετε εργασίες προεπεξεργασίας, προβλέψεων και μεταεπεξεργασίας εργασιών επιστήμης δεδομένων. Η έξοδος από το ένα δοχείο μεταφέρεται ως είσοδος στο επόμενο. Όταν ορίζετε τα κοντέινερ για ένα μοντέλο διοχέτευσης, καθορίζετε επίσης τη σειρά με την οποία εκτελούνται τα κοντέινερ. Αντιπροσωπεύονται ως ένα μοντέλο ενιαίου αγωγού στο SageMaker. Ο αγωγός συμπερασμάτων μπορεί να αναπτυχθεί ως MME, όπου ένα από τα κοντέινερ στον αγωγό μπορεί να εξυπηρετεί δυναμικά αιτήματα με βάση το μοντέλο που επικαλείται. Μπορείτε επίσης να εκτελέσετε ένα μετασχηματισμός παρτίδας εργασία με αγωγό συμπερασμάτων. Οι αγωγοί συμπερασμάτων τελούν υπό πλήρη διαχείριση.

Ο παρακάτω πίνακας παρέχει καθοδήγηση σχετικά με την αξιολόγηση των λειτουργιών καταλληλότητας για τη φιλοξενία μοντέλων ML με χρήση σειριακής διοχέτευσης συμπερασμάτων.

Λειτουργία γυμναστικής	Περιγραφή
Κόστος	Η σειριακή διοχέτευση συμπερασμάτων σάς δίνει τη δυνατότητα να εκτελείτε έως και 15 διαφορετικά κοντέινερ ML σε ένα μόνο τελικό σημείο, γεγονός που οδηγεί σε οικονομική αποδοτικότητα της φιλοξενίας των κοντέινερ συμπερασμάτων. Δεν υπάρχει επιπλέον κόστος για τη χρήση αυτής της δυνατότητας. Πληρώνετε μόνο για τις περιπτώσεις που εκτελούνται σε ένα τελικό σημείο. Το κόστος μπορεί να αθροιστεί ανάλογα με τον αριθμό και τον τύπο των περιπτώσεων.
Καθυστέρηση συμπερασμάτων	Όταν μια εφαρμογή ML αναπτύσσεται ως διοχέτευση συμπερασμάτων, τα δεδομένα μεταξύ διαφορετικών μοντέλων δεν αφήνουν χώρο στο κοντέινερ. Η επεξεργασία χαρακτηριστικών και τα συμπεράσματα εκτελούνται με χαμηλό λανθάνοντα χρόνο, επειδή τα κοντέινερ είναι συντοποθετημένα στις ίδιες περιπτώσεις EC2.
Διακίνηση	Μέσα σε ένα μοντέλο διοχέτευσης συμπερασμάτων, το SageMaker χειρίζεται τις επικλήσεις ως μια ακολουθία αιτημάτων HTTP. Το πρώτο κοντέινερ στον αγωγό χειρίζεται το αρχικό αίτημα, στη συνέχεια η ενδιάμεση απόκριση αποστέλλεται ως αίτημα στο δεύτερο κοντέινερ και ούτω καθεξής για κάθε κοντέινερ στον αγωγό. Το SageMaker επιστρέφει την τελική απάντηση στον πελάτη. Η απόδοση είναι υποκειμενική σε παράγοντες όπως το μοντέλο, το μέγεθος εισόδου του μοντέλου, το μέγεθος παρτίδας και ο τύπος παρουσίας τελικού σημείου. Ως βέλτιστη πρακτική, ελέγξτε τις μετρήσεις CloudWatch για αιτήματα εισόδου και χρήση πόρων και επιλέξτε τον κατάλληλο τύπο παρουσίας για να επιτύχετε τη βέλτιστη απόδοση.
Πολυπλοκότητα διαμόρφωσης κλιμάκωσης	Οι σειριακές σωληνώσεις συμπερασμάτων υποστηρίζουν την αυτόματη κλιμάκωση. Ωστόσο, για να διαμορφωθεί η αυτόματη κλιμάκωση, συνιστάται το μοντέλο σε κάθε κοντέινερ να εμφανίζει παρόμοια χρήση της CPU και καθυστέρηση σε κάθε αίτημα συμπερασμάτων. Αυτό συνιστάται επειδή εάν η επισκεψιμότητα στο τελικό σημείο πολλαπλών κοντέινερ μετατοπιστεί από ένα μοντέλο χαμηλής χρήσης CPU σε ένα μοντέλο υψηλής χρήσης CPU, αλλά ο συνολικός όγκος κλήσεων παραμένει ίδιος, το τελικό σημείο δεν μειώνεται και ενδέχεται να μην υπάρχουν αρκετές περιπτώσεις χειρίζεται όλα τα αιτήματα στο μοντέλο υψηλής χρήσης CPU.
Μοτίβο κυκλοφορίας	Οι σειριακές σωληνώσεις συμπερασμάτων είναι ιδανικές για προβλέψιμα μοτίβα κυκλοφορίας με μοντέλα που εκτελούνται διαδοχικά στο ίδιο τελικό σημείο.

Ανάπτυξη συνόλων μοντέλων (Triton DAG):

Το SageMaker προσφέρει ενοποίηση με NVIDIA Triton Inference Server μέσω Triton Inference Server Containers. Αυτά τα κοντέινερ περιλαμβάνουν NVIDIA Triton Inference Server, υποστήριξη για κοινά πλαίσια ML και χρήσιμες μεταβλητές περιβάλλοντος που σας επιτρέπουν να βελτιστοποιήσετε την απόδοση στο SageMaker. Με τις εικόνες κοντέινερ NVIDIA Triton, μπορείτε εύκολα να εξυπηρετήσετε μοντέλα ML και να επωφεληθείτε από τις βελτιστοποιήσεις απόδοσης, τη δυναμική παρτίδα και την υποστήριξη πολλαπλών πλαισίων που παρέχει η NVIDIA Triton. Το Triton βοηθά στη μεγιστοποίηση της χρήσης της GPU και της CPU, μειώνοντας περαιτέρω το κόστος εξαγωγής συμπερασμάτων.

Σε περιπτώσεις επαγγελματικής χρήσης όπου οι εφαρμογές ML χρησιμοποιούν πολλά μοντέλα για την εξυπηρέτηση ενός αιτήματος πρόβλεψης, εάν κάθε μοντέλο χρησιμοποιεί διαφορετικό πλαίσιο ή φιλοξενείται σε ξεχωριστή παρουσία, μπορεί να οδηγήσει σε αυξημένο φόρτο εργασίας και κόστος, καθώς και σε αύξηση της συνολικής καθυστέρησης. Ο SageMaker NVIDIA Triton Inference Server υποστηρίζει την ανάπτυξη μοντέλων από όλα τα κύρια πλαίσια, όπως οι μορφές μοντέλων TensorFlow GraphDef, TensorFlow SavedModel, ONNX, PyTorch TorchScript, TensorRT και Python/C++ και άλλα. Το σύνολο μοντέλων Triton αντιπροσωπεύει έναν αγωγό ενός ή περισσότερων μοντέλων ή λογικής προεπεξεργασίας και μεταεπεξεργασίας και τη σύνδεση τανυστών εισόδου και εξόδου μεταξύ τους. Ένα μόνο αίτημα συμπερασμάτων σε ένα σύνολο ενεργοποιεί τη λειτουργία ολόκληρου του αγωγού. Το Triton διαθέτει επίσης πολλαπλούς ενσωματωμένους αλγόριθμους προγραμματισμού και παρτίδας που συνδυάζουν μεμονωμένες αιτήσεις συμπερασμάτων για τη βελτίωση της απόδοσης συμπερασμάτων. Αυτές οι αποφάσεις προγραμματισμού και ομαδοποίησης είναι διαφανείς στον πελάτη που ζητά συμπεράσματα. Τα μοντέλα μπορούν να εκτελεστούν σε CPU ή GPU για μέγιστη ευελιξία και υποστήριξη ετερογενών υπολογιστικών απαιτήσεων.

Η φιλοξενία πολλαπλών μοντέλων με υποστήριξη GPU σε τελικά σημεία πολλαπλών μοντέλων υποστηρίζεται μέσω του SageMaker Triton Inference Server. Ο διακομιστής συμπερασμάτων NVIDIA Triton έχει επεκταθεί για την υλοποίηση ενός Συμβόλαιο MME API, για ενσωμάτωση με ΜΜΕ. Μπορείτε να χρησιμοποιήσετε τον NVIDIA Triton Inference Server, ο οποίος δημιουργεί μια διαμόρφωση αποθετηρίου μοντέλων για διαφορετικά backends πλαισίου, για να αναπτύξετε ένα MME με αυτόματη κλιμάκωση. Αυτή η δυνατότητα σάς επιτρέπει να κλιμακώσετε εκατοντάδες υπερ-εξατομικευμένα μοντέλα που είναι βελτιωμένα για να καλύπτουν μοναδικές εμπειρίες τελικού χρήστη σε εφαρμογές τεχνητής νοημοσύνης. Μπορείτε επίσης να χρησιμοποιήσετε αυτήν τη δυνατότητα για να επιτύχετε την απαιτούμενη απόδοση τιμής για την εφαρμογή συμπερασμάτων σας χρησιμοποιώντας κλασματικές GPU. Για να μάθετε περισσότερα, ανατρέξτε στο Εκτελέστε πολλά μοντέλα βαθιάς εκμάθησης σε GPU με τερματικά σημεία πολλαπλών μοντέλων του Amazon SageMaker.

Ο παρακάτω πίνακας παρέχει οδηγίες για την αξιολόγηση των λειτουργιών καταλληλότητας για τη φιλοξενία μοντέλων ML με χρήση MME με υποστήριξη GPU σε κοντέινερ συμπερασμάτων Triton. Για αξιολογήσεις καταλληλότητας τερματικών σημείων μεμονωμένων μοντέλων και λειτουργιών τελικού σημείου χωρίς διακομιστή, ανατρέξτε στις προηγούμενες ενότητες αυτής της ανάρτησης.

Λειτουργία γυμναστικής	Περιγραφή
Κόστος	Τα MME SageMaker με υποστήριξη GPU με χρήση του Triton Inference Server παρέχουν έναν επεκτάσιμο και οικονομικά αποδοτικό τρόπο για την ανάπτυξη μεγάλου αριθμού μοντέλων βαθιάς εκμάθησης πίσω από ένα τελικό σημείο του SageMaker. Με τα MME, πολλά μοντέλα μοιράζονται την παρουσία GPU πίσω από ένα τελικό σημείο. Αυτό σας δίνει τη δυνατότητα να σπάσετε το γραμμικά αυξανόμενο κόστος φιλοξενίας πολλαπλών μοντέλων και υποδομής επαναχρησιμοποίησης σε όλα τα μοντέλα. Πληρώνετε για το χρόνο λειτουργίας της παρουσίας.
Καθυστέρηση συμπερασμάτων	Το SageMaker με Triton Inference Server έχει σχεδιαστεί ειδικά για να μεγιστοποιήσει την απόδοση και τη χρήση του υλικού με εξαιρετικά χαμηλή (μονοψήφια χιλιοστά του δευτερολέπτου) καθυστέρηση συμπερασμάτων. Διαθέτει ένα ευρύ φάσμα υποστηριζόμενων πλαισίων ML (συμπεριλαμβανομένων των TensorFlow, PyTorch, ONNX, XGBoost και NVIDIA TensorRT) και υποδομών υποστήριξης, συμπεριλαμβανομένων των GPU της NVIDIA, CPU και Αίσθηση AWS. Με την υποστήριξη MME για GPU με χρήση του SageMaker Triton Inference Server, μπορείτε να αναπτύξετε χιλιάδες μοντέλα βαθιάς εκμάθησης πίσω από ένα τελικό σημείο του SageMaker. Το SageMaker φορτώνει το μοντέλο στη μνήμη του κοντέινερ NVIDIA Triton σε μια παρουσία με επιτάχυνση GPU και εξυπηρετεί το αίτημα συμπερασμάτων. Ο πυρήνας της GPU είναι κοινός σε όλα τα μοντέλα σε μια περίπτωση. Εάν το μοντέλο έχει ήδη φορτωθεί στη μνήμη του κοντέινερ, τα επόμενα αιτήματα εξυπηρετούνται πιο γρήγορα επειδή το SageMaker δεν χρειάζεται να το κατεβάσει και να το φορτώσει ξανά.
Διακίνηση	Τα MME προσφέρουν δυνατότητες εκτέλεσης πολλαπλών μοντέλων βαθιάς εκμάθησης ή ML στην GPU, ταυτόχρονα, με τον Triton Inference Server. Αυτό σας επιτρέπει να χρησιμοποιείτε εύκολα την υπηρεσία NVIDIA Triton πολλαπλών πλαισίων, υψηλής απόδοσης που εξυπηρετούν συμπεράσματα με την πλήρως διαχειριζόμενη ανάπτυξη μοντέλου SageMaker. Το Triton υποστηρίζει όλες τις συμπεράσματα NVIDIA GPU-, x86-, Arm® CPU- και AWS Inferentia. Προσφέρει δυναμική παρτίδα, ταυτόχρονες εκτελέσεις, βέλτιστη διαμόρφωση μοντέλου, σύνολο μοντέλων και εισόδους ροής ήχου και βίντεο για μεγιστοποίηση της απόδοσης και της χρήσης. Άλλοι παράγοντες όπως το μέγεθος του δικτύου και του ωφέλιμου φορτίου μπορεί να διαδραματίσουν ελάχιστο ρόλο στα γενικά έξοδα που σχετίζονται με το συμπέρασμα.
Πολυπλοκότητα διαμόρφωσης κλιμάκωσης	Τα MME μπορούν να κλιμακωθούν οριζόντια χρησιμοποιώντας μια πολιτική αυτόματης κλιμάκωσης και να παρέχουν πρόσθετες παρουσίες υπολογισμού GPU με βάση μετρήσεις όπως π.χ. `InvocationsPerInstance` και `GPUUtilization` για την εξυπηρέτηση οποιασδήποτε απότομης κίνησης στα τελικά σημεία MME. Με τον διακομιστή συμπερασμάτων Triton, μπορείτε εύκολα να δημιουργήσετε ένα προσαρμοσμένο κοντέινερ που περιλαμβάνει το μοντέλο σας με το Triton και να το μεταφέρετε στο SageMaker. Το SageMaker Inference θα χειρίζεται τα αιτήματα και θα κλιμακώνει αυτόματα το κοντέινερ καθώς αυξάνεται η χρήση, διευκολύνοντας την ανάπτυξη του μοντέλου με το Triton στο AWS.
Μοτίβο κυκλοφορίας	Τα MME είναι ιδανικά για προβλέψιμα μοτίβα κυκλοφορίας με μοντέλα που εκτελούνται ως DAG στο ίδιο τελικό σημείο. Το SageMaker φροντίζει για τη διαμόρφωση της κυκλοφορίας στο τελικό σημείο MME και διατηρεί βέλτιστα αντίγραφα μοντέλων σε παρουσίες GPU για καλύτερη απόδοση τιμής. Συνεχίζει να δρομολογεί την κυκλοφορία στο στιγμιότυπο όπου φορτώνεται το μοντέλο. Εάν οι πόροι της παρουσίας φτάσουν σε χωρητικότητα λόγω υψηλής χρήσης, το SageMaker ξεφορτώνει τα λιγότερο χρησιμοποιούμενα μοντέλα από το κοντέινερ για να ελευθερώσει πόρους για τη φόρτωση μοντέλων που χρησιμοποιούνται πιο συχνά.

Βέλτιστες πρακτικές

Εξετάστε τις ακόλουθες βέλτιστες πρακτικές:

Υψηλή συνοχή και χαμηλή σύζευξη μεταξύ των μοντέλων – Φιλοξενήστε τα μοντέλα στο ίδιο κοντέινερ που έχει υψηλή συνοχή (οδηγεί τη λειτουργικότητα μιας επιχείρησης) και ενσωματώστε τα μαζί για ευκολία αναβάθμισης και δυνατότητα διαχείρισης. Ταυτόχρονα, αποσυνδέστε αυτά τα μοντέλα μεταξύ τους (φιλοξενήστε τα σε διαφορετικό κοντέινερ), ώστε να μπορείτε να αναβαθμίσετε εύκολα ένα μοντέλο χωρίς να επηρεάζετε άλλα μοντέλα. Φιλοξενήστε πολλά μοντέλα που χρησιμοποιούν διαφορετικά κοντέινερ πίσω από ένα τελικό σημείο και κατόπιν επικαλούνται ανεξάρτητα ή προσθέστε λογική προεπεξεργασίας και μεταεπεξεργασίας μοντέλων ως σειριακή διοχέτευση συμπερασμάτων.
Καθυστέρηση συμπερασμάτων – Ομαδοποιήστε τα μοντέλα που βασίζονται στη λειτουργικότητα μιας επιχείρησης και φιλοξενήστε τα σε ένα μόνο κοντέινερ για να ελαχιστοποιήσετε τον αριθμό των λυκίσκων και επομένως να ελαχιστοποιήσετε τη συνολική καθυστέρηση. Υπάρχουν και άλλες προειδοποιήσεις, όπως εάν τα ομαδοποιημένα μοντέλα χρησιμοποιούν πολλαπλά πλαίσια. Μπορείτε επίσης να επιλέξετε να φιλοξενήσετε σε πολλά κοντέινερ αλλά να εκτελείτε τον ίδιο κεντρικό υπολογιστή για να μειώσετε τον λανθάνοντα χρόνο και να ελαχιστοποιήσετε το κόστος.
Ομαδοποιήστε λογικά μοντέλα ML με υψηλή συνοχή – Η λογική ομάδα μπορεί να αποτελείται από μοντέλα που είναι ομοιογενή (για παράδειγμα, όλα τα μοντέλα XGBoost) ή ετερογενή (για παράδειγμα, μερικά XGBoost και μερικά BERT). Μπορεί να αποτελείται από μοντέλα που είναι κοινά σε πολλές επιχειρηματικές λειτουργίες ή μπορεί να είναι συγκεκριμένα για την εκπλήρωση μόνο μιας επιχειρηματικής λειτουργικότητας.
- Κοινόχρηστα μοντέλα – Εάν η λογική ομάδα αποτελείται από κοινόχρηστα μοντέλα, η ευκολία αναβάθμισης των μοντέλων και η καθυστέρηση θα παίξουν σημαντικό ρόλο στην αρχιτεκτονική των τελικών σημείων του SageMaker. Για παράδειγμα, εάν η καθυστέρηση είναι προτεραιότητα, είναι καλύτερα να τοποθετήσετε όλα τα μοντέλα σε ένα ενιαίο κοντέινερ πίσω από ένα μόνο τελικό σημείο του SageMaker για να αποφύγετε τα πολλαπλά άλματα. Το μειονέκτημα είναι ότι εάν κάποιο από τα μοντέλα πρέπει να αναβαθμιστεί, θα έχει ως αποτέλεσμα την αναβάθμιση όλων των σχετικών τελικών σημείων του SageMaker που φιλοξενούν αυτό το μοντέλο.
- Μη κοινόχρηστα μοντέλα – Εάν η λογική ομάδα αποτελείται μόνο από μοντέλα με συγκεκριμένα χαρακτηριστικά επιχείρησης και δεν είναι κοινόχρηστη με άλλες ομάδες, η πολυπλοκότητα της συσκευασίας και οι διαστάσεις λανθάνουσας κατάστασης θα είναι το κλειδί για επίτευξη. Συνιστάται να φιλοξενείτε αυτά τα μοντέλα σε ένα μόνο κοντέινερ πίσω από ένα μόνο τελικό σημείο του SageMaker.
Αποτελεσματική χρήση υλικού (CPU, GPU) – Ομαδοποιήστε μοντέλα που βασίζονται σε CPU και φιλοξενήστε τα στον ίδιο κεντρικό υπολογιστή, ώστε να μπορείτε να χρησιμοποιήσετε αποτελεσματικά την CPU. Ομοίως, ομαδοποιήστε μοντέλα που βασίζονται σε GPU, ώστε να μπορείτε να τα χρησιμοποιείτε και να τα κλιμακώνετε αποτελεσματικά. Υπάρχουν υβριδικοί φόρτοι εργασίας που απαιτούν και CPU και GPU στον ίδιο κεντρικό υπολογιστή. Η φιλοξενία των μοντέλων μόνο για CPU και μόνο για GPU στον ίδιο κεντρικό υπολογιστή θα πρέπει να βασίζεται σε απαιτήσεις υψηλής συνοχής και καθυστέρησης εφαρμογής. Επιπλέον, το κόστος, η ικανότητα κλιμάκωσης και η ακτίνα έκρηξης στην πρόσκρουση σε περίπτωση αστοχίας είναι οι βασικές διαστάσεις που πρέπει να εξετάσετε.
Λειτουργίες γυμναστικής – Χρησιμοποιήστε τις λειτουργίες φυσικής κατάστασης ως κατευθυντήρια γραμμή για την επιλογή μιας επιλογής φιλοξενίας ML.

Συμπέρασμα

Όταν πρόκειται για τη φιλοξενία ML, δεν υπάρχει μια προσέγγιση που ταιριάζει σε όλους. Οι επαγγελματίες ML πρέπει να επιλέξουν το σωστό σχέδιο σχεδίασης για να αντιμετωπίσουν τις προκλήσεις φιλοξενίας ML που αντιμετωπίζουν. Η αξιολόγηση των λειτουργιών φυσικής κατάστασης παρέχει καθοδήγηση σχετικά με την επιλογή της σωστής επιλογής φιλοξενίας ML.

Για περισσότερες λεπτομέρειες σχετικά με καθεμία από τις επιλογές φιλοξενίας, ανατρέξτε στις ακόλουθες αναρτήσεις αυτής της σειράς:

Σχετικά με τους συγγραφείς

Dhawal Patel είναι Κύριος Αρχιτέκτονας Μηχανικής Μάθησης στο AWS. Έχει συνεργαστεί με οργανισμούς που κυμαίνονται από μεγάλες επιχειρήσεις έως νεοφυείς επιχειρήσεις μεσαίου μεγέθους για προβλήματα που σχετίζονται με τους κατανεμημένους υπολογιστές και την Τεχνητή Νοημοσύνη. Εστιάζεται στη Deep Learning, συμπεριλαμβανομένων των τομέων NLP και Computer Vision. Βοηθά τους πελάτες να επιτύχουν συμπεράσματα μοντέλων υψηλής απόδοσης στο SageMaker.

Deepali Rajale είναι Ειδικός Τεχνικός Λογαριασμός AI/ML στο Amazon Web Services. Συνεργάζεται με εταιρικούς πελάτες παρέχοντας τεχνική καθοδήγηση σχετικά με την εφαρμογή λύσεων μηχανικής εκμάθησης με βέλτιστες πρακτικές. Στον ελεύθερο χρόνο της, της αρέσει η πεζοπορία, οι ταινίες και οι παρέες με την οικογένεια και τους φίλους της.

Saurabh Trikande είναι Ανώτερος Διευθυντής Προϊόντων για το Amazon SageMaker Inference. Είναι παθιασμένος με τη συνεργασία με πελάτες και παρακινείται από τον στόχο του εκδημοκρατισμού της μηχανικής μάθησης. Εστιάζει στις βασικές προκλήσεις που σχετίζονται με την ανάπτυξη πολύπλοκων εφαρμογών ML, μοντέλων ML πολλαπλών μισθωτών, βελτιστοποιήσεις κόστους και καθιστώντας την ανάπτυξη μοντέλων βαθιάς μάθησης πιο προσιτή. Στον ελεύθερο χρόνο του, ο Saurabh απολαμβάνει την πεζοπορία, μαθαίνει για καινοτόμες τεχνολογίες, ακολουθεί το TechCrunch και περνά χρόνο με την οικογένειά του.