Εκτελέστε και βελτιστοποιήστε τα συμπεράσματα πολλαπλών μοντέλων με τα τελικά σημεία πολλαπλών μοντέλων του Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εκτελέστε και βελτιστοποιήστε τα συμπεράσματα πολλαπλών μοντέλων με τα τελικά σημεία πολλαπλών μοντέλων του Amazon SageMaker

Amazon Sage Maker τελικό σημείο πολλαπλών μοντέλων (MME) σάς δίνει τη δυνατότητα να αναπτύξετε και να φιλοξενήσετε με οικονομικό τρόπο πολλά μοντέλα σε ένα μόνο τελικό σημείο και στη συνέχεια να κλιμακώσετε οριζόντια το τελικό σημείο για να επιτύχετε κλίμακα. Όπως φαίνεται στο παρακάτω σχήμα, αυτή είναι μια αποτελεσματική τεχνική για την υλοποίηση μοντέλων πολλαπλής μίσθωσης στην υποδομή μηχανικής εκμάθησης (ML). Έχουμε δει επιχειρήσεις λογισμικού ως υπηρεσίας (SaaS) να χρησιμοποιούν αυτήν τη δυνατότητα για να εφαρμόσουν υπερ-εξατομίκευση στα μοντέλα ML τους, επιτυγχάνοντας παράλληλα χαμηλότερο κόστος.

Για μια επισκόπηση υψηλού επιπέδου του τρόπου λειτουργίας του MME, ρίξτε μια ματιά στο βίντεο του AWS Summit Κλιμάκωση της ML στο επόμενο επίπεδο: Φιλοξενία χιλιάδων μοντέλων στο SageMaker. Για να μάθετε περισσότερα σχετικά με τις υπερ-εξατομικευμένες περιπτώσεις χρήσης πολλαπλών ενοικιαστών που ενεργοποιεί το MME, ανατρέξτε στο Πώς να κλιμακώσετε τα συμπεράσματα μηχανικής εκμάθησης για περιπτώσεις χρήσης SaaS πολλαπλών μισθωτών.

Στο υπόλοιπο αυτής της ανάρτησης, εμβαθύνουμε στην τεχνική αρχιτεκτονική του SageMaker MME και μοιραζόμαστε τις βέλτιστες πρακτικές για τη βελτιστοποίηση των τελικών σημείων πολλαπλών μοντέλων.

Χρησιμοποιήστε θήκες που ταιριάζουν καλύτερα για MME

Τα τελικά σημεία πολλαπλών μοντέλων του SageMaker είναι κατάλληλα για τη φιλοξενία μεγάλου αριθμού μοντέλων που μπορείτε να εξυπηρετήσετε μέσω ενός κοινόχρηστου κοντέινερ σερβιρίσματος και δεν χρειάζεται να έχετε πρόσβαση σε όλα τα μοντέλα ταυτόχρονα. Ανάλογα με το μέγεθος της μνήμης παρουσίας τελικού σημείου, ένα μοντέλο μπορεί περιστασιακά να εκφορτώνεται από τη μνήμη προς όφελος της φόρτωσης ενός νέου μοντέλου για μεγιστοποίηση της αποτελεσματικής χρήσης της μνήμης, επομένως η εφαρμογή σας πρέπει να είναι ανεκτική σε περιστασιακές αιχμές καθυστέρησης σε μοντέλα χωρίς φόρτωση.

Το MME έχει επίσης σχεδιαστεί για co-hosting μοντέλα που χρησιμοποιούν το ίδιο πλαίσιο ML επειδή χρησιμοποιούν το κοινόχρηστο κοντέινερ για τη φόρτωση πολλών μοντέλων. Επομένως, εάν έχετε έναν συνδυασμό πλαισίων ML στο στόλο μοντέλων σας (όπως PyTorch και TensorFlow), τα αποκλειστικά τελικά σημεία του SageMaker ή η φιλοξενία πολλών κοντέινερ είναι μια καλύτερη επιλογή.

Τέλος, το MME είναι κατάλληλο για εφαρμογές που μπορούν να ανεχθούν μια περιστασιακή ποινή καθυστέρησης ψυχρής εκκίνησης, επειδή τα μοντέλα φορτώνονται κατά την πρώτη κλήση και τα μοντέλα που δεν χρησιμοποιούνται συχνά μπορούν να αποφορτωθούν από τη μνήμη προς όφελος της φόρτωσης νέων μοντέλων. Επομένως, εάν έχετε έναν συνδυασμό μοντέλων με συχνή και σπάνια πρόσβαση, ένα τελικό σημείο πολλαπλών μοντέλων μπορεί να εξυπηρετήσει αποτελεσματικά αυτήν την επισκεψιμότητα με λιγότερους πόρους και υψηλότερη εξοικονόμηση κόστους.

Έχουμε δει επίσης ορισμένα σενάρια όπου οι πελάτες αναπτύσσουν ένα σύμπλεγμα MME με αρκετή χωρητικότητα συνολικής μνήμης ώστε να χωράει όλα τα μοντέλα τους, αποφεύγοντας έτσι τις εκφορτώσεις μοντέλων συνολικά, επιτυγχάνοντας ωστόσο εξοικονόμηση κόστους λόγω της κοινής υποδομής συμπερασμάτων.

Μοντέλο δοχείων σερβιρίσματος

Όταν χρησιμοποιείτε το SageMaker Inference Toolkit ή ένα προκατασκευασμένο κοντέινερ εξυπηρέτησης μοντέλου SageMaker συμβατό με το MME, το κοντέινερ σας διαθέτει Διακομιστής πολλαπλών μοντέλων (διαδικασία JVM) σε λειτουργία. Ο ευκολότερος τρόπος για να έχετε ενσωματωμένο διακομιστή πολλαπλών μοντέλων (MMS) στο κοντέινερ σερβιρίσματος μοντέλων είναι να χρησιμοποιήσετε Μοντέλο SageMaker δοχεία σερβιρίσματος συμβατό με MME (αναζητήστε εκείνα με Job Type=inference και CPU/GPU=CPU). Το MMS είναι ένα ανοιχτού κώδικα, εύχρηστο εργαλείο για την εξυπηρέτηση μοντέλων βαθιάς εκμάθησης. Παρέχει ένα REST API με έναν διακομιστή ιστού για την εξυπηρέτηση και διαχείριση πολλών μοντέλων σε έναν μόνο κεντρικό υπολογιστή. Ωστόσο, δεν είναι υποχρεωτική η χρήση MMS. θα μπορούσατε να εφαρμόσετε το δικό σας διακομιστή μοντέλου, αρκεί να το υλοποιεί API που απαιτούνται από το MME.

Όταν χρησιμοποιείται ως μέρος της πλατφόρμας MME, όλες οι κλήσεις πρόβλεψης, φόρτωσης και εκφόρτωσης API προς MMS ή τον δικό σας διακομιστή μοντέλου διοχετεύονται μέσω του ελεγκτή επιπέδου δεδομένων MME. Οι κλήσεις API από τον ελεγκτή επιπέδου δεδομένων πραγματοποιούνται μέσω τοπικού υπολογιστή μόνο για να αποτραπεί η μη εξουσιοδοτημένη πρόσβαση από έξω από την παρουσία. Ένα από τα βασικά πλεονεκτήματα του MMS είναι ότι επιτρέπει μια τυποποιημένη διεπαφή για φόρτωση, εκφόρτωση και επίκληση μοντέλων με συμβατότητα σε ένα ευρύ φάσμα πλαισίων βαθιάς εκμάθησης.

Προηγμένη διαμόρφωση MMS

Εάν επιλέξετε να χρησιμοποιήσετε MMS για προβολή μοντέλων, εξετάστε τις παρακάτω προηγμένες διαμορφώσεις για να βελτιστοποιήσετε την επεκτασιμότητα και την απόδοση των παρουσιών σας MME.

Αύξηση του παραλληλισμού συμπερασμάτων ανά μοντέλο

Το MMS δημιουργεί μία ή περισσότερες διεργασίες εργασίας Python ανά μοντέλο με βάση την τιμή του default_workers_per_model παράμετρος διαμόρφωσης. Αυτοί οι εργαζόμενοι Python χειρίζονται κάθε μεμονωμένο αίτημα συμπερασμάτων εκτελώντας οποιεσδήποτε λειτουργίες προεπεξεργασίας, πρόβλεψης και μετα-επεξεργασίας παρέχετε. Για περισσότερες πληροφορίες, δείτε το χειριστής προσαρμοσμένων υπηρεσιών Repo GitHub.

Η ύπαρξη περισσότερων του ενός εργαζομένων μοντέλων αυξάνει τον παραλληλισμό των προβλέψεων που μπορούν να εξυπηρετηθούν από ένα δεδομένο μοντέλο. Ωστόσο, όταν ένας μεγάλος αριθμός μοντέλων φιλοξενείται σε μια παρουσία με μεγάλο αριθμό CPU, θα πρέπει να εκτελέσετε μια δοκιμή φόρτωσης του MME σας για να βρείτε τη βέλτιστη τιμή για default_workers_per_model για να αποτρέψετε την εξάντληση των πόρων της μνήμης ή της CPU.

Σχεδιασμός για αιχμές κυκλοφορίας

Κάθε διεργασία MMS σε μια παρουσία τελικού σημείου έχει μια ουρά αιτήματος που μπορεί να διαμορφωθεί με το job_queue_size παράμετρος (η προεπιλογή είναι 100). Αυτό καθορίζει τον αριθμό των αιτημάτων που θα μπουν στην ουρά το MMS όταν όλες οι διεργασίες του εργαζόμενου είναι κατειλημμένες. Χρησιμοποιήστε αυτήν την παράμετρο για να ρυθμίσετε με ακρίβεια την απόκριση των παρουσιών τελικού σημείου αφού αποφασίσετε για τον βέλτιστο αριθμό εργαζομένων ανά μοντέλο.

Σε μια βέλτιστη αναλογία εργαζόμενου ανά μοντέλο, η προεπιλογή των 100 θα αρκεί για τις περισσότερες περιπτώσεις. Ωστόσο, για τις περιπτώσεις όπου η κυκλοφορία αιτημάτων προς το τελικό σημείο αυξάνεται ασυνήθιστα, μπορείτε να μειώσετε το μέγεθος της ουράς αν θέλετε το τελικό σημείο να αποτύχει γρήγορα για να περάσει τον έλεγχο στην εφαρμογή ή να αυξήσετε το μέγεθος της ουράς αν θέλετε το τελικό σημείο να απορροφήσει την ακίδα .

Μεγιστοποιήστε τους πόρους μνήμης ανά περίπτωση

Όταν χρησιμοποιούνται πολλαπλές διεργασίες εργασίας ανά μοντέλο, από προεπιλογή κάθε διεργασία εργαζόμενου φορτώνει το δικό της αντίγραφο του μοντέλου. Αυτό μπορεί να μειώσει τη διαθέσιμη μνήμη παρουσιών για άλλα μοντέλα. Μπορείτε να βελτιστοποιήσετε τη χρήση της μνήμης μοιράζοντας ένα μόνο μοντέλο μεταξύ των διεργασιών εργασίας, ορίζοντας την παράμετρο διαμόρφωσης preload_model=true. Εδώ ανταλλάσσετε τον μειωμένο παραλληλισμό συμπερασμάτων (λόγω μιας μεμονωμένης περίπτωσης μοντέλου) με μεγαλύτερη απόδοση μνήμης. Αυτή η ρύθμιση μαζί με πολλές διεργασίες εργαζομένων μπορεί να είναι μια καλή επιλογή για περιπτώσεις χρήσης όπου ο λανθάνοντας χρόνος μοντέλου είναι χαμηλός, αλλά έχετε βαρύτερη προεπεξεργασία και μεταεπεξεργασία (που γίνεται από τις διεργασίες εργαζομένων) ανά αίτημα συμπερασμάτων.

Ορίστε τιμές για σύνθετες διαμορφώσεις MMS

Το MMS χρησιμοποιεί ένα αρχείο config.properties για την αποθήκευση διαμορφώσεων. Το MMS χρησιμοποιεί την ακόλουθη σειρά για να εντοπίσει αυτό το αρχείο config.properties:

  1. Εάν η MMS_CONFIG_FILE έχει οριστεί η μεταβλητή περιβάλλοντος, το MMS φορτώνει τη διαμόρφωση από τη μεταβλητή περιβάλλοντος.
  2. Εάν η --mms-config Η παράμετρος μεταβιβάζεται στο MMS, φορτώνει τη διαμόρφωση από την παράμετρο.
  3. Εάν υπάρχει a config.properties στον τρέχοντα φάκελο όπου ο χρήστης ξεκινά το MMS, φορτώνει το config.properties αρχείο από τον τρέχοντα κατάλογο εργασίας.

Εάν δεν καθορίζεται κανένα από τα παραπάνω, το MMS φορτώνει την ενσωματωμένη διαμόρφωση με προεπιλεγμένες τιμές.

Ακολουθεί ένα παράδειγμα γραμμής εντολών για την εκκίνηση του MMS με ένα αρχείο ρητής διαμόρφωσης:

multi-model-server --start --mms-config /home/mms/config.properties

Βασικές μετρήσεις για την παρακολούθηση της απόδοσης του τελικού σας σημείου

Οι βασικές μετρήσεις που μπορούν να σας βοηθήσουν να βελτιστοποιήσετε το MME σας σχετίζονται συνήθως με τη χρήση της CPU και της μνήμης και την καθυστέρηση συμπερασμάτων. Οι μετρήσεις σε επίπεδο παρουσίας εκπέμπονται από το MMS, ενώ οι μετρήσεις καθυστέρησης προέρχονται από το MME. Σε αυτήν την ενότητα, συζητάμε τις τυπικές μετρήσεις που μπορείτε να χρησιμοποιήσετε για να κατανοήσετε και να βελτιστοποιήσετε το MME σας.

Μετρήσεις σε επίπεδο παρουσίας τελικού σημείου (μετρήσεις MMS)

Από το λίστα μετρήσεων MMS, CPUUtilization και MemoryUtilization μπορούν να σας βοηθήσουν να αξιολογήσετε εάν η παρουσία σας ή το σύμπλεγμα MME έχει το σωστό μέγεθος ή όχι. Εάν και οι δύο μετρήσεις έχουν ποσοστά μεταξύ 50-80%, τότε το MME σας έχει το σωστό μέγεθος.

Συνήθως, η χαμηλή χρήση CPU και η υψηλή χρήση μνήμης είναι ένδειξη ενός συμπλέγματος MME με υπερβολική παροχή, επειδή υποδεικνύει ότι τα μοντέλα που καλούνται σπάνια δεν εκφορτώνονται. Αυτό θα μπορούσε να οφείλεται στον υψηλότερο από τον βέλτιστο αριθμό παρουσιών τελικού σημείου που παρέχεται για το MME και, ως εκ τούτου, η συνολική μνήμη μεγαλύτερη από τη βέλτιστη είναι διαθέσιμη για μοντέλα με σπάνια πρόσβαση για να παραμείνει στη μνήμη. Αντίθετα, η χρήση σχεδόν 100% αυτών των μετρήσεων σημαίνει ότι το σύμπλεγμα σας είναι υποπροβλεπόμενο, επομένως πρέπει να προσαρμόσετε την πολιτική αυτόματης κλιμάκωσης του συμπλέγματος.

Μετρήσεις σε επίπεδο πλατφόρμας (μετρήσεις MME)

Από το πλήρης λίστα μετρήσεων MME, μια βασική μέτρηση που μπορεί να σας βοηθήσει να κατανοήσετε τον λανθάνοντα χρόνο του αιτήματος συμπερασμάτων σας είναι το ModelCacheHit. Αυτή η μέτρηση δείχνει τη μέση αναλογία των αιτημάτων επίκλησης για τα οποία το μοντέλο είχε ήδη φορτωθεί στη μνήμη. Εάν αυτή η αναλογία είναι χαμηλή, υποδηλώνει ότι το σύμπλεγμα MME σας δεν έχει προβλεφθεί επειδή πιθανότατα δεν υπάρχει αρκετή συνολική χωρητικότητα μνήμης στο σύμπλεγμα MME για τον αριθμό των μοναδικών κλήσεων μοντέλων, με αποτέλεσμα να γίνεται συχνή εκφόρτωση των μοντέλων από τη μνήμη.

Μαθήματα από το πεδίο και στρατηγικές για τη βελτιστοποίηση του MME

Έχουμε δει τις ακόλουθες συστάσεις από ορισμένες από τις υψηλής κλίμακας χρήσεις του MME σε έναν αριθμό πελατών.

Η οριζόντια κλιμάκωση με μικρότερα στιγμιότυπα είναι καλύτερη από την κατακόρυφη κλίμακα με μεγαλύτερα στιγμιότυπα

Ενδέχεται να αντιμετωπίσετε περιορισμό στις επικλήσεις μοντέλων κατά την εκτέλεση υψηλών αιτημάτων ανά δευτερόλεπτο (RPS) σε λιγότερες παρουσίες τελικού σημείου. Υπάρχουν εσωτερικά όρια στον αριθμό των κλήσεων ανά δευτερόλεπτο (φορτώσεις και εκφορτώσεις που μπορεί να συμβούν ταυτόχρονα σε μια παρουσία) και επομένως είναι πάντα καλύτερο να έχετε μεγαλύτερο αριθμό μικρότερων παρουσιών. Η εκτέλεση μεγαλύτερου αριθμού μικρότερων παρουσιών σημαίνει υψηλότερη συνολική συνολική χωρητικότητα αυτών των ορίων για το τελικό σημείο.

Ένα άλλο πλεονέκτημα της οριζόντιας κλίμακας με μικρότερες παρουσίες είναι ότι μειώνετε τον κίνδυνο εξάντλησης της CPU και των πόρων μνήμης όταν εκτελείτε MMS με υψηλότερα επίπεδα παραλληλισμού, μαζί με μεγαλύτερο αριθμό μοντέλων στη μνήμη (όπως περιγράφεται νωρίτερα σε αυτήν την ανάρτηση).

Η αποφυγή του αλωνίσματος είναι κοινή ευθύνη

Αλώνισμα στο MME είναι όταν τα μοντέλα εκφορτώνονται συχνά από τη μνήμη και επαναφορτώνονται λόγω ανεπαρκούς μνήμης, είτε σε μεμονωμένη παρουσία είτε σε σύνολο στο σύμπλεγμα.

Από πλευράς χρήσης, θα πρέπει να κάνετε σωστό μέγεθος μεμονωμένων παρουσιών τελικού σημείου και σωστό μέγεθος στο συνολικό μέγεθος του συμπλέγματος MME για να διασφαλίσετε ότι είναι διαθέσιμη αρκετή χωρητικότητα μνήμης ανά περίπτωση, καθώς και σε σύνολο για το σύμπλεγμα για την περίπτωση χρήσης σας. Ο στόλος δρομολογητών της πλατφόρμας MME θα μεγιστοποιήσει επίσης την επιτυχία της κρυφής μνήμης.

Μην είστε επιθετικοί με τη συσκευασία πολλών μοντέλων σε κάδους σε λιγότερες, μεγαλύτερες περιπτώσεις μνήμης

Η μνήμη δεν είναι ο μόνος πόρος στην περίπτωση που πρέπει να γνωρίζετε. Άλλοι πόροι όπως η CPU μπορεί να είναι περιοριστικός παράγοντας, όπως φαίνεται στα ακόλουθα αποτελέσματα δοκιμής φόρτωσης. Σε ορισμένες άλλες περιπτώσεις, έχουμε επίσης παρατηρήσει άλλους πόρους πυρήνα, όπως τα αναγνωριστικά διεργασίας, να εξαντλούνται σε μια παρουσία, λόγω ενός συνδυασμού πολλών μοντέλων που φορτώνονται και του υποκείμενου πλαισίου ML (όπως το TensorFlow) ανά μοντέλο που ήταν πολλαπλάσια των διαθέσιμων vCPU.

Η ακόλουθη δοκιμή απόδοσης δείχνει ένα παράδειγμα περιορισμού της CPU που επηρεάζει την καθυστέρηση του μοντέλου. Σε αυτή τη δοκιμή, ένα τελικό σημείο με ένα μεγάλο στιγμιότυπο, ενώ είχε περισσότερη από αρκετή μνήμη για να διατηρήσει και τα τέσσερα μοντέλα στη μνήμη, παρήγαγε συγκριτικά χειρότερες καθυστερήσεις μοντέλων υπό φορτίο σε σύγκριση με ένα τελικό σημείο με τέσσερις μικρότερες παρουσίες.

Εκτελέστε και βελτιστοποιήστε τα συμπεράσματα πολλαπλών μοντέλων με τα τελικά σημεία πολλαπλών μοντέλων του Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

καθυστέρηση μοντέλου τελικού σημείου μιας παρουσίας

Εκτελέστε και βελτιστοποιήστε τα συμπεράσματα πολλαπλών μοντέλων με τα τελικά σημεία πολλαπλών μοντέλων του Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

CPU τελικού σημείου μιας παρουσίας και χρήση μνήμης

Εκτελέστε και βελτιστοποιήστε τα συμπεράσματα πολλαπλών μοντέλων με τα τελικά σημεία πολλαπλών μοντέλων του Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

λανθάνουσα κατάσταση μοντέλου τεσσάρων στιγμιοτύπων

Εκτελέστε και βελτιστοποιήστε τα συμπεράσματα πολλαπλών μοντέλων με τα τελικά σημεία πολλαπλών μοντέλων του Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

CPU τεσσάρων περιπτώσεων τελικού σημείου και χρήση μνήμης

Για να επιτύχετε τόσο την απόδοση όσο και τη σχέση κόστους-αποτελεσματικότητας, προσαρμόστε το σωστό μέγεθος του συμπλέγματος MME με μεγαλύτερο αριθμό μικρότερων παρουσιών που συνολικά σας προσφέρουν τη βέλτιστη μνήμη και χωρητικότητα CPU ενώ είναι σχετικά ισοδύναμα για το κόστος με λιγότερες αλλά μεγαλύτερες παρουσίες μνήμης.

Νοητικό μοντέλο βελτιστοποίησης MME

Υπάρχουν τέσσερις βασικές μετρήσεις που πρέπει πάντα να λαμβάνετε υπόψη όταν προσαρμόζετε σωστά το MME σας:

  • Ο αριθμός και το μέγεθος των μοντέλων
  • Ο αριθμός των μοναδικών μοντέλων που επικαλούνται σε μια δεδομένη στιγμή
  • Ο τύπος και το μέγεθος του στιγμιότυπου
  • Η μέτρηση των περιπτώσεων πίσω από το τελικό σημείο

Ξεκινήστε με τα δύο πρώτα σημεία, γιατί ενημερώνουν τον τρίτο και τον τέταρτο. Για παράδειγμα, εάν δεν υπάρχουν αρκετές παρουσίες πίσω από το τελικό σημείο για τον αριθμό ή το μέγεθος των μοναδικών μοντέλων που έχετε, η συνολική μνήμη για το τελικό σημείο θα είναι χαμηλή και θα δείτε χαμηλότερο λόγο επιτυχίας της προσωρινής μνήμης και thrashing στο επίπεδο τελικού σημείου, επειδή το MME θα φορτώνει και θα ξεφορτώνει τα μοντέλα μέσα και έξω από τη μνήμη συχνά.

Ομοίως, εάν οι επικλήσεις για μοναδικά μοντέλα είναι υψηλότερες από τη συνολική μνήμη όλων των παρουσιών πίσω από το τελικό σημείο, θα δείτε χαμηλότερη επίσκεψη στην προσωρινή μνήμη. Αυτό μπορεί επίσης να συμβεί εάν το μέγεθος των παρουσιών (ειδικά η χωρητικότητα μνήμης) είναι πολύ μικρό.

Η κατακόρυφη κλιμάκωση με πραγματικά μεγάλα στιγμιότυπα μνήμης θα μπορούσε επίσης να οδηγήσει σε προβλήματα, επειδή παρόλο που τα μοντέλα μπορεί να ταιριάζουν στη μνήμη, άλλοι πόροι όπως οι διεργασίες της CPU και του πυρήνα και τα όρια νημάτων θα μπορούσαν να εξαντληθούν. Φορτώστε τη δοκιμή οριζόντιας κλίμακας στην προπαραγωγή για να λάβετε τον βέλτιστο αριθμό και μέγεθος παρουσιών για το MME σας.

Χαρακτηριστικά

Σε αυτήν την ανάρτηση, κατανοήσατε βαθύτερα την πλατφόρμα MME. Μάθατε για ποιες περιπτώσεις τεχνικής χρήσης το MME είναι κατάλληλο και αναθεωρήσατε την αρχιτεκτονική της πλατφόρμας MME. Αποκτήσατε μια βαθύτερη κατανόηση του ρόλου κάθε στοιχείου στην αρχιτεκτονική MME και ποια στοιχεία μπορείτε να επηρεάσετε άμεσα την απόδοση. Τέλος, ρίξατε μια πιο βαθιά ματιά στις παραμέτρους διαμόρφωσης που μπορείτε να προσαρμόσετε για να βελτιστοποιήσετε το MME για την περίπτωση χρήσης σας και τις μετρήσεις που πρέπει να παρακολουθείτε για να διατηρήσετε τη βέλτιστη απόδοση.

Για να ξεκινήσετε με το MME, ελέγξτε Amazon SageMaker Multi-Model Endpoints χρησιμοποιώντας XGBoost και Φιλοξενήστε πολλά μοντέλα σε ένα κοντέινερ πίσω από ένα τελικό σημείο.


Σχετικά με το Συγγραφέας

Εκτελέστε και βελτιστοποιήστε τα συμπεράσματα πολλαπλών μοντέλων με τα τελικά σημεία πολλαπλών μοντέλων του Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Σάιντ Τζάφρι είναι κύριος αρχιτέκτονας λύσεων με AWS. Συνεργάζεται με μια σειρά εταιρειών από μεσαίου μεγέθους οργανισμούς, μεγάλες επιχειρήσεις, χρηματοοικονομικές υπηρεσίες και ISV για να τις βοηθήσει να δημιουργήσουν και να λειτουργήσουν οικονομικά αποδοτικές και επεκτάσιμες εφαρμογές AI/ML στο cloud.

Εκτελέστε και βελτιστοποιήστε τα συμπεράσματα πολλαπλών μοντέλων με τα τελικά σημεία πολλαπλών μοντέλων του Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Saurabh Trikande είναι Ανώτερος Διευθυντής Προϊόντων για το Amazon SageMaker Inference. Είναι παθιασμένος με τη συνεργασία με πελάτες και παρακινείται από τον στόχο του εκδημοκρατισμού της μηχανικής μάθησης. Εστιάζει στις βασικές προκλήσεις που σχετίζονται με την ανάπτυξη πολύπλοκων εφαρμογών ML, μοντέλων ML πολλαπλών μισθωτών, βελτιστοποιήσεις κόστους και καθιστώντας την ανάπτυξη μοντέλων βαθιάς μάθησης πιο προσιτή. Στον ελεύθερο χρόνο του, ο Saurabh απολαμβάνει την πεζοπορία, μαθαίνει για καινοτόμες τεχνολογίες, ακολουθεί το TechCrunch και περνά χρόνο με την οικογένειά του.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS