Amazon Sage Maker καθιστά εύκολη την ανάπτυξη μοντέλων μηχανικής μάθησης (ML) για συμπέρασμα σε πραγματικό χρόνο και προσφέρει μια ευρεία επιλογή παρουσιών ML που εκτείνονται σε CPU και επιταχυντές, όπως Αίσθηση AWS. Ως πλήρως διαχειριζόμενη υπηρεσία, μπορείτε να κλιμακώσετε τις αναπτύξεις των μοντέλων σας, να ελαχιστοποιήσετε το κόστος συμπερασμάτων και να διαχειριστείτε τα μοντέλα σας πιο αποτελεσματικά στην παραγωγή με μειωμένο λειτουργικό φόρτο. Ένα τελικό σημείο συμπερασμάτων SageMaker σε πραγματικό χρόνο αποτελείται από ένα τελικό σημείο HTTP και παρουσίες ML που αναπτύσσονται σε πολλές Ζώνες Διαθεσιμότητας για υψηλή διαθεσιμότητα. SageMaker αυτόματη κλιμάκωση εφαρμογής μπορεί να προσαρμόσει δυναμικά τον αριθμό των παρουσιών ML που παρέχονται για ένα μοντέλο ως απόκριση σε αλλαγές στο φόρτο εργασίας. Το τελικό σημείο κατανέμει ομοιόμορφα τα εισερχόμενα αιτήματα σε στιγμιότυπα ML χρησιμοποιώντας έναν αλγόριθμο round-robin.
Όταν τα μοντέλα ML που αναπτύσσονται σε παρουσίες λαμβάνουν κλήσεις API από μεγάλο αριθμό πελατών, μια τυχαία κατανομή αιτημάτων μπορεί να λειτουργήσει πολύ καλά όταν δεν υπάρχει μεγάλη μεταβλητότητα στα αιτήματα και τις απαντήσεις σας. Όμως, σε συστήματα με παραγωγικό φόρτο εργασίας AI, τα αιτήματα και οι απαντήσεις μπορεί να είναι εξαιρετικά μεταβλητά. Σε αυτές τις περιπτώσεις, είναι συχνά επιθυμητό να φορτώνεται ισορροπία λαμβάνοντας υπόψη τη χωρητικότητα και τη χρήση του στιγμιότυπου αντί για την τυχαία εξισορρόπηση φορτίου.
Σε αυτήν την ανάρτηση, συζητάμε τη στρατηγική δρομολόγησης των λιγότερων εκκρεμών αιτημάτων (LOR) του SageMaker και πώς μπορεί να ελαχιστοποιήσει την καθυστέρηση για ορισμένους τύπους φόρτου εργασίας συμπερασμάτων σε πραγματικό χρόνο, λαμβάνοντας υπόψη τη χωρητικότητα και τη χρήση των παρουσιών ML. Μιλάμε για τα πλεονεκτήματά του σε σχέση με τον προεπιλεγμένο μηχανισμό δρομολόγησης και πώς μπορείτε να ενεργοποιήσετε το LOR για τις αναπτύξεις μοντέλων σας. Τέλος, παρουσιάζουμε μια συγκριτική ανάλυση των βελτιώσεων λανθάνοντος χρόνου με LOR σε σχέση με την προεπιλεγμένη στρατηγική δρομολόγησης της τυχαίας δρομολόγησης.
Στρατηγική SageMaker LOR
Από προεπιλογή, τα τελικά σημεία του SageMaker έχουν στρατηγική τυχαίας δρομολόγησης. Το SageMaker υποστηρίζει τώρα μια στρατηγική LOR, η οποία επιτρέπει στο SageMaker να δρομολογεί βέλτιστα αιτήματα στην παρουσία που είναι καταλληλότερη για την εξυπηρέτηση αυτού του αιτήματος. Το SageMaker το καθιστά αυτό δυνατό παρακολουθώντας το φόρτο των παρουσιών πίσω από το τελικό σημείο σας και τα μοντέλα ή τα στοιχεία συμπερασμάτων που αναπτύσσονται σε κάθε εμφάνιση.
Το ακόλουθο διαδραστικό διάγραμμα δείχνει την προεπιλεγμένη πολιτική δρομολόγησης όπου τα αιτήματα που έρχονται στα τελικά σημεία του μοντέλου προωθούνται με τυχαίο τρόπο στις παρουσίες ML.
Το ακόλουθο διαδραστικό διάγραμμα δείχνει τη στρατηγική δρομολόγησης όπου το SageMaker θα δρομολογήσει το αίτημα στην παρουσία που έχει τον μικρότερο αριθμό εκκρεμών αιτημάτων.
Γενικά, η δρομολόγηση LOR λειτουργεί καλά για βασικά μοντέλα ή μοντέλα παραγωγής τεχνητής νοημοσύνης όταν το μοντέλο σας ανταποκρίνεται σε εκατοντάδες χιλιοστά του δευτερολέπτου έως λεπτά. Εάν η απόκριση του μοντέλου σας έχει χαμηλότερο λανθάνοντα χρόνο (έως εκατοντάδες χιλιοστά του δευτερολέπτου), μπορεί να επωφεληθείτε περισσότερο από την τυχαία δρομολόγηση. Ανεξάρτητα από αυτό, συνιστούμε να δοκιμάσετε και να προσδιορίσετε τον καλύτερο αλγόριθμο δρομολόγησης για τον φόρτο εργασίας σας.
Πώς να ορίσετε στρατηγικές δρομολόγησης SageMaker
Το SageMaker τώρα σας επιτρέπει να ορίσετε το RoutingStrategy
παράμετρος κατά τη δημιουργία του EndpointConfiguration
για τα τελικά σημεία. Το διαφορετικό RoutingStrategy
Οι τιμές που υποστηρίζονται από το SageMaker είναι:
LEAST_OUTSTANDING_REQUESTS
RANDOM
Το παρακάτω είναι ένα παράδειγμα ανάπτυξης ενός μοντέλου σε ένα τελικό σημείο συμπερασμάτων που έχει ενεργοποιημένο το LOR:
- Δημιουργήστε τη διαμόρφωση τελικού σημείου με ρύθμιση
RoutingStrategy
asLEAST_OUTSTANDING_REQUESTS
: - Δημιουργήστε το τελικό σημείο χρησιμοποιώντας τη διαμόρφωση τελικού σημείου (χωρίς αλλαγή):
Αποτελέσματα απόδοσης
Πραγματοποιήσαμε συγκριτική αξιολόγηση απόδοσης για να μετρήσουμε τον λανθάνοντα χρόνο και την απόδοση συμπερασμάτων από άκρο σε άκρο codegen2-7B μοντέλο που φιλοξενείται σε στιγμιότυπα ml.g5.24xl με προεπιλεγμένη δρομολόγηση και έξυπνα τελικά σημεία δρομολόγησης. Το μοντέλο CodeGen2 ανήκει στην οικογένεια των αυτοπαλινδρομικών μοντέλων γλώσσας και παράγει εκτελέσιμο κώδικα όταν δίνονται αγγλικές προτροπές.
Στην ανάλυσή μας, αυξήσαμε τον αριθμό των παρουσιών ml.g5.24xl πίσω από κάθε τελικό σημείο για κάθε δοκιμαστική εκτέλεση καθώς αυξήθηκε ο αριθμός των ταυτόχρονων χρηστών, όπως φαίνεται στον παρακάτω πίνακα.
Δοκιμή | Αριθμός Ταυτόχρονων Χρηστών | Αριθμός περιπτώσεων |
1 | 4 | 1 |
2 | 20 | 5 |
3 | 40 | 10 |
4 | 60 | 15 |
5 | 80 | 20 |
Μετρήσαμε τον λανθάνοντα χρόνο P99 από άκρο σε άκρο και για τα δύο τελικά σημεία και παρατηρήσαμε μια βελτίωση 4–33% στον λανθάνοντα χρόνο όταν ο αριθμός των περιπτώσεων αυξήθηκε από 5 σε 20, όπως φαίνεται στο παρακάτω γράφημα.
Ομοίως, παρατηρήσαμε μια βελτίωση 15-16% στην απόδοση ανά λεπτό ανά περίπτωση, όταν ο αριθμός των περιπτώσεων αυξήθηκε από 5 σε 20.
Αυτό δείχνει ότι η έξυπνη δρομολόγηση είναι σε θέση να βελτιώσει την κατανομή της κυκλοφορίας μεταξύ των τελικών σημείων, οδηγώντας σε βελτιώσεις στον λανθάνοντα χρόνο από άκρο σε άκρο και στη συνολική απόδοση.
Συμπέρασμα
Σε αυτήν την ανάρτηση, εξηγήσαμε τις στρατηγικές δρομολόγησης του SageMaker και τη νέα επιλογή για την ενεργοποίηση της δρομολόγησης LOR. Εξηγήσαμε πώς μπορείτε να ενεργοποιήσετε το LOR και πώς μπορεί να ωφελήσει τις αναπτύξεις του μοντέλου σας. Οι δοκιμές απόδοσης μας έδειξαν βελτιώσεις λανθάνοντος χρόνου και απόδοσης κατά τη διάρκεια εξαγωγής συμπερασμάτων σε πραγματικό χρόνο. Για να μάθετε περισσότερα σχετικά με τις δυνατότητες δρομολόγησης του SageMaker, ανατρέξτε στο τεκμηρίωση. Σας ενθαρρύνουμε να αξιολογήσετε τους φόρτους εργασίας εξαγωγής συμπερασμάτων και να προσδιορίσετε εάν έχετε διαμορφωθεί με τον καλύτερο τρόπο με τη στρατηγική δρομολόγησης.
Σχετικά με τους Συγγραφείς
Τζέιμς Παρκ είναι αρχιτέκτονας λύσεων στο Amazon Web Services. Συνεργάζεται με την Amazon.com για το σχεδιασμό, την κατασκευή και την ανάπτυξη τεχνολογικών λύσεων στο AWS και έχει ιδιαίτερο ενδιαφέρον για την τεχνητή νοημοσύνη και τη μηχανική μάθηση. Στον ελεύθερο χρόνο του απολαμβάνει να αναζητά νέους πολιτισμούς, νέες εμπειρίες και να ενημερώνεται για τις τελευταίες τάσεις της τεχνολογίας. Μπορείτε να τον βρείτε LinkedIn.
Venugopal Pai είναι αρχιτέκτονας λύσεων στην AWS. Ζει στο Bengaluru της Ινδίας και βοηθά τους εγχώριους ψηφιακούς πελάτες να κλιμακώσουν και να βελτιστοποιήσουν τις εφαρμογές τους στο AWS.
Ντέιβιντ Νιγκέντα είναι Ανώτερος Μηχανικός Ανάπτυξης Λογισμικού στην ομάδα του Amazon SageMaker, ο οποίος επί του παρόντος εργάζεται για τη βελτίωση των ροών εργασιών μηχανικής εκμάθησης παραγωγής, καθώς και για την κυκλοφορία νέων λειτουργιών συμπερασμάτων. Στον ελεύθερο χρόνο του, προσπαθεί να συμβαδίζει με τα παιδιά του.
Deepti Ragha είναι Μηχανικός Ανάπτυξης Λογισμικού στην ομάδα του Amazon SageMaker. Η τρέχουσα δουλειά της επικεντρώνεται στη δημιουργία λειτουργιών για την αποτελεσματική φιλοξενία μοντέλων μηχανικής εκμάθησης. Στον ελεύθερο χρόνο της, της αρέσουν τα ταξίδια, η πεζοπορία και η καλλιέργεια φυτών.
Άλαν Ταν είναι Ανώτερος Διευθυντής Προϊόντων με το SageMaker, ο οποίος ηγείται των προσπαθειών για εξαγωγή συμπερασμάτων μεγάλων μοντέλων. Είναι παθιασμένος με την εφαρμογή της μηχανικής μάθησης στον τομέα της ανάλυσης. Εκτός δουλειάς, απολαμβάνει την ύπαιθρο.
Dhawal Patel είναι Κύριος Αρχιτέκτονας Μηχανικής Μάθησης στο AWS. Έχει συνεργαστεί με οργανισμούς που κυμαίνονται από μεγάλες επιχειρήσεις έως νεοφυείς επιχειρήσεις μεσαίου μεγέθους για προβλήματα που σχετίζονται με τους κατανεμημένους υπολογιστές και την Τεχνητή Νοημοσύνη. Εστιάζεται στη Deep Learning, συμπεριλαμβανομένων των τομέων NLP και Computer Vision. Βοηθά τους πελάτες να επιτύχουν συμπεράσματα μοντέλων υψηλής απόδοσης στο SageMaker.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/
- :έχει
- :είναι
- :δεν
- :που
- $UP
- 1
- 100
- 125
- 150
- 17
- 1870
- 20
- 7
- 9
- a
- Ικανός
- Σχετικα
- επιταχυντές
- Κατορθώνω
- απέναντι
- AI
- Μοντέλα AI
- Alan
- αλγόριθμος
- επιτρέπει
- Amazon
- Amazon Sage Maker
- Amazon υπηρεσίες Web
- Amazon.com
- μεταξύ των
- an
- ανάλυση
- analytics
- και
- api
- εφαρμογές
- εφαρμόζοντας
- ΕΙΝΑΙ
- ΠΕΡΙΟΧΗ
- τεχνητός
- τεχνητή νοημοσύνη
- AS
- At
- αυτόματη
- διαθεσιμότητα
- AWS
- Υπόλοιπο
- εξισορρόπησης
- BE
- πίσω
- ανήκει
- συγκριτικής αξιολόγησης
- όφελος
- οφέλη
- ΚΑΛΎΤΕΡΟΣ
- και οι δύο
- ευρύς
- χτίζω
- Κτίριο
- βάρος
- αλλά
- by
- κλήσεις
- CAN
- Χωρητικότητα
- περιπτώσεις
- ορισμένες
- αλλαγή
- Αλλαγές
- πελάτες
- κωδικός
- COM
- ερχομός
- εξαρτήματα
- υπολογιστή
- Computer Vision
- χρήση υπολογιστή
- ανταγωνιστής
- διαμόρφωση
- έχει ρυθμιστεί
- εξέταση
- θεωρώντας
- αποτελείται
- Δικαστικά έξοδα
- δημιουργία
- Ρεύμα
- Τη στιγμή
- Πελάτες
- Ημερομηνία
- βαθύς
- βαθιά μάθηση
- Προεπιλογή
- παρατάσσω
- αναπτυχθεί
- ανάπτυξη
- αναπτύξεις
- Υπηρεσίες
- Προσδιορίστε
- Ανάπτυξη
- διαφορετικές
- συζητήσουν
- διανέμονται
- κατανεμημένων υπολογιστών
- διανομή
- domains
- κατά την διάρκεια
- δυναμικά
- κάθε
- αποτελεσματικά
- αποτελεσματικά
- προσπάθειες
- ενεργοποιήσετε
- ενεργοποιημένη
- ενθαρρύνει
- από άκρη σε άκρη
- Τελικό σημείο
- μηχανικός
- Αγγλικά
- επιχειρήσεις
- αξιολογήσει
- παράδειγμα
- Δραστηριοτητες
- εξήγησε
- εξαιρετικά
- οικογένεια
- Χαρακτηριστικά
- Τελικά
- Εύρεση
- εστιάζει
- Εξής
- Για
- θεμελιακών
- από
- πλήρως
- General
- δημιουργεί
- γενετική
- Παραγωγική τεχνητή νοημοσύνη
- gif
- δεδομένου
- γραφική παράσταση
- Μεγαλώνοντας
- Έχω
- he
- βοηθά
- αυτήν
- Ψηλά
- αυτόν
- του
- οικοδεσπότης
- φιλοξενείται
- Πως
- Πώς να
- HTML
- HTTPS
- Εκατοντάδες
- προσδιορίσει
- if
- απεικονίζει
- βελτίωση
- βελτίωση
- βελτιώσεις
- βελτίωση
- in
- Συμπεριλαμβανομένου
- Εισερχόμενος
- αυξημένη
- Ινδία
- παράδειγμα
- Νοημοσύνη
- διαδραστικό
- τόκος
- σε
- IT
- ΤΟΥ
- jpg
- Διατήρηση
- παιδιά
- Γλώσσα
- large
- Μεγάλες επιχειρήσεις
- Αφάνεια
- αργότερο
- δρομολόγηση
- που οδηγεί
- ΜΑΘΑΊΝΩ
- μάθηση
- ελάχιστα
- ζωές
- φορτίο
- Παρτίδα
- χαμηλότερα
- μηχανή
- μάθηση μηχανής
- ΚΑΝΕΙ
- διαχείριση
- διαχειρίζεται
- διευθυντής
- τρόπος
- Ενδέχεται..
- μέτρο
- μηχανισμός
- χιλιοστά του δευτερολέπτου
- λεπτό
- Λεπτ.
- ML
- μοντέλο
- μοντέλα
- παρακολούθηση
- περισσότερο
- πολλαπλούς
- Νέα
- nlp
- Όχι.
- τώρα
- αριθμός
- of
- προσφορές
- συχνά
- on
- επιχειρήσεων
- Βελτιστοποίηση
- Επιλογή
- or
- οργανώσεις
- δικός μας
- έξω
- ύπαιθρο
- εκτός
- εκκρεμή
- επί
- φόρμες
- παράμετρος
- Ειδικότερα
- παθιασμένος
- για
- επίδοση
- Φυτά
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- πολιτική
- δυνατός
- Θέση
- παρόν
- Κύριος
- προβλήματα
- Προϊόν
- υπεύθυνος προϊόντων
- παραγωγή
- προτρέπει
- τυχαίος
- κυμαίνεται
- μάλλον
- σε πραγματικό χρόνο
- λαμβάνω
- συνιστώ
- Μειωμένος
- παραπέμπω
- Ανεξάρτητα
- σχετίζεται με
- ζητήσει
- αιτήματα
- απάντησης
- απαντήσεις
- Διαδρομή
- δρομολόγηση
- τρέξιμο
- σοφός
- Κλίμακα
- αναζήτηση
- επιλογή
- αρχαιότερος
- εξυπηρετούν
- υπηρεσία
- Υπηρεσίες
- σειρά
- τον καθορισμό
- αυτή
- έδειξε
- παρουσιάζεται
- Δείχνει
- έξυπνος
- λογισμικό
- ανάπτυξη λογισμικού
- Λύσεις
- ένταση
- Startups
- διαμονή
- ειλικρινής
- στρατηγικές
- Στρατηγική
- τέτοιος
- υποστηριζόνται!
- Υποστηρίζει
- συστήματα
- τραπέζι
- λήψη
- Συζήτηση
- Τεχνολογία
- δοκιμή
- δοκιμές
- από
- ότι
- Η
- Η περιοχή
- τους
- Εκεί.
- Αυτοί
- αυτό
- διακίνηση
- ώρα
- προς την
- ΚΙΝΗΣΗ στους ΔΡΟΜΟΥΣ
- Ταξίδια
- Τάσεις
- τύποι
- Χρήστες
- χρησιμοποιώντας
- Αξίες
- μεταβλητή
- πολύ
- όραμα
- we
- ιστός
- διαδικτυακές υπηρεσίες
- ΛΟΙΠΌΝ
- ήταν
- πότε
- Ποιό
- ενώ
- θα
- με
- Εργασία
- εργάστηκαν
- ροές εργασίας
- εργαζόμενος
- λειτουργεί
- Εσείς
- Σας
- zephyrnet
- ζώνες