Ελαχιστοποιήστε την καθυστέρηση συμπερασμάτων σε πραγματικό χρόνο χρησιμοποιώντας στρατηγικές δρομολόγησης Amazon SageMaker | Υπηρεσίες Ιστού της Amazon

Ελαχιστοποιήστε την καθυστέρηση συμπερασμάτων σε πραγματικό χρόνο χρησιμοποιώντας στρατηγικές δρομολόγησης Amazon SageMaker | Υπηρεσίες Ιστού της Amazon

Amazon Sage Maker καθιστά εύκολη την ανάπτυξη μοντέλων μηχανικής μάθησης (ML) για συμπέρασμα σε πραγματικό χρόνο και προσφέρει μια ευρεία επιλογή παρουσιών ML που εκτείνονται σε CPU και επιταχυντές, όπως Αίσθηση AWS. Ως πλήρως διαχειριζόμενη υπηρεσία, μπορείτε να κλιμακώσετε τις αναπτύξεις των μοντέλων σας, να ελαχιστοποιήσετε το κόστος συμπερασμάτων και να διαχειριστείτε τα μοντέλα σας πιο αποτελεσματικά στην παραγωγή με μειωμένο λειτουργικό φόρτο. Ένα τελικό σημείο συμπερασμάτων SageMaker σε πραγματικό χρόνο αποτελείται από ένα τελικό σημείο HTTP και παρουσίες ML που αναπτύσσονται σε πολλές Ζώνες Διαθεσιμότητας για υψηλή διαθεσιμότητα. SageMaker αυτόματη κλιμάκωση εφαρμογής μπορεί να προσαρμόσει δυναμικά τον αριθμό των παρουσιών ML που παρέχονται για ένα μοντέλο ως απόκριση σε αλλαγές στο φόρτο εργασίας. Το τελικό σημείο κατανέμει ομοιόμορφα τα εισερχόμενα αιτήματα σε στιγμιότυπα ML χρησιμοποιώντας έναν αλγόριθμο round-robin.

Όταν τα μοντέλα ML που αναπτύσσονται σε παρουσίες λαμβάνουν κλήσεις API από μεγάλο αριθμό πελατών, μια τυχαία κατανομή αιτημάτων μπορεί να λειτουργήσει πολύ καλά όταν δεν υπάρχει μεγάλη μεταβλητότητα στα αιτήματα και τις απαντήσεις σας. Όμως, σε συστήματα με παραγωγικό φόρτο εργασίας AI, τα αιτήματα και οι απαντήσεις μπορεί να είναι εξαιρετικά μεταβλητά. Σε αυτές τις περιπτώσεις, είναι συχνά επιθυμητό να φορτώνεται ισορροπία λαμβάνοντας υπόψη τη χωρητικότητα και τη χρήση του στιγμιότυπου αντί για την τυχαία εξισορρόπηση φορτίου.

Σε αυτήν την ανάρτηση, συζητάμε τη στρατηγική δρομολόγησης των λιγότερων εκκρεμών αιτημάτων (LOR) του SageMaker και πώς μπορεί να ελαχιστοποιήσει την καθυστέρηση για ορισμένους τύπους φόρτου εργασίας συμπερασμάτων σε πραγματικό χρόνο, λαμβάνοντας υπόψη τη χωρητικότητα και τη χρήση των παρουσιών ML. Μιλάμε για τα πλεονεκτήματά του σε σχέση με τον προεπιλεγμένο μηχανισμό δρομολόγησης και πώς μπορείτε να ενεργοποιήσετε το LOR για τις αναπτύξεις μοντέλων σας. Τέλος, παρουσιάζουμε μια συγκριτική ανάλυση των βελτιώσεων λανθάνοντος χρόνου με LOR σε σχέση με την προεπιλεγμένη στρατηγική δρομολόγησης της τυχαίας δρομολόγησης.

Στρατηγική SageMaker LOR

Από προεπιλογή, τα τελικά σημεία του SageMaker έχουν στρατηγική τυχαίας δρομολόγησης. Το SageMaker υποστηρίζει τώρα μια στρατηγική LOR, η οποία επιτρέπει στο SageMaker να δρομολογεί βέλτιστα αιτήματα στην παρουσία που είναι καταλληλότερη για την εξυπηρέτηση αυτού του αιτήματος. Το SageMaker το καθιστά αυτό δυνατό παρακολουθώντας το φόρτο των παρουσιών πίσω από το τελικό σημείο σας και τα μοντέλα ή τα στοιχεία συμπερασμάτων που αναπτύσσονται σε κάθε εμφάνιση.

Το ακόλουθο διαδραστικό διάγραμμα δείχνει την προεπιλεγμένη πολιτική δρομολόγησης όπου τα αιτήματα που έρχονται στα τελικά σημεία του μοντέλου προωθούνται με τυχαίο τρόπο στις παρουσίες ML.

Ελαχιστοποιήστε την καθυστέρηση συμπερασμάτων σε πραγματικό χρόνο χρησιμοποιώντας στρατηγικές δρομολόγησης Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το ακόλουθο διαδραστικό διάγραμμα δείχνει τη στρατηγική δρομολόγησης όπου το SageMaker θα δρομολογήσει το αίτημα στην παρουσία που έχει τον μικρότερο αριθμό εκκρεμών αιτημάτων.

Ελαχιστοποιήστε την καθυστέρηση συμπερασμάτων σε πραγματικό χρόνο χρησιμοποιώντας στρατηγικές δρομολόγησης Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Γενικά, η δρομολόγηση LOR λειτουργεί καλά για βασικά μοντέλα ή μοντέλα παραγωγής τεχνητής νοημοσύνης όταν το μοντέλο σας ανταποκρίνεται σε εκατοντάδες χιλιοστά του δευτερολέπτου έως λεπτά. Εάν η απόκριση του μοντέλου σας έχει χαμηλότερο λανθάνοντα χρόνο (έως εκατοντάδες χιλιοστά του δευτερολέπτου), μπορεί να επωφεληθείτε περισσότερο από την τυχαία δρομολόγηση. Ανεξάρτητα από αυτό, συνιστούμε να δοκιμάσετε και να προσδιορίσετε τον καλύτερο αλγόριθμο δρομολόγησης για τον φόρτο εργασίας σας.

Πώς να ορίσετε στρατηγικές δρομολόγησης SageMaker

Το SageMaker τώρα σας επιτρέπει να ορίσετε το RoutingStrategy παράμετρος κατά τη δημιουργία του EndpointConfiguration για τα τελικά σημεία. Το διαφορετικό RoutingStrategy Οι τιμές που υποστηρίζονται από το SageMaker είναι:

  • LEAST_OUTSTANDING_REQUESTS
  • RANDOM

Το παρακάτω είναι ένα παράδειγμα ανάπτυξης ενός μοντέλου σε ένα τελικό σημείο συμπερασμάτων που έχει ενεργοποιημένο το LOR:

  1. Δημιουργήστε τη διαμόρφωση τελικού σημείου με ρύθμιση RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:
    endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
    )

  2. Δημιουργήστε το τελικό σημείο χρησιμοποιώντας τη διαμόρφωση τελικού σημείου (χωρίς αλλαγή):
    create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
    )

Αποτελέσματα απόδοσης

Πραγματοποιήσαμε συγκριτική αξιολόγηση απόδοσης για να μετρήσουμε τον λανθάνοντα χρόνο και την απόδοση συμπερασμάτων από άκρο σε άκρο codegen2-7B μοντέλο που φιλοξενείται σε στιγμιότυπα ml.g5.24xl με προεπιλεγμένη δρομολόγηση και έξυπνα τελικά σημεία δρομολόγησης. Το μοντέλο CodeGen2 ανήκει στην οικογένεια των αυτοπαλινδρομικών μοντέλων γλώσσας και παράγει εκτελέσιμο κώδικα όταν δίνονται αγγλικές προτροπές.

Στην ανάλυσή μας, αυξήσαμε τον αριθμό των παρουσιών ml.g5.24xl πίσω από κάθε τελικό σημείο για κάθε δοκιμαστική εκτέλεση καθώς αυξήθηκε ο αριθμός των ταυτόχρονων χρηστών, όπως φαίνεται στον παρακάτω πίνακα.

Δοκιμή Αριθμός Ταυτόχρονων Χρηστών Αριθμός περιπτώσεων
1 4 1
2 20 5
3 40 10
4 60 15
5 80 20

Μετρήσαμε τον λανθάνοντα χρόνο P99 από άκρο σε άκρο και για τα δύο τελικά σημεία και παρατηρήσαμε μια βελτίωση 4–33% στον λανθάνοντα χρόνο όταν ο αριθμός των περιπτώσεων αυξήθηκε από 5 σε 20, όπως φαίνεται στο παρακάτω γράφημα.

Ελαχιστοποιήστε την καθυστέρηση συμπερασμάτων σε πραγματικό χρόνο χρησιμοποιώντας στρατηγικές δρομολόγησης Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ομοίως, παρατηρήσαμε μια βελτίωση 15-16% στην απόδοση ανά λεπτό ανά περίπτωση, όταν ο αριθμός των περιπτώσεων αυξήθηκε από 5 σε 20.

Ελαχιστοποιήστε την καθυστέρηση συμπερασμάτων σε πραγματικό χρόνο χρησιμοποιώντας στρατηγικές δρομολόγησης Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αυτό δείχνει ότι η έξυπνη δρομολόγηση είναι σε θέση να βελτιώσει την κατανομή της κυκλοφορίας μεταξύ των τελικών σημείων, οδηγώντας σε βελτιώσεις στον λανθάνοντα χρόνο από άκρο σε άκρο και στη συνολική απόδοση.

Συμπέρασμα

Σε αυτήν την ανάρτηση, εξηγήσαμε τις στρατηγικές δρομολόγησης του SageMaker και τη νέα επιλογή για την ενεργοποίηση της δρομολόγησης LOR. Εξηγήσαμε πώς μπορείτε να ενεργοποιήσετε το LOR και πώς μπορεί να ωφελήσει τις αναπτύξεις του μοντέλου σας. Οι δοκιμές απόδοσης μας έδειξαν βελτιώσεις λανθάνοντος χρόνου και απόδοσης κατά τη διάρκεια εξαγωγής συμπερασμάτων σε πραγματικό χρόνο. Για να μάθετε περισσότερα σχετικά με τις δυνατότητες δρομολόγησης του SageMaker, ανατρέξτε στο τεκμηρίωση. Σας ενθαρρύνουμε να αξιολογήσετε τους φόρτους εργασίας εξαγωγής συμπερασμάτων και να προσδιορίσετε εάν έχετε διαμορφωθεί με τον καλύτερο τρόπο με τη στρατηγική δρομολόγησης.


Σχετικά με τους Συγγραφείς

Ελαχιστοποιήστε την καθυστέρηση συμπερασμάτων σε πραγματικό χρόνο χρησιμοποιώντας στρατηγικές δρομολόγησης Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τζέιμς Παρκ είναι αρχιτέκτονας λύσεων στο Amazon Web Services. Συνεργάζεται με την Amazon.com για το σχεδιασμό, την κατασκευή και την ανάπτυξη τεχνολογικών λύσεων στο AWS και έχει ιδιαίτερο ενδιαφέρον για την τεχνητή νοημοσύνη και τη μηχανική μάθηση. Στον ελεύθερο χρόνο του απολαμβάνει να αναζητά νέους πολιτισμούς, νέες εμπειρίες και να ενημερώνεται για τις τελευταίες τάσεις της τεχνολογίας. Μπορείτε να τον βρείτε LinkedIn.

Ελαχιστοποιήστε την καθυστέρηση συμπερασμάτων σε πραγματικό χρόνο χρησιμοποιώντας στρατηγικές δρομολόγησης Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Venugopal Pai είναι αρχιτέκτονας λύσεων στην AWS. Ζει στο Bengaluru της Ινδίας και βοηθά τους εγχώριους ψηφιακούς πελάτες να κλιμακώσουν και να βελτιστοποιήσουν τις εφαρμογές τους στο AWS.

Ελαχιστοποιήστε την καθυστέρηση συμπερασμάτων σε πραγματικό χρόνο χρησιμοποιώντας στρατηγικές δρομολόγησης Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ντέιβιντ Νιγκέντα είναι Ανώτερος Μηχανικός Ανάπτυξης Λογισμικού στην ομάδα του Amazon SageMaker, ο οποίος επί του παρόντος εργάζεται για τη βελτίωση των ροών εργασιών μηχανικής εκμάθησης παραγωγής, καθώς και για την κυκλοφορία νέων λειτουργιών συμπερασμάτων. Στον ελεύθερο χρόνο του, προσπαθεί να συμβαδίζει με τα παιδιά του.

Ελαχιστοποιήστε την καθυστέρηση συμπερασμάτων σε πραγματικό χρόνο χρησιμοποιώντας στρατηγικές δρομολόγησης Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Deepti Ragha είναι Μηχανικός Ανάπτυξης Λογισμικού στην ομάδα του Amazon SageMaker. Η τρέχουσα δουλειά της επικεντρώνεται στη δημιουργία λειτουργιών για την αποτελεσματική φιλοξενία μοντέλων μηχανικής εκμάθησης. Στον ελεύθερο χρόνο της, της αρέσουν τα ταξίδια, η πεζοπορία και η καλλιέργεια φυτών.

Άλαν ΤανΆλαν Ταν είναι Ανώτερος Διευθυντής Προϊόντων με το SageMaker, ο οποίος ηγείται των προσπαθειών για εξαγωγή συμπερασμάτων μεγάλων μοντέλων. Είναι παθιασμένος με την εφαρμογή της μηχανικής μάθησης στον τομέα της ανάλυσης. Εκτός δουλειάς, απολαμβάνει την ύπαιθρο.

Ελαχιστοποιήστε την καθυστέρηση συμπερασμάτων σε πραγματικό χρόνο χρησιμοποιώντας στρατηγικές δρομολόγησης Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Dhawal Patel είναι Κύριος Αρχιτέκτονας Μηχανικής Μάθησης στο AWS. Έχει συνεργαστεί με οργανισμούς που κυμαίνονται από μεγάλες επιχειρήσεις έως νεοφυείς επιχειρήσεις μεσαίου μεγέθους για προβλήματα που σχετίζονται με τους κατανεμημένους υπολογιστές και την Τεχνητή Νοημοσύνη. Εστιάζεται στη Deep Learning, συμπεριλαμβανομένων των τομέων NLP και Computer Vision. Βοηθά τους πελάτες να επιτύχουν συμπεράσματα μοντέλων υψηλής απόδοσης στο SageMaker.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS