Πώς το Forethought εξοικονομεί πάνω από 66% σε κόστος για μοντέλα τεχνητής νοημοσύνης που γεννιούνται χρησιμοποιώντας το Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Αυτή η ανάρτηση συντάχθηκε με τον Jad Chamoun, Διευθυντή Μηχανικής στην Forethought Technologies, Inc. και τη Salina Wu, Senior ML Engineer στην Forethought Technologies, Inc.

Φροντίδα είναι μια κορυφαία σουίτα παραγωγής AI για την εξυπηρέτηση πελατών. Στον πυρήνα της σουίτας του βρίσκεται το καινοτόμο SupportGPT™ τεχνολογία που χρησιμοποιεί μηχανική εκμάθηση για να μεταμορφώσει τον κύκλο ζωής της υποστήριξης πελατών—αυξάνοντας την εκτροπή, βελτιώνοντας το CSAT και ενισχύοντας την παραγωγικότητα των πρακτόρων. Το SupportGPT™ αξιοποιεί τα υπερσύγχρονα συστήματα ανάκτησης πληροφοριών (IR) και τα μεγάλα γλωσσικά μοντέλα (LLM) για να τροφοδοτήσει πάνω από 30 εκατομμύρια αλληλεπιδράσεις με πελάτες ετησίως.

Η κύρια περίπτωση χρήσης του SupportGPT είναι η βελτίωση της ποιότητας και της αποτελεσματικότητας των αλληλεπιδράσεων και των λειτουργιών υποστήριξης πελατών. Χρησιμοποιώντας υπερσύγχρονα συστήματα υπερύθρων που υποστηρίζονται από ενσωματώσεις και μοντέλα κατάταξης, το SupportGPT μπορεί να αναζητήσει γρήγορα σχετικές πληροφορίες, παρέχοντας ακριβείς και συνοπτικές απαντήσεις σε ερωτήματα πελατών. Το Forethought χρησιμοποιεί μοντέλα βελτιστοποιημένα ανά πελάτη για να ανιχνεύσει τις προθέσεις των πελατών προκειμένου να επιλύσει τις αλληλεπιδράσεις με τους πελάτες. Η ενσωμάτωση μεγάλων μοντέλων γλώσσας βοηθά στην εξανθρωπισμό της αλληλεπίδρασης με αυτοματοποιημένους πράκτορες, δημιουργώντας μια πιο ελκυστική και ικανοποιητική εμπειρία υποστήριξης.

Το SupportGPT βοηθά επίσης τους πράκτορες υποστήριξης πελατών προσφέροντας προτάσεις αυτόματης συμπλήρωσης και δημιουργώντας κατάλληλες απαντήσεις στα δελτία πελατών που ευθυγραμμίζονται με αυτές της εταιρείας με βάση προηγούμενες απαντήσεις. Χρησιμοποιώντας προηγμένα μοντέλα γλώσσας, οι αντιπρόσωποι μπορούν να αντιμετωπίσουν τις ανησυχίες των πελατών πιο γρήγορα και με μεγαλύτερη ακρίβεια, με αποτέλεσμα υψηλότερη ικανοποίηση των πελατών.

Επιπλέον, η αρχιτεκτονική του SupportGPT επιτρέπει τον εντοπισμό κενών στις βάσεις γνώσεων υποστήριξης, κάτι που βοηθά τους πράκτορες να παρέχουν πιο ακριβείς πληροφορίες στους πελάτες. Μόλις εντοπιστούν αυτά τα κενά, το SupportGPT μπορεί να δημιουργήσει αυτόματα άρθρα και άλλο περιεχόμενο για να καλύψει αυτά τα κενά γνώσης, διασφαλίζοντας ότι η βάση γνώσεων υποστήριξης παραμένει πελατοκεντρική και ενημερωμένη.

Σε αυτήν την ανάρτηση, μοιραζόμαστε πώς χρησιμοποιεί το Forethought Amazon Sage Maker τα τελικά σημεία πολλαπλών μοντέλων σε περιπτώσεις χρήσης γενετικής τεχνητής νοημοσύνης για εξοικονόμηση κόστους άνω του 66%.

Προκλήσεις υποδομής

Για να βοηθήσει στην προώθηση αυτών των δυνατοτήτων στην αγορά, η Forethought κλιμακώνει αποτελεσματικά τους φόρτους εργασίας ML και παρέχει υπερ-εξατομικευμένες λύσεις προσαρμοσμένες στη συγκεκριμένη περίπτωση χρήσης κάθε πελάτη. Αυτή η υπερ-εξατομίκευση επιτυγχάνεται μέσω της ενσωμάτωσης μοντέλων και ταξινομητών με ακρίβεια στα δεδομένα πελατών, διασφαλίζοντας ακριβή αποτελέσματα ανάκτησης πληροφοριών και γνώσεις τομέα που ανταποκρίνονται στις μοναδικές ανάγκες κάθε πελάτη. Τα προσαρμοσμένα μοντέλα αυτόματης συμπλήρωσης προσαρμόζονται επίσης με ακρίβεια στα δεδομένα πελατών για περαιτέρω βελτίωση της ακρίβειας και της συνάφειας των απαντήσεων που δημιουργούνται.

Μία από τις σημαντικές προκλήσεις στην επεξεργασία τεχνητής νοημοσύνης είναι η αποτελεσματική χρήση πόρων υλικού, όπως οι GPU. Για να αντιμετωπίσει αυτήν την πρόκληση, το Forethought χρησιμοποιεί τερματικά σημεία πολλαπλών μοντέλων του SageMaker (MMEs) για την εκτέλεση πολλαπλών μοντέλων AI σε ένα μόνο τελικό σημείο συμπερασμάτων και κλίμακα. Επειδή η υπερ-εξατομίκευση των μοντέλων απαιτεί την εκπαίδευση και την ανάπτυξη μοναδικών μοντέλων, ο αριθμός των μοντέλων κλιμακώνεται γραμμικά με τον αριθμό των πελατών, κάτι που μπορεί να γίνει δαπανηρό.

Για να επιτύχει τη σωστή ισορροπία απόδοσης για συμπέρασμα και κόστος σε πραγματικό χρόνο, η Forethought επέλεξε να χρησιμοποιήσει SageMaker MME, τα οποία υποστηρίζουν επιτάχυνση GPU. Τα MME του SageMaker επιτρέπουν στο Forethought να παρέχει λύσεις υψηλής απόδοσης, επεκτάσιμες και οικονομικά αποδοτικές με δευτερεύον λανθάνον χρόνο, αντιμετωπίζοντας πολλαπλά σενάρια υποστήριξης πελατών σε κλίμακα.

SageMaker and Forethought

Το SageMaker είναι μια πλήρως διαχειριζόμενη υπηρεσία που παρέχει στους προγραμματιστές και στους επιστήμονες δεδομένων τη δυνατότητα να δημιουργούν, να εκπαιδεύουν και να αναπτύσσουν γρήγορα μοντέλα ML. Τα MME της SageMaker παρέχουν μια επεκτάσιμη και οικονομικά αποδοτική λύση για την ανάπτυξη μεγάλου αριθμού μοντέλων για εξαγωγή συμπερασμάτων σε πραγματικό χρόνο. Τα MME χρησιμοποιούν ένα κοινόχρηστο κοντέινερ εξυπηρέτησης και έναν στόλο πόρων που μπορούν να χρησιμοποιήσουν επιταχυνόμενες παρουσίες, όπως GPU, για να φιλοξενήσουν όλα τα μοντέλα σας. Αυτό μειώνει το κόστος φιλοξενίας μεγιστοποιώντας τη χρήση τελικού σημείου σε σύγκριση με τη χρήση τελικών σημείων ενός μοντέλου. Μειώνει επίσης τα έξοδα ανάπτυξης, επειδή το SageMaker διαχειρίζεται τη φόρτωση και την εκφόρτωση μοντέλων στη μνήμη και την κλιμάκωση τους με βάση τα μοτίβα κυκλοφορίας του τελικού σημείου. Επιπλέον, όλα τα τελικά σημεία του SageMaker σε πραγματικό χρόνο επωφελούνται από ενσωματωμένες δυνατότητες διαχείρισης και παρακολούθησης μοντέλων, όπως π.χ. παραλλαγές σκιάς, αυτόματη κλιμάκωση, και εγγενής ενσωμάτωση με amazoncloudwatch (για περισσότερες πληροφορίες, ανατρέξτε στο Μετρήσεις CloudWatch για αναπτύξεις τελικού σημείου πολλαπλών μοντέλων).

Καθώς το Forethought μεγάλωσε για να φιλοξενήσει εκατοντάδες μοντέλα που απαιτούσαν επίσης πόρους GPU, είδαμε την ευκαιρία να δημιουργήσουμε μια πιο οικονομική, αξιόπιστη και διαχειρίσιμη αρχιτεκτονική μέσω των MME του SageMaker. Πριν από τη μετεγκατάσταση σε SageMaker MME, τα μοντέλα μας είχαν αναπτυχθεί στο Kubernetes στο Υπηρεσία Amazon Elastic Kubernetes (Amazon EKS). Παρόλο που το Amazon EKS παρείχε δυνατότητες διαχείρισης, ήταν αμέσως προφανές ότι διαχειριζόμασταν υποδομές που δεν ήταν ειδικά προσαρμοσμένες για συμπεράσματα. Η Forethought έπρεπε να διαχειριστούμε μόνοι μας το συμπέρασμα μοντέλου στο Amazon EKS, κάτι που ήταν επιβάρυνση για την αποτελεσματικότητα της μηχανικής. Για παράδειγμα, προκειμένου να μοιραστούμε ακριβούς πόρους GPU μεταξύ πολλών μοντέλων, ήμασταν υπεύθυνοι για την κατανομή άκαμπτων κλασμάτων μνήμης σε μοντέλα που καθορίστηκαν κατά την ανάπτυξη. Θέλαμε να αντιμετωπίσουμε τα ακόλουθα βασικά προβλήματα με την υπάρχουσα υποδομή μας:

Υψηλό κόστος – Για να διασφαλίσουμε ότι κάθε μοντέλο είχε αρκετούς πόρους, θα ήμασταν πολύ συντηρητικοί στο πόσα μοντέλα θα χωρέσουμε ανά περίπτωση. Αυτό είχε ως αποτέλεσμα πολύ υψηλότερο κόστος για τη φιλοξενία μοντέλων από ό,τι ήταν απαραίτητο.
Χαμηλή αξιοπιστία – Παρά το γεγονός ότι είμαστε συντηρητικοί στην κατανομή της μνήμης μας, δεν έχουν όλα τα μοντέλα τις ίδιες απαιτήσεις και περιστασιακά ορισμένα μοντέλα απορρίπτουν σφάλματα μνήμης (OOM).
Αναποτελεσματική διαχείριση – Έπρεπε να διαχειριστούμε διαφορετικές δηλώσεις ανάπτυξης για κάθε τύπο μοντέλου (όπως ταξινομητές, ενσωματώσεις και αυτόματη συμπλήρωση), κάτι που ήταν χρονοβόρο και επιρρεπές σε σφάλματα. Έπρεπε επίσης να διατηρήσουμε τη λογική για να καθορίσουμε την κατανομή μνήμης για διαφορετικούς τύπους μοντέλων.

Τελικά, χρειαζόμασταν μια πλατφόρμα συμπερασμάτων για να αναλάβουμε τη βαριά διαχείριση των μοντέλων μας κατά το χρόνο εκτέλεσης για να βελτιώσουμε το κόστος, την αξιοπιστία και τη διαχείριση της εξυπηρέτησης των μοντέλων μας. Οι MME της SageMaker μας επέτρεψαν να αντιμετωπίσουμε αυτές τις ανάγκες.

Μέσω της έξυπνης και δυναμικής φόρτωσης και εκφόρτωσης μοντέλων και των δυνατοτήτων κλιμάκωσης, τα MME της SageMaker παρείχαν μια σημαντικά λιγότερο δαπανηρή και πιο αξιόπιστη λύση για τη φιλοξενία των μοντέλων μας. Τώρα μπορούμε να προσαρμόσουμε πολλά περισσότερα μοντέλα ανά παράδειγμα και δεν χρειάζεται να ανησυχούμε για σφάλματα OOM, επειδή τα MME της SageMaker χειρίζονται δυναμικά τη φόρτωση και την εκφόρτωση μοντέλων. Επιπλέον, οι αναπτύξεις είναι πλέον τόσο απλές όσο η κλήση των API του Boto3 SageMaker και η επισύναψη των κατάλληλων πολιτικών αυτόματης κλιμάκωσης.

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική παλαιού τύπου μας.

Για να ξεκινήσουμε τη μετάβασή μας σε MME της SageMaker, εντοπίσαμε τις καλύτερες περιπτώσεις χρήσης για MME και ποια από τα μοντέλα μας θα ωφεληθούν περισσότερο από αυτήν την αλλαγή. Τα MME χρησιμοποιούνται καλύτερα για τα ακόλουθα:

Μοντέλα που αναμένεται να έχουν χαμηλή καθυστέρηση, αλλά αντέχουν σε ψυχρό χρόνο εκκίνησης (όταν τοποθετείται για πρώτη φορά)
Μοντέλα που καλούνται συχνά και με συνέπεια
Μοντέλα που χρειάζονται μερικούς πόρους GPU
Μοντέλα που μοιράζονται κοινές απαιτήσεις και λογική συμπερασμάτων

Προσδιορίσαμε τα μοντέλα ενσωματώσεων και τα μοντέλα γλώσσας αυτόματης συμπλήρωσης ως τα καλύτερα υποψήφια για τη μετεγκατάστασή μας. Για να οργανώσουμε αυτά τα μοντέλα σε MME, θα δημιουργούσαμε ένα MME ανά τύπο μοντέλου ή εργασία, ένα για τα μοντέλα ενσωμάτωσης και ένα άλλο για μοντέλα γλώσσας αυτόματης συμπλήρωσης.

Είχαμε ήδη ένα επίπεδο API πάνω από τα μοντέλα μας για διαχείριση μοντέλων και εξαγωγή συμπερασμάτων. Το καθήκον μας ήταν να επεξεργαστούμε ξανά τον τρόπο με τον οποίο αυτό το API ανέπτυξε και χειριζόταν τα συμπεράσματα σε μοντέλα κάτω από την κουκούλα με το SageMaker, με ελάχιστες αλλαγές στον τρόπο με τον οποίο οι πελάτες και οι ομάδες προϊόντων αλληλεπιδρούσαν με το API. Χρειαζόμασταν επίσης να συσκευάσουμε τα μοντέλα μας και την προσαρμοσμένη λογική συμπερασμάτων ώστε να είναι συμβατά με τον διακομιστή συμπερασμάτων NVIDIA Triton που χρησιμοποιεί SageMaker MME.

Το παρακάτω διάγραμμα απεικονίζει τη νέα μας αρχιτεκτονική.

Προσαρμοσμένη λογική συμπερασμάτων

Πριν από τη μετεγκατάσταση στο SageMaker, ο προσαρμοσμένος κώδικας συμπερασμάτων του Forethought (προεπεξεργασία και μεταεπεξεργασία) εκτελούσε το επίπεδο API όταν έγινε επίκληση ενός μοντέλου. Ο στόχος ήταν να μεταφερθεί αυτή η λειτουργικότητα στο ίδιο το μοντέλο για να αποσαφηνιστεί ο διαχωρισμός των ευθυνών, να διαμορφωθεί και να απλοποιηθεί ο κώδικάς τους και να μειωθεί το φορτίο στο API.

embeddings

Τα μοντέλα ενσωμάτωσης της Forethought αποτελούνται από δύο τεχνουργήματα μοντέλων PyTorch και το αίτημα συμπερασμάτων καθορίζει ποιο μοντέλο θα καλέσει. Κάθε μοντέλο απαιτεί προεπεξεργασμένο κείμενο ως είσοδο. Οι κύριες προκλήσεις ήταν η ενσωμάτωση ενός βήματος προεπεξεργασίας και η προσαρμογή δύο τεχνουργημάτων μοντέλων ανά ορισμό μοντέλου. Για να αντιμετωπίσει την ανάγκη για πολλαπλά βήματα στη λογική συμπερασμάτων, η Forethought ανέπτυξε ένα μοντέλο συνόλου Triton με δύο βήματα: μια διαδικασία προεπεξεργασίας υποστήριξης Python και μια κλήση μοντέλου υποστήριξης PyTorch. Τα μοντέλα συνόλου επιτρέπουν τον καθορισμό και την ταξινόμηση βημάτων στη λογική συμπερασμάτων, με κάθε βήμα να αντιπροσωπεύεται από ένα μοντέλο Triton οποιουδήποτε τύπου backend. Για να διασφαλιστεί η συμβατότητα με το backend Triton PyTorch, τα υπάρχοντα τεχνουργήματα του μοντέλου μετατράπηκαν σε μορφή TorchScript. Δημιουργήθηκαν ξεχωριστά μοντέλα Triton για κάθε ορισμό μοντέλου και το επίπεδο API του Forethought ήταν υπεύθυνο για τον καθορισμό του κατάλληλου TargetModel να επικαλεστεί με βάση το εισερχόμενο αίτημα.

αυτόματης συμπλήρωσης

Τα μοντέλα αυτόματης συμπλήρωσης (ακολουθία σε ακολουθία) παρουσίασαν ένα ξεχωριστό σύνολο απαιτήσεων. Συγκεκριμένα, χρειαζόταν να ενεργοποιήσουμε τη δυνατότητα επαναφοράς πολλαπλών κλήσεων μοντέλων και αποθήκευσης σημαντικών εισόδων για κάθε κλήση, διατηρώντας παράλληλα χαμηλή καθυστέρηση. Επιπλέον, αυτά τα μοντέλα απαιτούσαν βήματα προεπεξεργασίας και μεταεπεξεργασίας. Για να αντιμετωπίσει αυτές τις απαιτήσεις και να επιτύχει την επιθυμητή ευελιξία, η Forethought ανέπτυξε μοντέλα MME αυτόματης συμπλήρωσης χρησιμοποιώντας το backend Triton Python, το οποίο προσφέρει το πλεονέκτημα της εγγραφής του μοντέλου ως κώδικα Python.

Βαθμολόγηση επιδόσεων

Αφού καθορίστηκαν τα σχήματα των μοντέλων Triton, αναπτύξαμε μοντέλα στα τελικά σημεία και πραγματοποιήσαμε συγκριτική αξιολόγηση πόρων και απόδοσης. Ο κύριος στόχος μας ήταν να προσδιορίσουμε τον λανθάνοντα χρόνο για μοντέλα ψυχρής εκκίνησης έναντι μοντέλων στη μνήμη και πώς επηρεάστηκε η καθυστέρηση από το μέγεθος και τη συγχρονικότητα αιτήματος. Θέλαμε επίσης να μάθουμε πόσα μοντέλα θα μπορούσαν να χωρέσουν σε κάθε εμφάνιση, πόσα μοντέλα θα προκαλούσαν την κλιμάκωση των παρουσιών με την πολιτική μας για την αυτόματη κλιμάκωση και πόσο γρήγορα θα γινόταν η αναβάθμιση. Σύμφωνα με τους τύπους παρουσιών που χρησιμοποιούσαμε ήδη, κάναμε τη συγκριτική αξιολόγηση μας με στιγμιότυπα ml.g4dn.xlarge και ml.g4dn.2xlarge.

Αποτελέσματα

Ο παρακάτω πίνακας συνοψίζει τα αποτελέσματά μας.

Μέγεθος αιτήματος	Καθυστέρηση Ψυχρής Εκκίνησης	Καθυστέρηση συμπερασμάτων στην κρυφή μνήμη	Ταυτόχρονη καθυστέρηση (5 αιτήματα)
Μικρό (30 μάρκες)	12.7 δευτερόλεπτα	0.03 δευτερόλεπτα	0.12 δευτερόλεπτα
Μεσαίο (250 μάρκες)	12.7 δευτερόλεπτα	0.05 δευτερόλεπτα	0.12 δευτερόλεπτα
Μεγάλο (550 μάρκες)	12.7 δευτερόλεπτα	0.13 δευτερόλεπτα	0.12 δευτερόλεπτα

Είναι αξιοσημείωτο ότι ο λανθάνων χρόνος για αιτήματα ψυχρής εκκίνησης είναι σημαντικά υψηλότερος από τον λανθάνοντα χρόνο για αιτήματα συμπερασμάτων προσωρινής αποθήκευσης. Αυτό συμβαίνει επειδή το μοντέλο πρέπει να φορτωθεί από το δίσκο ή Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) όταν υποβάλλεται αίτημα ψυχρής εκκίνησης. Ο λανθάνοντας χρόνος για ταυτόχρονα αιτήματα είναι επίσης υψηλότερος από τον λανθάνοντα χρόνο για μεμονωμένα αιτήματα. Αυτό συμβαίνει επειδή το μοντέλο πρέπει να μοιράζεται μεταξύ ταυτόχρονων αιτημάτων, κάτι που μπορεί να οδηγήσει σε διαμάχη.

Ο παρακάτω πίνακας συγκρίνει τον λανθάνοντα χρόνο των μοντέλων παλαιού τύπου και των μοντέλων SageMaker.

Μέγεθος αιτήματος	Παλιότερα μοντέλα	Μοντέλα SageMaker
Μικρό (30 μάρκες)	0.74 δευτερόλεπτα	0.24 δευτερόλεπτα
Μεσαίο (250 μάρκες)	0.74 δευτερόλεπτα	0.24 δευτερόλεπτα
Μεγάλο (550 μάρκες)	0.80 δευτερόλεπτα	0.32 δευτερόλεπτα

Συνολικά, τα μοντέλα SageMaker είναι καλύτερη επιλογή για τη φιλοξενία μοντέλων αυτόματης συμπλήρωσης από τα μοντέλα παλαιού τύπου. Προσφέρουν χαμηλότερη καθυστέρηση, επεκτασιμότητα, αξιοπιστία και ασφάλεια.

Χρήση πηγών

Στην προσπάθειά μας να προσδιορίσουμε τον βέλτιστο αριθμό μοντέλων που θα μπορούσαν να χωρέσουν σε κάθε περίπτωση, πραγματοποιήσαμε μια σειρά δοκιμών. Το πείραμά μας περιελάμβανε τη φόρτωση μοντέλων στα τελικά σημεία μας χρησιμοποιώντας έναν τύπο παρουσίας ml.g4dn.xlarge, χωρίς καμία πολιτική αυτόματης κλιμάκωσης.

Αυτές οι συγκεκριμένες περιπτώσεις προσφέρουν 15.5 GB μνήμης και στοχεύαμε να επιτύχουμε περίπου 80% χρήση μνήμης GPU ανά περίπτωση. Λαμβάνοντας υπόψη το μέγεθος κάθε τεχνουργήματος μοντέλου κωδικοποιητή, καταφέραμε να βρούμε τον βέλτιστο αριθμό κωδικοποιητών Triton για φόρτωση σε μια παρουσία για να φτάσουμε στη στοχευμένη χρήση μνήμης GPU. Επιπλέον, δεδομένου ότι καθένα από τα μοντέλα ενσωματώσεών μας αντιστοιχεί σε δύο μοντέλα κωδικοποιητών Triton, μπορέσαμε να φιλοξενήσουμε έναν καθορισμένο αριθμό μοντέλων ενσωματώσεων ανά περίπτωση. Ως αποτέλεσμα, υπολογίσαμε τον συνολικό αριθμό των περιπτώσεων που απαιτούνται για την εξυπηρέτηση όλων των μοντέλων ενσωματώσεων. Αυτός ο πειραματισμός ήταν ζωτικής σημασίας για τη βελτιστοποίηση της χρήσης των πόρων μας και τη βελτίωση της αποτελεσματικότητας των μοντέλων μας.

Πραγματοποιήσαμε παρόμοια συγκριτική αξιολόγηση για τα μοντέλα αυτόματης συμπλήρωσης. Αυτά τα μοντέλα ήταν περίπου 292.0 MB το καθένα. Καθώς δοκιμάζαμε πόσα μοντέλα θα χωρούσαν σε μία παρουσία ml.g4dn.xlarge, παρατηρήσαμε ότι μπορούσαμε να χωρέσουμε μόνο τέσσερα μοντέλα προτού η παρουσία μας αρχίσει να ξεφορτώνει μοντέλα, παρά το μικρό μέγεθος των μοντέλων. Οι βασικές μας ανησυχίες ήταν:

Αιτία αύξησης της χρήσης μνήμης CPU
Αιτία για τα μοντέλα που ξεφορτώνονται όταν προσπαθήσαμε να φορτώσουμε ένα ακόμη μοντέλο αντί για το λιγότερο πρόσφατα χρησιμοποιημένο μοντέλο (LRU)

Καταφέραμε να εντοπίσουμε τη βασική αιτία της αιχμής χρήσης μνήμης που προήλθε από την προετοιμασία του περιβάλλοντος χρόνου εκτέλεσης CUDA στο μοντέλο Python μας, το οποίο ήταν απαραίτητο για τη μετακίνηση των μοντέλων και των δεδομένων μας εντός και εκτός της συσκευής GPU. Το CUDA φορτώνει πολλές εξωτερικές εξαρτήσεις στη μνήμη της CPU όταν αρχικοποιείται ο χρόνος εκτέλεσης. Επειδή το σύστημα υποστήριξης Triton PyTorch χειρίζεται και αφαιρεί κινούμενα δεδομένα εντός και εκτός της συσκευής GPU, δεν αντιμετωπίσαμε αυτό το πρόβλημα για τα μοντέλα ενσωμάτωσης. Για να το αντιμετωπίσουμε αυτό, προσπαθήσαμε να χρησιμοποιήσουμε στιγμιότυπα ml.g4dn.2xlarge, που είχαν την ίδια ποσότητα μνήμης GPU αλλά διπλάσια μνήμη CPU. Επιπλέον, προσθέσαμε αρκετές μικρές βελτιστοποιήσεις στον κώδικα υποστήριξης Python, συμπεριλαμβανομένης της διαγραφής τανυστών μετά τη χρήση, του αδειάσματος της προσωρινής μνήμης, της απενεργοποίησης των ντεγκραντέ και της συλλογής σκουπιδιών. Με τον μεγαλύτερο τύπο παρουσίας, μπορέσαμε να χωρέσουμε 10 μοντέλα ανά παρουσίαση και η χρήση της μνήμης CPU και GPU έγινε πολύ πιο ευθυγραμμισμένη.

Το παρακάτω διάγραμμα απεικονίζει αυτή την αρχιτεκτονική.

Αυτόματη κλιμάκωση

Επισυνάψαμε πολιτικές αυτόματης κλιμάκωσης τόσο στις ενσωματώσεις όσο και στα MME αυτόματης συμπλήρωσης. Η πολιτική μας για το τελικό σημείο των ενσωματώσεων στόχευε το 80% της μέσης χρήσης μνήμης GPU χρησιμοποιώντας προσαρμοσμένες μετρήσεις. Τα μοντέλα αυτόματης συμπλήρωσης παρουσίασαν ένα μοτίβο υψηλής επισκεψιμότητας κατά τις εργάσιμες ώρες και ελάχιστης κίνησης κατά τη διάρκεια της νύχτας. Εξαιτίας αυτού, δημιουργήσαμε μια πολιτική αυτόματης κλιμάκωσης βάσει InvocationsPerInstance ώστε να μπορούμε να κλιμακώνουμε σύμφωνα με τα μοτίβα κυκλοφορίας, εξοικονομώντας κόστος χωρίς να θυσιάζουμε την αξιοπιστία. Με βάση τη συγκριτική αξιολόγηση χρήσης πόρων, διαμορφώσαμε τις πολιτικές μας κλιμάκωσης με στόχο 225 InvocationsPerInstance.

Αναπτύξτε τη λογική και τον αγωγό

Η δημιουργία ενός MME στο SageMaker είναι απλή και παρόμοια με τη δημιουργία οποιουδήποτε άλλου τελικού σημείου στο SageMaker. Αφού δημιουργηθεί το τελικό σημείο, η προσθήκη πρόσθετων μοντέλων στο τελικό σημείο είναι τόσο απλή όσο η μεταφορά του τεχνουργήματος μοντέλου στη διαδρομή S3 που στοχεύει το τελικό σημείο. Σε αυτό το σημείο, μπορούμε να κάνουμε αιτήματα συμπερασμάτων στο νέο μας μοντέλο.

Ορίσαμε τη λογική που θα λαμβάνει τα μεταδεδομένα του μοντέλου, θα μορφοποιεί το τελικό σημείο ντετερμινιστικά με βάση τα μεταδεδομένα και θα ελέγχει αν το τελικό σημείο υπήρχε. Εάν δεν το έκανε, δημιουργούμε το τελικό σημείο και προσθέτουμε το τεχνούργημα μοντέλου Triton στην ενημερωμένη έκδοση κώδικα S3 για το τελικό σημείο (επίσης μορφοποιημένο ντετερμινιστικά). Για παράδειγμα, εάν τα μεταδεδομένα μοντέλου έδειχναν ότι πρόκειται για μοντέλο αυτόματης συμπλήρωσης, θα δημιουργούσε ένα τελικό σημείο για μοντέλα αυτόματης συμπλήρωσης και μια συσχετισμένη διαδρομή S3 για τεχνουργήματα μοντέλων αυτόματης συμπλήρωσης. Εάν υπήρχε το τελικό σημείο, θα αντιγράφαμε το τεχνούργημα του μοντέλου στη διαδρομή S3.

Τώρα που είχαμε τα σχήματα μοντέλων μας για τα μοντέλα MME μας και τη λειτουργικότητα για την ανάπτυξη των μοντέλων μας στο MME, χρειαζόμασταν έναν τρόπο να αυτοματοποιήσουμε την ανάπτυξη. Οι χρήστες μας πρέπει να καθορίσουν ποιο μοντέλο θέλουν να αναπτύξουν. αναλαμβάνουμε τη συσκευασία και την ανάπτυξη του μοντέλου. Ο προσαρμοσμένος κώδικας συμπερασμάτων που συσκευάζεται με το μοντέλο έχει εκδοθεί και προωθηθεί στο Amazon S3. στο βήμα συσκευασίας, τραβάμε τον κωδικό συμπεράσματος σύμφωνα με την έκδοση που καθορίστηκε (ή την πιο πρόσφατη έκδοση) και χρησιμοποιούμε αρχεία YAML που υποδεικνύουν τις δομές αρχείων των μοντέλων Triton.

Μια απαίτηση για εμάς ήταν ότι όλα τα μοντέλα MME μας θα φορτώνονταν στη μνήμη για να αποφευχθεί τυχόν καθυστέρηση ψυχρής εκκίνησης κατά τη διάρκεια αιτημάτων συμπερασμάτων παραγωγής για φόρτωση μοντέλων. Για να το πετύχουμε αυτό, παρέχουμε αρκετούς πόρους για να χωρέσουν όλα τα μοντέλα μας (σύμφωνα με την προηγούμενη συγκριτική αξιολόγηση) και καλούμε κάθε μοντέλο στο MME μας σε ωριαίο ρυθμό.

Το παρακάτω διάγραμμα απεικονίζει τον αγωγό ανάπτυξης του μοντέλου.

Το παρακάτω διάγραμμα απεικονίζει τη γραμμή προθέρμανσης του μοντέλου.

Επίκληση μοντέλου

Το υπάρχον επίπεδο API παρέχει μια αφαίρεση στους καλούντες για να κάνουν συμπεράσματα για όλα τα μοντέλα ML μας. Αυτό σήμαινε ότι έπρεπε να προσθέσουμε μόνο λειτουργικότητα στο επίπεδο API για να καλέσουμε το SageMaker MME με το σωστό μοντέλο στόχου ανάλογα με το αίτημα συμπερασμάτων, χωρίς αλλαγές στον κωδικό κλήσης. Ο κώδικας συμπερασμάτων SageMaker λαμβάνει το αίτημα συμπερασμάτων, μορφοποιεί τις εισόδους Triton που ορίζονται στα μοντέλα Triton μας και καλεί τα MME χρησιμοποιώντας το Boto3.

Οφέλη κόστους

Το Forethought έκανε σημαντικά βήματα για τη μείωση του κόστους φιλοξενίας μοντέλων και τον μετριασμό των σφαλμάτων OOM του μοντέλου, χάρη στη μετάβαση σε MME της SageMaker. Πριν από αυτήν την αλλαγή, ml.g4dn.xlarge παρουσίες εκτελούνται στο Amazon EKS. Με τη μετάβαση στα MME, ανακαλύψαμε ότι θα μπορούσε να φιλοξενήσει 12 μοντέλα ενσωματώσεων ανά περίπτωση, επιτυγχάνοντας παράλληλα 80% χρήση μνήμης GPU. Αυτό οδήγησε σε σημαντική μείωση των μηνιαίων εξόδων μας. Για να το θέσουμε σε μια προοπτική, πραγματοποιήσαμε εξοικονόμηση κόστους έως και 80%. Επιπλέον, για τη διαχείριση υψηλότερης επισκεψιμότητας, εξετάσαμε το ενδεχόμενο να κλιμακώσουμε τα αντίγραφα. Υποθέτοντας ένα σενάριο όπου χρησιμοποιούμε τρία αντίγραφα, διαπιστώσαμε ότι η εξοικονόμηση κόστους θα εξακολουθούσε να είναι σημαντική ακόμη και υπό αυτές τις συνθήκες, κυμαινόμενη γύρω στο 43%.

Το ταξίδι με τα MME της SageMaker έχει αποδειχθεί οικονομικά ωφέλιμο, μειώνοντας τα έξοδά μας, διασφαλίζοντας παράλληλα τη βέλτιστη απόδοση του μοντέλου. Προηγουμένως, τα μοντέλα γλώσσας αυτόματης συμπλήρωσης αναπτύχθηκαν στο Amazon EKS, απαιτώντας έναν διαφορετικό αριθμό παρουσιών ml.g4dn.xlarge με βάση την κατανομή μνήμης ανά μοντέλο. Αυτό είχε ως αποτέλεσμα ένα σημαντικό μηνιαίο κόστος. Ωστόσο, με την πρόσφατη μετεγκατάστασή μας σε MME της SageMaker, μπορέσαμε να μειώσουμε σημαντικά αυτά τα κόστη. Τώρα φιλοξενούμε όλα τα μοντέλα μας σε ml.g4dn.2xlarge παρουσίες, δίνοντάς μας τη δυνατότητα να συσκευάζουμε μοντέλα πιο αποτελεσματικά. Αυτό έχει περικόψει σημαντικά τα μηνιαία έξοδά μας και τώρα έχουμε πραγματοποιήσει εξοικονόμηση κόστους στο εύρος 66–74%. Αυτή η κίνηση έδειξε πόσο αποτελεσματική χρήση των πόρων μπορεί να οδηγήσει σε σημαντική εξοικονόμηση πόρων χρησιμοποιώντας τα MME της SageMaker.

Συμπέρασμα

Σε αυτήν την ανάρτηση, εξετάσαμε τον τρόπο με τον οποίο το Forethought χρησιμοποιεί τα τελικά σημεία πολλαπλών μοντέλων του SageMaker για να μειώσει το κόστος για συμπεράσματα σε πραγματικό χρόνο. Το SageMaker αναλαμβάνει την αδιαφοροποίητη άρση βαρέων βαρών, επομένως το Forethought μπορεί να αυξήσει την αποτελεσματικότητα της μηχανικής. Επιτρέπει επίσης στο Forethought να μειώσει δραματικά το κόστος συμπερασμάτων σε πραγματικό χρόνο, διατηρώντας παράλληλα την απόδοση που απαιτείται για τις κρίσιμες για την επιχείρηση λειτουργίες. Με αυτόν τον τρόπο, η Forethought είναι σε θέση να προσφέρει μια διαφοροποιημένη προσφορά στους πελάτες της χρησιμοποιώντας υπερ-εξατομικευμένα μοντέλα. Χρησιμοποιήστε το SageMaker MME για να φιλοξενήσετε τα μοντέλα σας σε κλίμακα και να μειώσετε το κόστος φιλοξενίας βελτιώνοντας τη χρήση τελικού σημείου. Μειώνει επίσης τα έξοδα ανάπτυξης, επειδή το Amazon SageMaker διαχειρίζεται τη φόρτωση μοντέλων στη μνήμη και την κλιμάκωσή τους με βάση τα μοτίβα κυκλοφορίας στο τελικό σημείο σας. Μπορείτε να βρείτε δείγματα κώδικα για τη φιλοξενία πολλαπλών μοντέλων χρησιμοποιώντας το SageMaker MME στο GitHub.

Σχετικά με τους Συγγραφείς

Jad Chamoun είναι Διευθυντής Core Engineering στο Forethought. Η ομάδα του επικεντρώνεται στη μηχανική πλατφόρμας που καλύπτει τη Μηχανική Δεδομένων, την Υποδομή Μηχανικής Μάθησης και την Υποδομή Cloud. Μπορείτε να τον βρείτε LinkedIn.

Σαλίνα Γου είναι μηχανικός υποδομής μηχανικής μάθησης Sr. στο Forethought.ai. Συνεργάζεται στενά με την ομάδα Machine Learning για τη δημιουργία και τη διατήρηση των υποδομών εκπαίδευσης, εξυπηρέτησης και δεδομένων από άκρο σε άκρο. Έχει ιδιαίτερα κίνητρα με την εισαγωγή νέων τρόπων βελτίωσης της αποτελεσματικότητας και μείωσης του κόστους σε όλο τον χώρο ML. Όταν δεν είναι στη δουλειά, η Salina απολαμβάνει το σερφ, την κεραμική και τη φύση.

Πώς το Forethought εξοικονομεί πάνω από 66% σε κόστος για μοντέλα τεχνητής νοημοσύνης που δημιουργούνται χρησιμοποιώντας το Amazon SageMaker | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Τζέιμς Παρκ είναι αρχιτέκτονας λύσεων στο Amazon Web Services. Συνεργάζεται με την Amazon.com για το σχεδιασμό, την κατασκευή και την ανάπτυξη τεχνολογικών λύσεων στο AWS και έχει ιδιαίτερο ενδιαφέρον για την τεχνητή νοημοσύνη και τη μηχανική μάθηση. Στον ελεύθερο χρόνο του απολαμβάνει να αναζητά νέους πολιτισμούς, νέες εμπειρίες και να ενημερώνεται για τις τελευταίες τάσεις της τεχνολογίας. Μπορείτε να τον βρείτε στο LinkedIn.

Σουνίλ Παντμαναμπχάν είναι αρχιτέκτονας λύσεων εκκίνησης στην AWS. Ως πρώην ιδρυτής startup και CTO, είναι παθιασμένος με τη μηχανική μάθηση και επικεντρώνεται στο να βοηθά τις startups να αξιοποιήσουν το AI/ML για τα επιχειρηματικά τους αποτελέσματα και να σχεδιάσουν και να αναπτύξουν λύσεις ML/AI σε κλίμακα.

Dhawal Patel είναι Κύριος Αρχιτέκτονας Μηχανικής Μάθησης στο AWS. Έχει συνεργαστεί με οργανισμούς που κυμαίνονται από μεγάλες επιχειρήσεις έως νεοφυείς επιχειρήσεις μεσαίου μεγέθους για προβλήματα που σχετίζονται με τους κατανεμημένους υπολογιστές και την Τεχνητή Νοημοσύνη. Εστιάζεται στη Deep Learning, συμπεριλαμβανομένων των τομέων NLP και Computer Vision. Βοηθά τους πελάτες να επιτύχουν συμπεράσματα μοντέλων υψηλής απόδοσης στο SageMaker.

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
EVM Finance. Ενιαία διεπαφή για αποκεντρωμένη χρηματοδότηση. Πρόσβαση εδώ.
Quantum Media Group. Ενισχυμένο IR/PR. Πρόσβαση εδώ.
PlatoAiStream. Web3 Data Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
πηγή: https://aws.amazon.com/blogs/machine-learning/how-forethought-saves-over-66-in-costs-for-generative-ai-models-using-amazon-sagemaker/

Σφραγίδα ώρας: Ιούνιος 13, 2023

Σφραγίδα ώρας: 15 Μαΐου 2023

Αναδημοσίευση από τον Πλάτωνα

Εκτελέστε και βελτιστοποιήστε τα συμπεράσματα πολλαπλών μοντέλων με τα τελικά σημεία πολλαπλών μοντέλων του Amazon SageMaker

Δημιουργήστε μια ροή εργασιών έγκρισης και προώθησης Μοντέλου Μητρώου Amazon SageMaker με ανθρώπινη παρέμβαση | Υπηρεσίες Ιστού της Amazon

Οργανώστε το ταξίδι μηχανικής εκμάθησης με το Amazon SageMaker Experiments και το Amazon SageMaker Pipelines

Μειώστε την κατανάλωση ενέργειας των φόρτων εργασίας μηχανικής εκμάθησης έως και 90% με ειδικά κατασκευασμένους επιταχυντές AWS | Υπηρεσίες Ιστού της Amazon

Επίτευξη φιλοξενίας χαμηλής καθυστέρησης για μοντέλα ML που βασίζονται σε δέντρα αποφάσεων στον διακομιστή NVIDIA Triton Inference στο Amazon SageMaker

Δημιουργήστε προβλέψεις ψυχρής εκκίνησης για προϊόντα χωρίς ιστορικά δεδομένα χρησιμοποιώντας το Amazon Forecast, τώρα έως και 45% πιο ακριβή

Παρουσιάζουμε το Amazon Textract Bulk Document Uploader για βελτιωμένη αξιολόγηση και ανάλυση | Υπηρεσίες Ιστού της Amazon

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός