Πώς η Αναζήτηση Amazon επιτυγχάνει συμπέρασμα T5 χαμηλής καθυστέρησης και υψηλής απόδοσης με το NVIDIA Triton στο AWS

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Το όραμα του Amazon Search είναι να δίνει τη δυνατότητα στους πελάτες να αναζητούν χωρίς κόπο. Η ορθογραφική μας διόρθωση σάς βοηθά να βρείτε αυτό που θέλετε ακόμα κι αν δεν γνωρίζετε την ακριβή ορθογραφία των λέξεων που θέλετε. Στο παρελθόν, χρησιμοποιούσαμε αλγόριθμους κλασικής μηχανικής εκμάθησης (ML) με χειροκίνητη μηχανική χαρακτηριστικών για τη διόρθωση της ορθογραφίας. Για να κάνουμε το επόμενο άλμα γενιάς στην απόδοση της ορθογραφίας διόρθωσης, υιοθετούμε μια σειρά από προσεγγίσεις βαθιάς μάθησης, συμπεριλαμβανομένων μοντέλων αλληλουχίας σε ακολουθία. Τα μοντέλα Deep Learning (DL) είναι εντατικά υπολογιστικά τόσο στην εκπαίδευση όσο και στην εξαγωγή συμπερασμάτων, και αυτό το κόστος έχει κάνει ιστορικά μη πρακτικά τα μοντέλα DL σε ένα περιβάλλον παραγωγής στην κλίμακα της Amazon. Σε αυτήν την ανάρτηση, παρουσιάζουμε τα αποτελέσματα ενός πειραματισμού βελτιστοποίησης συμπερασμάτων, όπου ξεπερνάμε αυτά τα εμπόδια και επιτυγχάνουμε 534% επιτάχυνση συμπερασμάτων για το δημοφιλές Hugging Face T5 Transformer.

Πρόκληση

Ο μετασχηματιστής μεταφοράς κειμένου σε κείμενο (T5, Εξερεύνηση των ορίων της μεταφοράς μάθησης με έναν ενοποιημένο μετασχηματιστή κειμένου σε κείμενο, Reffel et al) είναι η πιο σύγχρονη αρχιτεκτονική του μοντέλου επεξεργασίας φυσικής γλώσσας (NLP). Το T5 είναι μια πολλά υποσχόμενη αρχιτεκτονική για τη διόρθωση της ορθογραφίας, που διαπιστώσαμε ότι έχει καλή απόδοση στα πειράματά μας. Τα μοντέλα T5 είναι εύκολο στην έρευνα, την ανάπτυξη και την εκπαίδευση, χάρη στα πλαίσια ανοιχτού κώδικα βαθιάς μάθησης και τη συνεχή ακαδημαϊκή και επιχειρηματική έρευνα.

Ωστόσο, είναι δύσκολο να επιτευχθεί συμπέρασμα ποιότητας παραγωγής, χαμηλής καθυστέρησης με ένα T5. Για παράδειγμα, ένα μόνο συμπέρασμα με ένα PyTorch T5 διαρκεί 45 χιλιοστά του δευτερολέπτου σε μία από τις τέσσερις NVIDIA V100 Tensor Core GPU που εξοπλίζουν ένα Amazon Elastic Compute Cloud (EC2) p3.8xlarge. (Όλοι οι αριθμοί συμπερασμάτων που αναφέρονται αφορούν μια είσοδο 9 διακριτικών και την έξοδο 11 διακριτικών. Η καθυστέρηση των αρχιτεκτονικών T5 είναι ευαίσθητη τόσο στα μήκη εισόδου όσο και στα μήκη εξόδου.)

Το συμπέρασμα T5 με χαμηλή καθυστέρηση και οικονομικά αποδοτικό σε κλίμακα είναι μια γνωστή δυσκολία που έχει αναφερθεί από αρκετούς πελάτες AWS πέρα από την Αναζήτηση Amazon, γεγονός που ενισχύει το κίνητρό μας να συνεισφέρουμε σε αυτήν την ανάρτηση. Για να μεταβεί από ένα επιστημονικό επίτευγμα εκτός σύνδεσης σε μια υπηρεσία παραγωγής που απευθύνεται σε πελάτες, η Amazon Search αντιμετωπίζει τις ακόλουθες προκλήσεις:

Αφάνεια – Πώς να πραγματοποιήσετε το συμπέρασμα T5 σε λιγότερο από 50 χιλιοστά του δευτερολέπτου καθυστέρηση P99
Διακίνηση – Πώς να χειρίζεστε ταυτόχρονα αιτήματα συμπερασμάτων μεγάλης κλίμακας
Αποδοτικότητα κόστους – Πώς να διατηρήσετε το κόστος υπό έλεγχο

Στο υπόλοιπο αυτής της ανάρτησης, εξηγούμε πώς η στοίβα βελτιστοποίησης συμπερασμάτων NVIDIA—δηλαδή η NVIDIA TensorRT μεταγλωττιστή και του ανοιχτού κώδικα NVIDIA Triton Inference Server— λύνει αυτές τις προκλήσεις. Ανάγνωση Δελτίο τύπου της NVIDIA για να μάθετε για τις ενημερώσεις.

NVIDIA TensorRT: Μείωση κόστους και καθυστέρησης με βελτιστοποίηση συμπερασμάτων

Τα πλαίσια βαθιάς μάθησης είναι βολικά για γρήγορη επανάληψη στην επιστήμη και διαθέτουν πολυάριθμες λειτουργίες για επιστημονική μοντελοποίηση, φόρτωση δεδομένων και βελτιστοποίηση εκπαίδευσης. Ωστόσο, τα περισσότερα από αυτά τα εργαλεία δεν είναι βέλτιστα για εξαγωγή συμπερασμάτων, κάτι που απαιτεί μόνο ένα ελάχιστο σύνολο τελεστών για συναρτήσεις πολλαπλασιασμού και ενεργοποίησης πίνακα. Ως εκ τούτου, μπορούν να επιτευχθούν σημαντικά κέρδη χρησιμοποιώντας μια εξειδικευμένη εφαρμογή μόνο για προβλέψεις αντί της εκτέλεσης συμπερασμάτων στο πλαίσιο ανάπτυξης βαθιάς μάθησης.

Το NVIDIA TensorRT είναι ένα SDK για συμπεράσματα βαθιάς μάθησης υψηλής απόδοσης. Το TensorRT προσφέρει βελτιστοποιημένο χρόνο εκτέλεσης, χρησιμοποιώντας βελτιστοποιημένους πυρήνες χαμηλού επιπέδου που διατίθενται σε GPU της NVIDIA, και ένα γράφημα μοντέλου μόνο για συμπεράσματα, το οποίο αναδιατάσσει τον υπολογισμό συμπερασμάτων με βελτιστοποιημένη σειρά.

Στην επόμενη ενότητα, θα μιλήσουμε για τις λεπτομέρειες που συμβαίνουν πίσω από το TensorRT και πώς επιταχύνει την απόδοση.

Μειωμένη Ακρίβεια μεγιστοποιεί την απόδοση με τα FP16 ή INT8 με κβαντισμό μοντέλων διατηρώντας παράλληλα την ορθότητα.
Layer and Tensor Fusion βελτιστοποιεί τη χρήση της μνήμης GPU και του εύρους ζώνης συγχωνεύοντας κόμβους σε έναν πυρήνα για να αποφευχθεί η καθυστέρηση εκκίνησης του πυρήνα.
Αυτόματος συντονισμός πυρήνα επιλέγει τα καλύτερα επίπεδα δεδομένων και αλγόριθμους με βάση την πλατφόρμα GPU-στόχου και τα σχήματα του πυρήνα δεδομένων.
Δυναμική μνήμη τανυστή ελαχιστοποιεί το αποτύπωμα μνήμης απελευθερώνοντας την περιττή κατανάλωση μνήμης από ενδιάμεσα αποτελέσματα και επαναχρησιμοποιεί τη μνήμη για τανυστές αποτελεσματικά.
Εκτέλεση πολλαπλών ροών χρησιμοποιεί ένα επεκτάσιμο σχέδιο για την επεξεργασία πολλαπλών ροών εισόδου παράλληλα με αποκλειστικές ροές CUDA.
Time Fusion βελτιστοποιεί τα επαναλαμβανόμενα νευρωνικά δίκτυα σε χρονικά βήματα με πυρήνες που δημιουργούνται δυναμικά.

Το T5 χρησιμοποιεί στρώματα μετασχηματιστή ως δομικά στοιχεία για τις αρχιτεκτονικές του. Η τελευταία έκδοση του NVIDIA TensorRT 8.2 εισάγει νέες βελτιστοποιήσεις για τα μοντέλα T5 και GPT-2 για εξαγωγή συμπερασμάτων σε πραγματικό χρόνο. Στον παρακάτω πίνακα, μπορούμε να δούμε την επιτάχυνση με το TensorRT σε ορισμένα δημόσια μοντέλα T5 που εκτελούνται σε παρουσίες Amazon EC2G4dn, που υποστηρίζονται από GPU NVIDIA T4 και παρουσίες EC2 G5, που υποστηρίζονται από GPU NVIDIA A10G.

Μοντέλο	Παράδειγμα	Λανθάνουσα καθυστέρηση Pytorch βάσης (ms)			Latency TensorRT 8.2 (ms)						Επιτάχυνση έναντι της βασικής γραμμής HF
		FP32			FP32			FP16			FP32	FP16
		κωδικοποιητή	Αποκρυπτογράφος	Από άκρη σε άκρη	κωδικοποιητή	Αποκρυπτογράφος	Από άκρη σε άκρη	κωδικοποιητή	Αποκρυπτογράφος	Από άκρη σε άκρη	Από άκρη σε άκρη	Από άκρη σε άκρη
t5-μικρό	g4dn.xlarge	5.98	9.74	30.71	1.28	2.25	7.54	0.93	1.59	5.91	407.40%	519.34%
	g5.xlarge	4.63	7.56	24.22	0.61	1.05	3.99	0.47	0.80	3.19	606.66%	760.01%
t5-βάση	g4dn.xlarge	11.61	19.05	78.44	3.18	5.45	19.59	3.15	2.96	13.76	400.48%	569.97%
	g5.xlarge	8.59	14.23	59.98	1.55	2.47	11.32	1.54	1.65	8.46	530.05%	709.20%

Για περισσότερες πληροφορίες σχετικά με τις βελτιστοποιήσεις και την αναπαραγωγή της συνημμένης απόδοσης, ανατρέξτε στο Βελτιστοποίηση T5 και GPT-2 για συμπέρασμα σε πραγματικό χρόνο με το NVIDIA TensorRT.

Είναι σημαντικό να σημειωθεί ότι η μεταγλώττιση διατηρεί την ακρίβεια του μοντέλου, καθώς λειτουργεί στο περιβάλλον συμπερασμάτων και στον προγραμματισμό υπολογισμών, αφήνοντας αναλλοίωτη την επιστήμη του μοντέλου - σε αντίθεση με τη συμπίεση αφαίρεσης βάρους, όπως η απόσταξη ή το κλάδεμα. Το NVIDIA TensorRT επιτρέπει τον συνδυασμό μεταγλώττισης με κβαντοποίηση για περαιτέρω κέρδη. Η κβαντοποίηση έχει διπλά πλεονεκτήματα στο πρόσφατο υλικό NVIDIA: μειώνει τη χρήση της μνήμης και επιτρέπει τη χρήση πυρήνων τανυστή NVIDIA, κυψελών ειδικά για το DL που εκτελούν μια συγχωνευμένη μήτρα-πολλαπλασιασμός-προσθήκη με μικτή ακρίβεια.

Στην περίπτωση του πειραματισμού Amazon Search με το μοντέλο Hugging Face T5, η αντικατάσταση του PyTorch με το TensorRT για συμπέρασμα μοντέλου αυξάνει την ταχύτητα κατά 534%.

NVIDIA Triton: Εξυπηρέτηση συμπερασμάτων χαμηλής καθυστέρησης, υψηλής απόδοσης

Οι σύγχρονες λύσεις εξυπηρέτησης μοντέλων μπορούν να μετατρέψουν τα εκπαιδευμένα μοντέλα εκτός σύνδεσης σε προϊόντα που απευθύνονται σε πελάτες που λειτουργούν με ML. Για να διατηρήσετε λογικό κόστος σε τέτοια κλίμακα, είναι σημαντικό να διατηρήσετε χαμηλά τα γενικά έξοδα εξυπηρέτησης (χειρισμός HTTP, προεπεξεργασία και μεταεπεξεργασία, επικοινωνία CPU-GPU) και να εκμεταλλευτείτε πλήρως την ικανότητα παράλληλης επεξεργασίας των GPU.

Το NVIDIA Triton είναι ένα λογισμικό που εξυπηρετεί συμπεράσματα που προτείνει ευρεία υποστήριξη χρόνου εκτέλεσης μοντέλων (NVIDIA TensorRT, ONNX, PyTorch, XGBoost μεταξύ άλλων) και backend υποδομών, συμπεριλαμβανομένων των GPU, CPU και AWS Inferentia.

Οι επαγγελματίες ML αγαπούν τον Triton για πολλούς λόγους. Η δυναμική του ικανότητα ομαδοποίησης επιτρέπει τη συγκέντρωση αιτημάτων συμπερασμάτων κατά τη διάρκεια μιας καθυστέρησης που καθορίζεται από το χρήστη και εντός ενός μέγιστου μεγέθους παρτίδας που ορίζεται από τον χρήστη, έτσι ώστε τα συμπεράσματα GPU να ομαδοποιούνται, αποσβένοντας τα γενικά έξοδα επικοινωνίας CPU-GPU. Λάβετε υπόψη ότι η δυναμική ομαδοποίηση πραγματοποιείται από την πλευρά του διακομιστή και μέσα σε πολύ σύντομα χρονικά πλαίσια, έτσι ώστε ο πελάτης που ζητά να εξακολουθεί να έχει μια σύγχρονη εμπειρία επίκλησης σχεδόν σε πραγματικό χρόνο. Οι χρήστες του Triton απολαμβάνουν επίσης τη δυνατότητα ταυτόχρονης εκτέλεσης μοντέλου. Οι GPU είναι ισχυροί multitaskers που διαπρέπουν στην παράλληλη εκτέλεση υπολογιστικών φόρτων εργασίας. Το Triton μεγιστοποιεί τη χρήση και την απόδοση της GPU χρησιμοποιώντας ροές CUDA για την ταυτόχρονη εκτέλεση πολλαπλών παρουσιών μοντέλων. Αυτές οι περιπτώσεις μοντέλων μπορεί να είναι διαφορετικά μοντέλα από διαφορετικά πλαίσια για διαφορετικές περιπτώσεις χρήσης ή απευθείας αντίγραφο του ίδιου μοντέλου. Αυτό μεταφράζεται σε άμεση βελτίωση της απόδοσης όταν έχετε αρκετή μνήμη GPU σε αδράνεια. Επίσης, καθώς το Triton δεν συνδέεται με ένα συγκεκριμένο πλαίσιο ανάπτυξης DL, επιτρέπει στον επιστήμονα να εκφραστεί πλήρως, στο εργαλείο της επιλογής του.

Με το Triton στο AWS, η Amazon Search αναμένει καλύτερη εξυπηρέτηση Amazon.com πελάτες και πληρούν τις απαιτήσεις λανθάνοντος χρόνου με χαμηλό κόστος. Η στενή ενοποίηση μεταξύ του χρόνου εκτέλεσης TensorRT και του διακομιστή Triton διευκολύνει την εμπειρία ανάπτυξης. Η χρήση της υποδομής cloud AWS επιτρέπει την αύξηση ή μείωση της κλίμακας σε λίγα λεπτά με βάση τις απαιτήσεις απόδοσης, διατηρώντας παράλληλα τον πήχη ψηλά ή την αξιοπιστία και την ασφάλεια.

Πώς το AWS μειώνει το εμπόδιο εισόδου

Ενώ η Amazon Search διεξήγαγε αυτό το πείραμα στην υποδομή Amazon EC2, υπάρχουν άλλες υπηρεσίες AWS για να διευκολύνουν την ανάπτυξη, την εκπαίδευση και τη φιλοξενία προηγμένων λύσεων βαθιάς μάθησης.

Για παράδειγμα, το AWS και η NVIDIA έχουν συνεργαστεί για την κυκλοφορία μιας διαχειριζόμενης υλοποίησης του Triton Inference Server στο Amazon Sage Maker ; για περισσότερες πληροφορίες, βλ Αναπτύξτε γρήγορη και επεκτάσιμη τεχνητή νοημοσύνη με τον NVIDIA Triton Inference Server στο Amazon SageMaker. Η AWS συνεργάστηκε επίσης με το Hugging Face για να αναπτύξει μια διαχειριζόμενη, βελτιστοποιημένη ενοποίηση μεταξύ του Amazon SageMaker και του Hugging Face Transformers, του πλαισίου ανοιχτού κώδικα από το οποίο προέρχεται το μοντέλο Amazon Search T5. διαβάστε περισσότερα στο https://aws.amazon.com/machine-learning/hugging-face/.

Ενθαρρύνουμε τους πελάτες με εφαρμογές εξυπηρέτησης βαθιάς εκμάθησης CPU και GPU ευαίσθητες σε καθυστέρηση να εξετάσουν το NVIDIA TensorRT και το Triton σε AWS. Πείτε μας τι κατασκευάζετε!

Παθιάζεστε με τη βαθιά μάθηση και τη δημιουργία λύσεων που βασίζονται σε βαθιά μάθηση για την Αναζήτηση Amazon; Ρίξτε μια ματιά στο δικό μας σελίδα σταδιοδρομίας.

Σχετικά με τους Συγγραφείς

RJ είναι μηχανικός στην ομάδα Search M5 που ηγείται των προσπαθειών για τη δημιουργία συστημάτων βαθιάς μάθησης μεγάλης κλίμακας για εκπαίδευση και εξαγωγή συμπερασμάτων. Εκτός δουλειάς εξερευνά διάφορες κουζίνες φαγητού και παίζει σπορ με ρακέτα.

Hemant Pugaliya είναι Εφαρμοσμένος Επιστήμονας στο Search M5. Εργάζεται στην εφαρμογή της πιο πρόσφατης έρευνας επεξεργασίας φυσικής γλώσσας και βαθιάς μάθησης για τη βελτίωση της εμπειρίας των πελατών στις αγορές του Amazon παγκοσμίως. Τα ερευνητικά του ενδιαφέροντα περιλαμβάνουν επεξεργασία φυσικής γλώσσας και συστήματα μηχανικής μάθησης μεγάλης κλίμακας. Εκτός δουλειάς, του αρέσει η πεζοπορία, η μαγειρική και το διάβασμα.

Άντι Σαν είναι Μηχανικός Λογισμικού και Τεχνικός Υπεύθυνος για Διόρθωση Ορθογραφίας Αναζήτησης. Τα ερευνητικά του ενδιαφέροντα περιλαμβάνουν τη βελτιστοποίηση της καθυστέρησης συμπερασμάτων βαθιάς μάθησης και τη δημιουργία πλατφορμών ταχείας πειραματισμού. Εκτός δουλειάς, του αρέσει η παραγωγή ταινιών και τα ακροβατικά.

Λε Κάι είναι Μηχανικός Λογισμικού στο Amazon Search. Εργάζεται για τη βελτίωση της απόδοσης της Διόρθωσης Ορθογραφίας αναζήτησης για να βοηθήσει τους πελάτες με την εμπειρία αγορών τους. Εστιάζει σε υψηλής απόδοσης διαδικτυακά συμπεράσματα και βελτιστοποίηση κατανεμημένης εκπαίδευσης για μοντέλο βαθιάς μάθησης. Εκτός δουλειάς, του αρέσει το σκι, η πεζοπορία και η ποδηλασία.

Αντώνης Κο Αυτή τη στιγμή εργάζεται ως μηχανικός λογισμικού στο Search M5 Palo Alto, CA. Εργάζεται στην κατασκευή εργαλείων και προϊόντων για ανάπτυξη μοντέλων και βελτιστοποίηση συμπερασμάτων. Εκτός δουλειάς, του αρέσει να μαγειρεύει και να παίζει ρακέτες.

Ολιβιέ Κρουκάντ είναι Αρχιτέκτονας λύσεων Specialist Machine Learning στην AWS, με έδρα τη Γαλλία. Ο Olivier βοηθά τους πελάτες της AWS – από μικρές νεοφυείς επιχειρήσεις έως μεγάλες επιχειρήσεις – να αναπτύξουν και να αναπτύξουν εφαρμογές μηχανικής εκμάθησης ποιότητας παραγωγής. Στον ελεύθερο χρόνο του, του αρέσει να διαβάζει ερευνητικές εργασίες και να εξερευνά την έρημο με φίλους και οικογένεια.

Ανίς Μόχαν είναι Αρχιτέκτονας Μηχανικής Μάθησης στην NVIDIA και ο τεχνικός επικεφαλής για τις δεσμεύσεις ML και DL με τους πελάτες της στην ευρύτερη περιοχή του Σιάτλ.

Τζιαόνγκ Λιου είναι αρχιτέκτονας λύσεων στην ομάδα του Cloud Service Provider της NVIDIA. Βοηθά τους πελάτες στην υιοθέτηση λύσεων μηχανικής μάθησης και τεχνητής νοημοσύνης που αξιοποιούν την επιτάχυνση της NVIDIA για την αντιμετώπιση των προκλήσεων εκπαίδευσης και συμπερασμάτων τους. Στον ελεύθερο χρόνο του, του αρέσει το origami, τα DIY projects και το μπάσκετ.

Ελιούθ Τριάνα είναι Υπεύθυνος Σχέσεων Προγραμματιστή στην NVIDIA. Συνδέει ηγέτες προϊόντων Amazon και AWS, προγραμματιστές και επιστήμονες με τεχνολόγους και ηγέτες προϊόντων της NVIDIA για να επιταχύνει τον φόρτο εργασίας του Amazon ML/DL, τα προϊόντα EC2 και τις υπηρεσίες AWS AI. Επιπλέον, ο Eliuth είναι παθιασμένος ποδηλάτης βουνού, σκιέρ και παίκτης πόκερ.

Σφραγίδα ώρας: Μαρτίου 22, 2022

Σφραγίδα ώρας: 9 Μαρτίου, 2023

Πώς η Αναζήτηση Amazon επιτυγχάνει συμπέρασμα T5 χαμηλής καθυστέρησης και υψηλής απόδοσης με το NVIDIA Triton στο AWS

Αναδημοσίευση από τον Πλάτωνα

Πρόκληση

NVIDIA TensorRT: Μείωση κόστους και καθυστέρησης με βελτιστοποίηση συμπερασμάτων

NVIDIA Triton: Εξυπηρέτηση συμπερασμάτων χαμηλής καθυστέρησης, υψηλής απόδοσης

Πώς το AWS μειώνει το εμπόδιο εισόδου

Σχετικά με τους Συγγραφείς

Περισσότερα από Μηχανική εκμάθηση AWS

Δημιουργήστε αγωγούς επεξεργασίας εγγράφων από άκρο σε άκρο με το Amazon Textract IDP CDK Constructs

Βελτιώστε την απόδοση τιμής της εκπαίδευσης του μοντέλου σας χρησιμοποιώντας ετερογενή συμπλέγματα Amazon SageMaker

Onboard PaddleOCR με Amazon SageMaker Projects για MLOps για την εκτέλεση οπτικής αναγνώρισης χαρακτήρων σε έγγραφα ταυτότητας

Το Amazon SageMaker Automatic Model Tuning παρέχει τώρα έως και τρεις φορές ταχύτερο συντονισμό υπερπαραμέτρων με Hyperband

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός