Πώς το Mantium επιτυγχάνει συμπέρασμα GPT-J χαμηλής καθυστέρησης με το DeepSpeed στο Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Μάντιο είναι ένας παγκόσμιος πάροχος πλατφόρμας cloud για τη δημιουργία εφαρμογών AI και τη διαχείρισή τους σε κλίμακα. Η πλατφόρμα ανάπτυξης από άκρο σε άκρο της Mantium δίνει τη δυνατότητα σε επιχειρήσεις και επιχειρήσεις όλων των μεγεθών να δημιουργούν εφαρμογές τεχνητής νοημοσύνης και αυτοματισμούς ταχύτερα και ευκολότερα από ό,τι ήταν παραδοσιακά δυνατό. Με το Mantium, τεχνικές και μη τεχνικές ομάδες μπορούν να δημιουργήσουν πρωτότυπα, να αναπτύξουν, να δοκιμάσουν και να αναπτύξουν εφαρμογές τεχνητής νοημοσύνης, όλα με προσέγγιση χαμηλού κώδικα. Μέσω της αυτόματης καταγραφής, της παρακολούθησης και των χαρακτηριστικών ασφαλείας, το Mantium απαλλάσσει επίσης το λογισμικό και τους μηχανικούς DevOps από το να ξοδέψουν το χρόνο τους ανακαλύπτοντας ξανά τον τροχό. Σε υψηλό επίπεδο, το Mantium προσφέρει:

Τεχνητή νοημοσύνη τελευταίας τεχνολογίας – Πειραματιστείτε και αναπτύξτε με μια εκτενή επιλογή μοντέλων ανοιχτού κώδικα και ιδιωτικών μεγάλων γλωσσών με ένα απλό UI ή API.
Αυτοματοποίηση διαδικασιών AI – Δημιουργήστε εύκολα εφαρμογές που βασίζονται σε AI με μια αυξανόμενη βιβλιοθήκη ενσωματώσεων και το γραφικό AI Builder της Mantium.
Ταχεία ανάπτυξη – Συντομεύστε το χρονοδιάγραμμα παραγωγής από μήνες σε εβδομάδες ή και ημέρες με την ανάπτυξη με ένα κλικ. Αυτή η δυνατότητα μετατρέπει τις εφαρμογές AI σε εφαρμογές Ιστού με δυνατότητα κοινής χρήσης με ένα κλικ.
Ασφάλεια και ρύθμιση – Διασφάλιση της ασφάλειας και της συμμόρφωσης με τις πολιτικές διακυβέρνησης και υποστήριξη για τις διαδικασίες που σχετίζονται με τον άνθρωπο.

Με το Mantium AI Builder, μπορείτε να αναπτύξετε εξελιγμένες ροές εργασίας που ενσωματώνουν εξωτερικά API, λογικές λειτουργίες και μοντέλα τεχνητής νοημοσύνης. Το παρακάτω στιγμιότυπο οθόνης δείχνει ένα παράδειγμα της εφαρμογής Mantium AI, η οποία ενώνει μια είσοδο Twilio, μια πολιτική διακυβέρνησης, ένα μπλοκ AI (το οποίο μπορεί να βασίζεται σε ένα μοντέλο ανοιχτού κώδικα όπως το GPT-J) και μια έξοδο Twilio.

Για την υποστήριξη αυτής της εφαρμογής, το Mantium παρέχει ολοκληρωμένη και ομοιόμορφη πρόσβαση όχι μόνο σε API μοντέλων από παρόχους τεχνητής νοημοσύνης όπως Open AI, Co:here και AI21, αλλά και σε μοντέλα ανοιχτού κώδικα τελευταίας τεχνολογίας. Στη Mantium, πιστεύουμε ότι ο καθένας θα πρέπει να μπορεί να δημιουργεί σύγχρονες εφαρμογές τεχνητής νοημοσύνης που κατέχει, από άκρο σε άκρο, και το υποστηρίζουμε παρέχοντας πρόσβαση χωρίς κώδικα και χαμηλού κώδικα σε μοντέλα ανοιχτού κώδικα βελτιστοποιημένης απόδοσης.

Για παράδειγμα, ένα από τα βασικά μοντέλα ανοιχτού κώδικα του Mantium είναι GPT-J, ένα υπερσύγχρονο μοντέλο επεξεργασίας φυσικής γλώσσας (NLP) που αναπτύχθηκε από Eleuther AI. Με 6 δισεκατομμύρια παραμέτρους, το GPT-J είναι ένα από τα μεγαλύτερα και με την καλύτερη απόδοση μοντέλα δημιουργίας κειμένου ανοιχτού κώδικα. Οι χρήστες Mantium μπορούν να ενσωματώσουν το GPT-J στις εφαρμογές τους AI μέσω του Mantium's AI Builder. Στην περίπτωση του GPT-J, αυτό περιλαμβάνει τον καθορισμό α έγκαιρη (μια αναπαράσταση φυσικής γλώσσας του τι πρέπει να κάνει το μοντέλο) και διαμόρφωση ορισμένων προαιρετικών παραμέτρων.

Για παράδειγμα, το ακόλουθο στιγμιότυπο οθόνης δείχνει μια συνοπτική επίδειξη μιας προτροπής ανάλυσης συναισθήματος που παράγει εξηγήσεις και προβλέψεις συναισθήματος. Σε αυτό το παράδειγμα, ο συγγραφέας έγραψε ότι «το φαγητό ήταν υπέροχο» και ότι η «εξυπηρέτησή τους ήταν εξαιρετική». Επομένως, αυτό το κείμενο εκφράζει θετικό συναίσθημα.

Ωστόσο, μια πρόκληση με τα μοντέλα ανοιχτού κώδικα είναι ότι σπάνια σχεδιάζονται για απόδοση σε επίπεδο παραγωγής. Στην περίπτωση μεγάλων μοντέλων όπως το GPT-J, αυτό μπορεί να καταστήσει την ανάπτυξη της παραγωγής μη πρακτική και ακόμη και ανέφικτη, ανάλογα με την περίπτωση χρήσης.

Για να διασφαλίσουμε ότι οι χρήστες μας έχουν πρόσβαση στην καλύτερη απόδοση στην κατηγορία τους, αναζητούμε πάντα τρόπους να μειώσουμε τον λανθάνοντα χρόνο των βασικών μοντέλων μας. Σε αυτήν την ανάρτηση, περιγράφουμε τα αποτελέσματα ενός πειράματος βελτιστοποίησης συμπερασμάτων στο οποίο χρησιμοποιούμε τη μηχανή συμπερασμάτων του DeepSpeed για να αυξήσουμε την ταχύτητα συμπερασμάτων του GPT-J κατά περίπου 116%. Περιγράφουμε επίσης πώς έχουμε αναπτύξει την εφαρμογή Hugging Face Transformers του GPT-J με το DeepSpeed στο Amazon Sage Maker καταληκτικά σημεία συμπερασμάτων.

Επισκόπηση του μοντέλου GPT-J

Το GPT-J είναι ένα προκαταρτισμένο μοντέλο γλώσσας (GPT) και, όσον αφορά την αρχιτεκτονική του, είναι συγκρίσιμο με δημοφιλή, ιδιωτικά, μεγάλα γλωσσικά μοντέλα όπως το GPT-3 του Open AI. Όπως σημειώθηκε νωρίτερα, αποτελείται από περίπου 6 δισεκατομμύρια παραμέτρους και 28 επίπεδα, τα οποία αποτελούνται από ένα μπλοκ προώθησης και ένα μπλοκ αυτοπροσοχής. Όταν κυκλοφόρησε για πρώτη φορά, το GPT-J ήταν ένα από τα πρώτα μεγάλα μοντέλα γλώσσας που χρησιμοποιήθηκαν περιστροφικές ενσωματώσεις, μια νέα στρατηγική κωδικοποίησης θέσης που ενοποιεί τους κωδικοποιητές απόλυτης και σχετικής θέσης. Χρησιμοποιεί επίσης μια καινοτόμο στρατηγική παραλληλοποίησης όπου τα πυκνά στρώματα και τα στρώματα τροφοδοσίας συνδυάζονται σε ένα μόνο στρώμα, το οποίο ελαχιστοποιεί την επιβάρυνση της επικοινωνίας.

Παρόλο που το GPT-J μπορεί να μην είναι αρκετά μεγάλο με τα σημερινά πρότυπα - τα μεγάλα μοντέλα αποτελούνται συνήθως από περισσότερες από 100 δισεκατομμύρια παραμέτρους - εξακολουθεί να είναι εντυπωσιακά αποδοτικό και με κάποια άμεση μηχανική ή ελάχιστη ρύθμιση, μπορείτε να το χρησιμοποιήσετε για να λύσετε πολλά προβλήματα. Επιπλέον, το σχετικά μέτριο μέγεθός του σημαίνει ότι μπορείτε να το αναπτύξετε πιο γρήγορα και με πολύ χαμηλότερο κόστος από τα μεγαλύτερα μοντέλα.

Τούτου λεχθέντος, το GPT-J είναι ακόμα αρκετά μεγάλο. Για παράδειγμα, η εκπαίδευση του GPT-J στο FP32 με ενημερώσεις πλήρους βάρους και το Adam optimizer απαιτεί πάνω από 200 GB μνήμης: 24 GB για τις παραμέτρους του μοντέλου, 24 GB για τις διαβαθμίσεις, 24 GB για τις διαβαθμίσεις στο τετράγωνο του Adam, 24 GB για τις καταστάσεις βελτιστοποίησης, και τις πρόσθετες απαιτήσεις μνήμης για τη φόρτωση παρτίδων εκπαίδευσης και την αποθήκευση ενεργοποιήσεων. Φυσικά, η εκπαίδευση στο FP16 μειώνει αυτές τις απαιτήσεις μνήμης σχεδόν στο μισό, αλλά το αποτύπωμα μνήμης άνω των 100 GB εξακολουθεί να απαιτεί καινοτόμες στρατηγικές εκπαίδευσης. Για παράδειγμα, σε συνεργασία με το SageMaker, η ομάδα NLP της Mantium ανέπτυξε ένα ροής εργασίας για εκπαίδευση (μικροσυντονισμός) GPT-J χρησιμοποιώντας την κατανεμημένη παράλληλη βιβλιοθήκη μοντέλων του SageMaker.

Αντίθετα, η εξυπηρέτηση του GPT-J για εξαγωγή συμπερασμάτων έχει πολύ χαμηλότερες απαιτήσεις μνήμης—στο FP16, τα βάρη των μοντέλων καταλαμβάνουν λιγότερο από 13 GB, πράγμα που σημαίνει ότι η εξαγωγή συμπερασμάτων μπορεί εύκολα να γίνει σε μία μόνο GPU 16 GB. Ωστόσο, συμπερασματικές εφαρμογές του GPT-J, όπως το Hugging Face Transformers εκτέλεση που χρησιμοποιούμε, είναι σχετικά αργή. Για να υποστηρίξουμε περιπτώσεις χρήσης που απαιτούν δημιουργία κειμένου με υψηλή απόκριση, έχουμε επικεντρωθεί στη μείωση του λανθάνοντος χρόνου συμπερασμάτων του GPT-J.

Προκλήσεις καθυστέρησης απόκρισης του GPT-J

Η καθυστέρηση απόκρισης είναι ένα βασικό εμπόδιο για τους γενετικά προεκπαιδευμένους μετασχηματιστές (GPT) όπως το GPT-J που τροφοδοτούν τη σύγχρονη παραγωγή κειμένου. Τα μοντέλα GPT δημιουργούν κείμενο μέσω ακολουθιών βημάτων συμπερασμάτων. Σε κάθε βήμα εξαγωγής συμπερασμάτων, δίνεται στο μοντέλο κείμενο ως είσοδος και, υπό την προϋπόθεση αυτής της εισαγωγής, λαμβάνει δείγματα μιας λέξης από το λεξιλόγιό του για να την προσαρτήσει στο κείμενο. Για παράδειγμα, δεδομένης της σειράς των κουπονιών "Χρειάζομαι μια ομπρέλα γιατί είναι", ένα επόμενο διακριτικό με υψηλή πιθανότητα μπορεί να "βρέχει". Ωστόσο, θα μπορούσε επίσης να είναι "ηλιόλουστο" ή "δεσμευμένο", που θα μπορούσε να είναι το πρώτο βήμα προς μια ακολουθία κειμένου όπως "Χρειάζομαι μια ομπρέλα γιατί είναι βέβαιο ότι θα αρχίσει να βρέχει".

Σενάρια όπως αυτό εγείρουν μερικές ενδιαφέρουσες προκλήσεις για την ανάπτυξη μοντέλων GPT, επειδή οι περιπτώσεις χρήσης του πραγματικού κόσμου μπορεί να περιλαμβάνουν δεκάδες, εκατοντάδες ή ακόμα και χιλιάδες βήματα συμπερασμάτων. Για παράδειγμα, η δημιουργία μιας απόκρισης 1,000 τόνων απαιτεί 1,000 βήματα συμπερασμάτων! Κατά συνέπεια, αν και ένα μοντέλο μπορεί να προσφέρει ταχύτητες συμπερασμάτων που φαίνονται αρκετά γρήγορες μεμονωμένα, είναι εύκολο για τον λανθάνοντα χρόνο να φτάσει σε μη βιώσιμα επίπεδα όταν δημιουργούνται μεγάλα κείμενα. Παρατηρήσαμε μια μέση καθυστέρηση 280 χιλιοστών του δευτερολέπτου ανά βήμα συμπερασμάτων σε μια GPU V100. Αυτό μπορεί να φαίνεται γρήγορο για ένα μοντέλο παραμέτρων 6.7 δισεκατομμυρίων, αλλά με τέτοιες καθυστερήσεις, χρειάζονται περίπου 30 δευτερόλεπτα για να δημιουργηθεί μια απόκριση 500 διακριτικών, η οποία δεν είναι ιδανική από την άποψη της εμπειρίας χρήστη.

Βελτιστοποίηση των ταχυτήτων συμπερασμάτων με το DeepSpeed Inference

Βαθιά ταχύτητα είναι μια βιβλιοθήκη βελτιστοποίησης βαθιάς μάθησης ανοιχτού κώδικα που αναπτύχθηκε από τη Microsoft. Αν και εστιάζει κυρίως στη βελτιστοποίηση της εκπαίδευσης μεγάλων μοντέλων, το DeepSpeed παρέχει επίσης ένα πλαίσιο βελτιστοποίησης συμπερασμάτων που υποστηρίζει ένα επιλεγμένο σύνολο μοντέλων, συμπεριλαμβανομένων των BERT, Megatron, GPT-Neo, GPT2 και GPT-J. Το DeepSpeed Inference διευκολύνει την εξαγωγή συμπερασμάτων υψηλής απόδοσης με μεγάλες αρχιτεκτονικές που βασίζονται σε Transformer μέσω ενός συνδυασμού παραλληλισμού μοντέλων, βελτιστοποιημένων ως προς τα συμπεράσματα πυρήνων CUDA και κβαντοποίησης.

Για να ενισχύσουμε την ταχύτητα συμπερασμάτων με το GPT-J, χρησιμοποιούμε τη μηχανή συμπερασμάτων του DeepSpeed για να εισάγουμε βελτιστοποιημένους πυρήνες CUDA στην εφαρμογή Hugging Face Transformers GPT-J.

Για να αξιολογήσουμε τα πλεονεκτήματα της ταχύτητας της μηχανής συμπερασμάτων του DeepSpeed, πραγματοποιήσαμε μια σειρά δοκιμών λανθάνοντος χρόνου στις οποίες μετρήσαμε το GPT-J σε διάφορες διαμορφώσεις. Συγκεκριμένα, διαφοροποιήσαμε αν χρησιμοποιήθηκε ή όχι DeepSpeed, υλικό, μήκος ακολουθίας εξόδου και μήκος ακολουθίας εισόδου. Εστιάσαμε τόσο στην έξοδο όσο και στο μήκος της ακολουθίας εισόδου, επειδή και τα δύο επηρεάζουν την ταχύτητα συμπερασμάτων. Για να δημιουργήσετε μια ακολουθία εξόδου 50 διακριτικών, το μοντέλο πρέπει να εκτελέσει 50 βήματα συμπερασμάτων. Επιπλέον, ο χρόνος που απαιτείται για την εκτέλεση ενός βήματος συμπερασμάτων εξαρτάται από το μέγεθος της ακολουθίας εισόδου - οι μεγαλύτερες είσοδοι απαιτούν περισσότερο χρόνο επεξεργασίας. Αν και η επίδραση του μεγέθους της ακολουθίας εξόδου είναι πολύ μεγαλύτερη από την επίδραση του μεγέθους της ακολουθίας εισόδου, εξακολουθεί να είναι απαραίτητο να ληφθούν υπόψη και οι δύο παράγοντες.

Στο πείραμά μας χρησιμοποιήσαμε τον ακόλουθο σχεδιασμό:

Μηχανή συμπερασμάτων DeepSpeed – Ενεργό, σβηστό
υλικού – T4 (ml.g4dn.2xlarge), V100 (ml.p3.2xlarge)
Μήκος ακολουθίας εισόδου - 50, 200, 500, 1000
Μήκος ακολουθίας εξόδου - 50, 100, 150, 200

Συνολικά, αυτό το σχέδιο έχει 64 συνδυασμούς αυτών των τεσσάρων παραγόντων και για κάθε συνδυασμό, πραγματοποιήσαμε 20 δοκιμές καθυστέρησης. Κάθε δοκιμή εκτελέστηκε σε ένα προκαταρκτικό τελικό σημείο συμπερασμάτων SageMaker, διασφαλίζοντας ότι οι δοκιμές λανθάνοντος χρόνου αντικατοπτρίζουν τους χρόνους παραγωγής, συμπεριλαμβανομένων των ανταλλαγών API και της προεπεξεργασίας.

Οι δοκιμές μας αποδεικνύουν ότι η μηχανή συμπερασμάτων GPT-J της DeepSpeed είναι σημαντικά ταχύτερη από την εφαρμογή Hugging Face Transformers PyTorch. Το παρακάτω σχήμα απεικονίζει τους μέσους λανθάνοντες χρόνους δημιουργίας κειμένου για το GPT-J με και χωρίς επιτάχυνση DeepSpeed στα τελικά σημεία συμπερασμάτων ml.g4dn.2xlarge και ml.p3.2xlarge SageMaker.

Στην περίπτωση ml.g4dn.2xlarge, η οποία είναι εξοπλισμένη με GPU NVIDIA T16 4 GB, παρατηρήσαμε μια μέση μείωση λανθάνοντος χρόνου κατά περίπου 24% [Τυπική απόκλιση (SD) = 0.05]. Αυτό αντιστοιχούσε σε αύξηση από μέσο όρο 12.5 (SD = 0.91) μάρκες ανά δευτερόλεπτο σε μέσο όρο 16.5 (SD = 2.13) μάρκες ανά δευτερόλεπτο. Σημειωτέον, το εφέ επιτάχυνσης του DeepSpeed ήταν ακόμη πιο ισχυρό στην περίπτωση ml.p3.2xlarge, η οποία είναι εξοπλισμένη με GPU NVIDIA V100. Σε αυτό το υλικό, παρατηρήσαμε 53% (SD = 07) μέση μείωση της καθυστέρησης. Όσον αφορά τα μάρκες ανά δευτερόλεπτο, αυτό αντιστοιχούσε σε αύξηση από μέσο όρο 21.9 (SD = 1.97) μάρκες ανά δευτερόλεπτο σε μέσο όρο 47.5 (SD = 5.8) μάρκες ανά δευτερόλεπτο.

Παρατηρήσαμε επίσης ότι η επιτάχυνση που προσέφερε το DeepSpeed μειώθηκε ελαφρώς και στις δύο διαμορφώσεις υλικού καθώς μεγάλωνε το μέγεθος των ακολουθιών εισόδου. Ωστόσο, σε όλες τις συνθήκες, η εξαγωγή συμπερασμάτων με τις βελτιστοποιήσεις GPT-J της DeepSpeed ήταν ακόμα σημαντικά ταχύτερη από τη βασική γραμμή. Για παράδειγμα, στην περίπτωση g4dn, οι μέγιστες και ελάχιστες μειώσεις καθυστέρησης ήταν 31% (μέγεθος ακολουθίας εισόδου = 50) και 15% (μέγεθος ακολουθίας εισόδου = 1000), αντίστοιχα. Και στην περίπτωση του p3, οι μέγιστες και ελάχιστες μειώσεις καθυστέρησης ήταν 62% (μέγεθος ακολουθίας εισόδου = 50) και 40% (μέγεθος ακολουθίας εισόδου = 1000), αντίστοιχα.

Ανάπτυξη GPT-J με DeepSpeed σε τελικό σημείο συμπερασμάτων SageMaker

Εκτός από τη δραματική αύξηση των ταχυτήτων δημιουργίας κειμένου για το GPT-J, η μηχανή συμπερασμάτων του DeepSpeed είναι εύκολο να ενσωματωθεί σε ένα τελικό σημείο συμπερασμάτων SageMaker. Πριν προσθέσουμε το DeepSpeed στη στοίβα συμπερασμάτων μας, τα τελικά σημεία μας εκτελούνταν σε μια προσαρμοσμένη εικόνα Docker βασισμένη σε μια επίσημη εικόνα PyTorch. Το SageMaker καθιστά πολύ εύκολη την ανάπτυξη προσαρμοσμένων τελικών σημείων συμπερασμάτων και η ενσωμάτωση του DeepSpeed ήταν τόσο απλή όσο η συμπερίληψη της εξάρτησης και η σύνταξη μερικών γραμμών κώδικα. Ο οδηγός ανοιχτού κώδικα για τη ροή εργασιών ανάπτυξης για την ανάπτυξη του GPT-J με το DeepSpeed είναι διαθέσιμος στο GitHub.

Συμπέρασμα

Το Mantium είναι αφιερωμένο στην κορυφαία καινοτομία, ώστε όλοι να μπορούν να χτίζουν γρήγορα με AI. Από την αυτοματοποίηση διαδικασιών με γνώμονα την τεχνητή νοημοσύνη έως τις αυστηρές ρυθμίσεις ασφάλειας και συμμόρφωσης, η ολοκληρωμένη πλατφόρμα μας παρέχει όλα τα απαραίτητα εργαλεία για την ανάπτυξη και διαχείριση ισχυρών, υπεύθυνων εφαρμογών τεχνητής νοημοσύνης σε κλίμακα και μειώνει το εμπόδιο εισόδου. Το SageMaker βοηθά εταιρείες όπως το Mantium να φτάνουν γρήγορα στην αγορά.

Για να μάθετε πώς το Mantium μπορεί να σας βοηθήσει να δημιουργήσετε σύνθετες ροές εργασίας που βασίζονται σε AI για τον οργανισμό σας, επισκεφτείτε το www.mantiumai.com.

Σχετικά με τους συγγραφείς

Τζο Χούβερ είναι Ανώτερος Εφαρμοσμένος Επιστήμονας στην ομάδα Έρευνας και Ανάπτυξης AI της Mantium. Είναι παθιασμένος με την ανάπτυξη μοντέλων, μεθόδων και υποδομών που βοηθούν τους ανθρώπους να επιλύουν προβλήματα του πραγματικού κόσμου με συστήματα NLP αιχμής. Στον ελεύθερο χρόνο του, του αρέσει να κάνει σακίδιο, να ασχολείται με την κηπουρική, να μαγειρεύει και να κάνει παρέα με την οικογένειά του.

Dhawal Patel είναι Κύριος Αρχιτέκτονας Μηχανικής Μάθησης στο AWS. Έχει συνεργαστεί με οργανισμούς που κυμαίνονται από μεγάλες επιχειρήσεις έως νεοφυείς επιχειρήσεις μεσαίου μεγέθους για προβλήματα που σχετίζονται με τους κατανεμημένους υπολογιστές και την Τεχνητή Νοημοσύνη. Εστιάζεται στη Deep Learning, συμπεριλαμβανομένων των τομέων NLP και Computer Vision. Βοηθά τους πελάτες να επιτύχουν συμπεράσματα μοντέλων υψηλής απόδοσης στο SageMaker.

Σουνίλ Παντμαναμπχάν είναι αρχιτέκτονας λύσεων εκκίνησης στην AWS. Ως πρώην ιδρυτής startup και CTO, είναι παθιασμένος με τη μηχανική μάθηση και επικεντρώνεται στο να βοηθά τις startups να αξιοποιήσουν το AI/ML για τα επιχειρηματικά τους αποτελέσματα και να σχεδιάσουν και να αναπτύξουν λύσεις ML/AI σε κλίμακα.

Σφραγίδα ώρας: Ιούνιος 15, 2022

Σφραγίδα ώρας: 10 Ιανουαρίου 2023

Πώς το Mantium επιτυγχάνει συμπέρασμα GPT-J χαμηλής καθυστέρησης με το DeepSpeed στο Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Επισκόπηση του μοντέλου GPT-J

Προκλήσεις καθυστέρησης απόκρισης του GPT-J

Βελτιστοποίηση των ταχυτήτων συμπερασμάτων με το DeepSpeed Inference

Ανάπτυξη GPT-J με DeepSpeed σε τελικό σημείο συμπερασμάτων SageMaker

Συμπέρασμα

Σχετικά με τους συγγραφείς

Περισσότερα από Μηχανική εκμάθηση AWS

Δημιουργήστε δεδομένα υψηλής ποιότητας για μοντέλα ML με το Amazon SageMaker Ground Truth

Καθορίστε προσαρμοσμένα δικαιώματα μέσα σε λίγα λεπτά με το Amazon SageMaker Role Manager μέσω του AWS CDK | Υπηρεσίες Ιστού της Amazon

Μεγιστοποιήστε την απόδοση σταθερής διάχυσης και μειώστε το κόστος συμπερασμάτων με το AWS Inferentia2 | Υπηρεσίες Ιστού της Amazon

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός

Επισκόπηση του μοντέλου GPT-J

Προκλήσεις καθυστέρησης απόκρισης του GPT-J

Βελτιστοποίηση των ταχυτήτων συμπερασμάτων με το DeepSpeed ​​Inference

Ανάπτυξη GPT-J με DeepSpeed ​​σε τελικό σημείο συμπερασμάτων SageMaker

Συμπέρασμα

Σχετικά με τους συγγραφείς

Περισσότερα από Μηχανική εκμάθηση AWS

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός

Βελτιστοποίηση των ταχυτήτων συμπερασμάτων με το DeepSpeed Inference

Ανάπτυξη GPT-J με DeepSpeed σε τελικό σημείο συμπερασμάτων SageMaker