Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch

Amazon Elastic Compute Cloud (Amazon EC2) Παρουσίες G5 είναι οι πρώτες και μοναδικές περιπτώσεις στο cloud που διαθέτουν GPU NVIDIA A10G Tensor Core, τις οποίες μπορείτε να χρησιμοποιήσετε για ένα ευρύ φάσμα περιπτώσεων χρήσης με ένταση γραφικών και μηχανικής εκμάθησης (ML). Με τις παρουσίες G5, οι πελάτες ML αποκτούν υψηλή απόδοση και οικονομική υποδομή για την εκπαίδευση και την ανάπτυξη μεγαλύτερων και πιο εξελιγμένων μοντέλων για επεξεργασία φυσικής γλώσσας (NLP), όραση υπολογιστή (CV) και θήκες χρήσης κινητήρων με συστάσεις.

Ο σκοπός αυτής της ανάρτησης είναι να παρουσιάσει τα πλεονεκτήματα απόδοσης των παρουσιών G5 για φόρτους εργασίας συμπερασμάτων ML μεγάλης κλίμακας. Αυτό το κάνουμε συγκρίνοντας την τιμή-απόδοση (μετρούμενη ως $ ανά εκατομμύριο συμπεράσματα) για μοντέλα NLP και CV με περιπτώσεις G4dn. Ξεκινάμε περιγράφοντας την προσέγγισή μας συγκριτικής αξιολόγησης και, στη συνέχεια, παρουσιάζουμε καμπύλες απόδοσης έναντι λανθάνοντος χρόνου σε μεγέθη παρτίδων και ακρίβεια τύπου δεδομένων. Σε σύγκριση με τις περιπτώσεις G4dn, διαπιστώνουμε ότι οι παρουσίες G5 παρέχουν σταθερά χαμηλότερο κόστος ανά εκατομμύριο συμπεράσματα τόσο για λειτουργίες πλήρους ακρίβειας όσο και για μικτή ακρίβεια για τα μοντέλα NLP και CV, ενώ επιτυγχάνουν υψηλότερη απόδοση και χαμηλότερη καθυστέρηση.

Προσέγγιση συγκριτικής αξιολόγησης

Για να αναπτύξουμε μια μελέτη τιμής-απόδοσης μεταξύ G5 και G4dn, πρέπει να μετρήσουμε την απόδοση, την καθυστέρηση και το κόστος ανά εκατομμύριο συμπεράσματα ως συνάρτηση του μεγέθους της παρτίδας. Μελετάμε επίσης την επίδραση της πλήρους ακρίβειας έναντι της μικτής ακρίβειας. Τόσο το γράφημα του μοντέλου όσο και οι είσοδοι φορτώνονται στο CUDA πριν από την εξαγωγή συμπερασμάτων.

Όπως φαίνεται στο παρακάτω διάγραμμα αρχιτεκτονικής, δημιουργούμε πρώτα αντίστοιχες εικόνες κοντέινερ βάσης με CUDA για την υποκείμενη παρουσία EC2 (G4dn, G5). Για να δημιουργήσουμε τις εικόνες κοντέινερ βάσης, ξεκινάμε με Εμπορευματοκιβώτια βαθιάς μάθησης AWS, τα οποία χρησιμοποιούν προσυσκευασμένες εικόνες Docker για να αναπτύξουν περιβάλλοντα βαθιάς μάθησης μέσα σε λίγα λεπτά. Οι εικόνες περιέχουν τις απαιτούμενες βιβλιοθήκες και εργαλεία βαθιάς εκμάθησης PyTorch. Μπορείτε να προσθέσετε τις δικές σας βιβλιοθήκες και εργαλεία πάνω από αυτές τις εικόνες για υψηλότερο βαθμό ελέγχου σχετικά με την παρακολούθηση, τη συμμόρφωση και την επεξεργασία δεδομένων.

Στη συνέχεια, δημιουργούμε μια εικόνα κοντέινερ για συγκεκριμένο μοντέλο που ενσωματώνει τη διαμόρφωση του μοντέλου, την ανίχνευση μοντέλου και τον σχετικό κώδικα για την εκτέλεση των μπροστινών περασμάτων. Όλες οι εικόνες κοντέινερ φορτώνονται σε ECR Amazon για να επιτρέψει την οριζόντια κλιμάκωση αυτών των μοντέλων για διάφορες διαμορφώσεις μοντέλων. Χρησιμοποιούμε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) ως κοινός χώρος αποθήκευσης δεδομένων για λήψη διαμορφώσεων και αποστολή αποτελεσμάτων συγκριτικής αξιολόγησης για σύνοψη. Μπορείτε να χρησιμοποιήσετε αυτήν την αρχιτεκτονική για να αναδημιουργήσετε και να αναπαράγετε τα αποτελέσματα των κριτηρίων αξιολόγησης και να επαναπροσδιορίσετε τη συγκριτική αξιολόγηση διαφόρων τύπων μοντέλων (όπως μοντέλα Hugging Face, μοντέλα PyTorch, άλλα προσαρμοσμένα μοντέλα) σε όλους τους τύπους παρουσιών EC2 (CPU, GPU, Inf1).

Με τη δημιουργία αυτού του πειράματος, στόχος μας είναι να μελετήσουμε την καθυστέρηση ως συνάρτηση της απόδοσης. Αυτή η καμπύλη είναι σημαντική για τον σχεδιασμό της εφαρμογής ώστε να καταλήξει σε μια βέλτιστη από πλευράς κόστους υποδομή για την εφαρμογή-στόχο. Για να το πετύχουμε αυτό, προσομοιώνουμε διαφορετικά φορτία τοποθετώντας σε ουρά ερωτήματα από πολλαπλά νήματα και στη συνέχεια μετρώντας το χρόνο μετ' επιστροφής για κάθε ολοκληρωμένο αίτημα. Η απόδοση μετράται με βάση τον αριθμό των ολοκληρωμένων αιτημάτων ανά μονάδα χρόνου ρολογιού. Επιπλέον, μπορείτε να διαφοροποιήσετε τα μεγέθη παρτίδας και άλλες μεταβλητές, όπως το μήκος ακολουθίας και την πλήρη ακρίβεια έναντι της μισής ακρίβειας, για να σαρώσετε ολοκληρωμένα τον χώρο σχεδιασμού για να καταλήξετε σε ενδεικτικές μετρήσεις απόδοσης. Στη μελέτη μας, μέσω μιας παραμετρικής σάρωσης μεγέθους παρτίδας και ερωτημάτων από πελάτες πολλαπλών νημάτων, προσδιορίζεται η καμπύλη απόδοσης έναντι καθυστέρησης. Κάθε αίτημα μπορεί να ομαδοποιηθεί για να διασφαλιστεί η πλήρης χρήση του επιταχυντή, ειδικά για μικρά αιτήματα που ενδέχεται να μην χρησιμοποιούν πλήρως τον κόμβο υπολογισμού. Μπορείτε επίσης να υιοθετήσετε αυτήν τη ρύθμιση για να προσδιορίσετε το μέγεθος παρτίδας από την πλευρά του πελάτη για βέλτιστη απόδοση.

Συνοπτικά, μπορούμε να αναπαραστήσουμε αυτό το πρόβλημα μαθηματικά ως: (Διακίνηση, καθυστέρηση) = συνάρτηση του (Μέγεθος παρτίδας, Αριθμός νημάτων, Ακρίβεια).

Αυτό σημαίνει ότι, δεδομένου του εξαντλητικού χώρου, ο αριθμός των πειραμάτων μπορεί να είναι μεγάλος. Ευτυχώς, κάθε πείραμα μπορεί να εκτελεστεί ανεξάρτητα. Συνιστούμε τη χρήση Παρτίδα AWS να εκτελέσει αυτή τη συγκριτική αξιολόγηση οριζόντιας κλίμακας σε συμπιεσμένο χρόνο χωρίς αύξηση του κόστους συγκριτικής αξιολόγησης σε σύγκριση με μια γραμμική προσέγγιση δοκιμών. Ο κώδικας για την αναπαραγωγή των αποτελεσμάτων υπάρχει στο Αποθετήριο GitHub προετοιμάστηκε για το AWS Re:Invent 2021. Το αποθετήριο είναι ολοκληρωμένο για την εκτέλεση συγκριτικής αξιολόγησης σε διαφορετικούς επιταχυντές. Μπορείτε να ανατρέξετε στην πτυχή GPU του κώδικα για να δημιουργήσετε το κοντέινερ (Dockerfile-gpu) και, στη συνέχεια, ανατρέξτε στον κωδικό μέσα Container-Root για συγκεκριμένα παραδείγματα για BERT και ResNet50.

Χρησιμοποιήσαμε την προηγούμενη προσέγγιση για να αναπτύξουμε μελέτες απόδοσης σε δύο τύπους μοντέλων: Bert-base-uncased (110 εκατομμύρια παράμετροι, NLP) και ResNet50 (25.6 εκατομμύρια παράμετροι, CV). Ο παρακάτω πίνακας συνοψίζει τις λεπτομέρειες του μοντέλου.

Τύπος μοντέλου Μοντέλο Περιγραφή
NLP twmkn9/bert-base-uncased-squad2 110 εκατομμύρια παράμετροι Μήκος ακολουθίας = 128
CV ResNet50 25.6 εκατομμύρια παράμετροι

Επιπλέον, για τη συγκριτική αξιολόγηση μεταξύ τύπων δεδομένων (πλήρης, μισή ακρίβεια), χρησιμοποιούμε torch.cuda.amp, το οποίο παρέχει βολικές μεθόδους χειρισμού μεικτής ακρίβειας όπου ορισμένες λειτουργίες χρησιμοποιούν το torch.float32 (float) τύπος δεδομένων και χρήση άλλων λειτουργιών torch.float16 (τα μισα). Για παράδειγμα, τελεστές όπως τα γραμμικά επίπεδα και οι συνελίξεις είναι πολύ πιο γρήγοροι με το float16, ενώ άλλοι όπως οι αναγωγές απαιτούν συχνά το δυναμικό εύρος του float32. Η αυτόματη μικτή ακρίβεια προσπαθεί να ταιριάξει κάθε χειριστή με τον κατάλληλο τύπο δεδομένων για να βελτιστοποιήσει το χρόνο εκτέλεσης και το αποτύπωμα μνήμης του δικτύου.

Αποτελέσματα συγκριτικής αξιολόγησης

Για μια δίκαιη σύγκριση, επιλέξαμε G4dn.4xlarge και G5.4xlarge περιπτώσεις με παρόμοια χαρακτηριστικά, όπως αναφέρονται στον παρακάτω πίνακα.

Παράδειγμα GPU Μνήμη GPU (GiB) vCPU Μνήμη (GiB) Αποθηκευτικός χώρος για παράδειγμα (GB) Απόδοση δικτύου (Gbps) Εύρος ζώνης EBS (Gbps) Τιμολόγηση Linux κατ' απαίτηση (us-east-1)
G5.4xlarge 1 24 16 64 1x600 NVMe SSD έως 25 8 $ 1.204 / ώρα
G4dn.4xlarge 1 16 16 64 1x225 NVMe SSD έως 25 4.75 $ 1.624 / ώρα

Στις επόμενες ενότητες, συγκρίνουμε την απόδοση συμπερασμάτων ML των μοντέλων BERT και RESNET50 με μια προσέγγιση σάρωσης πλέγματος για συγκεκριμένα μεγέθη παρτίδων (32, 16, 8, 4, 1) και ακρίβεια τύπου δεδομένων (πλήρης και μισή ακρίβεια) για να καταλήξουμε στην απόδοση έναντι καμπύλης λανθάνοντος χρόνου. Επιπλέον, διερευνούμε την επίδραση της απόδοσης σε σχέση με το μέγεθος παρτίδας τόσο για πλήρη όσο και για μισή ακρίβεια. Τέλος, μετράμε το κόστος ανά εκατομμύριο συμπεράσματα ως συνάρτηση του μεγέθους της παρτίδας. Τα συγκεντρωτικά αποτελέσματα σε αυτά τα πειράματα συνοψίζονται αργότερα σε αυτήν την ανάρτηση.

Διακίνηση έναντι καθυστέρησης

Τα παρακάτω σχήματα συγκρίνουν τις περιπτώσεις G4dn και G5 για φόρτους εργασίας NLP και CV τόσο με πλήρη όσο και με μισή ακρίβεια. Σε σύγκριση με τις περιπτώσεις G4dn, η παρουσία G5 παρέχει απόδοση περίπου πέντε φορές μεγαλύτερη (πλήρης ακρίβεια) και περίπου 2.5 φορές μεγαλύτερη (μισή ακρίβεια) για ένα βασικό μοντέλο BERT και περίπου 2–2.5 φορές υψηλότερη για ένα μοντέλο ResNet50. Συνολικά, το G5 είναι μια προτιμώμενη επιλογή, με αυξανόμενα μεγέθη παρτίδας και για τα δύο μοντέλα για πλήρη και μικτή ακρίβεια από άποψη απόδοσης.

Τα ακόλουθα γραφήματα συγκρίνουν την απόδοση και την καθυστέρηση P95 με πλήρη και μισή ακρίβεια για BERT.

Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τα ακόλουθα γραφήματα συγκρίνουν την απόδοση και την καθυστέρηση P95 με πλήρη και μισή ακρίβεια για το ResNet50.

Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Διακίνηση και καθυστέρηση σε σχέση με το μέγεθος παρτίδας

Τα ακόλουθα γραφήματα δείχνουν την απόδοση ως συνάρτηση του μεγέθους της παρτίδας. Σε χαμηλά μεγέθη παρτίδας, ο επιταχυντής δεν λειτουργεί στο μέγιστο της χωρητικότητάς του και καθώς αυξάνεται το μέγεθος της παρτίδας, η απόδοση αυξάνεται με το κόστος της καθυστέρησης. Η καμπύλη απόδοσης ασυμπτώνεται σε μια μέγιστη τιμή που είναι συνάρτηση της απόδοσης του επιταχυντή. Η καμπύλη έχει δύο διακριτά χαρακτηριστικά: ένα ανερχόμενο τμήμα και ένα επίπεδο ασυμπτωτικό τμήμα. Για ένα δεδομένο μοντέλο, ένας επιτελεστικός επιταχυντής (G5) είναι σε θέση να τεντώσει το ανερχόμενο τμήμα σε μεγαλύτερα μεγέθη παρτίδας από το G4dn και να ασυμπτώσει σε υψηλότερη απόδοση. Επίσης, υπάρχει μια γραμμική αντιστάθμιση μεταξύ της καθυστέρησης και του μεγέθους της παρτίδας. Επομένως, εάν η εφαρμογή είναι δεσμευμένη με καθυστέρηση, μπορούμε να χρησιμοποιήσουμε την καθυστέρηση P95 έναντι του μεγέθους παρτίδας για να προσδιορίσουμε το βέλτιστο μέγεθος παρτίδας. Ωστόσο, εάν ο στόχος είναι να μεγιστοποιηθεί η απόδοση στη χαμηλότερη καθυστέρηση, είναι καλύτερο να επιλέξετε το μέγεθος παρτίδας που αντιστοιχεί στο «γόνατο» μεταξύ του ανυψούμενου και του ασυμπτωτικού τμήματος, επειδή οποιαδήποτε περαιτέρω αύξηση του μεγέθους παρτίδας θα είχε ως αποτέλεσμα την ίδια απόδοση σε χειρότερη καθυστέρηση. Για να επιτύχετε την καλύτερη αναλογία τιμής-απόδοσης, στοχεύοντας υψηλότερη απόδοση στη χαμηλότερη καθυστέρηση, είναι προτιμότερο να κλιμακώσετε οριζόντια αυτό το βέλτιστο μέσω πολλών διακομιστών συμπερασμάτων αντί να αυξήσετε απλώς το μέγεθος της παρτίδας.

Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Κόστος έναντι μεγέθους παρτίδας

Σε αυτήν την ενότητα, παρουσιάζουμε τα συγκριτικά αποτελέσματα του κόστους συμπερασμάτων ($ ανά εκατομμύριο συμπεράσματα) σε σχέση με το μέγεθος της παρτίδας. Από το παρακάτω σχήμα, μπορούμε ξεκάθαρα να παρατηρήσουμε ότι το κόστος (μετρούμενο ως $ ανά εκατομμύριο συμπεράσματα) είναι σταθερά χαμηλότερο με το G5 έναντι του G4dn (πλήρης και μισή ακρίβεια).

Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ο παρακάτω πίνακας συνοψίζει συγκρίσεις απόδοσης, καθυστέρησης και κόστους ($ ανά εκατομμύριο συμπεράσματα) για τα μοντέλα BERT και RESNET50 και στις δύο λειτουργίες ακριβείας για συγκεκριμένα μεγέθη παρτίδων. Παρά το υψηλότερο κόστος ανά παράδειγμα, το G5 ξεπερνά σταθερά το G4dn σε όλες τις πτυχές της καθυστέρησης, της απόδοσης και του κόστους ($ ανά εκατομμύριο συμπερασμάτων), για όλα τα μεγέθη παρτίδας. Συνδυάζοντας τις διαφορετικές μετρήσεις σε ένα κόστος ($ ανά εκατομμύριο συμπεράσματα), το μοντέλο BERT (μέγεθος παρτίδας 32, πλήρης ακρίβεια) με το G5 είναι 3.7 φορές πιο ευνοϊκό από το G4dn και με το μοντέλο ResNet50 (μέγεθος παρτίδων 32, πλήρης ακρίβεια), είναι 1.6 φορές πιο ευνοϊκό από το G4dn.

Μοντέλο Μέγεθος παρτίδας Ακρίβεια

Διακίνηση

(Μέγεθος παρτίδας X Αιτήματα/δευτ.)

Καθυστέρηση (ms)

$/εκατομμύριο

Συμπεράσματα (κατ' απαίτηση)

Όφελος κόστους

(G5 έναντι G4dn)

. . . G5 G4dn G5 G4dn G5 G4dn
Bert-βάση-ακάλυπτο 32 Πλήρης 723 154 44 208 $0.6 $2.2 3.7X
Μικτός 870 410 37 79 $0.5 $0.8 1.6X
16 Πλήρης 651 158 25 102 $0.7 $2.1 3.0X
Μικτός 762 376 21 43 $0.6 $0.9 1.5X
8 Πλήρης 642 142 13 57 $0.7 $2.3 3.3X
Μικτός 681 350 12 23 $0.7 $1.0 1.4X
. 1 Πλήρης 160 116 6 9 $2.8 $2.9 1.0X
Μικτός 137 102 7 10 $3.3 $3.3 1.0X
ResNet50 32 Πλήρης 941 397 34 82 $0.5 $0.8 1.6X
Μικτός 1533 851 21 38 $0.3 $0.4 1.3X
16 Πλήρης 888 384 18 42 $0.5 $0.9 1.8X
Μικτός 1474 819 11 20 $0.3 $0.4 1.3X
8 Πλήρης 805 340 10 24 $0.6 $1.0 1.7X
Μικτός 1419 772 6 10 $0.3 $0.4 1.3X
. 1 Πλήρης 202 164 5 6 $2.2 $2 0.9X
Μικτός 196 180 5 6 $2.3 $1.9 0.8X

Πρόσθετα σημεία αναφοράς συμπερασμάτων

Εκτός από τη βάση BERT και τα αποτελέσματα ResNet50 στις προηγούμενες ενότητες, παρουσιάζουμε πρόσθετα αποτελέσματα συγκριτικής αξιολόγησης για άλλα ευρέως χρησιμοποιούμενα μεγάλα μοντέλα NLP και CV στο PyTorch. Το πλεονέκτημα απόδοσης του G5 έναντι του G4dn έχει παρουσιαστεί για τα μοντέλα BERT Large με διαφορετική ακρίβεια και τα μοντέλα Yolo-v5 για διάφορα μεγέθη. Για τον κωδικό για την αναπαραγωγή του σημείου αναφοράς, ανατρέξτε στο Παραδείγματα NVIDIA Deep Learning για Πυρήνες Tensor. Αυτά τα αποτελέσματα δείχνουν το όφελος από τη χρήση του G5 έναντι του G4dn για ένα ευρύ φάσμα εργασιών εξαγωγής συμπερασμάτων που καλύπτουν διαφορετικούς τύπους μοντέλων.

Μοντέλο Ακρίβεια Μέγεθος παρτίδας Μήκος ακολουθίας Παραγωγή (απεσταλμένο/δευτ.) Διακίνηση: G4dn Επιτάχυνση μέσω G4dn
BERT-μεγάλο FP16 1 128 93.5 40.31 2.3
BERT-μεγάλο FP16 4 128 264.2 87.4 3.0
BERT-μεγάλο FP16 8 128 392.1 107.5 3.6
BERT-μεγάλο FP32 1 128 68.4 22.67 3.0
BERT-μεγάλο 4 128 118.5 32.21 3.7
BERT-μεγάλο 8 128 132.4 34.67 3.8
Μοντέλο GFLOPS Αριθμός παραμέτρων Προεπεξεργασία (ms) Συμπέρασμα (ms) Συμπεράσματα (Μη μέγιστη καταστολή) (NMS/εικόνα)
YOLOv5s 16.5 7.2M 0.2 3.6 4.5
YOLOv5m 49.1 21M 0.2 6.5 4.5
YOLOv5l 109.3 46M 0.2 9.1 3.5
YOLOv5x 205.9 86M 0.2 14.4 1.3

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε ότι για συμπέρασμα με μεγάλα μοντέλα NLP και CV PyTorch, οι περιπτώσεις EC2 G5 είναι καλύτερη επιλογή σε σύγκριση με τις παρουσίες G4dn. Αν και το ωριαίο κόστος κατ' απαίτηση για περιπτώσεις G5 είναι υψηλότερο από τις περιπτώσεις G4dn, η υψηλότερη απόδοσή του μπορεί να επιτύχει 2-5 φορές την απόδοση με οποιαδήποτε ακρίβεια για μοντέλα NLP και CV, γεγονός που καθιστά το κόστος ανά εκατομμύριο συμπεράσματα 1.5-3.5 φορές πιο ευνοϊκό από Παρουσίες G4dn. Ακόμη και για εφαρμογές με δέσμευση καθυστέρησης, το G5 είναι 2.5–5 φορές καλύτερο από το G4dn για μοντέλα NLP και CV.

Συνοπτικά, οι περιπτώσεις AWS G5 είναι μια εξαιρετική επιλογή για τις ανάγκες συμπερασμάτων σας τόσο από άποψη απόδοσης όσο και από άποψη κόστους ανά συμπέρασμα. Η καθολικότητα του πλαισίου CUDA και η κλίμακα και το βάθος της δεξαμενής παρουσίας G5 στο AWS σας παρέχουν μια μοναδική ικανότητα να εκτελείτε συμπεράσματα σε κλίμακα.


Σχετικά με τους συγγραφείς

Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Ανκούρ Σριβαστάβα είναι αρχιτέκτονας Sr. Solutions στην ομάδα ML Frameworks. Επικεντρώνεται στην παροχή βοήθειας στους πελάτες με αυτοδιαχειριζόμενη κατανεμημένη εκπαίδευση και εξαγωγή συμπερασμάτων σε κλίμακα για το AWS. Η εμπειρία του περιλαμβάνει βιομηχανική προγνωστική συντήρηση, ψηφιακά δίδυμα, πιθανοτική βελτιστοποίηση σχεδίασης και έχει ολοκληρώσει τις διδακτορικές του σπουδές από τη Μηχανολογία στο Πανεπιστήμιο Rice και τη μεταδιδακτορική έρευνα από το Ινστιτούτο Τεχνολογίας της Μασαχουσέτης.

Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Σούνταρ Ρανγκανάθαν είναι ο Επικεφαλής Επιχειρηματικής Ανάπτυξης, ML Frameworks στην ομάδα Amazon EC2. Εστιάζει σε μεγάλης κλίμακας φόρτους εργασίας ML σε υπηρεσίες AWS όπως το Amazon EKS, το Amazon ECS, το Elastic Fabric Adapter, το AWS Batch και το Amazon SageMaker. Η εμπειρία του περιλαμβάνει ηγετικούς ρόλους στη διαχείριση προϊόντων και την ανάπτυξη προϊόντων στις NetApp, Micron Technology, Qualcomm και Mentor Graphics.

Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Μαχαντεβάν Μπαλασουμπραμανιάμ είναι ένας Κύριος Αρχιτέκτονας Λύσεων για Αυτόνομους Υπολογιστές με σχεδόν 20 χρόνια εμπειρίας στον τομέα της βαθιάς μάθησης, κατασκευής και ανάπτυξης ψηφιακών διδύμων για βιομηχανικά συστήματα σε κλίμακα. Ο Mahadevan απέκτησε το διδακτορικό του στη Μηχανολογία από το Ινστιτούτο Τεχνολογίας της Μασαχουσέτης και έχει στο ενεργητικό του πάνω από 25 διπλώματα ευρεσιτεχνίας και δημοσιεύσεις.

Επιτύχετε τέσσερις φορές υψηλότερη απόδοση συμπερασμάτων ML με τρεις φορές χαμηλότερο κόστος ανά συμπέρασμα με τις περιπτώσεις Amazon EC2 G5 για μοντέλα NLP και CV PyTorch PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Αμρ Ραγκάμπ είναι ένας κύριος αρχιτέκτονας λύσεων για EC2 Accelerated Platforms για AWS, αφιερωμένος στο να βοηθά τους πελάτες να εκτελούν υπολογιστικούς φόρτους εργασίας σε κλίμακα. Στον ελεύθερο χρόνο του αρέσει να ταξιδεύει και να βρίσκει νέους τρόπους για να ενσωματώσει την τεχνολογία στην καθημερινή ζωή.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS