Το ByteDance εξοικονομεί έως και 60% στο κόστος συμπερασμάτων, ενώ μειώνει την καθυστέρηση και αυξάνει την απόδοση χρησιμοποιώντας το AWS Inferentia PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το ByteDance εξοικονομεί έως και 60% στο κόστος συμπερασμάτων, ενώ μειώνει την καθυστέρηση και αυξάνει την απόδοση χρησιμοποιώντας το AWS Inferentia

Αυτή είναι μια φιλοξενούμενη ανάρτηση ιστολογίου που συντάχθηκε με τους Minghui Yu και Jianzhe Xiao από την Bytedance.

ByteDance είναι μια εταιρεία τεχνολογίας που λειτουργεί μια σειρά από πλατφόρμες περιεχομένου για να ενημερώνει, να εκπαιδεύει, να ψυχαγωγεί και να εμπνέει ανθρώπους σε γλώσσες, πολιτισμούς και γεωγραφίες. Οι χρήστες εμπιστεύονται και απολαμβάνουν τις πλατφόρμες περιεχομένου μας λόγω των πλούσιων, διαισθητικών και ασφαλών εμπειριών που παρέχουν. Αυτές οι εμπειρίες γίνονται δυνατές από τη μηχανή υποστήριξης μηχανικής εκμάθησης (ML), με μοντέλα ML που έχουν σχεδιαστεί για εποπτεία περιεχομένου, αναζήτηση, προτάσεις, διαφημίσεις και νέα οπτικά εφέ.

Η ομάδα ByteDance AML (Applied Machine Learning) παρέχει συστήματα ML με υψηλή απόδοση, αξιοπιστία και κλιμάκωση και υπηρεσίες ML από άκρο σε άκρο για την επιχείρηση της εταιρείας. Ερευνούσαμε τρόπους για να βελτιστοποιήσουμε τα συστήματα συμπερασμάτων ML για να μειώσουμε το κόστος, χωρίς να αυξήσουμε τους χρόνους απόκρισης. Όταν κυκλοφόρησε το AWS Αίσθηση AWS, ένα τσιπ συμπερασμάτων ML υψηλής απόδοσης που κατασκευάστηκε ειδικά από την AWS, συνεργαστήκαμε με την ομάδα λογαριασμού AWS για να ελέγξουμε εάν το AWS Inferentia μπορεί να ανταποκριθεί στους στόχους βελτιστοποίησης μας. Εκτελέσαμε πολλές αποδείξεις της ιδέας, με αποτέλεσμα έως και 60% χαμηλότερο κόστος συμπερασμάτων σε σύγκριση με παρουσίες EC4 G2dn που βασίζονται σε T4 GPU και έως και 25% χαμηλότερο λανθάνοντα χρόνο συμπερασμάτων. Για να πραγματοποιήσουμε αυτές τις εξοικονομήσεις κόστους και βελτιώσεις απόδοσης, αποφασίσαμε να αναπτύξουμε μοντέλα που βασίζονται σε AWS Inferentia Amazon Elastic Compute Cloud (Amazon EC2) Inf1 περιπτώσεις στην παραγωγή.

Το παρακάτω γράφημα δείχνει τη βελτίωση του λανθάνοντος χρόνου για ένα από τα μοντέλα μας ανίχνευσης προσώπου που είχε αναπτυχθεί προηγουμένως σε GPU με Tensor RT. Η μέση καθυστέρηση μειώθηκε κατά 20% (από 50 χιλιοστά του δευτερολέπτου σε 40 χιλιοστά του δευτερολέπτου) και η καθυστέρηση του p99 μειώθηκε κατά 25% (από 200 χιλιοστά του δευτερολέπτου σε 150 χιλιοστά του δευτερολέπτου).

Σε αυτήν την ανάρτηση, μοιραζόμαστε τον τρόπο με τον οποίο εξοικονομήσαμε κόστος συμπερασμάτων, μειώνοντας παράλληλα τις καθυστερήσεις και αυξάνοντας την απόδοση χρησιμοποιώντας το AWS Inferentia.

Σε αναζήτηση υπολογιστών υψηλής απόδοσης και οικονομικά αποδοτικού

Η ομάδα ByteDance AML επικεντρώνεται στην έρευνα και την εφαρμογή συστημάτων ML αιχμής και των ετερογενών υπολογιστικών πόρων που απαιτούν. Δημιουργούμε συστήματα εκπαίδευσης και συμπερασμάτων μεγάλης κλίμακας για μια μεγάλη ποικιλία μοντέλων συστάσεων, επεξεργασίας φυσικής γλώσσας (NLP) και όρασης υπολογιστή (CV). Αυτά τα μοντέλα είναι εξαιρετικά πολύπλοκα και επεξεργάζονται τεράστιο όγκο δεδομένων από τις πολλές πλατφόρμες περιεχομένου που λειτουργεί η ByteDance. Η ανάπτυξη αυτών των μοντέλων απαιτεί σημαντικούς πόρους GPU, είτε στο cloud είτε σε εγκαταστάσεις. Επομένως, το κόστος υπολογισμού για αυτά τα συστήματα συμπερασμάτων είναι αρκετά υψηλό.

Προσπαθούσαμε να μειώσουμε αυτά τα κόστη χωρίς να επηρεάσουμε την απόδοση ή την καθυστέρηση. Θέλαμε την ευελιξία του cloud και τον ταχύτερο κύκλο παράδοσης, ο οποίος είναι πολύ μικρότερος από αυτόν που απαιτείται για μια εσωτερική εγκατάσταση. Και παρόλο που ήμασταν ανοιχτοί στην εξερεύνηση νέων επιλογών για επιταχυνόμενη ML, θέλαμε επίσης μια απρόσκοπτη εμπειρία προγραμματιστή.

Μάθαμε από την ομάδα μας AWS ότι οι παρουσίες EC2 Inf1 που βασίζονται στο AWS Inferentia παρέχουν συμπεράσματα ML υψηλής απόδοσης με το χαμηλότερο κόστος ανά συμπέρασμα στο cloud. Ήμασταν περίεργοι να τα εξερευνήσουμε και βρήκαμε ότι είναι κατάλληλα για την περίπτωση χρήσης μας, επειδή εκτελούμε ουσιαστική μηχανική εκμάθηση σε μεγάλες ποσότητες δεδομένων εικόνας, αντικειμένου, ομιλίας και κειμένου. Ταίριαζαν σίγουρα στους στόχους μας, γιατί μπορούσαμε να πραγματοποιήσουμε τεράστια εξοικονόμηση κόστους, δεδομένης της πολυπλοκότητας των μοντέλων μας και του όγκου των ημερήσιων προβλέψεων. Επιπλέον, το AWS Inferentia διαθέτει μεγάλη ποσότητα μνήμης στο τσιπ, την οποία μπορείτε να χρησιμοποιήσετε για την προσωρινή αποθήκευση μεγάλων μοντέλων αντί να τα αποθηκεύσετε εκτός τσιπ. Αναγνωρίσαμε ότι αυτό μπορεί να έχει σημαντικό αντίκτυπο στη μείωση της καθυστέρησης συμπερασμάτων, επειδή οι πυρήνες επεξεργασίας του AWS Inferentia, που ονομάζονται NeuronCores, έχουν πρόσβαση υψηλής ταχύτητας σε μοντέλα που είναι αποθηκευμένα στη μνήμη του chip και δεν περιορίζονται από τη μνήμη εκτός τσιπ εύρος ζώνης.

Τελικά, αφού αξιολογήσαμε αρκετές επιλογές, επιλέξαμε περιπτώσεις EC2 Inf1 για την καλύτερη αναλογία απόδοσης/τιμής σε σύγκριση με τις παρουσίες G4dn και NVIDIA T4 σε εγκαταστάσεις. Συμμετέχουμε σε έναν κύκλο συνεχούς επανάληψης με την ομάδα AWS για να ξεκλειδώσετε τα πλεονεκτήματα τιμής και απόδοσης του Inf1.

Ανάπτυξη φόρτου εργασίας συμπερασμάτων στο AWS Inferentia

Το ξεκίνημα με το AWS Inferentia χρησιμοποιώντας το AWS Neuron SDK περιλάμβανε δύο φάσεις: τη συλλογή του κώδικα μοντέλου και την ανάπτυξη σε στιγμιότυπα Inf1. Όπως συνηθίζεται όταν μεταφέρουμε μοντέλα ML σε οποιαδήποτε νέα υποδομή, αντιμετωπίσαμε ορισμένες προκλήσεις. Καταφέραμε να ξεπεράσουμε αυτές τις προκλήσεις με επιμέλεια και υποστήριξη από την ομάδα μας AWS. Στις επόμενες ενότητες, μοιραζόμαστε πολλές χρήσιμες συμβουλές και παρατηρήσεις με βάση την εμπειρία μας στην ανάπτυξη φόρτου εργασίας εξαγωγής συμπερασμάτων στο AWS Inferentia.

Μοντέλο Conformer για OCR

Το μοντέλο μας διαμορφωτή οπτικής αναγνώρισης χαρακτήρων (OCR) ανιχνεύει και διαβάζει κείμενο μέσα στις εικόνες. Δουλέψαμε σε διάφορες βελτιστοποιήσεις για να έχουμε υψηλή απόδοση (QPS) για μια ποικιλία μεγεθών παρτίδας, διατηρώντας παράλληλα τη χαμηλή καθυστέρηση. Μερικές βασικές βελτιστοποιήσεις σημειώνονται παρακάτω:

  • Βελτιστοποιήσεις μεταγλωττιστή – Από προεπιλογή, το Inferentia αποδίδει καλύτερα σε εισόδους με σταθερό μήκος ακολουθίας, γεγονός που παρουσίαζε πρόκληση καθώς το μήκος των δεδομένων κειμένου δεν είναι σταθερό. Για να το ξεπεράσουμε αυτό, χωρίζουμε το μοντέλο μας σε δύο μέρη: έναν κωδικοποιητή και έναν αποκωδικοποιητή. Συγκεντρώσαμε αυτά τα δύο υπομοντέλα ξεχωριστά και στη συνέχεια τα συγχωνεύσαμε σε ένα ενιαίο μοντέλο μέσω του TorchScript. Εκτελώντας τη ροή ελέγχου βρόχου for στις CPU, αυτή η προσέγγιση επέτρεψε την υποστήριξη για μεταβλητά μήκη ακολουθίας στο Inferentia.
  • Απόδοση συνέλιξης σε βάθος – Αντιμετωπίσαμε ένα σημείο συμφόρησης DMA στη λειτουργία συνέλιξης σε βάθος, το οποίο χρησιμοποιείται σε μεγάλο βαθμό από το μοντέλο διαμορφωτή μας. Συνεργαστήκαμε στενά με την ομάδα του AWS Neuron για να εντοπίσουμε και να επιλύσουμε το σημείο συμφόρησης απόδοσης πρόσβασης DMA, το οποίο βελτίωσε την απόδοση αυτής της λειτουργίας και βελτίωσε τη συνολική απόδοση του μοντέλου OCR μας.

Το ByteDance εξοικονομεί έως και 60% στο κόστος συμπερασμάτων, ενώ μειώνει την καθυστέρηση και αυξάνει την απόδοση χρησιμοποιώντας το AWS Inferentia PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Δημιουργήσαμε δύο νέες παραλλαγές μοντέλων για να βελτιστοποιήσουμε την ανάπτυξή μας στο Inferentia:

  • Συνδυασμένος και ξετυλιγμένος κωδικοποιητής/αποκωδικοποιητής – Αντί να χρησιμοποιήσουμε έναν ανεξάρτητα μεταγλωττισμένο κωδικοποιητή και αποκωδικοποιητή, συνδυάσαμε τον κωδικοποιητή και έναν πλήρως ξετυλιγμένο αποκωδικοποιητή σε ένα μόνο μοντέλο και μεταγλωττίσαμε αυτό το μοντέλο ως ένα ενιαίο NEFF. Το ξετύλιγμα του αποκωδικοποιητή καθιστά δυνατή την εκτέλεση όλης της ροής ελέγχου του αποκωδικοποιητή στο Inferentia χωρίς τη χρήση λειτουργιών CPU. Με αυτήν την προσέγγιση, κάθε επανάληψη του αποκωδικοποιητή χρησιμοποιεί ακριβώς την ποσότητα υπολογισμού που απαιτείται για αυτό το διακριτικό. Αυτή η προσέγγιση βελτιώνει την απόδοση επειδή μειώνουμε σημαντικά τον υπερβολικό υπολογισμό που εισήχθη προηγουμένως με την προσθήκη εισόδων. Επιπλέον, δεν απαιτείται μεταφορά δεδομένων από το Inferentia στην CPU μεταξύ των επαναλήψεων του αποκωδικοποιητή, γεγονός που μειώνει δραστικά τον χρόνο I/O. Αυτή η έκδοση του μοντέλου δεν υποστηρίζει πρόωρη διακοπή.
  • Χωρισμένος ξετυλιγμένος αποκωδικοποιητής – Παρόμοια με το συνδυασμένο πλήρως ξετυλιγμένο μοντέλο, αυτή η παραλλαγή του μοντέλου ξετυλίγει πολλαπλές επαναλήψεις του αποκωδικοποιητή και τις μεταγλωττίζει ως μία εκτέλεση (αλλά δεν περιλαμβάνει τον κωδικοποιητή). Για παράδειγμα, για μέγιστο μήκος ακολουθίας 75, μπορούμε να ξετυλίξουμε τον αποκωδικοποιητή σε 3 διαμερίσματα που υπολογίζουν τα διακριτικά 1-25, 26-50 και 51-75. Όσον αφορά το I/O, αυτό είναι επίσης σημαντικά πιο γρήγορο επειδή δεν χρειάζεται να μεταφέρουμε την έξοδο του κωδικοποιητή μία φορά ανά επανάληψη. Αντίθετα, οι έξοδοι μεταφέρονται μόνο μία φορά ανά διαμέρισμα αποκωδικοποιητή. Αυτή η έκδοση του μοντέλου υποστηρίζει πρόωρη διακοπή, αλλά μόνο στα όρια του διαμερίσματος. Τα όρια διαμερισμάτων μπορούν να ρυθμιστούν για κάθε συγκεκριμένη εφαρμογή για να διασφαλιστεί ότι η πλειονότητα των αιτημάτων εκτελεί μόνο ένα διαμέρισμα.

Για περαιτέρω βελτίωση της απόδοσης, πραγματοποιήσαμε τις ακόλουθες βελτιστοποιήσεις για να μειώσουμε τη χρήση μνήμης ή να βελτιώσουμε την αποτελεσματικότητα της πρόσβασης:

  • Αφαίρεση τανυστών και μειωμένα αντίγραφα – Πρόκειται για μια βελτιστοποίηση μεταγλωττιστή που μειώνει σημαντικά το μέγεθος των ξετυλιγμένων μοντέλων και τον αριθμό των εντολών/πρόσβασης στη μνήμη με την επαναχρησιμοποίηση τανυστήρων για τη βελτίωση της απόδοσης χώρου.
  • Μειωμένες οδηγίες – Αυτή είναι μια βελτιστοποίηση μεταγλωττιστή που χρησιμοποιείται με την έκδοση χωρίς επένδυση του αποκωδικοποιητή για να μειώσει σημαντικά τον συνολικό αριθμό εντολών.
  • Πολυπύρηνο deduplication – Αυτή είναι μια βελτιστοποίηση χρόνου εκτέλεσης που είναι μια εναλλακτική λύση στην αφαίρεση τανυστών. Με αυτήν την επιλογή, όλα τα πολυπύρηνα μοντέλα θα είναι σημαντικά πιο αποδοτικά στο χώρο.

Μοντέλο ResNet50 για ταξινόμηση εικόνων

Το ResNet-50 είναι ένα προεκπαιδευμένο μοντέλο βαθιάς εκμάθησης για ταξινόμηση εικόνων. Είναι ένα Συνελικτικό Νευρωνικό Δίκτυο (CNN ή ConvNet) που χρησιμοποιείται πιο συχνά για την ανάλυση οπτικών εικόνων. Χρησιμοποιήσαμε τις ακόλουθες τεχνικές για να βελτιώσουμε την απόδοση αυτού του μοντέλου στο Inferentia:

  • Μεταμόρφωση μοντέλου – Πολλά από τα μοντέλα της ByteDance εξάγονται σε μορφή ONNX, την οποία η Inferentia επί του παρόντος δεν υποστηρίζει εγγενώς. Για να χειριστεί αυτά τα μοντέλα ONNX, η ομάδα του AWS Neuron παρείχε σενάρια για τη μετατροπή των μοντέλων μας από μορφή ONNX σε μοντέλα PyTorch, τα οποία μπορούν να μεταγλωττιστούν απευθείας για το Inferentia χρησιμοποιώντας τον πυρσό-νεύρο.
  • Βελτιστοποίηση απόδοσης – Συνεργαστήκαμε στενά με την AWS Neuron ομάδα για να συντονίσει τον ευρετικό προγραμματισμό στον μεταγλωττιστή για να βελτιστοποιήσει την απόδοση των μοντέλων μας ResNet-50.

Πολυτροπικό μοντέλο για την εποπτεία περιεχομένου

Το πολυτροπικό μας μοντέλο βαθιάς μάθησης είναι ένας συνδυασμός πολλαπλών ξεχωριστών μοντέλων. Το μέγεθος αυτού του μοντέλου είναι σχετικά μεγάλο, γεγονός που προκάλεσε αποτυχίες φόρτωσης μοντέλου στο Inferentia. Η ομάδα του AWS Neuron έλυσε με επιτυχία αυτό το πρόβλημα χρησιμοποιώντας την κοινή χρήση βάρους για να μειώσει τη χρήση της μνήμης της συσκευής. Η ομάδα Neuron κυκλοφόρησε αυτή τη δυνατότητα αποδιπλασιασμού βάρους στη βιβλιοθήκη Neuron libnrt και βελτίωσε επίσης τα Neuron Tools για πιο ακριβείς μετρήσεις. Η δυνατότητα κατάργησης διπλοτύπων βάρους χρόνου εκτέλεσης μπορεί να ενεργοποιηθεί ορίζοντας την ακόλουθη μεταβλητή περιβάλλοντος πριν από την εκτέλεση του συμπεράσματος:

NEURON_RT_MULTI_INSTANCE_SHARED_WEIGHTS=1

Το ενημερωμένο Neuron SDK μείωσε τη συνολική κατανάλωση μνήμης των διπλότυπων μοντέλων μας, γεγονός που μας επέτρεψε να αναπτύξουμε το πολυτροπικό μοντέλο μας για εξαγωγή συμπερασμάτων πολλαπλών πυρήνων.

Μετεγκατάσταση περισσότερων μοντέλων στο AWS Inferentia

Στην ByteDance, συνεχίζουμε να αναπτύσσουμε καινοτόμα μοντέλα βαθιάς εκμάθησης για να προσφέρουμε απολαυστικές εμπειρίες χρήστη σε σχεδόν 2 δισεκατομμύρια ενεργούς χρήστες μηνιαίως. Δεδομένης της τεράστιας κλίμακας στην οποία δραστηριοποιούμαστε, αναζητούμε συνεχώς τρόπους εξοικονόμησης κόστους και βελτιστοποίησης της απόδοσης. Θα συνεχίσουμε τη μετεγκατάσταση μοντέλων στο AWS Inferentia για να επωφεληθούμε από την υψηλή απόδοση και την οικονομική του απόδοση. Θέλουμε επίσης το AWS να λανσάρει περισσότερους τύπους παρουσιών που βασίζονται σε AWS Inferentia, όπως αυτούς με περισσότερες vCPU για εργασίες προεπεξεργασίας. Στο μέλλον, η ByteDance ελπίζει να δει περισσότερη καινοτομία πυριτίου από το AWS για να προσφέρει την καλύτερη απόδοση τιμής για εφαρμογές ML.

Εάν ενδιαφέρεστε να μάθετε περισσότερα σχετικά με τον τρόπο με τον οποίο το AWS Inferentia μπορεί να σας βοηθήσει να εξοικονομήσετε κόστος βελτιστοποιώντας παράλληλα την απόδοση για τις εφαρμογές συμπερασμάτων σας, επισκεφθείτε τη διεύθυνση Εμφανίσεις Amazon EC2 Inf1 σελίδα προϊόντος.


Σχετικά με τους Συγγραφείς

Το ByteDance εξοικονομεί έως και 60% στο κόστος συμπερασμάτων, ενώ μειώνει την καθυστέρηση και αυξάνει την απόδοση χρησιμοποιώντας το AWS Inferentia PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Minghui Yu είναι Ανώτερος Επικεφαλής Ομάδας Μηχανικής Εκμάθησης για Συμπεράσματα στο ByteDance. Η περιοχή εστίασής του είναι το AI Computing Acceleration and Machine Learning System. Ενδιαφέρεται πολύ για τους ετερογενείς υπολογιστές και την αρχιτεκτονική των υπολογιστών στην εποχή μετά τον Μουρ. Στον ελεύθερο χρόνο του αρέσει το μπάσκετ και η τοξοβολία.

Το ByteDance εξοικονομεί έως και 60% στο κόστος συμπερασμάτων, ενώ μειώνει την καθυστέρηση και αυξάνει την απόδοση χρησιμοποιώντας το AWS Inferentia PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Jianzhe Xiao είναι Ανώτερος Μηχανικός Λογισμικού Επικεφαλής της Ομάδας AML στην ByteDance. Η τρέχουσα δουλειά του επικεντρώνεται στο να βοηθήσει την επιχειρηματική ομάδα να επιταχύνει τη διαδικασία ανάπτυξης του μοντέλου και να βελτιώσει την απόδοση συμπερασμάτων του μοντέλου. Εκτός δουλειάς, του αρέσει να παίζει πιάνο.

Το ByteDance εξοικονομεί έως και 60% στο κόστος συμπερασμάτων, ενώ μειώνει την καθυστέρηση και αυξάνει την απόδοση χρησιμοποιώντας το AWS Inferentia PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τιάν Σι είναι Senior Solutions Architect στην AWS. Η περιοχή εστίασής του είναι η ανάλυση δεδομένων, η μηχανική μάθηση και η λειτουργία χωρίς διακομιστή. Είναι παθιασμένος με το να βοηθά τους πελάτες να σχεδιάζουν και να δημιουργούν αξιόπιστες και επεκτάσιμες λύσεις στο cloud. Στον ελεύθερο χρόνο του, του αρέσει το κολύμπι και το διάβασμα.

Το ByteDance εξοικονομεί έως και 60% στο κόστος συμπερασμάτων, ενώ μειώνει την καθυστέρηση και αυξάνει την απόδοση χρησιμοποιώντας το AWS Inferentia PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τζια Ντονγκ είναι Υπεύθυνος Λύσεων Πελατών στην AWS. Της αρέσει να μαθαίνει για τις υπηρεσίες AWS AI/ML και να βοηθά τους πελάτες να επιτύχουν τα επιχειρηματικά τους αποτελέσματα δημιουργώντας λύσεις για αυτούς. Εκτός δουλειάς, η Τζία απολαμβάνει τα ταξίδια, τη γιόγκα και τις ταινίες.

Το ByteDance εξοικονομεί έως και 60% στο κόστος συμπερασμάτων, ενώ μειώνει την καθυστέρηση και αυξάνει την απόδοση χρησιμοποιώντας το AWS Inferentia PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τζόναθαν Λαντ είναι μηχανικός λογισμικού στην Amazon με έμφαση στην ανάπτυξη πλαισίου ML. Κατά τη διάρκεια της καριέρας του έχει εργαστεί σε όλο το εύρος των ρόλων της επιστήμης δεδομένων, συμπεριλαμβανομένης της ανάπτυξης μοντέλων, της ανάπτυξης υποδομής και της βελτιστοποίησης για συγκεκριμένο υλικό.

Το ByteDance εξοικονομεί έως και 60% στο κόστος συμπερασμάτων, ενώ μειώνει την καθυστέρηση και αυξάνει την απόδοση χρησιμοποιώντας το AWS Inferentia PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Τζόσουα Χάναν είναι μηχανικός μηχανικής μάθησης στο Amazon. Εργάζεται στη βελτιστοποίηση μοντέλων βαθιάς μάθησης για μεγάλης κλίμακας εφαρμογές υπολογιστικής όρασης και επεξεργασίας φυσικής γλώσσας.

Το ByteDance εξοικονομεί έως και 60% στο κόστος συμπερασμάτων, ενώ μειώνει την καθυστέρηση και αυξάνει την απόδοση χρησιμοποιώντας το AWS Inferentia PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Shruti Koparkar είναι Ανώτερος Διευθυντής Μάρκετινγκ Προϊόντων στην AWS. Βοηθά τους πελάτες να εξερευνήσουν, να αξιολογήσουν και να υιοθετήσουν υποδομή υπολογιστών EC2 για τις ανάγκες μηχανικής εκμάθησης.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS