Τα τελευταία χρόνια σημειώθηκε ταχεία ανάπτυξη στον τομέα της επεξεργασίας φυσικής γλώσσας (NLP). Ενώ το υλικό έχει βελτιωθεί, όπως με την τελευταία γενιά επιταχυντών από την NVIDIA και την Amazon, οι επαγγελματίες προηγμένης μηχανικής εκμάθησης (ML) εξακολουθούν να αντιμετωπίζουν τακτικά προβλήματα με την κλιμάκωση των μεγάλων γλωσσικών μοντέλων τους σε πολλές GPU.
Σε αυτήν την ανάρτηση ιστολογίου, συνοψίζουμε εν συντομία την άνοδο των μοντέλων NLP μεγάλης και μικρής κλίμακας, κυρίως μέσω της αφαίρεσης που παρέχεται από το Hugging Face και με το αρθρωτό backend του Amazon SageMaker. Ειδικότερα, επισημαίνουμε την κυκλοφορία τεσσάρων πρόσθετων λειτουργιών στην παράλληλη βιβλιοθήκη μοντέλων SageMaker που ξεκλειδώνουν 175 δισεκατομμύρια παραμέτρους για το μοντέλο NLP προεκπαίδευσης και λεπτομέρειας για τους πελάτες.
Χρησιμοποιήσαμε αυτήν τη βιβλιοθήκη στην πλατφόρμα εκπαίδευσης SageMaker και επιτύχαμε απόδοση 32 δειγμάτων ανά δευτερόλεπτο σε 120 ml.p4d.24x μεγάλες παρουσίες και 175 δισεκατομμύρια παραμέτρους. Αναμένουμε ότι αν αυξήσουμε αυτό το ποσό σε 240 περιπτώσεις, το πλήρες μοντέλο θα χρειαζόταν 25 ημέρες για να εκπαιδευτεί.
Για περισσότερες πληροφορίες σχετικά με τον παραλληλισμό μοντέλων, δείτε την εργασία Amazon SageMaker Model Parallelism: Ένα γενικό και ευέλικτο πλαίσιο για εκπαίδευση μεγάλων μοντέλων.
Μπορείτε επίσης να δείτε το σημειωματάριο GPT2 που χρησιμοποιήσαμε για να δημιουργήσουμε αυτούς τους αριθμούς απόδοσης στο δικό μας Αποθετήριο GitHub.
Για να μάθετε περισσότερα σχετικά με τον τρόπο χρήσης των νέων δυνατοτήτων στο μοντέλο του SageMaker παράλληλα, ανατρέξτε στο Εκτεταμένες δυνατότητες της παράλληλης βιβλιοθήκης μοντέλου SageMaker για το PyTorch, να Χρήση με το SageMaker Python SDK.
NLP στο Amazon SageMaker – Hugging Face και παραλληλισμός μοντέλου
Εάν είστε νέοι στο Hugging Face και το NLP, το μεγαλύτερο χαρακτηριστικό που πρέπει να γνωρίζετε είναι ότι οι εφαρμογές που χρησιμοποιούν επεξεργασία φυσικής γλώσσας (NLP) αρχίζουν να επιτυγχάνουν απόδοση σε ανθρώπινο επίπεδο. Αυτό καθοδηγείται σε μεγάλο βαθμό από έναν μηχανισμό μάθησης, που ονομάζεται προσοχή, που οδήγησε σε ένα μοντέλο βαθιάς μάθησης, που ονομάζεται το μετασχηματιστής, που είναι πολύ πιο επεκτάσιμο από τις προηγούμενες διαδοχικές μεθόδους βαθιάς μάθησης. Το διάσημο πλέον μοντέλο BERT αναπτύχθηκε για να αξιοποιήσει τον μετασχηματιστή και ανέπτυξε αρκετές χρήσιμες τακτικές NLP στην πορεία. Οι μετασχηματιστές και η σουίτα μοντέλων, τόσο εντός όσο και εκτός του NLP, τα οποία είναι όλα εμπνευσμένα από την BERT, είναι η κύρια μηχανή πίσω από τα αποτελέσματα αναζήτησης Google, στο δικό σας Αποτελέσματα μετάφρασης Google, να πλήθος νέων startups.
Το SageMaker και το Hugging Face συνεργάστηκαν για να το κάνουν πιο εύκολο για τους πελάτες από ποτέ. Έχουμε κυκλοφορήσει δοχεία βαθιάς εκμάθησης Hugging Face (DLC's) για να εκπαιδεύσετε και να φιλοξενήσετε προεκπαιδευμένα μοντέλα απευθείας από το Hugging Face's αποθετήριο με περισσότερα από 26,000 μοντέλα. Έχουμε ξεκινήσει το SageMaker Training Compiler για να επιταχύνετε το χρόνο εκτέλεσης των βρόχων προπόνησης Hugging Face έως και 50%. Έχουμε επίσης ενσωματωθεί το ναυαρχίδα Hugging Face Transformers SDK με τις κατανεμημένες εκπαιδευτικές βιβλιοθήκες μας για να κάνετε την κλιμάκωση των μοντέλων σας NLP πιο εύκολη από ποτέ.
Για περισσότερες πληροφορίες σχετικά με τα μοντέλα Hugging Face Transformer στο Amazon SageMaker, βλ Υποστήριξη για μοντέλα Hugging Face Transformer.
Νέες δυνατότητες για εκπαίδευση μοντέλων NLP μεγάλης κλίμακας με την παράλληλη βιβλιοθήκη μοντέλων SageMaker
Στο AWS re:Invent 2020, το SageMaker κυκλοφόρησε κατανεμημένες βιβλιοθήκες που παρέχουν την καλύτερη απόδοση στο cloud για εκπαίδευση μοντέλων υπολογιστικής όρασης όπως Μάσκα-RCNN και μοντέλα NLP όπως Τ5-3Β. Αυτό είναι δυνατό μέσω βελτιωμένων πρωτόγονων επικοινωνιών που είναι 20-40% ταχύτερα από το NCCL στο AWS και τεχνικών διανομής μοντέλων που επιτρέπουν σε εξαιρετικά μεγάλα μοντέλα γλώσσας να κλιμακώνονται σε δεκάδες έως εκατοντάδες έως χιλιάδες GPU.
Η παράλληλη βιβλιοθήκη μοντέλων του SageMaker (SMP) σας έδινε πάντα τη δυνατότητα να παίρνετε το προκαθορισμένο μοντέλο NLP στο PyTorch, είτε μέσω του Hugging Face είτε αλλού, και να διαμερίζετε αυτό το μοντέλο σε πολλές GPU στο σύμπλεγμα σας. Με άλλα λόγια, το SMP χωρίζει το μοντέλο σας σε μικρότερα κομμάτια, ώστε να μην αντιμετωπίζετε σφάλματα εκτός μνήμης (OOM). Είμαστε στην ευχάριστη θέση να προσθέσουμε πρόσθετες τεχνικές εξοικονόμησης μνήμης που είναι κρίσιμες για μοντέλα μεγάλης κλίμακας, και συγκεκριμένα:
- Παραλληλισμός τανυστών
- Διαμοιρασμός κατάστασης βελτιστοποίησης
- Σημείο ελέγχου ενεργοποίησης
- Εκφόρτωση ενεργοποίησης
Μπορείτε να συνδυάσετε αυτά τα τέσσερα χαρακτηριστικά και μπορούν να συνδυαστούν για να χρησιμοποιήσετε τη μνήμη πιο αποτελεσματικά και να εκπαιδεύσετε την επόμενη γενιά μοντέλων NLP ακραίας κλίμακας.
Κατανεμημένη εκπαίδευση και παραλληλισμός τανυστών
Για να κατανοήσετε τον παραλληλισμό τανυστών, είναι χρήσιμο να γνωρίζετε ότι υπάρχουν πολλά είδη κατανεμημένης εκπαίδευσης ή παραλληλισμού. Ίσως είστε ήδη εξοικειωμένοι με τον πιο κοινό τύπο, παραλληλισμός δεδομένων. Ο πυρήνας του παραλληλισμού δεδομένων λειτουργεί ως εξής: προσθέτετε έναν επιπλέον κόμβο στο σύμπλεγμα σας, όπως μετάβαση από μία έως δύο παρουσίες ml.EC2 στον εκτιμητή SageMaker. Στη συνέχεια, χρησιμοποιείτε ένα παράλληλο πλαίσιο δεδομένων όπως το Horovod, το PyTorch Distributed Data Parallel ή το SageMaker Distributed. Αυτό δημιουργεί αντίγραφα του μοντέλου σας, ένα ανά επιταχυντή, και χειρίζεται την κοινή χρήση των δεδομένων σε κάθε κόμβο, μαζί με τη συγκέντρωση όλων των αποτελεσμάτων κατά τη διάρκεια του βήματος πίσω διάδοσης του νευρωνικού σας δικτύου. Σκεφτείτε την κατανεμημένη κλίση κάθοδος. Ο παραλληλισμός δεδομένων είναι επίσης δημοφιλής στους διακομιστές. μοιράζεστε δεδομένα σε όλες τις GPU, και περιστασιακά σε CPU, σε όλους τους κόμβους σας. Το παρακάτω διάγραμμα απεικονίζει τον παραλληλισμό δεδομένων.
Μοντέλο παραλληλισμού είναι ελαφρώς διαφορετικό. Αντί να κάνουμε αντίγραφα του ίδιου μοντέλου, χωρίζουμε το μοντέλο σας σε κομμάτια. Στη συνέχεια, διαχειριζόμαστε την εκτέλεσή του, επομένως τα δεδομένα σας εξακολουθούν να ρέουν μέσω του νευρωνικού σας δικτύου με τον ίδιο ακριβώς τρόπο μαθηματικά, αλλά διαφορετικά κομμάτια του μοντέλου σας βρίσκονται σε διαφορετικές GPU. Εάν χρησιμοποιείτε ένα ml.p3.8xlarge, έχετε τέσσερα NVIDIA V100, οπότε μάλλον θα θέλατε να τεμαχίσετε το μοντέλο σας σε 4 κομμάτια, ένα κομμάτι ανά GPU. Αν πηδήξετε μέχρι δύο ml.p4d.24xlarge's, αυτό είναι το σύνολο των 16 A100 στο σύμπλεγμα σας, επομένως μπορείτε να σπάσετε το μοντέλο σας σε 16 κομμάτια. Αυτό ονομάζεται επίσης μερικές φορές παραλληλισμός αγωγών. Αυτό οφείλεται στο γεγονός ότι το σύνολο των επιπέδων στο δίκτυο κατανέμεται σε GPU και εκτελείται με διοχετευτικό τρόπο για να μεγιστοποιηθεί η χρήση της GPU. Το παρακάτω διάγραμμα απεικονίζει τον παραλληλισμό του μοντέλου.
Για να συμβεί ο παραλληλισμός του μοντέλου σε κλίμακα, χρειαζόμαστε έναν τρίτο τύπο κατανομής: παραλληλισμός τανυστών. Ο παραλληλισμός τανυστών εφαρμόζει τις ίδιες έννοιες σε ένα βήμα παραπέρα—διαχωρίζουμε τα μεγαλύτερα στρώματα του νευρωνικού σας δικτύου και τοποθετούμε τμήματα των ίδιων των στρωμάτων σε διαφορετικές συσκευές. Αυτό είναι σχετικό όταν εργάζεστε με 175 δισεκατομμύρια παραμέτρους ή περισσότερες και προσπαθείτε να χωρέσετε έστω και μερικές εγγραφές στη μνήμη RAM, μαζί με μέρη του μοντέλου σας, για να εκπαιδεύσετε αυτόν τον μετασχηματιστή. Το παρακάτω διάγραμμα απεικονίζει τον παραλληλισμό τανυστών.
Να επιτρέψει παραλληλισμός τανυστήρα, ορίστε τον στις επιλογές smp περνάς στον εκτιμητή σου.
Στον προηγούμενο κώδικα, pipeline_parallel_degree
περιγράφει σε πόσα τμήματα θα πρέπει να κατακερματιστεί το μοντέλο σας, με βάση τον παραλληλισμό αγωγών που συζητήσαμε παραπάνω. Μια άλλη λέξη για αυτό είναι βαθμολογίες.
Για να ενεργοποιήσετε τον παραλληλισμό τανυστών, ορίστε tensor_parallel_degree
στο επιθυμητό επίπεδο. Βεβαιωθείτε ότι επιλέγετε έναν αριθμό ίσο ή μικρότερο από τον αριθμό των GPU ανά περίπτωση, επομένως όχι μεγαλύτερος από 8 για τα μηχανήματα ml.p4d.24xlarge. Για πρόσθετες αλλαγές σεναρίου, ανατρέξτε στο Εκτελέστε μια εργασία παράλληλης εκπαίδευσης κατανεμημένου μοντέλου SageMaker με Παραλληλισμό τανυστή.
Η παράμετρος ddp αναφέρεται σε κατανεμημένα δεδομένα παράλληλα. Συνήθως το ενεργοποιείτε εάν χρησιμοποιείτε παραλληλισμό δεδομένων ή παραλληλισμό τανυστών, επειδή η βιβλιοθήκη παραλληλισμού μοντέλων βασίζεται στο DDP για αυτές τις δυνατότητες.
Διαμοιρασμός κατάστασης Optimizer, εκφόρτωση ενεργοποίησης και σημεία ελέγχου
Εάν έχετε ένα εξαιρετικά μεγάλο μοντέλο, χρειάζεστε επίσης μια εξαιρετικά μεγάλη κατάσταση βελτιστοποίησης. Η προετοιμασία του εργαλείου βελτιστοποίησης για SMP είναι απλή: απλά σηκώστε το από το δίσκο στο σενάριό σας και φορτώστε το στο smp.DistributedOptimizer()
αντικείμενο.
Βεβαιωθείτε ότι το έχετε ενεργοποιήσει στον εκτιμητή με τη ρύθμιση shard_optimizer_state
να Αληθινή στο smp_options
Χρησιμοποιείτε για να διαμορφώσετε το SMP:
Παρόμοια με τον παραλληλισμό τανυστών και αγωγών, το SMP διαμορφώνει το προφίλ του μοντέλου και του παγκόσμιου μεγέθους σας (ο συνολικός αριθμός GPU σε όλους τους κόμβους εκπαίδευσης), για να βρει τις καλύτερες στρατηγικές τοποθέτησης.
Στη βαθιά εκμάθηση, οι έξοδοι του ενδιάμεσου επιπέδου ονομάζονται επίσης ενεργοποιήσεις, και αυτές πρέπει να αποθηκευτούν κατά τη διέλευση προς τα εμπρός. Αυτό συμβαίνει επειδή πρέπει να χρησιμοποιηθούν για υπολογισμό κλίσης στο πίσω πέρασμα. Σε ένα μεγάλο μοντέλο, η αποθήκευση όλων αυτών των ενεργοποιήσεων ταυτόχρονα στη μνήμη μπορεί να δημιουργήσει σημαντικά σημεία συμφόρησης στη μνήμη. Για να αντιμετωπίσετε αυτό το σημείο συμφόρησης, μπορείτε να χρησιμοποιήσετε σημείο ελέγχου ενεργοποίησης, η τρίτη νέα δυνατότητα στη βιβλιοθήκη παραλληλισμού μοντέλων SageMaker. Σημείο ελέγχου ενεργοποίησης ή βαθμίδα ελέγχου, είναι μια τεχνική για τη μείωση της χρήσης μνήμης με την εκκαθάριση των ενεργοποιήσεων ορισμένων επιπέδων και τον επανυπολογισμό τους κατά τη διάρκεια ενός περάσματος προς τα πίσω. Αυτό ανταλλάσσει αποτελεσματικά τον επιπλέον χρόνο υπολογισμού για μειωμένη χρήση μνήμης.
Τέλος, εκφόρτωση ενεργοποίησης χρησιμοποιεί απευθείας σημεία ελέγχου ενεργοποίησης. Είναι μια στρατηγική να διατηρείτε μόνο μερικές ενεργοποιήσεις τανυστή στη μνήμη RAM της GPU κατά τη διάρκεια της εκπαίδευσης του μοντέλου. Συγκεκριμένα, μετακινούμε τις ενεργοποιήσεις με σημείο ελέγχου στη μνήμη της CPU κατά τη διάρκεια του περάσματος προς τα εμπρός και τις φορτώνουμε πίσω στη GPU για το πέρασμα προς τα πίσω μιας συγκεκριμένης μικρο-παρτίδας.
Μικρο-παρτίδες και στρατηγικές τοποθέτησης
Άλλα θέματα που μερικές φορές προκαλούν σύγχυση στους πελάτες είναι οι μικρο-παρτίδες και οι στρατηγικές τοποθέτησης. Και οι δύο αυτές είναι υπερπαράμετροι που μπορείτε να παρέχετε στην παράλληλη βιβλιοθήκη μοντέλων SageMaker. Συγκεκριμένα, οι μικρο-παρτίδες είναι σχετικές κατά την εφαρμογή μοντέλων που βασίζονται στον παραλληλισμό αγωγών, όπως αυτές με μέγεθος τουλάχιστον 30 δισεκατομμυρίων παραμέτρων.
Οι μικρο-παρτίδες είναι υποσύνολα μίνι παρτίδων. Όταν το μοντέλο σας βρίσκεται στο βρόχο εκπαίδευσης, ορίζετε έναν ορισμένο αριθμό εγγραφών για να συλλέξετε και να περάσουν προς τα εμπρός και προς τα πίσω μέσα από τα επίπεδα – αυτό ονομάζεται μίνι παρτίδα, ή μερικές φορές απλώς α σύνολο παραγωγής. Ένα πλήρες πέρασμα από το σύνολο δεδομένων σας ονομάζεται an εποχή. Για να εκτελούνται τα περάσματα προς τα εμπρός και προς τα πίσω με παραλληλισμό αγωγών, η παράλληλη βιβλιοθήκη του μοντέλου SageMaker μοιράζει τις παρτίδες σε μικρότερα υποσύνολα που ονομάζονται μικρο-παρτίδες, τα οποία εκτελούνται ένα κάθε φορά για να μεγιστοποιηθεί η χρήση της GPU. Το προκύπτον, πολύ μικρότερο σύνολο παραδειγμάτων ανά GPU, ονομάζεται μικρο-παρτίδα. Στο παράδειγμά μας GPT-2, προσθέσαμε μια προεπιλογή 1 μικροπαρτίδας απευθείας στο σενάριο εκπαίδευσης.
Καθώς κλιμακώνετε τη διαμόρφωση της προπόνησής σας, Συνιστάται ανεπιφύλακτα να αλλάξετε το μέγεθος της παρτίδας και το μέγεθος της μικροπαρτίδας σας ανάλογα. Αυτός είναι ο μόνος τρόπος για να εξασφαλίσετε καλή απόδοση: πρέπει να λάβετε υπόψη το μέγεθος παρτίδας και τα μεγέθη μικροπαρτίδων ως συνάρτηση του συνολικού παγκόσμιου μεγέθους σας όταν βασίζεστε στον παραλληλισμό αγωγών.
Οι στρατηγικές τοποθέτησης είναι πώς μπορείτε να πείτε στο SageMaker φυσικά πού να τοποθετήσει τα διαμερίσματα του μοντέλου σας. Εάν χρησιμοποιείτε παράλληλα μοντέλο και παράλληλα δεδομένα, ρυθμίστε placement_strategy
προς την “cluster”
τοποθετεί αντίγραφα μοντέλων σε αναγνωριστικά συσκευών (GPU) που είναι φυσικά κοντά το ένα στο άλλο. Ωστόσο, εάν θέλετε πραγματικά να είστε πιο αυστηροί σχετικά με τη στρατηγική παραλληλισμού σας, μπορείτε να την αναλύσετε σε μια ενιαία συμβολοσειρά με διαφορετικούς συνδυασμούς τριών γραμμάτων: D για παραλληλισμό δεδομένων, P
υποδηλώνει παραλληλισμό αγωγών και T
για παραλληλισμό τανυστών. Γενικά συνιστούμε να διατηρήσετε την προεπιλεγμένη τοποθέτηση του "cluster"
, γιατί αυτό είναι πιο κατάλληλο για εκπαίδευση μοντέλων μεγάλης κλίμακας. Η τοποθέτηση "cluster" αντιστοιχεί σε "DPT
".
Για περισσότερες πληροφορίες σχετικά με τις στρατηγικές τοποθέτησης, βλ Στρατηγική τοποθέτησης με παραλληλισμό τανυστή.
Παράδειγμα περίπτωσης χρήσης
Ας φανταστούμε ότι έχετε ένα ml.p3.16xlarge στην προπονητική σας εργασία. Αυτό σου δίνει 8 NVIDIA V100 ανά κόμβο. Θυμηθείτε, κάθε φορά που προσθέτετε ένα επιπλέον στιγμιότυπο, αντιμετωπίζετε επιπλέον επιβάρυνση εύρους ζώνης, επομένως είναι πάντα καλύτερο να έχετε περισσότερους GP'U σε έναν μόνο κόμβο. Σε αυτήν την περίπτωση, είστε καλύτερα με ένα ml.p3.16xlarge παρά, για παράδειγμα, δύο ml.p3.8xlarges. Παρόλο που ο αριθμός των GPU είναι ο ίδιος, το επιπλέον εύρος ζώνης του επιπλέον κόμβου επιβραδύνει την απόδοση σας.
Το παρακάτω διάγραμμα απεικονίζει τον τετράδρομο παραλληλισμό του μοντέλου, σε συνδυασμό με τον αμφίδρομο παραλληλισμό δεδομένων. Αυτό σημαίνει ότι έχετε στην πραγματικότητα δύο αντίγραφα του μοντέλου σας (σκεφτείτε τα δεδομένα παράλληλα), με το καθένα από αυτά να είναι χωρισμένο σε τέσσερις GPU (μοντέλο παράλληλο).
Εάν κάποιο από αυτά τα διαμερίσματα του μοντέλου είναι πολύ μεγάλο για να χωρέσει σε μια ενιαία GPU, μπορείτε να προσθέσετε έναν επιπλέον τύπο διανομής – παραλληλισμό τανυστή – για να το φτύσετε και να χρησιμοποιήσετε και τις δύο συσκευές.
Συμπέρασμα
Σε αυτήν την ανάρτηση ιστολογίου συζητήσαμε τις διανεμημένες εκπαιδευτικές βιβλιοθήκες του SageMaker, ιδιαίτερα εστιάζοντας στον παραλληλισμό μοντέλων. Μοιραστήκαμε τα σημεία αναφοράς απόδοσης από την τελευταία μας δοκιμή, επιτυγχάνοντας 32 δείγματα ανά δευτερόλεπτο σε 120 ml.p4d.24x μεγάλες περιπτώσεις και 175B παραμέτρους στο Amazon SageMaker. Αναμένουμε ότι αν το αυξήσουμε σε 240 περιπτώσεις p4, θα μπορούσαμε να εκπαιδεύσουμε ένα μοντέλο παραμέτρων 175B σε 25 ημέρες.
Συζητήσαμε επίσης τις νεότερες δυνατότητες για την ενεργοποίηση της εκπαίδευσης μεγάλης κλίμακας, δηλαδή τον παραλληλισμό τανυστών, την κοινή χρήση κατάστασης βελτιστοποιητή, το σημείο ελέγχου ενεργοποίησης και την εκφόρτωση ενεργοποίησης. Μοιραστήκαμε μερικές συμβουλές και κόλπα για να το ενεργοποιήσετε μέσω της εκπαίδευσης στο Amazon SageMaker.
Δοκιμάστε το μόνοι σας χρησιμοποιώντας το ίδιο σημειωματάριο που δημιούργησε τους αριθμούς μας, το οποίο είναι διαθέσιμο στο GitHub εδώ. Μπορείτε επίσης να ζητήσετε περισσότερες GPU για τον λογαριασμό σας AWS μέσω ζητώντας έγκριση ορίου υπηρεσίας εδώ.
Σχετικά με τους Συγγραφείς
Έμιλι Webber εντάχθηκε στο AWS αμέσως μετά την κυκλοφορία του SageMaker και από τότε προσπαθεί να το πει στον κόσμο! Εκτός από τη δημιουργία νέων εμπειριών ML για τους πελάτες, η Emily απολαμβάνει τον διαλογισμό και τη μελέτη του Θιβετιανού Βουδισμού.
Αντίτια Μπίνταλ είναι Ανώτερος Διαχειριστής Προϊόντων για AWS Deep Learning. Εργάζεται σε προϊόντα που διευκολύνουν τους πελάτες να εκπαιδεύσουν μοντέλα βαθιάς μάθησης στο AWS. Στον ελεύθερο χρόνο του, απολαμβάνει να περνάει χρόνο με την κόρη του, να παίζει τένις, να διαβάζει ιστορικές μυθοπλασίες και να ταξιδεύει.
Λουίς Κουιντέλα είναι ο Διαχειριστής προγραμματιστή λογισμικού για την παράλληλη βιβλιοθήκη μοντέλων AWS SageMaker. Στον ελεύθερο χρόνο του, μπορεί να βρεθεί να οδηγεί τη Harley του στην περιοχή SF Bay.
- Coinsmart. Το καλύτερο ανταλλακτήριο Bitcoin και Crypto στην Ευρώπη.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. ΕΛΕΥΘΕΡΗ ΠΡΟΣΒΑΣΗ.
- CryptoHawk. Ραντάρ Altcoin. Δωρεάν δοκιμή.
- Πηγή: https://aws.amazon.com/blogs/machine-learning/train-175-billion-parameter-nlp-models-with-model-parallel-additions-and-hugging-face-on-amazon-sagemaker/
- "
- 000
- 100
- 2020
- 39
- Σχετικά
- επιταχυντής
- Λογαριασμός
- επιτευχθεί
- απέναντι
- Πρόσθετος
- διεύθυνση
- προηγμένες
- Όλα
- ήδη
- Amazon
- Άλλος
- εφαρμογές
- ΠΕΡΙΟΧΗ
- διαθέσιμος
- AWS
- Κόλπος
- ΚΑΛΎΤΕΡΟΣ
- Μεγαλύτερη
- Δισεκατομμύριο
- Blog
- Κτίριο
- Αιτία
- αλλαγή
- Backup
- κωδικός
- συνδυασμοί
- Κοινός
- Επικοινωνία
- διαμόρφωση
- σύγχυση
- Εμπορευματοκιβώτια
- πυρήνας
- θα μπορούσε να
- Πελάτες
- ημερομηνία
- αναπτύχθηκε
- Εργολάβος
- Ανάπτυξη
- συσκευή
- Συσκευές
- διαφορετικές
- διανέμονται
- διανομή
- κάτω
- οδηγείται
- ενεργοποίηση
- ειδικά
- παράδειγμα
- εμπειρία
- Δραστηριοτητες
- άκρο
- Πρόσωπο
- γρηγορότερα
- Χαρακτηριστικό
- Χαρακτηριστικά
- Μυθιστόρημα
- ταιριάζουν
- Εξής
- Προς τα εμπρός
- Βρέθηκαν
- Πλαίσιο
- πλήρη
- λειτουργία
- General
- παράγουν
- GitHub
- μετάβαση
- καλός
- Αναζήτηση Google
- GPU
- υλικού
- χρήσιμο
- Επισημάνετε
- ιστορικών
- Πως
- Πώς να
- HTTPS
- Εκατοντάδες
- αυξημένη
- πληροφορίες
- εμπνευσμένος
- ενσωματωθεί
- θέματα
- IT
- Δουλειά
- εντάχθηκαν
- άλμα
- τήρηση
- Γλώσσα
- large
- αργότερο
- ξεκινήσει
- ΜΑΘΑΊΝΩ
- μάθηση
- Επίπεδο
- Βιβλιοθήκη
- φορτίο
- μηχανή
- μάθηση μηχανής
- μηχανήματα
- Κατασκευή
- διευθυντής
- Μνήμη
- ML
- μοντέλο
- μοντέλα
- σπονδυλωτή
- πλέον
- μετακινήσετε
- και συγκεκριμένα
- Φυσικό
- δίκτυο
- Νέες δυνατότητες
- κόμβων
- σημειωματάριο
- αριθμοί
- ΑΛΛΑ
- Χαρτί
- συνεργάστηκε
- επίδοση
- κομμάτι
- πλατφόρμες
- Δημοφιλής
- δυνατός
- πρωταρχικός
- Προϊόν
- Προϊόντα
- προφίλ
- παρέχουν
- RAM
- RE
- Ανάγνωση
- συνιστώ
- αρχεία
- μείωση
- Αποτελέσματα
- τρέξιμο
- τρέξιμο
- Είπε
- επεκτάσιμη
- Κλίμακα
- απολέπιση
- SDK
- Αναζήτηση
- υπηρεσία
- σειρά
- τον καθορισμό
- κοπής
- Shared
- σημαντικός
- Μέγεθος
- So
- λογισμικό
- ειδικά
- ταχύτητα
- Δαπάνες
- διαίρεση
- Κατάσταση
- στρατηγικές
- Στρατηγική
- προμήθεια
- τακτική
- τεχνικές
- δοκιμή
- ο κόσμος
- χιλιάδες
- Μέσω
- ώρα
- συμβουλές
- συμβουλές και κόλπα
- μαζι
- Θέματα
- συναλλαγές
- Εκπαίδευση
- καταλαβαίνω
- χρήση
- χρησιμοποιώ
- όραμα
- εντός
- εργαζόμενος
- λειτουργεί
- κόσμος
- χρόνια