Οι πρόσφατες εξελίξεις στη βαθιά μάθηση έχουν οδηγήσει σε ολοένα και πιο μεγάλα μοντέλα όπως τα GPT-3, BLOOM και OPT, μερικά από τα οποία ξεπερνούν ήδη τις 100 δισεκατομμύρια παραμέτρους. Αν και τα μεγαλύτερα μοντέλα τείνουν να είναι πιο ισχυρά, η εκπαίδευση τέτοιων μοντέλων απαιτεί σημαντικούς υπολογιστικούς πόρους. Ακόμη και με τη χρήση προηγμένων κατανεμημένων βιβλιοθηκών εκπαίδευσης όπως οι FSDP και DeepSpeed, είναι σύνηθες για τις εργασίες εκπαίδευσης να απαιτούνται εκατοντάδες συσκευές επιτάχυνσης για αρκετές εβδομάδες ή μήνες κάθε φορά.
Στα τέλη του 2022, η AWS ανακοίνωσε τη γενική διαθεσιμότητα του Περιπτώσεις Amazon EC2 Trn1 τροφοδοτείται από Aws trainium—ένας ειδικά κατασκευασμένος επιταχυντής μηχανικής μάθησης (ML) βελτιστοποιημένος για να παρέχει μια πλατφόρμα υψηλής απόδοσης, οικονομικά αποδοτική και μαζικά επεκτάσιμη για την εκπαίδευση μοντέλων βαθιάς μάθησης στο cloud. Τα στιγμιότυπα Trn1 είναι διαθέσιμα σε διάφορα μεγέθη (δείτε τον παρακάτω πίνακα), με έως και 16 επιταχυντές Trainium ανά περίπτωση.
Μέγεθος Στιγμιότυπου | Επιταχυντές Trainium | Μνήμη Accelerator (GB) | vCPU | Μνήμη Στιγμιότυπου (GiB) | Εύρος ζώνης δικτύου (Gbps) |
trn1.2xlarge | 1 | 32 | 8 | 32 | Μέχρι 12.5 |
trn1.32xlarge | 16 | 512 | 128 | 512 | 800 |
trn1n.32xlarge (προσεχώς) | 16 | 512 | 128 | 512 | 1600 |
Τα στιγμιότυπα Trn1 μπορούν είτε να αναπτυχθούν ως μεμονωμένα στιγμιότυπα για μικρότερες εργασίες εκπαίδευσης, είτε σε εξαιρετικά κλιμακούμενα υπερσυστάδες που υποστηρίζουν κατανεμημένη εκπαίδευση σε δεκάδες χιλιάδες επιταχυντές Trainium. Όλες οι περιπτώσεις Trn1 υποστηρίζουν την αυτόνομη διαμόρφωση, ενώ τα Trn1 ultracluster απαιτούν trn1.32xlarge ή trn1n.32xlarge παρουσίες. Σε ένα ultracluster, πολλαπλές παρουσίες Trn1 συγκεντρώνονται σε μια δεδομένη Ζώνη Διαθεσιμότητας AWS και συνδέονται με δικτύωση Elastic Fabric Adapter (EFA) υψηλής ταχύτητας, χαμηλής καθυστέρησης που παρέχει 800 Gbps μη αποκλειστικού εύρους ζώνης δικτύου ανά περίπτωση για συλλογικές υπολογιστικές λειτουργίες . Ο τύπος παρουσίας trn1n.32xlarge, που θα κυκλοφορήσει στις αρχές του 2023, θα αυξήσει αυτό το εύρος ζώνης στα 1600 Gbps ανά παρουσία.
Πολλοί εταιρικοί πελάτες επιλέγουν να αναπτύξουν τους φόρτους εργασίας βαθιάς εκμάθησης χρησιμοποιώντας το Kubernetes — το de facto πρότυπο για ενορχήστρωση κοντέινερ στο cloud. Οι πελάτες AWS συχνά αναπτύσσουν αυτούς τους φόρτους εργασίας χρησιμοποιώντας Υπηρεσία Amazon Elastic Kubernetes (Amazon EKS). Το Amazon EKS είναι μια διαχειριζόμενη υπηρεσία Kubernetes που απλοποιεί τη δημιουργία, τη διαμόρφωση, τον κύκλο ζωής και την παρακολούθηση των συμπλεγμάτων Kubernetes, ενώ εξακολουθεί να προσφέρει την πλήρη ευελιξία των ανοδικών Kubernetes.
Σήμερα, είμαστε στην ευχάριστη θέση να ανακοινώσουμε την επίσημη υποστήριξη για κατανεμημένες θέσεις εργασίας κατάρτισης χρησιμοποιώντας περιπτώσεις Amazon EKS και EC2 Trn1. Με αυτήν την ανακοίνωση, μπορείτε πλέον να εκτελέσετε εύκολα εργασίες εκπαίδευσης με εμπορευματοκιβώτια εντός του Amazon EKS, ενώ εκμεταλλεύεστε πλήρως την απόδοση τιμής, την επεκτασιμότητα και την ευκολία χρήσης που προσφέρουν οι περιπτώσεις Trn1.
Μαζί με αυτήν την ανακοίνωση, δημοσιεύουμε επίσης ένα λεπτομερές σεμινάριο που σας καθοδηγεί στα βήματα που απαιτούνται για την εκτέλεση μιας εργασίας κατανεμημένης εκπαίδευσης πολλαπλών περιπτώσεων (προεκπαίδευση φάσης 1 BERT) χρησιμοποιώντας περιπτώσεις Amazon EKS και Trn1. Σε αυτήν την ανάρτηση, θα μάθετε για την αρχιτεκτονική λύσης και θα εξετάσετε πολλά βασικά βήματα από το σεμινάριο. Αναφέρομαι στο επίσημο αποθετήριο φροντιστηρίων για την πλήρη ροή εργασιών από άκρο σε άκρο.
Για να ακολουθήσει, μια ευρεία εξοικείωση με βασικές υπηρεσίες AWS, όπως Amazon Elastic Compute Cloud (Amazon EC2) και Amazon EKS υπονοείται και η βασική εξοικείωση με τη βαθιά μάθηση και το PyTorch θα ήταν χρήσιμη.
Αρχιτεκτονική λύσεων
Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσεων.
Η λύση αποτελείται από τα ακόλουθα κύρια συστατικά:
- Ένα σύμπλεγμα EKS
- Μια ομάδα κόμβων EKS που αποτελείται από trn1.32x μεγάλες περιπτώσεις
- Η AWS Neuron SDK
- Πρόσθετα EKS για Neuron και EFA
- An Μητρώο εμπορευματοκιβωτίων Amazon Elastic (Amazon ECR) Αποθετήριο
- Εικόνα κοντέινερ προπόνησης
- An Amazon FSx για λάμψη σύστημα αρχείων
- Ένας προγραμματιστής παρτίδας Volcano και διακομιστής etcd
- Η καθολική εφαρμογή εκκίνησης εργασιών TorchX
- Η μονάδα TorchX DDP για το Trainium
Στην καρδιά της λύσης βρίσκεται ένα σύμπλεγμα EKS που σας παρέχει βασική λειτουργικότητα διαχείρισης Kubernetes μέσω ενός τερματικού σημείου υπηρεσίας EKS. Ένα από τα πλεονεκτήματα του Amazon EKS είναι ότι η υπηρεσία παρακολουθεί ενεργά και κλιμακώνει το επίπεδο ελέγχου με βάση το φορτίο, γεγονός που εξασφαλίζει υψηλή απόδοση για μεγάλους φόρτους εργασίας, όπως η κατανεμημένη εκπαίδευση. Μέσα στο σύμπλεγμα EKS υπάρχει μια ομάδα κόμβων που αποτελείται από δύο ή περισσότερες trn1.32xlarge παρουσίες που βασίζονται σε Trainium που βρίσκονται στην ίδια Ζώνη Διαθεσιμότητας.
Το Neuron SDK είναι η στοίβα λογισμικού που παρέχει το πρόγραμμα οδήγησης, τον μεταγλωττιστή, το χρόνο εκτέλεσης, την ενσωμάτωση πλαισίου (για παράδειγμα, το PyTorch Neuron) και τα εργαλεία χρήστη που σας επιτρέπουν να έχετε πρόσβαση στα πλεονεκτήματα των επιταχυντών Trainium. Το πρόγραμμα οδήγησης συσκευής Neuron εκτελείται απευθείας στους κόμβους EKS (στιγμιότυπα Trn1) και παρέχει πρόσβαση στα τσιπ Trainium μέσα από τα δοχεία εκπαίδευσης που εκκινούνται στους κόμβους. Τα πρόσθετα Neuron και EFA είναι εγκατεστημένα στο σύμπλεγμα EKS για να παρέχουν πρόσβαση στα τσιπ Trainium και στις συσκευές δικτύωσης EFA που απαιτούνται για κατανεμημένη εκπαίδευση.
Ένα αποθετήριο ECR χρησιμοποιείται για την αποθήκευση των εικόνων του κοντέινερ εκπαίδευσης. Αυτές οι εικόνες περιέχουν το Neuron SDK (εξαιρουμένου του προγράμματος οδήγησης Neuron, το οποίο εκτελείται απευθείας στις παρουσίες Trn1), το σενάριο εκπαίδευσης PyTorch και απαιτούμενες εξαρτήσεις. Όταν εκκινείται μια εργασία εκπαίδευσης στο σύμπλεγμα EKS, οι εικόνες του κοντέινερ τραβούν πρώτα από το Amazon ECR στους κόμβους EKS και τα κοντέινερ εργαζόμενου PyTorch στη συνέχεια δημιουργούνται από τις εικόνες.
Ο κοινόχρηστος χώρος αποθήκευσης παρέχεται χρησιμοποιώντας ένα σύστημα αρχείων FSx for Luster υψηλής απόδοσης που υπάρχει στην ίδια Ζώνη Διαθεσιμότητας με τις παρουσίες trn1.32xlarge. Η δημιουργία και η προσάρτηση του συστήματος αρχείων FSx for Luster στο σύμπλεγμα EKS διαμεσολαβείται από το Πρόγραμμα οδήγησης Amazon FSx for Luster CSI. Σε αυτήν τη λύση, ο κοινόχρηστος χώρος αποθήκευσης χρησιμοποιείται για την αποθήκευση του συνόλου δεδομένων εκπαίδευσης και τυχόν αρχείων καταγραφής ή τεχνουργημάτων που δημιουργήθηκαν κατά τη διαδικασία εκπαίδευσης.
Η λύση χρησιμοποιεί το TorchX καθολική εκκίνηση εργασιών για την έναρξη κατανεμημένων θέσεων εργασίας κατάρτισης στο Amazon EKS. Το TorchX έχει δύο σημαντικές εξαρτήσεις: τον προγραμματιστή παρτίδας Volcano και τον διακομιστή etcd. Το Volcano χειρίζεται τον προγραμματισμό και την ουρά των εργασιών εκπαίδευσης, ενώ ο διακομιστής etcd είναι ένα κατάστημα βασικών τιμών που χρησιμοποιείται από την TorchElastic για συγχρονισμό και ανακάλυψη από ομοτίμους κατά την εκκίνηση της εργασίας.
Όταν εκκινείται μια εργασία εκπαίδευσης χρησιμοποιώντας το TorchX, η εντολή εκκίνησης χρησιμοποιεί την παρεχόμενη μονάδα TorchX κατανεμημένης μονάδας DDP για το Trainium για να διαμορφώσει τη συνολική εργασία εκπαίδευσης και, στη συνέχεια, να εκτελέσει τις κατάλληλες εντολές torchrun σε καθεμία από τις ομάδες εργασίας PyTorch. Όταν μια εργασία εκτελείται, μπορεί να παρακολουθείται χρησιμοποιώντας τυπικά εργαλεία Kubernetes (όπως το kubectl) ή μέσω τυπικών συνόλων εργαλείων ML όπως το TensorBoard.
Επισκόπηση λύσεων
Ας δούμε τα σημαντικά βήματα αυτής της λύσης. Σε όλη αυτή την επισκόπηση, αναφερόμαστε στο Εκκινήστε μια εργασία εκπαίδευσης νευρώνων PyTorch πολλαπλών κόμβων στο Trainium χρησιμοποιώντας TorchX και EKS σεμινάριο στο GitHub.
Δημιουργήστε ένα σύμπλεγμα EKS
Για να ξεκινήσετε με κατανεμημένες εργασίες εκπαίδευσης στο Amazon EKS με περιπτώσεις Trn1, πρώτα δημιουργείτε ένα σύμπλεγμα EKS όπως περιγράφεται στο σεμινάριο στο GitHub. Η δημιουργία συμπλέγματος μπορεί να επιτευχθεί χρησιμοποιώντας τυπικά εργαλεία όπως eksctl
και AWS CloudFormation.
Δημιουργήστε μια ομάδα κόμβων EKS
Στη συνέχεια, πρέπει να δημιουργήσουμε μια ομάδα κόμβων EKS που περιέχει δύο ή περισσότερες trn1.32xlarge παρουσίες σε μια υποστηριζόμενη Περιοχή. Στο φροντιστήριο, Το AWS CloudFormation χρησιμοποιείται για τη δημιουργία ενός προτύπου εκκίνησης EC2 ειδικά για το Trainium, το οποίο διασφαλίζει ότι οι παρουσίες Trn1 εκκινούνται με μια κατάλληλη εικόνα μηχανής Amazon (AMI) και τη σωστή διαμόρφωση δικτύου EFA που απαιτείται για την υποστήριξη της κατανεμημένης εκπαίδευσης. Το AMI περιλαμβάνει επίσης το πρόγραμμα οδήγησης συσκευής Neuron που παρέχει υποστήριξη για τα τσιπ επιτάχυνσης Trainium. Με την eksctl
Εργαλείο διαχείρισης Amazon EKS, μπορείτε εύκολα να δημιουργήσετε μια ομάδα κόμβων Trainium χρησιμοποιώντας ένα βασικό μανιφέστο YAML που αναφέρεται στο νεοδημιουργημένο πρότυπο εκκίνησης. Για παράδειγμα:
Στην προηγούμενη δήλωση, πολλά χαρακτηριστικά έχουν ρυθμιστεί ώστε να επιτρέπουν τη χρήση παρουσιών Trn1 στο σύμπλεγμα EKS. Πρώτα, metadata.region
έχει οριστεί σε μία από τις Περιφέρειες που υποστηρίζει παρουσίες Trn1 (προς το παρόν us-east-1
και us-west-2
). Στη συνέχεια, για τις ζώνες διαθεσιμότητας, το Amazon EKS απαιτεί να καθοριστούν δύο Ζώνες Διαθεσιμότητας. Μία από αυτές τις Ζώνες Διαθεσιμότητας πρέπει να υποστηρίζει τη χρήση παρουσιών Trn1, ενώ η άλλη μπορεί να επιλεγεί τυχαία. Το σεμινάριο δείχνει πώς να καθορίστε ποιες Ζώνες Διαθεσιμότητας θα επιτρέψουν τις παρουσίες Trn1 στον λογαριασμό σας AWS. Η ίδια ζώνη διαθεσιμότητας που υποστηρίζει το Trn1 πρέπει επίσης να καθοριστεί χρησιμοποιώντας το availabiltyZones
χαρακτηριστικό που σχετίζεται με την ομάδα κόμβων EKS. efaEnabled
έχει οριστεί σε true
για να διαμορφώσετε τους κόμβους με την κατάλληλη διαμόρφωση δικτύου EFA που απαιτείται για την κατανεμημένη εκπαίδευση. Τέλος, το launchTemplate.id
Το χαρακτηριστικό που σχετίζεται με την ομάδα κόμβων οδηγεί στο πρότυπο εκκίνησης EC2 που δημιουργήθηκε μέσω του AWS CloudFormation σε προηγούμενο βήμα.
Υποθέτοντας ότι έχετε ήδη εφαρμόσει το πρότυπο CloudFormation και έχετε εγκαταστήσει το eksctl
εργαλείο διαχείρισης, μπορείτε να δημιουργήσετε μια ομάδα κόμβων EKS με δυνατότητα Trainium εκτελώντας τον ακόλουθο κώδικα:
Εγκαταστήστε προσθήκες Kubernetes για συσκευές Trainium και EFA
Με την ομάδα κόμβων στη θέση του, το επόμενο βήμα είναι να εγκαταστήσετε προσθήκες Kubernetes που παρέχουν υποστήριξη για τους επιταχυντές Trainium (μέσω της προσθήκης Neuron) και τις συσκευές EFA (μέσω της προσθήκης EFA). Αυτά τα πρόσθετα μπορούν εύκολα να εγκατασταθούν στο σύμπλεγμα χρησιμοποιώντας το πρότυπο kubectl
εργαλείο διαχείρισης όπως φαίνεται στο σεμινάριο.
Για να χρησιμοποιήσετε τον καθολικό εκκινητή PyTorch TorchX για την εκκίνηση κατανεμημένων εργασιών εκπαίδευσης, απαιτούνται δύο προϋποθέσεις: ο προγραμματιστής παρτίδας Volcano και ο διακομιστής etcd. Όπως τα πρόσθετα Neuron και EFA, μπορούμε να χρησιμοποιήσουμε το kubectl
εργαλείο για την εγκατάσταση του Volcano και του διακομιστή etcd στο σύμπλεγμα EKS.
Επισυνάψτε κοινόχρηστο χώρο αποθήκευσης στο σύμπλεγμα EKS
Στο σεμινάριο, το FSx for Luster χρησιμοποιείται για την παροχή ενός συστήματος κοινόχρηστων αρχείων υψηλής απόδοσης στο οποίο μπορούν να προσπελαστούν οι διάφορες ομάδες εργασίας EKS. Αυτός ο κοινόχρηστος χώρος αποθήκευσης χρησιμοποιείται για τη φιλοξενία του συνόλου δεδομένων εκπαίδευσης, καθώς και για τυχόν τεχνουργήματα και αρχεία καταγραφής που δημιουργούνται κατά τη διάρκεια της εκπαιδευτικής διαδικασίας. Το σεμινάριο περιγράφει τον τρόπο δημιουργίας και προσάρτησης του κοινόχρηστου χώρου αποθήκευσης στο σύμπλεγμα χρησιμοποιώντας το Πρόγραμμα οδήγησης Amazon FSx for Luster CSI.
Δημιουργήστε μια εικόνα κοντέινερ προπόνησης
Στη συνέχεια, πρέπει να δημιουργήσουμε μια εικόνα κοντέινερ εκπαίδευσης που να περιλαμβάνει το σενάριο εκπαίδευσης PyTorch μαζί με τυχόν εξαρτήσεις. Ένα παράδειγμα Dockerfile περιλαμβάνεται στο σεμινάριο, το οποίο ενσωματώνει το σενάριο προεκπαίδευσης BERT μαζί με τις εξαρτήσεις λογισμικού του. Το Dockerfile χρησιμοποιείται για τη δημιουργία της εικόνας του κοντέινερ εκπαίδευσης και στη συνέχεια η εικόνα προωθείται σε ένα αποθετήριο ECR από το οποίο οι εργαζόμενοι στο PyTorch μπορούν να τραβήξουν την εικόνα όταν εκκινείται μια εργασία εκπαίδευσης στο σύμπλεγμα.
Ρυθμίστε τα δεδομένα εκπαίδευσης
Πριν ξεκινήσετε μια εργασία εκπαίδευσης, τα δεδομένα εκπαίδευσης αντιγράφονται πρώτα στον κοινόχρηστο τόμο αποθήκευσης στο FSx for Lustre. Το σεμινάριο περιγράφει πώς να δημιουργήσετε ένα προσωρινό Kubernetes pod που έχει πρόσβαση στον κοινόχρηστο όγκο αποθήκευσης και δείχνει πώς να συνδεθείτε στο pod για να κατεβάσετε και να εξαγάγετε το σύνολο δεδομένων εκπαίδευσης χρησιμοποιώντας τυπικές εντολές κελύφους Linux.
Με τις διάφορες υποδομές και τις προϋποθέσεις λογισμικού που υπάρχουν, μπορούμε τώρα να επικεντρωθούμε στις πτυχές της λύσης Trainium.
Προμεταγλωττίστε το μοντέλο σας
Το Neuron SDK υποστηρίζει το PyTorch μέσω ενός επιπέδου ενοποίησης που ονομάζεται PyTorch Neuron. Από προεπιλογή, το PyTorch Neuron λειτουργεί με μεταγλώττιση ακριβώς στην ώρα, όπου τα διάφορα γραφήματα υπολογισμού νευρωνικών δικτύων σε μια εργασία εκπαίδευσης μεταγλωττίζονται όπως συναντώνται κατά τη διαδικασία εκπαίδευσης. Για μεγαλύτερα μοντέλα, μπορεί να είναι πιο βολικό να χρησιμοποιήσετε το παρεχόμενο neuron_parallel_compile
εργαλείο για την εκ των προτέρων μεταγλώττιση και προσωρινή αποθήκευση των διαφόρων υπολογιστικών γραφημάτων, ώστε να αποφευχθεί η σύνταξη γραφημάτων κατά την εκπαίδευση. Πριν ξεκινήσετε την εργασία εκπαίδευσης στο σύμπλεγμα EKS, το σεμινάριο δείχνει πώς να ξεκινήσετε πρώτα μια εργασία προμεταγλώττισης μέσω TorchX χρησιμοποιώντας το neuron_parallel_compile
εργαλείο. Μετά την ολοκλήρωση της εργασίας προμεταγλώττισης, ο μεταγλωττιστής Neuron θα έχει αναγνωρίσει και μεταγλωττίσει όλα τα γραφήματα υπολογισμού του νευρωνικού δικτύου και θα τα έχει αποθηκεύσει προσωρινά στον κοινόχρηστο τόμο αποθήκευσης για μελλοντική χρήση κατά την πραγματική εργασία προεκπαίδευσης BERT.
Ξεκινήστε την εργασία κατανεμημένης εκπαίδευσης
Με την ολοκλήρωση της προμεταγλώττισης, το TorchX χρησιμοποιείται στη συνέχεια για την έναρξη μιας εργασίας κατανεμημένης εκπαίδευσης 64 εργαζομένων σε δύο trn1.32x μεγάλες περιπτώσεις, με 32 εργαζόμενους ανά περίπτωση. Χρησιμοποιούμε 32 εργαζόμενους ανά περίπτωση, επειδή κάθε trn1.32xlarge παρουσία περιέχει 16 επιταχυντές Trainium, με κάθε επιταχυντή να παρέχει 2 Neuron Cores. Κάθε NeuronCore μπορεί να προσπελαστεί ως μοναδικό Συσκευή PyTorch XLA στο σενάριο εκπαίδευσης. Ένα παράδειγμα εντολής εκκίνησης TorchX από το σεμινάριο μοιάζει με τον ακόλουθο κώδικα:
Τα διάφορα ορίσματα γραμμής εντολών στην προηγούμενη εντολή TorchX περιγράφονται λεπτομερώς στο σεμινάριο. Ωστόσο, τα ακόλουθα επιχειρήματα είναι πιο σημαντικά για τη διαμόρφωση της εργασίας εκπαίδευσης:
- -cfg ουρά=δοκιμή – Καθορίζει την ουρά Volcano που θα χρησιμοποιηθεί για την εργασία εκπαίδευσης
- -cfg image_repo – Καθορίζει το αποθετήριο ECR που θα χρησιμοποιηθεί για τις εικόνες κοντέινερ TorchX
- –script_args – Καθορίζει τυχόν ορίσματα που πρέπει να περάσουν στο σενάριο εκπαίδευσης του PyTorch
- –nnodes και –nproc_per_node – Ο αριθμός των περιπτώσεων και των εργαζομένων ανά περίπτωση που θα χρησιμοποιηθούν για την εργασία κατάρτισης
- -γραφή – Το όνομα του σεναρίου εκπαίδευσης PyTorch για εκκίνηση εντός του κοντέινερ εκπαίδευσης
- -Εικόνα – Η διαδρομή προς την εικόνα του κοντέινερ εκπαίδευσης στο Amazon ECR
- –bf16 – Αν θα ενεργοποιηθεί ή όχι ο τύπος δεδομένων BF16
Παρακολουθήστε την εργασία εκπαίδευσης
Αφού ξεκινήσει η εργασία εκπαίδευσης, υπάρχουν διάφοροι τρόποι με τους οποίους μπορεί να παρακολουθηθεί η εργασία. Το σεμινάριο δείχνει πώς να παρακολουθείτε βασικές μετρήσεις σεναρίου εκπαίδευσης στη γραμμή εντολών χρησιμοποιώντας kubectl
, πώς να παρακολουθείτε οπτικά την πρόοδο του σεναρίου εκπαίδευσης στο TensorBoard (δείτε το παρακάτω στιγμιότυπο οθόνης) και πώς να παρακολουθείτε τη χρήση του επιταχυντή Trainium χρησιμοποιώντας το neuron-top
εργαλείο από το Neuron SDK.
Καθαρίστε ή επαναχρησιμοποιήστε το περιβάλλον
Όταν ολοκληρωθεί η εργασία εκπαίδευσης, το σύμπλεγμα μπορεί στη συνέχεια να επαναχρησιμοποιηθεί ή να διαμορφωθεί εκ νέου για πρόσθετες εργασίες εκπαίδευσης. Για παράδειγμα, η ομάδα κόμβων EKS μπορεί γρήγορα να κλιμακωθεί χρησιμοποιώντας το eksctl
εντολή για την υποστήριξη εργασιών εκπαίδευσης που απαιτούν πρόσθετες περιπτώσεις Trn1. Ομοίως, οι παρεχόμενες εντολές εκκίνησης Dockerfile και TorchX μπορούν εύκολα να τροποποιηθούν για να υποστηρίζουν πρόσθετα μοντέλα βαθιάς εκμάθησης και διανομής τοπολογιών εκπαίδευσης.
Εάν το σύμπλεγμα δεν απαιτείται πλέον, ο οδηγός περιλαμβάνει επίσης όλα τα βήματα που απαιτούνται για την κατάργηση της υποδομής EKS και των σχετικών πόρων.
Συμπέρασμα
Σε αυτήν την ανάρτηση, εξερευνήσαμε πώς οι περιπτώσεις Trn1 και το Amazon EKS παρέχουν μια διαχειριζόμενη πλατφόρμα για υψηλής απόδοσης, οικονομικά αποδοτική και μαζικά επεκτάσιμη κατανεμημένη εκπαίδευση μοντέλων βαθιάς μάθησης. Μοιραστήκαμε επίσης ένα περιεκτικό σεμινάριο που δείχνει πώς να εκτελέσετε μια κατανεμημένη εργασία εκπαίδευσης πολλαπλών περιπτώσεων πραγματικού κόσμου στο Amazon EKS χρησιμοποιώντας περιπτώσεις Trn1 και επισημάναμε πολλά από τα βασικά βήματα και στοιχεία της λύσης. Αυτό το περιεχόμενο εκμάθησης μπορεί εύκολα να προσαρμοστεί για άλλα μοντέλα και φόρτους εργασίας και σας παρέχει μια θεμελιώδη λύση για κατανεμημένη εκπαίδευση μοντέλων βαθιάς εκμάθησης στο AWS.
Για να μάθετε περισσότερα σχετικά με το πώς να ξεκινήσετε με παρουσίες Trn1 που τροφοδοτούνται από Trainium, ανατρέξτε στο Τεκμηρίωση νευρώνων.
Σχετικά με τους Συγγραφείς
Σκοτ Πέρι είναι αρχιτέκτονας λύσεων στην ομάδα επιταχυντών Annapurna ML στο AWS. Με έδρα τον Καναδά, βοηθά τους πελάτες να αναπτύξουν και να βελτιστοποιήσουν την εκπαίδευση σε βάθος και τον φόρτο εργασίας εξαγωγής συμπερασμάτων χρησιμοποιώντας τα AWS Inferentia και AWS Trainium. Τα ενδιαφέροντά του περιλαμβάνουν μεγάλα γλωσσικά μοντέλα, βαθιά ενισχυτική μάθηση, IoT και γονιδιωματική.
Lorea Arrizabalaga είναι αρχιτέκτονας λύσεων ευθυγραμμισμένος με τον δημόσιο τομέα του Ηνωμένου Βασιλείου, όπου βοηθά τους πελάτες να σχεδιάζουν λύσεις ML με το Amazon SageMaker. Είναι επίσης μέλος της κοινότητας Technical Field που είναι αφιερωμένη στην επιτάχυνση υλικού και βοηθά στη δοκιμή και τη συγκριτική αξιολόγηση του φόρτου εργασίας AWS Inferentia και AWS Trainium.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/scaling-distributed-training-with-aws-trainium-and-amazon-eks/
- 1
- 100
- 11
- 2022
- 2023
- 7
- a
- Ικανός
- ΠΛΗΡΟΦΟΡΙΕΣ
- επιταχυντής
- επιταχυντές
- πρόσβαση
- πρόσβαση
- επιτευχθεί
- απέναντι
- δραστήρια
- Πρόσθετος
- εκ των προτέρων
- προηγμένες
- Πλεονέκτημα
- ευθυγραμμισμένος
- Όλα
- ήδη
- Αν και
- Amazon
- Amazon EC2
- Amazon Sage Maker
- και
- Ανακοινώστε
- ανακοίνωσε
- Ανακοίνωσεις
- εφαρμοσμένος
- κατάλληλος
- αρχιτεκτονική
- επιχειρήματα
- πτυχές
- συσχετισμένη
- αποδίδουν
- γνωρίσματα
- διαθεσιμότητα
- διαθέσιμος
- AWS
- AWS CloudFormation
- Αίσθηση AWS
- εύρος ζώνης
- βασίζονται
- βασικός
- επειδή
- πριν
- συγκριτικής αξιολόγησης
- οφέλη
- Δισεκατομμύριο
- άνθηση
- ευρύς
- χτίζω
- κρύπτη
- που ονομάζεται
- Canada
- τσιπ
- Επιλέξτε
- επιλέγονται
- Backup
- συστάδα
- κωδικός
- Συλλογική
- ερχομός
- Coming Soon
- Κοινός
- κοινότητα
- πλήρης
- ολοκλήρωση
- εξαρτήματα
- περιεκτικός
- Υπολογίστε
- διαμόρφωση
- συνδεδεμένος
- Αποτελείται από
- Δοχείο
- Εμπορευματοκιβώτια
- Περιέχει
- περιεχόμενο
- έλεγχος
- Βολικός
- πυρήνας
- αποδοτική
- δημιουργία
- δημιουργήθηκε
- δημιουργία
- δημιουργία
- CSI
- Τη στιγμή
- Πελάτες
- ημερομηνία
- DDP
- αφιερωμένο
- βαθύς
- βαθιά μάθηση
- Προεπιλογή
- παρατάσσω
- αναπτυχθεί
- περιγράφεται
- Υπηρεσίες
- λεπτομέρεια
- λεπτομερής
- εξελίξεις
- συσκευή
- Συσκευές
- κατευθείαν
- ανακάλυψη
- διανέμονται
- κατανεμημένη εκπαίδευση
- διανομή
- κατεβάσετε
- οδηγός
- κατά την διάρκεια
- κάθε
- Νωρίτερα
- Νωρίς
- ευκολία στη χρήση
- εύκολα
- είτε
- ενεργοποιήσετε
- από άκρη σε άκρη
- Τελικό σημείο
- εξασφαλίζει
- Εταιρεία
- Even
- παράδειγμα
- ενθουσιασμένοι
- Με εξαίρεση
- υπάρχει
- Εξερευνήθηκε
- εκχύλισμα
- ύφασμα
- Εξοικείωση
- πεδίο
- Αρχεία
- Όνομα
- Ευελιξία
- Συγκέντρωση
- ακολουθήστε
- Εξής
- Πλαίσιο
- από
- πλήρη
- λειτουργικότητα
- General
- γονιδιωματική
- παίρνω
- GitHub
- δεδομένου
- γραφική παράσταση
- γραφικές παραστάσεις
- Group
- Οδηγοί
- Handles
- υλικού
- Καρδιά
- χρήσιμο
- βοηθά
- Ψηλά
- υψηλή απόδοση
- Τόνισε
- υψηλά
- οικοδεσπότης
- Πως
- Πώς να
- Ωστόσο
- HTML
- HTTPS
- Εκατοντάδες
- ID
- προσδιορίζονται
- εικόνα
- εικόνες
- σιωπηρή
- σημαντικό
- in
- περιλαμβάνουν
- περιλαμβάνονται
- περιλαμβάνει
- Αυξάνουν
- όλο και περισσότερο
- Υποδομή
- εγκαθιστώ
- εγκατασταθεί
- παράδειγμα
- ολοκλήρωση
- συμφέροντα
- IoT
- IT
- Δουλειά
- Θέσεις εργασίας
- Κλειδί
- Είδος
- Γλώσσα
- large
- μεγάλης κλίμακας
- μεγαλύτερος
- Αργά
- ξεκινήσει
- ξεκίνησε
- δρομολόγηση
- στρώμα
- ΜΑΘΑΊΝΩ
- μάθηση
- Led
- βιβλιοθήκες
- γραμμή
- linux
- φορτίο
- πλέον
- ματιά
- ΦΑΊΝΕΤΑΙ
- μηχανή
- μάθηση μηχανής
- Κυρίως
- διαχειρίζεται
- διαχείριση
- μαζικά
- Μνήμη
- Μεταδεδομένα
- Metrics
- ML
- μοντέλα
- τροποποιημένο
- Μονάδα μέτρησης
- Παρακολούθηση
- παρακολούθηση
- παρακολούθηση
- οθόνες
- μήνες
- περισσότερο
- πλέον
- πολλαπλούς
- όνομα
- Ανάγκη
- δίκτυο
- δικτύωσης
- νευρικό σύστημα
- επόμενη
- κόμβος
- κόμβων
- αριθμός
- προσφέρονται
- προσφορά
- επίσημος ανώτερος υπάλληλος
- ONE
- λειτουργεί
- λειτουργίες
- Βελτιστοποίηση
- βελτιστοποιημένη
- ενορχήστρωση
- τάξη
- ΑΛΛΑ
- σκιαγραφείται
- περιγράφει
- φόρμες
- επισκόπηση
- παράμετροι
- μέρος
- πέρασε
- μονοπάτι
- ομότιμων
- επίδοση
- φάση
- Μέρος
- πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- συνδέω
- Plugins
- σημεία
- Θέση
- τροφοδοτείται
- ισχυρός
- προαπαιτούμενα
- διαδικασια μας
- Πρόοδος
- παρέχουν
- παρέχεται
- παρέχει
- χορήγηση
- δημόσιο
- Δημοσιεύσεις
- πίεσε
- pytorch
- γρήγορα
- τυχαίος
- πραγματικό κόσμο
- αναφορές
- περιοχή
- περιοχές
- σχετίζεται με
- αφαιρέστε
- Αποθήκη
- απαιτούν
- απαιτείται
- Απαιτεί
- Υποστηρικτικό υλικό
- ανασκόπηση
- τρέξιμο
- τρέξιμο
- σοφός
- ίδιο
- Απεριόριστες δυνατότητες
- επεκτάσιμη
- Ζυγός
- απολέπιση
- SDK
- τομέας
- υπηρεσία
- Υπηρεσίες
- σειρά
- διάφοροι
- Shared
- κέλυφος
- θα πρέπει να
- παρουσιάζεται
- Δείχνει
- σημαντικός
- Ομοίως
- μεγέθη
- μικρότερος
- So
- λογισμικό
- λύση
- Λύσεις
- μερικοί
- καθορίζεται
- σωρός
- αυτόνομο
- πρότυπο
- ξεκίνησε
- εκκίνηση
- Βήμα
- Βήματα
- Ακόμη
- χώρος στο δίσκο
- κατάστημα
- τέτοιος
- υποστήριξη
- υποστηριζόνται!
- Υποστηρίζει
- συγχρονισμός
- σύστημα
- τραπέζι
- λήψη
- Τεχνικός
- πρότυπο
- προσωρινή
- Δοκιμές
- Η
- το Ηνωμένο Βασίλειο
- τους
- χιλιάδες
- Μέσω
- παντού
- ώρα
- προς την
- εργαλείο
- εργαλεία
- Εκπαίδευση
- αληθής
- φροντιστήριο
- Uk
- μοναδικός
- Παγκόσμιος
- χρήση
- Χρήστες
- διάφορα
- εκδοχή
- μέσω
- τόμος
- τρόπους
- Εβδ.
- αν
- Ποιό
- ενώ
- θα
- εντός
- εργάτης
- εργαζομένων
- θα
- γιαμ
- Εσείς
- Σας
- zephyrnet
- ζώνες