Επιλέξτε την καλύτερη πηγή δεδομένων για την εργασία εκπαίδευσης στο Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Amazon Sage Maker είναι μια διαχειριζόμενη υπηρεσία που διευκολύνει τη δημιουργία, την εκπαίδευση και την ανάπτυξη μοντέλων μηχανικής εκμάθησης (ML). Οι επιστήμονες δεδομένων χρησιμοποιούν εργασίες εκπαίδευσης του SageMaker για να εκπαιδεύσουν εύκολα μοντέλα ML. δεν χρειάζεται να ανησυχείτε για τη διαχείριση των υπολογιστικών πόρων και πληρώνετε μόνο για τον πραγματικό χρόνο εκπαίδευσης. Η απορρόφηση δεδομένων αποτελεί αναπόσπαστο μέρος οποιουδήποτε αγωγού εκπαίδευσης και οι εργασίες εκπαίδευσης του SageMaker υποστηρίζουν μια ποικιλία τρόπων αποθήκευσης και εισαγωγής δεδομένων για να ταιριάζουν σε ένα ευρύ φάσμα φόρτου εργασίας εκπαίδευσης.

Αυτή η ανάρτηση σάς βοηθά να επιλέξετε την καλύτερη πηγή δεδομένων για την περίπτωση χρήσης εκπαίδευσης SageMaker ML. Παρουσιάζουμε τις επιλογές πηγών δεδομένων που υποστηρίζουν εγγενώς οι εργασίες εκπαίδευσης του SageMaker. Για κάθε πηγή δεδομένων και λειτουργία εισαγωγής, περιγράφουμε την ευκολία χρήσης, τα χαρακτηριστικά απόδοσης, το κόστος και τους περιορισμούς. Για να σας βοηθήσουμε να ξεκινήσετε γρήγορα, παρέχουμε στο διάγραμμα ένα δείγμα ροής αποφάσεων που μπορείτε να ακολουθήσετε με βάση τα βασικά χαρακτηριστικά του φόρτου εργασίας σας. Τέλος, εκτελούμε πολλά σημεία αναφοράς για ρεαλιστικά σενάρια εκπαίδευσης για να δείξουμε τις πρακτικές επιπτώσεις στο συνολικό κόστος και την απόδοση της εκπαίδευσης.

Εγγενείς πηγές δεδομένων και λειτουργίες εισαγωγής SageMaker

Η εύκολη και ευέλικτη ανάγνωση των δεδομένων προπόνησης με αποτελεσματικό τρόπο είναι μια συχνή επαναλαμβανόμενη ανησυχία για την εκπαίδευση ML. Το SageMaker απλοποιεί την απορρόφηση δεδομένων με μια επιλογή αποτελεσματικών μηχανισμών απορρόφησης δεδομένων υψηλής απόδοσης που ονομάζονται πηγές δεδομένων και οι αντίστοιχες λειτουργίες εισαγωγής τους. Αυτό σας επιτρέπει να αποσυνδέσετε τον κώδικα εκπαίδευσης από την πραγματική πηγή δεδομένων, να προσαρτήσετε αυτόματα συστήματα αρχείων, να διαβάζετε με υψηλή απόδοση, να ενεργοποιείτε εύκολα την κοινή χρήση δεδομένων μεταξύ GPU και παρουσιών για να ενεργοποιήσετε τον παραλληλισμό δεδομένων και να ανακατεύετε αυτόματα τα δεδομένα στην αρχή κάθε εποχής.

Ο μηχανισμός απορρόφησης εκπαίδευσης SageMaker ενσωματώνεται εγγενώς με τρεις διαχειριζόμενες υπηρεσίες αποθήκευσης AWS:

Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) είναι μια υπηρεσία αποθήκευσης αντικειμένων που προσφέρει κορυφαία στον κλάδο επεκτασιμότητα, διαθεσιμότητα δεδομένων, ασφάλεια και απόδοση.
Amazon FSx για λάμψη είναι ένας πλήρως διαχειριζόμενος κοινόχρηστος χώρος αποθήκευσης με την επεκτασιμότητα και την απόδοση του δημοφιλούς συστήματος αρχείων Luster. Συνήθως συνδέεται με έναν υπάρχοντα κάδο S3.
Σύστημα αρχείων ελαστικού Amazon Το (Amazon EFS) είναι ένα κοινόχρηστο σύστημα αρχείων γενικού σκοπού, επεκτάσιμο και εξαιρετικά διαθέσιμο με πολλαπλά επίπεδα τιμών. Το Amazon EFS είναι χωρίς διακομιστή και αυξάνεται αυτόματα και συρρικνώνεται καθώς προσθέτετε και αφαιρείτε αρχεία.

Η εκπαίδευση του SageMaker επιτρέπει στο σενάριο εκπαίδευσης να έχει πρόσβαση σε σύνολα δεδομένων που είναι αποθηκευμένα στο Amazon S3, στο FSx for Lustre ή στο Amazon EFS, σαν να ήταν διαθέσιμο σε ένα τοπικό σύστημα αρχείων (μέσω μιας διεπαφής συστήματος αρχείων συμβατή με POSIX).

Με το Amazon S3 ως πηγή δεδομένων, μπορείτε να επιλέξετε μεταξύ λειτουργίας αρχείου, λειτουργίας FastFile και λειτουργίας Pipe:

Λειτουργία αρχείου – Το SageMaker αντιγράφει ένα σύνολο δεδομένων από το Amazon S3 στο χώρο αποθήκευσης παρουσίας ML, το οποίο είναι συνημμένο Κατάστημα Amazon Elastic Block Ένταση έντασης (Amazon EBS) ή ένταση ήχου NVMe SSD, πριν ξεκινήσει το σενάριο προπόνησής σας.
Λειτουργία FastFile – Το SageMaker εκθέτει ένα σύνολο δεδομένων που βρίσκεται στο Amazon S3 ως σύστημα αρχείων POSIX στην παρουσία εκπαίδευσης. Τα αρχεία συνόλου δεδομένων μεταδίδονται από το Amazon S3 κατά παραγγελία καθώς το σενάριο εκπαίδευσης τα διαβάζει.
Λειτουργία σωλήνων – Το SageMaker μεταδίδει ένα σύνολο δεδομένων που βρίσκεται στο Amazon S3 στο παράδειγμα εκπαίδευσης ML ως σωλήνα Unix, το οποίο μεταδίδεται από το Amazon S3 κατά παραγγελία καθώς το σενάριο εκπαίδευσης διαβάζει τα δεδομένα από το σωλήνα.

Με το FSx for Luster ή το Amazon EFS ως πηγή δεδομένων, το SageMaker προσαρτά το σύστημα αρχείων πριν ξεκινήσει το σενάριο εκπαίδευσής σας.

Κανάλια εισόδου εκπαίδευσης

Κατά την έναρξη μιας εργασίας εκπαίδευσης του SageMaker, μπορείτε να καθορίσετε έως και 20 διαχειριζόμενες εκπαιδευτικά κανάλια εισόδου. Μπορείτε να σκεφτείτε τα κανάλια ως μια μονάδα αφαίρεσης για να πείτε στην εργασία εκπαίδευσης πώς και πού να πάρει τα δεδομένα που διατίθενται στον κώδικα αλγορίθμου για ανάγνωση από μια διαδρομή συστήματος αρχείων (για παράδειγμα, /opt/ml/input/data/input-channel-name) στην περίπτωση ML. Τα επιλεγμένα κανάλια εκπαίδευσης καταγράφονται ως μέρος των μεταδεδομένων εργασίας εκπαίδευσης, προκειμένου να καταστεί δυνατή η πλήρης παρακολούθηση της γενεαλογίας του μοντέλου για περιπτώσεις χρήσης, όπως η αναπαραγωγιμότητα εργασιών εκπαίδευσης ή οι σκοποί διακυβέρνησης μοντέλων.

Για να χρησιμοποιήσετε το Amazon S3 ως πηγή δεδομένων, ορίζετε α TrainingInput να καθορίσετε τα ακόλουθα:

Η λειτουργία εισαγωγής σας (λειτουργία Αρχείο, FastFile ή Pipe)
Διανομή και ανακάτεμα διαμόρφωση
An S3DataType ως μία από τις τρεις μεθόδους για τον καθορισμό αντικειμένων στο Amazon S3 που αποτελούν το σύνολο δεδομένων σας:
- S3Prefix (όλα τα αντικείμενα κάτω από το πρόθεμα S3)
- Αρχείο μανιφέστου (λίστα αντικειμένων S3)
- Επαυξημένο αρχείο δήλωσης (μια λίστα αντικειμένων S3 και τις αντίστοιχες ετικέτες τους)

Εναλλακτικά, για FSx για Luster ή Amazon EFS, ορίζετε α FileSystemInput.

Το παρακάτω διάγραμμα δείχνει πέντε εργασίες εκπαίδευσης, καθεμία διαμορφωμένη με διαφορετική πηγή δεδομένων και συνδυασμό τρόπου εισαγωγής:

Πηγές δεδομένων και τρόποι εισαγωγής

Οι παρακάτω ενότητες παρέχουν μια βαθιά κατάδυση στις διαφορές μεταξύ του Amazon S3 (λειτουργία αρχείου, λειτουργία FastFile και λειτουργία Pipe), FSx για Lustre και Amazon EFS ως μηχανισμούς απορρόφησης SageMaker.

Λειτουργία αρχείου Amazon S3

Η λειτουργία αρχείου είναι η προεπιλεγμένη λειτουργία εισαγωγής (αν δεν την έχετε καθορίσει ρητά) και είναι η πιο απλή στη χρήση. Όταν χρησιμοποιείτε αυτήν την επιλογή εισαγωγής, το SageMaker πραγματοποιεί λήψη του συνόλου δεδομένων από το Amazon S3 στον χώρο αποθήκευσης παρουσίας εκπαίδευσης ML (Amazon EBS ή τοπικό NVMe ανάλογα με τον τύπο παρουσίας) για λογαριασμό σας πριν από την εκκίνηση της εκπαίδευσης μοντέλου, έτσι ώστε το σενάριο εκπαίδευσης να μπορεί να διαβάσει το σύνολο δεδομένων από το τοπικό σύστημα αρχείων. Σε αυτήν την περίπτωση, το στιγμιότυπο πρέπει να έχει αρκετό χώρο αποθήκευσης για να χωράει ολόκληρο το σύνολο δεδομένων.

Μπορείτε να διαμορφώσετε το σύνολο δεδομένων για τη λειτουργία αρχείου παρέχοντας είτε ένα πρόθεμα S3, ένα αρχείο δήλωσης ή ένα επαυξημένο αρχείο δήλωσης.

Θα πρέπει να χρησιμοποιείτε ένα πρόθεμα S3 όταν όλα τα αρχεία δεδομένων σας βρίσκονται σε ένα κοινό πρόθεμα S3 (οι υποφάκελοι είναι εντάξει).

Το αρχείο δήλωσης παραθέτει τα αρχεία που αποτελούν το σύνολο δεδομένων σας. Συνήθως χρησιμοποιείτε ένα μανιφέστο όταν μια εργασία προεπεξεργασίας δεδομένων εκπέμπει ένα αρχείο δήλωσης ή όταν τα αρχεία δεδομένων σας κατανέμονται σε πολλά προθέματα S3. Μια επαυξημένη δήλωση είναι ένα αρχείο γραμμής JSON, όπου κάθε γραμμή περιέχει μια λίστα χαρακτηριστικών, όπως μια αναφορά σε ένα αρχείο στο Amazon S3, μαζί με πρόσθετα χαρακτηριστικά, κυρίως ετικέτες. Οι περιπτώσεις χρήσης του είναι παρόμοιες με αυτές ενός μανιφέστου.

Η λειτουργία αρχείου είναι συμβατή με Τοπική λειτουργία SageMaker (έναρξη ενός εκπαιδευτικού κοντέινερ SageMaker διαδραστικά σε δευτερόλεπτα). Για κατανεμημένη εκπαίδευση, μπορείτε να μοιραστείτε το σύνολο δεδομένων σε πολλές περιπτώσεις με το ShardedByS3Key επιλογή.

Η ταχύτητα λήψης της λειτουργίας αρχείου εξαρτάται από το μέγεθος δεδομένων, το μέσο μέγεθος αρχείου και τον αριθμό των αρχείων. Για παράδειγμα, όσο μεγαλύτερο είναι το σύνολο δεδομένων (ή όσο περισσότερα αρχεία έχει), τόσο μεγαλύτερο είναι το στάδιο λήψης, κατά το οποίο ο υπολογιστικός πόρος του στιγμιότυπου παραμένει ουσιαστικά αδρανής. Κατά την εκπαίδευση με Spot Instances, το σύνολο δεδομένων γίνεται λήψη κάθε φορά που η εργασία συνεχίζεται μετά από μια διακοπή Spot. Συνήθως, η λήψη δεδομένων πραγματοποιείται με ταχύτητα περίπου 200 MB/s για μεγάλα αρχεία (για παράδειγμα, 5 λεπτά/50 GB). Το αν αυτό το γενικό κόστος εκκίνησης είναι αποδεκτό εξαρτάται κυρίως από τη συνολική διάρκεια της εργασίας εκπαίδευσης, επειδή μια μεγαλύτερη φάση εκπαίδευσης σημαίνει αναλογικά μικρότερη φάση λήψης.

Λειτουργία FastFile Amazon S3

Η λειτουργία FastFile εκθέτει αντικείμενα S3 μέσω μιας διεπαφής συστήματος αρχείων συμβατή με POSIX, σαν τα αρχεία να ήταν διαθέσιμα στον τοπικό δίσκο της παρουσίας εκπαίδευσης και μεταδίδει το περιεχόμενό τους κατά παραγγελία όταν τα δεδομένα καταναλώνονται από το σενάριο εκπαίδευσης. Αυτό σημαίνει ότι το σύνολο δεδομένων σας δεν χρειάζεται πλέον να χωράει στον αποθηκευτικό χώρο της παρουσίας εκπαίδευσης και δεν χρειάζεται να περιμένετε τη λήψη του συνόλου στην παρουσία εκπαίδευσης πριν ξεκινήσει η εκπαίδευση.

Για να διευκολυνθεί αυτό, το SageMaker παραθέτει όλα τα μεταδεδομένα αντικειμένου που είναι αποθηκευμένα κάτω από το καθορισμένο πρόθεμα S3 πριν από την εκτέλεση του σεναρίου εκπαίδευσης. Αυτά τα μεταδεδομένα χρησιμοποιούνται για τη δημιουργία ενός μόνο για ανάγνωση FUSE (σύστημα αρχείων στον χώρο χρήστη) που είναι διαθέσιμο στο σενάριο εκπαίδευσης μέσω /opt/ml/data/training-channel-name. Η καταχώριση αντικειμένων S3 εκτελείται τόσο γρήγορα όσο 5,500 αντικείμενα ανά δευτερόλεπτο, ανεξάρτητα από το μέγεθός τους. Αυτό είναι πολύ πιο γρήγορο από την εκ των προτέρων λήψη αρχείων, όπως συμβαίνει με τη λειτουργία αρχείου. Ενώ εκτελείται το σενάριο εκπαίδευσης, μπορεί να παραθέσει ή να διαβάσει αρχεία σαν να ήταν διαθέσιμα τοπικά. Κάθε λειτουργία ανάγνωσης ανατίθεται στην υπηρεσία FUSE, η οποία μεταφέρει τα αιτήματα GET στο Amazon S3 προκειμένου να παραδώσει το πραγματικό περιεχόμενο του αρχείου στον καλούντα. Όπως ένα τοπικό σύστημα αρχείων, το FastFile αντιμετωπίζει τα αρχεία ως byte, επομένως είναι αγνωστικό για τις μορφές αρχείων. Η λειτουργία FastFile μπορεί να φτάσει σε απόδοση μεγαλύτερη από ένα GB/s κατά τη διαδοχική ανάγνωση μεγάλων αρχείων χρησιμοποιώντας πολλούς εργαζόμενους. Μπορείτε να χρησιμοποιήσετε το FastFile για να διαβάσετε μικρά αρχεία ή να ανακτήσετε τυχαίες περιοχές byte, αλλά θα πρέπει να περιμένετε χαμηλότερη απόδοση για τέτοια μοτίβα πρόσβασης. Μπορείτε να βελτιστοποιήσετε το μοτίβο πρόσβασης ανάγνωσης σειριοποιώντας πολλά μικρά αρχεία σε μεγαλύτερα δοχεία αρχείων και να τα διαβάζετε διαδοχικά.

Προς το παρόν, το FastFile υποστηρίζει μόνο προθέματα S3 (καμία υποστήριξη για δήλωση και επαυξημένη δήλωση) και η λειτουργία FastFile είναι συμβατή με την τοπική λειτουργία SageMaker.

Λειτουργία Amazon S3 Pipe

Η λειτουργία Pipe είναι μια άλλη λειτουργία ροής που έχει αντικατασταθεί σε μεγάλο βαθμό από τη νεότερη και απλούστερη στη χρήση λειτουργία FastFile.

Με τη λειτουργία Pipe, τα δεδομένα λαμβάνονται εκ των προτέρων από το Amazon S3 σε υψηλή συγχρονισμό και απόδοση και μεταφέρονται σε σωλήνες Unix που ονομάζονται FIFO. Κάθε σωλήνας μπορεί να διαβαστεί μόνο με μία μόνο διαδικασία. Μια βολική επέκταση του TensorFlow για το SageMaker ενσωματώνει τη λειτουργία Pipe στον εγγενή φορτωτή δεδομένων TensorFlow για ροή κειμένου, TFRecords ή μορφές αρχείων RecordIO. Η λειτουργία Pipe υποστηρίζει επίσης τη διαχειριζόμενη κοινή χρήση και την τυχαία αναπαραγωγή δεδομένων.

FSx για Luster

Το FSx for Luster μπορεί να κλιμακωθεί σε εκατοντάδες GB/s απόδοσης και εκατομμύρια IOPS με ανάκτηση αρχείων χαμηλής καθυστέρησης.

Όταν ξεκινάτε μια εργασία εκπαίδευσης, το SageMaker προσαρτά το σύστημα αρχείων FSx for Luster στο σύστημα αρχείων της παρουσίας εκπαίδευσης και, στη συνέχεια, ξεκινά το σενάριο εκπαίδευσης. Η ίδια η τοποθέτηση είναι μια σχετικά γρήγορη λειτουργία που δεν εξαρτάται από το μέγεθος του συνόλου δεδομένων που είναι αποθηκευμένο στο FSx για το Lustre.

Σε πολλές περιπτώσεις, δημιουργείτε ένα σύστημα αρχείων FSx for Luster και συνδέστε το σε έναν κάδο S3 και τοποθετήστε το πρόθεμα. Όταν συνδέονται με έναν κάδο S3 ως πηγή, τα αρχεία φορτώνονται αργά στο σύστημα αρχείων καθώς το σενάριο εκπαίδευσης τα διαβάζει. Αυτό σημαίνει ότι αμέσως μετά την πρώτη περίοδο της πρώτης εκτέλεσης εκπαίδευσης, ολόκληρο το σύνολο δεδομένων αντιγράφεται από το Amazon S3 στο FSx για αποθήκευση Luster (υποθέτοντας ότι μια εποχή ορίζεται ως μια ενιαία πλήρης σάρωση σύμφωνα με τα παραδείγματα εκπαίδευσης και ότι το εκχωρημένο FSx για Η αποθήκευση λάμψης είναι αρκετά μεγάλη). Αυτό επιτρέπει την πρόσβαση σε αρχεία χαμηλής καθυστέρησης για οποιεσδήποτε επόμενες εποχές και εργασίες εκπαίδευσης με το ίδιο σύνολο δεδομένων.

Μπορείτε επίσης να προφόρτωση αρχείων στο σύστημα αρχείων πριν ξεκινήσετε την προπονητική εργασία, η οποία ανακουφίζει από την ψυχρή εκκίνηση λόγω τεμπέλης φόρτωσης. Είναι επίσης δυνατό να εκτελέσετε πολλές εργασίες εκπαίδευσης παράλληλα που εξυπηρετούνται από το ίδιο σύστημα αρχείων FSx for Luster. Για να αποκτήσετε πρόσβαση στο FSx για Lustre, η εκπαιδευτική σας εργασία πρέπει να συνδεθεί σε ένα VPC (βλ Ρυθμίσεις VPCConfig), το οποίο απαιτεί ρύθμιση και συμμετοχή του DevOps. Για να αποφύγετε το κόστος μεταφοράς δεδομένων, το σύστημα αρχείων χρησιμοποιεί μια ενιαία ζώνη διαθεσιμότητας και πρέπει να καθορίσετε αυτό το αναγνωριστικό ζώνης διαθεσιμότητας κατά την εκτέλεση της εργασίας εκπαίδευσης. Επειδή χρησιμοποιείτε το Amazon S3 ως μακροπρόθεσμη αποθήκευση δεδομένων, συνιστούμε να αναπτύξετε το FSx for Luster with Scratch 2, ως μια οικονομικά αποδοτική, βραχυπρόθεσμη επιλογή αποθήκευσης για υψηλή απόδοση, παρέχοντας βασική γραμμή 200 MB/s και ριπή έως και 1300 MB/s ανά TB προβλεπόμενης αποθήκευσης.

Με το σύστημα αρχείων FSx for Luster να λειτουργεί συνεχώς, μπορείτε να ξεκινήσετε νέες εργασίες εκπαίδευσης χωρίς να περιμένετε να δημιουργηθεί ένα σύστημα αρχείων και δεν χρειάζεται να ανησυχείτε για την ψυχρή εκκίνηση κατά την πρώτη κιόλας εποχή (επειδή τα αρχεία θα μπορούσαν να αποθηκευτούν στην προσωρινή μνήμη το σύστημα αρχείων FSx for Luster). Το μειονέκτημα σε αυτό το σενάριο είναι το επιπλέον κόστος που σχετίζεται με τη διατήρηση του συστήματος αρχείων σε λειτουργία. Εναλλακτικά, θα μπορούσατε να δημιουργήσετε και να διαγράψετε το σύστημα αρχείων πριν και μετά από κάθε εργασία εκπαίδευσης (πιθανώς με αυτοματοποίηση σεναρίου για βοήθεια), αλλά χρειάζεται χρόνος για να αρχικοποιήσετε ένα σύστημα αρχείων FSx for Luster, το οποίο είναι ανάλογο με τον αριθμό των αρχείων που διατηρεί (για Για παράδειγμα, χρειάζεται περίπου μία ώρα για την ευρετηρίαση περίπου 2 εκατομμυρίων αντικειμένων από το Amazon S3).

Amazon EFS

Συνιστούμε να χρησιμοποιήσετε το Amazon EFS εάν τα δεδομένα προπόνησής σας βρίσκονται ήδη στο Amazon EFS λόγω περιπτώσεων χρήσης εκτός από την εκπαίδευση ML. Για να χρησιμοποιήσετε το Amazon EFS ως πηγή δεδομένων, τα δεδομένα πρέπει να βρίσκονται ήδη στο Amazon EFS πριν από την εκπαίδευση. Το SageMaker προσαρτά το καθορισμένο σύστημα αρχείων Amazon EFS στην παρουσία εκπαίδευσης και, στη συνέχεια, ξεκινά το σενάριο εκπαίδευσης. Κατά τη διαμόρφωση του συστήματος αρχείων Amazon EFS, πρέπει να επιλέξετε μεταξύ της προεπιλεγμένης λειτουργίας απόδοσης γενικού σκοπού, η οποία είναι βελτιστοποιημένη για καθυστέρηση (καλή για μικρά αρχεία) και της λειτουργίας Max I/O απόδοσης, η οποία μπορεί να κλιμακωθεί σε υψηλότερα επίπεδα συνολικής απόδοσης και λειτουργίες ανά δευτερόλεπτο (καλύτερα για εργασίες εκπαίδευσης με πολλούς εργαζόμενους I/O). Για να μάθετε περισσότερα, ανατρέξτε στο Χρησιμοποιώντας τη σωστή λειτουργία απόδοσης.

Επιπλέον, μπορείτε να επιλέξετε μεταξύ δύο επιλογών μετρημένης απόδοσης: η παροχή ριπής και η παροχή παροχής. Η εκρηκτική ροή για ένα σύστημα αρχείων 1 TB παρέχει μια γραμμή βάσης 150 MB/s, ενώ μπορεί να εκτιναχθεί στα 300 MB/s για μια χρονική περίοδο 12 ωρών την ημέρα. Εάν χρειάζεστε υψηλότερη απόδοση γραμμής βάσης ή αντιμετωπίζετε τον εαυτό σας να εξαντλείται πολλές φορές από τις πιστώσεις ριπής, μπορείτε είτε να αυξήσετε το μέγεθος του συστήματος αρχείων είτε να μεταβείτε σε προβλεπόμενη απόδοση. Στην προβλεπόμενη απόδοση, πληρώνετε για την επιθυμητή απόδοση γραμμής βάσης έως το μέγιστο 3072 MB/s ανάγνωσης.

Η εργασία εκπαίδευσης σας πρέπει να συνδεθεί με ένα VPC (βλ Ρυθμίσεις VPCConfig) για πρόσβαση στο Amazon EFS.

Επιλέγοντας την καλύτερη πηγή δεδομένων

Η καλύτερη πηγή δεδομένων για την εκπαιδευτική σας εργασία εξαρτάται από τα χαρακτηριστικά του φόρτου εργασίας, όπως το μέγεθος του συνόλου δεδομένων, τη μορφή αρχείου, το μέσο μέγεθος αρχείου, τη διάρκεια εκπαίδευσης, το μοτίβο ανάγνωσης διαδοχικής ή τυχαίας φόρτωσης δεδομένων και το πόσο γρήγορα το μοντέλο σας μπορεί να καταναλώσει τα δεδομένα εκπαίδευσης.

Το ακόλουθο διάγραμμα ροής παρέχει ορισμένες οδηγίες που θα σας βοηθήσουν να ξεκινήσετε:

Πότε να χρησιμοποιήσετε το Amazon EFS

Εάν το σύνολο δεδομένων σας αποθηκεύεται κυρίως στο Amazon EFS, ενδέχεται να έχετε μια εφαρμογή προεπεξεργασίας ή σχολιασμών που χρησιμοποιεί το Amazon EFS για αποθήκευση. Θα μπορούσατε εύκολα να εκτελέσετε μια εργασία εκπαίδευσης διαμορφωμένη με ένα κανάλι δεδομένων που οδηγεί στο σύστημα αρχείων Amazon EFS (για περισσότερες πληροφορίες, ανατρέξτε στο Επιταχύνετε την εκπαίδευση στο Amazon SageMaker χρησιμοποιώντας το Amazon FSx για συστήματα αρχείων Luster και Amazon EFS). Εάν η απόδοση δεν είναι τόσο καλή όσο περιμένατε, ελέγξτε τις επιλογές βελτιστοποίησης με το Οδηγός απόδοσης Amazon EFSή εξετάστε άλλες λειτουργίες εισαγωγής.

Χρησιμοποιήστε τη λειτουργία αρχείου για μικρά σύνολα δεδομένων

Εάν το σύνολο δεδομένων είναι αποθηκευμένο στο Amazon S3 και ο συνολικός όγκος του είναι σχετικά μικρός (για παράδειγμα, λιγότερο από 50–100 GB), δοκιμάστε να χρησιμοποιήσετε τη λειτουργία αρχείου. Η επιβάρυνση της λήψης ενός συνόλου δεδομένων 50 GB μπορεί να ποικίλλει ανάλογα με τον συνολικό αριθμό αρχείων (για παράδειγμα, περίπου 5 λεπτά εάν τεμαχιστεί σε θραύσματα 100 MB). Το αν αυτό το γενικό κόστος εκκίνησης είναι αποδεκτό εξαρτάται κυρίως από τη συνολική διάρκεια της εργασίας εκπαίδευσης, επειδή μια μεγαλύτερη φάση εκπαίδευσης σημαίνει αναλογικά μικρότερη φάση λήψης.

Σειροποίηση πολλών μικρών αρχείων μαζί

Εάν το μέγεθος του συνόλου δεδομένων σας είναι μικρό (λιγότερο από 50–100 GB), αλλά αποτελείται από πολλά μικρά αρχεία (λιγότερο από 50 MB), η επιβάρυνση λήψης της λειτουργίας αρχείου αυξάνεται, επειδή κάθε αρχείο πρέπει να ληφθεί ξεχωριστά από το Amazon S3 στο όγκος περιπτώσεων εκπαίδευσης. Για να μειώσετε αυτή την επιβάρυνση και για να επιταχύνετε τη διέλευση δεδομένων γενικά, εξετάστε το ενδεχόμενο να κάνετε σειριακές ομάδες μικρότερων αρχείων σε λιγότερα μεγαλύτερα δοχεία αρχείων (όπως 150 MB ανά αρχείο) χρησιμοποιώντας μορφές αρχείων όπως π.χ. TFRecord για το TensorFlow, Σύνολο δεδομένων Web για PyTorch, ή ΕγγραφήIO για το MXNet. Αυτές οι μορφές απαιτούν από το πρόγραμμα φόρτωσης δεδομένων σας να επαναλαμβάνεται διαδοχικά μέσω παραδειγμάτων. Θα μπορούσατε ακόμα να ανακατέψετε τα δεδομένα σας αναδιατάσσοντας τυχαία τη λίστα των αρχείων TFRecord μετά από κάθε εποχή και δειγματοληπτικά τυχαία δεδομένα από μια τοπική προσωρινή μνήμη τυχαίας αναπαραγωγής (δείτε τα παρακάτω Παράδειγμα TensorFlow).

Πότε να χρησιμοποιήσετε τη λειτουργία FastFile

Για μεγαλύτερα σύνολα δεδομένων με μεγαλύτερα αρχεία (πάνω από 50 MB), η πρώτη επιλογή είναι να δοκιμάσετε τη λειτουργία FastFile, η οποία είναι πιο απλή στη χρήση από το FSx για Luster, επειδή δεν απαιτεί τη δημιουργία συστήματος αρχείων ή τη σύνδεση σε VPC. Η λειτουργία FastFile είναι ιδανική για μεγάλα κοντέινερ αρχείων (περισσότερα από 150 MB) και μπορεί επίσης να τα πάει καλά με αρχεία άνω των 50 MB. Επειδή η λειτουργία FastFile παρέχει μια διεπαφή POSIX, υποστηρίζει τυχαίες αναγνώσεις (ανάγνωση μη διαδοχικών εύρους byte). Ωστόσο, αυτή δεν είναι η ιδανική περίπτωση χρήσης και η απόδοση σας θα ήταν πιθανώς χαμηλότερη από ό,τι με τις διαδοχικές αναγνώσεις. Ωστόσο, εάν διαθέτετε ένα σχετικά μεγάλο και υπολογιστικά εντατικό μοντέλο ML, η λειτουργία FastFile μπορεί να εξακολουθεί να είναι σε θέση να κορεστεί το αποτελεσματικό εύρος ζώνης του αγωγού εκπαίδευσης και να μην έχει ως αποτέλεσμα ένα συμφόρηση εισόδου/εξόδου. Θα χρειαστεί να πειραματιστείτε και να δείτε. Ευτυχώς, η εναλλαγή από τη λειτουργία αρχείου στο FastFile (και πίσω) είναι τόσο εύκολη όσο η προσθήκη (ή η αφαίρεση) του input_mode='FastFile' παράμετρος κατά τον καθορισμό του καναλιού εισόδου σας χρησιμοποιώντας το SageMaker Python SDK:

sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER, input_mode='FastFile')

Δεν χρειάζεται να αλλάξει κανένας άλλος κωδικός ή διαμόρφωση.

Πότε να χρησιμοποιήσετε το FSx για Luster

Εάν το σύνολο δεδομένων σας είναι πολύ μεγάλο για τη λειτουργία αρχείου ή έχει πολλά μικρά αρχεία (τα οποία δεν μπορείτε να σειριοποιήσετε εύκολα) ή έχετε ένα μοτίβο πρόσβασης τυχαίας ανάγνωσης, το FSx for Luster είναι μια καλή επιλογή που πρέπει να εξετάσετε. Το σύστημα αρχείων του κλιμακώνεται σε εκατοντάδες GB/s απόδοσης και εκατομμύρια IOPS, το οποίο είναι ιδανικό όταν έχετε πολλά μικρά αρχεία. Ωστόσο, όπως ήδη συζητήθηκε νωρίτερα, να έχετε υπόψη σας τα ζητήματα ψυχρής εκκίνησης λόγω της τεμπέλης φόρτωσης και τα γενικά έξοδα εγκατάστασης και προετοιμασίας του συστήματος αρχείων FSx for Luster.

Θεωρήσεις κόστους

Για την πλειονότητα των εργασιών εκπαίδευσης ML, ειδικά για εργασίες που χρησιμοποιούν GPU ή ειδικά κατασκευασμένα τσιπ ML, το μεγαλύτερο μέρος του κόστους εκπαίδευσης είναι τα χρεώσιμα δευτερόλεπτα της παρουσίας εκπαίδευσης ML. Ο αποθηκευτικός χώρος GB ανά μήνα, τα αιτήματα API και η προβλεπόμενη απόδοση είναι πρόσθετα κόστη που σχετίζονται άμεσα με τις πηγές δεδομένων που χρησιμοποιείτε.

Αποθηκευτικός χώρος GB ανά μήνα

Ο αποθηκευτικός χώρος GB ανά μήνα μπορεί να είναι σημαντικός για μεγαλύτερα σύνολα δεδομένων, όπως βίντεο, δεδομένα αισθητήρα LiDAR και αρχεία καταγραφής προσφορών σε πραγματικό χρόνο της AdTech. Για παράδειγμα, η αποθήκευση 1 TB στο Amazon S3 Intelligent-Tiering Επίπεδο συχνής πρόσβασης κοστίζει 23 $ το μήνα. Η προσθήκη του συστήματος αρχείων FSx for Luster πάνω από το Amazon S3 έχει ως αποτέλεσμα πρόσθετο κόστος. Για παράδειγμα, η δημιουργία ενός συστήματος αρχείων 1.2 TB τύπου Scratch 2 που υποστηρίζεται από SSD με απενεργοποιημένη τη συμπίεση δεδομένων κοστίζει επιπλέον 168 $ ανά μήνα (140 $/TB/μήνα).

Με το Amazon S3 και το Amazon EFS, πληρώνετε μόνο για ό,τι χρησιμοποιείτε, πράγμα που σημαίνει ότι χρεώνεστε σύμφωνα με το πραγματικό μέγεθος δεδομένων. Με το FSx for Lustre, χρεώνεστε από το προβλεπόμενο μέγεθος συστήματος αρχείων (1.2 TB τουλάχιστον). Όταν εκτελούνται παρουσίες ML με τόμους EBS, το Amazon EBS χρεώνεται ανεξάρτητα από το στιγμιότυπο ML. Αυτό είναι συνήθως πολύ χαμηλότερο κόστος σε σύγκριση με το κόστος εκτέλεσης της παρουσίας. Για παράδειγμα, η εκτέλεση μιας παρουσίας ml.p3.2xlarge με τόμο EBS 100 GB για 1 ώρα κοστίζει 3.825 $ για την παρουσία και 0.02 $ για τον τόμο EBS.

Αιτήματα API και προβλεπόμενο κόστος διεκπεραίωσης

Ενώ η εργασία εκπαίδευσής σας διεισδύει στο σύνολο δεδομένων, παραθέτει και ανακτά αρχεία αποστέλλοντας αιτήματα Amazon S3 API. Για παράδειγμα, κάθε εκατομμύριο αιτήματα GET κοστολογείται στα 0.4 $ (με την κατηγορία Intelligent-Tiering). Δεν θα πρέπει να περιμένετε κανένα κόστος μεταφοράς δεδομένων για το εύρος ζώνης εντός και εκτός του Amazon S3, επειδή η εκπαίδευση πραγματοποιείται σε μία μόνο Ζώνη Διαθεσιμότητας.

Όταν χρησιμοποιείτε ένα FSx for Luster που είναι συνδεδεμένο με έναν κάδο S3, επιβαρύνεστε με κόστος αιτήματος Amazon S3 API για την ανάγνωση δεδομένων που δεν έχουν ακόμη αποθηκευτεί προσωρινά στο σύστημα αρχείων, επειδή το FSx For Luster διαμεσολαβεί το αίτημα στο Amazon S3 (και αποθηκεύει το αποτέλεσμα στην προσωρινή μνήμη ). Δεν υπάρχουν άμεσα έξοδα αιτήματος για το FSx για το ίδιο το Luster. Όταν χρησιμοποιείτε ένα σύστημα αρχείων FSx for Luster, αποφύγετε το κόστος για τη μεταφορά δεδομένων μεταξύ Ζώνης Διαθεσιμότητας εκτελώντας την εκπαιδευτική εργασία σας συνδεδεμένη στην ίδια Ζώνη Διαθεσιμότητας στην οποία παρείχατε το σύστημα αρχείων. GB ανά μήνα.

Μελέτη περίπτωσης απόδοσης

Για να δείξουμε τις επιδόσεις της εκπαίδευσης που αναφέρθηκαν προηγουμένως, πραγματοποιήσαμε μια σειρά σημείων αναφοράς για μια ρεαλιστική περίπτωση χρήσης στον τομέα της όρασης υπολογιστή. Το σημείο αναφοράς (και τα συμπεράσματα) από αυτήν την ενότητα ενδέχεται να μην ισχύει για όλα τα σενάρια και επηρεάζονται από διάφορους προκαθορισμένους παράγοντες που χρησιμοποιήσαμε, όπως το DNN. Πραγματοποιήσαμε δοκιμές για 12 συνδυασμούς των παρακάτω:

Λειτουργίες εισαγωγής – FSx για Lustre, Λειτουργία αρχείου, λειτουργία FastFile
Μέγεθος συστημάτων δεδομένων – Μικρότερο σύνολο δεδομένων (1 GB), μεγαλύτερο σύνολο δεδομένων (54 GB)
Μέγεθος αρχείου – Μικρότερα αρχεία (JPG, περίπου 39 KB), Μεγαλύτερα αρχεία (TFRecord, περίπου 110 MB)

Για αυτήν τη μελέτη περίπτωσης, επιλέξαμε τις πιο ευρέως χρησιμοποιούμενες λειτουργίες εισόδου και, ως εκ τούτου, παραλείψαμε τη λειτουργία Amazon EFS και Pipe.

Τα σημεία αναφοράς της μελέτης περίπτωσης σχεδιάστηκαν ως εργασίες εκπαίδευσης από άκρο σε άκρο του SageMaker TensorFlow σε ένα στιγμιότυπο ml.p3.2xlarge single-GPU. Επιλέξαμε το διάσημο ResNet-50 ως βασικό μοντέλο μας για την εργασία ταξινόμησης και το Caltech-256 ως το μικρότερο σύνολο δεδομένων εκπαίδευσης (το οποίο επαναλάβαμε 50 φορές για να δημιουργήσουμε τη μεγαλύτερη έκδοση δεδομένων). Πραγματοποιήσαμε την εκπαίδευση για μια εποχή, που ορίστηκε ως μια ενιαία πλήρης σάρωση σύμφωνα με τα παραδείγματα εκπαίδευσης.

Τα ακόλουθα γραφήματα δείχνουν τον συνολικό χρεώσιμο χρόνο των εργασιών εκπαίδευσης του SageMaker για κάθε σενάριο αναφοράς. Ο ίδιος ο συνολικός χρόνος εργασίας αποτελείται από τη λήψη, την εκπαίδευση και άλλα στάδια (όπως η εκκίνηση κοντέινερ και η μεταφόρτωση εκπαιδευμένων τεχνουργημάτων μοντέλων στο Amazon S3). Οι μικρότεροι χρεώσιμοι χρόνοι μεταφράζονται σε ταχύτερες και φθηνότερες θέσεις εργασίας.

Ας συζητήσουμε πρώτα Σενάριο Α και Σενάριο Γ, τα οποία καταδεικνύουν βολικά τη διαφορά απόδοσης μεταξύ των λειτουργιών εισαγωγής όταν το σύνολο δεδομένων αποτελείται από πολλά μικρά αρχεία.

Σενάριο Α (μικρότερα αρχεία, μικρότερο σύνολο δεδομένων) αποκαλύπτει ότι η εργασία εκπαίδευσης με το σύστημα αρχείων FSx for Luster έχει τον μικρότερο χρεώσιμο χρόνο. Έχει τη συντομότερη φάση λήψης και το στάδιο εκπαίδευσής του είναι τόσο γρήγορο όσο η λειτουργία αρχείου, αλλά πιο γρήγορο από το FastFile. Το FSx for Luster είναι ο νικητής σε αυτό το single epoch test. Τούτου λεχθέντος, σκεφτείτε έναν παρόμοιο φόρτο εργασίας αλλά με πολλές εποχές—το σχετικό κόστος της λειτουργίας αρχείου λόγω του σταδίου λήψης μειώνεται καθώς προστίθενται περισσότερες εποχές. Σε αυτήν την περίπτωση, προτιμάμε τη λειτουργία αρχείου για την ευκολία χρήσης της. Επιπλέον, μπορεί να διαπιστώσετε ότι η χρήση της λειτουργίας αρχείου και η πληρωμή για 100 επιπλέον χρεώσιμα δευτερόλεπτα είναι καλύτερη επιλογή από την πληρωμή και την παροχή ενός συστήματος αρχείων FSx for Luster.

Σενάριο Γ (μικρότερα αρχεία, μεγαλύτερο σύνολο δεδομένων) εμφανίζει το FSx for Luster ως την ταχύτερη λειτουργία, με μόνο 5,000 δευτερόλεπτα συνολικού χρεώσιμου χρόνου. Έχει επίσης το συντομότερο στάδιο λήψης, επειδή η προσάρτηση του συστήματος αρχείων FSx for Luster δεν εξαρτάται από τον αριθμό των αρχείων στο σύστημα αρχείων (1.5 εκατομμύρια αρχεία σε αυτήν την περίπτωση). Το κόστος λήψης του FastFile είναι επίσης μικρό. ανακτά μόνο μεταδεδομένα των αρχείων που βρίσκονται κάτω από το καθορισμένο πρόθεμα κάδου S3, ενώ το περιεχόμενο των αρχείων διαβάζεται κατά το στάδιο της εκπαίδευσης. Η λειτουργία αρχείου είναι η πιο αργή λειτουργία, ξοδεύοντας 10,000 δευτερόλεπτα για να κατεβάσετε ολόκληρο το σύνολο δεδομένων εκ των προτέρων πριν ξεκινήσετε την εκπαίδευση. Όταν εξετάζουμε το στάδιο εκπαίδευσης, το FSx for Luster και η λειτουργία File επιδεικνύουν παρόμοια εξαιρετική απόδοση. Όσον αφορά τη λειτουργία FastFile, κατά τη ροή μικρότερων αρχείων απευθείας από το Amazon S3, η επιβάρυνση για την αποστολή μιας νέας αίτησης GET για κάθε αρχείο γίνεται σημαντική σε σχέση με τη συνολική διάρκεια της μεταφοράς αρχείων (παρά τη χρήση ενός εξαιρετικά παράλληλου φορτωτή δεδομένων με προσωρινή μνήμη prefetch). Αυτό έχει ως αποτέλεσμα μια συνολική χαμηλότερη απόδοση για τη λειτουργία FastFile, η οποία δημιουργεί ένα σημείο συμφόρησης I/O για την εργασία εκπαίδευσης. Το FSx for Luster είναι ο ξεκάθαρος νικητής σε αυτό το σενάριο.

Σενάρια Β και Δ εμφάνιση της διαφοράς απόδοσης μεταξύ των λειτουργιών εισαγωγής όταν το σύνολο δεδομένων αποτελείται από λιγότερα μεγαλύτερα αρχεία. Η διαδοχική ανάγνωση με χρήση μεγαλύτερων αρχείων συνήθως οδηγεί σε καλύτερη απόδοση I/O, επειδή επιτρέπει την αποτελεσματική αποθήκευση στην προσωρινή μνήμη και μειώνει τον αριθμό των λειτουργιών I/O.

Σενάριο Β (μεγαλύτερα αρχεία, μικρότερο σύνολο δεδομένων) δείχνει παρόμοιο χρόνο σταδίου εκπαίδευσης για όλους τους τρόπους λειτουργίας (που μαρτυρεί ότι η εκπαίδευση δεν είναι δεσμευμένη σε I/O). Σε αυτό το σενάριο, προτιμάμε τη λειτουργία FastFile από τη λειτουργία αρχείου λόγω μικρότερου σταδίου λήψης και προτιμάμε τη λειτουργία FastFile έναντι του FSx για Luster λόγω της ευκολίας χρήσης του πρώτου.

Σενάριο Δ (μεγαλύτερα αρχεία, μεγαλύτερο σύνολο δεδομένων) εμφανίζει σχετικά παρόμοιους συνολικούς χρεώσιμους χρόνους και για τις τρεις λειτουργίες. Η φάση λήψης της λειτουργίας αρχείου είναι μεγαλύτερη από αυτή του FSx για το Luster και το FastFile. Η λειτουργία αρχείου κατεβάζει ολόκληρο το σύνολο δεδομένων (54 GB) από το Amazon S3 στο παράδειγμα εκπαίδευσης πριν ξεκινήσει το στάδιο εκπαίδευσης. Και οι τρεις λειτουργίες περνούν παρόμοιο χρόνο στη φάση εκπαίδευσης, επειδή όλες οι λειτουργίες μπορούν να ανακτήσουν δεδομένα αρκετά γρήγορα και είναι συνδεδεμένες με GPU. Εάν χρησιμοποιούμε στιγμιότυπα ML με πρόσθετους πόρους CPU ή GPU, όπως ml.p4d.24xlarge, η απαιτούμενη ροή δεδομένων εισόδου/εξόδου για τον κορεσμό των υπολογιστικών πόρων αυξάνεται. Σε αυτές τις περιπτώσεις, μπορούμε να περιμένουμε ότι τα FastFile και FSx for Luster θα κλιμακώσουν επιτυχώς την απόδοση τους (ωστόσο, η διακίνηση FSx για Luster εξαρτάται από το μέγεθος του προβλεπόμενου συστήματος αρχείων). Η ικανότητα της λειτουργίας αρχείου να κλιμακώνει την απόδοση της εξαρτάται από την απόδοση του τόμου του δίσκου που είναι συνδεδεμένος στο στιγμιότυπο. Για παράδειγμα, οι παρουσίες που υποστηρίζονται από το Amazon EBS (όπως ml.p3.2xlarge, ml.p3.8xlarge και ml.p3.16xlarge) περιορίζονται σε μέγιστη απόδοση 250MB/s, ενώ οι τοπικές παρουσίες που υποστηρίζονται από NVMe (όπως ml. g5.* ή ml.p4d.24xlarge) μπορεί να φιλοξενήσει πολύ μεγαλύτερη απόδοση.

Συνοψίζοντας, πιστεύουμε ότι το FastFile είναι ο νικητής για αυτό το σενάριο, επειδή είναι ταχύτερο από τη λειτουργία αρχείου και εξίσου γρήγορο με το FSx για Lustre, αλλά πιο απλό στη χρήση, κοστίζει λιγότερο και μπορεί εύκολα να αυξήσει την απόδοσή του ανάλογα με τις ανάγκες.

Επιπλέον, εάν είχαμε ένα πολύ μεγαλύτερο σύνολο δεδομένων (μέγεθος πολλών TB), η λειτουργία αρχείου θα περνούσε πολλές ώρες για τη λήψη του δεδομένων πριν ξεκινήσει η εκπαίδευση, ενώ το FastFile θα μπορούσε να ξεκινήσει την εκπαίδευση πολύ πιο γρήγορα.

Φέρτε τη δική σας απορρόφηση δεδομένων

Η εγγενής πηγή δεδομένων του SageMaker ταιριάζει στα περισσότερα αλλά όχι σε όλα τα πιθανά σενάρια εκπαίδευσης ML. Οι καταστάσεις στις οποίες μπορεί να χρειαστεί να αναζητήσετε άλλες επιλογές απορρόφησης δεδομένων θα μπορούσαν να περιλαμβάνουν την ανάγνωση δεδομένων απευθείας από ένα προϊόν αποθήκευσης τρίτου μέρους (υποθέτοντας ότι δεν είναι δυνατή η εύκολη και έγκαιρη εξαγωγή στο Amazon S3) ή η ύπαρξη ισχυρής απαίτησης για την ίδια εκπαίδευση το σενάριο να εκτελείται αμετάβλητο τόσο στο SageMaker όσο και στο Amazon Elastic Compute Cloud (Amazon EC2) ή Υπηρεσία Amazon Elastic Kubernetes (Amazon EKS). Μπορείτε να αντιμετωπίσετε αυτές τις περιπτώσεις εφαρμόζοντας τον μηχανισμό απορρόφησης δεδομένων στο σενάριο εκπαίδευσης. Αυτός ο μηχανισμός είναι υπεύθυνος για την ανάγνωση συνόλων δεδομένων από εξωτερικές πηγές δεδομένων στο παράδειγμα εκπαίδευσης. Για παράδειγμα, το TFRecordDataset των TensorFlow's tf.data η βιβλιοθήκη μπορεί να διαβάσει απευθείας από την αποθήκευση Amazon S3.

Εάν ο μηχανισμός απορρόφησης δεδομένων σας χρειάζεται να καλέσει οποιαδήποτε υπηρεσία AWS, όπως π.χ Υπηρεσία σχεσιακής βάσης δεδομένων Amazon (Amazon RDS), βεβαιωθείτε ότι το Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) ο ρόλος της εργασίας κατάρτισης σας περιλαμβάνει τις σχετικές πολιτικές IAM. Εάν η πηγή δεδομένων βρίσκεται στο Εικονικό ιδιωτικό σύννεφο Amazon (Amazon VPC), πρέπει να εκτελέσετε την εκπαιδευτική σας εργασία συνδεδεμένη με το ίδιο VPC.

Όταν διαχειρίζεστε μόνοι σας την απορρόφηση δεδομένων, η παρακολούθηση γενεαλογίας του SageMaker δεν μπορεί να καταγράψει αυτόματα τα σύνολα δεδομένων που χρησιμοποιούνται κατά τη διάρκεια της εκπαίδευσης. Επομένως, εξετάστε εναλλακτικούς μηχανισμούς, όπως εκπαίδευση ετικετών εργασιών ή υπερπαραμέτρων, για να καταγράψετε τα σχετικά μεταδεδομένα σας.

Συμπέρασμα

Η επιλογή της σωστής πηγής δεδομένων εκπαίδευσης του SageMaker θα μπορούσε να έχει βαθιά επίδραση στην ταχύτητα, την ευκολία χρήσης και το κόστος εκπαίδευσης μοντέλων ML. Χρησιμοποιήστε το παρεχόμενο διάγραμμα ροής για να ξεκινήσετε γρήγορα, να παρατηρήσετε τα αποτελέσματα και να πειραματιστείτε με πρόσθετες ρυθμίσεις όπως απαιτείται. Λάβετε υπόψη τα πλεονεκτήματα, τα μειονεκτήματα και τους περιορισμούς κάθε πηγής δεδομένων και πόσο καλά ταιριάζουν στις ατομικές απαιτήσεις της εργασίας σας. Επικοινωνήστε με μια επαφή της AWS για περισσότερες πληροφορίες και βοήθεια.

Σχετικά με τους Συγγραφείς

Gili Nachum είναι ανώτερος αρχιτέκτονας εξειδικευμένων λύσεων AI/ML που εργάζεται ως μέλος της ομάδας EMEA Amazon Machine Learning. Η Gili είναι παθιασμένη με τις προκλήσεις της εκπαίδευσης μοντέλων βαθιάς μάθησης και το πώς η μηχανική μάθηση αλλάζει τον κόσμο όπως τον ξέρουμε. Στον ελεύθερο χρόνο του, ο Τζίλι απολαμβάνει να παίζει πινγκ πονγκ.

Δρ. Alexander Arzhanov είναι Αρχιτέκτονας Specialist Solutions AI/ML με έδρα τη Φρανκφούρτη της Γερμανίας. Βοηθά τους πελάτες της AWS να σχεδιάσουν και να αναπτύξουν τις λύσεις ML τους σε όλη την περιοχή EMEA. Πριν ενταχθεί στο AWS, ο Alexander ερευνούσε την προέλευση των βαρέων στοιχείων στο σύμπαν μας και έγινε παθιασμένος με το ML αφού το χρησιμοποίησε στους μεγάλης κλίμακας επιστημονικούς υπολογισμούς του.

Σφραγίδα ώρας: Φεβρουάριος 23, 2022

Σφραγίδα ώρας: 29 Μαρτίου, 2023

Αναδημοσίευση από τον Πλάτωνα

Το AWS Localization χρησιμοποιεί το Amazon Translate για να κλιμακώσει την τοπική προσαρμογή

Πώς η VMware κατασκεύασε έναν αγωγό MLOps από την αρχή χρησιμοποιώντας GitLab, Amazon MWAA και Amazon SageMaker

Δημιουργήστε μια πολύγλωσση ροή εργασίας μετάφρασης εγγράφων με προσαρμογή για συγκεκριμένο τομέα και γλώσσα

Η Chronomics εντοπίζει τα αποτελέσματα των δοκιμών COVID-19 με προσαρμοσμένες ετικέτες αναγνώρισης της Amazon

Ισχυρή πρόβλεψη χρονοσειρών με MLOps στο Amazon SageMaker | Υπηρεσίες Ιστού της Amazon

Σωλήνας αύξησης εικόνας για το Amazon Lookout for Vision

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός