Επιλογή μοντέλου ταξινόμησης εικόνας με χρήση του Amazon SageMaker JumpStart

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Οι ερευνητές συνεχίζουν να αναπτύσσουν νέες αρχιτεκτονικές μοντέλων για κοινές εργασίες μηχανικής μάθησης (ML). Μια τέτοια εργασία είναι η ταξινόμηση εικόνων, όπου οι εικόνες γίνονται δεκτές ως είσοδος και το μοντέλο επιχειρεί να ταξινομήσει την εικόνα ως σύνολο με εξόδους ετικετών αντικειμένων. Με πολλά μοντέλα που είναι διαθέσιμα σήμερα που εκτελούν αυτήν την εργασία ταξινόμησης εικόνων, ένας επαγγελματίας ML μπορεί να κάνει ερωτήσεις όπως: "Ποιο μοντέλο πρέπει να βελτιστοποιήσω και στη συνέχεια να αναπτύξω για να επιτύχω την καλύτερη απόδοση στο σύνολο δεδομένων μου;" Και ένας ερευνητής ML μπορεί να κάνει ερωτήσεις όπως: "Πώς μπορώ να δημιουργήσω τη δική μου δίκαιη σύγκριση αρχιτεκτονικών πολλαπλών μοντέλων σε σχέση με ένα καθορισμένο σύνολο δεδομένων, ελέγχοντας παράλληλα υπερπαραμέτρους εκπαίδευσης και προδιαγραφές υπολογιστή, όπως GPU, CPU και RAM;" Η πρώτη ερώτηση αφορά την επιλογή μοντέλου μεταξύ των αρχιτεκτονικών μοντέλων, ενώ η δεύτερη ερώτηση αφορά τη συγκριτική αξιολόγηση εκπαιδευμένων μοντέλων έναντι ενός δοκιμαστικού συνόλου δεδομένων.

Σε αυτή την ανάρτηση, θα δείτε πώς το Ταξινόμηση εικόνας TensorFlow αλγόριθμος του Amazon SageMaker JumpStart μπορεί να απλοποιήσει τις υλοποιήσεις που απαιτούνται για την αντιμετώπιση αυτών των ερωτημάτων. Μαζί με τις λεπτομέρειες υλοποίησης σε ένα αντίστοιχο παράδειγμα σημειωματάριο Jupyter, θα έχετε διαθέσιμα εργαλεία για την εκτέλεση επιλογής μοντέλου εξερευνώντας τα σύνορα pareto, όπου η βελτίωση μιας μέτρησης απόδοσης, όπως η ακρίβεια, δεν είναι δυνατή χωρίς επιδείνωση μιας άλλης μέτρησης, όπως η απόδοση.

Επισκόπηση λύσεων

Το παρακάτω σχήμα απεικονίζει τον συμβιβασμό επιλογής μοντέλου για μεγάλο αριθμό μοντέλων ταξινόμησης εικόνων που έχουν ρυθμιστεί με ακρίβεια στο Caltech-256 σύνολο δεδομένων, το οποίο είναι ένα απαιτητικό σύνολο 30,607 εικόνων πραγματικού κόσμου που εκτείνονται σε 256 κατηγορίες αντικειμένων. Κάθε σημείο αντιπροσωπεύει ένα μόνο μοντέλο, τα μεγέθη σημείων κλιμακώνονται σε σχέση με τον αριθμό των παραμέτρων που αποτελούν το μοντέλο και τα σημεία κωδικοποιούνται με χρώμα βάσει της αρχιτεκτονικής του μοντέλου τους. Για παράδειγμα, τα ανοιχτά πράσινα σημεία αντιπροσωπεύουν την αρχιτεκτονική EfficientNet. Κάθε ανοιχτό πράσινο σημείο είναι μια διαφορετική διαμόρφωση αυτής της αρχιτεκτονικής με μοναδικές μετρήσεις απόδοσης μοντέλου. Το σχήμα δείχνει την ύπαρξη ενός συνόρων pareto για την επιλογή μοντέλου, όπου η υψηλότερη ακρίβεια ανταλλάσσεται με χαμηλότερη απόδοση. Τελικά, η επιλογή ενός μοντέλου κατά μήκος των συνόρων του παρέτο, ή του συνόλου αποτελεσματικών λύσεων παρέτο, εξαρτάται από τις απαιτήσεις απόδοσης ανάπτυξης του μοντέλου σας.

Επιλογή μοντέλου ταξινόμησης εικόνας χρησιμοποιώντας το Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εάν παρατηρήσετε την ακρίβεια της δοκιμής και τα όρια διεκπεραιώσεως δοκιμής που σας ενδιαφέρουν, το σύνολο των παρετο αποδοτικών λύσεων στο προηγούμενο σχήμα εξάγεται στον παρακάτω πίνακα. Οι σειρές ταξινομούνται έτσι ώστε η απόδοση δοκιμής να αυξάνεται και η ακρίβεια δοκιμής να μειώνεται.

Όνομα μοντέλου	Αριθμός παραμέτρων	Δοκιμή ακρίβειας	Δοκιμή Ακρίβειας Top 5	Παραγωγή (εικόνες/ες)	Διάρκεια ανά εποχή(ες)
swin-large-patch4-window12-384	195.6M	96.4%	99.5%	0.3	2278.6
swin-large-patch4-window7-224	195.4M	96.1%	99.5%	1.1	698.0
efikasnet-v2-imagenet21k-ft1k-l	118.1M	95.1%	99.2%	4.5	1434.7
efikasnet-v2-imagenet21k-ft1k-m	53.5M	94.8%	99.1%	8.0	769.1
efikasnet-v2-imagenet21k-m	53.5M	93.1%	98.5%	8.0	765.1
efikasnet-b5	29.0M	90.8%	98.1%	9.1	668.6
efikasnet-v2-imagenet21k-ft1k-b1	7.3M	89.7%	97.3%	14.6	54.3
efikasnet-v2-imagenet21k-ft1k-b0	6.2M	89.0%	97.0%	20.5	38.3
efikasnet-v2-imagenet21k-b0	6.2M	87.0%	95.6%	21.5	38.2
mobilenet-v3-large-100-224	4.6M	84.9%	95.4%	27.4	28.8
mobilenet-v3-large-075-224	3.1M	83.3%	95.2%	30.3	26.6
mobilenet-v2-100-192	2.6M	80.8%	93.5%	33.5	23.9
mobilenet-v2-100-160	2.6M	80.2%	93.2%	40.0	19.6
mobilenet-v2-075-160	1.7M	78.2%	92.8%	41.8	19.3
mobilenet-v2-075-128	1.7M	76.1%	91.1%	44.3	18.3
mobilenet-v1-075-160	2.0M	75.7%	91.0%	44.5	18.2
mobilenet-v1-100-128	3.5M	75.1%	90.7%	47.4	17.4
mobilenet-v1-075-128	2.0M	73.2%	90.0%	48.9	16.8
mobilenet-v2-075-96	1.7M	71.9%	88.5%	49.4	16.6
mobilenet-v2-035-96	0.7M	63.7%	83.1%	50.4	16.3
mobilenet-v1-025-128	0.3M	59.0%	80.7%	50.8	16.2

Αυτή η ανάρτηση παρέχει λεπτομέρειες σχετικά με τον τρόπο υλοποίησης μεγάλης κλίμακας Amazon Sage Maker εργασίες συγκριτικής αξιολόγησης και επιλογής μοντέλων. Αρχικά, παρουσιάζουμε το JumpStart και τους ενσωματωμένους αλγόριθμους ταξινόμησης εικόνων TensorFlow. Στη συνέχεια συζητάμε ζητήματα υλοποίησης υψηλού επιπέδου, όπως διαμορφώσεις υπερπαραμέτρων JumpStart, εξαγωγή μετρήσεων από Αρχεία καταγραφής CloudWatch του Amazon, και εκκίνηση εργασιών συντονισμού ασύγχρονων υπερπαραμέτρων. Τέλος, καλύπτουμε το περιβάλλον υλοποίησης και την παραμετροποίηση που οδηγεί στις αποτελεσματικές λύσεις pareto στον προηγούμενο πίνακα και σχήμα.

Εισαγωγή στην ταξινόμηση εικόνων JumpStart TensorFlow

Το JumpStart παρέχει λεπτομερή ρύθμιση με ένα κλικ και ανάπτυξη μιας μεγάλης ποικιλίας προεκπαιδευμένων μοντέλων σε δημοφιλείς εργασίες ML, καθώς και μια επιλογή λύσεων από άκρο σε άκρο που λύνουν κοινά επιχειρηματικά προβλήματα. Αυτά τα χαρακτηριστικά αφαιρούν τη βαριά ανύψωση από κάθε βήμα της διαδικασίας ML, διευκολύνοντας την ανάπτυξη μοντέλων υψηλής ποιότητας και μειώνοντας το χρόνο μέχρι την ανάπτυξη. ο JumpStart API σας επιτρέπει να αναπτύξετε μέσω προγραμματισμού και να ρυθμίσετε με ακρίβεια μια τεράστια γκάμα προεκπαιδευμένων μοντέλων στα δικά σας σύνολα δεδομένων.

Ο κόμβος μοντέλου JumpStart παρέχει πρόσβαση σε μεγάλο αριθμό από Μοντέλα ταξινόμησης εικόνων TensorFlow που επιτρέπουν τη μεταφορά εκμάθησης και τη λεπτομέρεια σε προσαρμοσμένα σύνολα δεδομένων. Από τη στιγμή που γράφεται αυτό το άρθρο, ο κόμβος μοντέλων JumpStart περιέχει 135 μοντέλα ταξινόμησης εικόνων TensorFlow σε μια ποικιλία δημοφιλών αρχιτεκτονικών μοντέλων από Διανομέας TensorFlow, για να συμπεριληφθούν υπολειπόμενα δίκτυα (ResNet), MobileNet, EfficientNet, Έναρξη, Δίκτυα αναζήτησης νευρωνικής αρχιτεκτονικής (NASNet), Μεγάλη Μεταφορά (Κομμάτι), μετατοπισμένο παράθυρο (Γυρίστε) μετασχηματιστές, Class-Attention in Image Transformers (CaiT), και μετασχηματιστές εικόνας αποδοτικών δεδομένων (DeiT).

Πολύ διαφορετικές εσωτερικές δομές αποτελούνται από κάθε αρχιτεκτονική μοντέλου. Για παράδειγμα, τα μοντέλα ResNet χρησιμοποιούν συνδέσεις παράλειψης για να επιτρέψουν ουσιαστικά βαθύτερα δίκτυα, ενώ τα μοντέλα που βασίζονται σε μετασχηματιστές χρησιμοποιούν μηχανισμούς αυτοπροσοχής που εξαλείφουν την εγγενή τοποθεσία των λειτουργιών συνέλιξης προς όφελος των πιο σφαιρικών δεκτικών πεδίων. Εκτός από τα διαφορετικά σύνολα χαρακτηριστικών που παρέχουν αυτές οι διαφορετικές δομές, κάθε αρχιτεκτονική μοντέλου έχει πολλές διαμορφώσεις που προσαρμόζουν το μέγεθος, το σχήμα και την πολυπλοκότητα του μοντέλου σε αυτήν την αρχιτεκτονική. Αυτό έχει ως αποτέλεσμα εκατοντάδες μοναδικά μοντέλα ταξινόμησης εικόνων που είναι διαθέσιμα στο κέντρο μοντέλων JumpStart. Σε συνδυασμό με ενσωματωμένα σενάρια εκμάθησης μεταφοράς και συμπερασμάτων που περιλαμβάνουν πολλές δυνατότητες του SageMaker, το JumpStart API είναι ένα εξαιρετικό σημείο εκκίνησης για τους επαγγελματίες ML ώστε να ξεκινήσουν την εκπαίδευση και την ανάπτυξη μοντέλων γρήγορα.

Αναφέρομαι σε Εκμάθηση μεταφοράς για μοντέλα ταξινόμησης εικόνων TensorFlow στο Amazon SageMaker και τα ακόλουθα παράδειγμα σημειωματάριο για να μάθετε περισσότερα για την ταξινόμηση εικόνων SageMaker TensorFlow, συμπεριλαμβανομένου του τρόπου εκτέλεσης συμπερασμάτων σε ένα προεκπαιδευμένο μοντέλο, καθώς και του τρόπου εκτέλεσης του προεκπαιδευμένου μοντέλου σε ένα προσαρμοσμένο σύνολο δεδομένων.

Θέματα επιλογής μοντέλων μεγάλης κλίμακας

Η επιλογή μοντέλου είναι η διαδικασία επιλογής του καλύτερου μοντέλου από ένα σύνολο υποψηφίων μοντέλων. Αυτή η διαδικασία μπορεί να εφαρμοστεί σε μοντέλα του ίδιου τύπου με διαφορετικά βάρη παραμέτρων και σε μοντέλα διαφορετικών τύπων. Παραδείγματα επιλογής μοντέλων σε μοντέλα του ίδιου τύπου περιλαμβάνουν την προσαρμογή του ίδιου μοντέλου με διαφορετικές υπερπαραμέτρους (για παράδειγμα, ρυθμό εκμάθησης) και πρόωρη διακοπή για την αποφυγή της υπερβολικής προσαρμογής βαρών μοντέλων στο σύνολο δεδομένων αμαξοστοιχίας. Η επιλογή μοντέλων μεταξύ μοντέλων διαφορετικών τύπων περιλαμβάνει την επιλογή της καλύτερης αρχιτεκτονικής μοντέλου (για παράδειγμα, Swin έναντι MobileNet) και την επιλογή των καλύτερων διαμορφώσεων μοντέλων εντός μιας αρχιτεκτονικής μοντέλου (για παράδειγμα, mobilenet-v1-025-128 έναντι mobilenet-v3-large-100-224).

Οι εκτιμήσεις που περιγράφονται σε αυτήν την ενότητα επιτρέπουν όλες αυτές τις διαδικασίες επιλογής μοντέλων σε ένα σύνολο δεδομένων επικύρωσης.

Επιλέξτε διαμορφώσεις υπερπαραμέτρων

Η ταξινόμηση εικόνων TensorFlow στο JumpStart έχει μεγάλο αριθμό διαθέσιμων υπερπαραμέτρους που μπορεί να προσαρμόσει ομοιόμορφα τις συμπεριφορές σεναρίου εκμάθησης μεταφοράς για όλες τις αρχιτεκτονικές μοντέλων. Αυτές οι υπερπαράμετροι σχετίζονται με την αύξηση και την προεπεξεργασία δεδομένων, τις προδιαγραφές του βελτιστοποιητή, τα χειριστήρια υπερπροσαρμογής και τους δείκτες επιπέδων που μπορούν να εκπαιδευτούν. Σας ενθαρρύνουμε να προσαρμόσετε τις προεπιλεγμένες τιμές αυτών των υπερπαραμέτρων όπως απαιτείται για την εφαρμογή σας:

model_id: str
model_version: str = "*" hyperparameters = sagemaker.hyperparameters.retrieve_default( model_id=model_id, model_version=model_version
)

Για αυτήν την ανάλυση και το σχετικό σημειωματάριο, όλες οι υπερπαράμετροι έχουν οριστεί σε προεπιλεγμένες τιμές εκτός από τον ρυθμό εκμάθησης, τον αριθμό των εποχών και την προδιαγραφή πρώιμης διακοπής. Το ποσοστό μάθησης προσαρμόζεται ως α κατηγορηματική παράμετρος από το Αυτόματος συντονισμός μοντέλου SageMaker δουλειά. Επειδή κάθε μοντέλο έχει μοναδικές προεπιλεγμένες τιμές υπερπαραμέτρων, η διακριτή λίστα των πιθανών ρυθμών εκμάθησης περιλαμβάνει τον προεπιλεγμένο ρυθμό εκμάθησης καθώς και το ένα πέμπτο του προεπιλεγμένου ρυθμού εκμάθησης. Αυτό εκκινεί δύο εργασίες εκπαίδευσης για μια εργασία συντονισμού υπερπαραμέτρων και επιλέγεται η εργασία εκπαίδευσης με την καλύτερη αναφερόμενη απόδοση στο σύνολο δεδομένων επικύρωσης. Επειδή ο αριθμός των εποχών έχει οριστεί σε 10, που είναι μεγαλύτερος από την προεπιλεγμένη ρύθμιση υπερπαραμέτρων, η επιλεγμένη καλύτερη εργασία εκπαίδευσης δεν αντιστοιχεί πάντα στον προεπιλεγμένο ρυθμό εκμάθησης. Τέλος, ένα κριτήριο πρόωρης διακοπής χρησιμοποιείται με υπομονή, ή τον αριθμό των εποχών για να συνεχιστεί η προπόνηση χωρίς βελτίωση, τριών εποχών.

Μια προεπιλεγμένη ρύθμιση υπερπαραμέτρου ιδιαίτερης σημασίας είναι train_only_on_top_layer, πού, εάν έχει οριστεί σε True, τα επίπεδα εξαγωγής χαρακτηριστικών του μοντέλου δεν έχουν ρυθμιστεί με ακρίβεια στο παρεχόμενο σύνολο δεδομένων εκπαίδευσης. Το εργαλείο βελτιστοποίησης θα εκπαιδεύσει παραμέτρους μόνο στο επάνω πλήρως συνδεδεμένο επίπεδο ταξινόμησης με διαστάσεις εξόδου ίση με τον αριθμό των ετικετών κλάσεων στο σύνολο δεδομένων. Από προεπιλογή, αυτή η υπερπαράμετρος έχει οριστεί σε True, η οποία είναι μια ρύθμιση που στοχεύει στη μεταφορά μάθησης σε μικρά σύνολα δεδομένων. Μπορεί να έχετε ένα προσαρμοσμένο σύνολο δεδομένων όπου η εξαγωγή χαρακτηριστικών από την προεκπαίδευση στο σύνολο δεδομένων ImageNet δεν είναι επαρκής. Σε αυτές τις περιπτώσεις, θα πρέπει να ρυθμίσετε train_only_on_top_layer προς την False. Αν και αυτή η ρύθμιση θα αυξήσει τον χρόνο εκπαίδευσης, θα εξαγάγετε πιο ουσιαστικές λειτουργίες για το πρόβλημα που σας ενδιαφέρει, αυξάνοντας έτσι την ακρίβεια.

Εξαγωγή μετρήσεων από αρχεία καταγραφής CloudWatch

Ο αλγόριθμος ταξινόμησης εικόνων JumpStart TensorFlow καταγράφει αξιόπιστα μια ποικιλία μετρήσεων κατά τη διάρκεια της εκπαίδευσης που είναι προσβάσιμες στο SageMaker Estimator και αντικείμενα HyperparameterTuner. Ο κατασκευαστής ενός SageMaker Estimator έχει metric_definitions όρισμα λέξης-κλειδιού, το οποίο μπορεί να χρησιμοποιηθεί για την αξιολόγηση της εργασίας εκπαίδευσης παρέχοντας μια λίστα λεξικών με δύο κλειδιά: Όνομα για το όνομα της μέτρησης και Regex για την τυπική έκφραση που χρησιμοποιείται για την εξαγωγή της μέτρησης από τα αρχεία καταγραφής. Το συνοδευτικό σημειωματάριο δείχνει τις λεπτομέρειες υλοποίησης. Ο παρακάτω πίνακας παραθέτει τις διαθέσιμες μετρήσεις και τις σχετικές τυπικές εκφράσεις για όλα τα μοντέλα ταξινόμησης εικόνων JumpStart TensorFlow.

Μετρικό όνομα	Συνήθης έκφραση
αριθμός παραμέτρων	"- Αριθμός παραμέτρων: ([0-9\.]+)"
αριθμός εκπαιδεύσιμων παραμέτρων	"- Αριθμός εκπαιδεύσιμων παραμέτρων: ([0-9\.]+)"
αριθμός μη εκπαιδεύσιμων παραμέτρων	"- Αριθμός μη εκπαιδεύσιμων παραμέτρων: ([0-9\.]+)"
μέτρηση δεδομένων τρένου	f”- {metric}: ([0-9\.]+)”
μέτρηση δεδομένων επικύρωσης	f”- val_{metric}: ([0-9\.]+)”
δοκιμή μέτρησης δεδομένων	f”- Δοκιμή {metric}: ([0-9\.]+)”
διάρκεια τρένου	“- Συνολική διάρκεια προπόνησης: ([0-9\.]+)”
διάρκεια τρένου ανά εποχή	“- Μέση διάρκεια εκπαίδευσης ανά εποχή: ([0-9\.]+)”
λανθάνουσα κατάσταση αξιολόγησης δοκιμής	"- Δοκιμαστική καθυστέρηση αξιολόγησης: ([0-9\.]+)"
λανθάνουσα κατάσταση δοκιμής ανά δείγμα	"- Μέση καθυστέρηση δοκιμής ανά δείγμα: ([0-9\.]+)"
δοκιμαστική απόδοση	"- Μέση απόδοση δοκιμής: ([0-9\.]+)"

Το ενσωματωμένο σενάριο εκμάθησης μεταφοράς παρέχει μια ποικιλία μετρήσεων συνόλου δεδομένων εκπαίδευσης, επικύρωσης και δοκιμής εντός αυτών των ορισμών, όπως αντιπροσωπεύονται από τις τιμές αντικατάστασης της συμβολοσειράς f. Οι ακριβείς διαθέσιμες μετρήσεις ποικίλλουν ανάλογα με τον τύπο ταξινόμησης που εκτελείται. Όλα τα μεταγλωττισμένα μοντέλα έχουν α loss μετρική, η οποία αντιπροσωπεύεται από απώλεια διασταυρούμενης εντροπίας είτε για ένα δυαδικό είτε για ένα πρόβλημα κατηγοριοποίησης. Το πρώτο χρησιμοποιείται όταν υπάρχει μία ετικέτα κλάσης. Το τελευταίο χρησιμοποιείται εάν υπάρχουν δύο ή περισσότερες ετικέτες κλάσης. Εάν υπάρχει μόνο μία ετικέτα κλάσης, τότε οι ακόλουθες μετρήσεις υπολογίζονται, καταγράφονται και μπορούν να εξαχθούν μέσω των κανονικών εκφράσεων της συμβολοσειράς f στον προηγούμενο πίνακα: αριθμός αληθινών θετικών (true_pos), αριθμός ψευδώς θετικών (false_pos), αριθμός αληθινών αρνητικών (true_neg), αριθμός ψευδών αρνητικών (false_neg), precision, recall, περιοχή κάτω από την καμπύλη χαρακτηριστικών λειτουργίας δέκτη (ROC) (auc), και περιοχή κάτω από την καμπύλη ακριβείας ανάκλησης (PR) (prc). Ομοίως, εάν υπάρχουν έξι ή περισσότερες ετικέτες κατηγορίας, μια μέτρηση ακρίβειας κορυφαίων 5 (top_5_accuracy) μπορεί επίσης να υπολογιστεί, να καταγραφεί και να εξαχθεί μέσω των προηγούμενων κανονικών παραστάσεων.

Κατά τη διάρκεια της εκπαίδευσης, οι μετρήσεις καθορίζονται σε έναν SageMaker Estimator εκπέμπονται στα αρχεία καταγραφής CloudWatch. Όταν ολοκληρωθεί η εκπαίδευση, μπορείτε να επικαλεστείτε το SageMaker DescribeTrainingJob API και επιθεωρήστε το FinalMetricDataList κλειδί στην απάντηση JSON:

tuner: sagemaker.tuner.HyperparameterTuner
session: sagemaker.Session training_job_name = tuner.best_training_job()
description = session.describe_training_job(training_job_name)
metrics = description["FinalMetricDataList"]

Αυτό το API απαιτεί μόνο το όνομα της εργασίας να παρέχεται στο ερώτημα, επομένως, αφού ολοκληρωθεί, οι μετρήσεις μπορούν να ληφθούν σε μελλοντικές αναλύσεις, εφόσον το όνομα εργασίας εκπαίδευσης καταγράφεται κατάλληλα και μπορεί να ανακτηθεί. Για αυτήν την εργασία επιλογής μοντέλου, τα ονόματα εργασιών συντονισμού υπερπαραμέτρων αποθηκεύονται και οι επόμενες αναλύσεις επισυνάπτουν ξανά ένα HyperparameterTuner αντικείμενο με το όνομα εργασίας συντονισμού, εξάγετε το όνομα της καλύτερης εργασίας εκπαίδευσης από τον συνημμένο δέκτη υπερπαραμέτρων και, στη συνέχεια, καλέστε το DescribeTrainingJob API όπως περιγράφηκε προηγουμένως για τη λήψη μετρήσεων που σχετίζονται με την καλύτερη εργασία κατάρτισης.

Εκκινήστε ασύγχρονες εργασίες συντονισμού υπερπαραμέτρων

Ανατρέξτε στο αντίστοιχο σημειωματάριο για λεπτομέρειες υλοποίησης σχετικά με την ασύγχρονη εκκίνηση εργασιών συντονισμού υπερπαραμέτρων, που χρησιμοποιεί την τυπική βιβλιοθήκη της Python ταυτόχρονα συμβόλαια μελλοντικής εκπλήρωσης μονάδα, μια διεπαφή υψηλού επιπέδου για ασύγχρονα καλούμενα. Σε αυτήν τη λύση εφαρμόζονται πολλές σκέψεις που σχετίζονται με το SageMaker:

Κάθε λογαριασμός AWS συνδέεται με Ποσοστώσεις υπηρεσιών SageMaker. Θα πρέπει να προβάλετε τα τρέχοντα όριά σας για να αξιοποιήσετε πλήρως τους πόρους σας και ενδεχομένως να ζητήσετε αύξηση του ορίου πόρων, όπως απαιτείται.
Οι συχνές κλήσεις API για τη δημιουργία πολλών ταυτόχρονων εργασιών συντονισμού υπερπαραμέτρων ενδέχεται υπερβείτε τον ρυθμό Python SDK και εξαιρέσεις περιορισμού. Μια λύση σε αυτό είναι η δημιουργία ενός προγράμματος-πελάτη SageMaker Boto3 με προσαρμοσμένη διαμόρφωση επανάληψης.
Τι συμβαίνει εάν το σενάριό σας αντιμετωπίσει σφάλμα ή το σενάριο σταματήσει πριν από την ολοκλήρωση; Για μια τόσο μεγάλη επιλογή μοντέλων ή μελέτη συγκριτικής αξιολόγησης, μπορείτε να καταγράψετε ονόματα εργασιών συντονισμού και να παρέχετε λειτουργίες ευκολίας σε επανασύνδεση εργασιών συντονισμού υπερπαραμέτρων που υπάρχουν ήδη:

tuning_job_name: str
session: sagemaker.Session tuner = sagemaker.tuner.HyperparameterTuner.attach(tuning_job_name, session)

Λεπτομέρειες ανάλυσης και συζήτηση

Η ανάλυση σε αυτήν την ανάρτηση εκτελεί μεταφορά μάθησης για αναγνωριστικά μοντέλων στον αλγόριθμο ταξινόμησης εικόνων JumpStart TensorFlow στο σύνολο δεδομένων Caltech-256. Όλες οι εργασίες εκπαίδευσης πραγματοποιήθηκαν στην παρουσία εκπαίδευσης SageMaker ml.g4dn.xlarge, η οποία περιέχει μια μοναδική GPU NVIDIA T4.

Το σύνολο δεδομένων δοκιμής αξιολογείται στο παράδειγμα εκπαίδευσης στο τέλος της εκπαίδευσης. Η επιλογή μοντέλου πραγματοποιείται πριν από την αξιολόγηση του συνόλου δεδομένων δοκιμής για να οριστούν τα βάρη του μοντέλου στην εποχή με την καλύτερη απόδοση του συνόλου επικύρωσης. Η απόδοση δοκιμής δεν έχει βελτιστοποιηθεί: το μέγεθος παρτίδας δεδομένων έχει οριστεί στο προεπιλεγμένο μέγεθος παρτίδας υπερπαραμέτρων εκπαίδευσης, το οποίο δεν προσαρμόζεται για τη μεγιστοποίηση της χρήσης της μνήμης GPU. Η αναφερόμενη απόδοση δοκιμής περιλαμβάνει τον χρόνο φόρτωσης δεδομένων, επειδή το σύνολο δεδομένων δεν έχει αποθηκευτεί εκ των προτέρων στην κρυφή μνήμη. και τα κατανεμημένα συμπεράσματα σε πολλές GPU δεν χρησιμοποιούνται. Για αυτούς τους λόγους, αυτή η απόδοση είναι μια καλή σχετική μέτρηση, αλλά η πραγματική απόδοση θα εξαρτηθεί σε μεγάλο βαθμό από τις διαμορφώσεις ανάπτυξης τελικού σημείου συμπερασμάτων για το εκπαιδευμένο μοντέλο.

Αν και ο κόμβος μοντέλων JumpStart περιέχει πολλούς τύπους αρχιτεκτονικής ταξινόμησης εικόνων, αυτό το σύνορο pareto κυριαρχείται από επιλεγμένα μοντέλα Swin, EfficientNet και MobileNet. Τα μοντέλα Swin είναι μεγαλύτερα και σχετικά πιο ακριβή, ενώ τα μοντέλα MobileNet είναι μικρότερα, σχετικά λιγότερο ακριβή και κατάλληλα για περιορισμούς πόρων κινητών συσκευών. Είναι σημαντικό να σημειωθεί ότι αυτό το όριο εξαρτάται από διάφορους παράγοντες, συμπεριλαμβανομένου του ακριβούς συνόλου δεδομένων που χρησιμοποιείται και των επιλεγμένων υπερπαραμέτρων λεπτομέρειας. Μπορεί να διαπιστώσετε ότι το προσαρμοσμένο σύνολο δεδομένων σας παράγει ένα διαφορετικό σύνολο από αποτελεσματικές λύσεις παρέτο και μπορεί να επιθυμείτε μεγαλύτερους χρόνους εκπαίδευσης με διαφορετικές υπερπαραμέτρους, όπως περισσότερη αύξηση δεδομένων ή βελτιστοποίηση περισσότερων από το ανώτερο επίπεδο ταξινόμησης του μοντέλου.

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε πώς να εκτελείτε εργασίες επιλογής μοντέλων μεγάλης κλίμακας ή συγκριτικής αξιολόγησης χρησιμοποιώντας τον κόμβο μοντέλου JumpStart. Αυτή η λύση μπορεί να σας βοηθήσει να επιλέξετε το καλύτερο μοντέλο για τις ανάγκες σας. Σας ενθαρρύνουμε να το δοκιμάσετε και να το εξερευνήσετε λύση στο δικό σας σύνολο δεδομένων.

αναφορές

Περισσότερες πληροφορίες είναι διαθέσιμες στις ακόλουθες πηγές:

Σχετικά με τους συγγραφείς

Δόκτωρ Kyle Ulrich είναι Εφαρμοσμένος Επιστήμονας με το Ενσωματωμένοι αλγόριθμοι Amazon SageMaker ομάδα. Τα ερευνητικά του ενδιαφέροντα περιλαμβάνουν κλιμακωτούς αλγόριθμους μηχανικής μάθησης, όραση υπολογιστή, χρονοσειρές, μη παραμετρικές Μπεϋζιανές και διεργασίες Gauss. Το διδακτορικό του είναι από το Πανεπιστήμιο Duke και έχει δημοσιεύσει εργασίες στα NeurIPS, Cell και Neuron.

Δρ Ashish Khetan είναι Ανώτερος Εφαρμοσμένος Επιστήμονας με Ενσωματωμένοι αλγόριθμοι Amazon SageMaker και βοηθά στην ανάπτυξη αλγορίθμων μηχανικής μάθησης. Πήρε το διδακτορικό του από το University of Illinois Urbana Champaign. Είναι ενεργός ερευνητής στη μηχανική μάθηση και στα στατιστικά συμπεράσματα και έχει δημοσιεύσει πολλές εργασίες σε συνέδρια NeurIPS, ICML, ICLR, JMLR, ACL και EMNLP.