Υλοποιήστε μια προσαρμοσμένη εργασία AutoML χρησιμοποιώντας προεπιλεγμένους αλγόριθμους στο Amazon SageMaker Automatic Model Tuning

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

AutoML σας επιτρέπει να αντλήσετε γρήγορες, γενικές πληροφορίες από τα δεδομένα σας ακριβώς στην αρχή ενός κύκλου ζωής έργου μηχανικής εκμάθησης (ML). Η εκ των προτέρων κατανόηση των τεχνικών προεπεξεργασίας και των τύπων αλγορίθμων που παρέχουν τα καλύτερα αποτελέσματα μειώνει τον χρόνο ανάπτυξης, εκπαίδευσης και ανάπτυξης του σωστού μοντέλου. Διαδραματίζει κρίσιμο ρόλο στη διαδικασία ανάπτυξης κάθε μοντέλου και επιτρέπει στους επιστήμονες δεδομένων να επικεντρωθούν στις πιο υποσχόμενες τεχνικές ML. Επιπλέον, η AutoML παρέχει μια βασική απόδοση του μοντέλου που μπορεί να χρησιμεύσει ως σημείο αναφοράς για την ομάδα επιστήμης δεδομένων.

Ένα εργαλείο AutoML εφαρμόζει έναν συνδυασμό διαφορετικών αλγορίθμων και διαφόρων τεχνικών προεπεξεργασίας στα δεδομένα σας. Για παράδειγμα, μπορεί να κλιμακώσει τα δεδομένα, να εκτελέσει μονομεταβλητή επιλογή χαρακτηριστικών, να πραγματοποιήσει PCA σε διαφορετικά επίπεδα κατωφλίου διακύμανσης και να εφαρμόσει ομαδοποίηση. Τέτοιες τεχνικές προεπεξεργασίας θα μπορούσαν να εφαρμοστούν μεμονωμένα ή να συνδυαστούν σε έναν αγωγό. Στη συνέχεια, ένα εργαλείο AutoML θα εκπαιδεύσει διαφορετικούς τύπους μοντέλων, όπως Γραμμική παλινδρόμηση, Elastic-Net ή Random Forest, σε διαφορετικές εκδόσεις του προεπεξεργασμένου συνόλου δεδομένων σας και θα εκτελούσε βελτιστοποίηση υπερπαραμέτρων (HPO). Αυτόματος πιλότος Amazon SageMaker εξαλείφει τη βαριά ανύψωση των μοντέλων κατασκευής ML. Μετά την παροχή του συνόλου δεδομένων, το SageMaker Autopilot εξερευνά αυτόματα διαφορετικές λύσεις για να βρει το καλύτερο μοντέλο. Τι γίνεται όμως αν θέλετε να αναπτύξετε την προσαρμοσμένη έκδοση μιας ροής εργασίας AutoML;

Αυτή η ανάρτηση δείχνει πώς να δημιουργήσετε μια προσαρμοσμένη ροή εργασίας AutoML Amazon Sage Maker χρησιμοποιώντας Αυτόματος συντονισμός μοντέλων Amazon SageMaker με δείγμα κώδικα διαθέσιμο σε α Repo GitHub.

Επισκόπηση λύσεων

Για αυτήν την περίπτωση χρήσης, ας υποθέσουμε ότι είστε μέλος μιας ομάδας επιστήμης δεδομένων που αναπτύσσει μοντέλα σε έναν εξειδικευμένο τομέα. Έχετε αναπτύξει ένα σύνολο προσαρμοσμένων τεχνικών προεπεξεργασίας και επιλέξατε έναν αριθμό αλγορίθμων που συνήθως περιμένετε να λειτουργούν καλά με το πρόβλημά σας ML. Όταν εργάζεστε σε νέες περιπτώσεις χρήσης ML, θα θέλατε πρώτα να εκτελέσετε μια εκτέλεση AutoML χρησιμοποιώντας τις τεχνικές προεπεξεργασίας και τους αλγόριθμους σας για να περιορίσετε το εύρος των πιθανών λύσεων.

Για αυτό το παράδειγμα, δεν χρησιμοποιείτε εξειδικευμένο σύνολο δεδομένων. Αντίθετα, εργάζεστε με το σύνολο δεδομένων California Housing από το οποίο θα εισαγάγετε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3). Η εστίαση είναι να επιδειχθεί η τεχνική υλοποίηση της λύσης χρησιμοποιώντας το SageMaker HPO, το οποίο αργότερα μπορεί να εφαρμοστεί σε οποιοδήποτε σύνολο δεδομένων και τομέα.

Το παρακάτω διάγραμμα παρουσιάζει τη συνολική ροή εργασιών λύσης.

Προϋποθέσεις

Τα ακόλουθα είναι προαπαιτούμενα για την ολοκλήρωση της αναλυτικής παρουσίασης σε αυτήν την ανάρτηση:

Εφαρμόστε τη λύση

Ο πλήρης κωδικός είναι διαθέσιμος στο GitHub repo.

Τα βήματα για την υλοποίηση της λύσης (όπως σημειώνεται στο διάγραμμα ροής εργασιών) είναι τα εξής:

Δημιουργήστε μια παρουσία σημειωματάριου και διευκρινίστε τα εξής:
1. Για Τύπος παρουσίας σημειωματάριου, επιλέξτε ml.t3. ενδιάμεσο.
2. Για Ελαστική συναγωγή, επιλέξτε κανένας.
3. Για Αναγνωριστικό πλατφόρμας, επιλέξτε Amazon Linux 2, Jupyter Lab 3.
4. Για IAM ρόλο, επιλέξτε την προεπιλογή AmazonSageMaker-ExecutionRole. Εάν δεν υπάρχει, δημιουργήστε ένα νέο Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) ρόλο και επισυνάψτε το Πολιτική IAM του AmazonSageMakerFullAccess.

Σημειώστε ότι θα πρέπει να δημιουργήσετε έναν ρόλο και πολιτική εκτέλεσης ελάχιστης εμβέλειας στην παραγωγή.

Ανοίξτε τη διεπαφή JupyterLab για την παρουσία του φορητού υπολογιστή σας και κλωνοποιήστε το αποθετήριο GitHub.

Μπορείτε να το κάνετε αυτό ξεκινώντας μια νέα συνεδρία τερματικού και εκτελώντας το git clone <REPO> εντολή ή χρησιμοποιώντας τη λειτουργία διεπαφής χρήστη, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.

Ανοίξτε το automl.ipynb αρχείο σημειωματάριου, επιλέξτε το conda_python3 πυρήνα και ακολουθήστε τις οδηγίες για να ενεργοποιήσετε το a σύνολο εργασιών HPO.

Για να εκτελέσετε τον κωδικό χωρίς αλλαγές, πρέπει να αυξήσετε το όριο υπηρεσίας για ml.m5.large για χρήση εργασίας εκπαίδευσης και Αριθμός περιπτώσεων σε όλες τις εργασίες κατάρτισης. Το AWS επιτρέπει από προεπιλογή μόνο 20 παράλληλες εργασίες εκπαίδευσης του SageMaker και για τις δύο ποσοστώσεις. Πρέπει να ζητήσετε αύξηση ποσόστωσης σε 30 και για τα δύο. Και οι δύο αλλαγές ποσοστώσεων θα πρέπει συνήθως να εγκρίνονται μέσα σε λίγα λεπτά. Αναφέρομαι σε Αίτημα αύξησης ποσόστωσης Για περισσότερες πληροφορίες.

Εάν δεν θέλετε να αλλάξετε το όριο, μπορείτε απλώς να τροποποιήσετε την τιμή του MAX_PARALLEL_JOBS μεταβλητή στο σενάριο (για παράδειγμα, σε 5).

Κάθε εργασία HPO θα ολοκληρώσει ένα σύνολο εκπαιδευτική δουλειά δοκιμές και υποδεικνύουν το μοντέλο με τις βέλτιστες υπερπαραμέτρους.
Αναλύστε τα αποτελέσματα και αναπτύξτε το μοντέλο με τις καλύτερες επιδόσεις.

Αυτή η λύση θα επιφέρει κόστος στον λογαριασμό σας AWS. Το κόστος αυτής της λύσης θα εξαρτηθεί από τον αριθμό και τη διάρκεια των εργασιών εκπαίδευσης HPO. Όσο αυτά αυξάνονται, τόσο θα αυξάνεται και το κόστος. Μπορείτε να μειώσετε το κόστος περιορίζοντας τον χρόνο εκπαίδευσης και ρυθμίζοντας τις παραμέτρους TuningJobCompletionCriteriaConfig σύμφωνα με τις οδηγίες που θα συζητηθούν αργότερα σε αυτήν την ανάρτηση. Για πληροφορίες τιμολόγησης, ανατρέξτε στο Τιμολόγηση του Amazon SageMaker.

Στις επόμενες ενότητες, θα συζητήσουμε το σημειωματάριο με περισσότερες λεπτομέρειες με παραδείγματα κώδικα και τα βήματα για την ανάλυση των αποτελεσμάτων και την επιλογή του καλύτερου μοντέλου.

Αρχική εγκατάσταση

Ας ξεκινήσουμε με την εκτέλεση του Εισαγωγές & Ρύθμιση στο τμήμα custom-automl.ipynb σημειωματάριο. Εγκαθιστά και εισάγει όλες τις απαιτούμενες εξαρτήσεις, δημιουργεί μια περίοδο λειτουργίας και πελάτη SageMaker και ορίζει τον προεπιλεγμένο κάδο Region και S3 για την αποθήκευση δεδομένων.

Προετοιμασία δεδομένων

Κατεβάστε το σύνολο δεδομένων California Housing και προετοιμάστε το εκτελώντας το Λήψη δεδομένων τμήμα του σημειωματάριου. Το σύνολο δεδομένων χωρίζεται σε πλαίσια δεδομένων εκπαίδευσης και δοκιμής και αποστέλλεται στον προεπιλεγμένο κάδο συνεδρίας SageMaker S3.

Ολόκληρο το σύνολο δεδομένων έχει 20,640 εγγραφές και 9 στήλες συνολικά, συμπεριλαμβανομένου του στόχου. Ο στόχος είναι να προβλέψουμε τη διάμεση αξία ενός σπιτιού (medianHouseValue στήλη). Το ακόλουθο στιγμιότυπο οθόνης δείχνει τις επάνω σειρές του συνόλου δεδομένων.

Πρότυπο σεναρίου εκπαίδευσης

Η ροή εργασίας AutoML σε αυτήν την ανάρτηση βασίζεται σε scikit-μάθετε προεπεξεργασία αγωγών και αλγορίθμων. Ο στόχος είναι να δημιουργηθεί ένας μεγάλος συνδυασμός διαφορετικών αγωγών προεπεξεργασίας και αλγορίθμων για να βρεθεί η ρύθμιση με την καλύτερη απόδοση. Ας ξεκινήσουμε με τη δημιουργία ενός γενικού σεναρίου εκπαίδευσης, το οποίο διατηρείται τοπικά στην παρουσία του σημειωματάριου. Σε αυτό το σενάριο, υπάρχουν δύο κενά μπλοκ σχολίων: ένα για την έγχυση υπερπαραμέτρων και το άλλο για το αντικείμενο διοχέτευσης μοντέλου προεπεξεργασίας. Θα εγχέονται δυναμικά για κάθε υποψήφιο μοντέλο προεπεξεργασίας. Ο σκοπός της ύπαρξης ενός γενικού σεναρίου είναι να διατηρήσετε την υλοποίηση DRY (μην επαναλάβετε τον εαυτό σας).

#create base script
_script = """
import argparse
import joblib
import os
import numpy as np
import pandas as pd
from sklearn.metrics import mean_squared_error
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.impute import SimpleImputer
from sklearn.cluster import KMeans
from sklearn.linear_model import ElasticNet
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
###########################
### Inference functions ###
###########################
def model_fn(model_dir):
clf = joblib.load(os.path.join(model_dir, "model.joblib"))
return clf
if __name__ == "__main__":
print("Extracting arguments")
parser = argparse.ArgumentParser()
# Hyperparameters
##### WILL BE INSERTED DYNAMICALLY #####
{}
############################
# Data, model, and output directories
parser.add_argument("--model-dir", type=str, default=os.environ.get("SM_MODEL_DIR"))
parser.add_argument("--train", type=str, default=os.environ.get("SM_CHANNEL_TRAIN"))
parser.add_argument("--test", type=str, default=os.environ.get("SM_CHANNEL_TEST"))
parser.add_argument("--train-file", type=str, default="train.parquet")
parser.add_argument("--test-file", type=str, default="test.parquet")
parser.add_argument("--features", type=str)
parser.add_argument("--target", type=str)
args, _ = parser.parse_known_args()
# Load and prepare data
train_df = pd.read_parquet(os.path.join(args.train, args.train_file))
test_df = pd.read_parquet(os.path.join(args.test, args.test_file))
X_train = train_df[args.features.split()]
X_test = test_df[args.features.split()]
y_train = train_df[args.target]
y_test = test_df[args.target]
# Train model
##### WILL BE INSERTED DYNAMICALLY #####
{}
{}
############################
pipeline = Pipeline([('preprocessor', preprocessor), ('model', model)])
pipeline.fit(X_train, y_train)
# Validate model and print metrics
rmse = mean_squared_error(y_test, pipeline.predict(X_test), squared=False)
print("RMSE: " + str(rmse))
# Persist model
path = os.path.join(args.model_dir, "model.joblib")
joblib.dump(pipeline, path) """
# write _script to file just to have it in hand
with open("script_draft.py", "w") as f:
print(_script, file=f)

Δημιουργήστε συνδυασμούς προεπεξεργασίας και μοντέλων

Η preprocessors Το λεξικό περιέχει μια προδιαγραφή τεχνικών προεπεξεργασίας που εφαρμόζονται σε όλα τα χαρακτηριστικά εισόδου του μοντέλου. Κάθε συνταγή ορίζεται χρησιμοποιώντας ένα Pipeline ή ένα FeatureUnion αντικείμενο από το scikit-learn, το οποίο ενώνει μεμονωμένους μετασχηματισμούς δεδομένων και τους στοιβάζει μαζί. Για παράδειγμα, mean-imp-scale είναι μια απλή συνταγή που διασφαλίζει ότι οι τιμές που λείπουν καταλογίζονται χρησιμοποιώντας τις μέσες τιμές των αντίστοιχων στηλών και ότι όλα τα χαρακτηριστικά κλιμακώνονται χρησιμοποιώντας το StandardScaler. Σε αντίθεση, το mean-imp-scale-pca αλυσίδες συνταγών μαζί μερικές ακόμη λειτουργίες:

Υπολογίστε τις τιμές που λείπουν στις στήλες με τον μέσο όρο τους.
Εφαρμόστε κλιμάκωση χαρακτηριστικών χρησιμοποιώντας τη μέση και τυπική απόκλιση.
Υπολογίστε το PCA πάνω από τα δεδομένα εισόδου σε μια καθορισμένη τιμή κατωφλίου διακύμανσης και συγχωνεύστε το μαζί με τις τεκμαρτές και κλιμακούμενες δυνατότητες εισόδου.

Σε αυτήν την ανάρτηση, όλες οι δυνατότητες εισαγωγής είναι αριθμητικές. Εάν έχετε περισσότερους τύπους δεδομένων στο σύνολο δεδομένων εισόδου, θα πρέπει να καθορίσετε μια πιο περίπλοκη διοχέτευση όπου εφαρμόζονται διαφορετικοί κλάδοι προεπεξεργασίας σε διαφορετικά σύνολα τύπων χαρακτηριστικών.

preprocessors = { "mean-imp-scale": "preprocessor = Pipeline([('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler())])n", "mean-imp-scale-knn": "preprocessor = FeatureUnion([('base-features', Pipeline([('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler())])), ('knn', Pipeline([('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler()), ('knn', KMeans(n_clusters=10))]))])n", "mean-imp-scale-pca": "preprocessor = FeatureUnion([('base-features', Pipeline([('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler())])), ('pca', Pipeline([('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler()), ('pca', PCA(n_components=0.9))]))])n" }

Η models Το λεξικό περιέχει προδιαγραφές διαφορετικών αλγορίθμων στους οποίους προσαρμόζετε το σύνολο δεδομένων. Κάθε τύπος μοντέλου συνοδεύεται από τις ακόλουθες προδιαγραφές στο λεξικό:

script_output – Υποδεικνύει τη θέση του σεναρίου εκπαίδευσης που χρησιμοποιείται από τον εκτιμητή. Αυτό το πεδίο συμπληρώνεται δυναμικά όταν το models λεξικό συνδυάζεται με το preprocessors λεξικό.
εισαγωγές – Καθορίζει τον κώδικα που θα εισαχθεί στο script_draft.py και στη συνέχεια αποθηκεύτηκε κάτω από script_output. Το κλειδί “preprocessor” αφήνεται σκόπιμα κενή επειδή αυτή η θέση είναι γεμάτη με έναν από τους προεπεξεργαστές προκειμένου να δημιουργηθούν πολλαπλοί συνδυασμοί μοντέλου-προεπεξεργαστή.
υπερπαραμέτρους – Ένα σύνολο υπερπαραμέτρων που βελτιστοποιούνται από την εργασία HPO.
include_cls_metadata – Απαιτούνται περισσότερες λεπτομέρειες διαμόρφωσης από το SageMaker Tuner τάξη.

Ένα πλήρες παράδειγμα του models Το λεξικό είναι διαθέσιμο στο αποθετήριο GitHub.

models = { "rf": { "script_output": None, "insertions": { # Arguments "arguments" : "parser.add_argument('--n_estimators', type=int, default=100)n"+ " parser.add_argument('--max_depth', type=int, default=None)n"+ " parser.add_argument('--min_samples_leaf', type=int, default=1)n"+ " parser.add_argument('--min_samples_split', type=int, default=2)n"+ " parser.add_argument('--max_features', type=str, default='auto')n", # Model call "preprocessor": None, "model_call" : "model = RandomForestRegressor(n_estimators=args.n_estimators,max_depth=args.max_depth,min_samples_leaf=args.min_samples_leaf,min_samples_split=args.min_samples_split,max_features=args.max_features)n" }, "hyperparameters": { "n_estimators": IntegerParameter(100, 2000, "Linear"), "max_depth": IntegerParameter(1, 100, "Logarithmic"), "min_samples_leaf": IntegerParameter(1, 6, "Linear"), "min_samples_split": IntegerParameter(2, 20, "Linear"), "max_features": CategoricalParameter(["auto", "sqrt", "log2"]), }, "include_cls_metadata": False, }
}

Στη συνέχεια, ας επαναλάβουμε το preprocessors και models λεξικά και να δημιουργήσετε όλους τους πιθανούς συνδυασμούς. Για παράδειγμα, εάν σας preprocessors Το λεξικό περιέχει 10 συνταγές και έχετε 5 ορισμούς μοντέλων στο models λεξικό, το λεξικό αγωγών που δημιουργήθηκε πρόσφατα περιέχει 50 αγωγούς προεπεξεργαστή-μοντέλων που αξιολογούνται κατά τη διάρκεια του HPO. Σημειώστε ότι σε αυτό το σημείο δεν έχουν δημιουργηθεί ακόμη μεμονωμένα σενάρια διοχέτευσης. Το επόμενο μπλοκ κώδικα (κελί 9) του σημειωματάριου Jupyter επαναλαμβάνεται μέσω όλων των αντικειμένων του μοντέλου προεπεξεργαστή στο pipelines λεξικό, εισάγει όλα τα σχετικά κομμάτια κώδικα και διατηρεί μια έκδοση του σεναρίου για συγκεκριμένη γραμμή τοπικά στο σημειωματάριο. Αυτά τα σενάρια χρησιμοποιούνται στα επόμενα βήματα κατά τη δημιουργία μεμονωμένων εκτιμητών που συνδέετε στην εργασία HPO.

pipelines = {}
for model_name, model_spec in models.items(): pipelines[model_name] = {} for preprocessor_name, preprocessor_spec in preprocessors.items(): pipeline_name = f"{model_name}-{preprocessor_name}" pipelines[model_name][pipeline_name] = {} pipelines[model_name][pipeline_name]["insertions"] = {} pipelines[model_name][pipeline_name]["insertions"]["preprocessor"] = preprocessor_spec pipelines[model_name][pipeline_name]["hyperparameters"] = model_spec["hyperparameters"] pipelines[model_name][pipeline_name]["include_cls_metadata"] = model_spec["include_cls_metadata"] pipelines[model_name][pipeline_name]["insertions"]["arguments"] = model_spec["insertions"]["arguments"] pipelines[model_name][pipeline_name]["insertions"]["model_call"] = model_spec["insertions"]["model_call"] pipelines[model_name][pipeline_name]["script_output"] = f"scripts/{model_name}/script-{pipeline_name}.py"

Ορίστε τους εκτιμητές

Τώρα μπορείτε να εργαστείτε για τον καθορισμό των εκτιμητών SageMaker που χρησιμοποιεί η εργασία HPO αφού είναι έτοιμα τα σενάρια. Ας ξεκινήσουμε με τη δημιουργία μιας κλάσης περιτυλίγματος που ορίζει ορισμένες κοινές ιδιότητες για όλους τους εκτιμητές. Κληρονομεί από το SKLearn κλάση και καθορίζει τον ρόλο, τον αριθμό παρουσιών και τον τύπο, καθώς και ποιες στήλες χρησιμοποιούνται από το σενάριο ως χαρακτηριστικά και ως στόχο.

class SKLearnBase(SKLearn): def __init__( self, entry_point=".", # intentionally left blank, will be overwritten in the next function framework_version="1.2-1", role=sm_role, instance_count=1, instance_type="ml.c5.xlarge", hyperparameters={ "features": "medianIncome housingMedianAge totalRooms totalBedrooms population households latitude longitude", "target": "medianHouseValue", }, **kwargs, ): super(SKLearnBase, self).__init__( entry_point=entry_point, framework_version=framework_version, role=role, instance_count=instance_count, instance_type=instance_type, hyperparameters=hyperparameters, **kwargs )

Ας χτίσουμε το estimators λεξικό επαναλαμβάνοντας όλα τα σενάρια που δημιουργήθηκαν πριν και βρίσκονται στο scripts Ευρετήριο. Δημιουργείτε ένα νέο εκτιμητή χρησιμοποιώντας το SKLearnBase class, με ένα μοναδικό όνομα εκτιμητή και ένα από τα σενάρια. Σημειώστε ότι το estimators Το λεξικό έχει δύο επίπεδα: το ανώτερο επίπεδο ορίζει α pipeline_family. Αυτή είναι μια λογική ομαδοποίηση που βασίζεται στον τύπο των μοντέλων προς αξιολόγηση και ισούται με το μήκος του models λεξικό. Το δεύτερο επίπεδο περιέχει μεμονωμένους τύπους προεπεξεργαστή σε συνδυασμό με τους δεδομένους pipeline_family. Αυτή η λογική ομαδοποίηση απαιτείται κατά τη δημιουργία της εργασίας HPO.

estimators = {}
for pipeline_family in pipelines.keys(): estimators[pipeline_family] = {} scripts = os.listdir(f"scripts/{pipeline_family}") for script in scripts: if script.endswith(".py"): estimator_name = script.split(".")[0].replace("_", "-").replace("script", "estimator") estimators[pipeline_family][estimator_name] = SKLearnBase( entry_point=f"scripts/{pipeline_family}/{script}", base_job_name=estimator_name, )

Ορίστε ορίσματα δέκτη HPO

Για να βελτιστοποιήσετε τη μετάδοση ορισμάτων στο HPO Tuner τάξη, η HyperparameterTunerArgs Η κλάση δεδομένων αρχικοποιείται με ορίσματα που απαιτούνται από την κλάση HPO. Έρχεται με ένα σύνολο συναρτήσεων, οι οποίες διασφαλίζουν ότι τα ορίσματα HPO επιστρέφονται σε μια μορφή που αναμένεται κατά την ανάπτυξη πολλαπλών ορισμών μοντέλων ταυτόχρονα.

@dataclass
class HyperparameterTunerArgs: base_job_names: list[str] estimators: list[object] inputs: dict[str] objective_metric_name: str hyperparameter_ranges: list[dict] metric_definition: dict[str] include_cls_metadata: list[bool] def get_estimator_dict(self) -> dict: return {k:v for (k, v) in zip(self.base_job_names, self.estimators)} def get_inputs_dict(self) -> dict: return {k:v for (k, v) in zip(self.base_job_names, [self.inputs]*len(self.base_job_names))} def get_objective_metric_name_dict(self) -> dict: return {k:v for (k, v) in zip(self.base_job_names, [self.objective_metric_name]*len(self.base_job_names))} def get_hyperparameter_ranges_dict(self) -> dict: return {k:v for (k, v) in zip(self.base_job_names, self.hyperparameter_ranges)} def get_metric_definition_dict(self) -> dict: return {k:[v] for (k, v) in zip(self.base_job_names, [self.metric_definition]*len(self.base_job_names))} def get_include_cls_metadata_dict(self) -> dict: return {k:v for (k, v) in zip(self.base_job_names, self.include_cls_metadata)}

Το επόμενο μπλοκ κώδικα χρησιμοποιεί τον προηγουμένως εισαγόμενο HyperparameterTunerArgs κλάση δεδομένων. Δημιουργείτε ένα άλλο λεξικό που ονομάζεται hp_args και να δημιουργήσετε ένα σύνολο παραμέτρων εισαγωγής ειδικών για το καθένα estimator_family από το estimators λεξικό. Αυτά τα ορίσματα χρησιμοποιούνται στο επόμενο βήμα κατά την προετοιμασία εργασιών HPO για κάθε οικογένεια μοντέλων.

hp_args = {}
for estimator_family, estimators in estimators.items(): hp_args[estimator_family] = HyperparameterTunerArgs( base_job_names=list(estimators.keys()), estimators=list(estimators.values()), inputs={"train": s3_data_train.uri, "test": s3_data_test.uri}, objective_metric_name="RMSE", hyperparameter_ranges=[pipeline.get("hyperparameters") for pipeline in pipelines[estimator_family].values()], metric_definition={"Name": "RMSE", "Regex": "RMSE: ([0-9.]+).*$"}, include_cls_metadata=[pipeline.get("include_cls_metadata") for pipeline in pipelines[estimator_family].values()], )

Δημιουργία αντικειμένων δέκτη HPO

Σε αυτό το βήμα, δημιουργείτε μεμονωμένους δέκτες για κάθε ένα estimator_family. Γιατί δημιουργείτε τρεις ξεχωριστές θέσεις εργασίας HPO αντί να ξεκινήσετε μόνο μία σε όλους τους εκτιμητές; ο HyperparameterTuner Η κλάση περιορίζεται σε 10 ορισμούς μοντέλων που επισυνάπτονται σε αυτήν. Επομένως, κάθε HPO είναι υπεύθυνο για την εύρεση του προεπεξεργαστή με τις καλύτερες επιδόσεις για μια δεδομένη οικογένεια μοντέλων και τον συντονισμό των υπερπαραμέτρων αυτής της οικογένειας μοντέλων.

Ακολουθούν μερικά ακόμη σημεία σχετικά με τη ρύθμιση:

Η στρατηγική βελτιστοποίησης είναι Bayesian, πράγμα που σημαίνει ότι το HPO παρακολουθεί ενεργά την απόδοση όλων των δοκιμών και κατευθύνει τη βελτιστοποίηση προς πιο πολλά υποσχόμενους συνδυασμούς υπερπαραμέτρων. Η πρόωρη διακοπή πρέπει να ρυθμιστεί σε Εκτός or AUTO όταν εργάζεστε με μια Μπεϋζιανή στρατηγική, η οποία χειρίζεται αυτή τη λογική.
Κάθε εργασία HPO εκτελείται για έως και 100 εργασίες και εκτελεί 10 εργασίες παράλληλα. Εάν έχετε να κάνετε με μεγαλύτερα σύνολα δεδομένων, ίσως θελήσετε να αυξήσετε τον συνολικό αριθμό εργασιών.
Επιπλέον, μπορεί να θέλετε να χρησιμοποιήσετε ρυθμίσεις που ελέγχουν πόσο καιρό εκτελείται μια εργασία και πόσες εργασίες ενεργοποιεί το HPO σας. Ένας τρόπος για να γίνει αυτό είναι να ορίσετε τον μέγιστο χρόνο εκτέλεσης σε δευτερόλεπτα (για αυτήν την ανάρτηση, τον ορίσαμε σε 1 ώρα). Ένα άλλο είναι να χρησιμοποιήσετε το πρόσφατα κυκλοφορήσει TuningJobCompletionCriteriaConfig. Προσφέρει ένα σύνολο ρυθμίσεων που παρακολουθούν την πρόοδο των εργασιών σας και αποφασίζουν εάν είναι πιθανό περισσότερες εργασίες να βελτιώσουν το αποτέλεσμα. Σε αυτήν την ανάρτηση, ορίσαμε τον μέγιστο αριθμό εργασιών εκπαίδευσης που δεν βελτιώνονται σε 20. Με αυτόν τον τρόπο, εάν η βαθμολογία δεν βελτιώνεται (για παράδειγμα, από την τεσσαρακοστή δοκιμή), δεν θα χρειαστεί να πληρώσετε για τις υπόλοιπες δοκιμές μέχρι max_jobs επιτευχθεί.

STRATEGY = "Bayesian"
OBJECTIVE_TYPE = "Minimize"
MAX_JOBS = 100
MAX_PARALLEL_JOBS = 10
MAX_RUNTIME_IN_SECONDS = 3600
EARLY_STOPPING_TYPE = "Off"
# RANDOM_SEED = 42 # uncomment if you require reproducibility across runs
TUNING_JOB_COMPLETION_CRITERIA_CONFIG = TuningJobCompletionCriteriaConfig( max_number_of_training_jobs_not_improving=20, ) tuners = {}
for estimator_family, hp in hp_args.items(): tuners[estimator_family] = HyperparameterTuner.create( estimator_dict=hp.get_estimator_dict(), objective_metric_name_dict=hp.get_objective_metric_name_dict(), hyperparameter_ranges_dict=hp.get_hyperparameter_ranges_dict(), metric_definitions_dict=hp.get_metric_definition_dict(), strategy=STRATEGY, completion_criteria_config=TUNING_JOB_COMPLETION_CRITERIA_CONFIG, objective_type=OBJECTIVE_TYPE, max_jobs=MAX_JOBS, max_parallel_jobs=MAX_PARALLEL_JOBS, max_runtime_in_seconds=MAX_RUNTIME_IN_SECONDS, base_tuning_job_name=f"custom-automl-{estimator_family}", early_stopping_type=EARLY_STOPPING_TYPE, # early stopping of training jobs is not currently supported when multiple training job definitions are used # random_seed=RANDOM_SEED, )

Τώρα ας επαναλάβουμε το tuners και hp_args λεξικά και ενεργοποιούν όλες τις εργασίες HPO στο SageMaker. Σημειώστε τη χρήση του ορίσματος αναμονής που έχει οριστεί σε False, πράγμα που σημαίνει ότι ο πυρήνας δεν θα περιμένει μέχρι να ολοκληρωθούν τα αποτελέσματα και μπορείτε να ενεργοποιήσετε όλες τις εργασίες ταυτόχρονα.

Είναι πιθανό ότι δεν θα ολοκληρωθούν όλες οι εργασίες κατάρτισης και ορισμένες από αυτές μπορεί να σταματήσουν από την εργασία HPO. Ο λόγος για αυτό είναι η TuningJobCompletionCriteriaConfig— η βελτιστοποίηση τελειώνει εάν πληρούται κάποιο από τα καθορισμένα κριτήρια. Σε αυτήν την περίπτωση, όταν τα κριτήρια βελτιστοποίησης δεν βελτιώνονται για 20 συνεχόμενες θέσεις εργασίας.

for tuner, hpo in zip(tuners.values(), hp_args.values()): tuner.fit( inputs=hpo.get_inputs_dict(), include_cls_metadata=hpo.get_include_cls_metadata_dict(), wait=False, )

Αναλύστε τα αποτελέσματα

Το κελί 15 του σημειωματάριου ελέγχει εάν όλες οι εργασίες HPO έχουν ολοκληρωθεί και συνδυάζει όλα τα αποτελέσματα με τη μορφή πλαισίου δεδομένων pandas για περαιτέρω ανάλυση. Πριν αναλύσουμε τα αποτελέσματα λεπτομερώς, ας ρίξουμε μια ματιά σε υψηλό επίπεδο στην κονσόλα SageMaker.

Στην κορυφή της η Εργασίες συντονισμού υπερπαραμέτρων σελίδα, μπορείτε να δείτε τις τρεις θέσεις εργασίας HPO που ξεκινήσατε. Όλοι τους τελείωσαν νωρίς και δεν έκαναν και τις 100 εργασίες εκπαίδευσης. Στο παρακάτω στιγμιότυπο οθόνης, μπορείτε να δείτε ότι η οικογένεια μοντέλων Elastic-Net ολοκλήρωσε τον υψηλότερο αριθμό δοκιμών, ενώ άλλες δεν χρειάζονταν τόσες πολλές εργασίες εκπαίδευσης για να βρουν το καλύτερο αποτέλεσμα.

Μπορείτε να ανοίξετε την εργασία HPO για να αποκτήσετε πρόσβαση σε περισσότερες λεπτομέρειες, όπως μεμονωμένες εργασίες εκπαίδευσης, διαμόρφωση εργασίας και πληροφορίες και απόδοση της καλύτερης εργασίας εκπαίδευσης.

Ας δημιουργήσουμε μια οπτικοποίηση με βάση τα αποτελέσματα για να λάβουμε περισσότερες πληροφορίες σχετικά με την απόδοση της ροής εργασίας AutoML σε όλες τις οικογένειες μοντέλων.

Από το παρακάτω γράφημα, μπορείτε να συμπεράνετε ότι το Elastic-Net η απόδοση του μοντέλου κυμαινόταν μεταξύ 70,000 και 80,000 RMSE και τελικά σταμάτησε, καθώς ο αλγόριθμος δεν ήταν σε θέση να βελτιώσει την απόδοσή του παρά τη δοκιμή διαφόρων τεχνικών προεπεξεργασίας και τιμών υπερπαραμέτρων. Φαίνεται επίσης ότι RandomForest Η απόδοση διέφερε πολύ ανάλογα με το σύνολο υπερπαραμέτρων που διερευνήθηκε από το HPO, αλλά παρά τις πολλές δοκιμές δεν μπορούσε να πάει κάτω από το σφάλμα 50,000 RMSE. GradientBoosting πέτυχε την καλύτερη απόδοση ήδη από την αρχή κάτω από τις 50,000 RMSE. Το HPO προσπάθησε να βελτιώσει περαιτέρω αυτό το αποτέλεσμα, αλλά δεν μπόρεσε να επιτύχει καλύτερη απόδοση σε άλλους συνδυασμούς υπερπαραμέτρων. Ένα γενικό συμπέρασμα για όλες τις εργασίες HPO είναι ότι δεν απαιτήθηκαν τόσες πολλές εργασίες για να βρεθεί το σύνολο υπερπαραμέτρων με την καλύτερη απόδοση για κάθε αλγόριθμο. Για να βελτιώσετε περαιτέρω το αποτέλεσμα, θα χρειαστεί να πειραματιστείτε με τη δημιουργία περισσότερων λειτουργιών και την εκτέλεση πρόσθετων μηχανικών χαρακτηριστικών.

Μπορείτε επίσης να εξετάσετε μια πιο λεπτομερή άποψη του συνδυασμού μοντέλου-προεπεξεργαστή για να βγάλετε συμπεράσματα σχετικά με τους πιο πολλά υποσχόμενους συνδυασμούς.

Επιλέξτε το καλύτερο μοντέλο και αναπτύξτε το

Το παρακάτω απόσπασμα κώδικα επιλέγει το καλύτερο μοντέλο με βάση τη χαμηλότερη τιμή στόχου που έχει επιτευχθεί. Στη συνέχεια, μπορείτε να αναπτύξετε το μοντέλο ως τελικό σημείο του SageMaker.

df_best_job = df_tuner_results.loc[df_tuner_results["FinalObjectiveValue"] == df_tuner_results["FinalObjectiveValue"].min()]
df_best_job
BEST_MODEL_FAMILY = df_best_job["TrainingJobFamily"].values[0] tuners.get(BEST_MODEL_FAMILY).best_training_job() tuners.get(BEST_MODEL_FAMILY).best_estimator() predictor = tuners.get(BEST_MODEL_FAMILY).deploy( initial_instance_count=1, instance_type="ml.c4.large", endpoint_name=f"custom-automl-endpoint-{BEST_MODEL_FAMILY}",
)

εκκαθάριση

Για να αποτρέψετε ανεπιθύμητες χρεώσεις στον λογαριασμό σας AWS, συνιστούμε να διαγράψετε τους πόρους AWS που χρησιμοποιήσατε σε αυτήν την ανάρτηση:

Στην κονσόλα Amazon S3, αδειάστε τα δεδομένα από τον κάδο S3 όπου ήταν αποθηκευμένα τα δεδομένα εκπαίδευσης.

Στην κονσόλα SageMaker, σταματήστε την παρουσία του σημειωματαρίου.

Διαγράψτε το τελικό σημείο του μοντέλου εάν το αναπτύξατε. Τα τελικά σημεία θα πρέπει να διαγράφονται όταν δεν χρησιμοποιούνται πλέον, επειδή χρεώνονται με βάση τον χρόνο ανάπτυξης.

sm_client.delete_endpoint(EndpointName=predictor.endpoint)

Συμπέρασμα

Σε αυτήν την ανάρτηση, παρουσιάσαμε πώς να δημιουργήσετε μια προσαρμοσμένη εργασία HPO στο SageMaker χρησιμοποιώντας μια προσαρμοσμένη επιλογή αλγορίθμων και τεχνικών προεπεξεργασίας. Συγκεκριμένα, αυτό το παράδειγμα δείχνει πώς να αυτοματοποιήσετε τη διαδικασία δημιουργίας πολλών σεναρίων εκπαίδευσης και πώς να χρησιμοποιήσετε δομές προγραμματισμού Python για αποτελεσματική ανάπτυξη πολλαπλών παράλληλων εργασιών βελτιστοποίησης. Ελπίζουμε ότι αυτή η λύση θα αποτελέσει τη σκαλωσιά οποιωνδήποτε εργασιών συντονισμού προσαρμοσμένων μοντέλων που θα αναπτύξετε χρησιμοποιώντας το SageMaker για να επιτύχετε υψηλότερη απόδοση και να επιταχύνετε τις ροές εργασίας σας ML.

Δείτε τους παρακάτω πόρους για να εμβαθύνετε περαιτέρω τις γνώσεις σας σχετικά με τον τρόπο χρήσης του SageMaker HPO:

Σχετικά με τους Συγγραφείς

Κόνραντ Σέμς είναι Senior ML Solutions Architect στην ομάδα του Amazon Web Services Data Lab. Βοηθά τους πελάτες να χρησιμοποιούν μηχανική εκμάθηση για να λύσουν τις επιχειρηματικές τους προκλήσεις με το AWS. Του αρέσει να εφευρίσκει και να απλοποιεί για να παρέχει στους πελάτες απλές και ρεαλιστικές λύσεις για τα έργα τους AI/ML. Είναι πιο παθιασμένος με τα MlOps και την παραδοσιακή επιστήμη δεδομένων. Εκτός δουλειάς, είναι μεγάλος λάτρης του windsurfing και του kitesurfing.

Τόνος Ερσόι είναι Senior Solutions Architect στην AWS. Η κύρια εστίασή της είναι να βοηθά τους πελάτες του Δημόσιου Τομέα να υιοθετήσουν τεχνολογίες cloud για τον φόρτο εργασίας τους. Έχει ένα υπόβαθρο στην ανάπτυξη εφαρμογών, την αρχιτεκτονική επιχειρήσεων και τις τεχνολογίες κέντρων επαφής. Τα ενδιαφέροντά της περιλαμβάνουν αρχιτεκτονικές χωρίς διακομιστή και AI/ML.

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
πηγή: https://aws.amazon.com/blogs/machine-learning/implement-a-custom-automl-job-using-pre-selected-algorithms-in-amazon-sagemaker-automatic-model-tuning/

Σφραγίδα ώρας: Νοέμβριος 15, 2023

Σφραγίδα ώρας: 25 Ιανουαρίου 2023

Αναδημοσίευση από τον Πλάτωνα

Νέες δυνατότητες για το Amazon SageMaker Pipelines και το Amazon SageMaker SDK

Βελτιώστε την αποτελεσματικότητα της αναθεώρησης και της έγκρισης κώδικα με τη γενετική τεχνητή νοημοσύνη χρησιμοποιώντας το Amazon Bedrock | Υπηρεσίες Ιστού της Amazon

Πώς το BigBasket βελτίωσε το ταμείο με δυνατότητα τεχνητής νοημοσύνης στα φυσικά του καταστήματα χρησιμοποιώντας το Amazon SageMaker | Υπηρεσίες Ιστού της Amazon

Δημιουργήστε στόχευση με βάση την ταξινόμηση με βάση τα συμφραζόμενα χρησιμοποιώντας το AWS Media Intelligence και το Hugging Face BERT

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός