ایمیزون سیج میکر آٹومیٹک ماڈل ٹیوننگ میں پہلے سے منتخب الگورتھم کا استعمال کرتے ہوئے اپنی مرضی کے مطابق آٹو ایم ایل جاب کو نافذ کریں۔ ایمیزون ویب سروسز

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

آٹو ایم ایل آپ کو مشین لرننگ (ML) پروجیکٹ لائف سائیکل کے آغاز میں ہی آپ کے ڈیٹا سے تیز رفتار، عمومی بصیرت حاصل کرنے کی اجازت دیتا ہے۔ پیشگی پروسیسنگ تکنیکوں اور الگورتھم کی اقسام کو بہترین نتائج فراہم کرنے والے سامنے کو سمجھنا صحیح ماڈل کو تیار کرنے، تربیت دینے اور تعینات کرنے کا وقت کم کر دیتا ہے۔ یہ ہر ماڈل کی ترقی کے عمل میں ایک اہم کردار ادا کرتا ہے اور ڈیٹا سائنسدانوں کو سب سے زیادہ امید افزا ML تکنیکوں پر توجہ مرکوز کرنے کی اجازت دیتا ہے۔ مزید برآں، آٹو ایم ایل ایک بیس لائن ماڈل کی کارکردگی فراہم کرتا ہے جو ڈیٹا سائنس ٹیم کے لیے ایک حوالہ نقطہ کے طور پر کام کر سکتا ہے۔

ایک AutoML ٹول آپ کے ڈیٹا پر مختلف الگورتھم اور مختلف پری پروسیسنگ تکنیکوں کے امتزاج کا اطلاق کرتا ہے۔ مثال کے طور پر، یہ ڈیٹا کی پیمائش کر سکتا ہے، غیر متغیر فیچر سلیکشن کو انجام دے سکتا ہے، مختلف ویریئنس تھریشولڈ لیولز پر PCA کر سکتا ہے، اور کلسٹرنگ کا اطلاق کر سکتا ہے۔ اس طرح کی پری پروسیسنگ تکنیکوں کو انفرادی طور پر لاگو کیا جا سکتا ہے یا پائپ لائن میں ملایا جا سکتا ہے۔ اس کے بعد، ایک آٹو ایم ایل ٹول آپ کے پہلے سے تیار کردہ ڈیٹاسیٹ کے مختلف ورژنز پر مختلف ماڈل اقسام، جیسے لکیری ریگریشن، لچکدار-نیٹ، یا رینڈم فاریسٹ کو تربیت دے گا اور ہائپر پیرامیٹر آپٹیمائزیشن (HPO) انجام دے گا۔ ایمیزون سیج میکر آٹو پائلٹ ایم ایل ماڈلز کی بھاری لفٹنگ کو ختم کرتا ہے۔ ڈیٹا سیٹ فراہم کرنے کے بعد، SageMaker Autopilot بہترین ماڈل تلاش کرنے کے لیے خود بخود مختلف حل تلاش کرتا ہے۔ لیکن اگر آپ آٹو ایم ایل ورک فلو کا اپنا تیار کردہ ورژن تعینات کرنا چاہتے ہیں تو کیا ہوگا؟

یہ پوسٹ دکھاتی ہے کہ کس طرح اپنی مرضی کے مطابق آٹو ایم ایل ورک فلو تخلیق کیا جائے۔ ایمیزون سیج میکر کا استعمال کرتے ہوئے ایمیزون سیج میکر آٹومیٹک ماڈل ٹیوننگ a میں دستیاب نمونہ کوڈ کے ساتھ گٹ ہب ریپو۔

حل جائزہ

اس استعمال کے معاملے کے لیے، فرض کریں کہ آپ ڈیٹا سائنس ٹیم کا حصہ ہیں جو ایک خصوصی ڈومین میں ماڈل تیار کرتی ہے۔ آپ نے اپنی مرضی کے مطابق پری پروسیسنگ تکنیکوں کا ایک سیٹ تیار کیا ہے اور متعدد الگورتھم منتخب کیے ہیں جن سے آپ عام طور پر اپنے ML مسئلہ کے ساتھ بہتر کام کرنے کی توقع کرتے ہیں۔ ایم ایل کے استعمال کے نئے کیسز پر کام کرتے وقت، آپ اپنی پری پروسیسنگ تکنیکوں اور الگورتھم کا استعمال کرتے ہوئے ممکنہ حل کے دائرہ کار کو کم کرنے کے لیے پہلے آٹو ایم ایل رن کرنا چاہیں گے۔

اس مثال کے لیے، آپ خصوصی ڈیٹا سیٹ استعمال نہیں کرتے ہیں۔ اس کے بجائے، آپ کیلیفورنیا ہاؤسنگ ڈیٹاسیٹ کے ساتھ کام کرتے ہیں جس سے آپ درآمد کریں گے۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔ توجہ SageMaker HPO کا استعمال کرتے ہوئے حل کے تکنیکی نفاذ کو ظاہر کرنا ہے، جسے بعد میں کسی بھی ڈیٹاسیٹ اور ڈومین پر لاگو کیا جا سکتا ہے۔

مندرجہ ذیل خاکہ مجموعی حل کے ورک فلو کو پیش کرتا ہے۔

شرائط

اس پوسٹ میں واک تھرو مکمل کرنے کے لیے درج ذیل شرائط ہیں:

حل کو نافذ کریں۔

مکمل کوڈ میں دستیاب ہے۔ GitHub repo.

حل کو نافذ کرنے کے اقدامات (جیسا کہ ورک فلو ڈایاگرام میں بتایا گیا ہے) درج ذیل ہیں:

ایک نوٹ بک مثال بنائیں اور درج ذیل کی وضاحت کریں:
1. کے لئے نوٹ بک مثال کی قسممنتخب کریں ml.t3.medium.
2. کے لئے لچکدار اندازہمنتخب کریں کوئی نہیں.
3. کے لئے پلیٹ فارم شناخت کنندہمنتخب کریں ایمیزون لینکس 2، جوپیٹر لیب 3.
4. کے لئے IAM کا کردار، پہلے سے طے شدہ کا انتخاب کریں۔ AmazonSageMaker-ExecutionRole. اگر یہ موجود نہیں ہے تو ایک نیا بنائیں AWS شناخت اور رسائی کا انتظام (IAM) کا کردار اور منسلک کریں۔ AmazonSageMakerFullAccess IAM پالیسی.

نوٹ کریں کہ آپ کو پیداوار میں ایک کم سے کم دائرہ کار اور پالیسی بنانا چاہیے۔

اپنی نوٹ بک مثال کے لیے JupyterLab انٹرفیس کھولیں اور GitHub ریپو کو کلون کریں۔

آپ یہ ایک نیا ٹرمینل سیشن شروع کرکے اور چلا کر کر سکتے ہیں۔ git clone <REPO> کمانڈ یا UI فعالیت کا استعمال کرتے ہوئے، جیسا کہ درج ذیل اسکرین شاٹ میں دکھایا گیا ہے۔

کھولو automl.ipynb نوٹ بک فائل کو منتخب کریں۔ conda_python3 kernel، اور a کو متحرک کرنے کے لیے ہدایات پر عمل کریں۔ HPO ملازمتوں کا سیٹ.

بغیر کسی تبدیلی کے کوڈ کو چلانے کے لیے، آپ کو سروس کوٹہ بڑھانے کی ضرورت ہے۔ ml.m5.large تربیتی ملازمت کے استعمال کے لیے اور تمام تربیتی ملازمتوں میں مثالوں کی تعداد. AWS دونوں کوٹوں کے لیے پہلے سے طے شدہ طور پر صرف 20 متوازی SageMaker تربیتی ملازمتوں کی اجازت دیتا ہے۔ آپ کو دونوں کے لیے 30 کوٹہ بڑھانے کی درخواست کرنی ہوگی۔ دونوں کوٹہ تبدیلیوں کو عام طور پر چند منٹوں میں منظور کر لیا جانا چاہیے۔ کا حوالہ دیتے ہیں کوٹہ بڑھانے کی درخواست مزید معلومات کے لیے.

اگر آپ کوٹہ تبدیل نہیں کرنا چاہتے تو آپ آسانی سے کی قدر میں ترمیم کر سکتے ہیں۔ MAX_PARALLEL_JOBS اسکرپٹ میں متغیر (مثال کے طور پر، 5 تک)۔

ہر HPO کام کا ایک سیٹ مکمل کرے گا۔ تربیتی کام ٹرائلز اور زیادہ سے زیادہ ہائپرپیرامیٹر کے ساتھ ماڈل کی نشاندہی کریں۔
نتائج کا تجزیہ کریں اور بہترین کارکردگی کا مظاہرہ کرنے والا ماڈل تعینات کریں۔.

اس حل سے آپ کے AWS اکاؤنٹ میں لاگت آئے گی۔ اس حل کی قیمت HPO تربیتی ملازمتوں کی تعداد اور مدت پر منحصر ہوگی۔ جیسے جیسے ان میں اضافہ ہوگا، اسی طرح لاگت بھی بڑھے گی۔ آپ تربیت کے وقت کو محدود کرکے اور ترتیب دے کر اخراجات کو کم کرسکتے ہیں۔ TuningJobCompletionCriteriaConfig اس پوسٹ میں بعد میں زیر بحث ہدایات کے مطابق۔ قیمتوں کے بارے میں معلومات کے لیے، رجوع کریں۔ ایمیزون سیج میکر قیمتوں کا تعین.

مندرجہ ذیل حصوں میں، ہم کوڈ کی مثالوں اور نتائج کا تجزیہ کرنے اور بہترین ماڈل کو منتخب کرنے کے اقدامات کے ساتھ نوٹ بک پر مزید تفصیل سے بات کرتے ہیں۔

ابتدائی ڈھانچہ

چلو چلانے کے ساتھ شروع کرتے ہیں درآمدات اور سیٹ اپ سیکشن میں custom-automl.ipynb کاپی. یہ تمام مطلوبہ انحصار کو انسٹال اور درآمد کرتا ہے، سیج میکر سیشن اور کلائنٹ کو انسٹینٹیٹ کرتا ہے، اور ڈیٹا کو اسٹور کرنے کے لیے ڈیفالٹ ریجن اور S3 بالٹی سیٹ کرتا ہے۔

ڈیٹا کی تیاری

کیلیفورنیا ہاؤسنگ ڈیٹاسیٹ ڈاؤن لوڈ کریں اور اسے چلا کر تیار کریں۔ ڈیٹا ڈاؤن لوڈ کریں۔ نوٹ بک کے حصے. ڈیٹاسیٹ کو ٹریننگ اور ٹیسٹنگ ڈیٹا فریموں میں تقسیم کیا جاتا ہے اور SageMaker سیشن ڈیفالٹ S3 بالٹی پر اپ لوڈ کیا جاتا ہے۔

پورے ڈیٹاسیٹ میں 20,640 ریکارڈز اور مجموعی طور پر 9 کالم ہیں، بشمول ہدف۔ مقصد یہ ہے کہ گھر کی اوسط قدر کی پیشن گوئی کی جائے (medianHouseValue کالم)۔ درج ذیل اسکرین شاٹ ڈیٹاسیٹ کی اوپری قطاریں دکھاتا ہے۔

ٹریننگ اسکرپٹ ٹیمپلیٹ

اس پوسٹ میں آٹو ایم ایل ورک فلو پر مبنی ہے۔ سائنٹ سیکھنا پری پروسیسنگ پائپ لائنز اور الگورتھم۔ مقصد بہترین کارکردگی کا مظاہرہ کرنے والے سیٹ اپ کو تلاش کرنے کے لیے مختلف پری پروسیسنگ پائپ لائنوں اور الگورتھم کا ایک بڑا مجموعہ تیار کرنا ہے۔ آئیے ایک عام ٹریننگ اسکرپٹ بنانے کے ساتھ شروع کریں، جو نوٹ بک مثال پر مقامی طور پر برقرار رہتا ہے۔ اس اسکرپٹ میں، دو خالی کمنٹ بلاکس ہیں: ایک ہائپر پیرامیٹر انجیکشن لگانے کے لیے اور دوسرا پری پروسیسنگ ماڈل پائپ لائن آبجیکٹ کے لیے۔ وہ ہر پری پروسیسنگ ماڈل امیدوار کے لیے متحرک طور پر انجیکشن لگائے جائیں گے۔ ایک عام اسکرپٹ رکھنے کا مقصد عمل درآمد کو DRY رکھنا ہے (خود کو دہرائیں نہیں)۔

#create base script
_script = """
import argparse
import joblib
import os
import numpy as np
import pandas as pd
from sklearn.metrics import mean_squared_error
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.impute import SimpleImputer
from sklearn.cluster import KMeans
from sklearn.linear_model import ElasticNet
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
###########################
### Inference functions ###
###########################
def model_fn(model_dir):
clf = joblib.load(os.path.join(model_dir, "model.joblib"))
return clf
if __name__ == "__main__":
print("Extracting arguments")
parser = argparse.ArgumentParser()
# Hyperparameters
##### WILL BE INSERTED DYNAMICALLY #####
{}
############################
# Data, model, and output directories
parser.add_argument("--model-dir", type=str, default=os.environ.get("SM_MODEL_DIR"))
parser.add_argument("--train", type=str, default=os.environ.get("SM_CHANNEL_TRAIN"))
parser.add_argument("--test", type=str, default=os.environ.get("SM_CHANNEL_TEST"))
parser.add_argument("--train-file", type=str, default="train.parquet")
parser.add_argument("--test-file", type=str, default="test.parquet")
parser.add_argument("--features", type=str)
parser.add_argument("--target", type=str)
args, _ = parser.parse_known_args()
# Load and prepare data
train_df = pd.read_parquet(os.path.join(args.train, args.train_file))
test_df = pd.read_parquet(os.path.join(args.test, args.test_file))
X_train = train_df[args.features.split()]
X_test = test_df[args.features.split()]
y_train = train_df[args.target]
y_test = test_df[args.target]
# Train model
##### WILL BE INSERTED DYNAMICALLY #####
{}
{}
############################
pipeline = Pipeline([('preprocessor', preprocessor), ('model', model)])
pipeline.fit(X_train, y_train)
# Validate model and print metrics
rmse = mean_squared_error(y_test, pipeline.predict(X_test), squared=False)
print("RMSE: " + str(rmse))
# Persist model
path = os.path.join(args.model_dir, "model.joblib")
joblib.dump(pipeline, path) """
# write _script to file just to have it in hand
with open("script_draft.py", "w") as f:
print(_script, file=f)

پری پروسیسنگ اور ماڈل کے امتزاج بنائیں

۔ preprocessors لغت میں ماڈل کی تمام ان پٹ خصوصیات پر لاگو ہونے والی پری پروسیسنگ تکنیک کی تفصیلات شامل ہیں۔ ہر نسخہ کی تعریف a کا استعمال کرتے ہوئے کی گئی ہے۔ Pipeline یا ایک FeatureUnion scikit-learn سے آبجیکٹ، جو انفرادی ڈیٹا کی تبدیلیوں کو ایک ساتھ باندھتا ہے اور انہیں ایک ساتھ اسٹیک کرتا ہے۔ مثال کے طور پر، mean-imp-scale ایک سادہ نسخہ ہے جو اس بات کو یقینی بناتا ہے کہ متعلقہ کالموں کی اوسط قدروں کا استعمال کرتے ہوئے گم شدہ اقدار کا حساب لگایا جاتا ہے اور تمام خصوصیات کو سٹینڈرڈ اسکیلر. اس کے برعکس ، mean-imp-scale-pca نسخہ کی زنجیروں کو ایک ساتھ کچھ اور آپریشنز:

کالموں میں گم شدہ اقدار کو اس کے وسط کے ساتھ لگانا۔
اوسط اور معیاری انحراف کا استعمال کرتے ہوئے فیچر اسکیلنگ کا اطلاق کریں۔
ایک متعین تغیر کی حد کی قیمت پر ان پٹ ڈیٹا کے سب سے اوپر PCA کا حساب لگائیں اور اسے لگائے گئے اور اسکیل شدہ ان پٹ خصوصیات کے ساتھ ضم کریں۔

اس پوسٹ میں، تمام ان پٹ فیچرز عددی ہیں۔ اگر آپ کے ان پٹ ڈیٹاسیٹ میں مزید ڈیٹا کی قسمیں ہیں، تو آپ کو ایک زیادہ پیچیدہ پائپ لائن کی وضاحت کرنی چاہیے جہاں مختلف فیچر ٹائپ سیٹس پر مختلف پری پروسیسنگ برانچز کا اطلاق ہوتا ہے۔

preprocessors = { "mean-imp-scale": "preprocessor = Pipeline([('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler())])n", "mean-imp-scale-knn": "preprocessor = FeatureUnion([('base-features', Pipeline([('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler())])), ('knn', Pipeline([('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler()), ('knn', KMeans(n_clusters=10))]))])n", "mean-imp-scale-pca": "preprocessor = FeatureUnion([('base-features', Pipeline([('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler())])), ('pca', Pipeline([('imputer', SimpleImputer(strategy='mean')), ('scaler', StandardScaler()), ('pca', PCA(n_components=0.9))]))])n" }

۔ models لغت میں مختلف الگورتھم کی وضاحتیں ہوتی ہیں جن پر آپ ڈیٹاسیٹ کو فٹ کرتے ہیں۔ ہر ماڈل کی قسم لغت میں درج ذیل تصریح کے ساتھ آتی ہے۔

اسکرپٹ_آؤٹ پٹ - تخمینہ لگانے والے کے ذریعہ استعمال کردہ ٹریننگ اسکرپٹ کے مقام کی طرف اشارہ کرتا ہے۔ یہ فیلڈ متحرک طور پر بھری جاتی ہے جب models ڈکشنری کے ساتھ مل کر ہے preprocessors لغت.
اضافے - کوڈ کی وضاحت کرتا ہے جو میں داخل کیا جائے گا۔ script_draft.py اور بعد میں نیچے محفوظ کیا گیا۔ script_output. چابی “preprocessor” جان بوجھ کر خالی چھوڑ دیا گیا ہے کیونکہ یہ مقام ایک پری پروسیسرز سے بھرا ہوا ہے تاکہ متعدد ماڈل-پری پروسیسر کے امتزاجات پیدا ہوں۔
ہائپرپیرامیٹر - ہائپر پیرامیٹرز کا ایک سیٹ جو HPO جاب کے ذریعہ بہتر بنایا گیا ہے۔
شامل_کلس_میٹا ڈیٹا - سیج میکر کو مزید کنفیگریشن کی تفصیلات درکار ہیں۔ Tuner کلاس.

کی مکمل مثال models لغت GitHub ذخیرہ میں دستیاب ہے۔

models = { "rf": { "script_output": None, "insertions": { # Arguments "arguments" : "parser.add_argument('--n_estimators', type=int, default=100)n"+ " parser.add_argument('--max_depth', type=int, default=None)n"+ " parser.add_argument('--min_samples_leaf', type=int, default=1)n"+ " parser.add_argument('--min_samples_split', type=int, default=2)n"+ " parser.add_argument('--max_features', type=str, default='auto')n", # Model call "preprocessor": None, "model_call" : "model = RandomForestRegressor(n_estimators=args.n_estimators,max_depth=args.max_depth,min_samples_leaf=args.min_samples_leaf,min_samples_split=args.min_samples_split,max_features=args.max_features)n" }, "hyperparameters": { "n_estimators": IntegerParameter(100, 2000, "Linear"), "max_depth": IntegerParameter(1, 100, "Logarithmic"), "min_samples_leaf": IntegerParameter(1, 6, "Linear"), "min_samples_split": IntegerParameter(2, 20, "Linear"), "max_features": CategoricalParameter(["auto", "sqrt", "log2"]), }, "include_cls_metadata": False, }
}

اگلا، کے ذریعے اعادہ کرتے ہیں preprocessors اور models لغات بنائیں اور تمام ممکنہ امتزاج بنائیں۔ مثال کے طور پر، اگر آپ کا preprocessors لغت میں 10 ترکیبیں ہیں اور آپ کے پاس 5 ماڈل تعریفیں ہیں۔ models ڈکشنری، نئی تخلیق کردہ پائپ لائنز ڈکشنری میں 50 پری پروسیسر ماڈل پائپ لائنز ہیں جن کا HPO کے دوران جائزہ لیا جاتا ہے۔ نوٹ کریں کہ انفرادی پائپ لائن اسکرپٹ ابھی تک اس مقام پر نہیں بنائے گئے ہیں۔ Jupyter نوٹ بک کا اگلا کوڈ بلاک (سیل 9) تمام پری پروسیسر-ماڈل اشیاء کے ذریعے دہرایا جاتا ہے۔ pipelines ڈکشنری، تمام متعلقہ کوڈ کے ٹکڑوں کو داخل کرتی ہے، اور نوٹ بک میں مقامی طور پر اسکرپٹ کے پائپ لائن کے مخصوص ورژن کو برقرار رکھتی ہے۔ وہ اسکرپٹ اگلے مراحل میں استعمال کیے جاتے ہیں جب انفرادی تخمینہ کار بناتے ہیں جنہیں آپ HPO جاب میں لگاتے ہیں۔

pipelines = {}
for model_name, model_spec in models.items(): pipelines[model_name] = {} for preprocessor_name, preprocessor_spec in preprocessors.items(): pipeline_name = f"{model_name}-{preprocessor_name}" pipelines[model_name][pipeline_name] = {} pipelines[model_name][pipeline_name]["insertions"] = {} pipelines[model_name][pipeline_name]["insertions"]["preprocessor"] = preprocessor_spec pipelines[model_name][pipeline_name]["hyperparameters"] = model_spec["hyperparameters"] pipelines[model_name][pipeline_name]["include_cls_metadata"] = model_spec["include_cls_metadata"] pipelines[model_name][pipeline_name]["insertions"]["arguments"] = model_spec["insertions"]["arguments"] pipelines[model_name][pipeline_name]["insertions"]["model_call"] = model_spec["insertions"]["model_call"] pipelines[model_name][pipeline_name]["script_output"] = f"scripts/{model_name}/script-{pipeline_name}.py"

تخمینہ لگانے والوں کی تعریف کریں۔

اب آپ SageMaker تخمینہ کاروں کی وضاحت پر کام کر سکتے ہیں جنہیں HPO جاب اسکرپٹ تیار ہونے کے بعد استعمال کرتا ہے۔ آئیے ایک ریپر کلاس بنانے کے ساتھ شروع کرتے ہیں جو تمام تخمینوں کے لئے کچھ مشترکہ خصوصیات کی وضاحت کرتا ہے۔ سے وراثت میں ملتا ہے۔ SKLearn کلاس اور کردار، مثال کی گنتی، اور قسم کی وضاحت کرتا ہے، نیز اسکرپٹ کے ذریعے فیچرز اور ہدف کے طور پر کون سے کالم استعمال کیے جاتے ہیں۔

class SKLearnBase(SKLearn): def __init__( self, entry_point=".", # intentionally left blank, will be overwritten in the next function framework_version="1.2-1", role=sm_role, instance_count=1, instance_type="ml.c5.xlarge", hyperparameters={ "features": "medianIncome housingMedianAge totalRooms totalBedrooms population households latitude longitude", "target": "medianHouseValue", }, **kwargs, ): super(SKLearnBase, self).__init__( entry_point=entry_point, framework_version=framework_version, role=role, instance_count=instance_count, instance_type=instance_type, hyperparameters=hyperparameters, **kwargs )

کی تعمیر کرتے ہیں estimators اس سے پہلے پیدا کردہ اور میں واقع تمام اسکرپٹس کے ذریعے تکرار کرکے لغت scripts ڈائریکٹری آپ کا استعمال کرتے ہوئے ایک نیا تخمینہ لگانے والا SKLearnBase کلاس، ایک منفرد تخمینہ لگانے والے نام کے ساتھ، اور اسکرپٹ میں سے ایک۔ نوٹ کریں کہ estimators لغت کی دو سطحیں ہیں: اوپر کی سطح کی وضاحت a pipeline_family. یہ ایک منطقی گروپ بندی ہے جس کی بنیاد پر ماڈلز کی تشخیص کی جاتی ہے اور اس کی لمبائی کے برابر ہے۔ models ڈکشنری دوسرے درجے میں دیے گئے کے ساتھ مل کر انفرادی پری پروسیسر کی اقسام شامل ہیں۔ pipeline_family. HPO جاب بناتے وقت اس منطقی گروپ بندی کی ضرورت ہوتی ہے۔

estimators = {}
for pipeline_family in pipelines.keys(): estimators[pipeline_family] = {} scripts = os.listdir(f"scripts/{pipeline_family}") for script in scripts: if script.endswith(".py"): estimator_name = script.split(".")[0].replace("_", "-").replace("script", "estimator") estimators[pipeline_family][estimator_name] = SKLearnBase( entry_point=f"scripts/{pipeline_family}/{script}", base_job_name=estimator_name, )

HPO ٹیونر دلائل کی وضاحت کریں۔

HPO میں گزرنے والے دلائل کو بہتر بنانے کے لیے Tuner کلاس، HyperparameterTunerArgs ڈیٹا کلاس کو HPO کلاس کے لیے درکار دلائل کے ساتھ شروع کیا جاتا ہے۔ یہ فنکشنز کے ایک سیٹ کے ساتھ آتا ہے، جو اس بات کو یقینی بناتا ہے کہ HPO کے دلائل ایک ہی وقت میں متعدد ماڈل تعریفوں کو متعین کرتے وقت متوقع فارمیٹ میں واپس آئے۔

@dataclass
class HyperparameterTunerArgs: base_job_names: list[str] estimators: list[object] inputs: dict[str] objective_metric_name: str hyperparameter_ranges: list[dict] metric_definition: dict[str] include_cls_metadata: list[bool] def get_estimator_dict(self) -> dict: return {k:v for (k, v) in zip(self.base_job_names, self.estimators)} def get_inputs_dict(self) -> dict: return {k:v for (k, v) in zip(self.base_job_names, [self.inputs]*len(self.base_job_names))} def get_objective_metric_name_dict(self) -> dict: return {k:v for (k, v) in zip(self.base_job_names, [self.objective_metric_name]*len(self.base_job_names))} def get_hyperparameter_ranges_dict(self) -> dict: return {k:v for (k, v) in zip(self.base_job_names, self.hyperparameter_ranges)} def get_metric_definition_dict(self) -> dict: return {k:[v] for (k, v) in zip(self.base_job_names, [self.metric_definition]*len(self.base_job_names))} def get_include_cls_metadata_dict(self) -> dict: return {k:v for (k, v) in zip(self.base_job_names, self.include_cls_metadata)}

اگلا کوڈ بلاک پہلے متعارف کرائے گئے کوڈ کا استعمال کرتا ہے۔ HyperparameterTunerArgs ڈیٹا کلاس. آپ ایک اور لغت بنائیں جسے کہتے ہیں۔ hp_args اور ہر ایک کے لیے مخصوص ان پٹ پیرامیٹرز کا ایک سیٹ تیار کریں۔ estimator_family سے estimators ڈکشنری یہ دلائل اگلے مرحلے میں استعمال کیے جاتے ہیں جب ہر ماڈل فیملی کے لیے HPO جابز شروع کرتے ہیں۔

hp_args = {}
for estimator_family, estimators in estimators.items(): hp_args[estimator_family] = HyperparameterTunerArgs( base_job_names=list(estimators.keys()), estimators=list(estimators.values()), inputs={"train": s3_data_train.uri, "test": s3_data_test.uri}, objective_metric_name="RMSE", hyperparameter_ranges=[pipeline.get("hyperparameters") for pipeline in pipelines[estimator_family].values()], metric_definition={"Name": "RMSE", "Regex": "RMSE: ([0-9.]+).*$"}, include_cls_metadata=[pipeline.get("include_cls_metadata") for pipeline in pipelines[estimator_family].values()], )

HPO ٹونر آبجیکٹ بنائیں

اس مرحلے میں، آپ ہر ایک کے لیے انفرادی ٹیونرز بناتے ہیں۔ estimator_family. آپ تمام تخمینوں میں صرف ایک شروع کرنے کے بجائے تین الگ الگ HPO جابز کیوں بناتے ہیں؟ دی HyperparameterTuner کلاس اس کے ساتھ منسلک 10 ماڈل تعریفوں تک محدود ہے۔ اس لیے، ہر HPO کسی مخصوص ماڈل فیملی کے لیے بہترین کارکردگی کا مظاہرہ کرنے والے پری پروسیسر کو تلاش کرنے اور اس ماڈل فیملی کے ہائپر پیرامیٹرس کو ٹیون کرنے کے لیے ذمہ دار ہے۔

سیٹ اپ کے حوالے سے چند مزید نکات درج ذیل ہیں:

اصلاح کی حکمت عملی Bayesian ہے، جس کا مطلب ہے کہ HPO تمام آزمائشوں کی کارکردگی کو فعال طور پر مانیٹر کرتا ہے اور زیادہ امید افزا ہائپر پیرامیٹر کے امتزاج کی طرف اصلاح کو نیویگیٹ کرتا ہے۔ ابتدائی سٹاپ کو مقرر کیا جانا چاہئے بند or آٹو ایک Bayesian حکمت عملی کے ساتھ کام کرتے وقت، جو خود اس منطق کو سنبھالتی ہے۔
ہر HPO نوکری زیادہ سے زیادہ 100 ملازمتوں کے لیے چلتی ہے اور متوازی طور پر 10 ملازمتیں چلاتی ہے۔ اگر آپ بڑے ڈیٹا سیٹس کے ساتھ کام کر رہے ہیں، تو آپ نوکریوں کی کل تعداد میں اضافہ کرنا چاہیں گے۔
مزید برآں، آپ ایسی ترتیبات استعمال کرنا چاہیں گے جو یہ کنٹرول کرتی ہیں کہ نوکری کتنی دیر تک چلتی ہے اور آپ کا HPO کتنی ملازمتوں کو متحرک کر رہا ہے۔ ایسا کرنے کا ایک طریقہ یہ ہے کہ سیکنڈوں میں زیادہ سے زیادہ رن ٹائم سیٹ کریں (اس پوسٹ کے لیے، ہم نے اسے 1 گھنٹے پر سیٹ کیا ہے)۔ دوسرا حال ہی میں جاری کردہ استعمال کرنا ہے۔ TuningJobCompletionCriteriaConfig. یہ سیٹنگز کا ایک سیٹ پیش کرتا ہے جو آپ کی ملازمتوں کی پیشرفت پر نظر رکھتا ہے اور فیصلہ کرتا ہے کہ آیا اس بات کا امکان ہے کہ مزید ملازمتوں کے نتیجے میں بہتری آئے گی۔ اس پوسٹ میں، ہم نے بہتر نہ ہونے والی تربیتی ملازمتوں کی زیادہ سے زیادہ تعداد کو 20 پر مقرر کیا ہے۔ اس طرح، اگر اسکور بہتر نہیں ہو رہا ہے (مثال کے طور پر، چالیسویں ٹرائل سے)، آپ کو باقی ٹرائلز کے لیے ادائیگی نہیں کرنا پڑے گی جب تک max_jobs پہنچا ہے۔

STRATEGY = "Bayesian"
OBJECTIVE_TYPE = "Minimize"
MAX_JOBS = 100
MAX_PARALLEL_JOBS = 10
MAX_RUNTIME_IN_SECONDS = 3600
EARLY_STOPPING_TYPE = "Off"
# RANDOM_SEED = 42 # uncomment if you require reproducibility across runs
TUNING_JOB_COMPLETION_CRITERIA_CONFIG = TuningJobCompletionCriteriaConfig( max_number_of_training_jobs_not_improving=20, ) tuners = {}
for estimator_family, hp in hp_args.items(): tuners[estimator_family] = HyperparameterTuner.create( estimator_dict=hp.get_estimator_dict(), objective_metric_name_dict=hp.get_objective_metric_name_dict(), hyperparameter_ranges_dict=hp.get_hyperparameter_ranges_dict(), metric_definitions_dict=hp.get_metric_definition_dict(), strategy=STRATEGY, completion_criteria_config=TUNING_JOB_COMPLETION_CRITERIA_CONFIG, objective_type=OBJECTIVE_TYPE, max_jobs=MAX_JOBS, max_parallel_jobs=MAX_PARALLEL_JOBS, max_runtime_in_seconds=MAX_RUNTIME_IN_SECONDS, base_tuning_job_name=f"custom-automl-{estimator_family}", early_stopping_type=EARLY_STOPPING_TYPE, # early stopping of training jobs is not currently supported when multiple training job definitions are used # random_seed=RANDOM_SEED, )

اب کے ذریعے اعادہ کرتے ہیں tuners اور hp_args سیج میکر میں لغات اور HPO کی تمام ملازمتوں کو متحرک کریں۔ انتظار کی دلیل کا استعمال نوٹ کریں جس پر سیٹ ہے۔ False، جس کا مطلب ہے کہ دانا نتائج کے مکمل ہونے تک انتظار نہیں کرے گا اور آپ ایک ہی وقت میں تمام ملازمتوں کو متحرک کرسکتے ہیں۔

اس بات کا امکان ہے کہ تمام تربیتی ملازمتیں مکمل نہیں ہوں گی اور ان میں سے کچھ کو HPO کی ملازمت سے روک دیا جائے گا۔ اس کی وجہ یہ ہے۔ TuningJobCompletionCriteriaConfigاگر کسی مخصوص معیار پر پورا اترتا ہے تو اصلاح ختم ہو جاتی ہے۔ اس صورت میں، جب لگاتار 20 ملازمتوں کے لیے اصلاح کا معیار بہتر نہیں ہو رہا ہے۔

for tuner, hpo in zip(tuners.values(), hp_args.values()): tuner.fit( inputs=hpo.get_inputs_dict(), include_cls_metadata=hpo.get_include_cls_metadata_dict(), wait=False, )

نتائج کا تجزیہ کریں۔

نوٹ بک کا سیل 15 چیک کرتا ہے کہ آیا تمام HPO جابز مکمل ہیں اور مزید تجزیہ کے لیے تمام نتائج کو پانڈاس ڈیٹا فریم کی شکل میں یکجا کرتا ہے۔ نتائج کا تفصیل سے تجزیہ کرنے سے پہلے، آئیے SageMaker کنسول پر ایک اعلیٰ سطحی نظر ڈالیں۔

کے اوپری حصے میں۔ ہائپر پیرامیٹر ٹیوننگ جابز صفحہ، آپ اپنی تین شروع کی گئی HPO ملازمتیں دیکھ سکتے ہیں۔ ان میں سے سبھی جلد فارغ ہوئے اور تمام 100 تربیتی کام انجام نہیں دے سکے۔ مندرجہ ذیل اسکرین شاٹ میں، آپ دیکھ سکتے ہیں کہ Elastic-Net ماڈل فیملی نے سب سے زیادہ آزمائشیں مکمل کیں، جبکہ دوسروں کو بہترین نتیجہ تلاش کرنے کے لیے اتنی زیادہ تربیتی ملازمتوں کی ضرورت نہیں تھی۔

آپ مزید تفصیلات تک رسائی حاصل کرنے کے لیے HPO جاب کھول سکتے ہیں، جیسے کہ انفرادی تربیتی جابز، جاب کنفیگریشن، اور بہترین تربیتی جاب کی معلومات اور کارکردگی۔

آئیے تمام ماڈل فیملیز میں آٹو ایم ایل ورک فلو کی کارکردگی کی مزید بصیرتیں حاصل کرنے کے لیے نتائج کی بنیاد پر ایک تصور تیار کریں۔

مندرجہ ذیل گراف سے، آپ یہ نتیجہ اخذ کر سکتے ہیں کہ Elastic-Net ماڈل کی کارکردگی 70,000 اور 80,000 RMSE کے درمیان چل رہی تھی اور آخر کار رک گئی، کیونکہ الگورتھم مختلف پری پروسیسنگ تکنیکوں اور ہائپر پیرامیٹر اقدار کو آزمانے کے باوجود اپنی کارکردگی کو بہتر نہیں بنا سکا۔ ایسا بھی لگتا ہے۔ RandomForest HPO کے ذریعے دریافت کیے گئے ہائپر پیرامیٹر سیٹ کے لحاظ سے کارکردگی بہت مختلف تھی، لیکن کئی آزمائشوں کے باوجود یہ 50,000 RMSE غلطی سے نیچے نہیں جا سکی۔ GradientBoosting 50,000 RMSE سے نیچے جا کر شروع سے ہی بہترین کارکردگی حاصل کر لی ہے۔ HPO نے اس نتیجہ کو مزید بہتر بنانے کی کوشش کی لیکن دوسرے ہائپر پیرامیٹر کے امتزاج میں بہتر کارکردگی حاصل کرنے کے قابل نہیں رہا۔ تمام HPO ملازمتوں کے لیے ایک عمومی نتیجہ یہ ہے کہ ہر الگورتھم کے لیے بہترین کارکردگی کا مظاہرہ کرنے والے ہائپر پیرامیٹرس کے سیٹ کو تلاش کرنے کے لیے اتنی زیادہ ملازمتوں کی ضرورت نہیں تھی۔ نتیجہ کو مزید بہتر بنانے کے لیے، آپ کو مزید خصوصیات بنانے اور اضافی فیچر انجینئرنگ انجام دینے کے ساتھ تجربہ کرنے کی ضرورت ہوگی۔

آپ سب سے زیادہ امید افزا امتزاج کے بارے میں نتیجہ اخذ کرنے کے لیے ماڈل-پری پروسیسر کے امتزاج کے مزید تفصیلی نظارے کا بھی جائزہ لے سکتے ہیں۔

بہترین ماڈل منتخب کریں اور اسے تعینات کریں۔

درج ذیل کوڈ کا ٹکڑا سب سے کم حاصل شدہ مقصدی قدر کی بنیاد پر بہترین ماڈل کا انتخاب کرتا ہے۔ اس کے بعد آپ ماڈل کو سیج میکر اینڈ پوائنٹ کے طور پر تعینات کر سکتے ہیں۔

df_best_job = df_tuner_results.loc[df_tuner_results["FinalObjectiveValue"] == df_tuner_results["FinalObjectiveValue"].min()]
df_best_job
BEST_MODEL_FAMILY = df_best_job["TrainingJobFamily"].values[0] tuners.get(BEST_MODEL_FAMILY).best_training_job() tuners.get(BEST_MODEL_FAMILY).best_estimator() predictor = tuners.get(BEST_MODEL_FAMILY).deploy( initial_instance_count=1, instance_type="ml.c4.large", endpoint_name=f"custom-automl-endpoint-{BEST_MODEL_FAMILY}",
)

صاف کرو

آپ کے AWS اکاؤنٹ پر غیر مطلوبہ چارجز کو روکنے کے لیے، ہم تجویز کرتے ہیں کہ AWS وسائل کو حذف کر دیں جو آپ نے اس پوسٹ میں استعمال کیے ہیں:

Amazon S3 کنسول پر، S3 بالٹی سے ڈیٹا کو خالی کریں جہاں تربیتی ڈیٹا محفوظ کیا گیا تھا۔

سیج میکر کنسول پر، نوٹ بک مثال کو روکیں۔

ماڈل اینڈ پوائنٹ کو حذف کریں اگر آپ نے اسے تعینات کیا ہے۔ اختتامی پوائنٹس کو حذف کر دینا چاہیے جب مزید استعمال میں نہ ہوں، کیونکہ ان کا بل تعیناتی کے وقت کے مطابق کیا جاتا ہے۔

sm_client.delete_endpoint(EndpointName=predictor.endpoint)

نتیجہ

اس پوسٹ میں، ہم نے الگورتھم اور پری پروسیسنگ تکنیک کے حسب ضرورت انتخاب کا استعمال کرتے ہوئے SageMaker میں کس طرح اپنی مرضی کے مطابق HPO جاب بنانے کا طریقہ دکھایا ہے۔ خاص طور پر، یہ مثال یہ ظاہر کرتی ہے کہ کس طرح بہت سے تربیتی اسکرپٹس تیار کرنے کے عمل کو خود کار بنایا جائے اور متعدد متوازی اصلاحی ملازمتوں کی موثر تعیناتی کے لیے Python پروگرامنگ ڈھانچے کو کیسے استعمال کیا جائے۔ ہم امید کرتے ہیں کہ یہ حل کسی بھی حسب ضرورت ماڈل ٹیوننگ جابز کا سہارہ بنائے گا جسے آپ SageMaker کا استعمال کرتے ہوئے اعلیٰ کارکردگی حاصل کرنے اور اپنے ML ورک فلو کو تیز کرنے کے لیے تعینات کریں گے۔

SageMaker HPO کو استعمال کرنے کے طریقے کے بارے میں اپنے علم کو مزید گہرا کرنے کے لیے درج ذیل وسائل کو دیکھیں:

مصنفین کے بارے میں

کونراڈ سیمش ایمیزون ویب سروسز ڈیٹا لیب ٹیم میں ایک سینئر ایم ایل سلوشنز آرکیٹیکٹ ہیں۔ وہ صارفین کو AWS کے ساتھ اپنے کاروباری چیلنجوں کو حل کرنے کے لیے مشین لرننگ کا استعمال کرنے میں مدد کرتا ہے۔ صارفین کو ان کے AI/ML پروجیکٹس کے لیے آسان اور عملی حل فراہم کرنے کے لیے اسے ایجاد کرنے اور آسان بنانے میں لطف آتا ہے۔ وہ MlOps اور روایتی ڈیٹا سائنس کے بارے میں سب سے زیادہ پرجوش ہے۔ کام سے باہر، وہ ونڈ سرفنگ اور کائٹ سرفنگ کا بڑا پرستار ہے۔

ٹونا ایرسائے AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ اس کی بنیادی توجہ پبلک سیکٹر کے صارفین کو ان کے کام کے بوجھ کے لیے کلاؤڈ ٹیکنالوجیز کو اپنانے میں مدد کرنا ہے۔ اس کے پاس ایپلی کیشن ڈویلپمنٹ، انٹرپرائز آرکیٹیکچر، اور رابطہ سینٹر ٹیکنالوجیز کا پس منظر ہے۔ اس کی دلچسپیوں میں سرور لیس فن تعمیر اور AI/ML شامل ہیں۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/implement-a-custom-automl-job-using-pre-selected-algorithms-in-amazon-sagemaker-automatic-model-tuning/

ٹائم اسٹیمپ: نومبر 15، 2023

ٹائم اسٹیمپ: نومبر 29، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

Amazon SageMaker، HashiCorp Terraform، اور GitLab CI/CD کا استعمال کرتے ہوئے ماڈل کی نگرانی اور دوبارہ تربیت کے ساتھ بیچ کے تخمینہ کے لیے MLOps | ایمیزون ویب سروسز

Amazon Recognition Labels نے 600 نئے لیبلز شامل کیے ہیں، بشمول نشانات، اور اب غالب رنگوں کا پتہ لگاتا ہے۔

Amazon Lookout for Vision کے لیے امیج کو بڑھانے والی پائپ لائن

ایمیزون سیج میکر ہائپر بینڈ آٹومیٹک ماڈل ٹیوننگ کے ساتھ تقسیم شدہ تربیتی کنورجنسی مسائل کو مؤثر طریقے سے حل کریں۔ ایمیزون ویب سروسز

متعارف کرایا جا رہا ہے AWS جنریٹیو AI انوویشن سنٹر کا کسٹم ماڈل پروگرام برائے اینتھروپک کلاڈ | ایمیزون ویب سروسز

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ