Amazon SageMaker Autopilot تا هشت برابر سریع‌تر با حالت آموزش گروه جدید با پشتیبانی از AutoGluon

بازنشر افلاطون

دنبال: 0

Amazon SageMaker Autopilot یک حالت آموزشی جدید اضافه کرده است که از ترکیب مدل پشتیبانی می کند AutoGluon. حالت آموزش گروه در Autopilot چندین مدل پایه را آموزش می دهد و پیش بینی های آنها را با استفاده از انباشته مدل ترکیب می کند. برای مجموعه داده‌های کمتر از 100 مگابایت، حالت آموزش گروهی، مدل‌های یادگیری ماشین (ML) را با دقت بالا می‌سازد - تا هشت برابر سریع‌تر از حالت آموزش بهینه‌سازی فراپارامتر (HPO) با 250 آزمایش، و تا 5.8 برابر سریع‌تر از حالت آموزش HPO با 100 آزمایش از طیف گسترده ای از الگوریتم ها از جمله LightGBM، CatBoost، XGBoost، Random Forest، Extra Trees، مدل های خطی و شبکه های عصبی مبتنی بر PyTorch و FastAI پشتیبانی می کند.

AutoGluon چگونه مدل‌های مجموعه را می‌سازد

AutoGluon-Tabular (AGT) یک چارچوب AutoML منبع باز محبوب است که مدل های ML بسیار دقیق را در مجموعه داده های جدولی آموزش می دهد. برخلاف چارچوب‌های AutoML موجود، که عمدتاً بر انتخاب مدل و فراپارامتر تمرکز می‌کنند، AGT با ترکیب چندین مدل و چیدن آنها در چندین لایه موفق می‌شود. رفتار پیش‌فرض AGT را می‌توان به صورت زیر خلاصه کرد: با توجه به یک مجموعه داده، AGT مدل‌های پایه مختلفی را از درخت‌های تقویت‌شده خارج از قفسه گرفته تا شبکه‌های عصبی سفارشی شده روی مجموعه داده را آموزش می‌دهد. پیش‌بینی‌های مدل‌های پایه به‌عنوان ویژگی‌هایی برای ساخت یک مدل انباشته استفاده می‌شوند که وزن مناسب هر مدل پایه را یاد می‌گیرد. با این وزن‌های آموخته‌شده، مدل پشته‌بندی، پیش‌بینی‌های مدل پایه را ترکیب می‌کند و پیش‌بینی‌های ترکیبی را به عنوان مجموعه نهایی پیش‌بینی‌ها برمی‌گرداند.

نحوه کارکرد حالت آموزش گروه اتوپایلوت

مجموعه داده های مختلف دارای ویژگی هایی هستند که برای الگوریتم های مختلف مناسب هستند. با توجه به مجموعه داده ای با ویژگی های ناشناخته، دشوار است که از قبل بدانیم کدام الگوریتم ها روی یک مجموعه داده بهتر کار می کنند. با در نظر گرفتن این موضوع، دانشمندان داده با استفاده از AGT اغلب چندین پیکربندی سفارشی را با زیر مجموعه ای از الگوریتم ها و پارامترها ایجاد می کنند. آنها این پیکربندی ها را روی یک مجموعه داده مشخص اجرا می کنند تا بهترین پیکربندی را از نظر عملکرد و تأخیر استنتاج پیدا کنند.

Autopilot یک محصول ML با کد پایین است که به طور خودکار بهترین مدل های ML را برای داده های شما می سازد. در حالت آموزش گروه جدید، Autopilot مجموعه ای بهینه از تنظیمات AGT را انتخاب می کند و چندین آزمایش را برای برگرداندن بهترین مدل اجرا می کند. این آزمایش‌ها به صورت موازی اجرا می‌شوند تا ارزیابی کنند که آیا عملکرد AGT می‌تواند بیشتر بهبود یابد، از نظر معیارهای هدف یا تأخیر استنتاج.

نتایج مشاهده شده با استفاده از معیارهای OpenML

برای ارزیابی بهبود عملکرد، از مجموعه داده‌های معیار OpenML با اندازه‌های متفاوت از 0.5 تا 100 مگابایت استفاده کردیم و 10 آزمایش AGT را با ترکیب‌های مختلف الگوریتم‌ها و پیکربندی‌های فراپارامتر اجرا کردیم. آزمون‌ها حالت تمرین گروهی را با حالت HPO با 250 آزمایش و حالت HPO با 100 آزمایش مقایسه کردند. جدول زیر کل زمان اجرای آزمایش Autopilot (بر حسب دقیقه) بین دو حالت آموزشی برای اندازه های مختلف داده مقایسه می کند.

اندازه مجموعه داده	حالت HPO (250 آزمایش)	حالت HPO (100 آزمایش)	حالت گروهی (10 آزمایشی)	بهبود زمان اجرا با HPO 250	بهبود زمان اجرا با HPO 100
< 1 مگابایت	121.5 دقیقه	88.0 دقیقه	15.0 دقیقه	8.1x	5.9x
1-10 مگابایت	136.1 دقیقه	76.5 دقیقه	25.8 دقیقه	5.3x	3.0x
10-100 مگابایت	152.7 دقیقه	103.1 دقیقه	60.9 دقیقه	2.5x	1.7x

برای مقایسه عملکرد مسائل طبقه بندی چند کلاسه، از دقت، برای مسائل طبقه بندی باینری از امتیاز F1 و برای مسائل رگرسیون از R2 استفاده می کنیم. سود در معیارهای هدف در جداول زیر نشان داده شده است. ما مشاهده کردیم که حالت تمرین گروهی بهتر از حالت تمرین HPO (هر دو 100 و 250 کارآزمایی) عمل کرد.

توجه داشته باشید که حالت گروهی نسبت به حالت HPO با 250 کارآزمایی بدون در نظر گرفتن اندازه مجموعه داده و نوع مشکل، بهبود مستمری را نشان می‌دهد.

جدول زیر دقت را برای مسائل طبقه بندی چند کلاسه مقایسه می کند (بالاتر بهتر است).

اندازه مجموعه داده	حالت HPO (250 آزمایش)	حالت HPO (100 آزمایش)	حالت گروهی (10 آزمایشی)	درصد بهبود بیش از HPO 250
< 1 مگابایت	0.759	0.761	0.771	٪۱۰۰
1-5 مگابایت	0.941	0.935	0.957	٪۱۰۰
5-10 مگابایت	0.639	0.633	0.671	٪۱۰۰
10-50 مگابایت	0.998	0.999	0.999	٪۱۰۰
51-100 مگابایت	0.853	0.852	0.875	٪۱۰۰

جدول زیر امتیازات F1 را برای مسائل طبقه بندی باینری مقایسه می کند (بالاتر بهتر است).

اندازه مجموعه داده	حالت HPO (250 آزمایش)	حالت HPO (100 آزمایش)	حالت گروهی (10 آزمایشی)	درصد بهبود بیش از HPO 250
< 1 مگابایت	0.801	0.807	0.826	٪۱۰۰
1-5 مگابایت	0.59	0.587	0.629	٪۱۰۰
5-10 مگابایت	0.886	0.889	0.898	٪۱۰۰
10-50 مگابایت	0.731	0.736	0.754	٪۱۰۰
51-100 مگابایت	0.503	0.493	0.541	٪۱۰۰

جدول زیر R2 را برای مشکلات رگرسیون مقایسه می کند (بالاتر بهتر است).

اندازه مجموعه داده	حالت HPO (250 آزمایش)	حالت HPO (100 آزمایش)	حالت گروهی (10 آزمایشی)	درصد بهبود بیش از HPO 250
< 1 مگابایت	0.717	0.718	0.716	0%
1-5 مگابایت	0.803	0.803	0.817	2%
5-10 مگابایت	0.590	0.586	0.614	4%
10-50 مگابایت	0.686	0.688	0.684	0%
51-100 مگابایت	0.623	0.626	0.631	1%

در بخش‌های بعدی، نحوه استفاده از حالت آموزش گروه جدید در Autopilot برای تجزیه و تحلیل مجموعه داده‌ها و ساخت آسان مدل‌های ML با کیفیت بالا را نشان می‌دهیم.

نمای کلی مجموعه داده

ما با استفاده از مجموعه داده تایتانیک برای پیش بینی اینکه آیا یک مسافر معین زنده مانده است یا نه. این یک مشکل طبقه بندی باینری است. ما بر ایجاد یک آزمایش Autopilot با استفاده از حالت آموزش گروه جدید تمرکز می کنیم و نتایج امتیاز F1 و زمان اجرا کلی را با یک آزمایش Autopilot با استفاده از حالت آموزش HPO (100 آزمایش) مقایسه می کنیم.

نام ستون	توضیحات:
مسافر	شماره شناسایی
زنده ماند	بقاء
پی کلاس	کلاس بلیط
نام	نام مسافر
ارتباط جنسی	ارتباط جنسی
سن	سن در سال
Sibsp	تعداد خواهر و برادر یا همسران در کشتی تایتانیک
پارچ	تعداد والدین یا فرزندان در کشتی تایتانیک
بلیط	شماره بلیط
کرایه	کرایه مسافر
کابین	شماره کابین
سوار شد	بندر سوار شدن

مجموعه داده دارای 890 ردیف و 12 ستون است. این شامل اطلاعات جمعیت شناختی مسافران (سن، جنس، کلاس بلیط و غیره) و ستون هدف Survived (بله/خیر) است.

پیش نیازها

مراحل پیش نیاز زیر را کامل کنید:

مطمئن شوید که یک حساب AWS دارید، دسترسی ایمن برای ورود به حساب از طریق کنسول مدیریت AWSو هویت AWS و مدیریت دسترسی (IAM) مجوزهای استفاده آمازون SageMaker و سرویس ذخیره سازی ساده آمازون منابع (Amazon S3).
دانلود مجموعه داده تایتانیک و آن را در سطل S3 آپلود کنید در حساب شما
ورود به دامنه SageMaker و دسترسی Amazon SageMaker Studio برای استفاده از Autopilot برای دستورالعمل، مراجعه کنید ورود به دامنه Amazon SageMaker. اگر از استودیو موجود استفاده می‌کنید، به آن ارتقا دهید آخرین نسخه استودیو برای استفاده از حالت جدید آموزش گروه.

یک آزمایش خلبان خودکار با حالت آموزش گروهی ایجاد کنید

هنگامی که مجموعه داده آماده شد، می توانید یک آزمایش Autopilot را در Studio راه اندازی کنید. برای دستورالعمل کامل، مراجعه کنید یک آزمایش Amazon SageMaker Autopilot ایجاد کنید. با ارائه یک نام آزمایش، ورودی داده، و مشخص کردن داده‌های هدف برای پیش‌بینی، یک آزمایش Autopilot ایجاد کنید. جزئیات آزمایش و داده بخش. به صورت اختیاری، می توانید نسبت داده های ریخته شده و ایجاد خودکار محل خروجی آمازون S3 را مشخص کنید.

برای مورد استفاده خود، نام آزمایش را ارائه می دهیم، مکان Amazon S3 را وارد می کنیم و انتخاب می کنیم زنده ماند به عنوان هدف ما تقسیم خودکار را فعال نگه می داریم و محل خروجی پیش فرض آمازون S3 را لغو می کنیم.

در ادامه روش آموزش را در قسمت مشخص می کنیم روش آموزش بخش. می‌توانید به Autopilot اجازه دهید حالت آموزشی را به‌طور خودکار با استفاده از آن انتخاب کند خودکار بر اساس اندازه مجموعه داده‌ها، یا حالت آموزش را به صورت دستی برای گروه‌بندی یا HPO انتخاب کنید. جزئیات هر گزینه به شرح زیر است:

خودکار - Autopilot به طور خودکار بر اساس اندازه مجموعه داده شما حالت ensembling یا HPO را انتخاب می کند. اگر مجموعه داده های شما بزرگتر از 100 مگابایت باشد، Autopilot HPO را انتخاب می کند، در غیر این صورت آنسامبلینگ را انتخاب می کند.
گروه بندی - استفاده از خلبان خودکار AutoGluonتکنیک مجموعه‌سازی برای آموزش چندین مدل پایه و ترکیب پیش‌بینی‌های آن‌ها با استفاده از انباشته مدل در یک مدل پیش‌بینی بهینه.
بهینه سازی هایپرپارامتر – Autopilot با تنظیم فراپارامترها با استفاده از تکنیک Bayesian Optimization و اجرای کارهای آموزشی روی مجموعه داده شما، بهترین نسخه یک مدل را پیدا می کند. HPO الگوریتم‌هایی را انتخاب می‌کند که بیشترین ارتباط را با مجموعه داده شما دارند و بهترین محدوده ابرپارامترها را برای تنظیم مدل‌ها انتخاب می‌کند.

برای مورد استفاده ما، ما انتخاب می کنیم گروه بندی به عنوان حالت آموزش ما.

پس از این به سراغ استقرار و تنظیمات پیشرفته بخش. در اینجا، ما را از حالت انتخاب خارج می کنیم استقرار خودکار گزینه. زیر تنظیمات پیشرفته، می توانید نوع مشکل ML را که می خواهید حل کنید مشخص کنید. اگر چیزی ارائه نشده باشد، Autopilot به طور خودکار مدل را بر اساس داده هایی که ارائه می کنید تعیین می کند. از آنجا که مشکل ما یک مشکل طبقه بندی باینری است، ما انتخاب می کنیم طبقه بندی باینری به عنوان نوع مشکل ما و F1 به عنوان متریک هدف ما.

در نهایت، انتخاب های خود را بررسی کرده و انتخاب می کنیم آزمایش ایجاد کنید.

در این مرحله، بی خطر است که استودیو را ترک کنید و بعداً برگردید تا نتیجه را بررسی کنید، که می توانید در آن پیدا کنید آزمایش منو.

اسکرین شات زیر نتایج نهایی کار خلبان خودکار حالت آموزش گروه titanic-ens ما را نشان می دهد.

می‌توانید آزمایش‌های متعددی را که توسط Autopilot در حالت آموزش گروهی انجام شده است ببینید. هر آزمایشی بهترین مدل را از مجموعه اجراهای مجزای مدل و اجرای مدل مجموعه انباشته برمی گرداند.

برای توضیح بیشتر این موضوع، بیایید فرض کنیم آزمایش 1 تمام هشت الگوریتم پشتیبانی شده را در نظر گرفته و از سطح انباشتگی 2 استفاده کرده است. به طور داخلی مدل های جداگانه برای هر الگوریتم و همچنین مدل های گروه وزنی با پشته سطح 0، سطح 1 و سطح 2 ایجاد می کند. با این حال، خروجی Trial 1 بهترین مدل از مجموعه مدل های ایجاد شده خواهد بود.

به طور مشابه، بیایید Trial 2 را فقط الگوریتم‌های تقویتی مبتنی بر درخت را در نظر بگیریم. در این حالت، Trial 2 به صورت داخلی سه مدل مجزا برای هر یک از سه الگوریتم و همچنین مدل‌های گروه وزنی ایجاد می‌کند و بهترین مدل را از اجرای خود برمی‌گرداند.

مدل نهایی بازگردانده شده توسط آزمایشی ممکن است یک مدل گروه وزنی باشد یا نباشد، اما اکثر آزمایش‌ها به احتمال زیاد بهترین مدل گروه وزنی خود را برمی‌گردانند. در نهایت، بر اساس متریک هدف انتخاب شده، بهترین مدل از بین 10 کارآزمایی مشخص خواهد شد.

در مثال قبلی، بهترین مدل ما مدلی بود که بالاترین امتیاز F1 را داشت (متری هدف ما). چندین معیار مفید دیگر، از جمله دقت، دقت متعادل، دقت، و یادآوری نیز نشان داده شده است. در محیط ما، زمان اجرای پایان به انتها برای این آزمایش Autopilot 10 دقیقه بود.

یک آزمایش Autopilot با حالت آموزش HPO ایجاد کنید

اکنون بیایید تمام مراحل فوق را برای ایجاد دومین آزمایش Autopilot با روش آموزش HPO انجام دهیم (100 آزمایش پیش فرض). جدای از انتخاب روش آموزشی که الان هست بهینه سازی هایپرپارامتر، بقیه چیزها ثابت می ماند. در حالت HPO می توانید با تنظیم تعداد آزمایش ها را مشخص کنید حداکثر نامزدها زیر تنظیمات پیشرفته برای زمان اجرا، اما توصیه می کنیم این را به حالت پیش فرض رها کنید. ارائه هیچ ارزشی در حداکثر نامزدها 100 آزمایش HPO را اجرا خواهد کرد. در محیط ما، زمان اجرا سرتاسر این آزمایش Autopilot 2 ساعت بود.

مقایسه متریک زمان اجرا و عملکرد

ما می‌بینیم که برای مجموعه داده ما (زیر 1 مگابایت)، نه تنها حالت تمرین گروهی 12 برابر سریع‌تر از حالت تمرین HPO (120 دقیقه تا 10 دقیقه) اجرا شد، بلکه نمرات F1 و سایر معیارهای عملکرد را بهبود بخشید.

حالت آموزش	امتیاز F1	دقت	دقت متعادل	AUC	دقت	به یاد بیاورید	از دست دادن گزارش	زمان اجرا
حالت گروه - WeightedEnsemble	0.844	0.878	0.865	0.89	0.912	0.785	0.394	10 دقیقه
حالت HPO - XGBoost	0.784	0.843	0.824	0.867	0.831	0.743	0.428	120 دقیقه

استنباط

اکنون که ما یک مدل برنده داریم، می توانیم هر دو را آن را به یک نقطه پایانی برای استنتاج بلادرنگ مستقر کنید or از تبدیل های دسته ای برای پیش بینی استفاده کنید در مجموعه داده بدون برچسبی که قبلا دانلود کردیم.

خلاصه

با حالت جدید آموزش گروهی برای مجموعه داده‌های کمتر از 100 مگابایت، می‌توانید آزمایش‌های Autopilot خود را سریع‌تر بدون هیچ تأثیری بر عملکرد اجرا کنید. برای شروع، یک آزمایش SageMaker Autopilot ایجاد کنید در کنسول استودیو و انتخاب کنید گروه بندی به عنوان حالت آموزشی شما، یا اجازه دهید Autopilot حالت آموزش را به طور خودکار بر اساس اندازه مجموعه داده استنتاج کند. می توانید به راهنمای مرجع CreateAutoMLJob API برای به روز رسانی به API، و ارتقاء به آخرین نسخه استودیو برای استفاده از حالت جدید آموزش گروه. برای اطلاعات بیشتر در مورد این ویژگی، نگاه کنید پشتیبانی مدل، معیارها و اعتبارسنجی با Amazon SageMaker Autopilot و برای کسب اطلاعات بیشتر در مورد Autopilot، به سایت مراجعه کنید صفحه محصول.

درباره نویسندگان

جانیشا آناند یک مدیر محصول ارشد در تیم SageMaker Low/No Code ML است که شامل SageMaker Autopilot است. او از قهوه، فعال ماندن و گذراندن وقت با خانواده اش لذت می برد.

ساکت ساته یک دانشمند ارشد کاربردی در تیم SageMaker Autopilot است. او مشتاق ساختن نسل بعدی الگوریتم‌ها و سیستم‌های یادگیری ماشین است. جدای از کار، او عاشق خواندن، آشپزی، رامن و بدمینتون بازی است.

ابیشک سینگ یک مهندس نرم افزار برای تیم Autopilot در AWS است. او بیش از 8 سال تجربه به عنوان یک توسعه‌دهنده نرم‌افزار دارد و مشتاق ساخت راه‌حل‌های نرم‌افزاری مقیاس‌پذیر است که مشکلات مشتریان را حل می‌کند. آبیشک در اوقات فراغت خود دوست دارد با پیاده روی یا درگیر شدن در بازی‌های فوتبال، فعال بماند.

وادیم املتچنکو یک معمار راه حل های AI/ML Sr. است که مشتاق کمک به مشتریان AWS برای نوآوری در فضای ابری است. تجربه قبلی او در فناوری اطلاعات عمدتاً روی زمین بود.

تمبر زمان: سپتامبر 21، 2022سپتامبر 21، 2022

تمبر زمان: آوریل 19، 2024

Amazon SageMaker Autopilot با حالت جدید آموزش گروهی که توسط AutoGluon طراحی شده است تا هشت برابر سریعتر است.

بازنشر افلاطون

AutoGluon چگونه مدل‌های مجموعه را می‌سازد

نحوه کارکرد حالت آموزش گروه اتوپایلوت

نتایج مشاهده شده با استفاده از معیارهای OpenML

نمای کلی مجموعه داده

پیش نیازها

یک آزمایش خلبان خودکار با حالت آموزش گروهی ایجاد کنید

یک آزمایش Autopilot با حالت آموزش HPO ایجاد کنید

مقایسه متریک زمان اجرا و عملکرد

استنباط

خلاصه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

چگونه جستجوی آمازون به استنتاج T5 با تأخیر کم و توان عملیاتی بالا با NVIDIA Triton در AWS می‌رسد

شناسایی بینش های کلیدی از اسناد متنی از طریق تنظیم دقیق و HPO با Amazon SageMaker JumpStart

AWS و Hugging Face با هم همکاری می کنند تا هوش مصنوعی مولد را در دسترس تر و مقرون به صرفه تر کنند

رویکرد ایمن برای هوش مصنوعی مولد با AWS | خدمات وب آمازون

معرفی آموزش خودکار راه حل ها در Amazon Personalize | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب