بسته به کیفیت و پیچیدگی داده ها، دانشمندان داده بین 45 تا 80 درصد از زمان خود را صرف کارهای آماده سازی داده می کنند. این نشان میدهد که آمادهسازی و پاکسازی دادهها زمان ارزشمندی را از کار علم داده واقعی میگیرد. پس از اینکه یک مدل یادگیری ماشین (ML) با داده های آماده آموزش داده شد و برای استقرار آماده شد، دانشمندان داده اغلب باید تبدیل های داده مورد استفاده برای آماده سازی داده ها برای استنتاج ML را بازنویسی کنند. این ممکن است زمان لازم برای استقرار یک مدل مفید را که بتواند داده ها را از شکل و فرم خام آن استنتاج و امتیازدهی کند، طولانی کند.
در قسمت 1 این مجموعه، نشان دادیم که چگونه Data Wrangler a را فعال می کند آماده سازی داده های یکپارچه و آموزش مدل تجربه با Amazon SageMaker Autopilot تنها در چند کلیک در این قسمت دوم و پایانی این مجموعه، ما بر روی ویژگی ای تمرکز می کنیم که شامل و استفاده مجدد می شود Amazon SageMaker Data Rangler تبدیلها، مانند مبدلهای مقدار از دست رفته، رمزگذارهای ترتیبی یا تک داغ، و موارد دیگر، همراه با مدلهای خلبان خودکار برای استنتاج ML. این ویژگی پیش پردازش خودکار داده های خام را با استفاده مجدد از تبدیل های ویژگی Data Wrangler در زمان استنتاج امکان پذیر می کند و زمان مورد نیاز برای استقرار یک مدل آموزش دیده برای تولید را کاهش می دهد.
بررسی اجمالی راه حل
Data Wrangler زمان جمعآوری و آمادهسازی دادهها را برای ML از هفتهها به دقیقه کاهش میدهد و Autopilot بهطور خودکار بهترین مدلهای ML را بر اساس دادههای شما میسازد، آموزش میدهد و تنظیم میکند. با Autopilot، شما همچنان کنترل و دید کامل داده ها و مدل خود را حفظ می کنید. هر دوی این سرویسها هدفمند ساخته شدهاند تا شاغلین ML را بهرهورتر کنند و زمان ارزشگذاری را تسریع کنند.
نمودار زیر معماری راه حل ما را نشان می دهد.
پیش نیازها
از آنجایی که این پست دومین پست از یک سری دو قسمتی است، مطمئن شوید که با موفقیت مطالعه و اجرا کرده اید قسمت 1 قبل از ادامه
صادرات و آموزش مدل
در قسمت 1، پس از آمادهسازی دادهها برای ML، در مورد اینکه چگونه میتوانید از تجربه یکپارچه در Data Wrangler برای تجزیه و تحلیل مجموعههای داده استفاده کنید و به راحتی مدلهای ML با کیفیت بالا را در Autopilot بسازید، بحث کردیم.
این بار، یک بار دیگر از ادغام Autopilot برای آموزش یک مدل در برابر همان مجموعه داده آموزشی استفاده می کنیم، اما به جای انجام استنتاج انبوه، استنتاج بلادرنگ را در برابر یک استنتاج انجام می دهیم. آمازون SageMaker نقطه پایان استنتاج که به طور خودکار برای ما ایجاد می شود.
علاوه بر راحتی ارائه شده توسط استقرار نقطه پایانی خودکار، نشان میدهیم که چگونه میتوانید با تمام تبدیلهای ویژگی Data Wrangler به عنوان خط لوله استنتاج سریال SageMaker نیز گسترش دهید. این امکان پیش پردازش خودکار داده های خام را با استفاده مجدد از تبدیل ویژگی Data Wrangler در زمان استنتاج فراهم می کند.
توجه داشته باشید که این ویژگی در حال حاضر فقط برای جریانهای Data Wrangler پشتیبانی میشود که از تبدیلهای join، group by، concatenate و سری زمانی استفاده نمیکنند.
ما میتوانیم از ادغام جدید Data Wrangler با Autopilot برای آموزش مستقیم یک مدل از رابط کاربری دادههای جریان داده Wrangler استفاده کنیم.
- علامت مثبت کنار علامت را انتخاب کنید مقادیر مقیاس گره، و انتخاب کنید مدل قطار.
- برای مکان آمازون S3، مشخص کنید سرویس ذخیره سازی ساده آمازون (Amazon S3) مکانی که SageMaker داده های شما را صادر می کند.
اگر به طور پیشفرض با یک مسیر سطل ریشه ارائه شود، Data Wrangler یک زیر شاخه صادرات منحصر به فرد را در زیر آن ایجاد میکند—شما نیازی به تغییر این مسیر پیشفرض ریشه ندارید، مگر اینکه بخواهید. Autopilot از این مکان برای آموزش خودکار یک مدل استفاده میکند و شما را نجات میدهد. زمان از تعیین محل خروجی جریان داده Wrangler و سپس تعیین مکان ورودی داده های آموزشی Autopilot. این باعث می شود که تجربه یکپارچه تری داشته باشید. - را انتخاب کنید صادرات و آموزش برای صادرات داده های تبدیل شده به آمازون S3.
هنگامی که صادرات موفقیت آمیز است، به مسیر هدایت می شوید یک آزمایش خلبان خودکار ایجاد کنید صفحه، با داده های ورودی مکان S3 قبلاً برای شما پر شده است (از نتایج صفحه قبل پر شده است). - برای نام آزمایش، یک نام وارد کنید (یا نام پیش فرض را نگه دارید).
- برای هدف، انتخاب کنید نتیجه به عنوان ستونی که می خواهید پیش بینی کنید.
- را انتخاب کنید بعدی: روش آموزش.
همانطور که در پست توضیح داده شده است Amazon SageMaker Autopilot با حالت جدید آموزش گروهی که توسط AutoGluon طراحی شده است تا هشت برابر سریعتر است.، می توانید به Autopilot اجازه دهید حالت آموزشی را به طور خودکار بر اساس اندازه مجموعه داده انتخاب کند یا حالت آموزش را به صورت دستی برای بهینه سازی ترکیبی یا فراپارامتر (HPO) انتخاب کنید.
جزئیات هر گزینه به شرح زیر است:
- خودکار - Autopilot به طور خودکار بر اساس اندازه مجموعه داده شما حالت ensembling یا HPO را انتخاب می کند. اگر مجموعه داده شما بزرگتر از 100 مگابایت باشد، Autopilot HPO را انتخاب می کند. در غیر این صورت آنسامبلینگ را انتخاب می کند.
- گروه بندی - خلبان خودکار از AutoGluon تکنیک مجموعهای برای آموزش چندین مدل پایه و ترکیب پیشبینیهای آنها با استفاده از انباشته مدل در یک مدل پیشبینی بهینه.
- بهینه سازی هایپرپارامتر – Autopilot بهترین نسخه یک مدل را با تنظیم فراپارامترها با استفاده از تکنیک بهینهسازی بیزی و اجرای کارهای آموزشی بر روی مجموعه داده شما پیدا میکند. HPO الگوریتمهایی را انتخاب میکند که مرتبطترین الگوریتمها با مجموعه داده شما هستند و بهترین محدوده از فراپارامترها را برای تنظیم مدلها انتخاب میکند. برای مثال، ما انتخاب پیشفرض را ترک میکنیم. خودکار.
- را انتخاب کنید بعدی: استقرار و تنظیمات پیشرفته به ادامه.
- بر استقرار و تنظیمات پیشرفته صفحه، یک گزینه استقرار را انتخاب کنید.
مهم است که گزینه های استقرار را با جزئیات بیشتر درک کنید. آنچه انتخاب میکنیم بر اینکه تبدیلهایی که قبلاً در Data Wrangler انجام دادهایم در خط لوله استنتاج گنجانده شوند یا خیر تأثیر خواهد داشت:- استقرار خودکار بهترین مدل با تبدیل از Data Wrangler – با استفاده از این گزینه استقرار، هنگامی که داده ها را در Data Wrangler آماده می کنید و با فراخوانی Autopilot یک مدل را آموزش می دهید، مدل آموزش دیده در کنار تمام ویژگی های Data Wrangler به صورت تبدیل می شود. خط لوله استنتاج سریال SageMaker. این امکان پیش پردازش خودکار داده های خام را با استفاده مجدد از تبدیل ویژگی Data Wrangler در زمان استنتاج فراهم می کند. توجه داشته باشید که نقطه پایانی استنتاج انتظار دارد که قالب دادههای شما در همان قالبی باشد که در جریان دادههای Wrangler وارد میشود.
- استقرار خودکار بهترین مدل بدون تبدیل از Data Wrangler – این گزینه یک نقطه پایانی بلادرنگ را مستقر میکند که از تبدیلهای Data Wrangler استفاده نمیکند. در این مورد، باید تبدیل های تعریف شده در جریان داده رانگلر خود را قبل از استنتاج بر روی داده های خود اعمال کنید.
- بهترین مدل را به صورت خودکار مستقر نکنید – زمانی که اصلاً نمی خواهید نقطه پایانی استنتاج ایجاد کنید باید از این گزینه استفاده کنید. اگر میخواهید بهترین مدل را برای استفاده بعدی ایجاد کنید، مانند استنتاج انبوه به صورت محلی، مفید است. (این گزینه استقرار است که ما در قسمت 1 مجموعه انتخاب کردیم.) توجه داشته باشید که وقتی این گزینه را انتخاب می کنید، مدل ایجاد شده (از بهترین نامزد Autopilot از طریق SageMaker SDK) شامل تبدیل ویژگی Data Wrangler به عنوان خط لوله استنتاج سریال SageMaker است.
برای این پست از استقرار خودکار بهترین مدل با تبدیل از Data Wrangler گزینه.
- برای گزینه استقرار، انتخاب کنید استقرار خودکار بهترین مدل با تبدیل از Data Wrangler.
- سایر تنظیمات را به عنوان پیش فرض بگذارید.
- را انتخاب کنید بعدی: بررسی و ایجاد به ادامه.
بر بررسی و ایجاد کنید در صفحه، خلاصه ای از تنظیمات انتخاب شده برای آزمایش Autopilot خود را مشاهده می کنیم. - را انتخاب کنید آزمایش ایجاد کنید برای شروع فرآیند ایجاد مدل
شما به صفحه شرح وظایف خلبان خودکار هدایت می شوید. مدل ها روی مدل همانطور که آنها تولید می شوند، برگه را انتخاب کنید. برای تأیید کامل بودن فرآیند، به آدرس زیر بروید مشخصات شغل را بزنید و به دنبال a بگردید Completed
ارزش برای وضعیت رشته.
میتوانید در هر زمان که بخواهید به این صفحه شرح وظایف خلبان خودکار بازگردید Amazon SageMaker Studio:
- را انتخاب کنید آزمایش ها و آزمایش ها در منابع SageMaker فهرست کشویی.
- نام شغل Autopilot را که ایجاد کردید انتخاب کنید.
- آزمایش را انتخاب کنید (راست کلیک کنید) و انتخاب کنید AutoML Job را شرح دهید.
مشاهده آموزش و اعزام
هنگامی که Autopilot آزمایش را کامل کرد، میتوانیم نتایج آموزش را مشاهده کرده و بهترین مدل را از صفحه شرح وظایف Autopilot بررسی کنیم.
مدل برچسب زده شده را انتخاب کنید (راست کلیک کنید). بهترین مدل، و انتخاب کنید در جزئیات مدل باز کنید.
La عملکرد برگه چندین آزمایش اندازه گیری مدل را نشان می دهد، از جمله ماتریس سردرگمی، ناحیه زیر منحنی دقت/یادآوری (AUCPR) و ناحیه زیر منحنی مشخصه عملکرد گیرنده (ROC). اینها عملکرد کلی اعتبار مدل را نشان می دهند، اما به ما نمی گویند که آیا مدل به خوبی تعمیم می یابد یا خیر. ما هنوز باید ارزیابیهایی را روی دادههای آزمایش دیده نشده انجام دهیم تا ببینیم مدل چقدر پیشبینی میکند (برای این مثال، پیشبینی میکنیم که آیا فردی دیابت دارد یا خیر).
استنتاج را در مقابل نقطه پایانی بلادرنگ انجام دهید
یک نوت بوک SageMaker جدید برای استنتاج بلادرنگ برای ارزیابی عملکرد مدل ایجاد کنید. کد زیر را در یک نوت بوک وارد کنید تا استنتاج بلادرنگ برای اعتبارسنجی اجرا شود:
پس از تنظیم کد برای اجرا در نوت بوک، باید دو متغیر را پیکربندی کنید:
endpoint_name
payload_str
پیکربندی endpoint_name
endpoint_name
نشان دهنده نام نقطه پایانی استنتاج بلادرنگ است که استقرار به صورت خودکار برای ما ایجاد شده است. قبل از اینکه آن را تنظیم کنیم، باید نام آن را پیدا کنیم.
- را انتخاب کنید نقاط پایان در منابع SageMaker فهرست کشویی.
- نام نقطه پایانی را که نام شغل Autopilot که ایجاد کردهاید با یک رشته تصادفی به آن اضافه شده است، پیدا کنید.
- آزمایش را انتخاب کنید (راست کلیک کنید) و انتخاب کنید Endpoint را شرح دهید.
La جزئیات نقطه پایانی صفحه ظاهر می شود - نام کامل نقطه پایانی را برجسته کرده و فشار دهید Ctrl + C برای کپی کردن آن در کلیپ بورد
- این مقدار را وارد کنید (مطمئن شوید که نقل قول شده است).
endpoint_name
در دفتر استنباط
پیکربندی payload_str
این نوت بوک دارای یک رشته پیش فرض بار است payload_str
که میتوانید برای آزمایش نقطه پایانی خود از آن استفاده کنید، اما با خیال راحت با مقادیر مختلف مانند مقادیر دادههای آزمایشی خود آزمایش کنید.
برای استخراج مقادیر از مجموعه داده آزمایشی، دستورالعملهای موجود را دنبال کنید قسمت 1 برای صادر کردن مجموعه داده آزمایشی به آمازون S3. سپس در کنسول آمازون S3، می توانید آن را دانلود کنید و ردیف هایی را برای استفاده از فایل از Amazon S3 انتخاب کنید.
هر ردیف در مجموعه داده آزمایشی شما دارای XNUMX ستون است که آخرین ستون آن است outcome
ارزش. برای این کد نوتبوک، مطمئن شوید که فقط از یک ردیف داده استفاده میکنید (هرگز هدر CSV) payload_str
. همچنین مطمئن شوید که فقط یک را ارسال می کنید payload_str
با هشت ستون، جایی که مقدار نتیجه را حذف کرده اید.
به عنوان مثال، اگر فایل های مجموعه داده آزمایشی شما شبیه کد زیر است و ما می خواهیم استنتاج بلادرنگ ردیف اول را انجام دهیم:
تنظیم کردیم payload_str
به 10,115,0,0,0,35.3,0.134,29
. توجه داشته باشید که چگونه ما را حذف کردیم outcome
ارزش 0
در پایان.
اگر به طور تصادفی مقدار هدف مجموعه داده شما اولین یا آخرین مقدار نیست، فقط مقدار را با ساختار کاما دست نخورده حذف کنید. برای مثال، فرض کنید در حال پیشبینی نوار هستیم و مجموعه دادههای ما شبیه کد زیر است:
در این صورت تنظیم می کنیم payload_str
به 85,,20
.
هنگامی که نوت بوک با پیکربندی مناسب اجرا می شود payload_str
و endpoint_name
مقادیر، شما یک پاسخ CSV در قالب دریافت می کنید outcome
(0 یا 1) confidence
(0 1).
تمیز کردن
برای اطمینان از اینکه پس از تکمیل این آموزش هزینه های مربوط به آموزش را متحمل نمی شوید، برنامه Data Wrangler را حتماً خاموش کنید (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html، و همچنین تمام نمونه های نوت بوک مورد استفاده برای انجام وظایف استنتاج. نقاط پایانی استنتاج ایجاد شده از طریق Auto Pilot Deploy باید حذف شوند تا از هزینه های اضافی نیز جلوگیری شود.
نتیجه
در این پست، نحوه ادغام پردازش دادهها، مهندسی و ساخت مدل را با استفاده از Data Wrangler و Autopilot نشان دادیم. با تکیه بر قسمت 1 این سری، به این موضوع اشاره کردیم که چگونه میتوانید به راحتی یک مدل را به یک نقطه پایانی استنتاج بلادرنگ با Autopilot مستقیماً از رابط کاربری Data Wrangler آموزش دهید، تنظیم کنید و به کار ببرید. علاوه بر راحتی ارائه شده توسط استقرار نقطه پایانی خودکار، ما نشان دادیم که چگونه میتوانید با تمام تبدیلهای ویژگی Data Wrangler به عنوان خط لوله استنتاج سریال SageMaker، پیشپردازش خودکار دادههای خام را با استفاده مجدد از تبدیلهای ویژگی Data Wrangler در زمان استنباط
راهحلهای کمکد و AutoML مانند Data Wrangler و Autopilot نیاز به دانش کدنویسی عمیق برای ساخت مدلهای قوی ML را برطرف میکنند. شروع به استفاده از Data Wrangler کنید امروز تجربه کنید که ساخت مدل های ML با استفاده از Autopilot چقدر آسان است.
درباره نویسندگان
گرمی کوهن یک معمار راه حل با AWS است که در آن به مشتریان کمک می کند تا راه حل های پیشرفته و مبتنی بر ابر بسازند. او در اوقات فراغت خود از پیادهروی کوتاه در ساحل، کاوش در منطقه خلیج با خانوادهاش، تعمیر وسایل اطراف خانه، شکستن وسایل اطراف خانه و باربیکیو لذت میبرد.
پرادیپ ردی یک مدیر ارشد محصول در تیم SageMaker Low/No Code ML است که شامل SageMaker Autopilot، SageMaker Automatic Model Tuner است. در خارج از محل کار، پرادیپ از خواندن، دویدن و سرگرمی با رایانه هایی با اندازه کف دست مانند رزبری پای و سایر فناوری های اتوماسیون خانگی لذت می برد.
دکتر جان هی یک مهندس ارشد توسعه نرم افزار با هوش مصنوعی آمازون است، جایی که او بر یادگیری ماشین و محاسبات توزیع شده تمرکز دارد. او دارای مدرک دکترا از CMU است.
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آمازون SageMaker
- Amazon SageMaker Autopilot
- Amazon SageMaker Data Rangler
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- فراگیری ماشین
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- نحو
- زفیرنت