آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

آماده سازی داده های یکپارچه، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - قسمت 2

بسته به کیفیت و پیچیدگی داده ها، دانشمندان داده بین 45 تا 80 درصد از زمان خود را صرف کارهای آماده سازی داده می کنند. این نشان می‌دهد که آماده‌سازی و پاک‌سازی داده‌ها زمان ارزشمندی را از کار علم داده واقعی می‌گیرد. پس از اینکه یک مدل یادگیری ماشین (ML) با داده های آماده آموزش داده شد و برای استقرار آماده شد، دانشمندان داده اغلب باید تبدیل های داده مورد استفاده برای آماده سازی داده ها برای استنتاج ML را بازنویسی کنند. این ممکن است زمان لازم برای استقرار یک مدل مفید را که بتواند داده ها را از شکل و فرم خام آن استنتاج و امتیازدهی کند، طولانی کند.

در قسمت 1 این مجموعه، نشان دادیم که چگونه Data Wrangler a را فعال می کند آماده سازی داده های یکپارچه و آموزش مدل تجربه با Amazon SageMaker Autopilot تنها در چند کلیک در این قسمت دوم و پایانی این مجموعه، ما بر روی ویژگی ای تمرکز می کنیم که شامل و استفاده مجدد می شود Amazon SageMaker Data Rangler تبدیل‌ها، مانند مبدل‌های مقدار از دست رفته، رمزگذارهای ترتیبی یا تک داغ، و موارد دیگر، همراه با مدل‌های خلبان خودکار برای استنتاج ML. این ویژگی پیش پردازش خودکار داده های خام را با استفاده مجدد از تبدیل های ویژگی Data Wrangler در زمان استنتاج امکان پذیر می کند و زمان مورد نیاز برای استقرار یک مدل آموزش دیده برای تولید را کاهش می دهد.

بررسی اجمالی راه حل

Data Wrangler زمان جمع‌آوری و آماده‌سازی داده‌ها را برای ML از هفته‌ها به دقیقه کاهش می‌دهد و Autopilot به‌طور خودکار بهترین مدل‌های ML را بر اساس داده‌های شما می‌سازد، آموزش می‌دهد و تنظیم می‌کند. با Autopilot، شما همچنان کنترل و دید کامل داده ها و مدل خود را حفظ می کنید. هر دوی این سرویس‌ها هدفمند ساخته شده‌اند تا شاغلین ML را بهره‌ورتر کنند و زمان ارزش‌گذاری را تسریع کنند.

نمودار زیر معماری راه حل ما را نشان می دهد.

پیش نیازها

از آنجایی که این پست دومین پست از یک سری دو قسمتی است، مطمئن شوید که با موفقیت مطالعه و اجرا کرده اید قسمت 1 قبل از ادامه

صادرات و آموزش مدل

در قسمت 1، پس از آماده‌سازی داده‌ها برای ML، در مورد اینکه چگونه می‌توانید از تجربه یکپارچه در Data Wrangler برای تجزیه و تحلیل مجموعه‌های داده استفاده کنید و به راحتی مدل‌های ML با کیفیت بالا را در Autopilot بسازید، بحث کردیم.

این بار، یک بار دیگر از ادغام Autopilot برای آموزش یک مدل در برابر همان مجموعه داده آموزشی استفاده می کنیم، اما به جای انجام استنتاج انبوه، استنتاج بلادرنگ را در برابر یک استنتاج انجام می دهیم. آمازون SageMaker نقطه پایان استنتاج که به طور خودکار برای ما ایجاد می شود.

علاوه بر راحتی ارائه شده توسط استقرار نقطه پایانی خودکار، نشان می‌دهیم که چگونه می‌توانید با تمام تبدیل‌های ویژگی Data Wrangler به عنوان خط لوله استنتاج سریال SageMaker نیز گسترش دهید. این امکان پیش پردازش خودکار داده های خام را با استفاده مجدد از تبدیل ویژگی Data Wrangler در زمان استنتاج فراهم می کند.

توجه داشته باشید که این ویژگی در حال حاضر فقط برای جریان‌های Data Wrangler پشتیبانی می‌شود که از تبدیل‌های join، group by، concatenate و سری زمانی استفاده نمی‌کنند.

ما می‌توانیم از ادغام جدید Data Wrangler با Autopilot برای آموزش مستقیم یک مدل از رابط کاربری داده‌های جریان داده Wrangler استفاده کنیم.

  1. علامت مثبت کنار علامت را انتخاب کنید مقادیر مقیاس گره، و انتخاب کنید مدل قطار.
  2. برای مکان آمازون S3، مشخص کنید سرویس ذخیره سازی ساده آمازون (Amazon S3) مکانی که SageMaker داده های شما را صادر می کند.
    اگر به طور پیش‌فرض با یک مسیر سطل ریشه ارائه شود، Data Wrangler یک زیر شاخه صادرات منحصر به فرد را در زیر آن ایجاد می‌کند—شما نیازی به تغییر این مسیر پیش‌فرض ریشه ندارید، مگر اینکه بخواهید. Autopilot از این مکان برای آموزش خودکار یک مدل استفاده می‌کند و شما را نجات می‌دهد. زمان از تعیین محل خروجی جریان داده Wrangler و سپس تعیین مکان ورودی داده های آموزشی Autopilot. این باعث می شود که تجربه یکپارچه تری داشته باشید.
  3. را انتخاب کنید صادرات و آموزش برای صادرات داده های تبدیل شده به آمازون S3.
    آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.
    هنگامی که صادرات موفقیت آمیز است، به مسیر هدایت می شوید یک آزمایش خلبان خودکار ایجاد کنید صفحه، با داده های ورودی مکان S3 قبلاً برای شما پر شده است (از نتایج صفحه قبل پر شده است).
  4. برای نام آزمایش، یک نام وارد کنید (یا نام پیش فرض را نگه دارید).
  5. برای هدف، انتخاب کنید نتیجه به عنوان ستونی که می خواهید پیش بینی کنید.
  6. را انتخاب کنید بعدی: روش آموزش.
    آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

همانطور که در پست توضیح داده شده است Amazon SageMaker Autopilot با حالت جدید آموزش گروهی که توسط AutoGluon طراحی شده است تا هشت برابر سریعتر است.، می توانید به Autopilot اجازه دهید حالت آموزشی را به طور خودکار بر اساس اندازه مجموعه داده انتخاب کند یا حالت آموزش را به صورت دستی برای بهینه سازی ترکیبی یا فراپارامتر (HPO) انتخاب کنید.

جزئیات هر گزینه به شرح زیر است:

  • خودکار - Autopilot به طور خودکار بر اساس اندازه مجموعه داده شما حالت ensembling یا HPO را انتخاب می کند. اگر مجموعه داده شما بزرگتر از 100 مگابایت باشد، Autopilot HPO را انتخاب می کند. در غیر این صورت آنسامبلینگ را انتخاب می کند.
  • گروه بندی - خلبان خودکار از AutoGluon تکنیک مجموعه‌ای برای آموزش چندین مدل پایه و ترکیب پیش‌بینی‌های آنها با استفاده از انباشته مدل در یک مدل پیش‌بینی بهینه.
  • بهینه سازی هایپرپارامتر – Autopilot بهترین نسخه یک مدل را با تنظیم فراپارامترها با استفاده از تکنیک بهینه‌سازی بیزی و اجرای کارهای آموزشی بر روی مجموعه داده شما پیدا می‌کند. HPO الگوریتم‌هایی را انتخاب می‌کند که مرتبط‌ترین الگوریتم‌ها با مجموعه داده شما هستند و بهترین محدوده از فراپارامترها را برای تنظیم مدل‌ها انتخاب می‌کند. برای مثال، ما انتخاب پیش‌فرض را ترک می‌کنیم. خودکار.
  1. را انتخاب کنید بعدی: استقرار و تنظیمات پیشرفته به ادامه.
    آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.
  2. بر استقرار و تنظیمات پیشرفته صفحه، یک گزینه استقرار را انتخاب کنید.
    مهم است که گزینه های استقرار را با جزئیات بیشتر درک کنید. آنچه انتخاب می‌کنیم بر اینکه تبدیل‌هایی که قبلاً در Data Wrangler انجام داده‌ایم در خط لوله استنتاج گنجانده شوند یا خیر تأثیر خواهد داشت:
    • استقرار خودکار بهترین مدل با تبدیل از Data Wrangler – با استفاده از این گزینه استقرار، هنگامی که داده ها را در Data Wrangler آماده می کنید و با فراخوانی Autopilot یک مدل را آموزش می دهید، مدل آموزش دیده در کنار تمام ویژگی های Data Wrangler به صورت تبدیل می شود. خط لوله استنتاج سریال SageMaker. این امکان پیش پردازش خودکار داده های خام را با استفاده مجدد از تبدیل ویژگی Data Wrangler در زمان استنتاج فراهم می کند. توجه داشته باشید که نقطه پایانی استنتاج انتظار دارد که قالب داده‌های شما در همان قالبی باشد که در جریان داده‌های Wrangler وارد می‌شود.
    • استقرار خودکار بهترین مدل بدون تبدیل از Data Wrangler – این گزینه یک نقطه پایانی بلادرنگ را مستقر می‌کند که از تبدیل‌های Data Wrangler استفاده نمی‌کند. در این مورد، باید تبدیل های تعریف شده در جریان داده رانگلر خود را قبل از استنتاج بر روی داده های خود اعمال کنید.
    • بهترین مدل را به صورت خودکار مستقر نکنید – زمانی که اصلاً نمی خواهید نقطه پایانی استنتاج ایجاد کنید باید از این گزینه استفاده کنید. اگر می‌خواهید بهترین مدل را برای استفاده بعدی ایجاد کنید، مانند استنتاج انبوه به صورت محلی، مفید است. (این گزینه استقرار است که ما در قسمت 1 مجموعه انتخاب کردیم.) توجه داشته باشید که وقتی این گزینه را انتخاب می کنید، مدل ایجاد شده (از بهترین نامزد Autopilot از طریق SageMaker SDK) شامل تبدیل ویژگی Data Wrangler به عنوان خط لوله استنتاج سریال SageMaker است.

    برای این پست از استقرار خودکار بهترین مدل با تبدیل از Data Wrangler گزینه.

  3. برای گزینه استقرار، انتخاب کنید استقرار خودکار بهترین مدل با تبدیل از Data Wrangler.
  4. سایر تنظیمات را به عنوان پیش فرض بگذارید.
  5. را انتخاب کنید بعدی: بررسی و ایجاد به ادامه.
    بر بررسی و ایجاد کنید در صفحه، خلاصه ای از تنظیمات انتخاب شده برای آزمایش Autopilot خود را مشاهده می کنیم.
  6. را انتخاب کنید آزمایش ایجاد کنید برای شروع فرآیند ایجاد مدل
    آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

شما به صفحه شرح وظایف خلبان خودکار هدایت می شوید. مدل ها روی مدل همانطور که آنها تولید می شوند، برگه را انتخاب کنید. برای تأیید کامل بودن فرآیند، به آدرس زیر بروید مشخصات شغل را بزنید و به دنبال a بگردید Completed ارزش برای وضعیت رشته.

می‌توانید در هر زمان که بخواهید به این صفحه شرح وظایف خلبان خودکار بازگردید Amazon SageMaker Studio:

  1. را انتخاب کنید آزمایش ها و آزمایش ها در منابع SageMaker فهرست کشویی.
  2. نام شغل Autopilot را که ایجاد کردید انتخاب کنید.
  3. آزمایش را انتخاب کنید (راست کلیک کنید) و انتخاب کنید AutoML Job را شرح دهید.

مشاهده آموزش و اعزام

هنگامی که Autopilot آزمایش را کامل کرد، می‌توانیم نتایج آموزش را مشاهده کرده و بهترین مدل را از صفحه شرح وظایف Autopilot بررسی کنیم.

مدل برچسب زده شده را انتخاب کنید (راست کلیک کنید). بهترین مدل، و انتخاب کنید در جزئیات مدل باز کنید.

آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

La عملکرد برگه چندین آزمایش اندازه گیری مدل را نشان می دهد، از جمله ماتریس سردرگمی، ناحیه زیر منحنی دقت/یادآوری (AUCPR) و ناحیه زیر منحنی مشخصه عملکرد گیرنده (ROC). اینها عملکرد کلی اعتبار مدل را نشان می دهند، اما به ما نمی گویند که آیا مدل به خوبی تعمیم می یابد یا خیر. ما هنوز باید ارزیابی‌هایی را روی داده‌های آزمایش دیده نشده انجام دهیم تا ببینیم مدل چقدر پیش‌بینی می‌کند (برای این مثال، پیش‌بینی می‌کنیم که آیا فردی دیابت دارد یا خیر).

استنتاج را در مقابل نقطه پایانی بلادرنگ انجام دهید

یک نوت بوک SageMaker جدید برای استنتاج بلادرنگ برای ارزیابی عملکرد مدل ایجاد کنید. کد زیر را در یک نوت بوک وارد کنید تا استنتاج بلادرنگ برای اعتبارسنجی اجرا شود:

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

پس از تنظیم کد برای اجرا در نوت بوک، باید دو متغیر را پیکربندی کنید:

  • endpoint_name
  • payload_str

پیکربندی endpoint_name

endpoint_name نشان دهنده نام نقطه پایانی استنتاج بلادرنگ است که استقرار به صورت خودکار برای ما ایجاد شده است. قبل از اینکه آن را تنظیم کنیم، باید نام آن را پیدا کنیم.

  1. را انتخاب کنید نقاط پایان در منابع SageMaker فهرست کشویی.
  2. نام نقطه پایانی را که نام شغل Autopilot که ایجاد کرده‌اید با یک رشته تصادفی به آن اضافه شده است، پیدا کنید.
  3. آزمایش را انتخاب کنید (راست کلیک کنید) و انتخاب کنید Endpoint را شرح دهید.
    آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.
    La جزئیات نقطه پایانی صفحه ظاهر می شود
  4. نام کامل نقطه پایانی را برجسته کرده و فشار دهید Ctrl + C برای کپی کردن آن در کلیپ بورد
    آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.
  5. این مقدار را وارد کنید (مطمئن شوید که نقل قول شده است). endpoint_name در دفتر استنباط
    آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

پیکربندی payload_str

این نوت بوک دارای یک رشته پیش فرض بار است payload_str که می‌توانید برای آزمایش نقطه پایانی خود از آن استفاده کنید، اما با خیال راحت با مقادیر مختلف مانند مقادیر داده‌های آزمایشی خود آزمایش کنید.

برای استخراج مقادیر از مجموعه داده آزمایشی، دستورالعمل‌های موجود را دنبال کنید قسمت 1 برای صادر کردن مجموعه داده آزمایشی به آمازون S3. سپس در کنسول آمازون S3، می توانید آن را دانلود کنید و ردیف هایی را برای استفاده از فایل از Amazon S3 انتخاب کنید.

هر ردیف در مجموعه داده آزمایشی شما دارای XNUMX ستون است که آخرین ستون آن است outcome ارزش. برای این کد نوت‌بوک، مطمئن شوید که فقط از یک ردیف داده استفاده می‌کنید (هرگز هدر CSV) payload_str. همچنین مطمئن شوید که فقط یک را ارسال می کنید payload_str با هشت ستون، جایی که مقدار نتیجه را حذف کرده اید.

به عنوان مثال، اگر فایل های مجموعه داده آزمایشی شما شبیه کد زیر است و ما می خواهیم استنتاج بلادرنگ ردیف اول را انجام دهیم:

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

تنظیم کردیم payload_str به 10,115,0,0,0,35.3,0.134,29. توجه داشته باشید که چگونه ما را حذف کردیم outcome ارزش 0 در پایان.

اگر به طور تصادفی مقدار هدف مجموعه داده شما اولین یا آخرین مقدار نیست، فقط مقدار را با ساختار کاما دست نخورده حذف کنید. برای مثال، فرض کنید در حال پیش‌بینی نوار هستیم و مجموعه داده‌های ما شبیه کد زیر است:

foo,bar,foobar
85,17,20

در این صورت تنظیم می کنیم payload_str به 85,,20.

هنگامی که نوت بوک با پیکربندی مناسب اجرا می شود payload_str و endpoint_name مقادیر، شما یک پاسخ CSV در قالب دریافت می کنید outcome (0 یا 1) confidence (0 1).

تمیز کردن

برای اطمینان از اینکه پس از تکمیل این آموزش هزینه های مربوط به آموزش را متحمل نمی شوید، برنامه Data Wrangler را حتماً خاموش کنید (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html، و همچنین تمام نمونه های نوت بوک مورد استفاده برای انجام وظایف استنتاج. نقاط پایانی استنتاج ایجاد شده از طریق Auto Pilot Deploy باید حذف شوند تا از هزینه های اضافی نیز جلوگیری شود.

نتیجه

در این پست، نحوه ادغام پردازش داده‌ها، مهندسی و ساخت مدل را با استفاده از Data Wrangler و Autopilot نشان دادیم. با تکیه بر قسمت 1 این سری، به این موضوع اشاره کردیم که چگونه می‌توانید به راحتی یک مدل را به یک نقطه پایانی استنتاج بلادرنگ با Autopilot مستقیماً از رابط کاربری Data Wrangler آموزش دهید، تنظیم کنید و به کار ببرید. علاوه بر راحتی ارائه شده توسط استقرار نقطه پایانی خودکار، ما نشان دادیم که چگونه می‌توانید با تمام تبدیل‌های ویژگی Data Wrangler به عنوان خط لوله استنتاج سریال SageMaker، پیش‌پردازش خودکار داده‌های خام را با استفاده مجدد از تبدیل‌های ویژگی Data Wrangler در زمان استنباط

راه‌حل‌های کم‌کد و AutoML مانند Data Wrangler و Autopilot نیاز به دانش کدنویسی عمیق برای ساخت مدل‌های قوی ML را برطرف می‌کنند. شروع به استفاده از Data Wrangler کنید امروز تجربه کنید که ساخت مدل های ML با استفاده از Autopilot چقدر آسان است.


درباره نویسندگان

آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.گرمی کوهن یک معمار راه حل با AWS است که در آن به مشتریان کمک می کند تا راه حل های پیشرفته و مبتنی بر ابر بسازند. او در اوقات فراغت خود از پیاده‌روی کوتاه در ساحل، کاوش در منطقه خلیج با خانواده‌اش، تعمیر وسایل اطراف خانه، شکستن وسایل اطراف خانه و باربیکیو لذت می‌برد.

آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.پرادیپ ردی یک مدیر ارشد محصول در تیم SageMaker Low/No Code ML است که شامل SageMaker Autopilot، SageMaker Automatic Model Tuner است. در خارج از محل کار، پرادیپ از خواندن، دویدن و سرگرمی با رایانه هایی با اندازه کف دست مانند رزبری پای و سایر فناوری های اتوماسیون خانگی لذت می برد.

آماده سازی یکپارچه داده، آموزش مدل و استقرار با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.دکتر جان هی یک مهندس ارشد توسعه نرم افزار با هوش مصنوعی آمازون است، جایی که او بر یادگیری ماشین و محاسبات توزیع شده تمرکز دارد. او دارای مدرک دکترا از CMU است.

تمبر زمان:

بیشتر از آموزش ماشین AWS