آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot

داده ها به یادگیری ماشینی (ML) کمک می کند. کیفیت داده ها تأثیر مستقیمی بر کیفیت مدل های ML دارد. بنابراین، بهبود کیفیت داده‌ها و به‌کارگیری تکنیک‌های مهندسی ویژگی مناسب برای ایجاد مدل‌های دقیق ML حیاتی است. شاغلین ML اغلب در جستجوی مدل‌های بهینه که به خوبی بر روی داده‌های دنیای واقعی تعمیم می‌دهند و نتایج مورد نظر را ارائه می‌دهند، مهندسی ویژگی، انتخاب الگوریتم‌ها و سایر جنبه‌های ML را به‌طور خسته‌کننده تکرار می‌کنند. از آنجایی که سرعت در انجام تجارت به طور نامتناسبی اهمیت دارد، این فرآیند بسیار خسته کننده و تکراری ممکن است منجر به تاخیر در پروژه و از دست دادن فرصت های تجاری شود.

Amazon SageMaker Data Rangler زمان جمع آوری و آماده سازی داده ها برای ML را از هفته ها به دقیقه کاهش می دهد و Amazon SageMaker Autopilot به طور خودکار بهترین مدل های ML را بر اساس داده های شما می سازد، آموزش می دهد و تنظیم می کند. با Autopilot، شما همچنان کنترل و دید کامل داده ها و مدل خود را حفظ می کنید. هر دو سرویس هدفمند ساخته شده اند تا شاغلین ML را بهره ورتر کنند و زمان ارزش گذاری را تسریع کنند.

Data Wrangler اکنون تجربه یکپارچه ای را ارائه می دهد که به شما امکان می دهد داده ها را آماده کنید و به طور یکپارچه یک مدل ML را در Autopilot آموزش دهید. با این ویژگی تازه راه‌اندازی شده، اکنون می‌توانید داده‌های خود را در Data Wrangler آماده کنید و به راحتی آزمایش‌های Autopilot را مستقیماً از رابط کاربری Data Wrangler (UI) اجرا کنید. تنها با چند کلیک، می‌توانید به‌طور خودکار مدل‌های ML را بسازید، آموزش دهید، و تنظیم کنید، و استفاده از تکنیک‌های پیشرفته مهندسی ویژگی‌ها، آموزش مدل‌های ML با کیفیت بالا و کسب اطلاعات سریع‌تر از داده‌های خود را آسان‌تر می‌کند.

در این پست، ما در مورد چگونگی استفاده از این تجربه یکپارچه جدید در Data Wrangler برای تجزیه و تحلیل مجموعه داده‌ها و ساخت آسان مدل‌های ML با کیفیت بالا در Autopilot صحبت می‌کنیم.

نمای کلی مجموعه داده

سرخپوستان پیما یک گروه بومی هستند که در مکزیک و آریزونا، ایالات متحده زندگی می کنند. مطالعات سرخپوستان پیما را به عنوان یک گروه جمعیتی پرخطر برای دیابت نشان می دهد. پیش‌بینی احتمال خطر و استعداد فرد در برابر بیماری‌های مزمن مانند دیابت، وظیفه مهمی در بهبود سلامت و رفاه این گروه اقلیت است که اغلب کمتر از آنها نمایندگی می‌کنند.

ما با استفاده از مجموعه داده عمومی دیابت هندی Pima برای پیش بینی استعداد یک فرد به دیابت. ما بر روی ادغام جدید بین Data Wrangler و Autopilot تمرکز می کنیم تا داده ها را آماده کنیم و به طور خودکار یک مدل ML را بدون نوشتن یک خط کد ایجاد کنیم.

مجموعه داده حاوی اطلاعاتی در مورد زنان هندی Pima 21 سال یا بیشتر است و شامل چندین متغیر پیش بینی کننده پزشکی (مستقل) و یک متغیر هدف (وابسته) به نام نتیجه است. نمودار زیر ستون های مجموعه داده ما را توصیف می کند.

ستون نام توضیحات:
حاملگی ها تعداد دفعات بارداری
گلوکز غلظت گلوکز پلاسما در آزمایش تحمل گلوکز خوراکی در عرض 2 ساعت
فشار خون فشار خون دیاستولیک (میلی متر جیوه)
ضخامت پوست ضخامت چین های پوستی سه سر بازو (میلی متر)
انسولین انسولین سرم 2 ساعته (mu U/ml)
BMI شاخص توده بدنی (وزن بر حسب کیلوگرم/(قد بر حسب متر)^2)
دیابت شجره نامه عملکرد شجره نامه دیابت
سن سن در سال
نتیجه متغیر هدف

مجموعه داده شامل 768 رکورد، با 9 ویژگی است. ما این مجموعه داده را در آن ذخیره می کنیم سطل ذخیره سازی ساده آمازون (Amazon S3) به عنوان یک فایل CSV و سپس CSV را مستقیماً به یک جریان Data Wrangler از Amazon S3 وارد کنید.

بررسی اجمالی راه حل

نمودار زیر آنچه را که ما در این پست انجام می دهیم خلاصه می کند.[KT1]

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

دانشمندان داده، پزشکان و سایر متخصصان حوزه پزشکی داده‌های بیمار را با اطلاعاتی در مورد سطح گلوکز، فشار خون، شاخص توده بدنی و سایر ویژگی‌هایی که برای پیش‌بینی احتمال ابتلا به دیابت استفاده می‌شوند، ارائه می‌کنند. با مجموعه داده در آمازون S3، ما مجموعه داده را به Data Wrangler وارد می‌کنیم تا تجزیه و تحلیل داده‌های اکتشافی (EDA)، پروفایل داده، مهندسی ویژگی‌ها، و تقسیم مجموعه داده به قطار و آزمایش برای ساخت و ارزیابی مدل انجام شود.

سپس از ادغام ویژگی های جدید Autopilot برای ساخت سریع یک مدل به طور مستقیم از رابط Data Wrangler استفاده می کنیم. ما بهترین مدل Autopilot را بر اساس مدل با بالاترین امتیاز F-beta انتخاب می کنیم. بعد از اینکه Autopilot بهترین مدل را پیدا کرد، a را اجرا می کنیم SageMaker Batch Transform مجموعه کار در آزمون (هولدوت) با مصنوعات مدل بهترین مدل برای ارزیابی.

متخصصان پزشکی می‌توانند داده‌های جدیدی را به مدل معتبر ارائه کنند تا پیش‌بینی کنند که آیا بیمار احتمالاً مبتلا به دیابت است یا خیر. با این بینش، متخصصان پزشکی می توانند درمان را زودتر شروع کنند تا سلامت و رفاه جمعیت های آسیب پذیر را بهبود بخشند. کارشناسان پزشکی همچنین می توانند پیش بینی یک مدل را با ارجاع به جزئیات مدل در Autopilot توضیح دهند، زیرا آنها به توضیح کامل، عملکرد و مصنوعات مدل دسترسی کامل دارند. این دید علاوه بر اعتبار سنجی مدل از مجموعه آزمایش، به متخصصان پزشکی اطمینان بیشتری در توانایی پیش بینی مدل می دهد.

ما شما را از طریق مراحل سطح بالا زیر راهنمایی می کنیم.

  1. مجموعه داده را از آمازون S3 وارد کنید.
  2. EDA و پروفایل داده را با Data Wrangler انجام دهید.
  3. مهندسی ویژگی را برای رسیدگی به مقادیر پرت و از دست رفته انجام دهید.
  4. داده ها را به مجموعه های قطار و آزمایش تقسیم کنید.
  5. آموزش و ساخت مدل با Autopilot.
  6. مدل را روی یک نمونه نگهدارنده با نوت بوک SageMaker تست کنید.
  7. تجزیه و تحلیل اعتبار سنجی و عملکرد مجموعه تست.

پیش نیازها

مراحل پیش نیاز زیر را کامل کنید:

  1. مجموعه داده را آپلود کنید به یک سطل S3 به انتخاب شما.
  2. مطمئن شوید که مجوزهای لازم را دارید. برای اطلاعات بیشتر مراجعه کنید با Data Wrangler شروع کنید.
  3. دامنه SageMaker را برای استفاده از Data Wrangler تنظیم کنید. برای دستورالعمل، مراجعه کنید ورود به دامنه Amazon SageMaker.

مجموعه داده خود را با Data Wrangler وارد کنید

می‌توانید یک جریان داده Data Wrangler را در جریان‌های کاری ML خود ادغام کنید تا پیش‌پردازش داده‌ها و مهندسی ویژگی‌ها را با استفاده از برنامه‌نویسی کم یا بدون نیاز به ساده‌سازی و ساده‌سازی کنید. مراحل زیر را کامل کنید:

  1. ایجاد یک جدید جریان مخاصمه داده.

اگر این اولین باری است که Data Wrangler را باز می کنید، ممکن است لازم باشد چند دقیقه صبر کنید تا آماده شود.

  1. مجموعه داده ذخیره شده در Amazon S3 را انتخاب کنید و آن را به Data Wrangler وارد کنید.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

پس از وارد کردن مجموعه داده، باید شروع یک جریان داده را در رابط کاربری Data Wrangler مشاهده کنید. شما اکنون یک نمودار جریان دارید.

  1. علامت مثبت کناری را انتخاب کنید انواع داده ها و انتخاب کنید ویرایش برای تأیید اینکه Data Wrangler به طور خودکار انواع داده های صحیح را برای ستون های داده شما استنباط کرده است.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

اگر انواع داده‌ها صحیح نیستند، می‌توانید به راحتی آنها را از طریق UI تغییر دهید. اگر چندین منبع داده وجود دارد، می‌توانید به آنها بپیوندید یا به هم بپیوندید.

اکنون می توانیم یک تحلیل ایجاد کنیم و تبدیل ها را اضافه کنیم.

تجزیه و تحلیل داده های اکتشافی را با گزارش بینش داده انجام دهید

تجزیه و تحلیل داده های اکتشافی بخش مهمی از گردش کار ML است. ما می‌توانیم از گزارش داده‌های آماری جدید از Data Wrangler برای به دست آوردن درک بهتری از نمایه و توزیع داده‌هایمان استفاده کنیم. این گزارش شامل آمار خلاصه، هشدارهای کیفیت داده، بینش ستون هدف، یک مدل سریع و اطلاعاتی درباره ردیف‌های غیرعادی و تکراری است.

  1. علامت مثبت کناری را انتخاب کنید انواع داده ها و انتخاب کنید دریافت اطلاعات بینش.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

  1. برای هدف ستون، انتخاب کنید نتیجه.
  2. برای نوع مشکل، و (اختیاری) را انتخاب کنید طبقه بندی.
  3. را انتخاب کنید ساختن.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

نتایج یک داده خلاصه با آمار مجموعه داده را نشان می دهد.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

همچنین می‌توانیم توزیع ردیف‌های برچسب‌گذاری شده را با یک هیستوگرام، تخمینی از کیفیت پیش‌بینی‌شده مورد انتظار مدل با ویژگی مدل سریع، و یک جدول خلاصه ویژگی مشاهده کنیم.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

ما وارد جزئیات تجزیه و تحلیل گزارش بینش داده نمی شویم. رجوع شود آماده سازی داده ها را با کیفیت داده و بینش در Amazon SageMaker Data Wrangler تسریع کنید برای جزئیات بیشتر در مورد اینکه چگونه می توانید از گزارش بینش داده برای تسریع مراحل آماده سازی داده خود استفاده کنید.

مهندسی ویژگی را انجام دهید

اکنون که توزیع ستون های ورودی خود را در سطح بالایی نمایه و تجزیه و تحلیل کرده ایم، اولین نکته برای بهبود کیفیت داده هایمان می تواند رسیدگی به مقادیر از دست رفته باشد.

به عنوان مثال، ما می دانیم که صفر (0) برای Insulin ستون نشان دهنده مقادیر از دست رفته است. ما می توانیم توصیه را برای جایگزینی صفرها دنبال کنیم NaN. اما با بررسی دقیق تر، متوجه می شویم که حداقل مقدار برای ستون های دیگر مانند 0 است Glucose, BloodPressure, SkinThicknessو BMI. ما به راهی برای رسیدگی به مقادیر از دست رفته نیاز داریم، اما باید به ستون هایی با صفر به عنوان داده معتبر حساس باشیم. بیایید ببینیم چگونه می توانیم این را برطرف کنیم.

در جزئیات ویژگی بخش، گزارش الف را مطرح می کند مقدار گمشده پنهان هشدار برای ویژگی Insulin.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

از آنجا که صفر در Insulin ستون در واقع داده های گم شده است، ما از آن استفاده می کنیم تبدیل regex به از دست رفته تبدیل برای تبدیل مقادیر صفر به خالی (مقادیر از دست رفته).

  1. علامت مثبت کناری را انتخاب کنید داده ها انواع و انتخاب کنید اضافه کردن تبدیل.
  2.  را انتخاب کنید جستجو و ویرایش کنید.
  3. برای دگرگون کردن، انتخاب کنید تبدیل regex به از دست رفته.
  4. برای ورودی ستون ها، ستون ها را انتخاب کنید Insulin, Glucose, BloodPressure, SkinThicknessو BMI.
  5. برای الگو، وارد 0.
  6. را انتخاب کنید پیش نمایش و اضافه کردن برای ذخیره این مرحله

0 ورودی زیر Insulin, Glucose, BloodPressure, SkinThicknessو BMI اکنون مقادیری از دست داده اند.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

Data Wrangler چند گزینه دیگر برای رفع مقادیر از دست رفته در اختیار شما قرار می دهد.

  1. ما مقادیر از دست رفته را با قرار دادن میانگین تقریبی برای کنترل می کنیم Glucose ستون.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

ما همچنین می خواهیم اطمینان حاصل کنیم که ویژگی های ما در یک مقیاس هستند. ما نمی خواهیم به طور تصادفی به یک ویژگی خاص وزن بیشتری بدهیم فقط به این دلیل که آنها دارای محدوده عددی بزرگ تری هستند. ما ویژگی های خود را برای انجام این کار عادی می کنیم.

  1. اضافه کردن جدید پردازش عددی تبدیل و انتخاب کنید مقادیر مقیاس.
  2. برای بالا رونده، انتخاب کنید مقیاس کننده حداقل حداکثر.
  3. برای ستون های ورودی، ستون ها را انتخاب کنید Pregnancies, BloodPressure, Glucose, SkinThickness, Insulin, BMIو Age.
  4. تنظیم حداقل به 0 و حداکثر به 1.

این اطمینان حاصل می کند که ویژگی های ما بین مقادیر هستند 0 و 1.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

اکنون که برخی از ویژگی‌ها را ایجاد کرده‌ایم، مجموعه داده‌های خود را قبل از ساختن یک مدل به آموزش و آزمایش تقسیم می‌کنیم.

داده ها را به آموزش و آزمایش تقسیم کنید

در مرحله ساخت مدل گردش کار ML خود، کارایی مدل خود را با اجرای پیش‌بینی‌های دسته‌ای آزمایش می‌کنید. می‌توانید یک مجموعه داده آزمایشی یا نگهداری را برای ارزیابی کنار بگذارید تا با مقایسه پیش‌بینی‌ها با حقیقت پایه، عملکرد مدل خود را ببینید. به طور کلی، اگر تعداد بیشتری از پیش بینی های مدل مطابقت داشته باشد true برچسب ها، ما می توانیم مشخص کنیم که مدل به خوبی عمل می کند.

ما از Data Wrangler برای تقسیم مجموعه داده های خود برای آزمایش استفاده می کنیم. ما 90٪ از مجموعه داده های خود را برای آموزش حفظ می کنیم زیرا مجموعه داده نسبتاً کمی داریم. 10٪ باقیمانده از مجموعه داده ما به عنوان مجموعه داده آزمایشی عمل می کند. ما از این مجموعه داده برای اعتبارسنجی مدل Autopilot در آینده در این پست استفاده می کنیم.

ما داده های خود را با انتخاب آن تقسیم می کنیم تقسیم داده ها تبدیل و انتخاب تقسیم تصادفی به عنوان روش ما 0.9 را به عنوان درصد تقسیم برای آموزش و 0.1 را برای آزمایش تعیین می کنیم.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

با تکمیل تبدیل داده ها و تکمیل مراحل مهندسی، ما اکنون آماده آموزش یک مدل هستیم.

آموزش و اعتبارسنجی مدل

ما می‌توانیم از ادغام جدید Data Wrangler با Autopilot برای آموزش مستقیم یک مدل از رابط کاربری داده‌های جریان داده Wrangler استفاده کنیم.

  1. علامت مثبت کناری را انتخاب کنید مجموعه داده و انتخاب کنید مدل قطار.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

  1. برای مکان آمازون S3، مکان Amazon S3 را که SageMaker داده های شما را صادر می کند، مشخص کنید.

Autopilot از این مکان برای آموزش خودکار یک مدل استفاده می کند و در زمان شما از تعیین محل خروجی جریان داده Wrangler و سپس تعیین محل ورودی داده های آموزشی Autopilot صرفه جویی می کند. این باعث می شود تجربه یکپارچه تری داشته باشید.

  1. را انتخاب کنید صادرات و آموزش دهید برای شروع ساخت مدل با Autopilot.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

Autopilot به طور خودکار مکان های ورودی و خروجی داده های آموزشی را انتخاب می کند. فقط باید ستون هدف را مشخص کنید و کلیک کنید ایجاد آزمایش برای آموزش مدل شما

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

مدل را روی یک نمونه نگهدارنده تست کنید

وقتی Autopilot آزمایش را کامل کرد، می‌توانیم نتایج آموزش را مشاهده کرده و بهترین مدل را کشف کنیم.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

  1. را انتخاب کنید مشاهده جزئیات مدل برای مدل مورد نظر خود، سپس آن را انتخاب کنید عملکرد برگه در صفحه جزئیات مدل.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

La عملکرد برگه چندین آزمایش اندازه گیری مدل را نشان می دهد، از جمله ماتریس سردرگمی، ناحیه زیر منحنی دقت/یادآوری (AUCPR) و ناحیه زیر منحنی مشخصه عملکرد گیرنده (ROC). اینها عملکرد کلی اعتبار مدل را نشان می دهند، اما به ما نمی گویند که آیا مدل به خوبی تعمیم خواهد یافت یا خیر. ما هنوز باید ارزیابی هایی را بر روی داده های آزمایش دیده نشده انجام دهیم تا ببینیم این مدل با چه دقتی پیش بینی می کند که یک فرد مبتلا به دیابت باشد.

برای اطمینان از تعمیم مدل به اندازه کافی، نمونه آزمایشی را برای نمونه گیری مستقل کنار می گذاریم. ما می توانیم این کار را در رابط کاربری جریان داده Wrangler انجام دهیم.

  1.  علامت مثبت کناری را انتخاب کنید مجموعه داده، انتخاب کنید صادرات به، و انتخاب کنید آمازون S3.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

  1. یک مسیر Amazon S3 را مشخص کنید.

هنگامی که استنتاج دسته ای را برای اعتبار سنجی در بخش بعدی اجرا می کنیم به این مسیر اشاره می کنیم.

  1. یک نوت بوک SageMaker جدید برای انجام استنباط دسته ای روی نمونه نگهدارنده و ارزیابی عملکرد تست ایجاد کنید. به ادامه مطلب مراجعه کنید GitHub repo برای نمونه دفترچه یادداشت برای اجرای استنتاج دسته ای برای اعتبارسنجی

تجزیه و تحلیل اعتبار سنجی و عملکرد مجموعه تست

هنگامی که تبدیل دسته ای کامل شد، یک ماتریس سردرگمی ایجاد می کنیم تا نتایج واقعی و پیش بینی شده مجموعه داده ها را مقایسه کنیم.

ما 23 مثبت واقعی و 33 منفی واقعی را از نتایج خود می بینیم. در مورد ما، موارد مثبت واقعی به مدلی اشاره دارد که به درستی یک فرد مبتلا به دیابت را پیش بینی می کند. در مقابل، منفی واقعی به مدلی اشاره دارد که به درستی یک فرد را به عنوان دیابتی پیش بینی نمی کند.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

در مورد ما، دقت و یادآوری معیارهای مهمی هستند. دقت اساساً تمام افرادی که پیش‌بینی می‌شود مبتلا به دیابت هستند را اندازه‌گیری می‌کند، واقعاً چند نفر دیابت دارند؟ در مقابل، یادآوری به اندازه‌گیری همه افرادی که واقعاً دیابت دارند، کمک می‌کند، پیش‌بینی می‌شود چند نفر به دیابت مبتلا باشند؟ به عنوان مثال، ممکن است بخواهید از یک مدل با دقت بالا استفاده کنید، زیرا می‌خواهید تا آنجا که می‌توانید افراد بیشتری را درمان کنید، به‌خصوص اگر مرحله اول درمان تأثیری بر افراد بدون دیابت نداشته باشد (اینها موارد مثبت کاذب هستند - کسانی که برچسب ابتلا به دیابت را دارند. در حالی که در واقع این کار را نمی کنند).

همچنین برای ارزیابی نتایج، سطح زیر نمودار منحنی ROC (AUC) را رسم می کنیم. هر چه AUC بالاتر باشد، مدل در تمایز بین طبقات بهتر است، که در مورد ما این است که مدل در تشخیص بیماران مبتلا به دیابت و بدون دیابت چقدر خوب عمل می کند.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

نتیجه

در این پست، نحوه ادغام پردازش داده ها، مهندسی و ساخت مدل را با استفاده از Data Wrangler و Autopilot نشان دادیم. ما نشان دادیم که چگونه می توانید به راحتی یک مدل را با Autopilot مستقیماً از رابط کاربری Data Wrangler آموزش و تنظیم کنید. با استفاده از این ویژگی یکپارچه سازی، می توانیم پس از تکمیل مهندسی ویژگی، بدون نوشتن هیچ کدی، به سرعت یک مدل بسازیم. سپس به بهترین مدل Autopilot برای اجرای پیش‌بینی‌های دسته‌ای با استفاده از کلاس AutoML با SageMaker Python SDK اشاره کردیم.

راه‌حل‌های کم‌کد و AutoML مانند Data Wrangler و Autopilot نیاز به دانش کدنویسی عمیق برای ساخت مدل‌های قوی ML را برطرف می‌کنند. شروع به استفاده از Data Wrangler کنید امروز تجربه کنید که ساخت مدل های ML با استفاده از آن چقدر آسان است SageMaker Autopilot.


درباره نویسنده

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.پیتر چانگ یک معمار راه حل برای AWS است و علاقه زیادی به کمک به مشتریان برای کشف بینش از داده های خود دارد. او راه‌حل‌هایی برای کمک به سازمان‌ها در تصمیم‌گیری داده‌محور در بخش‌های دولتی و خصوصی ایجاد کرده است. او دارای تمام گواهینامه های AWS و همچنین دو گواهینامه GCP است. او از قهوه، آشپزی، فعال ماندن و گذراندن وقت با خانواده لذت می برد.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.پرادیپ ردی یک مدیر ارشد محصول در تیم SageMaker Low/No Code ML است که شامل SageMaker Autopilot، SageMaker Automatic Model Tuner است. در خارج از محل کار، پرادیپ از خواندن، دویدن و سرگرمی با رایانه هایی با اندازه کف دست مانند رزبری پای و سایر فناوری های اتوماسیون خانگی لذت می برد.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.آرونپراسات شانکار یک معمار راه حل های تخصصی هوش مصنوعی و یادگیری ماشین (AI/ML) با AWS است که به مشتریان جهانی کمک می کند راه حل های هوش مصنوعی خود را به طور موثر و کارآمد در فضای ابری مقیاس کنند. آرون در اوقات فراغت خود از تماشای فیلم های علمی تخیلی و گوش دادن به موسیقی کلاسیک لذت می برد.

آماده سازی داده های یکپارچه و آموزش مدل با Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.سروجان گوپو یک مهندس ارشد فرانت اند در SageMaker Low Code/No Code ML است که به مشتریان محصولات Autopilot و Canvas کمک می کند. وقتی سروجان برنامه نویسی نمی کند، از دویدن با سگش مکس، گوش دادن به کتاب های صوتی و توسعه بازی های واقعیت مجازی لذت می برد.

تمبر زمان:

بیشتر از آموزش ماشین AWS