Amazon SageMaker Studio Lab یک محیط توسعه رایگان یادگیری ماشینی (ML) مبتنی بر منبع باز JupyterLab برای هر کسی که بتواند با استفاده از منابع محاسباتی AWS ML ML را بیاموزد و آزمایش کند. این بر اساس همان معماری و رابط کاربری است Amazon SageMaker Studio، اما با زیر مجموعه ای از قابلیت های Studio.
هنگامی که شروع به کار بر روی ابتکارات ML می کنید، باید قبل از ادامه ساخت مدل، تجزیه و تحلیل داده های اکتشافی (EDA) یا آماده سازی داده ها را انجام دهید. Amazon SageMaker Data Rangler یک قابلیت است آمازون SageMaker که باعث می شود دانشمندان و مهندسان داده سریعتر داده ها را برای برنامه های ML از طریق یک رابط بصری آماده کنند. Data Wrangler زمان جمعآوری و آمادهسازی دادهها برای ML را از هفتهها به دقیقه کاهش میدهد.
یک شتاب دهنده کلیدی آماده سازی ویژگی در Data Wrangler است گزارش کیفیت داده و بینش. این گزارش کیفیت دادهها را بررسی میکند و به تشخیص ناهنجاریها در دادههای شما کمک میکند، به طوری که میتوانید مهندسی دادههای مورد نیاز را برای تعمیر مجموعه دادهتان انجام دهید. میتوانید از گزارش کیفیت داده و اطلاعات بینش برای تجزیه و تحلیل دادههای خود استفاده کنید تا اطلاعاتی در مورد مجموعه دادههای خود مانند تعداد مقادیر از دست رفته و تعداد نقاط پرت به دست آورید. اگر مشکلاتی با دادههای خود دارید، مانند نشت هدف یا عدم تعادل، گزارش بینش میتواند آن مشکلات را به شما جلب کند و به شما کمک کند مراحل آمادهسازی داده را که باید انجام دهید شناسایی کنید.
کاربران Studio Lab میتوانند از Data Wrangler بهره ببرند زیرا کیفیت داده و مهندسی ویژگی برای عملکرد پیشبینی مدل شما حیاتی است. Data Wrangler با ارائه بینش در مورد مسائل مربوط به کیفیت داده و به راحتی امکان تکرار سریع ویژگی ها و مهندسی با استفاده از یک رابط کاربری کم کد، به کیفیت داده ها و مهندسی ویژگی ها کمک می کند.
در این پست، نحوه انجام تجزیه و تحلیل داده های اکتشافی، آماده سازی و تبدیل داده ها با استفاده از Data Wrangler و صادرات داده های تبدیل شده و آماده شده به آزمایشگاه استودیو برای انجام مدل سازی را به شما نشان می دهیم.
بررسی اجمالی راه حل
راه حل شامل مراحل سطح بالا زیر است:
- حساب AWS و کاربر مدیر ایجاد کنید. این یک پیش نیاز است
- مجموعه داده را دانلود کنید churn.csv.
- مجموعه داده را بارگیری کنید سرویس ذخیره سازی ساده آمازون (Amazon S3).
- یک دامنه SageMaker Studio ایجاد کنید و Data Wrangler را راه اندازی کنید.
- مجموعه داده را از Amazon S3 به جریان Data Wrangler وارد کنید.
- گزارش کیفیت داده و بینش ایجاد کنید و در مورد مهندسی ویژگی های لازم نتیجه گیری کنید.
- تبدیل داده های لازم را در Data Wrangler انجام دهید.
- گزارش کیفیت داده و بینش و مجموعه داده تغییر یافته را دانلود کنید.
- برای آموزش مدل داده ها را در پروژه آزمایشگاه استودیو آپلود کنید.
نمودار زیر این گردش کار را نشان می دهد.
پیش نیازها
برای استفاده از Data Wrangler و Studio Lab، به پیش نیازهای زیر نیاز دارید:
با Data Wrangler یک گردش کار آماده سازی داده بسازید
برای شروع مراحل زیر را انجام دهید:
- مجموعه داده خود را در آمازون S3 آپلود کنید.
- در کنسول SageMaker، در زیر تابلوی کنترل در قسمت ناوبری، را انتخاب کنید استودیو.
- بر برنامه را راه اندازی کنید منوی کنار نمایه کاربری خود را انتخاب کنید استودیو.
پس از اینکه با موفقیت وارد استودیو شدید، باید یک محیط توسعه مانند تصویر زیر را مشاهده کنید. - برای ایجاد یک گردش کار Data Wrangler جدید، در پرونده منو ، انتخاب کنید جدید، پس از آن را انتخاب کنید جریان متخاصم داده.
اولین قدم در Data Wrangler این است که واردات داده های شما می توانید داده ها را از چندین منبع داده مانند Amazon S3 وارد کنید. آمازون آتنا, آمازون Redshift, دانه برفو پایگاه داده. در این مثال، ما از Amazon S3 استفاده می کنیم. اگر فقط می خواهید ببینید Data Wrangler چگونه کار می کند، همیشه می توانید انتخاب کنید از مجموعه داده های نمونه استفاده کنید. - را انتخاب کنید وارد کردن داده.
- را انتخاب کنید آمازون S3.
- مجموعه داده ای را که آپلود کرده اید انتخاب کنید و انتخاب کنید وارد كردن.
Data Wrangler شما را قادر می سازد کل مجموعه داده را وارد کنید یا بخشی از آن را نمونه برداری کنید. - برای دریافت سریع اطلاعات بینش در مورد مجموعه داده، را انتخاب کنید اول ک برای نمونه برداری و برای 50000 وارد کنید اندازهی نمونه.
کیفیت داده ها را درک کنید و بینش دریافت کنید
بیایید از گزارش کیفیت داده و اطلاعات بینش برای تجزیه و تحلیل دادههایی که به Data Wrangler وارد کردهایم استفاده کنیم. میتوانید از گزارش برای درک مراحلی که برای پاکسازی و پردازش دادههای خود باید بردارید، استفاده کنید. این گزارش اطلاعاتی مانند تعداد مقادیر از دست رفته و تعداد نقاط پرت را ارائه می دهد. اگر مشکلاتی با دادههای خود دارید، مانند نشت هدف یا عدم تعادل، گزارش بینش میتواند آن مشکلات را به شما جلب کند.
- علامت مثبت کناری را انتخاب کنید انواع داده ها و انتخاب کنید دریافت اطلاعات بینش.
- برای نوع تحلیل، انتخاب کنید گزارش کیفیت داده و بینش.
- برای ستون هدف، انتخاب کنید ول کردن؟.
- برای نوع مشکلانتخاب کنید طبقه بندی.
- را انتخاب کنید ساختن.
گزارش مفصلی به شما ارائه می شود که می توانید آن را بررسی و دانلود کنید. این گزارش شامل چندین بخش مانند مدل سریع، خلاصه ویژگی، همبستگی ویژگی و بینش داده است. اسکرین شات های زیر نمونه هایی از این بخش ها را ارائه می دهند.
مشاهدات از گزارش
از این گزارش می توان به مشاهدات زیر اشاره کرد:
- هیچ ردیف تکراری یافت نشد.
- La
State
به نظر می رسد ستون کاملاً به طور مساوی توزیع شده است، بنابراین داده ها از نظر جمعیت ایالت متعادل هستند. - La
Phone
ستون مقادیر منحصر به فرد زیادی را ارائه می دهد که نمی تواند کاربرد عملی داشته باشد. مقادیر بیش از حد منحصر به فرد باعث می شود این ستون مفید نباشد. ما می توانیم رها کنیمPhone
ستون در تحول ما - بر اساس بخش همبستگی ویژگی های گزارش،
Mins
وCharge
همبستگی بالایی دارند. ما می توانیم یکی از آنها را حذف کنیم.
دگرگونی
بر اساس مشاهدات خود، می خواهیم تغییرات زیر را انجام دهیم:
- حذف
Phone
ستون چون مقادیر منحصر به فرد زیادی دارد. - ما همچنین چندین ویژگی را می بینیم که اساساً 100٪ با یکدیگر همبستگی دارند. گنجاندن این جفتهای ویژگی در برخی از الگوریتمهای ML میتواند مشکلات نامطلوبی ایجاد کند، در حالی که در برخی دیگر تنها افزونگی و سوگیری جزئی را ایجاد میکند. بیایید یک ویژگی را از هر یک از جفت های بسیار همبسته حذف کنیم:
Day Charge
از جفت باDay Mins
,Night Charge
از جفت باNight Mins
وIntl Charge
از جفت باIntl Mins
. - تبدیل
True
orFalse
درChurn
ستون یک مقدار عددی 1 یا 0 باشد.
- به جریان داده برگردید و علامت مثبت کنار آن را انتخاب کنید انواع داده ها.
- را انتخاب کنید تبدیل را اضافه کنید.
- را انتخاب کنید مرحله اضافه کنید.
- می توانید تبدیل مورد نظر خود را جستجو کنید (در مورد ما، ستون ها را مدیریت کنید).
- را انتخاب کنید ستون ها را مدیریت کنید.
- برای دگرگون کردنانتخاب کنید رها کردن ستون.
- برای ستون هایی برای رها کردنانتخاب کنید
Phone
,Day Charge
,Eve Charge
,Night Charge
وIntl Charge
. - را انتخاب کنید پیش نمایش، پس از آن را انتخاب کنید بروزرسانی.
بیایید یک تبدیل دیگر اضافه کنیم تا یک کد طبقه بندی شده روی آن انجام شودChurn?
ستون. - تبدیل را انتخاب کنید کدگذاری طبقه بندی شده.
- برای دگرگون کردن، انتخاب کنید کد ترتیبی.
- برای ستون های ورودی، انتخاب
Churn?
ستون. - برای استراتژی مدیریت نامعتبر، انتخاب کنید NaN را جایگزین کنید.
- را انتخاب کنید پیش نمایش، پس از آن را انتخاب کنید بروزرسانی.
اکنون True
و False
به ترتیب به 1 و 0 تبدیل می شوند.
اکنون که درک خوبی از داده ها داریم و داده ها را برای ساخت مدل آماده و تبدیل کرده ایم، می توانیم داده ها را برای ساخت مدل به آزمایشگاه Studio منتقل کنیم.
داده ها را در آزمایشگاه استودیو آپلود کنید
برای شروع استفاده از داده ها در Studio Lab، مراحل زیر را انجام دهید:
- را انتخاب کنید صادر کردن داده به صادرات به یک سطل S3.
- برای مکان آمازون S3، مسیر S3 خود را وارد کنید.
- نوع فایل را مشخص کنید.
- را انتخاب کنید صادر کردن داده.
- پس از اینکه داده ها را صادر کردید، می توانید داده ها را از سطل S3 به رایانه محلی خود دانلود کنید.
- اکنون می توانید به آزمایشگاه استودیو بروید و فایل را در آزمایشگاه استودیو آپلود کنید.
از طرف دیگر، می توانید از Studio Lab به Amazon S3 متصل شوید. برای اطلاعات بیشتر مراجعه کنید از منابع خارجی در Amazon SageMaker Studio Lab استفاده کنید. - بیایید SageMaker را نصب کنیم و پانداها را وارد کنیم.
- تمام کتابخانه ها را در صورت نیاز وارد کنید.
- حالا می توانیم فایل CSV را بخوانیم.
- بیا چاپ کنیم
churn
برای تأیید صحت مجموعه داده
اکنون که مجموعه داده پردازش شده را در آزمایشگاه استودیو دارید، می توانید مراحل بیشتری را برای ساخت مدل انجام دهید.
قیمت گذاری Data Wrangler
شما می توانید تمام مراحل این پست را برای EDA یا آماده سازی داده در Data Wrangler و انجام دهید پرداخت برای مثال ساده، مشاغل و قیمت گذاری ذخیره سازی بر اساس استفاده یا مصرف. هیچ هزینه اولیه یا مجوزی لازم نیست.
پاک کردن
وقتی از Data Wrangler استفاده نمیکنید، مهم است که نمونهای را که در آن اجرا میشود خاموش کنید تا از پرداخت هزینههای اضافی جلوگیری کنید. برای جلوگیری از از دست دادن کار، قبل از خاموش کردن Data Wrangler، جریان داده خود را ذخیره کنید.
- برای ذخیره جریان داده خود در Studio، را انتخاب کنید پرونده، پس از آن را انتخاب کنید ذخیره داده Wrangler Flow.
Data Wrangler به طور خودکار جریان داده های شما را هر 60 ثانیه ذخیره می کند. - برای خاموش کردن نمونه Data Wrangler، در Studio، را انتخاب کنید در حال اجرا نمونه ها و هسته ها.
- تحت برنامه های در حال اجرا، نماد خاموش شدن را در کنار
sagemaker-data-wrangler-1.0 app
. - را انتخاب کنید همه را خاموش کنید برای تایید.
Data Wrangler روی نمونه ml.m5.4xlarge اجرا میشود. این نمونه از بین می رود در حال اجرا نمونه هنگامی که برنامه Data Wrangler را خاموش می کنید.
پس از اینکه برنامه Data Wrangler را خاموش کردید، دفعه بعد که یک فایل جریان داده Wrangler را باز می کنید، باید دوباره راه اندازی شود. این ممکن است چند دقیقه طول بکشد.
نتیجه
در این پست دیدیم که چگونه میتوانید اطلاعاتی در مورد مجموعه دادههای خود به دست آورید، تجزیه و تحلیل دادههای اکتشافی را انجام دهید، دادهها را با استفاده از Data Wrangler در استودیو آماده و تبدیل کنید، و دادههای تبدیلشده و آمادهشده را به آزمایشگاه استودیو صادر کنید و ساخت مدل و مراحل دیگر را انجام دهید.
با SageMaker Data Wrangler، میتوانید فرآیند آمادهسازی دادهها و مهندسی ویژگیها را ساده کنید و هر مرحله از گردش کار آمادهسازی دادهها، از جمله انتخاب داده، پاکسازی، کاوش و تجسم را از یک رابط بصری کامل کنید.
درباره نویسندگان
راجاکومار سامپاتکومار یک مدیر اصلی حساب فنی در AWS است که به مشتریان راهنمایی هایی را در مورد همسویی فناوری تجاری ارائه می دهد و از اختراع مجدد مدل ها و فرآیندهای عملیات ابری آنها پشتیبانی می کند. او علاقه زیادی به یادگیری ابری و ماشینی دارد. راج همچنین یک متخصص یادگیری ماشین است و با مشتریان AWS برای طراحی، استقرار و مدیریت حجم کاری و معماری AWS آنها کار می کند.
میناکشیسوندارام تانداوارایان یک متخصص ارشد AI/ML با اشتیاق به طراحی، ایجاد و ترویج تجربیات داده ها و تجزیه و تحلیل انسان محور است. او از مشتریان استراتژیک AWS در تبدیل آنها به سازمان مبتنی بر داده پشتیبانی می کند.
جیمز وو یک معمار ارشد راه حل متخصص AI/ML در AWS است. کمک به مشتریان در طراحی و ساخت راه حل های AI/ML. کار جیمز طیف گستردهای از موارد استفاده از ML را پوشش میدهد، با علاقه اولیه به بینایی رایانه، یادگیری عمیق، و مقیاسبندی ML در سراسر سازمان. قبل از پیوستن به AWS، جیمز بیش از 10 سال معمار، توسعهدهنده و رهبر فناوری بود، از جمله 6 سال در مهندسی و 4 سال در صنایع بازاریابی و تبلیغات.
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آمازون SageMaker
- Amazon SageMaker Data Rangler
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- فراگیری ماشین
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- نحو
- زفیرنت