از Amazon SageMaker Data Wrangler برای آماده سازی داده ها و آزمایشگاه های استودیو برای یادگیری و آزمایش با ML استفاده کنید

بازنشر افلاطون

دنبال: 0

Amazon SageMaker Studio Lab یک محیط توسعه رایگان یادگیری ماشینی (ML) مبتنی بر منبع باز JupyterLab برای هر کسی که بتواند با استفاده از منابع محاسباتی AWS ML ML را بیاموزد و آزمایش کند. این بر اساس همان معماری و رابط کاربری است Amazon SageMaker Studio، اما با زیر مجموعه ای از قابلیت های Studio.

هنگامی که شروع به کار بر روی ابتکارات ML می کنید، باید قبل از ادامه ساخت مدل، تجزیه و تحلیل داده های اکتشافی (EDA) یا آماده سازی داده ها را انجام دهید. Amazon SageMaker Data Rangler یک قابلیت است آمازون SageMaker که باعث می شود دانشمندان و مهندسان داده سریعتر داده ها را برای برنامه های ML از طریق یک رابط بصری آماده کنند. Data Wrangler زمان جمع‌آوری و آماده‌سازی داده‌ها برای ML را از هفته‌ها به دقیقه کاهش می‌دهد.

یک شتاب دهنده کلیدی آماده سازی ویژگی در Data Wrangler است گزارش کیفیت داده و بینش. این گزارش کیفیت داده‌ها را بررسی می‌کند و به تشخیص ناهنجاری‌ها در داده‌های شما کمک می‌کند، به طوری که می‌توانید مهندسی داده‌های مورد نیاز را برای تعمیر مجموعه داده‌تان انجام دهید. می‌توانید از گزارش کیفیت داده و اطلاعات بینش برای تجزیه و تحلیل داده‌های خود استفاده کنید تا اطلاعاتی در مورد مجموعه داده‌های خود مانند تعداد مقادیر از دست رفته و تعداد نقاط پرت به دست آورید. اگر مشکلاتی با داده‌های خود دارید، مانند نشت هدف یا عدم تعادل، گزارش بینش می‌تواند آن مشکلات را به شما جلب کند و به شما کمک کند مراحل آماده‌سازی داده را که باید انجام دهید شناسایی کنید.

کاربران Studio Lab می‌توانند از Data Wrangler بهره ببرند زیرا کیفیت داده و مهندسی ویژگی برای عملکرد پیش‌بینی مدل شما حیاتی است. Data Wrangler با ارائه بینش در مورد مسائل مربوط به کیفیت داده و به راحتی امکان تکرار سریع ویژگی ها و مهندسی با استفاده از یک رابط کاربری کم کد، به کیفیت داده ها و مهندسی ویژگی ها کمک می کند.

در این پست، نحوه انجام تجزیه و تحلیل داده های اکتشافی، آماده سازی و تبدیل داده ها با استفاده از Data Wrangler و صادرات داده های تبدیل شده و آماده شده به آزمایشگاه استودیو برای انجام مدل سازی را به شما نشان می دهیم.

بررسی اجمالی راه حل

راه حل شامل مراحل سطح بالا زیر است:

حساب AWS و کاربر مدیر ایجاد کنید. این یک پیش نیاز است
مجموعه داده را دانلود کنید churn.csv.
مجموعه داده را بارگیری کنید سرویس ذخیره سازی ساده آمازون (Amazon S3).
یک دامنه SageMaker Studio ایجاد کنید و Data Wrangler را راه اندازی کنید.
مجموعه داده را از Amazon S3 به جریان Data Wrangler وارد کنید.
گزارش کیفیت داده و بینش ایجاد کنید و در مورد مهندسی ویژگی های لازم نتیجه گیری کنید.
تبدیل داده های لازم را در Data Wrangler انجام دهید.
گزارش کیفیت داده و بینش و مجموعه داده تغییر یافته را دانلود کنید.
برای آموزش مدل داده ها را در پروژه آزمایشگاه استودیو آپلود کنید.

نمودار زیر این گردش کار را نشان می دهد.

پیش نیازها

برای استفاده از Data Wrangler و Studio Lab، به پیش نیازهای زیر نیاز دارید:

با Data Wrangler یک گردش کار آماده سازی داده بسازید

برای شروع مراحل زیر را انجام دهید:

مجموعه داده خود را در آمازون S3 آپلود کنید.
در کنسول SageMaker، در زیر تابلوی کنترل در قسمت ناوبری، را انتخاب کنید استودیو.
بر برنامه را راه اندازی کنید منوی کنار نمایه کاربری خود را انتخاب کنید استودیو.

پس از اینکه با موفقیت وارد استودیو شدید، باید یک محیط توسعه مانند تصویر زیر را مشاهده کنید.
برای ایجاد یک گردش کار Data Wrangler جدید، در پرونده منو ، انتخاب کنید جدید، پس از آن را انتخاب کنید جریان متخاصم داده.

اولین قدم در Data Wrangler این است که واردات داده های شما می توانید داده ها را از چندین منبع داده مانند Amazon S3 وارد کنید. آمازون آتنا, آمازون Redshift, دانه برفو پایگاه داده. در این مثال، ما از Amazon S3 استفاده می کنیم. اگر فقط می خواهید ببینید Data Wrangler چگونه کار می کند، همیشه می توانید انتخاب کنید از مجموعه داده های نمونه استفاده کنید.
را انتخاب کنید وارد کردن داده.
را انتخاب کنید آمازون S3.
مجموعه داده ای را که آپلود کرده اید انتخاب کنید و انتخاب کنید وارد كردن.

Data Wrangler شما را قادر می سازد کل مجموعه داده را وارد کنید یا بخشی از آن را نمونه برداری کنید.
برای دریافت سریع اطلاعات بینش در مورد مجموعه داده، را انتخاب کنید اول ک برای نمونه برداری و برای 50000 وارد کنید اندازهی نمونه.

کیفیت داده ها را درک کنید و بینش دریافت کنید

بیایید از گزارش کیفیت داده و اطلاعات بینش برای تجزیه و تحلیل داده‌هایی که به Data Wrangler وارد کرده‌ایم استفاده کنیم. می‌توانید از گزارش برای درک مراحلی که برای پاکسازی و پردازش داده‌های خود باید بردارید، استفاده کنید. این گزارش اطلاعاتی مانند تعداد مقادیر از دست رفته و تعداد نقاط پرت را ارائه می دهد. اگر مشکلاتی با داده‌های خود دارید، مانند نشت هدف یا عدم تعادل، گزارش بینش می‌تواند آن مشکلات را به شما جلب کند.

علامت مثبت کناری را انتخاب کنید انواع داده ها و انتخاب کنید دریافت اطلاعات بینش.
برای نوع تحلیل، انتخاب کنید گزارش کیفیت داده و بینش.
برای ستون هدف، انتخاب کنید ول کردن؟.
برای نوع مشکلانتخاب کنید طبقه بندی.
را انتخاب کنید ساختن.

گزارش مفصلی به شما ارائه می شود که می توانید آن را بررسی و دانلود کنید. این گزارش شامل چندین بخش مانند مدل سریع، خلاصه ویژگی، همبستگی ویژگی و بینش داده است. اسکرین شات های زیر نمونه هایی از این بخش ها را ارائه می دهند.

مشاهدات از گزارش

از این گزارش می توان به مشاهدات زیر اشاره کرد:

هیچ ردیف تکراری یافت نشد.
La State به نظر می رسد ستون کاملاً به طور مساوی توزیع شده است، بنابراین داده ها از نظر جمعیت ایالت متعادل هستند.
La Phone ستون مقادیر منحصر به فرد زیادی را ارائه می دهد که نمی تواند کاربرد عملی داشته باشد. مقادیر بیش از حد منحصر به فرد باعث می شود این ستون مفید نباشد. ما می توانیم رها کنیم Phone ستون در تحول ما
بر اساس بخش همبستگی ویژگی های گزارش، Mins و Charge همبستگی بالایی دارند. ما می توانیم یکی از آنها را حذف کنیم.

دگرگونی

بر اساس مشاهدات خود، می خواهیم تغییرات زیر را انجام دهیم:

حذف Phone ستون چون مقادیر منحصر به فرد زیادی دارد.
ما همچنین چندین ویژگی را می بینیم که اساساً 100٪ با یکدیگر همبستگی دارند. گنجاندن این جفت‌های ویژگی در برخی از الگوریتم‌های ML می‌تواند مشکلات نامطلوبی ایجاد کند، در حالی که در برخی دیگر تنها افزونگی و سوگیری جزئی را ایجاد می‌کند. بیایید یک ویژگی را از هر یک از جفت های بسیار همبسته حذف کنیم: Day Charge از جفت با Day Mins, Night Charge از جفت با Night Minsو Intl Charge از جفت با Intl Mins.
تبدیل True or False در Churn ستون یک مقدار عددی 1 یا 0 باشد.

به جریان داده برگردید و علامت مثبت کنار آن را انتخاب کنید انواع داده ها.
را انتخاب کنید تبدیل را اضافه کنید.
را انتخاب کنید مرحله اضافه کنید.
می توانید تبدیل مورد نظر خود را جستجو کنید (در مورد ما، ستون ها را مدیریت کنید).
را انتخاب کنید ستون ها را مدیریت کنید.
برای دگرگون کردنانتخاب کنید رها کردن ستون.
برای ستون هایی برای رها کردنانتخاب کنید Phone, Day Charge, Eve Charge, Night Chargeو Intl Charge.
را انتخاب کنید پیش نمایش، پس از آن را انتخاب کنید بروزرسانی.

بیایید یک تبدیل دیگر اضافه کنیم تا یک کد طبقه بندی شده روی آن انجام شود Churn? ستون.
تبدیل را انتخاب کنید کدگذاری طبقه بندی شده.
برای دگرگون کردن، انتخاب کنید کد ترتیبی.
برای ستون های ورودی، انتخاب Churn? ستون.
برای استراتژی مدیریت نامعتبر، انتخاب کنید NaN را جایگزین کنید.
را انتخاب کنید پیش نمایش، پس از آن را انتخاب کنید بروزرسانی.

اکنون True و False به ترتیب به 1 و 0 تبدیل می شوند.

اکنون که درک خوبی از داده ها داریم و داده ها را برای ساخت مدل آماده و تبدیل کرده ایم، می توانیم داده ها را برای ساخت مدل به آزمایشگاه Studio منتقل کنیم.

داده ها را در آزمایشگاه استودیو آپلود کنید

برای شروع استفاده از داده ها در Studio Lab، مراحل زیر را انجام دهید:

را انتخاب کنید صادر کردن داده به صادرات به یک سطل S3.
برای مکان آمازون S3، مسیر S3 خود را وارد کنید.
نوع فایل را مشخص کنید.
را انتخاب کنید صادر کردن داده.
پس از اینکه داده ها را صادر کردید، می توانید داده ها را از سطل S3 به رایانه محلی خود دانلود کنید.
اکنون می توانید به آزمایشگاه استودیو بروید و فایل را در آزمایشگاه استودیو آپلود کنید.

از طرف دیگر، می توانید از Studio Lab به Amazon S3 متصل شوید. برای اطلاعات بیشتر مراجعه کنید از منابع خارجی در Amazon SageMaker Studio Lab استفاده کنید.
بیایید SageMaker را نصب کنیم و پانداها را وارد کنیم.
تمام کتابخانه ها را در صورت نیاز وارد کنید.
حالا می توانیم فایل CSV را بخوانیم.
بیا چاپ کنیم churn برای تأیید صحت مجموعه داده

اکنون که مجموعه داده پردازش شده را در آزمایشگاه استودیو دارید، می توانید مراحل بیشتری را برای ساخت مدل انجام دهید.

قیمت گذاری Data Wrangler

شما می توانید تمام مراحل این پست را برای EDA یا آماده سازی داده در Data Wrangler و انجام دهید پرداخت برای مثال ساده، مشاغل و قیمت گذاری ذخیره سازی بر اساس استفاده یا مصرف. هیچ هزینه اولیه یا مجوزی لازم نیست.

پاک کردن

وقتی از Data Wrangler استفاده نمی‌کنید، مهم است که نمونه‌ای را که در آن اجرا می‌شود خاموش کنید تا از پرداخت هزینه‌های اضافی جلوگیری کنید. برای جلوگیری از از دست دادن کار، قبل از خاموش کردن Data Wrangler، جریان داده خود را ذخیره کنید.

برای ذخیره جریان داده خود در Studio، را انتخاب کنید پرونده، پس از آن را انتخاب کنید ذخیره داده Wrangler Flow.
Data Wrangler به طور خودکار جریان داده های شما را هر 60 ثانیه ذخیره می کند.
برای خاموش کردن نمونه Data Wrangler، در Studio، را انتخاب کنید در حال اجرا نمونه ها و هسته ها.
تحت برنامه های در حال اجرا، نماد خاموش شدن را در کنار sagemaker-data-wrangler-1.0 app.
را انتخاب کنید همه را خاموش کنید برای تایید.

Data Wrangler روی نمونه ml.m5.4xlarge اجرا می‌شود. این نمونه از بین می رود در حال اجرا نمونه هنگامی که برنامه Data Wrangler را خاموش می کنید.

پس از اینکه برنامه Data Wrangler را خاموش کردید، دفعه بعد که یک فایل جریان داده Wrangler را باز می کنید، باید دوباره راه اندازی شود. این ممکن است چند دقیقه طول بکشد.

نتیجه

در این پست دیدیم که چگونه می‌توانید اطلاعاتی در مورد مجموعه داده‌های خود به دست آورید، تجزیه و تحلیل داده‌های اکتشافی را انجام دهید، داده‌ها را با استفاده از Data Wrangler در استودیو آماده و تبدیل کنید، و داده‌های تبدیل‌شده و آماده‌شده را به آزمایشگاه استودیو صادر کنید و ساخت مدل و مراحل دیگر را انجام دهید.

با SageMaker Data Wrangler، می‌توانید فرآیند آماده‌سازی داده‌ها و مهندسی ویژگی‌ها را ساده کنید و هر مرحله از گردش کار آماده‌سازی داده‌ها، از جمله انتخاب داده، پاک‌سازی، کاوش و تجسم را از یک رابط بصری کامل کنید.

درباره نویسندگان

راجاکومار سامپاتکومار یک مدیر اصلی حساب فنی در AWS است که به مشتریان راهنمایی هایی را در مورد همسویی فناوری تجاری ارائه می دهد و از اختراع مجدد مدل ها و فرآیندهای عملیات ابری آنها پشتیبانی می کند. او علاقه زیادی به یادگیری ابری و ماشینی دارد. راج همچنین یک متخصص یادگیری ماشین است و با مشتریان AWS برای طراحی، استقرار و مدیریت حجم کاری و معماری AWS آنها کار می کند.

میناکشیسوندارام تانداوارایان یک متخصص ارشد AI/ML با اشتیاق به طراحی، ایجاد و ترویج تجربیات داده ها و تجزیه و تحلیل انسان محور است. او از مشتریان استراتژیک AWS در تبدیل آنها به سازمان مبتنی بر داده پشتیبانی می کند.

جیمز وو یک معمار ارشد راه حل متخصص AI/ML در AWS است. کمک به مشتریان در طراحی و ساخت راه حل های AI/ML. کار جیمز طیف گسترده‌ای از موارد استفاده از ML را پوشش می‌دهد، با علاقه اولیه به بینایی رایانه، یادگیری عمیق، و مقیاس‌بندی ML در سراسر سازمان. قبل از پیوستن به AWS، جیمز بیش از 10 سال معمار، توسعه‌دهنده و رهبر فناوری بود، از جمله 6 سال در مهندسی و 4 سال در صنایع بازاریابی و تبلیغات.

تمبر زمان: سپتامبر 15، 2022سپتامبر 15، 2022

تمبر زمان: آوریل 26، 2022

از Amazon SageMaker Data Wrangler برای آماده سازی داده ها و Studio Labs برای یادگیری و آزمایش ML استفاده کنید

بازنشر افلاطون

بررسی اجمالی راه حل

پیش نیازها

با Data Wrangler یک گردش کار آماده سازی داده بسازید

کیفیت داده ها را درک کنید و بینش دریافت کنید

مشاهدات از گزارش

دگرگونی

داده ها را در آزمایشگاه استودیو آپلود کنید

قیمت گذاری Data Wrangler

پاک کردن

نتیجه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

ورودی تماس گیرنده را با استفاده از انواع اسلات گرامری در آمازون لکس تفسیر کنید

پایگاه های دانش برای Amazon Bedrock اکنون از فیلتر ابرداده برای بهبود دقت بازیابی پشتیبانی می کند | خدمات وب آمازون

AWS Inferentia و AWS Trainium کمترین هزینه را برای استقرار مدل‌های Llama 3 در Amazon SageMaker JumpStart ارائه می‌کنند | خدمات وب آمازون

شروع با استقرار مدل‌های بلادرنگ در Amazon SageMaker

شروع کار با کانکتور Amazon Kendra Box

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب