از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

از نمونه های Github با Amazon SageMaker Data Wrangler استفاده کنید

آمازون SageMaker داده رانگلر یک ابزار آماده سازی داده مبتنی بر UI است که به انجام تجزیه و تحلیل داده ها، پیش پردازش و تجسم با ویژگی هایی برای تمیز کردن، تبدیل و آماده سازی سریعتر داده ها کمک می کند. الگوهای جریان از پیش ساخته شده Data Wrangler با کمک به شما در تسریع و درک بهترین الگوهای عملی برای جریان داده ها با استفاده از مجموعه داده های رایج، به آماده سازی داده ها برای دانشمندان داده و متخصصان یادگیری ماشین (ML) سریعتر کمک می کند.

می‌توانید از جریان‌های Data Wrangler برای انجام وظایف زیر استفاده کنید:

  • تجسم داده ها - بررسی ویژگی های آماری برای هر ستون در مجموعه داده، ساخت هیستوگرام، مطالعه نقاط پرت
  • تمیز کردن داده ها - حذف موارد تکراری، حذف یا پر کردن ورودی با مقادیر از دست رفته، حذف موارد پرت
  • غنی سازی داده ها و مهندسی ویژگی ها – پردازش ستون ها برای ساختن ویژگی های گویاتر، انتخاب زیرمجموعه ای از ویژگی ها برای آموزش

این پست به شما کمک می‌کند Data Wrangler را با استفاده از نمونه جریان‌های از پیش ساخته شده زیر درک کنید GitHub. مخزن تبدیل داده های جدولی، تبدیل داده های سری زمانی و تبدیل داده های پیوست شده را به نمایش می گذارد. هر کدام به دلیل ماهیت اصلی خود به نوع متفاوتی از دگرگونی ها نیاز دارند. داده های استاندارد جدولی یا مقطعی در یک نقطه زمانی خاص جمع آوری می شوند. در مقابل، داده‌های سری زمانی به طور مکرر در طول زمان ضبط می‌شوند و هر نقطه داده متوالی به مقادیر گذشته آن وابسته است.

بیایید به مثالی نگاه کنیم که چگونه می توانیم از جریان داده نمونه برای داده های جدولی استفاده کنیم.

پیش نیازها

Data Wrangler یک آمازون SageMaker ویژگی موجود در داخل Amazon SageMaker Studio، بنابراین باید فرآیند نصب استودیو را دنبال کنیم تا محیط استودیو و نوت‌بوک‌ها را بچرخانیم. اگرچه می‌توانید از میان چند روش احراز هویت انتخاب کنید، ساده‌ترین راه برای ایجاد دامنه استودیو پیروی از آن است شروع سریع دستورالعمل ها. شروع سریع از همان تنظیمات پیش فرض استفاده می کند راه اندازی استاندارد استودیو. شما همچنین می توانید با استفاده از سوار شدن را انتخاب کنید مرکز هویت AWS IAM (جانشین AWS Single Sign-On) برای احراز هویت (نگاه کنید به ورود به دامنه Amazon SageMaker با استفاده از مرکز هویت IAM).

با استفاده از Studio، مجموعه داده و جریان فایل ها را به Data Wrangler وارد کنید

مراحل زیر نحوه وارد کردن داده ها را به SageMaker برای مصرف داده توسط Data Wrangler شرح می دهد:

با انتخاب، Data Wrangler را از طریق استودیو UI راه اندازی کنید جریان داده های جدید.

کلون کنید GitHub repo برای دانلود فایل های جریانی در محیط استودیو خود.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

وقتی کلون کامل شد، باید بتوانید محتوای مخزن را در قسمت سمت چپ ببینید.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

فایل را انتخاب کنید هتل-رزرو-طبقه بندی.جریان برای وارد کردن فایل جریان به Data Wrangler.

اگر از سری زمانی یا جریان داده متصل استفاده می کنید، جریان با نام دیگری ظاهر می شود. پس از وارد شدن جریان، باید تصویر زیر را مشاهده کنید. این به ما خطاها را نشان می دهد زیرا ما باید مطمئن شویم که فایل جریان به منبع داده صحیح اشاره می کند سرویس ذخیره سازی ساده آمازون (Amazon S3).

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

را انتخاب کنید ویرایش مجموعه داده تا تمام سطل های S3 خود را بیاورید. بعد، مجموعه داده را انتخاب کنید hotel_bookings.csv از سطل S3 خود برای اجرا از طریق جریان داده های جدولی.

توجه داشته باشید که اگر از به جریان داده پیوست، ممکن است مجبور شوید چندین مجموعه داده را به Data Wrangler وارد کنیداز نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

در قسمت سمت راست، مطمئن شوید پاراگراف به عنوان جداکننده انتخاب می شود و نمونه برداری تنظیم شده است اول ک. مجموعه داده ما به اندازه کافی کوچک است تا تبدیل‌های Data Wrangler را روی مجموعه داده کامل اجرا کند، اما می‌خواهیم نحوه وارد کردن مجموعه داده را برجسته کنیم. اگر مجموعه داده بزرگی دارید، از نمونه برداری استفاده کنید. انتخاب کنید وارد كردن برای وارد کردن این مجموعه داده به Data Wrangler.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

پس از وارد شدن مجموعه داده، Data Wrangler به طور خودکار مجموعه داده را تأیید می کند و انواع داده ها را شناسایی می کند. می بینید که خطاها از بین رفته اند زیرا ما به مجموعه داده صحیح اشاره می کنیم. ویرایشگر جریان اکنون دو بلوک را نشان می دهد که نشان می دهد داده ها از یک منبع وارد شده اند و انواع داده ها شناسایی شده اند. همچنین در صورت نیاز می توانید انواع داده ها را ویرایش کنید.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

تصویر زیر انواع داده های ما را نشان می دهد.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

بیایید به برخی از تبدیل های انجام شده به عنوان بخشی از این جریان جدولی نگاه کنیم. اگر از سری زمانی or پیوست جریان داده ها، برخی از تبدیل های رایج را بررسی کنید GitHub repo. ما برخی از تجزیه و تحلیل داده‌های اکتشافی اولیه را با استفاده از گزارش‌های بینش داده انجام دادیم که نشت هدف و همخطی بودن ویژگی‌ها در مجموعه داده، تجزیه و تحلیل خلاصه جدول و قابلیت مدل‌سازی سریع را مورد مطالعه قرار داد. مراحل روی را کاوش کنید GitHub repo.

اکنون بر اساس توصیه‌های ارائه شده توسط داده‌های بینش و گزارش کیفیت، ستون‌ها را رها می‌کنیم.

  • برای نشت هدف، رها کنید وضعیت_رزرو.
  • برای ستون‌های اضافی، رها کنید لیست_انتظار_روزهای_در_انتظار، هتل، نوع_اتاق رزرو شده، تاریخ_ماه_ورود، تاریخ_وضعیت_رزرو، نوزادان، و ورود_تاریخ_روز_ماه.
  • بر اساس نتایج همبستگی خطی، ستون ها را رها کنید ورود_تاریخ_هفته_شماره و ورود_تاریخ_سال زیرا مقادیر همبستگی برای این جفت‌های ویژگی (ستون) بیشتر از آستانه توصیه شده 0.90 است.
  • بر اساس نتایج همبستگی غیر خطی، افت وضعیت_رزرو. این ستون قبلاً بر اساس تجزیه و تحلیل نشت هدف حذف شده بود.
  • پردازش مقادیر عددی (حداکثر مقیاس بندی) برای lead_time، اقامت_در_شب_آخر_هفته، اقامت_در_روز_هفته_شب، مهمان_تکرارشده، لغو_قبلی_رزروهای_قبل_لغو_نشده_رزرو_تغییرها، adr، مجموع_درخواست_های_خاص، و مکانهای_پارکینگ_مورد نیاز.
  • متغیرهای طبقه بندی شده را رمزگذاری یک داغ مانند وعده غذایی، مهمان_تکرار شده، بخش_بازار، نوع_اتاق_تخصیص، نوع_سپرده، و مشتری_نوع.
  • متغییر هدف را متعادل کنید. نمونه‌های اضافی تصادفی برای عدم تعادل کلاس. از قابلیت مدل‌سازی سریع برای رسیدگی به مقادیر پرت و از دست رفته استفاده کنید.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

صادرات به آمازون S3

اکنون ما تغییرات مختلف را پشت سر گذاشته ایم و آماده هستیم تا داده ها را به آمازون S3 صادر کنیم. این گزینه یک کار پردازشی SageMaker ایجاد می کند که جریان پردازش Data Wrangler را اجرا می کند و مجموعه داده حاصل را در یک سطل S3 مشخص ذخیره می کند. مراحل بعدی را برای تنظیم صادرات به آمازون S3 دنبال کنید:

علامت مثبت در کنار مجموعه ای از عناصر تبدیل را انتخاب کرده و انتخاب کنید مقصد را اضافه کنید، و سپس آمازون S3.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

  • برای نام مجموعه داده، برای مثال یک نام برای مجموعه داده جدید وارد کنید NYC_export.
  • برای نوع فایل، انتخاب کنید CSV.
  • برای محدود کننده، انتخاب کنید کاما.
  • برای فشرده سازی، انتخاب کنید هیچ.
  • برای مکان آمازون S3، از همان نام سطلی استفاده کنید که قبلا ایجاد کردیم.
  • را انتخاب کنید مقصد را اضافه کنید.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

را انتخاب کنید ایجاد شغل.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

برای اسم شغل، یک نام وارد کنید یا گزینه autogenerated را نگه دارید و انتخاب کنید مقصد. ما فقط یک مقصد داریم، S3:testingtabulardata، اما ممکن است چندین مقصد از مراحل مختلف در گردش کار خود داشته باشید. ترک کلید KMS ARN فیلد را خالی کرده و انتخاب کنید بعدی.

اکنون باید ظرفیت محاسباتی یک کار را پیکربندی کنید. شما می توانید تمام مقادیر پیش فرض را برای این مثال نگه دارید.

  • برای نوع نمونه، از ml.m5.4xlarge استفاده کنید.
  • برای تعداد نمونه، استفاده از 2.
  • می توانید کاوش کنید پیکربندی اضافی، اما تنظیمات پیش فرض را حفظ کنید.
  • را انتخاب کنید دویدن.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

اکنون کار شما شروع شده است و پردازش 6 گیگابایت داده طبق جریان پردازش Data Wrangler کمی طول می کشد. هزینه این کار حدود 2 دلار آمریکا خواهد بود، زیرا ml.m5.4xlarge 0.922 دلار در ساعت هزینه دارد و ما از دو مورد از آنها استفاده می کنیم.

اگر نام شغل را انتخاب کنید، به پنجره جدیدی با جزئیات شغل هدایت می شوید.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

در صفحه جزئیات کار می توانید تمام پارامترهای مراحل قبل را مشاهده کنید.

هنگامی که وضعیت کار به تکمیل شده تغییر می کند، می توانید آن را نیز بررسی کنید زمان پردازش (ثانیه) ارزش. این کار پردازش حدود 5 تا 10 دقیقه طول می کشد تا کامل شود.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

وقتی کار کامل شد، فایل‌های خروجی قطار و آزمایش در پوشه‌های خروجی S3 مربوطه در دسترس هستند. می توانید مکان خروجی را از تنظیمات کار پردازش پیدا کنید.

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.

پس از اتمام کار پردازش Data Wrangler، می توانیم نتایج ذخیره شده در سطل S3 خود را بررسی کنیم. فراموش نکنید که به روز رسانی job_name متغیر با نام شغل شما

اکنون می توانید از این داده های صادر شده برای اجرای مدل های ML استفاده کنید.

پاک کردن

سطل های S3 خود را حذف کنید و خود را جریان مخاصمه داده به منظور حذف منابع اساسی و جلوگیری از هزینه های ناخواسته پس از اتمام آزمایش.

نتیجه

در این پست، ما نشان دادیم که چگونه می‌توانید جریان داده‌های از پیش ساخته شده جدولی را به Data Wrangler وارد کنید، آن را به مجموعه داده‌های ما متصل کنید و نتایج را به Amazon S3 صادر کنید. اگر موارد استفاده شما از شما نیاز دارد که داده‌های سری زمانی را دستکاری کنید یا به مجموعه داده‌های متعدد بپیوندید، می‌توانید از طریق سایر جریان‌های نمونه از پیش ساخته شده در GitHub repo.

پس از وارد کردن یک گردش کار آماده سازی داده از پیش ساخته شده، می توانید آن را با Amazon SageMaker Processing ادغام کنید. خطوط لوله آمازون SageMakerو فروشگاه ویژگی آمازون SageMaker برای ساده کردن کار پردازش، اشتراک گذاری و ذخیره داده های آموزشی ML. شما همچنین می توانید این نمونه جریان داده را به یک اسکریپت پایتون صادر کنید و یک خط لوله آماده سازی داده ML سفارشی ایجاد کنید، در نتیجه سرعت انتشار خود را تسریع کنید.

ما شما را تشویق می کنیم که ما را بررسی کنید مخزن GitHub برای تمرین عملی و یافتن راه های جدید برای بهبود دقت مدل! برای کسب اطلاعات بیشتر در مورد SageMaker، به سایت مراجعه کنید راهنمای توسعه دهنده Amazon SageMaker.


درباره نویسنده

از نمونه های Github با Amazon SageMaker Data Wrangler PlatoBlockchain Intelligence استفاده کنید. جستجوی عمودی Ai.عشا دعا یک معمار ارشد راه حل مستقر در منطقه خلیج سانفرانسیسکو است. او به مشتریان AWS Enterprise با درک اهداف و چالش‌هایشان کمک می‌کند رشد کنند و آنها را راهنمایی می‌کند که چگونه می‌توانند برنامه‌های خود را به روشی ابری معماری کنند و در عین حال از انعطاف‌پذیری و مقیاس‌پذیری آن‌ها اطمینان حاصل کنند. او مشتاق فن آوری های یادگیری ماشین و پایداری محیطی است.

تمبر زمان:

بیشتر از آموزش ماشین AWS