از نمونه های Github با Amazon SageMaker Data Wrangler استفاده کنید

بازنشر افلاطون

دنبال: 0

آمازون SageMake r داده رانگلر یک ابزار آماده سازی داده مبتنی بر UI است که به انجام تجزیه و تحلیل داده ها، پیش پردازش و تجسم با ویژگی هایی برای تمیز کردن، تبدیل و آماده سازی سریعتر داده ها کمک می کند. الگوهای جریان از پیش ساخته شده Data Wrangler با کمک به شما در تسریع و درک بهترین الگوهای عملی برای جریان داده ها با استفاده از مجموعه داده های رایج، به آماده سازی داده ها برای دانشمندان داده و متخصصان یادگیری ماشین (ML) سریعتر کمک می کند.

می‌توانید از جریان‌های Data Wrangler برای انجام وظایف زیر استفاده کنید:

تجسم داده ها - بررسی ویژگی های آماری برای هر ستون در مجموعه داده، ساخت هیستوگرام، مطالعه نقاط پرت
تمیز کردن داده ها - حذف موارد تکراری، حذف یا پر کردن ورودی با مقادیر از دست رفته، حذف موارد پرت
غنی سازی داده ها و مهندسی ویژگی ها – پردازش ستون ها برای ساختن ویژگی های گویاتر، انتخاب زیرمجموعه ای از ویژگی ها برای آموزش

این پست به شما کمک می‌کند Data Wrangler را با استفاده از نمونه جریان‌های از پیش ساخته شده زیر درک کنید GitHub. مخزن تبدیل داده های جدولی، تبدیل داده های سری زمانی و تبدیل داده های پیوست شده را به نمایش می گذارد. هر کدام به دلیل ماهیت اصلی خود به نوع متفاوتی از دگرگونی ها نیاز دارند. داده های استاندارد جدولی یا مقطعی در یک نقطه زمانی خاص جمع آوری می شوند. در مقابل، داده‌های سری زمانی به طور مکرر در طول زمان ضبط می‌شوند و هر نقطه داده متوالی به مقادیر گذشته آن وابسته است.

بیایید به مثالی نگاه کنیم که چگونه می توانیم از جریان داده نمونه برای داده های جدولی استفاده کنیم.

پیش نیازها

Data Wrangler یک آمازون SageMaker ویژگی موجود در داخل Amazon SageMaker Studio، بنابراین باید فرآیند نصب استودیو را دنبال کنیم تا محیط استودیو و نوت‌بوک‌ها را بچرخانیم. اگرچه می‌توانید از میان چند روش احراز هویت انتخاب کنید، ساده‌ترین راه برای ایجاد دامنه استودیو پیروی از آن است شروع سریع دستورالعمل ها. شروع سریع از همان تنظیمات پیش فرض استفاده می کند راه اندازی استاندارد استودیو. شما همچنین می توانید با استفاده از سوار شدن را انتخاب کنید مرکز هویت AWS IAM (جانشین AWS Single Sign-On) برای احراز هویت (نگاه کنید به ورود به دامنه Amazon SageMaker با استفاده از مرکز هویت IAM).