بازرسی دستی کیفیت داده ها و تمیز کردن داده ها یک فرآیند دردناک و زمان بر است که می تواند بخش عظیمی از زمان دانشمند داده را برای یک پروژه بگیرد. بر اساس یک نظرسنجی در سال 2020 از دانشمندان داده که توسط Anaconda انجام شد، دانشمندان داده تقریباً 66٪ از زمان خود را صرف آماده سازی و تجزیه و تحلیل داده ها می کنند، از جمله بارگذاری (19٪)، تمیز کردن (26٪) و تجسم داده ها (21٪). آمازون SageMaker طیف وسیعی از ابزارهای آماده سازی داده را برای برآوردن نیازها و ترجیحات مختلف مشتریان ارائه می دهد. برای کاربرانی که یک رابط تعاملی مبتنی بر GUI را ترجیح می دهند، SageMaker Data Rangler بیش از 300 تجسم، تجزیه و تحلیل و تبدیل داخلی را برای پردازش کارآمد داده های پشتیبانی شده توسط Spark بدون نوشتن یک خط کد ارائه می دهد.
تجسم داده ها در یادگیری ماشین (ML) یک فرآیند تکراری است و به تجسم مداوم مجموعه داده برای کشف، بررسی و اعتبار سنجی نیاز دارد. قرار دادن داده ها در چشم انداز مستلزم دیدن هر یک از ستون ها برای درک خطاهای داده های احتمالی، مقادیر از دست رفته، انواع داده های اشتباه، داده های گمراه کننده/نادرست، داده های پرت و غیره است.
در این پست به شما نشان خواهیم داد که چگونه Amazon SageMaker Data Rangler به طور خودکار تجسم های کلیدی توزیع داده ها را تولید می کند، مسائل مربوط به کیفیت داده ها را شناسایی می کند و بینش های داده مانند نقاط پرت را برای هر ویژگی بدون نوشتن یک خط کد نشان می دهد. این به بهبود تجربه شبکه داده با هشدارهای خودکار کیفیت (به عنوان مثال، مقادیر از دست رفته یا مقادیر نامعتبر) کمک می کند. تجسم های تولید شده به صورت خودکار نیز تعاملی هستند. برای مثال، میتوانید جدولی از پنج مورد از پرتکرارترین موارد را که بر اساس درصد مرتب شدهاند نشان دهید، و روی نوار نگه دارید تا بین تعداد و درصد جابهجا شوید.
پیش نیازها
Amazon SageMaker Data Wrangler یک ویژگی SageMaker است که در SageMaker Studio موجود است. می توانید دنبال کنید فرآیند ورود به استودیو برای چرخاندن محیط استودیو و نوت بوک ها. اگرچه میتوانید از میان چند روش احراز هویت انتخاب کنید، سادهترین راه برای ایجاد دامنه استودیو پیروی از آن است دستورالعمل های شروع سریع. Quick Start از همان تنظیمات پیشفرض مانند راهاندازی استاندارد Studio استفاده میکند. شما همچنین می توانید با استفاده از سوار شدن را انتخاب کنید مرکز هویت AWS Identity and Access Management (IAM). (جانشین AWS Single Sign-On) برای احراز هویت (نگاه کنید به ورود به دامنه Amazon SageMaker با استفاده از مرکز هویت IAM).
راه حل
شروع خود SageMaker Studio محیط زیست و ایجاد یک جدید جریان مخاصمه داده. شما می توانید مجموعه داده خود را وارد کنید یا از یک مجموعه داده نمونه استفاده کنید (غول اسا) همانطور که در تصویر زیر مشاهده می شود. این دو گره ( منبع گره و داده ها type node) قابل کلیک هستند – وقتی روی این دو گره دوبار کلیک می کنید، Data Wrangler جدول را نمایش می دهد.
در مورد ما، بیایید روی آن راست کلیک کنیم انواع داده ها نماد و یک تبدیل اضافه کنید:
اکنون باید تصاویر را در بالای هر ستون مشاهده کنید. لطفاً برای بارگیری نمودارها مدتی زمان بگذارید. تأخیر به اندازه مجموعه داده بستگی دارد (برای مجموعه داده تایتانیک، در نمونه پیش فرض باید 1-2 ثانیه طول بکشد).
با نگه داشتن نشانگر روی راهنمای ابزار، به نوار افقی بالا بروید. اکنون که نمودارها بارگیری شده اند، می توانید توزیع داده ها، مقادیر نامعتبر و مقادیر از دست رفته را مشاهده کنید. مقادیر دورافتاده و مقادیر گمشده از ویژگی های داده های اشتباه هستند و شناسایی آنها بسیار مهم است زیرا می توانند بر نتایج شما تأثیر بگذارند. این بدان معناست که از آنجایی که داده های شما از یک نمونه غیرنماینده به دست آمده است، ممکن است یافته های شما به موقعیت های خارج از مطالعه شما قابل تعمیم نباشد. طبقه بندی مقادیر را می توان در نمودارهای پایینی که در آن قرار دارد مشاهده کرد معتبر مقادیر به رنگ سفید نشان داده شده است، بی اعتبار مقادیر به رنگ آبی و گم مقادیر به رنگ بنفش شما همچنین می توانید نگاه کنید غلظت توسط نقاط آبی در سمت چپ یا راست نمودار به تصویر کشیده شده است.
تمام تجسم ها به شکل هیستوگرام می آیند. برای داده های غیر مقوله ای، یک مجموعه سطلی برای هر سطل تعریف می شود. برای داده های طبقه بندی شده، هر مقدار منحصر به فرد به عنوان یک bin در نظر گرفته می شود. در بالای هیستوگرام، یک نمودار میله ای وجود دارد که مقادیر نامعتبر و گم شده را به شما نشان می دهد. میتوانیم نسبت مقادیر معتبر برای انواع Numeric، Categorical، Binary، Text و Datetime و همچنین نسبت مقادیر از دست رفته را بر اساس کل سلولهای تهی و خالی و در نهایت، نسبت مقادیر نامعتبر را مشاهده کنیم. بیایید به چند مثال نگاه کنیم تا بفهمیم چگونه میتوان با استفاده از این موارد را مشاهده کرد نمونه از پیش بارگذاری شده تایتانیک Data Wrangler.
1 مثال - میتوانیم 20 درصد مقادیر گمشده را بررسی کنیم سن ویژگی/ستون بسیار مهم است که با داده های گمشده در زمینه تحقیقات مرتبط با داده/ML مقابله کنیم، چه از طریق حذف آن ها و چه از طریق انتساب آن (مقادیر گم شده را با مقداری برآورد مدیریت کنید).
شما می توانید مقادیر از دست رفته را با استفاده از مقادیر از دست رفته را مدیریت کنید تبدیل گروه استفاده کنید مفقودی را تلقی کنید تبدیل برای تولید مقادیر منتسب که در آن مقادیر گمشده در ستون ورودی یافت می شود. پیکربندی بستگی به نوع داده شما دارد.
در این مثال ، سن ستون دارای نوع داده عددی است. برای برانگیختن استراتژی، میتوانیم انتخاب کنیم متوسط یا میانه تقریبی بیش از مقادیری که در مجموعه داده شما وجود دارد.
اکنون که تبدیل را اضافه کرده ایم، می توانیم ببینیم که سن ستون دیگر مقادیر از دست رفته ندارد.
2 مثال - میتوانیم به مقادیر نامعتبر 27 درصدی نگاه کنیم بلیط ویژگی/ستون که از STRING نوع دادههای نامعتبر میتوانند تخمینهای مغرضانهای ایجاد کنند، که میتواند دقت مدل را کاهش دهد و منجر به نتیجهگیریهای نادرست شود. اجازه دهید برخی از تبدیلها را بررسی کنیم که میتوانیم از آنها برای مدیریت دادههای نامعتبر در آن استفاده کنیم بلیط ستون.
با نگاهی به اسکرین شات، می بینیم که برخی از ورودی ها با فرمتی نوشته شده اند که شامل حروف قبل از اعداد است.PC 17318” و بقیه فقط اعدادی هستند مانند ”11769".
ما میتوانیم برای جستجو و ویرایش الگوهای خاص در رشتهها، یک تبدیل اعمال کنیم.کامپیوتر” و آنها را جایگزین کنید. بعد، ما می توانیم خودمان را انتخاب کنیم رشته ستون به نوع جدیدی مانند طولانی برای سهولت استفاده
این همچنان ما را با 19٪ مقادیر گم شده در مورد باقی می گذارد بلیط ویژگی. مشابه مثال 1، اکنون میتوانیم مقادیر گمشده را با استفاده از میانگین یا میانه تقریبی نسبت دهیم. ویژگی بلیط دیگر نباید مقادیر نامعتبر یا گمشده مطابق تصویر زیر داشته باشد.
برای اطمینان از اینکه پس از دنبال کردن این آموزش هزینه ای برای شما تحمیل نمی شود، مطمئن شوید که شما برنامه Data Wrangler را خاموش کنید.
نتیجه
در این پست جدید را معرفی کردیم Amazon Sagemaker Data Wrangler ویجتی که به حذف آن کمک می کند وزنه برداری تمایز نیافته برای کاربران نهایی در طول آماده سازی داده ها با تجسم های ظاهری خودکار و بینش پروفایل داده ها برای هر ویژگی. این ویجت تجسم دادهها (به عنوان مثال، هیستوگرام طبقهبندی/غیر طبقهبندی)، تشخیص مشکلات کیفیت داده (مثلاً مقادیر از دست رفته و مقادیر نامعتبر) و بینش دادههای سطحی (مثلاً موارد پرت و N مورد) را آسان میکند.
می توانید از امروز در تمام مناطقی که SageMaker Studio در آن ها در دسترس است، از این قابلیت استفاده کنید. آن را امتحان کنیدو نظر خود را با ما در میان بگذارید. ما همیشه مشتاقانه منتظر بازخورد شما هستیم، چه از طریق مخاطبین معمولی پشتیبانی AWS شما، یا از طریق انجمن AWS برای SageMaker.
درباره نویسنده
عشا دعا یک معمار ارشد راه حل مستقر در منطقه خلیج سانفرانسیسکو است. او به مشتریان AWS Enterprise با درک اهداف و چالشهایشان کمک میکند رشد کنند و آنها را راهنمایی میکند که چگونه میتوانند برنامههای خود را به روشی ابری معماری کنند و در عین حال از انعطافپذیری و مقیاسپذیری آنها اطمینان حاصل کنند. او مشتاق فن آوری های یادگیری ماشین و پایداری محیطی است.
پارت پاتل یک معمار راه حل در AWS در منطقه خلیج سانفرانسیسکو است. Parth مشتریان را راهنمایی می کند تا سفر خود را به سمت ابر تسریع کنند و به آنها کمک می کند تا AWS Cloud را با موفقیت بپذیرند. او بر ML و نوسازی اپلیکیشن تمرکز دارد.
- پیشرفته (300)
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آمازون SageMaker
- Amazon SageMaker Data Rangler
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- فراگیری ماشین
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- نحو
- زفیرنت