معرفی تجسم‌های جاسازی‌شده جدید Amazon SageMaker Data Wrangler

بازنشر افلاطون

دنبال: 0

بازرسی دستی کیفیت داده ها و تمیز کردن داده ها یک فرآیند دردناک و زمان بر است که می تواند بخش عظیمی از زمان دانشمند داده را برای یک پروژه بگیرد. بر اساس یک نظرسنجی در سال 2020 از دانشمندان داده که توسط Anaconda انجام شد، دانشمندان داده تقریباً 66٪ از زمان خود را صرف آماده سازی و تجزیه و تحلیل داده ها می کنند، از جمله بارگذاری (19٪)، تمیز کردن (26٪) و تجسم داده ها (21٪). آمازون SageMaker طیف وسیعی از ابزارهای آماده سازی داده را برای برآوردن نیازها و ترجیحات مختلف مشتریان ارائه می دهد. برای کاربرانی که یک رابط تعاملی مبتنی بر GUI را ترجیح می دهند، SageMaker Data Rangler بیش از 300 تجسم، تجزیه و تحلیل و تبدیل داخلی را برای پردازش کارآمد داده های پشتیبانی شده توسط Spark بدون نوشتن یک خط کد ارائه می دهد.

تجسم داده ها در یادگیری ماشین (ML) یک فرآیند تکراری است و به تجسم مداوم مجموعه داده برای کشف، بررسی و اعتبار سنجی نیاز دارد. قرار دادن داده ها در چشم انداز مستلزم دیدن هر یک از ستون ها برای درک خطاهای داده های احتمالی، مقادیر از دست رفته، انواع داده های اشتباه، داده های گمراه کننده/نادرست، داده های پرت و غیره است.

در این پست به شما نشان خواهیم داد که چگونه Amazon SageMaker Data Rangler به طور خودکار تجسم های کلیدی توزیع داده ها را تولید می کند، مسائل مربوط به کیفیت داده ها را شناسایی می کند و بینش های داده مانند نقاط پرت را برای هر ویژگی بدون نوشتن یک خط کد نشان می دهد. این به بهبود تجربه شبکه داده با هشدارهای خودکار کیفیت (به عنوان مثال، مقادیر از دست رفته یا مقادیر نامعتبر) کمک می کند. تجسم های تولید شده به صورت خودکار نیز تعاملی هستند. برای مثال، می‌توانید جدولی از پنج مورد از پرتکرارترین موارد را که بر اساس درصد مرتب شده‌اند نشان دهید، و روی نوار نگه دارید تا بین تعداد و درصد جابه‌جا شوید.

پیش نیازها

Amazon SageMaker Data Wrangler یک ویژگی SageMaker است که در SageMaker Studio موجود است. می توانید دنبال کنید فرآیند ورود به استودیو برای چرخاندن محیط استودیو و نوت بوک ها. اگرچه می‌توانید از میان چند روش احراز هویت انتخاب کنید، ساده‌ترین راه برای ایجاد دامنه استودیو پیروی از آن است دستورالعمل های شروع سریع. Quick Start از همان تنظیمات پیش‌فرض مانند راه‌اندازی استاندارد Studio استفاده می‌کند. شما همچنین می توانید با استفاده از سوار شدن را انتخاب کنید مرکز هویت AWS Identity and Access Management (IAM). (جانشین AWS Single Sign-On) برای احراز هویت (نگاه کنید به ورود به دامنه Amazon SageMaker با استفاده از مرکز هویت IAM).

راه حل

شروع خود SageMaker Studio محیط زیست و ایجاد یک جدید جریان مخاصمه داده. شما می توانید مجموعه داده خود را وارد کنید یا از یک مجموعه داده نمونه استفاده کنید (غول اسا) همانطور که در تصویر زیر مشاهده می شود. این دو گره ( منبع گره و داده ها type node) قابل کلیک هستند – وقتی روی این دو گره دوبار کلیک می کنید، Data Wrangler جدول را نمایش می دهد.

در مورد ما، بیایید روی آن راست کلیک کنیم انواع داده ها نماد و یک تبدیل اضافه کنید:

اکنون باید تصاویر را در بالای هر ستون مشاهده کنید. لطفاً برای بارگیری نمودارها مدتی زمان بگذارید. تأخیر به اندازه مجموعه داده بستگی دارد (برای مجموعه داده تایتانیک، در نمونه پیش فرض باید 1-2 ثانیه طول بکشد).

معرفی تجسم‌های تعبیه‌شده جدید Amazon SageMaker Data Wrangler، هوش داده‌های PlatoBlockchain. جستجوی عمودی Ai.

با نگه داشتن نشانگر روی راهنمای ابزار، به نوار افقی بالا بروید. اکنون که نمودارها بارگیری شده اند، می توانید توزیع داده ها، مقادیر نامعتبر و مقادیر از دست رفته را مشاهده کنید. مقادیر دورافتاده و مقادیر گمشده از ویژگی های داده های اشتباه هستند و شناسایی آنها بسیار مهم است زیرا می توانند بر نتایج شما تأثیر بگذارند. این بدان معناست که از آنجایی که داده های شما از یک نمونه غیرنماینده به دست آمده است، ممکن است یافته های شما به موقعیت های خارج از مطالعه شما قابل تعمیم نباشد. طبقه بندی مقادیر را می توان در نمودارهای پایینی که در آن قرار دارد مشاهده کرد معتبر مقادیر به رنگ سفید نشان داده شده است، بی اعتبار مقادیر به رنگ آبی و گم مقادیر به رنگ بنفش شما همچنین می توانید نگاه کنید غلظت توسط نقاط آبی در سمت چپ یا راست نمودار به تصویر کشیده شده است.

معرفی تجسم‌های تعبیه‌شده جدید Amazon SageMaker Data Wrangler، هوش داده‌های PlatoBlockchain. جستجوی عمودی Ai.

تمام تجسم ها به شکل هیستوگرام می آیند. برای داده های غیر مقوله ای، یک مجموعه سطلی برای هر سطل تعریف می شود. برای داده های طبقه بندی شده، هر مقدار منحصر به فرد به عنوان یک bin در نظر گرفته می شود. در بالای هیستوگرام، یک نمودار میله ای وجود دارد که مقادیر نامعتبر و گم شده را به شما نشان می دهد. می‌توانیم نسبت مقادیر معتبر برای انواع Numeric، Categorical، Binary، Text و Datetime و همچنین نسبت مقادیر از دست رفته را بر اساس کل سلول‌های تهی و خالی و در نهایت، نسبت مقادیر نامعتبر را مشاهده کنیم. بیایید به چند مثال نگاه کنیم تا بفهمیم چگونه می‌توان با استفاده از این موارد را مشاهده کرد نمونه از پیش بارگذاری شده تایتانیک Data Wrangler.

1 مثال - می‌توانیم 20 درصد مقادیر گمشده را بررسی کنیم سن ویژگی/ستون بسیار مهم است که با داده های گمشده در زمینه تحقیقات مرتبط با داده/ML مقابله کنیم، چه از طریق حذف آن ها و چه از طریق انتساب آن (مقادیر گم شده را با مقداری برآورد مدیریت کنید).

معرفی تجسم‌های تعبیه‌شده جدید Amazon SageMaker Data Wrangler، هوش داده‌های PlatoBlockchain. جستجوی عمودی Ai.
شما می توانید مقادیر از دست رفته را با استفاده از مقادیر از دست رفته را مدیریت کنید تبدیل گروه استفاده کنید مفقودی را تلقی کنید تبدیل برای تولید مقادیر منتسب که در آن مقادیر گمشده در ستون ورودی یافت می شود. پیکربندی بستگی به نوع داده شما دارد.

در این مثال ، سن ستون دارای نوع داده عددی است. برای برانگیختن استراتژی، می‌توانیم انتخاب کنیم متوسط یا میانه تقریبی بیش از مقادیری که در مجموعه داده شما وجود دارد.

اکنون که تبدیل را اضافه کرده ایم، می توانیم ببینیم که سن ستون دیگر مقادیر از دست رفته ندارد.

2 مثال - می‌توانیم به مقادیر نامعتبر 27 درصدی نگاه کنیم بلیط ویژگی/ستون که از STRING نوع داده‌های نامعتبر می‌توانند تخمین‌های مغرضانه‌ای ایجاد کنند، که می‌تواند دقت مدل را کاهش دهد و منجر به نتیجه‌گیری‌های نادرست شود. اجازه دهید برخی از تبدیل‌ها را بررسی کنیم که می‌توانیم از آنها برای مدیریت داده‌های نامعتبر در آن استفاده کنیم بلیط ستون.

با نگاهی به اسکرین شات، می بینیم که برخی از ورودی ها با فرمتی نوشته شده اند که شامل حروف قبل از اعداد است.PC 17318” و بقیه فقط اعدادی هستند مانند ”11769".

ما می‌توانیم برای جستجو و ویرایش الگوهای خاص در رشته‌ها، یک تبدیل اعمال کنیم.کامپیوتر” و آنها را جایگزین کنید. بعد، ما می توانیم خودمان را انتخاب کنیم رشته ستون به نوع جدیدی مانند طولانی برای سهولت استفاده

این همچنان ما را با 19٪ مقادیر گم شده در مورد باقی می گذارد بلیط ویژگی. مشابه مثال 1، اکنون می‌توانیم مقادیر گمشده را با استفاده از میانگین یا میانه تقریبی نسبت دهیم. ویژگی بلیط دیگر نباید مقادیر نامعتبر یا گمشده مطابق تصویر زیر داشته باشد.

برای اطمینان از اینکه پس از دنبال کردن این آموزش هزینه ای برای شما تحمیل نمی شود، مطمئن شوید که شما برنامه Data Wrangler را خاموش کنید.

نتیجه

در این پست جدید را معرفی کردیم Amazon Sagemaker Data Wrangler ویجتی که به حذف آن کمک می کند وزنه برداری تمایز نیافته برای کاربران نهایی در طول آماده سازی داده ها با تجسم های ظاهری خودکار و بینش پروفایل داده ها برای هر ویژگی. این ویجت تجسم داده‌ها (به عنوان مثال، هیستوگرام طبقه‌بندی/غیر طبقه‌بندی)، تشخیص مشکلات کیفیت داده (مثلاً مقادیر از دست رفته و مقادیر نامعتبر) و بینش داده‌های سطحی (مثلاً موارد پرت و N مورد) را آسان می‌کند.

می توانید از امروز در تمام مناطقی که SageMaker Studio در آن ها در دسترس است، از این قابلیت استفاده کنید. آن را امتحان کنیدو نظر خود را با ما در میان بگذارید. ما همیشه مشتاقانه منتظر بازخورد شما هستیم، چه از طریق مخاطبین معمولی پشتیبانی AWS شما، یا از طریق انجمن AWS برای SageMaker.

درباره نویسنده

عشا دعا یک معمار ارشد راه حل مستقر در منطقه خلیج سانفرانسیسکو است. او به مشتریان AWS Enterprise با درک اهداف و چالش‌هایشان کمک می‌کند رشد کنند و آنها را راهنمایی می‌کند که چگونه می‌توانند برنامه‌های خود را به روشی ابری معماری کنند و در عین حال از انعطاف‌پذیری و مقیاس‌پذیری آن‌ها اطمینان حاصل کنند. او مشتاق فن آوری های یادگیری ماشین و پایداری محیطی است.

پارت پاتل یک معمار راه حل در AWS در منطقه خلیج سانفرانسیسکو است. Parth مشتریان را راهنمایی می کند تا سفر خود را به سمت ابر تسریع کنند و به آنها کمک می کند تا AWS Cloud را با موفقیت بپذیرند. او بر ML و نوسازی اپلیکیشن تمرکز دارد.

تمبر زمان: دسامبر 13، 2022دسامبر 13، 2022

تمبر زمان: ژوئن 24، 2022

معرفی تصاویر جاسازی شده جدید Amazon SageMaker Data Wrangler

بازنشر افلاطون

پیش نیازها

راه حل

نتیجه

درباره نویسنده

بیشتر از آموزش ماشین AWS

معرفی آپلود کننده اسناد انبوه متن آمازون برای ارزیابی و تجزیه و تحلیل پیشرفته | خدمات وب آمازون

اعلام سازنده گفتگوی بصری برای آمازون لکس

مدل های Meta Llama 3 اکنون در Amazon SageMaker JumpStart | خدمات وب آمازون

پلتفرم‌های SaaS را با Amazon SageMaker ادغام کنید تا برنامه‌های مبتنی بر ML را فعال کنید | خدمات وب آمازون

InformedIQ تأییدیه‌های وام‌دهی خودکار Origence را با استفاده از یادگیری ماشینی خودکار می‌کند

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب