Amazon SageMaker Data Rangler یک ابزار جمعآوری و آمادهسازی داده برای یادگیری ماشین (ML) است. این به شما امکان می دهد از یک رابط بصری برای دسترسی به داده ها و انجام تجزیه و تحلیل داده های اکتشافی (EDA) و مهندسی ویژگی استفاده کنید. ویژگی EDA دارای قابلیت های داخلی تجزیه و تحلیل داده ها برای نمودارها (مانند نمودار پراکندگی یا هیستوگرام) و قابلیت های تجزیه و تحلیل مدل با صرفه جویی در زمان مانند اهمیت ویژگی، نشت هدف و قابلیت توضیح مدل است. قابلیت مهندسی ویژگی بیش از 300 تبدیل داخلی دارد و میتواند با استفاده از Python، PySpark یا Spark SQL تبدیلهای سفارشی را انجام دهد.
برای تجسمسازیها و تبدیلهای سفارشی، Data Wrangler اکنون نمونههایی از کد را برای انواع رایج تجسمها و تبدیلها ارائه میکند. در این پست، نحوه استفاده از این تکههای کد را برای راهاندازی سریع EDA در Data Wrangler نشان میدهیم.
بررسی اجمالی راه حل
در زمان نوشتن این مقاله، میتوانید مجموعههای داده را از طریق Data Wrangler وارد کنید سرویس ذخیره سازی ساده آمازون (Amazon S3) آمازون آتنا, آمازون Redshift، Databricks و Snowflake. برای این پست، ما از Amazon S3 برای ذخیره آمازون 2014 استفاده می کنیم مجموعه داده بررسی. نمونه زیر نمونه ای از مجموعه داده است:
در این پست، EDA را با استفاده از سه ستون انجام می دهیم.asin
, reviewTime
و overall
-که به ترتیب به شناسه محصول، تاریخ زمان بررسی و امتیاز کلی بازبینی نقشه میدهد. ما از این دادهها برای تجسم پویایی تعداد مرورها در ماهها و سالها استفاده میکنیم.
استفاده از نمونه کد کد برای EDA در Data Wrangler
برای شروع اجرای EDA در Data Wrangler، مراحل زیر را انجام دهید:
- دانلود مجموعه داده نقدهای موسیقی دیجیتال JSON و آن را در آمازون S3 آپلود کنید.
ما از این به عنوان مجموعه داده خام برای EDA استفاده می کنیم. - باز کن Amazon SageMaker Studio و یک جریان Data Wrangler جدید ایجاد کنید و مجموعه داده را از Amazon S3 وارد کنید.
این مجموعه داده نه ستون دارد، اما ما فقط از سه ستون استفاده می کنیم:
asin
,reviewTime
وoverall
. باید شش ستون دیگر را رها کنیم. - یک تبدیل سفارشی ایجاد کنید و انتخاب کنید پایتون (PySpark).
- گسترش قطعات نمونه را جستجو کنید و انتخاب کنید همه ستون ها به جز چندین ستون را رها کنید.
- قطعه ارائه شده را در تبدیل سفارشی خود وارد کنید و دستورالعمل ها را برای تغییر کد دنبال کنید.
اکنون که همه ستونهای مورد نیاز را داریم، اجازه دهید دادهها را فیلتر کنیم تا فقط بین سالهای 2000 تا 2020 مرورها را حفظ کنیم.
- استفاده از فیلتر مُهر زمانی خارج از محدوده قطعه ای برای حذف داده ها قبل از سال 2000 و بعد از 2020:
در مرحله بعد، سال و ماه را از ستون ReviewTime استخراج می کنیم.
- استفاده از تاریخ/زمان را مشخص کنید تبدیل.
- برای استخراج ستون ها، انتخاب کنید سال و ماه.
در مرحله بعد، میخواهیم تعداد بررسیهایی را که در مرحله قبل ایجاد کردیم، بر اساس سال و ماه جمعآوری کنیم.
- استفاده از محاسبه آمار به صورت گروهی قطعه:
- نام تجمیع مرحله قبل را از
count(overall)
بهreviews_num
با انتخاب مدیریت ستون ها و تغییر نام ستون تبدیل.
در نهایت، میخواهیم یک نقشه حرارتی ایجاد کنیم تا توزیع نظرات را بر اساس سال و ماه تجسم کنیم. - در برگه تجزیه و تحلیل، را انتخاب کنید تجسم سفارشی.
- گسترش جستجوی قطعه و انتخاب کنید نقشه حرارت در منوی کشویی
- قطعه ارائه شده را در تجسم سفارشی خود وارد کنید:
تجسم زیر را دریافت می کنیم.
اگر میخواهید نقشه حرارتی را بیشتر کنید، میتوانید دادهها را برش دهید تا فقط مرورهای قبل از سال 2011 نشان داده شود. شناسایی اینها در نقشه حرارتی که به تازگی ایجاد کردهایم به دلیل حجم زیادی از بازبینیها از سال 2012، دشوار است. - یک خط کد را به تجسم سفارشی خود اضافه کنید:
ما نقشه حرارتی زیر را دریافت می کنیم.
اکنون نقشه حرارتی بررسی های قبل از سال 2011 را به وضوح نشان می دهد: ما می توانیم اثرات فصلی را مشاهده کنیم (پایان سال خریدهای بیشتری را به همراه دارد و در نتیجه بررسی های بیشتری را به همراه دارد) و می توانیم ماه های غیرعادی مانند اکتبر 2003 و مارس 2005 را شناسایی کنیم. ارزش بررسی بیشتر را دارد. برای تعیین علت آن ناهنجاری ها.
نتیجه
Data Wrangler یک ابزار جمع آوری و آماده سازی داده های هدفمند برای ML است. در این پست، نحوه انجام EDA و تبدیل سریع داده های خود را با استفاده از قطعه کد ارائه شده توسط Data Wrangler نشان دادیم. شما فقط باید یک قطعه پیدا کنید، کد را وارد کنید و پارامترها را مطابق با مجموعه داده خود تنظیم کنید. می توانید به تکرار روی اسکریپت خود ادامه دهید تا تجسم ها و دگرگونی های پیچیده تری ایجاد کنید.
برای کسب اطلاعات بیشتر در مورد Data Wrangler، مراجعه کنید ایجاد و استفاده از Data Wrangler Flow.
درباره نویسنده
نیکیتا ایوکین یک دانشمند کاربردی، Amazon SageMaker Data Wrangler است.
حیدر نقوی یک معمار راه حل در AWS است. او دارای تجربه گسترده ای در زمینه توسعه نرم افزار و معماری سازمانی است. او بر روی توانمندسازی مشتریان برای دستیابی به نتایج تجاری با AWS تمرکز دارد. او در خارج از نیویورک مستقر است.
هاریش راجاگوپالان یک معمار ارشد راه حل در خدمات وب آمازون است. Harish با مشتریان سازمانی کار می کند و به آنها در سفر ابری کمک می کند.
جیمز وو یک متخصص ارشد AI/ML SA در AWS است. او با مشتریان کار می کند تا سفر ابری آنها را تسریع کند و تحقق ارزش تجاری آنها را سریعتر پیگیری کند. علاوه بر آن، جیمز همچنین مشتاق توسعه و مقیاسبندی راهحلهای بزرگ AI/ML در دامنههای مختلف است. قبل از پیوستن به AWS، او یک تیم فناوری نوآوری چند رشته ای را با مهندسان ML و توسعه دهندگان نرم افزار برای یک شرکت جهانی برتر در بازار و صنعت تبلیغات رهبری کرد.
- Coinsmart. بهترین صرافی بیت کوین و کریپتو اروپا.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی رایگان.
- CryptoHawk. رادار آلت کوین امتحان رایگان.
- منبع: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- درباره ما
- شتاب دادن
- دسترسی
- رسیدن
- در میان
- اضافه
- تبلیغات
- معرفی
- اجازه می دهد تا
- آمازون
- آمازون خدمات وب
- تحلیل
- اعمال می شود
- معماری
- در دسترس
- AWS
- محور
- زیرا
- قبل از
- میان
- ساخته شده در
- کسب و کار
- قابلیت های
- علت
- نمودار
- را انتخاب کنید
- ابر
- رمز
- ستون
- مشترک
- کامل
- پیچیده
- ادامه دادن
- گروه شاهد
- ایجاد
- ایجاد شده
- سفارشی
- مشتریان
- داده ها
- تحلیل داده ها
- نشان دادن
- نشان
- مشخص کردن
- توسعه دهندگان
- در حال توسعه
- پروژه
- توزیع
- حوزه
- پایین
- قطره
- دینامیک
- اثرات
- را قادر می سازد
- مهندسی
- مورد تأیید
- وارد
- سرمایه گذاری
- مثال
- جز
- تجربه
- وسیع
- سریعتر
- ویژگی
- سرانجام
- شرکت
- نام خانوادگی
- جریان
- تمرکز
- به دنبال
- پیروی
- از جانب
- تابع
- توابع
- بیشتر
- جهانی
- بزرگ
- گروه ها
- داشتن
- مفید
- کمک می کند
- چگونه
- چگونه
- HTTPS
- شناسایی
- اهمیت
- صنعت
- ابداع
- رابط
- IT
- سفر
- نگاه داشتن
- بزرگ
- یاد گرفتن
- یادگیری
- رهبری
- لاین
- فهرست
- دستگاه
- فراگیری ماشین
- نقشه
- مارس
- بازار
- مسابقه
- ML
- مدل
- ماه
- ماه
- بیش
- موسیقی
- نام
- نیویورک
- عدد
- دیگر
- به طور کلی
- احساساتی
- انجام
- بازی
- آماده
- قبلی
- محصول
- ارائه
- ارائه
- فراهم می کند
- خرید
- خرید
- کمی
- به سرعت
- خام
- سوابق
- بازتاب می دهد
- این فایل نقد می نویسید:
- بررسی
- مقیاس گذاری
- دانشمند
- خدمات
- ساده
- پس از
- شش
- نرم افزار
- توسعه نرم افزار
- مزایا
- متخصص
- شروع
- ارقام
- ذخیره سازی
- opbevare
- هدف
- تیم
- پیشرفته
- La
- از این رو
- سه
- زمان
- ابزار
- بالا
- دگرگون کردن
- تحولات
- انواع
- استفاده کنید
- ارزش
- مختلف
- تجسم
- جلد
- وب
- خدمات وب
- WHO
- شگفت انگیز
- با این نسخهها کار
- با ارزش
- نوشته
- X
- سال
- سال
- شما