Interactive Data Prep Widget For Notebooks Powered By Amazon SageMaker Data Wrangler

بازنشر افلاطون

دنبال: 0

بر اساس یک نظرسنجی در سال 2020 از دانشمندان داده که توسط Anaconda انجام شد، آماده سازی داده یکی از مراحل حیاتی در یادگیری ماشین (ML) و گردش کار تجزیه و تحلیل داده است و اغلب برای دانشمندان داده بسیار وقت گیر است. دانشمندان داده حدود 66٪ از زمان خود را صرف آماده سازی و تجزیه و تحلیل داده ها می کنند، از جمله بارگذاری (19٪)، تمیز کردن (26٪) و تجسم داده ها (21٪).

Amazon SageMaker Studio اولین محیط توسعه کاملا یکپارچه (IDE) برای ML است. با یک کلیک، دانشمندان داده و توسعه دهندگان می توانند به سرعت چرخش خود را انجام دهند نوت بوک های استودیویی برای کاوش مجموعه داده ها و ساخت مدل ها. اگر یک رابط کاربری مبتنی بر رابط کاربری گرافیکی و تعاملی را ترجیح می دهید، می توانید از آن استفاده کنید Amazon SageMaker Data Rangler، با بیش از 300 تجسم، تجزیه و تحلیل و تبدیل برای پردازش کارآمد داده های پشتیبانی شده توسط Spark بدون نوشتن یک خط کد.

داده رانگلر اکنون قابلیت آماده سازی داده های داخلی را ارائه می دهد نوت بوک های Amazon SageMaker Studio که به پزشکان ML این امکان را می‌دهد تا ویژگی‌های داده‌ها را به صورت بصری بررسی کنند، مشکلات را شناسایی کنند، و مشکلات کیفیت داده را با چند کلیک مستقیماً در نوت‌بوک‌ها برطرف کنند.

در این پست به شما نشان می دهیم که چگونه داده رانگلر ویجت آماده سازی داده به طور خودکار تصاویر کلیدی را در بالای قاب داده Pandas ایجاد می کند تا توزیع داده ها را درک کند، مشکلات کیفیت داده را شناسایی کند، و بینش داده های سطحی مانند نقاط پرت برای هر ویژگی. این به تعامل با داده ها و کشف بینش هایی کمک می کند که ممکن است با پرس و جوی موقت مورد توجه قرار نگیرند. همچنین تبدیل‌ها را برای اصلاح توصیه می‌کند، به شما امکان می‌دهد تبدیل داده‌ها را روی رابط کاربری اعمال کنید و به‌طور خودکار کد را در سلول‌های نوت‌بوک تولید کنید. این ویژگی در تمام مناطقی که SageMaker Studio در دسترس است در دسترس است.

بررسی اجمالی راه حل

بیایید بیشتر درک کنیم که چگونه این ویجت جدید کاوش داده را به طور قابل توجهی آسان‌تر می‌کند و تجربه یکپارچه را برای بهبود تجربه کلی آماده‌سازی داده برای مهندسان و متخصصان داده فراهم می‌کند. برای مورد استفاده خود، از یک نسخه اصلاح شده استفاده می کنیم مجموعه داده تایتانیک، یک مجموعه داده محبوب در جامعه ML است که اکنون به عنوان یک اضافه شده است مجموعه داده نمونه بنابراین می توانید به سرعت با SageMaker Data Wrangler شروع کنید. مجموعه داده اصلی از OpenML، و برای افزودن مشکلات کیفیت داده مصنوعی توسط آمازون برای این نسخه آزمایشی اصلاح شده است. می توانید نسخه اصلاح شده مجموعه داده را از مسیر عمومی S3 دانلود کنید s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv.

پیش نیازها

برای به دست آوردن تجربه عملی با تمام ویژگی های شرح داده شده در این پست، پیش نیازهای زیر را تکمیل کنید:

مطمئن شوید که یک حساب AWS دارید، دسترسی ایمن برای ورود به حساب از طریق کنسول مدیریت AWSو هویت AWS و مدیریت دسترسی (IAM) مجوزهای استفاده آمازون SageMaker و سرویس ذخیره سازی ساده آمازون منابع (Amazon S3).
از مجموعه داده نمونه از مسیر عمومی S3 استفاده کنید s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv یا بدیل آن را در سطل S3 آپلود کنید در حساب شما
وارد دامنه SageMaker شوید و برای استفاده از نوت بوک به استودیو دسترسی داشته باشید. برای دستورالعمل، مراجعه کنید ورود به دامنه Amazon SageMaker. اگر از استودیو موجود استفاده می‌کنید، به آن ارتقا دهید آخرین نسخه استودیو.

ویجت کاوش داده را فعال کنید

هنگامی که از فریم های داده Pandas استفاده می کنید، کاربران نوت بوک استودیو می توانند به صورت دستی ویجت کاوش داده را فعال کنند تا تصاویر جدید به طور پیش فرض در بالای هر ستون نمایش داده شوند. ویجت یک هیستوگرام برای داده های عددی و یک نمودار میله ای برای انواع دیگر داده ها نشان می دهد. این نمایش‌ها به شما امکان می‌دهند تا به سرعت توزیع داده‌ها را درک کنید و مقادیر و مقادیر از دست رفته را بدون نیاز به نوشتن روش‌های boilerplate برای هر ستون کشف کنید. برای درک سریع توزیع، می‌توانید در هر تصویر روی نوار حرکت کنید.

استودیو را باز کنید و یک نوت بوک جدید پایتون 3 ایجاد کنید. حتما انتخاب کنید علم داده 3.0 تصویر از تصاویر SageMaker با کلیک کردن تغییر محیط را فشار دهید.

ویجت کاوش داده در تصاویر زیر موجود است. برای لیست تصاویر پیش‌فرض SageMaker، مراجعه کنید تصاویر موجود Amazon SageMaker.

پایتون 3 (علم داده) با پایتون 3.7
Python 3 (Data Science 2.0) با Python 3.8
Python 3 (Data Science 3.0) با Python 3.10
Spark Analytics 1.0 و 2.0

برای استفاده از این ویجت، وارد کنید SageMaker_DataWrangler کتابخانه نسخه اصلاح شده مجموعه داده تایتانیک را از اینجا بارگیری کنید S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv و CSV را با کتابخانه پانداها بخوانید:

import pandas as pd
import boto3
import io
import sagemaker_datawrangler

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='sagemaker-sample-files', Key='datasets/tabular/dirty-titanic/titanic-dirty-4.csv')
df = pd.read_csv(io.BytesIO(obj['Body'].read()))

داده ها را تجسم کنید

پس از بارگیری داده ها در قاب داده پاندا، می توانید داده ها را فقط با استفاده از آن مشاهده کنید df or display(df). ویجت آماده سازی داده، همراه با فهرست کردن ردیف، بینش، تجسم و توصیه هایی در مورد کیفیت داده ایجاد می کند. برای ایجاد بینش ویژگی و هدف، اطلاعات توزیع یا بررسی کیفیت داده ها نیازی به نوشتن کد اضافی ندارید. برای مشاهده خلاصه آماری که هشدارهای کیفیت داده را در صورت وجود نشان می دهد، می توانید هدر جدول قاب داده را انتخاب کنید.

داده ها را تجسم کنید

هر ستون یک نمودار میله ای یا هیستوگرام را بر اساس نوع داده نشان می دهد. به طور پیش فرض، ویجت تا 10,000 مشاهده را برای ایجاد بینش معنادار نمونه برداری می کند. همچنین گزینه ای برای اجرای تجزیه و تحلیل بینش در کل مجموعه داده را فراهم می کند.

همانطور که در تصویر زیر نشان داده شده است، این ویجت مشخص می کند که آیا یک ستون داده های طبقه ای یا کمی دارد.

داده های طبقه ای یا کمی

برای داده های طبقه بندی شده، ویجت نمودار میله ای را با تمام دسته ها تولید می کند. در تصویر زیر، به عنوان مثال، ستون Sex دسته ها را روی داده ها شناسایی می کند. می توانید ماوس را روی نوار نگه دارید (نر در این مورد) برای دیدن جزئیات این دسته ها، مانند تعداد کل ردیف های دارای مقدار male و توزیع آن در کل مجموعه داده بصری شده (64.07٪ در این مثال). همچنین درصد کل مقادیر از دست رفته را با رنگی متفاوت برای داده های دسته بندی برجسته می کند. برای داده های کمی مانند ticket ستون، توزیع را به همراه درصد مقادیر نامعتبر نشان می دهد.

اگر می خواهید یک تجسم استاندارد پانداها را در نوت بوک ببینید، می توانید انتخاب کنید جدول پانداها را مشاهده کنید و همانطور که در تصویر زیر نشان داده شده است، بین ویجت و نمایش پانداها جابجا شوید.

جدول پانداها را مشاهده کنید

جدول مخاصمه داده را مشاهده کنید

برای دریافت اطلاعات دقیق تر در مورد داده های ستون، سرصفحه ستون را انتخاب کنید تا یک پانل جانبی اختصاص داده شده به ستون باز شود. در اینجا می توانید دو تب را مشاهده کنید: مطالب مفید و کیفیت داده.

بینش و کیفیت داده

در بخش های بعدی، این دو گزینه را با جزئیات بیشتری بررسی می کنیم.

مطالب مفید

La مطالب مفید تب جزئیات با توضیحات هر ستون را ارائه می دهد. این بخش آمارهای انباشته شده را فهرست می‌کند، مانند حالت، تعداد موارد منحصربه‌فرد، نسبت‌ها و تعداد مقادیر گمشده/نامعتبر و غیره، و همچنین توزیع داده‌ها را با کمک یک هیستوگرام یا نمودار میله‌ای تجسم می‌کند. در اسکرین شات‌های زیر، می‌توانید اطلاعات بینش داده و اطلاعات توزیع نمایش داده شده با تجسم‌های قابل فهم تولید شده برای ستون انتخابی را بررسی کنید. survived.

کیفیت داده

ویجت آماده سازی داده استودیو مشکلات شناسایی شده کیفیت داده را با علامت هشدار در هدر برجسته می کند. ویجت می‌تواند طیف کاملی از مسائل مربوط به کیفیت داده‌ها را از اصول اولیه (مقادیر گمشده، ستون ثابت و غیره) تا خاص‌تر ML (نشت هدف، ویژگی‌های امتیاز پیش‌بینی پایین و غیره) شناسایی کند. ویجت سلول‌هایی را که باعث مشکل کیفیت داده‌ها می‌شوند برجسته می‌کند و ردیف‌ها را دوباره سازمان‌دهی می‌کند تا سلول‌های مشکل‌ساز را در بالا قرار دهد. برای رفع مشکل کیفیت داده، ویجت چندین ترانسفورماتور را ارائه می دهد که با یک کلیک یک دکمه قابل اعمال است.

برای کاوش در بخش کیفیت داده، عنوان ستون و در پانل کناری، را انتخاب کنید کیفیت داده برگه شما باید موارد زیر را در محیط استودیو خود مشاهده کنید.

برگه کیفیت داده

بیایید به گزینه های مختلف موجود در آن نگاه کنیم کیفیت داده برگه برای این مثال، ستون سن را انتخاب می کنیم که بر اساس داده ها به عنوان یک ستون کمی تشخیص داده می شود. همانطور که در اسکرین شات زیر می بینیم، این ویجت انواع مختلفی از تبدیل ها را پیشنهاد می کند که می توانید اعمال کنید، از جمله رایج ترین اقدامات، مانند با مقدار جدید جایگزین کنید, رها از دست رفته, با میانه جایگزین کنید، یا با میانگین جایگزین کنید. می‌توانید هر یک از آن‌ها را برای مجموعه داده‌تان بر اساس مورد استفاده (مشکل ML که می‌خواهید حل کنید) انتخاب کنید. همچنین به شما می دهد رها کردن ستون اگر می خواهید این ویژگی را به طور کلی حذف کنید گزینه ای است.

وقتی انتخاب کردید کد را اعمال و صادر کنید، تبدیل به کپی عمیق قاب داده اعمال می شود. پس از اعمال موفقیت آمیز تبدیل، جدول داده ها با بینش ها و تجسم ها تجدید می شود. کد تبدیل بعد از سلول موجود در نوت بوک ایجاد می شود. می‌توانید این کد صادر شده را بعداً اجرا کنید تا تغییر را در مجموعه داده‌های خود اعمال کنید و آن را بر اساس نیاز خود گسترش دهید. شما می توانید تبدیل را با تغییر مستقیم کد تولید شده سفارشی کنید. اگر ما را اعمال کنیم رها از دست رفته گزینه در ستون Age، کد تبدیل زیر به مجموعه داده اعمال می شود و کد نیز در سلول زیر ویجت ایجاد می شود:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Drop missing for column: age to resolve warning: Missing values 
output_df = output_df[output_df['age'].notnull()]

نمونه زیر نمونه دیگری از قطعه کد برای است با میانه جایگزین کنید:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Replace with median for column: age to resolve warning: Missing values 
output_df['age']=output_df['age'].fillna(output_df['age'].median(skipna=True))

اکنون اجازه دهید به قابلیت بینش هدف ویجت آماده سازی داده نگاه کنیم. فرض کنید می خواهید از survived ویژگی برای پیش بینی زنده ماندن یک مسافر. انتخاب survived سربرگ ستون در پانل کناری، را انتخاب کنید به عنوان ستون هدف انتخاب کنید. توزیع داده ایده آل برای survived ویژگی باید فقط دو کلاس داشته باشد: بله (1) یا نه (0)، که به طبقه بندی شانس بقای سقوط تایتانیک کمک می کند. با این حال، به دلیل ناهماهنگی داده ها در ستون هدف انتخاب شده، ویژگی باقی مانده است 0, 1, ?, unknownو yes.

به عنوان ستون هدف انتخاب کنید

نوع مشکل را بر اساس ستون هدف انتخاب شده انتخاب کنید، که می تواند یکی باشد طبقه بندی or رگرسیون. برای ستون باقی مانده، نوع مشکل طبقه بندی است. انتخاب کنید دویدن برای ایجاد بینش برای ستون هدف.

جان سالم به در برد

ویجت آماده سازی داده، بینش های ستون هدف را با توصیه ها و توضیحات نمونه فهرست می کند تا مشکلات مربوط به کیفیت داده های ستون هدف را حل کند. همچنین به طور خودکار داده های غیرعادی در ستون را برجسته می کند.

بینش ستون را با توصیه ها هدف قرار دهید

ما تبدیل توصیه شده را انتخاب می کنیم مقادیر هدف کمیاب را رها کنید، زیرا مشاهدات کمتری برای مقادیر هدف کمیاب وجود دارد.

مقدار هدف کمیاب را رها کنید

تبدیل انتخاب شده به قاب داده پاندا اعمال می شود و مقادیر هدف غیر معمول از ستون باقی مانده حذف شدند. کد زیر را ببینید:

# Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True)

# Code to Drop rare target values for column: survived to resolve warning: Too few instances per class 
rare_target_labels_to_drop = ['?', 'unknown', 'yes']
output_df = output_df[~output_df['survived'].isin(rare_target_labels_to_drop)]

نتایج تبدیل اعمال شده بلافاصله در قاب داده قابل مشاهده است. برای ردیابی فعالیت های آماده سازی داده اعمال شده با استفاده از ویجت آماده سازی داده، کد تبدیل شده نیز در سلول نوت بوک زیر تولید می شود.

نتیجه

در این پست، راهنمایی هایی در مورد اینکه چگونه ویجت آماده سازی داده استودیو می تواند به شما در تجزیه و تحلیل توزیع داده ها، بررسی بینش های کیفیت داده تولید شده توسط این ابزار و کشف مسائل بالقوه مانند نقاط پرت برای هر ویژگی حیاتی کمک کند، ارائه کردیم. این به بهبود کیفیت کلی داده‌ها کمک می‌کند تا به شما در آموزش مدل‌های باکیفیت کمک کند، و با این امکان که به شما امکان می‌دهد داده‌ها را روی رابط کاربری تغییر دهید و برای سلول‌های نوت‌بوک به‌طور خودکار کد تولید کنید، وزنه‌های متمایز نشده را حذف می‌کند. سپس می توانید از این کد در خطوط لوله MLOps خود برای ایجاد تکرارپذیری، جلوگیری از اتلاف وقت برای کارهای تکراری و کاهش مشکلات سازگاری با تسریع ساخت و استقرار خطوط لوله کشمکش داده استفاده کنید.

اگر با SageMaker Data Wrangler یا Studio تازه کار هستید، به آن مراجعه کنید با SageMaker Data Wrangler شروع کنید. اگر سوالی در رابطه با این پست دارید در قسمت نظرات مطرح کنید.

درباره نویسنده

پارت پاتل یک معمار راه حل در AWS در منطقه خلیج سانفرانسیسکو است. Parth مشتریان را راهنمایی می کند تا سفر خود را به سمت ابر تسریع کنند و به آنها کمک کند تا با موفقیت در AWS Cloud بپذیرند و رشد کنند. او بر یادگیری ماشین، پایداری محیطی و نوسازی اپلیکیشن تمرکز دارد.

عشا دعا یک معمار ارشد راه حل مستقر در منطقه خلیج سانفرانسیسکو است. او به مشتریان AWS Enterprise کمک می کند تا با درک اهداف و چالش های آنها رشد کنند و آنها را راهنمایی کند که چگونه می توانند برنامه های خود را به شیوه ای ابری معماری کنند و در عین حال مطمئن شوند که انعطاف پذیر و مقیاس پذیر هستند. او مشتاق فن آوری های یادگیری ماشین و پایداری محیطی است.

هریهاران سورش یک معمار ارشد راه حل در AWS است. او علاقه زیادی به پایگاه داده ها، یادگیری ماشینی و طراحی راه حل های نوآورانه دارد. قبل از پیوستن به AWS، Hariharan یک معمار محصول، متخصص پیاده سازی بانکداری اصلی و توسعه دهنده بود و بیش از 11 سال با سازمان های BFSI کار کرد. او خارج از تکنولوژی، از پاراگلایدر و دوچرخه سواری لذت می برد.

دنی میچل یک معمار راه حل های تخصصی AI/ML در خدمات وب آمازون است. او روی موارد استفاده از Computer Vision و کمک به مشتریان در سراسر EMEA برای تسریع سفر ML خود متمرکز است.

تمبر زمان: دسامبر 1، 2022دسامبر 1، 2022

تمبر زمان: ژوئن 6، 2023

ویجت آماده سازی داده تعاملی برای نوت بوک ها توسط Amazon SageMaker Data Wrangler

بازنشر افلاطون

بررسی اجمالی راه حل

پیش نیازها

ویجت کاوش داده را فعال کنید

داده ها را تجسم کنید

مطالب مفید

کیفیت داده

نتیجه

درباره نویسنده

بیشتر از آموزش ماشین AWS

مدل های Meta Llama 3 اکنون در Amazon SageMaker JumpStart | خدمات وب آمازون

تجزیه و تحلیل داده های اکتشافی خودکار و چارچوب عملیاتی سازی مدل با یک انسان در حلقه

طبقه بندی متن صفر شات با Amazon SageMaker JumpStart | خدمات وب آمازون

نتایج جستجوی خود را با Amazon Personalize و Amazon OpenSearch Service ادغام شخصی سازی کنید | خدمات وب آمازون

Amazon Comprehend Targeted Sentiment پشتیبانی همزمان را اضافه می کند

از اسکریپت های آموزشی خود استفاده کنید و به طور خودکار بهترین مدل را با استفاده از بهینه سازی هایپرپارامتر در Amazon SageMaker انتخاب کنید

رونوشت های خود را به پاراگراف ها با Amazon Transcript | مرتب کنید خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب