با Amazon SageMaker Data Wrangler نمونه‌های تصادفی و طبقه‌بندی شده داده ایجاد کنید

بازنشر افلاطون

دنبال: 0

در این پست شما را با دو تکنیک نمونه گیری آشنا می کنیم Amazon SageMaker Data Rangler بنابراین می توانید به سرعت گردش کار پردازشی برای داده های خود ایجاد کنید. ما هر دو روش نمونه گیری تصادفی و نمونه گیری طبقه ای را پوشش می دهیم تا به شما کمک کنیم از داده های خود بر اساس نیازهای خاص خود نمونه برداری کنید.

Data Wrangler زمان جمع‌آوری و آماده‌سازی داده‌ها برای یادگیری ماشین (ML) را از هفته‌ها به دقیقه کاهش می‌دهد. می‌توانید فرآیند آماده‌سازی داده‌ها و مهندسی ویژگی‌ها را ساده کنید و هر مرحله از گردش کار آماده‌سازی داده‌ها، از جمله انتخاب داده، پاک‌سازی، کاوش و تجسم را از یک رابط بصری کامل کنید. با ابزار انتخاب داده های Data Wrangler، می توانید داده های مورد نظر خود را از منابع داده های مختلف انتخاب کرده و با یک کلیک آن را وارد کنید. Data Wrangler شامل بیش از 300 تبدیل داده داخلی است، بنابراین می توانید بدون نیاز به نوشتن هیچ کدی، ویژگی ها را به سرعت عادی سازی، تبدیل و ترکیب کنید. با الگوهای تجسم Data Wrangler، می‌توانید به سرعت پیش‌نمایش و بررسی کنید که این تبدیل‌ها همانطور که می‌خواهید با مشاهده آن‌ها در Amazon SageMaker Studio، اولین محیط توسعه کاملاً یکپارچه (IDE) برای ML. پس از آماده شدن داده‌های شما، می‌توانید گردش‌های کاری ML کاملاً خودکار را با آن بسازید خطوط لوله آمازون SageMaker و آنها را برای استفاده مجدد ذخیره کنید فروشگاه ویژگی آمازون SageMaker.

نمونه برداری چیست و چگونه می تواند کمک کند

در تجزیه و تحلیل های آماری، مجموعه کل مشاهدات به عنوان جمعیت. هنگام کار با داده ها، اغلب از نظر محاسباتی امکان اندازه گیری هر مشاهده از جمعیت وجود ندارد. نمونه گیری آماری رویه‌ای است که به شما امکان می‌دهد با انتخاب زیر مجموعه‌ها از جمعیت، داده‌های خود را درک کنید.

نمونه‌برداری یک راه‌حل عملی ارائه می‌دهد که برخی از دقت‌ها را به خاطر عملی بودن و سهولت قربانی می‌کند. برای اطمینان از اینکه نمونه شما نمایش خوبی از کل جمعیت است، می توانید از استراتژی های نمونه گیری استفاده کنید. Data Wrangler از دو مورد از رایج ترین استراتژی ها پشتیبانی می کند: نمونه گیری تصادفی و نمونه گیری طبقه ای.

نمونه گیری تصادفی

اگر مجموعه داده بزرگی دارید، آزمایش روی آن مجموعه داده ممکن است زمان بر باشد. Data Wrangler نمونه‌گیری تصادفی را فراهم می‌کند تا بتوانید داده‌های خود را به طور کارآمد پردازش و تجسم کنید. به عنوان مثال، ممکن است بخواهید میانگین تعداد خریدهای مشتری را در یک بازه زمانی محاسبه کنید، یا ممکن است بخواهید نرخ فرسایش یک مشترک را محاسبه کنید. شما می توانید از یک نمونه تصادفی برای تجسم تقریب های این معیارها استفاده کنید.

یک نمونه تصادفی از مجموعه داده شما انتخاب می شود تا هر عنصر احتمال یکسانی برای انتخاب داشته باشد. این عملیات به شیوه ای کارآمد و مناسب برای مجموعه داده های بزرگ انجام می شود، بنابراین حجم نمونه بازگشتی تقریباً اندازه درخواستی است و لزوماً برابر با اندازه درخواستی نیست.

اگر می‌خواهید محاسبات سریع و تقریبی را برای درک مجموعه داده‌های خود انجام دهید، می‌توانید از نمونه‌گیری تصادفی استفاده کنید. با بزرگ‌تر شدن اندازه نمونه، نمونه تصادفی بهتر می‌تواند کل مجموعه داده را تقریب کند، اما مگر اینکه همه نقاط داده را شامل شود، نمونه تصادفی شما ممکن است شامل همه موارد پرت و یال نباشد. اگر می‌خواهید کل مجموعه داده خود را به صورت تعاملی آماده کنید، می‌توانید به نوع نمونه بزرگ‌تری نیز بروید.

به عنوان یک قاعده کلی، خطای نمونه گیری در محاسبه میانگین جامعه با استفاده از یک نمونه تصادفی، با بزرگتر شدن نمونه به 0 تمایل دارد. با افزایش حجم نمونه، خطا به عنوان معکوس جذر حجم نمونه کاهش می یابد. هرچه غذای آماده، نمونه بزرگتر باشد، تقریب بهتری خواهد داشت.

نمونه گیری طبقه ای

در برخی موارد، جمعیت شما را می‌توان به اقشار یا سطل‌های منحصر به فرد متقابل تقسیم کرد، مانند موقعیت جغرافیایی برای آدرس‌ها، سال انتشار برای آهنگ‌ها، یا براکت‌های مالیاتی برای درآمد. نمونه‌گیری تصادفی محبوب‌ترین روش نمونه‌گیری است، اما اگر برخی از اقشار در جامعه شما غیرمعمول هستند، می‌توانید از نمونه‌گیری طبقه‌ای در Data Wrangler استفاده کنید تا اطمینان حاصل کنید که هر لایه به طور متناسب در نمونه شما نمایش داده می‌شود. این ممکن است برای کاهش خطاهای نمونه برداری و همچنین اطمینان از اینکه در طول آزمایش خود از موارد لبه گرفته شده اید مفید باشد.

در دنیای واقعی، تراکنش‌های جعلی کارت اعتباری رویدادهای نادری هستند و معمولاً کمتر از ۱٪ از داده‌های شما را تشکیل می‌دهند. اگر بخواهیم به صورت تصادفی نمونه برداری کنیم، غیرمعمول نیست که نمونه دارای تراکنش های بسیار کم یا بدون تراکنش های جعلی باشد. در نتیجه، هنگام آموزش یک مدل، نمونه های تقلبی بسیار کمی برای یادگیری یک مدل دقیق خواهیم داشت. می‌توانیم از نمونه‌گیری طبقه‌ای استفاده کنیم تا مطمئن شویم که بازنمایی متناسبی از تراکنش‌های جعلی داریم.

در نمونه گیری طبقه ای، اندازه هر اقشار در نمونه متناسب با اندازه اقشار جامعه است. این کار با تقسیم داده های شما به طبقات بر اساس ستون مشخص شده، انتخاب نمونه های تصادفی از هر طبقه با نسبت صحیح و ترکیب آن نمونه ها در یک نمونه طبقه بندی شده از جامعه کار می کند.

نمونه‌گیری طبقه‌ای یک تکنیک مفید است زمانی که می‌خواهید بفهمید گروه‌های مختلف در داده‌های شما چگونه با یکدیگر مقایسه می‌شوند، و می‌خواهید اطمینان حاصل کنید که نمایش مناسبی از هر گروه دارید.

نمونه گیری تصادفی هنگام وارد کردن از آمازون S3

در این بخش، ما از نمونه‌گیری تصادفی با مجموعه داده‌ای متشکل از رویدادهای جعلی و غیر متقلبانه از سیستم تشخیص تقلب استفاده می‌کنیم. تو می توانی دانلود مجموعه داده به همراه این پست (مجوز اسناد بین المللی CC 4.0).

در زمان نوشتن این مقاله، می توانید مجموعه داده ها را از آن وارد کنید سرویس ذخیره سازی ساده آمازون (Amazon S3) آمازون آتنا, آمازون Redshift، و دانه برف. مجموعه داده ما بسیار بزرگ است و شامل 1 میلیون ردیف است. در این مورد، ما می خواهیم 1,0000 ردیف را در هنگام واردات از آمازون S3 برای آزمایش های تعاملی در Data Wrangler نمونه برداری کنیم.

SageMaker Studio را باز کنید و یک جریان Data Wrangler جدید ایجاد کنید.
تحت وارد کردن داده، انتخاب کنید آمازون S3.
مجموعه داده را برای وارد کردن انتخاب کنید.
در جزئیات نام مجموعه داده و نوع فایل خود را وارد کنید.
برای نمونه برداری، انتخاب کنید تصادفی.
برای اندازهی نمونه، وارد 10000.
را انتخاب کنید وارد كردن برای بارگذاری مجموعه داده در Data Wrangler.

شما می توانید دو مرحله مجزا را در صفحه جریان داده در Data Wrangler تجسم کنید. مرحله اول بارگذاری مجموعه داده نمونه را بر اساس استراتژی نمونه گیری که تعریف کرده اید نشان می دهد. پس از بارگیری داده ها، Data Wrangler تشخیص خودکار انواع داده ها را برای هر یک از ستون های مجموعه داده انجام می دهد. این مرحله به طور پیش فرض برای همه مجموعه داده ها اضافه می شود.

اکنون می‌توانید داده‌های نمونه‌گیری تصادفی را در Data Wrangler با افزودن تجزیه و تحلیل مرور کنید.

علامت مثبت کناری را انتخاب کنید انواع داده ها و انتخاب کنید تحلیل و بررسی.
برای نوع تحلیلانتخاب کنید طرح پراکنده.
را انتخاب کنید feat_1 و feat_2 با توجه به محور X و محور Yبود.
برای رنگ بر اساس، انتخاب کنید is_fraud.

هنگامی که با مجموعه داده راحت هستید، مطابق با نیاز کسب و کار خود برای آماده سازی داده های خود برای ML، تغییرات بیشتری در داده ها انجام دهید.

در تصویر زیر می‌توانیم تراکنش‌های جعلی (آبی تیره) و غیر متقلبانه (آبی روشن) را در تحلیل خود مشاهده کنیم.

در بخش بعدی، استفاده از نمونه‌گیری طبقه‌ای را برای اطمینان از انتخاب متناسب پرونده‌های تقلبی مورد بحث قرار می‌دهیم.

نمونه برداری طبقه ای با تبدیل

Data Wrangler به شما امکان می دهد در هنگام واردات نمونه برداری کنید، و همچنین نمونه برداری از طریق تبدیل. در این بخش، استفاده از نمونه‌گیری طبقه‌بندی شده از طریق تبدیل را پس از وارد کردن مجموعه داده خود به Data Wrangler مورد بحث قرار می‌دهیم.

برای شروع نمونه برداری، بر روی گردش داده ها تب، علامت مثبت را در کنار مجموعه داده وارد شده انتخاب کرده و انتخاب کنید Transform را اضافه کنید.

در زمان نگارش این مقاله، Data Wrangler بیش از 300 تبدیل داخلی. علاوه بر تبدیل های داخلی، می توانید تبدیل های سفارشی خود را در Pandas یا PySpark بنویسید.

از تبدیل را اضافه کنید لیست کنید ، انتخاب کنید نمونه برداری.

اکنون می توانید از سه استراتژی نمونه گیری مجزا استفاده کنید: محدود، تصادفی و طبقه بندی شده.

برای روش نمونه گیری، انتخاب کنید طبقه بندی شده.
استفاده از is_fraud ستون به عنوان ستون طبقه بندی.
را انتخاب کنید پیش نمایش برای پیش نمایش تبدیل، سپس انتخاب کنید اضافه کردن تا این تبدیل را به عنوان یک مرحله به دستور تغییر خود اضافه کنید.

جریان داده شما اکنون مرحله نمونه برداری اضافه شده را منعکس می کند.

اکنون می‌توانیم داده‌های نمونه‌گیری تصادفی را با افزودن یک تحلیل بررسی کنیم.

علامت مثبت را انتخاب کرده و انتخاب کنید تحلیل و بررسی.
برای نوع تحلیلانتخاب کنید هیستوگرام.
را انتخاب کنید is_fraud برای هردو محور X و رنگ بر اساس.
را انتخاب کنید پیش نمایش.

در اسکرین شات زیر، می‌توانیم تفکیک پرونده‌های متقلبانه (آبی تیره) و غیر متقلبانه (آبی روشن) را مشاهده کنیم که از طریق نمونه‌گیری طبقه‌ای به نسبت‌های صحیح 20 درصد متقلبانه و 80 درصد غیر متقلبانه انتخاب شده‌اند.

نتیجه

هنگام کار با مجموعه داده های بسیار بزرگ، نمونه برداری صحیح از داده ها و انتخاب استراتژی نمونه گیری مناسب برای برآورده کردن نیازهای کسب و کار شما ضروری است. اثربخشی نمونه گیری شما به عوامل مختلفی از جمله نتیجه کسب و کار، در دسترس بودن داده ها و توزیع بستگی دارد. در این پست، نحوه استفاده از Data Wrangler و استراتژی‌های نمونه‌گیری داخلی آن برای آماده‌سازی داده‌هایتان را توضیح دادیم.

می‌توانید از امروز در همه مناطقی که SageMaker Studio در آن‌ها در دسترس است، از این قابلیت استفاده کنید. برای شروع، مراجعه کنید داده های ML را با Amazon SageMaker Data Wrangler آماده کنید.

سپاسگزاریها

نویسندگان مایلند از جاناتان چانگ (دانشمند کاربردی) برای بررسی و بازخورد ارزشمندش در مورد این مقاله تشکر کنند.

درباره نویسنده

بن هریس یک مهندس نرم افزار با تجربه طراحی، استقرار و نگهداری خطوط لوله داده مقیاس پذیر و راه حل های یادگیری ماشین در دامنه های مختلف است.

ویشال کاپور یک دانشمند ارشد کاربردی با هوش مصنوعی AWS است. او مشتاق کمک به مشتریان در درک داده هایشان در Data Wrangler است. او در اوقات فراغت خود دوچرخه سواری کوهستان، اسنوبرد می کند و با خانواده اش وقت می گذراند.

میناکشیسوندارام تانداوارایان یک متخصص ارشد AI/ML با AWS است. او به حساب‌های استراتژیک Hi-Tech در سفر هوش مصنوعی و ML کمک می‌کند. او علاقه زیادی به هوش مصنوعی مبتنی بر داده دارد.

آجای شارما مدیر محصول اصلی آمازون SageMaker است که در آن بر Data Wrangler، یک ابزار آماده سازی داده های بصری برای دانشمندان داده تمرکز می کند. قبل از AWS، Ajai کارشناس علوم داده در McKinsey and Company بود، جایی که او فعالیت‌های متمرکز بر ML را برای شرکت‌های مالی و بیمه پیشرو در سراسر جهان رهبری می‌کرد. Ajai علاقه زیادی به علم داده دارد و دوست دارد جدیدترین الگوریتم ها و تکنیک های یادگیری ماشین را کشف کند.

تمبر زمان: آوریل 26، 2022

تمبر زمان: ممکن است 15، 2023

با Amazon SageMaker Data Wrangler نمونه های تصادفی و طبقه بندی شده از داده ها را ایجاد کنید

بازنشر افلاطون

نمونه برداری چیست و چگونه می تواند کمک کند

نمونه گیری تصادفی

نمونه گیری طبقه ای

نمونه گیری تصادفی هنگام وارد کردن از آمازون S3

نمونه برداری طبقه ای با تبدیل

نتیجه

سپاسگزاریها

درباره نویسنده

بیشتر از آموزش ماشین AWS

یک گردش کار ترجمه سند چند زبانه با سفارشی سازی دامنه خاص و زبان خاص ایجاد کنید

شناسایی ورودی های متخاصم با استفاده از Amazon SageMaker Model Monitor و Amazon SageMaker Debugger

تشخیص واریانس جمعیت گونه های در معرض خطر با استفاده از آمازون Rekognition

ترجمه اسناد در زمان واقعی با آمازون مترجم | خدمات وب آمازون

تسریع PyTorch با DeepSpeed برای آموزش مدل های زبان بزرگ با نمونه های DL1 EC2 مبتنی بر اینتل Habana Gaudi | خدمات وب آمازون

معرفی آپلود کننده اسناد انبوه متن آمازون برای ارزیابی و تجزیه و تحلیل پیشرفته | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب