در این پست شما را با دو تکنیک نمونه گیری آشنا می کنیم Amazon SageMaker Data Rangler بنابراین می توانید به سرعت گردش کار پردازشی برای داده های خود ایجاد کنید. ما هر دو روش نمونه گیری تصادفی و نمونه گیری طبقه ای را پوشش می دهیم تا به شما کمک کنیم از داده های خود بر اساس نیازهای خاص خود نمونه برداری کنید.
Data Wrangler زمان جمعآوری و آمادهسازی دادهها برای یادگیری ماشین (ML) را از هفتهها به دقیقه کاهش میدهد. میتوانید فرآیند آمادهسازی دادهها و مهندسی ویژگیها را ساده کنید و هر مرحله از گردش کار آمادهسازی دادهها، از جمله انتخاب داده، پاکسازی، کاوش و تجسم را از یک رابط بصری کامل کنید. با ابزار انتخاب داده های Data Wrangler، می توانید داده های مورد نظر خود را از منابع داده های مختلف انتخاب کرده و با یک کلیک آن را وارد کنید. Data Wrangler شامل بیش از 300 تبدیل داده داخلی است، بنابراین می توانید بدون نیاز به نوشتن هیچ کدی، ویژگی ها را به سرعت عادی سازی، تبدیل و ترکیب کنید. با الگوهای تجسم Data Wrangler، میتوانید به سرعت پیشنمایش و بررسی کنید که این تبدیلها همانطور که میخواهید با مشاهده آنها در Amazon SageMaker Studio، اولین محیط توسعه کاملاً یکپارچه (IDE) برای ML. پس از آماده شدن دادههای شما، میتوانید گردشهای کاری ML کاملاً خودکار را با آن بسازید خطوط لوله آمازون SageMaker و آنها را برای استفاده مجدد ذخیره کنید فروشگاه ویژگی آمازون SageMaker.
نمونه برداری چیست و چگونه می تواند کمک کند
در تجزیه و تحلیل های آماری، مجموعه کل مشاهدات به عنوان جمعیت. هنگام کار با داده ها، اغلب از نظر محاسباتی امکان اندازه گیری هر مشاهده از جمعیت وجود ندارد. نمونه گیری آماری رویهای است که به شما امکان میدهد با انتخاب زیر مجموعهها از جمعیت، دادههای خود را درک کنید.
نمونهبرداری یک راهحل عملی ارائه میدهد که برخی از دقتها را به خاطر عملی بودن و سهولت قربانی میکند. برای اطمینان از اینکه نمونه شما نمایش خوبی از کل جمعیت است، می توانید از استراتژی های نمونه گیری استفاده کنید. Data Wrangler از دو مورد از رایج ترین استراتژی ها پشتیبانی می کند: نمونه گیری تصادفی و نمونه گیری طبقه ای.
نمونه گیری تصادفی
اگر مجموعه داده بزرگی دارید، آزمایش روی آن مجموعه داده ممکن است زمان بر باشد. Data Wrangler نمونهگیری تصادفی را فراهم میکند تا بتوانید دادههای خود را به طور کارآمد پردازش و تجسم کنید. به عنوان مثال، ممکن است بخواهید میانگین تعداد خریدهای مشتری را در یک بازه زمانی محاسبه کنید، یا ممکن است بخواهید نرخ فرسایش یک مشترک را محاسبه کنید. شما می توانید از یک نمونه تصادفی برای تجسم تقریب های این معیارها استفاده کنید.
یک نمونه تصادفی از مجموعه داده شما انتخاب می شود تا هر عنصر احتمال یکسانی برای انتخاب داشته باشد. این عملیات به شیوه ای کارآمد و مناسب برای مجموعه داده های بزرگ انجام می شود، بنابراین حجم نمونه بازگشتی تقریباً اندازه درخواستی است و لزوماً برابر با اندازه درخواستی نیست.
اگر میخواهید محاسبات سریع و تقریبی را برای درک مجموعه دادههای خود انجام دهید، میتوانید از نمونهگیری تصادفی استفاده کنید. با بزرگتر شدن اندازه نمونه، نمونه تصادفی بهتر میتواند کل مجموعه داده را تقریب کند، اما مگر اینکه همه نقاط داده را شامل شود، نمونه تصادفی شما ممکن است شامل همه موارد پرت و یال نباشد. اگر میخواهید کل مجموعه داده خود را به صورت تعاملی آماده کنید، میتوانید به نوع نمونه بزرگتری نیز بروید.
به عنوان یک قاعده کلی، خطای نمونه گیری در محاسبه میانگین جامعه با استفاده از یک نمونه تصادفی، با بزرگتر شدن نمونه به 0 تمایل دارد. با افزایش حجم نمونه، خطا به عنوان معکوس جذر حجم نمونه کاهش می یابد. هرچه غذای آماده، نمونه بزرگتر باشد، تقریب بهتری خواهد داشت.
نمونه گیری طبقه ای
در برخی موارد، جمعیت شما را میتوان به اقشار یا سطلهای منحصر به فرد متقابل تقسیم کرد، مانند موقعیت جغرافیایی برای آدرسها، سال انتشار برای آهنگها، یا براکتهای مالیاتی برای درآمد. نمونهگیری تصادفی محبوبترین روش نمونهگیری است، اما اگر برخی از اقشار در جامعه شما غیرمعمول هستند، میتوانید از نمونهگیری طبقهای در Data Wrangler استفاده کنید تا اطمینان حاصل کنید که هر لایه به طور متناسب در نمونه شما نمایش داده میشود. این ممکن است برای کاهش خطاهای نمونه برداری و همچنین اطمینان از اینکه در طول آزمایش خود از موارد لبه گرفته شده اید مفید باشد.
در دنیای واقعی، تراکنشهای جعلی کارت اعتباری رویدادهای نادری هستند و معمولاً کمتر از ۱٪ از دادههای شما را تشکیل میدهند. اگر بخواهیم به صورت تصادفی نمونه برداری کنیم، غیرمعمول نیست که نمونه دارای تراکنش های بسیار کم یا بدون تراکنش های جعلی باشد. در نتیجه، هنگام آموزش یک مدل، نمونه های تقلبی بسیار کمی برای یادگیری یک مدل دقیق خواهیم داشت. میتوانیم از نمونهگیری طبقهای استفاده کنیم تا مطمئن شویم که بازنمایی متناسبی از تراکنشهای جعلی داریم.
در نمونه گیری طبقه ای، اندازه هر اقشار در نمونه متناسب با اندازه اقشار جامعه است. این کار با تقسیم داده های شما به طبقات بر اساس ستون مشخص شده، انتخاب نمونه های تصادفی از هر طبقه با نسبت صحیح و ترکیب آن نمونه ها در یک نمونه طبقه بندی شده از جامعه کار می کند.
نمونهگیری طبقهای یک تکنیک مفید است زمانی که میخواهید بفهمید گروههای مختلف در دادههای شما چگونه با یکدیگر مقایسه میشوند، و میخواهید اطمینان حاصل کنید که نمایش مناسبی از هر گروه دارید.
نمونه گیری تصادفی هنگام وارد کردن از آمازون S3
در این بخش، ما از نمونهگیری تصادفی با مجموعه دادهای متشکل از رویدادهای جعلی و غیر متقلبانه از سیستم تشخیص تقلب استفاده میکنیم. تو می توانی دانلود مجموعه داده به همراه این پست (مجوز اسناد بین المللی CC 4.0).
در زمان نوشتن این مقاله، می توانید مجموعه داده ها را از آن وارد کنید سرویس ذخیره سازی ساده آمازون (Amazon S3) آمازون آتنا, آمازون Redshift، و دانه برف. مجموعه داده ما بسیار بزرگ است و شامل 1 میلیون ردیف است. در این مورد، ما می خواهیم 1,0000 ردیف را در هنگام واردات از آمازون S3 برای آزمایش های تعاملی در Data Wrangler نمونه برداری کنیم.
- SageMaker Studio را باز کنید و یک جریان Data Wrangler جدید ایجاد کنید.
- تحت وارد کردن داده، انتخاب کنید آمازون S3.
- مجموعه داده را برای وارد کردن انتخاب کنید.
- در جزئیات نام مجموعه داده و نوع فایل خود را وارد کنید.
- برای نمونه برداری، انتخاب کنید تصادفی.
- برای اندازهی نمونه، وارد
10000
. - را انتخاب کنید وارد كردن برای بارگذاری مجموعه داده در Data Wrangler.
شما می توانید دو مرحله مجزا را در صفحه جریان داده در Data Wrangler تجسم کنید. مرحله اول بارگذاری مجموعه داده نمونه را بر اساس استراتژی نمونه گیری که تعریف کرده اید نشان می دهد. پس از بارگیری داده ها، Data Wrangler تشخیص خودکار انواع داده ها را برای هر یک از ستون های مجموعه داده انجام می دهد. این مرحله به طور پیش فرض برای همه مجموعه داده ها اضافه می شود.
اکنون میتوانید دادههای نمونهگیری تصادفی را در Data Wrangler با افزودن تجزیه و تحلیل مرور کنید.
- علامت مثبت کناری را انتخاب کنید انواع داده ها و انتخاب کنید تحلیل و بررسی.
- برای نوع تحلیلانتخاب کنید طرح پراکنده.
- را انتخاب کنید feat_1 و feat_2 با توجه به محور X و محور Yبود.
- برای رنگ بر اساس، انتخاب کنید is_fraud.
هنگامی که با مجموعه داده راحت هستید، مطابق با نیاز کسب و کار خود برای آماده سازی داده های خود برای ML، تغییرات بیشتری در داده ها انجام دهید.
در تصویر زیر میتوانیم تراکنشهای جعلی (آبی تیره) و غیر متقلبانه (آبی روشن) را در تحلیل خود مشاهده کنیم.
در بخش بعدی، استفاده از نمونهگیری طبقهای را برای اطمینان از انتخاب متناسب پروندههای تقلبی مورد بحث قرار میدهیم.
نمونه برداری طبقه ای با تبدیل
Data Wrangler به شما امکان می دهد در هنگام واردات نمونه برداری کنید، و همچنین نمونه برداری از طریق تبدیل. در این بخش، استفاده از نمونهگیری طبقهبندی شده از طریق تبدیل را پس از وارد کردن مجموعه داده خود به Data Wrangler مورد بحث قرار میدهیم.
- برای شروع نمونه برداری، بر روی گردش داده ها تب، علامت مثبت را در کنار مجموعه داده وارد شده انتخاب کرده و انتخاب کنید Transform را اضافه کنید.
در زمان نگارش این مقاله، Data Wrangler بیش از 300 تبدیل داخلی. علاوه بر تبدیل های داخلی، می توانید تبدیل های سفارشی خود را در Pandas یا PySpark بنویسید.
اکنون می توانید از سه استراتژی نمونه گیری مجزا استفاده کنید: محدود، تصادفی و طبقه بندی شده.
- برای روش نمونه گیری، انتخاب کنید طبقه بندی شده.
- استفاده از
is_fraud
ستون به عنوان ستون طبقه بندی. - را انتخاب کنید پیش نمایش برای پیش نمایش تبدیل، سپس انتخاب کنید اضافه کردن تا این تبدیل را به عنوان یک مرحله به دستور تغییر خود اضافه کنید.
جریان داده شما اکنون مرحله نمونه برداری اضافه شده را منعکس می کند.
اکنون میتوانیم دادههای نمونهگیری تصادفی را با افزودن یک تحلیل بررسی کنیم.
- علامت مثبت را انتخاب کرده و انتخاب کنید تحلیل و بررسی.
- برای نوع تحلیلانتخاب کنید هیستوگرام.
- را انتخاب کنید is_fraud برای هردو محور X و رنگ بر اساس.
- را انتخاب کنید پیش نمایش.
در اسکرین شات زیر، میتوانیم تفکیک پروندههای متقلبانه (آبی تیره) و غیر متقلبانه (آبی روشن) را مشاهده کنیم که از طریق نمونهگیری طبقهای به نسبتهای صحیح 20 درصد متقلبانه و 80 درصد غیر متقلبانه انتخاب شدهاند.
نتیجه
هنگام کار با مجموعه داده های بسیار بزرگ، نمونه برداری صحیح از داده ها و انتخاب استراتژی نمونه گیری مناسب برای برآورده کردن نیازهای کسب و کار شما ضروری است. اثربخشی نمونه گیری شما به عوامل مختلفی از جمله نتیجه کسب و کار، در دسترس بودن داده ها و توزیع بستگی دارد. در این پست، نحوه استفاده از Data Wrangler و استراتژیهای نمونهگیری داخلی آن برای آمادهسازی دادههایتان را توضیح دادیم.
میتوانید از امروز در همه مناطقی که SageMaker Studio در آنها در دسترس است، از این قابلیت استفاده کنید. برای شروع، مراجعه کنید داده های ML را با Amazon SageMaker Data Wrangler آماده کنید.
سپاسگزاریها
نویسندگان مایلند از جاناتان چانگ (دانشمند کاربردی) برای بررسی و بازخورد ارزشمندش در مورد این مقاله تشکر کنند.
درباره نویسنده
بن هریس یک مهندس نرم افزار با تجربه طراحی، استقرار و نگهداری خطوط لوله داده مقیاس پذیر و راه حل های یادگیری ماشین در دامنه های مختلف است.
ویشال کاپور یک دانشمند ارشد کاربردی با هوش مصنوعی AWS است. او مشتاق کمک به مشتریان در درک داده هایشان در Data Wrangler است. او در اوقات فراغت خود دوچرخه سواری کوهستان، اسنوبرد می کند و با خانواده اش وقت می گذراند.
میناکشیسوندارام تانداوارایان یک متخصص ارشد AI/ML با AWS است. او به حسابهای استراتژیک Hi-Tech در سفر هوش مصنوعی و ML کمک میکند. او علاقه زیادی به هوش مصنوعی مبتنی بر داده دارد.
آجای شارما مدیر محصول اصلی آمازون SageMaker است که در آن بر Data Wrangler، یک ابزار آماده سازی داده های بصری برای دانشمندان داده تمرکز می کند. قبل از AWS، Ajai کارشناس علوم داده در McKinsey and Company بود، جایی که او فعالیتهای متمرکز بر ML را برای شرکتهای مالی و بیمه پیشرو در سراسر جهان رهبری میکرد. Ajai علاقه زیادی به علم داده دارد و دوست دارد جدیدترین الگوریتم ها و تکنیک های یادگیری ماشین را کشف کند.
- "
- 100
- درباره ما
- دقیق
- در میان
- اضافه
- آدرس
- AI
- الگوریتم
- معرفی
- آمازون
- تحلیل
- مناسب
- تقریبا
- مقاله
- نویسندگان
- خودکار
- خودکار
- دسترس پذیری
- در دسترس
- میانگین
- AWS
- بودن
- ساختن
- ساخته شده در
- کسب و کار
- موارد
- را انتخاب کنید
- رمز
- ستون
- مشترک
- شرکت
- محاسبه
- محاسبه
- شامل
- ایجاد
- اعتبار
- کارت اعتباری
- سفارشی
- مشتری
- مشتریان
- داده ها
- علم اطلاعات
- استقرار
- طراحی
- کشف
- پروژه
- مختلف
- بحث و تبادل نظر
- توزیع
- حوزه
- لبه
- اثر
- موثر
- موثر
- مهندس
- مهندسی
- وارد
- محیط
- ضروری است
- حوادث
- مثال
- انحصاری
- تجربه
- اکتشاف
- اکتشاف
- عوامل
- خانواده
- ویژگی
- امکانات
- باز خورد
- سرمایه گذاری
- نام خانوادگی
- جریان
- تمرکز
- به دنبال
- پیروی
- FRAME
- تقلب
- بیشتر
- سوالات عمومی
- خوب
- گروه
- داشتن
- کمک
- کمک
- کمک می کند
- چگونه
- چگونه
- HTTPS
- واردات
- شامل
- از جمله
- بیمه
- یکپارچه
- تعاملی
- رابط
- بین المللی
- IT
- شناخته شده
- بزرگ
- بزرگتر
- آخرین
- برجسته
- یاد گرفتن
- یادگیری
- رهبری
- سبک
- فهرست
- بار
- محل
- دستگاه
- فراگیری ماشین
- مدیر
- روش
- اندازه
- متریک
- میلیون
- ML
- مدل
- بیش
- اکثر
- محبوبترین
- لزوما
- عدد
- پیشنهادات
- عمل
- دیگر
- به طور کلی
- خود
- احساساتی
- نقطه
- محبوب
- جمعیت
- آماده
- پیش نمایش
- اصلی
- روند
- در حال پردازش
- محصول
- ارائه
- فراهم می کند
- خرید
- سریع
- به سرعت
- دنیای واقعی
- كاهش دادن
- نمایندگی
- مورد نیاز
- این فایل نقد می نویسید:
- مقیاس پذیر
- علم
- دانشمند
- دانشمندان
- انتخاب شد
- تنظیم
- ساده
- اندازه
- So
- نرم افزار
- مهندس نرمافزار
- راه حل
- مزایا
- برخی از
- متخصص
- مربع
- شروع
- آغاز شده
- آماری
- ذخیره سازی
- استراتژیک
- استراتژی ها
- استراتژی
- استودیو
- پشتیبانی از
- گزینه
- سیستم
- مالیات
- تکنیک
- قالب
- از طریق
- زمان
- زمان بر
- امروز
- ابزار
- آموزش
- معاملات
- دگرگون کردن
- دگرگونی
- به طور معمول
- فهمیدن
- استفاده کنید
- تنوع
- مختلف
- تجسم
- در داخل
- بدون
- کارگر
- با این نسخهها کار
- جهان
- در سرتاسر جهان
- خواهد بود
- نوشته
- سال