Amazon SageMaker Data Rangler زمان جمعآوری و آمادهسازی دادهها برای یادگیری ماشین (ML) را از هفتهها به دقیقه کاهش میدهد. با Data Wrangler، میتوانید دادهها را تنها با چند کلیک انتخاب و پرسوجو کنید، به سرعت دادهها را با بیش از 300 تبدیل دادههای داخلی تغییر دهید، و دادههای خود را با تجسمهای داخلی بدون نوشتن هیچ کدی درک کنید.
علاوه بر این، می توانید ایجاد کنید تبدیل های سفارشی منحصر به فرد برای نیازهای شما تبدیل های سفارشی به شما این امکان را می دهد که تبدیل های سفارشی را با استفاده از PySpark، Pandas یا SQL بنویسید.
Data Wrangler اکنون از یک سفارشی پشتیبانی می کند عملکرد تعریف شده توسط کاربر پانداها تبدیل (UDF) که می تواند مجموعه داده های بزرگ را به طور موثر پردازش کند. شما می توانید از بین دو حالت UDF سفارشی Pandas یکی را انتخاب کنید: Pandas و Python. هر دو حالت یک راه حل کارآمد برای پردازش مجموعه داده ها ارائه می دهند و حالتی که انتخاب می کنید به ترجیح شما بستگی دارد.
در این پست، نحوه استفاده از تبدیل UDF جدید پانداها را در هر دو حالت نشان می دهیم.
بررسی اجمالی راه حل
در زمان نوشتن این مقاله، میتوانید مجموعههای داده را از طریق Data Wrangler وارد کنید سرویس ذخیره سازی ساده آمازون (Amazon S3) آمازون آتنا, آمازون Redshift، Databricks و Snowflake. برای این پست، ما از Amazon S3 برای ذخیره 2014 استفاده می کنیم آمازون مجموعه داده ها را بررسی می کند.
داده ها دارای ستونی به نام هستند reviewText
حاوی متن تولید شده توسط کاربر متن نیز حاوی چندین است کلمات را متوقف کنید، که کلمات رایجی هستند که اطلاعات زیادی ارائه نمی دهند، مانند "a"، "an" و "the." حذف کلمات توقف یک مرحله پیش پردازش رایج در خطوط لوله پردازش زبان طبیعی (NLP) است. ما می توانیم یک تابع سفارشی برای حذف کلمات توقف از بررسی ها ایجاد کنیم.
یک تبدیل سفارشی Pandas UDF ایجاد کنید
بیایید روند ایجاد دو تبدیل UDF Pandas سفارشی Data Wrangler را با استفاده از حالتهای Pandas و Python مرور کنیم.
- دانلود مجموعه داده نقدهای موسیقی دیجیتال و آن را در آمازون S3 آپلود کنید.
- باز کن Amazon SageMaker Studio و یک جریان Data Wrangler جدید ایجاد کنید.
- تحت وارد کردن داده، انتخاب کنید آمازون S3 و به مکان مجموعه داده بروید.
- برای نوع فایل، انتخاب کنید jsonl.
پیش نمایش داده ها باید در جدول نمایش داده شود.
- را انتخاب کنید وارد كردن برای ادامه.
- پس از وارد شدن داده های شما، علامت مثبت را در کنار آن انتخاب کنید انواع داده ها و انتخاب کنید تبدیل را اضافه کنید.
- را انتخاب کنید تبدیل سفارشی.
- در منوی کشویی، پایتون (عملکرد تعریف شده توسط کاربر).
اکنون تبدیل سفارشی خود را برای حذف کلمات توقف ایجاد می کنیم.
- ستون ورودی، ستون خروجی، نوع بازگشت و حالت خود را مشخص کنید.
مثال زیر از حالت پاندا استفاده می کند. این بدان معناست که تابع باید یک سری پاندا با طول یکسان را بپذیرد و برگرداند. شما می توانید سری پانداها را به عنوان ستونی در جدول یا قسمتی از ستون در نظر بگیرید. این حالت عملکردی ترین حالت UDF پانداها است زیرا پانداها می توانند عملیات را بر روی دسته ای از مقادیر بردار کنند و نه یک در یک زمان. را pd.Series
نکات نوع در حالت پاندا لازم است.
اگر ترجیح می دهید از Python خالص بر خلاف API Pandas استفاده کنید، حالت Python به شما امکان می دهد یک تابع پایتون خالص را مشخص کنید که یک آرگومان واحد را می پذیرد و یک مقدار واحد را برمی گرداند. مثال زیر از نظر خروجی معادل کد پانداهای قبلی است. نکات تایپ در حالت پایتون مورد نیاز نیست.
- را انتخاب کنید اضافه کردن تبدیل سفارشی خود را اضافه کنید.
نتیجه
Data Wrangler دارای بیش از 300 تبدیل داخلی است و شما همچنین می توانید تبدیل های سفارشی منحصر به فرد را برای نیازهای خود اضافه کنید. در این پست، نحوه پردازش مجموعه دادهها را با تبدیل UDF سفارشی Pandas Data Wrangler با استفاده از هر دو حالت Pandas و Python نشان دادیم. شما می توانید بر اساس ترجیح خود از هر یک از حالت ها استفاده کنید. برای کسب اطلاعات بیشتر در مورد Data Wrangler، مراجعه کنید ایجاد و استفاده از Data Wrangler Flow.
درباره نویسنده
بن هریس یک مهندس نرم افزار با تجربه در طراحی، استقرار و نگهداری خطوط لوله داده مقیاس پذیر و راه حل های یادگیری ماشین در دامنه های مختلف است. بن سیستمهایی برای جمعآوری و برچسبگذاری دادهها، طبقهبندی تصویر و متن، مدلسازی ترتیب به دنباله، جاسازی و خوشهبندی و غیره ساخته است.
حیدر نقوی یک معمار راه حل در AWS است. او تجربه گسترده ای در زمینه توسعه نرم افزار و معماری سازمانی دارد. او بر روی توانمندسازی مشتریان برای دستیابی به نتایج تجاری با AWS تمرکز دارد. او در خارج از نیویورک مستقر است.
ویشال سریواستاوا یک مدیر حساب فنی در AWS است. او با سابقه توسعه نرم افزار و تجزیه و تحلیل، در درجه اول با بخش خدمات مالی و مشتریان کسب و کار بومی دیجیتال کار می کند و از سفر ابری آنها پشتیبانی می کند. او در اوقات فراغت خود عاشق سفر با خانواده است.
- "
- 10
- 100
- 9
- درباره ما
- حساب
- در میان
- آمازون
- در میان
- علم تجزیه و تحلیل
- API
- معماری
- در دسترس
- AWS
- زمینه
- ساخته شده در
- کسب و کار
- را انتخاب کنید
- طبقه بندی
- ابر
- رمز
- مجموعه
- ستون
- مشترک
- شامل
- ایجاد
- ایجاد
- سفارشی
- مشتریان
- داده ها
- نشان دادن
- نشان
- بستگی دارد
- استقرار
- طراحی
- پروژه
- دیجیتال
- حوزه
- موثر
- موثر
- را قادر می سازد
- مهندس
- سرمایه گذاری
- مثال
- تجربه
- وسیع
- خانواده
- مالی
- خدمات مالی
- جریان
- تمرکز
- پیروی
- رایگان
- تابع
- چگونه
- چگونه
- HTTPS
- تصویر
- اطلاعات
- ورودی
- IT
- می پیوندد
- برچسب
- زبان
- بزرگ
- یاد گرفتن
- یادگیری
- محل
- دستگاه
- فراگیری ماشین
- مدیر
- مسابقه
- ML
- بیش
- اکثر
- موسیقی
- طبیعی
- نیویورک
- عملیات
- آماده
- پیش نمایش
- روند
- در حال پردازش
- ارائه
- سریع
- به سرعت
- ضروری
- مورد نیاز
- برگشت
- بازده
- بررسی
- مقیاس پذیر
- بخش
- سلسله
- خدمات
- ساده
- نرم افزار
- توسعه نرم افزار
- مهندس نرمافزار
- راه حل
- مزایا
- فضاها
- ذخیره سازی
- opbevare
- پشتیبانی از
- سیستم های
- فنی
- از طریق
- زمان
- رمز
- نشانه
- دگرگون کردن
- سفر
- فهمیدن
- منحصر به فرد
- استفاده کنید
- ارزش
- تنوع
- بدون
- کلمات
- با این نسخهها کار
- نوشته