بر اساس یک نظرسنجی در سال 2020 از دانشمندان داده که توسط Anaconda انجام شد، آماده سازی داده یکی از مراحل حیاتی در یادگیری ماشین (ML) و گردش کار تجزیه و تحلیل داده است و اغلب برای دانشمندان داده بسیار وقت گیر است. دانشمندان داده حدود 66٪ از زمان خود را صرف آماده سازی و تجزیه و تحلیل داده ها می کنند، از جمله بارگذاری (19٪)، تمیز کردن (26٪) و تجسم داده ها (21٪).
Amazon SageMaker Studio اولین محیط توسعه کاملا یکپارچه (IDE) برای ML است. با یک کلیک، دانشمندان داده و توسعه دهندگان می توانند به سرعت چرخش خود را انجام دهند نوت بوک های استودیویی برای کاوش مجموعه داده ها و ساخت مدل ها. اگر یک رابط کاربری مبتنی بر رابط کاربری گرافیکی و تعاملی را ترجیح می دهید، می توانید از آن استفاده کنید Amazon SageMaker Data Rangler، با بیش از 300 تجسم، تجزیه و تحلیل و تبدیل برای پردازش کارآمد داده های پشتیبانی شده توسط Spark بدون نوشتن یک خط کد.
داده رانگلر اکنون قابلیت آماده سازی داده های داخلی را ارائه می دهد نوت بوک های Amazon SageMaker Studio که به پزشکان ML این امکان را میدهد تا ویژگیهای دادهها را به صورت بصری بررسی کنند، مشکلات را شناسایی کنند، و مشکلات کیفیت داده را با چند کلیک مستقیماً در نوتبوکها برطرف کنند.
در این پست به شما نشان می دهیم که چگونه داده رانگلر ویجت آماده سازی داده به طور خودکار تصاویر کلیدی را در بالای قاب داده Pandas ایجاد می کند تا توزیع داده ها را درک کند، مشکلات کیفیت داده را شناسایی کند، و بینش داده های سطحی مانند نقاط پرت برای هر ویژگی. این به تعامل با داده ها و کشف بینش هایی کمک می کند که ممکن است با پرس و جوی موقت مورد توجه قرار نگیرند. همچنین تبدیلها را برای اصلاح توصیه میکند، به شما امکان میدهد تبدیل دادهها را روی رابط کاربری اعمال کنید و بهطور خودکار کد را در سلولهای نوتبوک تولید کنید. این ویژگی در تمام مناطقی که SageMaker Studio در دسترس است در دسترس است.
بررسی اجمالی راه حل
بیایید بیشتر درک کنیم که چگونه این ویجت جدید کاوش داده را به طور قابل توجهی آسانتر میکند و تجربه یکپارچه را برای بهبود تجربه کلی آمادهسازی داده برای مهندسان و متخصصان داده فراهم میکند. برای مورد استفاده خود، از یک نسخه اصلاح شده استفاده می کنیم مجموعه داده تایتانیک، یک مجموعه داده محبوب در جامعه ML است که اکنون به عنوان یک اضافه شده است مجموعه داده نمونه بنابراین می توانید به سرعت با SageMaker Data Wrangler شروع کنید. مجموعه داده اصلی از OpenML، و برای افزودن مشکلات کیفیت داده مصنوعی توسط آمازون برای این نسخه آزمایشی اصلاح شده است. می توانید نسخه اصلاح شده مجموعه داده را از مسیر عمومی S3 دانلود کنید s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
.
پیش نیازها
برای به دست آوردن تجربه عملی با تمام ویژگی های شرح داده شده در این پست، پیش نیازهای زیر را تکمیل کنید:
- مطمئن شوید که یک حساب AWS دارید، دسترسی ایمن برای ورود به حساب از طریق کنسول مدیریت AWSو هویت AWS و مدیریت دسترسی (IAM) مجوزهای استفاده آمازون SageMaker و سرویس ذخیره سازی ساده آمازون منابع (Amazon S3).
- از مجموعه داده نمونه از مسیر عمومی S3 استفاده کنید
s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
یا بدیل آن را در سطل S3 آپلود کنید در حساب شما - وارد دامنه SageMaker شوید و برای استفاده از نوت بوک به استودیو دسترسی داشته باشید. برای دستورالعمل، مراجعه کنید ورود به دامنه Amazon SageMaker. اگر از استودیو موجود استفاده میکنید، به آن ارتقا دهید آخرین نسخه استودیو.
ویجت کاوش داده را فعال کنید
هنگامی که از فریم های داده Pandas استفاده می کنید، کاربران نوت بوک استودیو می توانند به صورت دستی ویجت کاوش داده را فعال کنند تا تصاویر جدید به طور پیش فرض در بالای هر ستون نمایش داده شوند. ویجت یک هیستوگرام برای داده های عددی و یک نمودار میله ای برای انواع دیگر داده ها نشان می دهد. این نمایشها به شما امکان میدهند تا به سرعت توزیع دادهها را درک کنید و مقادیر و مقادیر از دست رفته را بدون نیاز به نوشتن روشهای boilerplate برای هر ستون کشف کنید. برای درک سریع توزیع، میتوانید در هر تصویر روی نوار حرکت کنید.
استودیو را باز کنید و یک نوت بوک جدید پایتون 3 ایجاد کنید. حتما انتخاب کنید علم داده 3.0 تصویر از تصاویر SageMaker با کلیک کردن تغییر محیط را فشار دهید.
ویجت کاوش داده در تصاویر زیر موجود است. برای لیست تصاویر پیشفرض SageMaker، مراجعه کنید تصاویر موجود Amazon SageMaker.
- پایتون 3 (علم داده) با پایتون 3.7
- Python 3 (Data Science 2.0) با Python 3.8
- Python 3 (Data Science 3.0) با Python 3.10
- Spark Analytics 1.0 و 2.0
برای استفاده از این ویجت، وارد کنید SageMaker_DataWrangler
کتابخانه نسخه اصلاح شده مجموعه داده تایتانیک را از اینجا بارگیری کنید S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
و CSV را با کتابخانه پانداها بخوانید:
داده ها را تجسم کنید
پس از بارگیری داده ها در قاب داده پاندا، می توانید داده ها را فقط با استفاده از آن مشاهده کنید df
or display(df)
. ویجت آماده سازی داده، همراه با فهرست کردن ردیف، بینش، تجسم و توصیه هایی در مورد کیفیت داده ایجاد می کند. برای ایجاد بینش ویژگی و هدف، اطلاعات توزیع یا بررسی کیفیت داده ها نیازی به نوشتن کد اضافی ندارید. برای مشاهده خلاصه آماری که هشدارهای کیفیت داده را در صورت وجود نشان می دهد، می توانید هدر جدول قاب داده را انتخاب کنید.
هر ستون یک نمودار میله ای یا هیستوگرام را بر اساس نوع داده نشان می دهد. به طور پیش فرض، ویجت تا 10,000 مشاهده را برای ایجاد بینش معنادار نمونه برداری می کند. همچنین گزینه ای برای اجرای تجزیه و تحلیل بینش در کل مجموعه داده را فراهم می کند.
همانطور که در تصویر زیر نشان داده شده است، این ویجت مشخص می کند که آیا یک ستون داده های طبقه ای یا کمی دارد.
برای داده های طبقه بندی شده، ویجت نمودار میله ای را با تمام دسته ها تولید می کند. در تصویر زیر، به عنوان مثال، ستون Sex
دسته ها را روی داده ها شناسایی می کند. می توانید ماوس را روی نوار نگه دارید (نر در این مورد) برای دیدن جزئیات این دسته ها، مانند تعداد کل ردیف های دارای مقدار male
و توزیع آن در کل مجموعه داده بصری شده (64.07٪ در این مثال). همچنین درصد کل مقادیر از دست رفته را با رنگی متفاوت برای داده های دسته بندی برجسته می کند. برای داده های کمی مانند ticket
ستون، توزیع را به همراه درصد مقادیر نامعتبر نشان می دهد.
اگر می خواهید یک تجسم استاندارد پانداها را در نوت بوک ببینید، می توانید انتخاب کنید جدول پانداها را مشاهده کنید و همانطور که در تصویر زیر نشان داده شده است، بین ویجت و نمایش پانداها جابجا شوید.
برای دریافت اطلاعات دقیق تر در مورد داده های ستون، سرصفحه ستون را انتخاب کنید تا یک پانل جانبی اختصاص داده شده به ستون باز شود. در اینجا می توانید دو تب را مشاهده کنید: مطالب مفید و کیفیت داده.
در بخش های بعدی، این دو گزینه را با جزئیات بیشتری بررسی می کنیم.
مطالب مفید
La مطالب مفید تب جزئیات با توضیحات هر ستون را ارائه می دهد. این بخش آمارهای انباشته شده را فهرست میکند، مانند حالت، تعداد موارد منحصربهفرد، نسبتها و تعداد مقادیر گمشده/نامعتبر و غیره، و همچنین توزیع دادهها را با کمک یک هیستوگرام یا نمودار میلهای تجسم میکند. در اسکرین شاتهای زیر، میتوانید اطلاعات بینش داده و اطلاعات توزیع نمایش داده شده با تجسمهای قابل فهم تولید شده برای ستون انتخابی را بررسی کنید. survived
.
کیفیت داده
ویجت آماده سازی داده استودیو مشکلات شناسایی شده کیفیت داده را با علامت هشدار در هدر برجسته می کند. ویجت میتواند طیف کاملی از مسائل مربوط به کیفیت دادهها را از اصول اولیه (مقادیر گمشده، ستون ثابت و غیره) تا خاصتر ML (نشت هدف، ویژگیهای امتیاز پیشبینی پایین و غیره) شناسایی کند. ویجت سلولهایی را که باعث مشکل کیفیت دادهها میشوند برجسته میکند و ردیفها را دوباره سازماندهی میکند تا سلولهای مشکلساز را در بالا قرار دهد. برای رفع مشکل کیفیت داده، ویجت چندین ترانسفورماتور را ارائه می دهد که با یک کلیک یک دکمه قابل اعمال است.
برای کاوش در بخش کیفیت داده، عنوان ستون و در پانل کناری، را انتخاب کنید کیفیت داده برگه شما باید موارد زیر را در محیط استودیو خود مشاهده کنید.
بیایید به گزینه های مختلف موجود در آن نگاه کنیم کیفیت داده برگه برای این مثال، ستون سن را انتخاب می کنیم که بر اساس داده ها به عنوان یک ستون کمی تشخیص داده می شود. همانطور که در اسکرین شات زیر می بینیم، این ویجت انواع مختلفی از تبدیل ها را پیشنهاد می کند که می توانید اعمال کنید، از جمله رایج ترین اقدامات، مانند با مقدار جدید جایگزین کنید, رها از دست رفته, با میانه جایگزین کنید، یا با میانگین جایگزین کنید. میتوانید هر یک از آنها را برای مجموعه دادهتان بر اساس مورد استفاده (مشکل ML که میخواهید حل کنید) انتخاب کنید. همچنین به شما می دهد رها کردن ستون اگر می خواهید این ویژگی را به طور کلی حذف کنید گزینه ای است.
وقتی انتخاب کردید کد را اعمال و صادر کنید، تبدیل به کپی عمیق قاب داده اعمال می شود. پس از اعمال موفقیت آمیز تبدیل، جدول داده ها با بینش ها و تجسم ها تجدید می شود. کد تبدیل بعد از سلول موجود در نوت بوک ایجاد می شود. میتوانید این کد صادر شده را بعداً اجرا کنید تا تغییر را در مجموعه دادههای خود اعمال کنید و آن را بر اساس نیاز خود گسترش دهید. شما می توانید تبدیل را با تغییر مستقیم کد تولید شده سفارشی کنید. اگر ما را اعمال کنیم رها از دست رفته گزینه در ستون Age، کد تبدیل زیر به مجموعه داده اعمال می شود و کد نیز در سلول زیر ویجت ایجاد می شود:
نمونه زیر نمونه دیگری از قطعه کد برای است با میانه جایگزین کنید:
اکنون اجازه دهید به قابلیت بینش هدف ویجت آماده سازی داده نگاه کنیم. فرض کنید می خواهید از survived
ویژگی برای پیش بینی زنده ماندن یک مسافر. انتخاب survived
سربرگ ستون در پانل کناری، را انتخاب کنید به عنوان ستون هدف انتخاب کنید. توزیع داده ایده آل برای survived
ویژگی باید فقط دو کلاس داشته باشد: بله (1
) یا نه (0
)، که به طبقه بندی شانس بقای سقوط تایتانیک کمک می کند. با این حال، به دلیل ناهماهنگی داده ها در ستون هدف انتخاب شده، ویژگی باقی مانده است 0
, 1
, ?
, unknown
و yes
.
نوع مشکل را بر اساس ستون هدف انتخاب شده انتخاب کنید، که می تواند یکی باشد طبقه بندی or رگرسیون. برای ستون باقی مانده، نوع مشکل طبقه بندی است. انتخاب کنید دویدن برای ایجاد بینش برای ستون هدف.
ویجت آماده سازی داده، بینش های ستون هدف را با توصیه ها و توضیحات نمونه فهرست می کند تا مشکلات مربوط به کیفیت داده های ستون هدف را حل کند. همچنین به طور خودکار داده های غیرعادی در ستون را برجسته می کند.
ما تبدیل توصیه شده را انتخاب می کنیم مقادیر هدف کمیاب را رها کنید، زیرا مشاهدات کمتری برای مقادیر هدف کمیاب وجود دارد.
تبدیل انتخاب شده به قاب داده پاندا اعمال می شود و مقادیر هدف غیر معمول از ستون باقی مانده حذف شدند. کد زیر را ببینید:
نتایج تبدیل اعمال شده بلافاصله در قاب داده قابل مشاهده است. برای ردیابی فعالیت های آماده سازی داده اعمال شده با استفاده از ویجت آماده سازی داده، کد تبدیل شده نیز در سلول نوت بوک زیر تولید می شود.
نتیجه
در این پست، راهنمایی هایی در مورد اینکه چگونه ویجت آماده سازی داده استودیو می تواند به شما در تجزیه و تحلیل توزیع داده ها، بررسی بینش های کیفیت داده تولید شده توسط این ابزار و کشف مسائل بالقوه مانند نقاط پرت برای هر ویژگی حیاتی کمک کند، ارائه کردیم. این به بهبود کیفیت کلی دادهها کمک میکند تا به شما در آموزش مدلهای باکیفیت کمک کند، و با این امکان که به شما امکان میدهد دادهها را روی رابط کاربری تغییر دهید و برای سلولهای نوتبوک بهطور خودکار کد تولید کنید، وزنههای متمایز نشده را حذف میکند. سپس می توانید از این کد در خطوط لوله MLOps خود برای ایجاد تکرارپذیری، جلوگیری از اتلاف وقت برای کارهای تکراری و کاهش مشکلات سازگاری با تسریع ساخت و استقرار خطوط لوله کشمکش داده استفاده کنید.
اگر با SageMaker Data Wrangler یا Studio تازه کار هستید، به آن مراجعه کنید با SageMaker Data Wrangler شروع کنید. اگر سوالی در رابطه با این پست دارید در قسمت نظرات مطرح کنید.
درباره نویسنده
پارت پاتل یک معمار راه حل در AWS در منطقه خلیج سانفرانسیسکو است. Parth مشتریان را راهنمایی می کند تا سفر خود را به سمت ابر تسریع کنند و به آنها کمک کند تا با موفقیت در AWS Cloud بپذیرند و رشد کنند. او بر یادگیری ماشین، پایداری محیطی و نوسازی اپلیکیشن تمرکز دارد.
عشا دعا یک معمار ارشد راه حل مستقر در منطقه خلیج سانفرانسیسکو است. او به مشتریان AWS Enterprise کمک می کند تا با درک اهداف و چالش های آنها رشد کنند و آنها را راهنمایی کند که چگونه می توانند برنامه های خود را به شیوه ای ابری معماری کنند و در عین حال مطمئن شوند که انعطاف پذیر و مقیاس پذیر هستند. او مشتاق فن آوری های یادگیری ماشین و پایداری محیطی است.
هریهاران سورش یک معمار ارشد راه حل در AWS است. او علاقه زیادی به پایگاه داده ها، یادگیری ماشینی و طراحی راه حل های نوآورانه دارد. قبل از پیوستن به AWS، Hariharan یک معمار محصول، متخصص پیاده سازی بانکداری اصلی و توسعه دهنده بود و بیش از 11 سال با سازمان های BFSI کار کرد. او خارج از تکنولوژی، از پاراگلایدر و دوچرخه سواری لذت می برد.
دنی میچل یک معمار راه حل های تخصصی AI/ML در خدمات وب آمازون است. او روی موارد استفاده از Computer Vision و کمک به مشتریان در سراسر EMEA برای تسریع سفر ML خود متمرکز است.
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آمازون SageMaker
- Amazon SageMaker Data Rangler
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- متوسط (200)
- فراگیری ماشین
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- نحو
- زفیرنت