در این پست به معرفی یک تحلیل جدید در گزارش کیفیت داده و بینش of Amazon SageMaker Data Rangler. این تجزیه و تحلیل به شما در تأیید صحت ویژگی های متنی و کشف ردیف های نامعتبر برای تعمیر یا حذف کمک می کند.
Data Wrangler زمان جمعآوری و آمادهسازی دادهها برای یادگیری ماشین (ML) را از هفتهها به دقیقه کاهش میدهد. میتوانید فرآیند آمادهسازی دادهها و مهندسی ویژگیها را ساده کنید و هر مرحله از گردش کار آمادهسازی دادهها، از جمله انتخاب داده، پاکسازی، کاوش و تجسم را از یک رابط بصری کامل کنید.
بررسی اجمالی راه حل
پیش پردازش داده ها اغلب شامل پاکسازی داده های متنی مانند آدرس ایمیل، شماره تلفن و نام محصول می شود. این داده ها می توانند دارای محدودیت های یکپارچگی اساسی باشند که ممکن است با عبارات منظم توصیف شوند. برای مثال، برای اینکه یک شماره تلفن محلی معتبر در نظر گرفته شود، ممکن است لازم باشد از الگوی مشابه پیروی کند [1-9][0-9]{2}-[0-9]{4}
، که با یک رقم غیر صفر مطابقت دارد، به دنبال آن دو رقم دیگر، به دنبال آن یک خط تیره و به دنبال آن چهار رقم دیگر قرار می گیرد.
سناریوهای متداول که منجر به دادههای نامعتبر میشود ممکن است شامل ورود انسان ناسازگار باشد، برای مثال شماره تلفن در قالبهای مختلف (5551234 در مقابل 555 1234 در مقابل 555-1234) یا دادههای غیرمنتظره، مانند 0، 911، یا 411. برای مرکز تماس مشتری، مهم است که اعدادی مانند 0، 911، یا 411 را حذف کنید و ورودی هایی مانند 5551234 یا 555 1234 را تأیید کنید (و احتمالاً درست کنید).
متأسفانه، اگرچه محدودیت های متنی وجود دارد، ممکن است با داده ها ارائه نشوند. بنابراین، یک دانشمند داده که یک مجموعه داده را آماده می کند، باید با نگاه کردن به داده ها، محدودیت ها را به صورت دستی کشف کند. این می تواند خسته کننده، مستعد خطا و زمان بر باشد.
الگوی یادگیری به طور خودکار داده های شما را تجزیه و تحلیل می کند و محدودیت های متنی را که ممکن است در مجموعه داده شما اعمال شود را نشان می دهد. برای مثال با شماره تلفن، یادگیری الگو می تواند داده ها را تجزیه و تحلیل کند و تشخیص دهد که اکثریت قریب به اتفاق شماره تلفن ها از محدودیت متنی پیروی می کنند. [1-9][0-9]{2}-[0-9][4]
. همچنین می تواند به شما هشدار دهد که نمونه هایی از داده های نامعتبر وجود دارد تا بتوانید آنها را حذف یا تصحیح کنید.
در بخشهای بعدی، نحوه استفاده از الگوی یادگیری در Data Wrangler را با استفاده از مجموعه دادههای خیالی دستههای محصول و کدهای SKU (واحد نگهداری سهام) نشان میدهیم.
این مجموعه داده شامل ویژگی هایی است که محصولات را بر اساس شرکت، برند و مصرف انرژی توصیف می کند. قابل ذکر است که شامل یک ویژگی SKU است که قالب بندی مناسبی ندارد. تمام دادههای این مجموعه داده خیالی هستند و بهطور تصادفی با استفاده از نامهای تجاری تصادفی و نامهای لوازم خانگی ایجاد شدهاند.
پیش نیازها
قبل از شروع استفاده از Data Wrangler، دانلود مجموعه داده نمونه و آپلود آن در مکانی در سرویس ذخیره سازی ساده آمازون (Amazon S3). برای دستورالعمل، مراجعه کنید بارگذاری اشیاء.
مجموعه داده خود را وارد کنید
برای وارد کردن مجموعه داده خود، مراحل زیر را انجام دهید:
- در Data Wrangler، را انتخاب کنید وارد کردن و کاوش داده ها برای ML.
- را انتخاب کنید وارد كردن.
- برای وارد کردن داده، انتخاب کنید آمازون S3.
- فایل را در آمازون S3 بیابید و انتخاب کنید وارد كردن.
پس از وارد کردن، می توانیم به جریان داده ها برویم.
دریافت اطلاعات بینش
در این مرحله، ما یک گزارش بینش داده ایجاد می کنیم که شامل اطلاعاتی در مورد کیفیت داده ها است. برای اطلاعات بیشتر مراجعه کنید در مورد داده ها و کیفیت داده ها بینش دریافت کنید. مراحل زیر را کامل کنید:
- بر گردش داده ها برگه، علامت مثبت کناری را انتخاب کنید انواع داده ها.
- را انتخاب کنید دریافت اطلاعات بینش.
- برای نوع تحلیل، انتخاب کنید گزارش کیفیت داده و بینش.
- برای این پست، ترک کنید ستون هدف و نوع مشکل خالی. اگر قصد دارید از مجموعه داده خود برای یک کار رگرسیون یا طبقهبندی با ویژگی هدف استفاده کنید، میتوانید آن گزینهها را انتخاب کنید و گزارش شامل تجزیه و تحلیل نحوه ارتباط ویژگیهای ورودی شما با هدف شما خواهد بود. به عنوان مثال، می تواند گزارش هایی در مورد نشت هدف تولید کند. برای اطلاعات بیشتر مراجعه کنید ستون هدف.
- را انتخاب کنید ساختن.
ما اکنون یک گزارش کیفیت داده و اطلاعات بینش داریم. اگر به سمت پایین اسکرول کنیم SKU در بخش، میتوانیم نمونهای از الگوی یادگیری را ببینیم که SKU را توصیف میکند. به نظر میرسد این ویژگی دارای برخی دادههای نامعتبر است و به اصلاح قابل اجرا نیاز است.
قبل از اینکه ویژگی SKU را پاک کنیم، اجازه دهید به بالا بروید نام تجاری بخش برای دیدن اطلاعات بیشتر در اینجا می بینیم که دو الگو کشف شده است، که نشان می دهد که اکثر نام های تجاری، کلمات واحدی هستند که از کاراکترهای کلمه یا حروف الفبا تشکیل شده اند. آ شخصیت کلمه یک زیرخط یا یک کاراکتر است که ممکن است در یک کلمه در هر زبانی ظاهر شود. به عنوان مثال، رشته ها Hello_world
و écoute
هر دو از کاراکترهای کلمه تشکیل شده اند: H
و é
.
برای این پست، ما این ویژگی را پاک نمی کنیم.
مشاهده بینش یادگیری الگو
بیایید به تمیز کردن SKU ها برگردیم و روی الگو و پیام هشدار بزرگنمایی کنیم.
همانطور که در تصویر زیر نشان داده شده است، یادگیری الگو یک الگوی با دقت بالا را نشان می دهد که با 97.78٪ از داده ها مطابقت دارد. همچنین چند نمونه مطابق با الگو و همچنین نمونه هایی که با الگو مطابقت ندارند را نمایش می دهد. در موارد غیر منطبق، ما شاهد برخی SKUهای نامعتبر هستیم.
علاوه بر الگوهای ظاهر شده، ممکن است هشداری ظاهر شود که نشاندهنده یک اقدام بالقوه برای پاک کردن دادهها در صورت وجود الگوی با دقت بالا و همچنین برخی دادههایی است که با الگو مطابقت ندارند.
می توانیم داده های نامعتبر را حذف کنیم. اگر روی عبارت معمولی (راست کلیک) را انتخاب کنیم، می توانیم عبارت را کپی کنیم [A-Z]{3}-[0-9]{4,5}
.
داده های نامعتبر را حذف کنید
بیایید یک تبدیل ایجاد کنیم تا دادههای ناسازگاری را که با این الگو مطابقت ندارند حذف کنیم.
- بر گردش داده ها برگه، علامت مثبت کناری را انتخاب کنید انواع داده ها.
- را انتخاب کنید تبدیل را اضافه کنید.
- را انتخاب کنید مرحله اضافه کنید.
- جستجو برای
regex
و انتخاب کنید جستجو و ویرایش کنید. - برای دگرگون کردن، انتخاب کنید غیر منطبق را به گمشده تبدیل کنید.
- برای ستون های ورودی، انتخاب کنید
SKU
. - برای الگو، عبارت منظم ما را وارد کنید.
- را انتخاب کنید پیش نمایش، پس از آن را انتخاب کنید اضافه کردن.
اکنون داده های اضافی از ویژگی ها حذف شده است. - برای حذف ردیف ها، مرحله را اضافه کنید دسته گم شده است و تبدیل را انتخاب کنید رها از دست رفته.
- را انتخاب کنید
SKU
به عنوان ستون ورودی
با حذف داده های اشتباه به جریان داده خود باز می گردیم.
نتیجه
در این پست، ما به شما نشان دادیم که چگونه از ویژگی یادگیری الگو در بینش دادهها برای یافتن دادههای متنی نامعتبر در مجموعه داده خود و همچنین نحوه تصحیح یا حذف آن دادهها استفاده کنید.
اکنون که یک ستون متنی را تمیز کرده اید، می توانید مجموعه داده خود را با استفاده از یک تجسم کنید تحلیل یا می توانید درخواست دهید تحولات داخلی برای پردازش بیشتر داده های شما وقتی از داده های خود راضی هستید، می توانید آموزش یک مدل با Amazon SageMaker Autopilot، یا داده های خود را صادر کنید به یک منبع داده مانند آمازون S3.
مایلیم از نیکیتا ایوکین برای بررسی متفکرانه اش تشکر کنیم.
درباره نویسندگان
ویشال کاپور یک دانشمند ارشد کاربردی با هوش مصنوعی AWS است. او مشتاق کمک به مشتریان در درک داده هایشان در Data Wrangler است. او در اوقات فراغت خود دوچرخه سواری کوهستان، اسنوبرد می کند و با خانواده اش وقت می گذراند.
زوهر کارنین دانشمند اصلی در آمازون AI است. علایق تحقیقاتی او در زمینه های مقیاس بزرگ و الگوریتم های یادگیری ماشین آنلاین است. او الگوریتم های یادگیری ماشینی بی نهایت مقیاس پذیر را برای Amazon SageMaker توسعه می دهد.
آجای شارما مدیر محصول اصلی آمازون SageMaker است که در آن بر Data Wrangler، یک ابزار آماده سازی داده های بصری برای دانشمندان داده تمرکز می کند. قبل از AWS، Ajai کارشناس علوم داده در McKinsey and Company بود، جایی که او فعالیتهای متمرکز بر ML را برای شرکتهای مالی و بیمه پیشرو در سراسر جهان رهبری میکرد. Ajai علاقه زیادی به علم داده دارد و دوست دارد جدیدترین الگوریتم ها و تکنیک های یادگیری ماشین را کشف کند.
درک بارون یک مدیر توسعه نرم افزار برای Amazon SageMaker Data Wrangler است
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آمازون SageMaker
- Amazon SageMaker Data Rangler
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- متوسط (200)
- فراگیری ماشین
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- نحو
- زفیرنت