شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

با Amazon SageMaker Data Wrangler الگوها را در داده های متنی تشخیص دهید

در این پست به معرفی یک تحلیل جدید در گزارش کیفیت داده و بینش of Amazon SageMaker Data Rangler. این تجزیه و تحلیل به شما در تأیید صحت ویژگی های متنی و کشف ردیف های نامعتبر برای تعمیر یا حذف کمک می کند.

Data Wrangler زمان جمع‌آوری و آماده‌سازی داده‌ها برای یادگیری ماشین (ML) را از هفته‌ها به دقیقه کاهش می‌دهد. می‌توانید فرآیند آماده‌سازی داده‌ها و مهندسی ویژگی‌ها را ساده کنید و هر مرحله از گردش کار آماده‌سازی داده‌ها، از جمله انتخاب داده، پاک‌سازی، کاوش و تجسم را از یک رابط بصری کامل کنید.

بررسی اجمالی راه حل

پیش پردازش داده ها اغلب شامل پاکسازی داده های متنی مانند آدرس ایمیل، شماره تلفن و نام محصول می شود. این داده ها می توانند دارای محدودیت های یکپارچگی اساسی باشند که ممکن است با عبارات منظم توصیف شوند. برای مثال، برای اینکه یک شماره تلفن محلی معتبر در نظر گرفته شود، ممکن است لازم باشد از الگوی مشابه پیروی کند [1-9][0-9]{2}-[0-9]{4}، که با یک رقم غیر صفر مطابقت دارد، به دنبال آن دو رقم دیگر، به دنبال آن یک خط تیره و به دنبال آن چهار رقم دیگر قرار می گیرد.

سناریوهای متداول که منجر به داده‌های نامعتبر می‌شود ممکن است شامل ورود انسان ناسازگار باشد، برای مثال شماره تلفن در قالب‌های مختلف (5551234 در مقابل 555 1234 در مقابل 555-1234) یا داده‌های غیرمنتظره، مانند 0، 911، یا 411. برای مرکز تماس مشتری، مهم است که اعدادی مانند 0، 911، یا 411 را حذف کنید و ورودی هایی مانند 5551234 یا 555 1234 را تأیید کنید (و احتمالاً درست کنید).

متأسفانه، اگرچه محدودیت های متنی وجود دارد، ممکن است با داده ها ارائه نشوند. بنابراین، یک دانشمند داده که یک مجموعه داده را آماده می کند، باید با نگاه کردن به داده ها، محدودیت ها را به صورت دستی کشف کند. این می تواند خسته کننده، مستعد خطا و زمان بر باشد.

الگوی یادگیری به طور خودکار داده های شما را تجزیه و تحلیل می کند و محدودیت های متنی را که ممکن است در مجموعه داده شما اعمال شود را نشان می دهد. برای مثال با شماره تلفن، یادگیری الگو می تواند داده ها را تجزیه و تحلیل کند و تشخیص دهد که اکثریت قریب به اتفاق شماره تلفن ها از محدودیت متنی پیروی می کنند. [1-9][0-9]{2}-[0-9][4]. همچنین می تواند به شما هشدار دهد که نمونه هایی از داده های نامعتبر وجود دارد تا بتوانید آنها را حذف یا تصحیح کنید.

در بخش‌های بعدی، نحوه استفاده از الگوی یادگیری در Data Wrangler را با استفاده از مجموعه داده‌های خیالی دسته‌های محصول و کدهای SKU (واحد نگهداری سهام) نشان می‌دهیم.

این مجموعه داده شامل ویژگی هایی است که محصولات را بر اساس شرکت، برند و مصرف انرژی توصیف می کند. قابل ذکر است که شامل یک ویژگی SKU است که قالب بندی مناسبی ندارد. تمام داده‌های این مجموعه داده خیالی هستند و به‌طور تصادفی با استفاده از نام‌های تجاری تصادفی و نام‌های لوازم خانگی ایجاد شده‌اند.

پیش نیازها

قبل از شروع استفاده از Data Wrangler، دانلود مجموعه داده نمونه و آپلود آن در مکانی در سرویس ذخیره سازی ساده آمازون (Amazon S3). برای دستورالعمل، مراجعه کنید بارگذاری اشیاء.

مجموعه داده خود را وارد کنید

برای وارد کردن مجموعه داده خود، مراحل زیر را انجام دهید:

  1. در Data Wrangler، را انتخاب کنید وارد کردن و کاوش داده ها برای ML.
  2. را انتخاب کنید وارد كردن.
    شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.
  3. برای وارد کردن داده، انتخاب کنید آمازون S3.
    شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.
  4. فایل را در آمازون S3 بیابید و انتخاب کنید وارد كردن.
    شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

پس از وارد کردن، می توانیم به جریان داده ها برویم.

شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

دریافت اطلاعات بینش

در این مرحله، ما یک گزارش بینش داده ایجاد می کنیم که شامل اطلاعاتی در مورد کیفیت داده ها است. برای اطلاعات بیشتر مراجعه کنید در مورد داده ها و کیفیت داده ها بینش دریافت کنید. مراحل زیر را کامل کنید:

  1. بر گردش داده ها برگه، علامت مثبت کناری را انتخاب کنید انواع داده ها.
  2. را انتخاب کنید دریافت اطلاعات بینش.
    شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.
  3. برای نوع تحلیل، انتخاب کنید گزارش کیفیت داده و بینش.
  4. برای این پست، ترک کنید ستون هدف و نوع مشکل خالی. اگر قصد دارید از مجموعه داده خود برای یک کار رگرسیون یا طبقه‌بندی با ویژگی هدف استفاده کنید، می‌توانید آن گزینه‌ها را انتخاب کنید و گزارش شامل تجزیه و تحلیل نحوه ارتباط ویژگی‌های ورودی شما با هدف شما خواهد بود. به عنوان مثال، می تواند گزارش هایی در مورد نشت هدف تولید کند. برای اطلاعات بیشتر مراجعه کنید ستون هدف.
  5. را انتخاب کنید ساختن.
    شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

ما اکنون یک گزارش کیفیت داده و اطلاعات بینش داریم. اگر به سمت پایین اسکرول کنیم SKU در بخش، می‌توانیم نمونه‌ای از الگوی یادگیری را ببینیم که SKU را توصیف می‌کند. به نظر می‌رسد این ویژگی دارای برخی داده‌های نامعتبر است و به اصلاح قابل اجرا نیاز است.

شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

قبل از اینکه ویژگی SKU را پاک کنیم، اجازه دهید به بالا بروید نام تجاری بخش برای دیدن اطلاعات بیشتر در اینجا می بینیم که دو الگو کشف شده است، که نشان می دهد که اکثر نام های تجاری، کلمات واحدی هستند که از کاراکترهای کلمه یا حروف الفبا تشکیل شده اند. آ شخصیت کلمه یک زیرخط یا یک کاراکتر است که ممکن است در یک کلمه در هر زبانی ظاهر شود. به عنوان مثال، رشته ها Hello_world و écoute هر دو از کاراکترهای کلمه تشکیل شده اند: H و é.

برای این پست، ما این ویژگی را پاک نمی کنیم.

شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

مشاهده بینش یادگیری الگو

بیایید به تمیز کردن SKU ها برگردیم و روی الگو و پیام هشدار بزرگنمایی کنیم.

همانطور که در تصویر زیر نشان داده شده است، یادگیری الگو یک الگوی با دقت بالا را نشان می دهد که با 97.78٪ از داده ها مطابقت دارد. همچنین چند نمونه مطابق با الگو و همچنین نمونه هایی که با الگو مطابقت ندارند را نمایش می دهد. در موارد غیر منطبق، ما شاهد برخی SKUهای نامعتبر هستیم.

شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

علاوه بر الگوهای ظاهر شده، ممکن است هشداری ظاهر شود که نشان‌دهنده یک اقدام بالقوه برای پاک کردن داده‌ها در صورت وجود الگوی با دقت بالا و همچنین برخی داده‌هایی است که با الگو مطابقت ندارند.

شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

می توانیم داده های نامعتبر را حذف کنیم. اگر روی عبارت معمولی (راست کلیک) را انتخاب کنیم، می توانیم عبارت را کپی کنیم [A-Z]{3}-[0-9]{4,5}.

داده های نامعتبر را حذف کنید

بیایید یک تبدیل ایجاد کنیم تا داده‌های ناسازگاری را که با این الگو مطابقت ندارند حذف کنیم.

  1. بر گردش داده ها برگه، علامت مثبت کناری را انتخاب کنید انواع داده ها.
  2. را انتخاب کنید تبدیل را اضافه کنید.
    شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.
  3. را انتخاب کنید مرحله اضافه کنید.
  4. جستجو برای regex و انتخاب کنید جستجو و ویرایش کنید.
    شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.
  5. برای دگرگون کردن، انتخاب کنید غیر منطبق را به گمشده تبدیل کنید.
  6. برای ستون های ورودی، انتخاب کنید SKU.
  7. برای الگو، عبارت منظم ما را وارد کنید.
  8. را انتخاب کنید پیش نمایش، پس از آن را انتخاب کنید اضافه کردن.
    شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.
    اکنون داده های اضافی از ویژگی ها حذف شده است.
  9. برای حذف ردیف ها، مرحله را اضافه کنید دسته گم شده است و تبدیل را انتخاب کنید رها از دست رفته.
  10. را انتخاب کنید SKU به عنوان ستون ورودی
    شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

با حذف داده های اشتباه به جریان داده خود باز می گردیم.

شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

نتیجه

در این پست، ما به شما نشان دادیم که چگونه از ویژگی یادگیری الگو در بینش داده‌ها برای یافتن داده‌های متنی نامعتبر در مجموعه داده خود و همچنین نحوه تصحیح یا حذف آن داده‌ها استفاده کنید.

اکنون که یک ستون متنی را تمیز کرده اید، می توانید مجموعه داده خود را با استفاده از یک تجسم کنید تحلیل یا می توانید درخواست دهید تحولات داخلی برای پردازش بیشتر داده های شما وقتی از داده های خود راضی هستید، می توانید آموزش یک مدل با Amazon SageMaker Autopilot، یا داده های خود را صادر کنید به یک منبع داده مانند آمازون S3.

مایلیم از نیکیتا ایوکین برای بررسی متفکرانه اش تشکر کنیم.


درباره نویسندگان

شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.ویشال کاپور یک دانشمند ارشد کاربردی با هوش مصنوعی AWS است. او مشتاق کمک به مشتریان در درک داده هایشان در Data Wrangler است. او در اوقات فراغت خود دوچرخه سواری کوهستان، اسنوبرد می کند و با خانواده اش وقت می گذراند.

شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.زوهر کارنین دانشمند اصلی در آمازون AI است. علایق تحقیقاتی او در زمینه های مقیاس بزرگ و الگوریتم های یادگیری ماشین آنلاین است. او الگوریتم های یادگیری ماشینی بی نهایت مقیاس پذیر را برای Amazon SageMaker توسعه می دهد.

شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.آجای شارما مدیر محصول اصلی آمازون SageMaker است که در آن بر Data Wrangler، یک ابزار آماده سازی داده های بصری برای دانشمندان داده تمرکز می کند. قبل از AWS، Ajai کارشناس علوم داده در McKinsey and Company بود، جایی که او فعالیت‌های متمرکز بر ML را برای شرکت‌های مالی و بیمه پیشرو در سراسر جهان رهبری می‌کرد. Ajai علاقه زیادی به علم داده دارد و دوست دارد جدیدترین الگوریتم ها و تکنیک های یادگیری ماشین را کشف کند.

شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. جستجوی عمودی Ai. درک بارون یک مدیر توسعه نرم افزار برای Amazon SageMaker Data Wrangler است

تمبر زمان:

بیشتر از آموزش ماشین AWS