شناسایی الگوها در داده های متنی با Amazon SageMaker Data Wrangler

بازنشر افلاطون

دنبال: 0

در این پست به معرفی یک تحلیل جدید در گزارش کیفیت داده و بینش of Amazon SageMaker Data Rangler. این تجزیه و تحلیل به شما در تأیید صحت ویژگی های متنی و کشف ردیف های نامعتبر برای تعمیر یا حذف کمک می کند.

Data Wrangler زمان جمع‌آوری و آماده‌سازی داده‌ها برای یادگیری ماشین (ML) را از هفته‌ها به دقیقه کاهش می‌دهد. می‌توانید فرآیند آماده‌سازی داده‌ها و مهندسی ویژگی‌ها را ساده کنید و هر مرحله از گردش کار آماده‌سازی داده‌ها، از جمله انتخاب داده، پاک‌سازی، کاوش و تجسم را از یک رابط بصری کامل کنید.

بررسی اجمالی راه حل

پیش پردازش داده ها اغلب شامل پاکسازی داده های متنی مانند آدرس ایمیل، شماره تلفن و نام محصول می شود. این داده ها می توانند دارای محدودیت های یکپارچگی اساسی باشند که ممکن است با عبارات منظم توصیف شوند. برای مثال، برای اینکه یک شماره تلفن محلی معتبر در نظر گرفته شود، ممکن است لازم باشد از الگوی مشابه پیروی کند [1-9][0-9]{2}-[0-9]{4}، که با یک رقم غیر صفر مطابقت دارد، به دنبال آن دو رقم دیگر، به دنبال آن یک خط تیره و به دنبال آن چهار رقم دیگر قرار می گیرد.

سناریوهای متداول که منجر به داده‌های نامعتبر می‌شود ممکن است شامل ورود انسان ناسازگار باشد، برای مثال شماره تلفن در قالب‌های مختلف (5551234 در مقابل 555 1234 در مقابل 555-1234) یا داده‌های غیرمنتظره، مانند 0، 911، یا 411. برای مرکز تماس مشتری، مهم است که اعدادی مانند 0، 911، یا 411 را حذف کنید و ورودی هایی مانند 5551234 یا 555 1234 را تأیید کنید (و احتمالاً درست کنید).

متأسفانه، اگرچه محدودیت های متنی وجود دارد، ممکن است با داده ها ارائه نشوند. بنابراین، یک دانشمند داده که یک مجموعه داده را آماده می کند، باید با نگاه کردن به داده ها، محدودیت ها را به صورت دستی کشف کند. این می تواند خسته کننده، مستعد خطا و زمان بر باشد.

الگوی یادگیری به طور خودکار داده های شما را تجزیه و تحلیل می کند و محدودیت های متنی را که ممکن است در مجموعه داده شما اعمال شود را نشان می دهد. برای مثال با شماره تلفن، یادگیری الگو می تواند داده ها را تجزیه و تحلیل کند و تشخیص دهد که اکثریت قریب به اتفاق شماره تلفن ها از محدودیت متنی پیروی می کنند. [1-9][0-9]{2}-[0-9][4]. همچنین می تواند به شما هشدار دهد که نمونه هایی از داده های نامعتبر وجود دارد تا بتوانید آنها را حذف یا تصحیح کنید.

در بخش‌های بعدی، نحوه استفاده از الگوی یادگیری در Data Wrangler را با استفاده از مجموعه داده‌های خیالی دسته‌های محصول و کدهای SKU (واحد نگهداری سهام) نشان می‌دهیم.

این مجموعه داده شامل ویژگی هایی است که محصولات را بر اساس شرکت، برند و مصرف انرژی توصیف می کند. قابل ذکر است که شامل یک ویژگی SKU است که قالب بندی مناسبی ندارد. تمام داده‌های این مجموعه داده خیالی هستند و به‌طور تصادفی با استفاده از نام‌های تجاری تصادفی و نام‌های لوازم خانگی ایجاد شده‌اند.

پیش نیازها

قبل از شروع استفاده از Data Wrangler، دانلود مجموعه داده نمونه و آپلود آن در مکانی در سرویس ذخیره سازی ساده آمازون (Amazon S3). برای دستورالعمل، مراجعه کنید بارگذاری اشیاء.

مجموعه داده خود را وارد کنید

برای وارد کردن مجموعه داده خود، مراحل زیر را انجام دهید:

در Data Wrangler، را انتخاب کنید وارد کردن و کاوش داده ها برای ML.
را انتخاب کنید وارد كردن.
برای وارد کردن داده، انتخاب کنید آمازون S3.
فایل را در آمازون S3 بیابید و انتخاب کنید وارد كردن.

پس از وارد کردن، می توانیم به جریان داده ها برویم.

دریافت اطلاعات بینش

در این مرحله، ما یک گزارش بینش داده ایجاد می کنیم که شامل اطلاعاتی در مورد کیفیت داده ها است. برای اطلاعات بیشتر مراجعه کنید در مورد داده ها و کیفیت داده ها بینش دریافت کنید. مراحل زیر را کامل کنید:

بر گردش داده ها برگه، علامت مثبت کناری را انتخاب کنید انواع داده ها.
را انتخاب کنید دریافت اطلاعات بینش.
برای نوع تحلیل، انتخاب کنید گزارش کیفیت داده و بینش.
برای این پست، ترک کنید ستون هدف و نوع مشکل خالی. اگر قصد دارید از مجموعه داده خود برای یک کار رگرسیون یا طبقه‌بندی با ویژگی هدف استفاده کنید، می‌توانید آن گزینه‌ها را انتخاب کنید و گزارش شامل تجزیه و تحلیل نحوه ارتباط ویژگی‌های ورودی شما با هدف شما خواهد بود. به عنوان مثال، می تواند گزارش هایی در مورد نشت هدف تولید کند. برای اطلاعات بیشتر مراجعه کنید ستون هدف.
را انتخاب کنید ساختن.

ما اکنون یک گزارش کیفیت داده و اطلاعات بینش داریم. اگر به سمت پایین اسکرول کنیم SKU در بخش، می‌توانیم نمونه‌ای از الگوی یادگیری را ببینیم که SKU را توصیف می‌کند. به نظر می‌رسد این ویژگی دارای برخی داده‌های نامعتبر است و به اصلاح قابل اجرا نیاز است.

قبل از اینکه ویژگی SKU را پاک کنیم، اجازه دهید به بالا بروید نام تجاری بخش برای دیدن اطلاعات بیشتر در اینجا می بینیم که دو الگو کشف شده است، که نشان می دهد که اکثر نام های تجاری، کلمات واحدی هستند که از کاراکترهای کلمه یا حروف الفبا تشکیل شده اند. آ شخصیت کلمه یک زیرخط یا یک کاراکتر است که ممکن است در یک کلمه در هر زبانی ظاهر شود. به عنوان مثال، رشته ها Hello_world و écoute هر دو از کاراکترهای کلمه تشکیل شده اند: H و é.

برای این پست، ما این ویژگی را پاک نمی کنیم.

مشاهده بینش یادگیری الگو

بیایید به تمیز کردن SKU ها برگردیم و روی الگو و پیام هشدار بزرگنمایی کنیم.

همانطور که در تصویر زیر نشان داده شده است، یادگیری الگو یک الگوی با دقت بالا را نشان می دهد که با 97.78٪ از داده ها مطابقت دارد. همچنین چند نمونه مطابق با الگو و همچنین نمونه هایی که با الگو مطابقت ندارند را نمایش می دهد. در موارد غیر منطبق، ما شاهد برخی SKUهای نامعتبر هستیم.

علاوه بر الگوهای ظاهر شده، ممکن است هشداری ظاهر شود که نشان‌دهنده یک اقدام بالقوه برای پاک کردن داده‌ها در صورت وجود الگوی با دقت بالا و همچنین برخی داده‌هایی است که با الگو مطابقت ندارند.

می توانیم داده های نامعتبر را حذف کنیم. اگر روی عبارت معمولی (راست کلیک) را انتخاب کنیم، می توانیم عبارت را کپی کنیم [A-Z]{3}-[0-9]{4,5}.

داده های نامعتبر را حذف کنید

بیایید یک تبدیل ایجاد کنیم تا داده‌های ناسازگاری را که با این الگو مطابقت ندارند حذف کنیم.

بر گردش داده ها برگه، علامت مثبت کناری را انتخاب کنید انواع داده ها.
را انتخاب کنید تبدیل را اضافه کنید.
را انتخاب کنید مرحله اضافه کنید.
جستجو برای regex و انتخاب کنید جستجو و ویرایش کنید.
برای دگرگون کردن، انتخاب کنید غیر منطبق را به گمشده تبدیل کنید.
برای ستون های ورودی، انتخاب کنید SKU.
برای الگو، عبارت منظم ما را وارد کنید.
را انتخاب کنید پیش نمایش، پس از آن را انتخاب کنید اضافه کردن.

اکنون داده های اضافی از ویژگی ها حذف شده است.
برای حذف ردیف ها، مرحله را اضافه کنید دسته گم شده است و تبدیل را انتخاب کنید رها از دست رفته.
را انتخاب کنید SKU به عنوان ستون ورودی

با حذف داده های اشتباه به جریان داده خود باز می گردیم.

نتیجه

در این پست، ما به شما نشان دادیم که چگونه از ویژگی یادگیری الگو در بینش داده‌ها برای یافتن داده‌های متنی نامعتبر در مجموعه داده خود و همچنین نحوه تصحیح یا حذف آن داده‌ها استفاده کنید.

اکنون که یک ستون متنی را تمیز کرده اید، می توانید مجموعه داده خود را با استفاده از یک تجسم کنید تحلیل یا می توانید درخواست دهید تحولات داخلی برای پردازش بیشتر داده های شما وقتی از داده های خود راضی هستید، می توانید آموزش یک مدل با Amazon SageMaker Autopilot، یا داده های خود را صادر کنید به یک منبع داده مانند آمازون S3.

مایلیم از نیکیتا ایوکین برای بررسی متفکرانه اش تشکر کنیم.

درباره نویسندگان

ویشال کاپور یک دانشمند ارشد کاربردی با هوش مصنوعی AWS است. او مشتاق کمک به مشتریان در درک داده هایشان در Data Wrangler است. او در اوقات فراغت خود دوچرخه سواری کوهستان، اسنوبرد می کند و با خانواده اش وقت می گذراند.

زوهر کارنین دانشمند اصلی در آمازون AI است. علایق تحقیقاتی او در زمینه های مقیاس بزرگ و الگوریتم های یادگیری ماشین آنلاین است. او الگوریتم های یادگیری ماشینی بی نهایت مقیاس پذیر را برای Amazon SageMaker توسعه می دهد.

آجای شارما مدیر محصول اصلی آمازون SageMaker است که در آن بر Data Wrangler، یک ابزار آماده سازی داده های بصری برای دانشمندان داده تمرکز می کند. قبل از AWS، Ajai کارشناس علوم داده در McKinsey and Company بود، جایی که او فعالیت‌های متمرکز بر ML را برای شرکت‌های مالی و بیمه پیشرو در سراسر جهان رهبری می‌کرد. Ajai علاقه زیادی به علم داده دارد و دوست دارد جدیدترین الگوریتم ها و تکنیک های یادگیری ماشین را کشف کند.

درک بارون یک مدیر توسعه نرم افزار برای Amazon SageMaker Data Wrangler است

تمبر زمان: اکتبر 24، 2022اکتبر 24، 2022

تمبر زمان: ممکن است 12، 2022

با بهترین شیوه های CI/CD در آمازون Lex کارایی را افزایش دهید

خوشه منبع:

آموزش ماشین AWS

گره منبع: 1585088

تمبر زمان: ژوئیه 7، 2022

با Amazon SageMaker Data Wrangler الگوها را در داده های متنی تشخیص دهید

بازنشر افلاطون

بررسی اجمالی راه حل

پیش نیازها

مجموعه داده خود را وارد کنید

دریافت اطلاعات بینش

مشاهده بینش یادگیری الگو

داده های نامعتبر را حذف کنید

نتیجه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

استقرار BLOOM-176B و OPT-30B در آمازون SageMaker با استنباط مدل بزرگ ظروف یادگیری عمیق و DeepSpeed

ورودی تماس گیرنده را با استفاده از انواع اسلات گرامری در آمازون لکس تفسیر کنید

چگونه یارا از ویژگی های MLOps Amazon SageMaker برای مقیاس بهینه سازی انرژی در کارخانه های آمونیاک خود استفاده می کند

با Amazon SageMaker Role Manager از طریق AWS CDK | مجوزهای سفارشی شده را در چند دقیقه تعریف کنید خدمات وب آمازون

بهبود مقیاس پذیری برای API های بدون حالت شناسایی آمازون با استفاده از چندین منطقه

چگونه Amazon Search پروژه های یادگیری ماشینی در مقیاس بزرگ و انعطاف پذیر را با Amazon SageMaker اجرا می کند

با استفاده از خطوط لوله Haystack و Amazon SageMaker JumpStart با LLM، برنامه های هوش مصنوعی مولد آماده تولید برای جستجوی سازمانی بسازید | خدمات وب آمازون

با استفاده از آمازون Rekognition و Amazon Textract اسناد را تعدیل، طبقه بندی و پردازش کنید

با بهترین شیوه های CI/CD در آمازون Lex کارایی را افزایش دهید

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب