Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی

ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔

اس پوسٹ میں، ہم نے میں ایک نیا تجزیہ متعارف کرایا ہے۔ ڈیٹا کوالٹی اور بصیرت کی رپورٹ of ایمیزون سیج میکر ڈیٹا رینگلر. یہ تجزیہ درستگی کے لیے متنی خصوصیات کی توثیق کرنے اور مرمت یا کوتاہی کے لیے غلط قطاروں کو کھولنے میں آپ کی مدد کرتا ہے۔

ڈیٹا رینگلر مشین لرننگ (ML) کے لیے ڈیٹا کو جمع کرنے اور تیار کرنے میں لگنے والے وقت کو ہفتوں سے منٹ تک کم کر دیتا ہے۔ آپ ڈیٹا کی تیاری اور فیچر انجینئرنگ کے عمل کو آسان بنا سکتے ہیں، اور ڈیٹا کی تیاری کے ورک فلو کے ہر مرحلے کو مکمل کر سکتے ہیں، بشمول ڈیٹا کا انتخاب، کلینزنگ، ایکسپلوریشن، اور ویژولائزیشن، ایک ہی بصری انٹرفیس سے۔

حل جائزہ

ڈیٹا پری پروسیسنگ میں اکثر متنی ڈیٹا جیسے ای میل ایڈریسز، فون نمبرز اور پروڈکٹ کے ناموں کو صاف کرنا شامل ہوتا ہے۔ اس ڈیٹا میں سالمیت کی بنیادی رکاوٹیں ہو سکتی ہیں جنہیں باقاعدہ اظہار کے ذریعے بیان کیا جا سکتا ہے۔ مثال کے طور پر، درست مانے جانے کے لیے، ایک مقامی فون نمبر کو اس طرح کے پیٹرن کی پیروی کرنے کی ضرورت پڑ سکتی ہے۔ [1-9][0-9]{2}-[0-9]{4}، جو ایک غیر صفر ہندسے سے مماثل ہوگا، اس کے بعد مزید دو ہندسے، اس کے بعد ایک ڈیش، اس کے بعد مزید چار ہندسے۔

غلط ڈیٹا کے نتیجے میں ہونے والے عام حالات میں متضاد انسانی اندراج شامل ہوسکتا ہے، مثال کے طور پر مختلف فارمیٹس میں فون نمبرز (5551234 بمقابلہ 555 1234 بمقابلہ 555-1234) یا غیر متوقع ڈیٹا، جیسے 0، 911، یا 411۔ کسٹمر کال سینٹر کے لیے، 0، 911، یا 411 جیسے نمبروں کو چھوڑنا اور 5551234 یا 555 1234 جیسے اندراجات کی توثیق (اور ممکنہ طور پر درست) کرنا ضروری ہے۔

بدقسمتی سے، اگرچہ متنی رکاوٹیں موجود ہیں، لیکن انہیں ڈیٹا فراہم نہیں کیا جا سکتا ہے۔ لہذا، ڈیٹاسیٹ کی تیاری کرنے والے ڈیٹا سائنسدان کو ڈیٹا کو دیکھ کر دستی طور پر رکاوٹوں سے پردہ اٹھانا چاہیے۔ یہ تکلیف دہ، غلطی کا شکار اور وقت طلب ہوسکتا ہے۔

پیٹرن لرننگ خود بخود آپ کے ڈیٹا کا تجزیہ کرتی ہے اور متنی رکاوٹوں کو ظاہر کرتی ہے جو آپ کے ڈیٹاسیٹ پر لاگو ہو سکتی ہیں۔ فون نمبرز کے ساتھ مثال کے طور پر، پیٹرن لرننگ ڈیٹا کا تجزیہ کر سکتی ہے اور اس بات کی نشاندہی کر سکتی ہے کہ فون نمبرز کی اکثریت متنی پابندی کی پیروی کرتی ہے۔ [1-9][0-9]{2}-[0-9][4]. یہ آپ کو متنبہ بھی کر سکتا ہے کہ غلط ڈیٹا کی مثالیں موجود ہیں تاکہ آپ انہیں خارج یا درست کر سکیں۔

مندرجہ ذیل حصوں میں، ہم یہ ظاہر کرتے ہیں کہ ڈیٹا رینگلر میں پروڈکٹ کیٹیگریز اور SKU (اسٹاک کیپنگ یونٹ) کوڈز کے خیالی ڈیٹاسیٹ کا استعمال کرتے ہوئے پیٹرن لرننگ کو کیسے استعمال کیا جائے۔

اس ڈیٹاسیٹ میں ایسی خصوصیات شامل ہیں جو کمپنی، برانڈ اور توانائی کی کھپت کے لحاظ سے مصنوعات کی وضاحت کرتی ہیں۔ خاص طور پر، اس میں ایک خصوصیت SKU شامل ہے جو غلط فارمیٹ شدہ ہے۔ اس ڈیٹاسیٹ میں موجود تمام ڈیٹا غیر حقیقی ہے اور بے ترتیب برانڈ کے ناموں اور آلات کے ناموں کا استعمال کرتے ہوئے تصادفی طور پر تخلیق کیا گیا ہے۔

شرائط

اس سے پہلے کہ آپ ڈیٹا رینگلر کا استعمال شروع کریں، ڈاؤن لوڈ، اتارنا نمونہ ڈیٹاسیٹ اور اسے کسی مقام پر اپ لوڈ کریں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔ ہدایات کے لیے، رجوع کریں۔ اشیاء کو اپ لوڈ کرنا.

اپنا ڈیٹاسیٹ درآمد کریں۔

اپنا ڈیٹا سیٹ درآمد کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. ڈیٹا رینگلر میں، منتخب کریں۔ ایم ایل کے لیے ڈیٹا درآمد اور دریافت کریں۔.
  2. میں سے انتخاب کریں درآمد کریں.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی
  3. کے لئے ڈیٹا درآمد کریں۔منتخب کریں ایمیزون S3.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی
  4. ایمیزون S3 میں فائل تلاش کریں اور منتخب کریں۔ درآمد کریں.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی

درآمد کرنے کے بعد، ہم ڈیٹا کے بہاؤ پر جا سکتے ہیں۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی

ڈیٹا کی بصیرت حاصل کریں۔

اس مرحلے میں، ہم ایک ڈیٹا بصیرت کی رپورٹ بناتے ہیں جس میں ڈیٹا کے معیار کے بارے میں معلومات شامل ہوتی ہیں۔ مزید معلومات کے لیے رجوع کریں۔ ڈیٹا اور ڈیٹا کے معیار پر بصیرت حاصل کریں۔. درج ذیل مراحل کو مکمل کریں:

  1. پر ڈیٹا کے بہاؤ ٹیب، آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام.
  2. میں سے انتخاب کریں ڈیٹا کی بصیرت حاصل کریں۔.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی
  3. کے لئے تجزیہ کی قسممنتخب کریں ڈیٹا کوالٹی اور بصیرت کی رپورٹ.
  4. اس پوسٹ کے لیے چھوڑ دیں۔ ٹارگٹ کالم اور مسئلہ کی قسم خالی۔ اگر آپ اپنے ڈیٹا سیٹ کو ٹارگٹ فیچر کے ساتھ ریگریشن یا درجہ بندی کے کام کے لیے استعمال کرنے کا ارادہ رکھتے ہیں، تو آپ ان اختیارات کو منتخب کر سکتے ہیں اور رپورٹ میں یہ تجزیہ شامل ہوگا کہ آپ کے ان پٹ فیچرز کا آپ کے ہدف سے کیا تعلق ہے۔ مثال کے طور پر، یہ ہدف کے رساو پر رپورٹس تیار کر سکتا ہے۔ مزید معلومات کے لیے رجوع کریں۔ ٹارگٹ کالم.
  5. میں سے انتخاب کریں تخلیق کریں.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی

اب ہمارے پاس ڈیٹا کوالٹی اور ڈیٹا بصیرت کی رپورٹ ہے۔ اگر ہم نیچے سکرول کریں۔ SKU سیکشن، ہم SKU کو بیان کرنے والے پیٹرن لرننگ کی ایک مثال دیکھ سکتے ہیں۔ ایسا لگتا ہے کہ اس خصوصیت میں کچھ غلط ڈیٹا ہے، اور قابل عمل تدارک کی ضرورت ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی

اس سے پہلے کہ ہم SKU خصوصیت کو صاف کریں، آئیے اوپر تک سکرول کریں۔ برانڈ کچھ مزید بصیرتیں دیکھنے کے لیے سیکشن۔ یہاں ہم دیکھتے ہیں کہ دو نمونوں کا پردہ فاش کیا گیا ہے، جس سے یہ ظاہر ہوتا ہے کہ برانڈ کے ناموں کی اکثریت ایک ہی الفاظ ہیں جو کہ الفاظ کے حروف یا حروف تہجی کے حروف پر مشتمل ہیں۔ اے لفظ کا کردار یا تو ایک انڈر سکور یا ایک کردار ہے جو کسی بھی زبان میں کسی لفظ میں ظاہر ہو سکتا ہے۔ مثال کے طور پر، تار Hello_world اور écoute دونوں الفاظ کے حروف پر مشتمل ہیں: H اور é.

اس پوسٹ کے لیے، ہم اس فیچر کو صاف نہیں کرتے ہیں۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی

پیٹرن سیکھنے کی بصیرتیں دیکھیں

آئیے SKUs کی صفائی پر واپس آتے ہیں اور پیٹرن اور انتباہی پیغام کو زوم ان کریں۔

جیسا کہ مندرجہ ذیل اسکرین شاٹ میں دکھایا گیا ہے، پیٹرن لرننگ ڈیٹا کے 97.78% سے مماثل ایک اعلی درستگی کا نمونہ پیش کرتا ہے۔ یہ پیٹرن سے مماثل کچھ مثالوں کے ساتھ ساتھ پیٹرن سے مماثل مثالیں بھی دکھاتا ہے۔ غیر میچوں میں، ہمیں کچھ غلط SKUs نظر آتے ہیں۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی

منظر عام پر آنے والے نمونوں کے علاوہ، ایک انتباہ ظاہر ہو سکتا ہے جو ڈیٹا کو صاف کرنے کے لیے ممکنہ کارروائی کی نشاندہی کرتا ہے اگر اعلی درستگی کا پیٹرن ہے اور ساتھ ہی کچھ ڈیٹا جو پیٹرن کے مطابق نہیں ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی

ہم غلط ڈیٹا کو چھوڑ سکتے ہیں۔ اگر ہم ریگولر ایکسپریشن پر (دائیں کلک کریں) کا انتخاب کرتے ہیں تو ہم اظہار کو کاپی کر سکتے ہیں۔ [A-Z]{3}-[0-9]{4,5}.

غلط ڈیٹا کو ہٹا دیں۔

آئیے غیر موافق ڈیٹا کو چھوڑنے کے لیے ایک ٹرانسفارم بناتے ہیں جو اس پیٹرن سے مماثل نہیں ہے۔

  1. پر ڈیٹا کے بہاؤ ٹیب، آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام.
  2. میں سے انتخاب کریں تبدیلی شامل کریں۔.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی
  3. میں سے انتخاب کریں قدم شامل کریں۔.
  4. کے لئے تلاش کریں regex اور منتخب کریں تلاش کریں اور ترمیم کریں۔.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی
  5. کے لئے تبدیلمنتخب کریں غیر مماثلت کو لاپتہ میں تبدیل کریں۔.
  6. کے لئے ان پٹ کالمزمنتخب کریں SKU.
  7. کے لئے پاٹرنہمارا باقاعدہ اظہار درج کریں۔
  8. میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی
    اب خصوصیات سے غیر معمولی ڈیٹا کو ہٹا دیا گیا ہے۔
  9. قطاروں کو ہٹانے کے لیے، قدم شامل کریں۔ ہینڈل غائب ہے۔ اور تبدیلی کا انتخاب کریں۔ ڈراپ غائب.
  10. میں سے انتخاب کریں SKU ان پٹ کالم کے طور پر۔
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی

ہم غلط ڈیٹا کو ہٹا کر اپنے ڈیٹا فلو پر واپس آتے ہیں۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی

نتیجہ

اس پوسٹ میں، ہم نے آپ کو دکھایا کہ ڈیٹا بصیرت میں پیٹرن سیکھنے کی خصوصیت کو اپنے ڈیٹاسیٹ میں غلط متنی ڈیٹا تلاش کرنے کے لیے کیسے استعمال کیا جائے، اور ساتھ ہی اس ڈیٹا کو درست کرنے یا چھوڑنے کا طریقہ بھی بتایا۔

اب جب کہ آپ نے متنی کالم صاف کر لیا ہے، آپ ایک کا استعمال کرتے ہوئے اپنے ڈیٹاسیٹ کو تصور کر سکتے ہیں۔ تجزیہ یا آپ درخواست دے سکتے ہیں۔ بلٹ میں تبدیلیاں اپنے ڈیٹا پر مزید کارروائی کرنے کے لیے۔ جب آپ اپنے ڈیٹا سے مطمئن ہوں، تو آپ کر سکتے ہیں۔ ایک ماڈل کو تربیت دیں ساتھ ایمیزون سیج میکر آٹو پائلٹ، یا اپنا ڈیٹا برآمد کریں۔ ڈیٹا ماخذ جیسے ایمیزون S3 پر۔

ہم نکیتا ایوکن کا ان کے سوچ سمجھ کر جائزہ لینے کے لیے شکریہ ادا کرنا چاہیں گے۔


مصنفین کے بارے میں

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عیوشال کپور AWS AI کے ساتھ ایک سینئر اپلائیڈ سائنٹسٹ ہے۔ وہ ڈیٹا رینگلر میں صارفین کو ان کے ڈیٹا کو سمجھنے میں مدد کرنے کا پرجوش ہے۔ اپنے فارغ وقت میں، وہ پہاڑی بائیک، سنو بورڈز، اور اپنے خاندان کے ساتھ وقت گزارتا ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عیظہر قرنین ایمیزون اے آئی میں ایک پرنسپل سائنسدان ہیں۔ اس کی تحقیقی دلچسپیاں بڑے پیمانے پر اور آن لائن مشین لرننگ الگورتھم کے شعبوں میں ہیں۔ وہ Amazon SageMaker کے لیے لامحدود توسیع پذیر مشین لرننگ الگورتھم تیار کرتا ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عیاجے شرما ایمیزون سیج میکر کے پرنسپل پروڈکٹ مینیجر ہیں جہاں وہ ڈیٹا رینگلر پر توجہ مرکوز کرتے ہیں، جو ڈیٹا سائنسدانوں کے لیے بصری ڈیٹا کی تیاری کا آلہ ہے۔ AWS سے پہلے، Ajai McKinsey and Company میں ڈیٹا سائنس کے ماہر تھے، جہاں انہوں نے دنیا بھر میں معروف فنانس اور انشورنس فرموں کے لیے ML پر مرکوز مصروفیات کی قیادت کی۔ اجائی ڈیٹا سائنس کے بارے میں پرجوش ہے اور جدید ترین الگورتھم اور مشین لرننگ تکنیکوں کو دریافت کرنا پسند کرتا ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔ عمودی تلاش۔ عی ڈیرک بیرن ایمیزون سیج میکر ڈیٹا رینگلر کا سافٹ ویئر ڈویلپمنٹ مینیجر ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ