اس پوسٹ میں، ہم نے میں ایک نیا تجزیہ متعارف کرایا ہے۔ ڈیٹا کوالٹی اور بصیرت کی رپورٹ of ایمیزون سیج میکر ڈیٹا رینگلر. یہ تجزیہ درستگی کے لیے متنی خصوصیات کی توثیق کرنے اور مرمت یا کوتاہی کے لیے غلط قطاروں کو کھولنے میں آپ کی مدد کرتا ہے۔
ڈیٹا رینگلر مشین لرننگ (ML) کے لیے ڈیٹا کو جمع کرنے اور تیار کرنے میں لگنے والے وقت کو ہفتوں سے منٹ تک کم کر دیتا ہے۔ آپ ڈیٹا کی تیاری اور فیچر انجینئرنگ کے عمل کو آسان بنا سکتے ہیں، اور ڈیٹا کی تیاری کے ورک فلو کے ہر مرحلے کو مکمل کر سکتے ہیں، بشمول ڈیٹا کا انتخاب، کلینزنگ، ایکسپلوریشن، اور ویژولائزیشن، ایک ہی بصری انٹرفیس سے۔
حل جائزہ
ڈیٹا پری پروسیسنگ میں اکثر متنی ڈیٹا جیسے ای میل ایڈریسز، فون نمبرز اور پروڈکٹ کے ناموں کو صاف کرنا شامل ہوتا ہے۔ اس ڈیٹا میں سالمیت کی بنیادی رکاوٹیں ہو سکتی ہیں جنہیں باقاعدہ اظہار کے ذریعے بیان کیا جا سکتا ہے۔ مثال کے طور پر، درست مانے جانے کے لیے، ایک مقامی فون نمبر کو اس طرح کے پیٹرن کی پیروی کرنے کی ضرورت پڑ سکتی ہے۔ [1-9][0-9]{2}-[0-9]{4}
، جو ایک غیر صفر ہندسے سے مماثل ہوگا، اس کے بعد مزید دو ہندسے، اس کے بعد ایک ڈیش، اس کے بعد مزید چار ہندسے۔
غلط ڈیٹا کے نتیجے میں ہونے والے عام حالات میں متضاد انسانی اندراج شامل ہوسکتا ہے، مثال کے طور پر مختلف فارمیٹس میں فون نمبرز (5551234 بمقابلہ 555 1234 بمقابلہ 555-1234) یا غیر متوقع ڈیٹا، جیسے 0، 911، یا 411۔ کسٹمر کال سینٹر کے لیے، 0، 911، یا 411 جیسے نمبروں کو چھوڑنا اور 5551234 یا 555 1234 جیسے اندراجات کی توثیق (اور ممکنہ طور پر درست) کرنا ضروری ہے۔
بدقسمتی سے، اگرچہ متنی رکاوٹیں موجود ہیں، لیکن انہیں ڈیٹا فراہم نہیں کیا جا سکتا ہے۔ لہذا، ڈیٹاسیٹ کی تیاری کرنے والے ڈیٹا سائنسدان کو ڈیٹا کو دیکھ کر دستی طور پر رکاوٹوں سے پردہ اٹھانا چاہیے۔ یہ تکلیف دہ، غلطی کا شکار اور وقت طلب ہوسکتا ہے۔
پیٹرن لرننگ خود بخود آپ کے ڈیٹا کا تجزیہ کرتی ہے اور متنی رکاوٹوں کو ظاہر کرتی ہے جو آپ کے ڈیٹاسیٹ پر لاگو ہو سکتی ہیں۔ فون نمبرز کے ساتھ مثال کے طور پر، پیٹرن لرننگ ڈیٹا کا تجزیہ کر سکتی ہے اور اس بات کی نشاندہی کر سکتی ہے کہ فون نمبرز کی اکثریت متنی پابندی کی پیروی کرتی ہے۔ [1-9][0-9]{2}-[0-9][4]
. یہ آپ کو متنبہ بھی کر سکتا ہے کہ غلط ڈیٹا کی مثالیں موجود ہیں تاکہ آپ انہیں خارج یا درست کر سکیں۔
مندرجہ ذیل حصوں میں، ہم یہ ظاہر کرتے ہیں کہ ڈیٹا رینگلر میں پروڈکٹ کیٹیگریز اور SKU (اسٹاک کیپنگ یونٹ) کوڈز کے خیالی ڈیٹاسیٹ کا استعمال کرتے ہوئے پیٹرن لرننگ کو کیسے استعمال کیا جائے۔
اس ڈیٹاسیٹ میں ایسی خصوصیات شامل ہیں جو کمپنی، برانڈ اور توانائی کی کھپت کے لحاظ سے مصنوعات کی وضاحت کرتی ہیں۔ خاص طور پر، اس میں ایک خصوصیت SKU شامل ہے جو غلط فارمیٹ شدہ ہے۔ اس ڈیٹاسیٹ میں موجود تمام ڈیٹا غیر حقیقی ہے اور بے ترتیب برانڈ کے ناموں اور آلات کے ناموں کا استعمال کرتے ہوئے تصادفی طور پر تخلیق کیا گیا ہے۔
شرائط
اس سے پہلے کہ آپ ڈیٹا رینگلر کا استعمال شروع کریں، ڈاؤن لوڈ، اتارنا نمونہ ڈیٹاسیٹ اور اسے کسی مقام پر اپ لوڈ کریں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔ ہدایات کے لیے، رجوع کریں۔ اشیاء کو اپ لوڈ کرنا.
اپنا ڈیٹاسیٹ درآمد کریں۔
اپنا ڈیٹا سیٹ درآمد کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:
- ڈیٹا رینگلر میں، منتخب کریں۔ ایم ایل کے لیے ڈیٹا درآمد اور دریافت کریں۔.
- میں سے انتخاب کریں درآمد کریں.
- کے لئے ڈیٹا درآمد کریں۔منتخب کریں ایمیزون S3.
- ایمیزون S3 میں فائل تلاش کریں اور منتخب کریں۔ درآمد کریں.
درآمد کرنے کے بعد، ہم ڈیٹا کے بہاؤ پر جا سکتے ہیں۔
ڈیٹا کی بصیرت حاصل کریں۔
اس مرحلے میں، ہم ایک ڈیٹا بصیرت کی رپورٹ بناتے ہیں جس میں ڈیٹا کے معیار کے بارے میں معلومات شامل ہوتی ہیں۔ مزید معلومات کے لیے رجوع کریں۔ ڈیٹا اور ڈیٹا کے معیار پر بصیرت حاصل کریں۔. درج ذیل مراحل کو مکمل کریں:
- پر ڈیٹا کے بہاؤ ٹیب، آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام.
- میں سے انتخاب کریں ڈیٹا کی بصیرت حاصل کریں۔.
- کے لئے تجزیہ کی قسممنتخب کریں ڈیٹا کوالٹی اور بصیرت کی رپورٹ.
- اس پوسٹ کے لیے چھوڑ دیں۔ ٹارگٹ کالم اور مسئلہ کی قسم خالی۔ اگر آپ اپنے ڈیٹا سیٹ کو ٹارگٹ فیچر کے ساتھ ریگریشن یا درجہ بندی کے کام کے لیے استعمال کرنے کا ارادہ رکھتے ہیں، تو آپ ان اختیارات کو منتخب کر سکتے ہیں اور رپورٹ میں یہ تجزیہ شامل ہوگا کہ آپ کے ان پٹ فیچرز کا آپ کے ہدف سے کیا تعلق ہے۔ مثال کے طور پر، یہ ہدف کے رساو پر رپورٹس تیار کر سکتا ہے۔ مزید معلومات کے لیے رجوع کریں۔ ٹارگٹ کالم.
- میں سے انتخاب کریں تخلیق کریں.
اب ہمارے پاس ڈیٹا کوالٹی اور ڈیٹا بصیرت کی رپورٹ ہے۔ اگر ہم نیچے سکرول کریں۔ SKU سیکشن، ہم SKU کو بیان کرنے والے پیٹرن لرننگ کی ایک مثال دیکھ سکتے ہیں۔ ایسا لگتا ہے کہ اس خصوصیت میں کچھ غلط ڈیٹا ہے، اور قابل عمل تدارک کی ضرورت ہے۔
اس سے پہلے کہ ہم SKU خصوصیت کو صاف کریں، آئیے اوپر تک سکرول کریں۔ برانڈ کچھ مزید بصیرتیں دیکھنے کے لیے سیکشن۔ یہاں ہم دیکھتے ہیں کہ دو نمونوں کا پردہ فاش کیا گیا ہے، جس سے یہ ظاہر ہوتا ہے کہ برانڈ کے ناموں کی اکثریت ایک ہی الفاظ ہیں جو کہ الفاظ کے حروف یا حروف تہجی کے حروف پر مشتمل ہیں۔ اے لفظ کا کردار یا تو ایک انڈر سکور یا ایک کردار ہے جو کسی بھی زبان میں کسی لفظ میں ظاہر ہو سکتا ہے۔ مثال کے طور پر، تار Hello_world
اور écoute
دونوں الفاظ کے حروف پر مشتمل ہیں: H
اور é
.
اس پوسٹ کے لیے، ہم اس فیچر کو صاف نہیں کرتے ہیں۔
پیٹرن سیکھنے کی بصیرتیں دیکھیں
آئیے SKUs کی صفائی پر واپس آتے ہیں اور پیٹرن اور انتباہی پیغام کو زوم ان کریں۔
جیسا کہ مندرجہ ذیل اسکرین شاٹ میں دکھایا گیا ہے، پیٹرن لرننگ ڈیٹا کے 97.78% سے مماثل ایک اعلی درستگی کا نمونہ پیش کرتا ہے۔ یہ پیٹرن سے مماثل کچھ مثالوں کے ساتھ ساتھ پیٹرن سے مماثل مثالیں بھی دکھاتا ہے۔ غیر میچوں میں، ہمیں کچھ غلط SKUs نظر آتے ہیں۔
منظر عام پر آنے والے نمونوں کے علاوہ، ایک انتباہ ظاہر ہو سکتا ہے جو ڈیٹا کو صاف کرنے کے لیے ممکنہ کارروائی کی نشاندہی کرتا ہے اگر اعلی درستگی کا پیٹرن ہے اور ساتھ ہی کچھ ڈیٹا جو پیٹرن کے مطابق نہیں ہے۔
ہم غلط ڈیٹا کو چھوڑ سکتے ہیں۔ اگر ہم ریگولر ایکسپریشن پر (دائیں کلک کریں) کا انتخاب کرتے ہیں تو ہم اظہار کو کاپی کر سکتے ہیں۔ [A-Z]{3}-[0-9]{4,5}
.
غلط ڈیٹا کو ہٹا دیں۔
آئیے غیر موافق ڈیٹا کو چھوڑنے کے لیے ایک ٹرانسفارم بناتے ہیں جو اس پیٹرن سے مماثل نہیں ہے۔
- پر ڈیٹا کے بہاؤ ٹیب، آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام.
- میں سے انتخاب کریں تبدیلی شامل کریں۔.
- میں سے انتخاب کریں قدم شامل کریں۔.
- کے لئے تلاش کریں
regex
اور منتخب کریں تلاش کریں اور ترمیم کریں۔. - کے لئے تبدیلمنتخب کریں غیر مماثلت کو لاپتہ میں تبدیل کریں۔.
- کے لئے ان پٹ کالمزمنتخب کریں
SKU
. - کے لئے پاٹرنہمارا باقاعدہ اظہار درج کریں۔
- میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.
اب خصوصیات سے غیر معمولی ڈیٹا کو ہٹا دیا گیا ہے۔ - قطاروں کو ہٹانے کے لیے، قدم شامل کریں۔ ہینڈل غائب ہے۔ اور تبدیلی کا انتخاب کریں۔ ڈراپ غائب.
- میں سے انتخاب کریں
SKU
ان پٹ کالم کے طور پر۔
ہم غلط ڈیٹا کو ہٹا کر اپنے ڈیٹا فلو پر واپس آتے ہیں۔
نتیجہ
اس پوسٹ میں، ہم نے آپ کو دکھایا کہ ڈیٹا بصیرت میں پیٹرن سیکھنے کی خصوصیت کو اپنے ڈیٹاسیٹ میں غلط متنی ڈیٹا تلاش کرنے کے لیے کیسے استعمال کیا جائے، اور ساتھ ہی اس ڈیٹا کو درست کرنے یا چھوڑنے کا طریقہ بھی بتایا۔
اب جب کہ آپ نے متنی کالم صاف کر لیا ہے، آپ ایک کا استعمال کرتے ہوئے اپنے ڈیٹاسیٹ کو تصور کر سکتے ہیں۔ تجزیہ یا آپ درخواست دے سکتے ہیں۔ بلٹ میں تبدیلیاں اپنے ڈیٹا پر مزید کارروائی کرنے کے لیے۔ جب آپ اپنے ڈیٹا سے مطمئن ہوں، تو آپ کر سکتے ہیں۔ ایک ماڈل کو تربیت دیں ساتھ ایمیزون سیج میکر آٹو پائلٹ، یا اپنا ڈیٹا برآمد کریں۔ ڈیٹا ماخذ جیسے ایمیزون S3 پر۔
ہم نکیتا ایوکن کا ان کے سوچ سمجھ کر جائزہ لینے کے لیے شکریہ ادا کرنا چاہیں گے۔
مصنفین کے بارے میں
وشال کپور AWS AI کے ساتھ ایک سینئر اپلائیڈ سائنٹسٹ ہے۔ وہ ڈیٹا رینگلر میں صارفین کو ان کے ڈیٹا کو سمجھنے میں مدد کرنے کا پرجوش ہے۔ اپنے فارغ وقت میں، وہ پہاڑی بائیک، سنو بورڈز، اور اپنے خاندان کے ساتھ وقت گزارتا ہے۔
ظہر قرنین ایمیزون اے آئی میں ایک پرنسپل سائنسدان ہیں۔ اس کی تحقیقی دلچسپیاں بڑے پیمانے پر اور آن لائن مشین لرننگ الگورتھم کے شعبوں میں ہیں۔ وہ Amazon SageMaker کے لیے لامحدود توسیع پذیر مشین لرننگ الگورتھم تیار کرتا ہے۔
اجے شرما ایمیزون سیج میکر کے پرنسپل پروڈکٹ مینیجر ہیں جہاں وہ ڈیٹا رینگلر پر توجہ مرکوز کرتے ہیں، جو ڈیٹا سائنسدانوں کے لیے بصری ڈیٹا کی تیاری کا آلہ ہے۔ AWS سے پہلے، Ajai McKinsey and Company میں ڈیٹا سائنس کے ماہر تھے، جہاں انہوں نے دنیا بھر میں معروف فنانس اور انشورنس فرموں کے لیے ML پر مرکوز مصروفیات کی قیادت کی۔ اجائی ڈیٹا سائنس کے بارے میں پرجوش ہے اور جدید ترین الگورتھم اور مشین لرننگ تکنیکوں کو دریافت کرنا پسند کرتا ہے۔
ڈیرک بیرن ایمیزون سیج میکر ڈیٹا رینگلر کا سافٹ ویئر ڈویلپمنٹ مینیجر ہے۔
- AI
- ai آرٹ
- AI آرٹ جنریٹر
- عی روبوٹ
- ایمیزون سیج میکر
- ایمیزون سیج میکر ڈیٹا رینگلر
- مصنوعی ذہانت
- مصنوعی ذہانت کا سرٹیفیکیشن
- بینکنگ میں مصنوعی ذہانت
- مصنوعی ذہانت والا روبوٹ
- مصنوعی ذہانت والے روبوٹ
- مصنوعی ذہانت سافٹ ویئر
- AWS مشین لرننگ
- blockchain
- بلاکچین کانفرنس
- coingenius
- بات چیت مصنوعی ذہانت
- crypto کانفرنس ai
- dall-e
- گہری سیکھنے
- گوگل عی
- انٹرمیڈیٹ (200)
- مشین لرننگ
- پلاٹا
- افلاطون اے
- افلاطون ڈیٹا انٹیلی جنس
- افلاطون گیم
- پلیٹو ڈیٹا
- پلیٹو گیمنگ
- پیمانہ ai
- نحو
- زیفیرنیٹ