ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عی

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز کا تعارف

دستی طور پر ڈیٹا کے معیار کا معائنہ کرنا اور ڈیٹا کو صاف کرنا ایک تکلیف دہ اور وقت طلب عمل ہے جو کسی پروجیکٹ پر ڈیٹا سائنسدان کے وقت کا بہت بڑا حصہ لے سکتا ہے۔ ایناکونڈا کے ذریعہ کئے گئے ڈیٹا سائنسدانوں کے 2020 کے سروے کے مطابق، ڈیٹا سائنسدان اپنا تقریباً 66% وقت ڈیٹا کی تیاری اور تجزیہ کے کاموں پر صرف کرتے ہیں، بشمول لوڈنگ (19%)، صفائی (26%)، اور ڈیٹا کو دیکھنے (21%)۔ ایمیزون سیج میکر مختلف کسٹمر کی ضروریات اور ترجیحات کو پورا کرنے کے لیے ڈیٹا کی تیاری کے ٹولز کی ایک رینج پیش کرتا ہے۔ ان صارفین کے لیے جو GUI پر مبنی انٹرایکٹو انٹرفیس کو ترجیح دیتے ہیں، سیج میکر ڈیٹا رینگلر کوڈ کی ایک سطر لکھے بغیر Spark کی حمایت یافتہ ڈیٹا کو مؤثر طریقے سے پروسیس کرنے کے لیے 300+ بلٹ ان ویژولائزیشنز، تجزیے اور تبدیلیاں پیش کرتا ہے۔

مشین لرننگ میں ڈیٹا ویژولائزیشن (ML) ایک تکراری عمل ہے اور دریافت، تفتیش اور توثیق کے لیے ڈیٹاسیٹ کے مسلسل تصور کی ضرورت ہوتی ہے۔ اعداد و شمار کو نقطہ نظر میں ڈالنے کا مطلب ہے کہ ہر کالم کو ڈیٹا کی ممکنہ غلطیوں، گمشدہ اقدار، غلط ڈیٹا کی اقسام، گمراہ کن/غلط ڈیٹا، آؤٹ لیئر ڈیٹا، اور مزید کو سمجھنے کے لیے۔

اس پوسٹ میں، ہم آپ کو دکھائیں گے کہ کیسے ایمیزون سیج میکر ڈیٹا رینگلر ڈیٹا کی تقسیم کے کلیدی تصورات کو خود بخود تخلیق کرتا ہے، ڈیٹا کے معیار کے مسائل کا پتہ لگاتا ہے، اور کوڈ کی ایک لائن لکھے بغیر ہر خصوصیت کے لیے آؤٹ لیرز جیسے ڈیٹا کی بصیرت کو سرفہرست کرتا ہے۔ یہ خودکار معیار کے انتباہات (مثال کے طور پر، گمشدہ اقدار یا غلط اقدار) کے ساتھ ڈیٹا گرڈ کے تجربے کو بہتر بنانے میں مدد کرتا ہے۔ خود کار طریقے سے تیار کردہ تصورات بھی انٹرایکٹو ہیں۔ مثال کے طور پر، آپ فیصد کے حساب سے ترتیب دی گئی سرفہرست پانچ سب سے زیادہ متواتر آئٹمز کا ٹیبولیشن دکھا سکتے ہیں، اور گنتی اور فیصد کے درمیان سوئچ کرنے کے لیے بار پر ہوور کر سکتے ہیں۔

شرائط

ایمیزون سیج میکر ڈیٹا رینگلر سیج میکر کی خصوصیت ہے جو سیج میکر اسٹوڈیو میں دستیاب ہے۔ آپ پیروی کر سکتے ہیں۔ اسٹوڈیو میں آن بورڈنگ کا عمل اسٹوڈیو کے ماحول اور نوٹ بک کو گھماؤ۔ اگرچہ آپ تصدیق کے چند طریقوں میں سے انتخاب کر سکتے ہیں، لیکن اسٹوڈیو ڈومین بنانے کا آسان ترین طریقہ یہ ہے کہ فوری آغاز کی ہدایات. کوئیک اسٹارٹ معیاری اسٹوڈیو سیٹ اپ جیسی ڈیفالٹ سیٹنگز کا استعمال کرتا ہے۔ آپ آن بورڈ کا استعمال کرتے ہوئے بھی انتخاب کر سکتے ہیں۔ AWS Identity and Access Management (IAM) شناختی مرکز (AWS سنگل سائن آن کا جانشین) توثیق کے لیے (دیکھیں۔ IAM شناختی مرکز کا استعمال کرتے ہوئے Amazon SageMaker ڈومین پر آن بورڈ).

حل واک تھرو

اپنے شروع سیج میکر اسٹوڈیو ماحول بنائیں اور ایک نیا بنائیں ڈیٹا رینگلر کا بہاؤ. آپ یا تو اپنا ڈیٹاسیٹ درآمد کرسکتے ہیں یا نمونہ ڈیٹاسیٹ استعمال کرسکتے ہیں (ٹائٹینکجیسا کہ مندرجہ ذیل تصویر میں دیکھا گیا ہے۔ یہ دو نوڈس (the ذرائع نوڈ اور اعداد و شمار ٹائپ نوڈ) کلک کے قابل ہیں - جب آپ ان دو نوڈس پر ڈبل کلک کریں گے تو ڈیٹا رینگلر ٹیبل کو ظاہر کرے گا۔

ہمارے معاملے میں، آئیے پر دائیں کلک کریں۔ ڈیٹا کی اقسام آئیکن اور ایک تبدیلی شامل کریں۔:

اب آپ کو ہر کالم کے اوپر تصورات نظر آنے چاہئیں۔ براہ کرم چارٹس کو لوڈ ہونے کے لیے کچھ وقت دیں۔ تاخیر کا انحصار ڈیٹاسیٹ کے سائز پر ہوتا ہے (ٹائٹینک ڈیٹاسیٹ کے لیے، اسے پہلے سے طے شدہ مثال میں 1-2 سیکنڈ لگنا چاہیے)۔

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عی

ٹول ٹپ پر ہوور کر کے افقی ٹاپ بار تک سکرول کریں۔ اب جب کہ چارٹس لوڈ ہو چکے ہیں، آپ ڈیٹا کی تقسیم، غلط اقدار، اور گمشدہ اقدار دیکھ سکتے ہیں۔ آؤٹ لیرز اور گمشدہ اقدار غلط ڈیٹا کی خصوصیات ہیں، اور ان کی شناخت کرنا بہت ضروری ہے کیونکہ وہ آپ کے نتائج کو متاثر کر سکتے ہیں۔ اس کا مطلب یہ ہے کہ چونکہ آپ کا ڈیٹا غیر نمائندہ نمونے سے آیا ہے، اس لیے آپ کے نتائج آپ کے مطالعے سے باہر کے حالات کے لیے عام نہیں ہو سکتے۔ اقدار کی درجہ بندی نیچے چارٹ پر دیکھی جا سکتی ہے جہاں درست اقدار کو سفید میں دکھایا جاتا ہے، غلط نیلے رنگ میں اقدار، اور لاپتہ جامنی رنگ میں اقدار. آپ بھی دیکھ سکتے ہیں۔ outliers چارٹ کے بائیں یا دائیں نیلے نقطوں سے دکھایا گیا ہے۔

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عی

تمام تصورات ہسٹوگرام کی شکل میں آتے ہیں۔ غیر واضح اعداد و شمار کے لیے، ہر ڈبے کے لیے ایک بالٹی سیٹ کی وضاحت کی گئی ہے۔ واضح اعداد و شمار کے لیے، ہر منفرد قدر کو ایک بن کے طور پر سمجھا جاتا ہے۔ ہسٹوگرام کے اوپر، ایک بار چارٹ ہے جو آپ کو غلط اور غائب اقدار دکھاتا ہے۔ ہم عددی، زمرہ، بائنری، ٹیکسٹ، اور ڈیٹ ٹائم کی قسموں کے لیے درست قدروں کے تناسب کے ساتھ ساتھ کل null اور خالی سیلوں کی بنیاد پر غائب اقدار کا تناسب اور آخر میں، غلط اقدار کا تناسب دیکھ سکتے ہیں۔ آئیے یہ سمجھنے کے لیے کچھ مثالیں دیکھیں کہ آپ ان کا استعمال کیسے کر سکتے ہیں۔ ڈیٹا رینگلر کا پہلے سے بھرا ہوا نمونہ ٹائٹینک ڈیٹا سیٹ.

مثال 1 - ہم 20% لاپتہ اقدار کو دیکھ سکتے ہیں۔ AGE خصوصیت/کالم۔ ڈیٹا سے متعلق تحقیق/ML کے میدان میں گمشدہ ڈیٹا سے نمٹنا بہت ضروری ہے، یا تو اسے ہٹا کر یا اس پر الزام لگا کر (کچھ اندازے کے ساتھ گمشدہ اقدار کو سنبھالنا)۔

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عی
آپ لاپتہ اقدار پر کارروائی کر سکتے ہیں۔ گمشدہ اقدار کو ہینڈل کریں۔ گروپ کو تبدیل کریں. کا استعمال کرتے ہیں Impute لاپتہ ان پٹ کالم میں لاپتہ قدریں پائی جانے والی قیمتوں کو پیدا کرنے کے لیے تبدیل کریں۔ ترتیب آپ کے ڈیٹا کی قسم پر منحصر ہے۔

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عی

اس مثال میں ، AGE کالم میں عددی ڈیٹا کی قسم ہے۔ مواخذہ کی حکمت عملی کے لیے، ہم الزام لگانے کا انتخاب کر سکتے ہیں۔ مطلب یا تخمینی میڈین ان اقدار پر جو آپ کے ڈیٹاسیٹ میں موجود ہیں۔

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عی

اب جب کہ ہم نے تبدیلی کو شامل کیا ہے، ہم دیکھ سکتے ہیں کہ AGE کالم میں اب قدر غائب نہیں ہے۔

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عی

مثال 2 - ہم کے لیے 27% غلط اقدار کو دیکھ سکتے ہیں۔ ٹکٹ خصوصیت/کالم جو کہ کا ہے۔ STRING قسم غلط ڈیٹا متعصبانہ اندازے پیدا کر سکتا ہے، جو ماڈل کی درستگی کو کم کر سکتا ہے اور اس کے نتیجے میں غلط نتائج نکل سکتے ہیں۔ آئیے ہم کچھ ٹرانسفارمز کو تلاش کرتے ہیں جنہیں ہم میں غلط ڈیٹا کو ہینڈل کرنے کے لیے استعمال کر سکتے ہیں۔ ٹکٹ کالم.

اسکرین شاٹ کو دیکھتے ہوئے، ہم دیکھتے ہیں کہ کچھ ان پٹ ایک فارمیٹ میں لکھے گئے ہیں جو ہندسوں سے پہلے حروف تہجی پر مشتمل ہے "پی سی 17318"اور دیگر صرف ہندسے ہیں جیسے "11769".

ہم تاروں کے اندر مخصوص نمونوں کو تلاش کرنے اور اس میں ترمیم کرنے کے لیے ایک تبدیلی کا اطلاق کرنے کا انتخاب کر سکتے ہیں جیسے کہ "پی سی" اور ان کی جگہ لے لو. اگلا، ہم اپنے کاسٹ کر سکتے ہیں سٹرنگ ایک نئی قسم کے کالم جیسے لانگ استعمال میں آسانی کے لئے.

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عی

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عی

یہ اب بھی ہمارے پاس 19% لاپتہ اقدار کے ساتھ چھوڑ دیتا ہے۔ ٹکٹ خصوصیت مثال 1 کی طرح، اب ہم وسط یا تخمینی میڈین کا استعمال کرتے ہوئے گمشدہ اقدار کا حساب لگا سکتے ہیں۔ خصوصیت ٹکٹ ذیل کی تصویر کے مطابق اب غلط یا غائب اقدار نہیں ہونی چاہئیں۔

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عی

اس بات کو یقینی بنانے کے لیے کہ اس ٹیوٹوریل کو فالو کرنے کے بعد آپ کو چارجز نہ لگیں، یقینی بنائیں کہ آپ ڈیٹا رینگلر ایپ کو بند کریں۔.

نتیجہ 

اس پوسٹ میں، ہم نے نیا پیش کیا۔ ایمیزون سیج میکر ڈیٹا رینگلر ویجیٹ جو ہٹانے میں مدد کرے گا۔ غیر امتیازی بھاری لفٹنگ آخری صارفین کے لیے ڈیٹا کی تیاری کے دوران ہر خصوصیت کے لیے خود بخود منظر نگاری اور ڈیٹا پروفائلنگ بصیرت کے ساتھ۔ یہ ویجیٹ ڈیٹا کو تصور کرنا آسان بناتا ہے (مثال کے طور پر، واضح/غیر زمرہ دار ہسٹوگرام)، ڈیٹا کوالٹی کے مسائل کا پتہ لگانا (مثال کے طور پر، گمشدہ اقدار اور غلط اقدار)، اور سطحی ڈیٹا کی بصیرتیں (مثال کے طور پر، آؤٹ لیرز اور ٹاپ N آئٹم)۔

آپ آج ہی اس صلاحیت کا استعمال ان تمام خطوں میں شروع کر سکتے ہیں جہاں SageMaker Studio دستیاب ہے۔ اسے آزمائیں، اور ہمیں بتائیں کہ آپ کیا سوچتے ہیں۔ ہم ہمیشہ آپ کے تاثرات کے منتظر رہتے ہیں، یا تو آپ کے معمول کے AWS سپورٹ رابطوں کے ذریعے، یا پر AWS فورم سیج میکر کے لیے۔


مصنفین کے بارے میں

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عیعشاء کی دعا سان فرانسسکو بے ایریا میں مقیم ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ وہ AWS انٹرپرائز کے صارفین کو ان کے اہداف اور چیلنجوں کو سمجھ کر بڑھنے میں مدد کرتی ہے، اور ان کی رہنمائی کرتی ہے کہ وہ کس طرح اپنی ایپلی کیشنز کو کلاؤڈ-نیٹیو انداز میں آرکیٹیکٹ کر سکتے ہیں جبکہ یہ یقینی بناتے ہوئے کہ وہ لچکدار اور قابل توسیع ہیں۔ وہ مشین لرننگ ٹیکنالوجیز اور ماحولیاتی پائیداری کے بارے میں پرجوش ہے۔

ایمیزون سیج میکر ڈیٹا رینگلر کی نئی ایمبیڈڈ ویژولائزیشنز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کا تعارف۔ عمودی تلاش۔ عیپارتھ پٹیل سان فرانسسکو بے ایریا میں AWS میں ایک حل آرکیٹیکٹ ہے۔ پارتھ صارفین کو کلاؤڈ تک اپنے سفر کو تیز کرنے کے لیے رہنمائی کرتا ہے اور AWS کلاؤڈ کو کامیابی سے اپنانے میں ان کی مدد کرتا ہے۔ وہ ایم ایل اور ایپلیکیشن ماڈرنائزیشن پر توجہ مرکوز کرتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ