Identifying And Avoiding Common Data Issues While Building No Code ML Models With Amazon SageMaker Canvas

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

کاروباری تجزیہ کار ڈیٹا کے ساتھ کام کرتے ہیں اور مؤثر کاروباری نتائج حاصل کرنے کے لیے ڈیٹا کا تجزیہ، دریافت اور سمجھنا پسند کرتے ہیں۔ کاروباری مسائل کو حل کرنے کے لیے، وہ اکثر مشین لرننگ (ML) پریکٹیشنرز جیسے ڈیٹا سائنسدانوں پر انحصار کرتے ہیں تاکہ موجودہ ڈیٹا کا استعمال کرتے ہوئے ماڈلز بنانے اور پیشین گوئیاں پیدا کرنے کے لیے ML کا استعمال کرنے جیسی تکنیکوں میں مدد کریں۔ تاہم، یہ ہمیشہ ممکن نہیں ہوتا ہے، کیونکہ ڈیٹا سائنسدان عام طور پر اپنے کاموں سے منسلک ہوتے ہیں اور تجزیہ کاروں کی مدد کے لیے ان کے پاس بینڈوتھ نہیں ہوتی ہے۔

کاروباری تجزیہ کار کے طور پر آزاد ہونے اور اپنے اہداف کو حاصل کرنے کے لیے، استعمال میں آسان، بدیہی، اور بصری ٹولز کے ساتھ کام کرنا مثالی ہوگا جو تفصیلات جاننے اور کوڈ استعمال کرنے کی ضرورت کے بغیر ML کا استعمال کرتے ہیں۔ ان ٹولز کو استعمال کرنے سے آپ کو اپنے کاروباری مسائل حل کرنے اور مطلوبہ نتائج حاصل کرنے میں مدد ملے گی۔

آپ کو اور آپ کی تنظیم کو مزید موثر بننے میں مدد کرنے اور کوڈ لکھے بغیر ML کا استعمال کرنے کے مقصد کے ساتھ، ہم ایمیزون سیج میکر کینوس متعارف کرایا. یہ بغیر کوڈ والا ML حل ہے جو آپ کو تکنیکی تفصیلات، جیسے ML الگورتھم اور تشخیصی میٹرکس کے بارے میں جاننے کی ضرورت کے بغیر درست ML ماڈل بنانے میں مدد کرتا ہے۔ SageMaker Canvas ایک بصری، بدیہی انٹرفیس پیش کرتا ہے جو آپ کو کوڈ کی ایک لائن لکھے بغیر ڈیٹا درآمد کرنے، ML ماڈلز کو تربیت دینے، ماڈل کا تجزیہ کرنے، اور ML کی پیشین گوئیاں پیدا کرنے دیتا ہے۔

تجربہ کرنے کے لیے SageMaker Canvas کا استعمال کرتے وقت، آپ کو ڈیٹا کوالٹی کے مسائل کا سامنا کرنا پڑ سکتا ہے جیسے کہ اقدار کی کمی یا مسئلہ کی غلط قسم۔ ایم ایل ماڈل کی تربیت کے بعد اس عمل میں کافی دیر تک یہ مسائل دریافت نہیں ہوسکتے ہیں۔ اس چیلنج کو کم کرنے کے لیے، SageMaker Canvas اب ڈیٹا کی توثیق کی حمایت کرتا ہے۔ یہ فیچر فعال طور پر آپ کے ڈیٹا میں مسائل کی جانچ کرتا ہے اور حل کے لیے رہنمائی فراہم کرتا ہے۔

اس پوسٹ میں، ہم یہ ظاہر کریں گے کہ آپ ماڈل بنانے سے پہلے SageMaker Canvas میں ڈیٹا کی توثیق کی صلاحیت کو کس طرح استعمال کر سکتے ہیں۔ جیسا کہ نام سے پتہ چلتا ہے، یہ خصوصیت آپ کے ڈیٹاسیٹ کی توثیق کرتی ہے، مسائل کی اطلاع دیتی ہے، اور ان کو ٹھیک کرنے کے لیے مفید اشارے فراہم کرتی ہے۔ بہتر کوالٹی ڈیٹا استعمال کرنے سے، آپ بہتر کارکردگی کا مظاہرہ کرنے والے ML ماڈل کے ساتھ ختم ہو جائیں گے۔

سیج میکر کینوس میں ڈیٹا کی توثیق کریں۔

ڈیٹا کی توثیق سیج میکر کینوس میں ایک نئی خصوصیت ہے تاکہ ممکنہ ڈیٹا کے معیار کے مسائل کو فعال طور پر چیک کیا جا سکے۔ ڈیٹا درآمد کرنے اور ٹارگٹ کالم منتخب کرنے کے بعد، آپ کو اپنے ڈیٹا کی توثیق کرنے کا انتخاب دیا جائے گا جیسا کہ یہاں دکھایا گیا ہے:

اگر آپ اپنے ڈیٹا کی توثیق کرنے کا انتخاب کرتے ہیں، تو کینوس آپ کے ڈیٹا کا متعدد شرائط کے لیے تجزیہ کرتا ہے بشمول:

آپ کے ہدف والے کالم میں بہت زیادہ منفرد لیبلز ہیں۔ - زمرہ کی پیشن گوئی ماڈل کی قسم کے لیے
آپ کے ڈیٹا میں قطاروں کی تعداد کے لیے آپ کے ہدف والے کالم میں بہت زیادہ منفرد لیبلز ہیں۔ - زمرہ کی پیشن گوئی ماڈل کی قسم کے لیے
آپ کے ڈیٹا کے لیے غلط ماڈل کی قسم - ماڈل کی قسم اس ڈیٹا کے مطابق نہیں ہے جس کی آپ ٹارگٹ کالم میں پیش گوئی کر رہے ہیں۔
بہت زیادہ غلط قطاریں۔ - آپ کے ٹارگٹ کالم میں قدریں غائب ہیں۔
تمام فیچر کالم ٹیکسٹ کالم ہیں - انہیں معیاری تعمیرات کے لیے چھوڑ دیا جائے گا۔
بہت کم کالم - آپ کے ڈیٹا میں بہت کم کالم ہیں۔
کوئی مکمل قطاریں نہیں ہیں۔ - آپ کے ڈیٹا کی تمام قطاریں گمشدہ اقدار پر مشتمل ہیں۔
ایک یا زیادہ کالم کے ناموں میں ڈبل انڈر سکور ہوتے ہیں۔ - سیج میکر کالم ہیڈر میں (__) کو نہیں سنبھال سکتا ہے۔

ہر توثیق کے معیار کی تفصیلات اس پوسٹ کے بعد کے حصوں میں فراہم کی جائیں گی۔

اگر تمام چیک پاس ہو جاتے ہیں، تو آپ کو درج ذیل تصدیق ملے گی: "آپ کے ڈیٹاسیٹ میں کوئی مسئلہ نہیں ملا"۔

اگر کوئی مسئلہ پایا جاتا ہے، تو آپ کو دیکھنے اور سمجھنے کے لیے ایک اطلاع ملے گی۔ اس سے ڈیٹا کے معیار کے مسائل جلد سامنے آتے ہیں، اور یہ آپ کو اس عمل میں مزید وقت اور وسائل کو ضائع کرنے سے پہلے فوری طور پر حل کرنے دیتا ہے۔

آپ اپنی ایڈجسٹمنٹ کر سکتے ہیں اور اپنے ڈیٹا سیٹ کی توثیق کرتے رہ سکتے ہیں جب تک کہ تمام مسائل حل نہیں ہو جاتے۔

ہدف کے کالم اور ماڈل کی اقسام کی توثیق کریں۔

جب آپ سیج میکر کینوس میں ایم ایل ماڈل بنا رہے ہیں، تو ڈیٹا کوالٹی سے متعلق کئی مسائل ہدف کالم آپ کے ماڈل کی تعمیر ناکام ہو سکتی ہے۔ سیج میکر کینوس مختلف قسم کے مسائل کی جانچ کرتا ہے جو آپ کو متاثر کر سکتے ہیں۔ ہدف کالم.

اپنے ہدف والے کالم کے لیے، چیک کریں۔ آپ کے ڈیٹا کے لیے غلط ماڈل کی قسم. مثال کے طور پر، اگر 2 زمرہ کی پیشین گوئی کا ماڈل منتخب کیا گیا ہے لیکن آپ کے ہدف والے کالم میں 2 سے زیادہ منفرد لیبل ہیں، تو SageMaker Canvas مندرجہ ذیل تصدیقی انتباہ فراہم کرے گا۔
اگر ماڈل کی قسم 2 یا 3+ زمرہ کی پیشین گوئی ہے، تو آپ کو تصدیق کرنی ہوگی۔ بہت سارے منفرد لیبلز اپنے ہدف والے کالم کے لیے. منفرد کلاسز کی زیادہ سے زیادہ تعداد 2000 ہے۔ اگر آپ اپنے ٹارگٹ کالم میں 2000 سے زیادہ منفرد اقدار کے ساتھ ایک کالم منتخب کرتے ہیں، تو کینوس مندرجہ ذیل توثیق کی وارننگ فراہم کرے گا۔
بہت سارے منفرد ٹارگٹ لیبلز کے علاوہ، آپ کو بھی ہوشیار رہنا چاہیے۔ آپ کے ڈیٹا میں قطاروں کی تعداد کے لیے بہت سے منفرد ٹارگٹ لیبلز۔ سیج میکر کینوس ٹارگٹ لیبل کے تناسب کو لاگو کرتا ہے جو کل قطاروں کی تعداد 10% سے کم ہو۔ یہ اس بات کو یقینی بناتا ہے کہ آپ کے پاس اعلیٰ معیار کے ماڈل کے لیے ہر زمرے کے لیے کافی نمائندگی ہے اور اوور فٹنگ کے امکانات کو کم کیا جا سکتا ہے۔ آپ کے ماڈل کو اوور فٹنگ سمجھا جاتا ہے جب یہ تربیتی ڈیٹا پر اچھی پیش گوئی کرتا ہے لیکن نئے ڈیٹا پر نہیں جو اس نے پہلے نہیں دیکھا۔ رجوع کریں۔ یہاں مزید جاننے کے لئے.
آخر میں، ہدف کے کالم کے لیے آخری چیک ہے۔ بہت زیادہ غلط قطاریں. اگر آپ کے ٹارگٹ کالم میں 10% سے زیادہ ڈیٹا غائب یا غلط ہے، تو یہ آپ کے ماڈل کی کارکردگی کو متاثر کرے گا، اور بعض صورتوں میں آپ کے ماڈل کی تعمیر ناکام ہو جائے گی۔ درج ذیل مثال میں ٹارگٹ کالم میں بہت سی گم شدہ اقدار (>90% غائب) ہیں، اور آپ کو درج ذیل توثیق کی وارننگ ملتی ہے۔

اگر آپ کو اپنے ہدف والے کالم کے لیے مندرجہ بالا انتباہات میں سے کوئی بھی ملتا ہے، تو مسائل کو کم کرنے کے لیے درج ذیل اقدامات کا استعمال کریں:

کیا آپ صحیح ہدف کالم استعمال کر رہے ہیں؟
کیا آپ نے ماڈل کی صحیح قسم کا انتخاب کیا؟
کیا آپ اپنے ڈیٹاسیٹ میں فی ہدف لیبل میں قطاروں کی تعداد بڑھا سکتے ہیں؟
کیا آپ ملتے جلتے لیبلز کو اکٹھا/گروپ کر سکتے ہیں؟
کیا آپ گمشدہ/غلط اقدار کو بھر سکتے ہیں؟
کیا آپ کے پاس اتنا ڈیٹا ہے کہ آپ گمشدہ/غلط اقدار کو چھوڑ سکتے ہیں؟
اگر مندرجہ بالا تمام اختیارات انتباہ کو صاف نہیں کر رہے ہیں، تو آپ کو ایک مختلف ڈیٹا سیٹ استعمال کرنے پر غور کرنا چاہیے۔

ملاحظہ کریں سیج میکر کینوس ڈیٹا ٹرانسفارمیشن دستاویزات اوپر بیان کردہ تقرری کے مراحل کو انجام دینے کے لیے۔

تمام کالموں کی توثیق کریں۔

ٹارگٹ کالم کے علاوہ، آپ دوسرے ڈیٹا کالمز (فیچر کالم) کے ساتھ بھی ڈیٹا کوالٹی کے مسائل کا شکار ہو سکتے ہیں۔ فیچرز کالم ان پٹ ڈیٹا ہوتے ہیں جو ML پیشین گوئی کرنے کے لیے استعمال ہوتے ہیں۔

ہر ڈیٹاسیٹ میں کم از کم 1 فیچر کالم اور 1 ٹارگٹ کالم (مجموعی طور پر 2 کالم) ہونا چاہیے۔ بصورت دیگر، سیج میکر کینوس آپ کو ایک دے گا۔ آپ کے ڈیٹا میں بہت کم کالم ہیں۔ انتباہ ماڈل بنانے کے ساتھ آگے بڑھنے سے پہلے آپ کو اس ضرورت کو پورا کرنا ہوگا۔
اس کے بعد، آپ کو یہ یقینی بنانا ہوگا کہ آپ کے ڈیٹا میں کم از کم 1 عددی کالم ہے۔ اگر نہیں، تو آپ کو مل جائے گا۔ تمام فیچر کالم ٹیکسٹ کالم ہیں۔ انتباہ اس کی وجہ یہ ہے کہ ٹیکسٹ کالم عام طور پر معیاری تعمیرات کے دوران گرائے جاتے ہیں، اس طرح ماڈل میں تربیت کے لیے کوئی خصوصیت نہیں رہ جاتی ہے۔ لہذا، یہ آپ کے ماڈل کی عمارت کو ناکام بنا دے گا۔ آپ SageMaker Canvas کا استعمال کر سکتے ہیں کچھ ٹیکسٹ کالموں کو نمبروں میں انکوڈ کرنے کے لیے یا معیاری تعمیر کے بجائے کوئیک بلڈ استعمال کر سکتے ہیں۔
تیسری قسم کی وارننگ جو آپ فیچر کالمز کے لیے حاصل کر سکتے ہیں۔ کوئی مکمل قطاریں نہیں ہیں۔. یہ توثیق چیک کرتی ہے کہ آیا آپ کے پاس کم از کم ایک قطار ہے جس میں کوئی قدر غائب نہیں ہے۔ سیج میکر کینوس کو کم از کم ایک مکمل قطار درکار ہے، بصورت دیگر آپ کا فوری تعمیر ناکام ہو جائے گا. ماڈل بنانے سے پہلے گمشدہ اقدار کو بھرنے کی کوشش کریں۔
توثیق کی آخری قسم ہے۔ ایک یا زیادہ کالم کے ناموں میں ڈبل انڈر سکور ہوتے ہیں۔. یہ سیج میکر کینوس کی مخصوص ضرورت ہے۔ اگر آپ کے کالم ہیڈر میں ڈبل انڈر سکور (__) ہیں، تو یہ آپ کے فوری تعمیر ناکام ہونا کسی بھی ڈبل انڈر سکور کو ہٹانے کے لیے کالم کا نام تبدیل کریں، اور پھر دوبارہ کوشش کریں۔

صاف کرو

تاکہ مستقبل میں نقصان سے بچا جا سکے۔ سیشن چارجزسیج میکر کینوس سے لاگ آؤٹ کریں۔

نتیجہ

سیج میکر کینوس ایک بغیر کوڈ کا ایم ایل حل ہے جو کاروباری تجزیہ کاروں کو درست ایم ایل ماڈل بنانے اور بصری، پوائنٹ اور کلک انٹرفیس کے ذریعے پیشین گوئیاں پیدا کرنے کی اجازت دیتا ہے۔ ہم نے آپ کو دکھایا کہ کس طرح SageMaker Canvas آپ کو ڈیٹا کے معیار کو یقینی بنانے میں مدد کرتا ہے اور ڈیٹا سیٹ کو فعال طور پر درست کر کے ڈیٹا کے مسائل کو کم کرتا ہے۔ مسائل کی جلد شناخت کر کے، SageMaker Canvas آپ کو معیاری ML ماڈل بنانے اور ڈیٹا سائنس اور پروگرامنگ میں مہارت کے بغیر تعمیراتی تکرار کو کم کرنے میں مدد کرتا ہے۔ اس نئی خصوصیت کے بارے میں مزید جاننے کے لیے، ملاحظہ کریں۔ سیج میکر کینوس دستاویزات۔

شروع کرنے اور SageMaker Canvas کے بارے میں مزید جاننے کے لیے، درج ذیل وسائل سے رجوع کریں:

مصنفین کے بارے میں

ہری ہرن سریش AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ وہ ڈیٹا بیس، مشین لرننگ، اور اختراعی حل ڈیزائن کرنے کا شوق رکھتا ہے۔ AWS میں شامل ہونے سے پہلے، ہری ہرن ایک پروڈکٹ آرکیٹیکٹ، کور بینکنگ کے نفاذ کے ماہر، اور ڈویلپر تھے، اور انہوں نے BFSI تنظیموں کے ساتھ 11 سال سے زیادہ کام کیا۔ ٹیکنالوجی سے باہر، وہ پیراگلائیڈنگ اور سائیکلنگ سے لطف اندوز ہوتا ہے۔

سائیناتھ مریالہ AWS میں ایک سینئر ٹیکنیکل اکاؤنٹ مینیجر ہے جو امریکہ میں آٹوموٹیو صارفین کے لیے کام کر رہا ہے۔ سائیناتھ AI/ML کا استعمال کرتے ہوئے بڑے پیمانے پر تقسیم شدہ ایپلیکیشنز کو ڈیزائن اور بنانے کا شوق رکھتے ہیں۔ اپنے فارغ وقت میں سائیناتھ خاندان اور دوستوں کے ساتھ وقت گزارتے ہیں۔

جیمز وو AWS میں ایک سینئر AI/ML ماہر حل آرکیٹیکٹ ہے۔ AI/ML سلوشنز کو ڈیزائن اور بنانے میں صارفین کی مدد کرنا۔ جیمز کا کام ایم ایل کے استعمال کے کیسز کی ایک وسیع رینج پر محیط ہے، جس میں کمپیوٹر ویژن، گہری سیکھنے، اور پورے انٹرپرائز میں ایم ایل کی پیمائش میں بنیادی دلچسپی ہے۔ AWS میں شامل ہونے سے پہلے، جیمز 10 سال سے زائد عرصے تک ایک معمار، ڈویلپر، اور ٹیکنالوجی لیڈر تھے، جس میں 6 سال انجینئرنگ اور 4 سال مارکیٹنگ اور اشتہاری صنعتوں میں شامل تھے۔

ٹائم اسٹیمپ: نومبر 10، 2022نومبر 11، 2022

ٹائم اسٹیمپ: دسمبر 12، 2023

ایمیزون سیج میکر کینوس کے ساتھ بغیر کوڈ ایم ایل ماڈلز کی تعمیر کے دوران عام ڈیٹا کے مسائل کی نشاندہی کرنا اور ان سے بچنا

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

سیج میکر کینوس میں ڈیٹا کی توثیق کریں۔

ہدف کے کالم اور ماڈل کی اقسام کی توثیق کریں۔

تمام کالموں کی توثیق کریں۔

صاف کرو

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

IMDb علمی گراف کا استعمال کرتے ہوئے طاقت کی سفارشات اور تلاش - حصہ 3

محفوظ ایمیزون سیج میکر اسٹوڈیو کے تیار کردہ یو آر ایل حصہ 3: اسٹوڈیو تک ملٹی اکاؤنٹ پرائیویٹ API رسائی

ایمیزون لیکس | ایمیزون ویب سروسز

Amazon Textract کے ساتھ ٹریس ایبل، اپنی مرضی کے مطابق، ملٹی فارمیٹ دستاویز کو پارس کرنے والی پائپ لائن بنائیں

Amazon Textract، Amazon Bedrock، اور LangChain کے ساتھ ذہین دستاویز کی پروسیسنگ | ایمیزون ویب سروسز

Frugality درستگی پر پورا اترتا ہے: AWS Trainium کے ساتھ GPT NeoX اور Pythia ماڈلز کی سستی تربیت | ایمیزون ویب سروسز

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ