ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ

ڈیٹا ایندھن مشین لرننگ (ML)؛ ڈیٹا کے معیار کا براہ راست اثر ML ماڈلز کے معیار پر پڑتا ہے۔ لہذا، ڈیٹا کے معیار کو بہتر بنانا اور صحیح فیچر انجینئرنگ تکنیکوں کا استعمال درست ایم ایل ماڈلز بنانے کے لیے اہم ہے۔ ایم ایل کے پریکٹیشنرز زیادہ سے زیادہ ماڈلز کی تلاش میں فیچر انجینئرنگ، الگورتھم کے انتخاب، اور ایم ایل کے دیگر پہلوؤں پر اکثر تھکاوٹ کے ساتھ اعادہ کرتے ہیں جو حقیقی دنیا کے ڈیٹا کو اچھی طرح سے عام کرتے ہیں اور مطلوبہ نتائج فراہم کرتے ہیں۔ چونکہ کاروبار کرنے کی رفتار غیر متناسب طور پر اہمیت رکھتی ہے، اس لیے یہ انتہائی تکلیف دہ اور تکراری عمل پروجیکٹ میں تاخیر اور کاروباری مواقع کھو دینے کا باعث بن سکتا ہے۔

ایمیزون سیج میکر ڈیٹا رینگلر ایم ایل کے لیے ڈیٹا کو جمع کرنے اور تیار کرنے کے لیے ہفتوں سے منٹوں تک کا وقت کم کر دیتا ہے، اور ایمیزون سیج میکر آٹو پائلٹ خود بخود آپ کے ڈیٹا کی بنیاد پر بہترین ML ماڈلز بناتا، ٹرین کرتا اور ٹیون کرتا ہے۔ آٹو پائلٹ کے ساتھ، آپ اب بھی اپنے ڈیٹا اور ماڈل پر مکمل کنٹرول اور مرئیت برقرار رکھتے ہیں۔ دونوں خدمات ML پریکٹیشنرز کو مزید نتیجہ خیز بنانے اور وقت کی قدر کو تیز کرنے کے مقصد سے بنائی گئی ہیں۔

ڈیٹا رینگلر اب ایک متحد تجربہ فراہم کرتا ہے جو آپ کو ڈیٹا تیار کرنے اور آٹو پائلٹ میں ایم ایل ماڈل کو بغیر کسی رکاوٹ کے تربیت دینے کے قابل بناتا ہے۔ اس نئی لانچ کردہ خصوصیت کے ساتھ، اب آپ ڈیٹا رینگلر میں اپنا ڈیٹا تیار کر سکتے ہیں اور ڈیٹا رینگلر یوزر انٹرفیس (UI) سے براہ راست آٹو پائلٹ تجربات آسانی سے شروع کر سکتے ہیں۔ صرف چند کلکس کے ساتھ، آپ ایم ایل ماڈلز کو خود بخود بنا سکتے ہیں، تربیت دے سکتے ہیں اور ٹیون کر سکتے ہیں، جس سے جدید ترین فیچر انجینئرنگ تکنیکوں کو استعمال کرنا، اعلیٰ معیار کے ML ماڈلز کو تربیت دینا، اور اپنے ڈیٹا سے تیزی سے بصیرت حاصل کرنا آسان ہو جاتا ہے۔

اس پوسٹ میں، ہم اس بات پر بات کرتے ہیں کہ آپ ڈیٹا سیٹس کا تجزیہ کرنے اور آٹو پائلٹ میں اعلیٰ معیار کے ایم ایل ماڈلز کو آسانی سے بنانے کے لیے ڈیٹا رینگلر میں اس نئے مربوط تجربے کو کس طرح استعمال کر سکتے ہیں۔

ڈیٹا سیٹ کا جائزہ

پیما انڈین ایک مقامی گروہ ہیں جو میکسیکو اور ایریزونا، امریکہ میں رہتے ہیں۔ سٹڈیز Pima Indians کو ذیابیطس mellitus کے لیے ایک اعلی خطرہ والے آبادی والے گروپ کے طور پر دکھائیں۔ ذیابیطس جیسی دائمی بیماری کے لیے کسی فرد کے خطرے اور حساسیت کے امکان کا اندازہ لگانا اس اقلیتی گروہ کی صحت اور بہبود کو بہتر بنانے میں ایک اہم کام ہے۔

ہم استعمال کرتے ہیں پیما انڈین ذیابیطس پبلک ڈیٹاسیٹ ذیابیطس کے لیے کسی فرد کی حساسیت کا اندازہ لگانے کے لیے۔ ہم ڈیٹا رینگلر اور آٹو پائلٹ کے درمیان نئے انضمام پر توجہ مرکوز کرتے ہیں تاکہ ڈیٹا تیار کیا جا سکے اور کوڈ کی ایک سطر لکھے بغیر خود بخود ایک ML ماڈل بنائیں۔

ڈیٹا سیٹ میں 21 سال یا اس سے زیادہ عمر کی Pima ہندوستانی خواتین کے بارے میں معلومات شامل ہیں اور اس میں متعدد طبی پیش گو (آزاد) متغیرات اور ایک ہدف (انحصار) متغیر، نتیجہ شامل ہے۔ مندرجہ ذیل چارٹ ہمارے ڈیٹاسیٹ میں کالموں کی وضاحت کرتا ہے۔

کالم نام Description
حمل حاملہ ہونے کی تعداد
گلوکوز 2 گھنٹے کے اندر زبانی گلوکوز رواداری ٹیسٹ میں پلازما گلوکوز کا ارتکاز
فشار خون ڈائیسٹولک بلڈ پریشر (ملی میٹر Hg)
جلد کی موٹائی Triceps جلد کی تہ کی موٹائی (ملی میٹر)
انسلن 2 گھنٹے سیرم انسولین (mu U/ml)
بییمآئ باڈی ماس انڈیکس (کلوگرام میں وزن/(اونچائی میٹر میں)^2)
ذیابیطس پیڈیگری ذیابیطس نسباتی فنکشن
عمر سالوں میں عمر
نتائج ہدف متغیر

ڈیٹاسیٹ میں کل 768 خصوصیات کے ساتھ 9 ریکارڈز ہیں۔ ہم اس ڈیٹاسیٹ کو اس میں محفوظ کرتے ہیں۔ ایمیزون سادہ اسٹوریج بالٹی (Amazon S3) بطور CSV فائل اور پھر CSV کو براہ راست Amazon S3 سے ڈیٹا رینگلر فلو میں درآمد کریں۔

حل جائزہ

مندرجہ ذیل خاکہ اس بات کا خلاصہ کرتا ہے کہ ہم اس پوسٹ میں کیا حاصل کرتے ہیں۔[KT1]

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ڈیٹا سائنسدان، ڈاکٹر، اور دیگر طبی ڈومین کے ماہرین مریض کا ڈیٹا گلوکوز کی سطح، بلڈ پریشر، باڈی ماس انڈیکس، اور دیگر خصوصیات کے بارے میں معلومات فراہم کرتے ہیں جو ذیابیطس ہونے کے امکان کی پیش گوئی کرنے کے لیے استعمال ہوتے ہیں۔ Amazon S3 میں ڈیٹا سیٹ کے ساتھ، ہم ڈیٹا سیٹ کو ڈیٹا رینگلر میں درآمد کرتے ہیں تاکہ ایکسپلوریٹری ڈیٹا اینالیسس (EDA)، ڈیٹا پروفائلنگ، فیچر انجینئرنگ، اور ڈیٹاسیٹ کو ٹرین میں تقسیم کیا جا سکے اور ماڈل کی تعمیر اور جانچ کے لیے ٹیسٹ کیا جا سکے۔

اس کے بعد ہم ڈیٹا رینگلر انٹرفیس سے براہ راست ماڈل بنانے کے لیے آٹو پائلٹ کے نئے فیچر انٹیگریشن کا استعمال کرتے ہیں۔ ہم سب سے زیادہ F-beta سکور والے ماڈل کی بنیاد پر Autopilot کے بہترین ماڈل کا انتخاب کرتے ہیں۔ آٹو پائلٹ کے بہترین ماڈل تلاش کرنے کے بعد، ہم ایک چلاتے ہیں۔ سیج میکر بیچ ٹرانسفارم جانچ پر نوکری (ہولڈ آؤٹ) تشخیص کے لیے بہترین ماڈل کے نمونے کے ساتھ سیٹ۔

طبی ماہرین ایک پیشین گوئی حاصل کرنے کے لیے توثیق شدہ ماڈل کو نیا ڈیٹا فراہم کر سکتے ہیں تاکہ یہ معلوم کیا جا سکے کہ آیا کسی مریض کو ذیابیطس ہو سکتی ہے۔ ان بصیرت کے ساتھ، طبی ماہرین کمزور آبادی کی صحت اور بہبود کو بہتر بنانے کے لیے جلد علاج شروع کر سکتے ہیں۔ طبی ماہرین آٹو پائلٹ میں ماڈل کی تفصیل کا حوالہ دے کر بھی ماڈل کی پیشین گوئی کی وضاحت کر سکتے ہیں کیونکہ ان کے پاس ماڈل کی وضاحت، کارکردگی اور نمونے کی مکمل نمائش ہوتی ہے۔ ٹیسٹ سیٹ سے ماڈل کی توثیق کے علاوہ یہ مرئیت طبی ماہرین کو ماڈل کی پیشین گوئی کی صلاحیت پر زیادہ اعتماد فراہم کرتی ہے۔

ہم آپ کو درج ذیل اعلیٰ سطحی مراحل سے گزارتے ہیں۔

  1. ایمیزون S3 سے ڈیٹاسیٹ درآمد کریں۔
  2. ڈیٹا رینگلر کے ساتھ ای ڈی اے اور ڈیٹا پروفائلنگ انجام دیں۔
  3. آؤٹ لیرز اور گمشدہ اقدار کو سنبھالنے کے لیے فیچر انجینئرنگ انجام دیں۔
  4. ڈیٹا کو ٹرین اور ٹیسٹ سیٹ میں تقسیم کریں۔
  5. آٹو پائلٹ کے ساتھ ایک ماڈل کو تربیت دیں اور بنائیں۔
  6. SageMaker نوٹ بک کے ساتھ ہولڈ آؤٹ نمونے پر ماڈل کی جانچ کریں۔
  7. توثیق اور ٹیسٹ سیٹ کی کارکردگی کا تجزیہ کریں۔

شرائط

درج ذیل ضروری مراحل کو مکمل کریں:

  1. ڈیٹا سیٹ اپ لوڈ کریں۔ اپنی پسند کی S3 بالٹی میں۔
  2. یقینی بنائیں کہ آپ کے پاس ضروری اجازتیں ہیں۔ مزید معلومات کے لیے رجوع کریں۔ ڈیٹا رینگلر کے ساتھ شروعات کریں۔.
  3. ڈیٹا رینگلر استعمال کرنے کے لیے کنفیگر کردہ SageMaker ڈومین سیٹ اپ کریں۔ ہدایات کے لیے رجوع کریں۔ ایمیزون سیج میکر ڈومین پر آن بورڈ.

ڈیٹا رینگلر کے ساتھ اپنا ڈیٹاسیٹ درآمد کریں۔

آپ ڈیٹا رینگلر ڈیٹا فلو کو اپنے ML ورک فلوز میں ضم کر سکتے ہیں تاکہ ڈیٹا پری پروسیسنگ اور فیچر انجینئرنگ کو بہت کم یا بغیر کوڈنگ کے استعمال کر کے آسان اور ہموار کیا جا سکے۔ درج ذیل مراحل کو مکمل کریں:

  1. ایک نیا بنائیں ڈیٹا رینگلر کا بہاؤ.

اگر آپ پہلی بار ڈیٹا رینگلر کھول رہے ہیں، تو آپ کو اس کے تیار ہونے کے لیے چند منٹ انتظار کرنا پڑے گا۔

  1. ایمیزون S3 میں ذخیرہ کردہ ڈیٹاسیٹ کا انتخاب کریں اور اسے ڈیٹا رینگلر میں درآمد کریں۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ڈیٹا سیٹ درآمد کرنے کے بعد، آپ کو ڈیٹا رینگلر UI کے اندر ڈیٹا کے بہاؤ کا آغاز نظر آنا چاہیے۔ اب آپ کے پاس فلو ڈایاگرام ہے۔

  1. آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام اور منتخب کریں ترمیم کریں اس بات کی تصدیق کرنے کے لیے کہ ڈیٹا رینگلر نے خود بخود آپ کے ڈیٹا کالمز کے لیے درست ڈیٹا کی اقسام کا اندازہ لگایا ہے۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

اگر ڈیٹا کی قسمیں درست نہیں ہیں، تو آپ UI کے ذریعے آسانی سے ان میں ترمیم کر سکتے ہیں۔ اگر ڈیٹا کے متعدد ذرائع موجود ہیں، تو آپ ان میں شامل ہو سکتے ہیں یا جوڑ سکتے ہیں۔

اب ہم ایک تجزیہ تشکیل دے سکتے ہیں اور تبدیلیاں شامل کر سکتے ہیں۔

ڈیٹا بصیرت کی رپورٹ کے ساتھ تحقیقی ڈیٹا کا تجزیہ کریں۔

تحقیقی ڈیٹا کا تجزیہ ایم ایل ورک فلو کا ایک اہم حصہ ہے۔ ہم اپنے ڈیٹا کی پروفائل اور تقسیم کی بہتر تفہیم حاصل کرنے کے لیے ڈیٹا رینگلر کی نئی ڈیٹا بصیرت کی رپورٹ کا استعمال کر سکتے ہیں۔ رپورٹ میں خلاصہ کے اعدادوشمار، ڈیٹا کوالٹی وارننگز، ٹارگٹ کالم بصیرت، ایک فوری ماڈل، اور غیر معمولی اور نقلی قطاروں کے بارے میں معلومات شامل ہیں۔

  1. آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام اور منتخب کریں ڈیٹا کی بصیرت حاصل کریں۔.

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

  1. کے لئے ہدف کالممنتخب کریں نتائج.
  2. کے لئے مسئلہ کی قسم، اور (اختیاری طور پر) منتخب کریں۔ کی درجہ بندی.
  3. میں سے انتخاب کریں تخلیق کریں.

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

نتائج ڈیٹا سیٹ کے اعدادوشمار کے ساتھ خلاصہ ڈیٹا دکھاتے ہیں۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ہم ہسٹوگرام کے ساتھ لیبل والی قطاروں کی تقسیم، فوری ماڈل کی خصوصیت کے ساتھ ماڈل کے متوقع پیشن گوئی معیار کا تخمینہ، اور فیچر سمری ٹیبل بھی دیکھ سکتے ہیں۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ہم ڈیٹا بصیرت کی رپورٹ کا تجزیہ کرنے کی تفصیلات میں نہیں جاتے ہیں۔ کا حوالہ دیتے ہیں ایمیزون سیج میکر ڈیٹا رینگلر میں ڈیٹا کے معیار اور بصیرت کے ساتھ ڈیٹا کی تیاری کو تیز کریں۔ اس بارے میں اضافی تفصیلات کے لیے کہ آپ اپنے ڈیٹا کی تیاری کے مراحل کو تیز کرنے کے لیے ڈیٹا بصیرت کی رپورٹ کا استعمال کیسے کر سکتے ہیں۔

فیچر انجینئرنگ انجام دیں۔

اب جب کہ ہم نے اپنے ان پٹ کالموں کی تقسیم کو اعلیٰ سطح پر پروفائل اور تجزیہ کر لیا ہے، ہمارے ڈیٹا کے معیار کو بہتر بنانے کے لیے سب سے پہلا غور گم شدہ اقدار کو سنبھالنا ہو سکتا ہے۔

مثال کے طور پر، ہم جانتے ہیں کہ صفر (0) کے لیے Insulin کالم غائب اقدار کی نمائندگی کرتا ہے۔ ہم زیرو کو تبدیل کرنے کی سفارش پر عمل کر سکتے ہیں۔ NaN. لیکن قریب سے جانچنے پر، ہمیں معلوم ہوتا ہے کہ دیگر کالموں کے لیے کم از کم قدر 0 ہے۔ Glucose, BloodPressure, SkinThickness، اور BMI. ہمیں گمشدہ اقدار کو سنبھالنے کے لیے ایک طریقہ درکار ہے، لیکن درست ڈیٹا کے طور پر صفر والے کالموں کے لیے حساس ہونے کی ضرورت ہے۔ آئیے دیکھتے ہیں کہ ہم اسے کیسے ٹھیک کر سکتے ہیں۔

میں خصوصیت کی تفصیلات سیکشن، رپورٹ اٹھاتا ہے a بھیس ​​میں گم شدہ قدر خصوصیت کے لیے انتباہ Insulin.

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

کیونکہ میں صفر Insulin کالم حقیقت میں لاپتہ ڈیٹا ہیں، ہم استعمال کرتے ہیں ریجیکس کو لاپتہ میں تبدیل کریں۔ صفر کی قدروں کو خالی (گمشدہ اقدار) میں تبدیل کرنے کے لیے تبدیل کریں۔

  1. آگے جمع کا نشان منتخب کریں۔ ڈیٹا اقسام اور منتخب کریں شامل کریں تبدیل.
  2.  میں سے انتخاب کریں تلاش کریں اور ترمیم کریں۔.
  3. کے لئے تبدیلمنتخب کریں ریجیکس کو لاپتہ میں تبدیل کریں۔.
  4. کے لئے ان پٹ کالم، کالم منتخب کریں۔ Insulin, Glucose, BloodPressure, SkinThickness، اور BMI.
  5. کے لئے پاٹرن، داخل کریں 0.
  6. میں سے انتخاب کریں پیش نظارہ اور شامل کریں اس قدم کو بچانے کے لیے۔

کے تحت 0 اندراجات Insulin, Glucose, BloodPressure, SkinThickness، اور BMI اب اقدار غائب ہیں۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ڈیٹا رینگلر آپ کو گمشدہ اقدار کو ٹھیک کرنے کے لیے کچھ اور اختیارات دیتا ہے۔

  1. ہم لاپتہ اقدار کو تخمینی میڈین کا حساب لگا کر سنبھالتے ہیں۔ Glucose کالم.

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ہم یہ بھی یقینی بنانا چاہتے ہیں کہ ہماری خصوصیات ایک ہی پیمانے پر ہوں۔ ہم غلطی سے کسی خاص خصوصیت کو زیادہ وزن نہیں دینا چاہتے ہیں صرف اس وجہ سے کہ وہ ایک بڑی عددی رینج پر مشتمل ہے۔ ایسا کرنے کے لیے ہم اپنی خصوصیات کو معمول پر لاتے ہیں۔

  1. ایک نیا شامل کریں عمل عددی تبدیل کریں اور منتخب کریں اسکیل اقدار.
  2. کے لئے اسکیلرمنتخب کریں کم از کم اسکیلر.
  3. کے لئے ان پٹ کالمز، کالم منتخب کریں۔ Pregnancies, BloodPressure, Glucose, SkinThickness, Insulin, BMI، اور Age.
  4. سیٹ کریں کم سے کم کرنے کے لئے 0 اور زیادہ سے زیادہ کرنے کے لئے 1.

یہ یقینی بناتا ہے کہ ہماری خصوصیات اقدار کے درمیان ہیں۔ 0 اور 1.

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

اب جب کہ ہم نے کچھ خصوصیات بنائی ہیں، ہم ماڈل بنانے سے پہلے اپنے ڈیٹاسیٹ کو تربیت اور جانچ میں تقسیم کرتے ہیں۔

ڈیٹا کو تربیت اور جانچ میں تقسیم کریں۔

اپنے ML ورک فلو کے ماڈل بنانے کے مرحلے میں، آپ بیچ کی پیشین گوئیاں چلا کر اپنے ماڈل کی افادیت کو جانچتے ہیں۔ آپ تشخیص کے لیے ایک ٹیسٹنگ یا ہولڈ آؤٹ ڈیٹا سیٹ کو ایک طرف رکھ سکتے ہیں تاکہ یہ دیکھ سکیں کہ آپ کا ماڈل زمینی سچائی سے پیشین گوئیوں کا موازنہ کر کے کیسا کارکردگی دکھاتا ہے۔ عام طور پر، اگر ماڈل کی زیادہ پیشین گوئیاں اس سے ملتی ہیں۔ true لیبل، ہم ماڈل اچھی کارکردگی کا مظاہرہ کر رہا ہے کا تعین کر سکتے ہیں.

ہم ڈیٹا رینگلر کو ٹیسٹنگ کے لیے اپنے ڈیٹا سیٹ کو تقسیم کرنے کے لیے استعمال کرتے ہیں۔ ہم اپنے ڈیٹاسیٹ کا 90% تربیت کے لیے اپنے پاس رکھتے ہیں کیونکہ ہمارے پاس نسبتاً چھوٹا ڈیٹاسیٹ ہے۔ ہمارے ڈیٹاسیٹ کا بقیہ 10% ٹیسٹ ڈیٹاسیٹ کے طور پر کام کرتا ہے۔ ہم اس ڈیٹاسیٹ کو بعد میں اس پوسٹ میں آٹو پائلٹ ماڈل کی توثیق کرنے کے لیے استعمال کرتے ہیں۔

ہم اپنے ڈیٹا کو منتخب کرکے تقسیم کرتے ہیں۔ ڈیٹا تقسیم کریں۔ تبدیل اور انتخاب بے ترتیب تقسیم طریقہ کے طور پر. ہم 0.9 کو تربیت کے لیے تقسیم فیصد اور 0.1 کو جانچ کے لیے نامزد کرتے ہیں۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ڈیٹا کی تبدیلی اور فیچرنگ انجینئرنگ کے مراحل مکمل ہونے کے ساتھ، اب ہم ایک ماڈل کو تربیت دینے کے لیے تیار ہیں۔

ٹرین کریں اور ماڈل کی توثیق کریں۔

ہم ڈیٹا رینگلر ڈیٹا فلو UI سے ماڈل کو براہ راست تربیت دینے کے لیے آٹو پائلٹ کے ساتھ نئے ڈیٹا رینگلر انضمام کا استعمال کر سکتے ہیں۔

  1. آگے جمع کا نشان منتخب کریں۔ ڈیٹا بیس اور منتخب کریں ٹرین ماڈل.

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

  1. کے لئے ایمیزون S3 مقام، Amazon S3 مقام کی وضاحت کریں جہاں SageMaker آپ کا ڈیٹا برآمد کرتا ہے۔

آٹو پائلٹ اس مقام کو کسی ماڈل کو خود بخود تربیت دینے کے لیے استعمال کرتا ہے، جس سے آپ کو ڈیٹا رینگلر فلو کے آؤٹ پٹ لوکیشن کی وضاحت کرنے، پھر آٹو پائلٹ ٹریننگ ڈیٹا کے ان پٹ لوکیشن کی وضاحت کرنے سے وقت بچاتا ہے۔ اس سے زیادہ ہموار تجربہ ہوتا ہے۔

  1. میں سے انتخاب کریں برآمد اور ٹرین آٹو پائلٹ کے ساتھ ماڈل بلڈنگ شروع کرنا۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

آٹو پائلٹ خود بخود ٹریننگ ڈیٹا ان پٹ اور آؤٹ پٹ مقامات کا انتخاب کرتا ہے۔ آپ کو صرف ہدف کالم کی وضاحت کرنے اور کلک کرنے کی ضرورت ہے۔ تجربہ بنائیں اپنے ماڈل کو تربیت دینے کے لیے۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ہولڈ آؤٹ نمونے پر ماڈل کی جانچ کریں۔

جب آٹو پائلٹ تجربہ مکمل کرتا ہے، تو ہم تربیت کے نتائج دیکھ سکتے ہیں اور بہترین ماڈل کو دریافت کر سکتے ہیں۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

  1. میں سے انتخاب کریں ماڈل کی تفصیلات دیکھیں اپنے مطلوبہ ماڈل کے لیے، پھر منتخب کریں۔ کارکردگی ماڈل کی تفصیلات کے صفحے پر ٹیب۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

۔ کارکردگی ٹیب کئی ماڈل پیمائش کے ٹیسٹ دکھاتا ہے، بشمول کنفیوژن میٹرکس، پریزیشن/ریکال کریو (AUCPR) کے نیچے کا علاقہ، اور ریسیور آپریٹنگ کریکٹرک کریو (ROC) کے نیچے کا علاقہ۔ یہ ماڈل کی توثیق کی مجموعی کارکردگی کو واضح کرتے ہیں، لیکن وہ ہمیں یہ نہیں بتاتے ہیں کہ آیا ماڈل اچھی طرح سے عام ہو جائے گا۔ ہمیں ابھی بھی غیر دیکھے ہوئے ٹیسٹ کے اعداد و شمار پر تشخیص چلانے کی ضرورت ہے تاکہ یہ معلوم ہو سکے کہ ماڈل کس حد تک درست انداز میں پیش گوئی کرتا ہے کہ آیا کسی فرد کو ذیابیطس ہو گی۔

اس بات کو یقینی بنانے کے لیے کہ ماڈل کافی حد تک عام ہو جائے، ہم نے ٹیسٹ کے نمونے کو آزاد نمونے کے لیے الگ کر دیا ہے۔ ہم ایسا ڈیٹا رینگلر فلو UI میں کر سکتے ہیں۔

  1.  آگے جمع کا نشان منتخب کریں۔ ڈیٹا بیسمنتخب کریں برآمد کریں، اور منتخب کریں ایمیزون S3.

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

  1. ایمیزون S3 کا راستہ بتائیں۔

ہم اس راستے کا حوالہ دیتے ہیں جب ہم اگلے حصے میں توثیق کے لیے بیچ تخمینہ چلاتے ہیں۔

  1. ہولڈ آؤٹ نمونے پر بیچ کا اندازہ لگانے اور ٹیسٹ کی کارکردگی کا اندازہ لگانے کے لیے ایک نئی SageMaker نوٹ بک بنائیں۔ درج ذیل سے رجوع کریں۔ GitHub repo کے لئے نمونہ نوٹ بک توثیق کے لیے بیچ کا اندازہ چلانے کے لیے۔

توثیق اور ٹیسٹ سیٹ کی کارکردگی کا تجزیہ کریں۔

جب بیچ ٹرانسفارم مکمل ہو جاتا ہے، تو ہم ہولڈ آؤٹ ڈیٹاسیٹ کے اصل اور پیش گوئی شدہ نتائج کا موازنہ کرنے کے لیے ایک کنفیوژن میٹرکس بناتے ہیں۔

ہم اپنے نتائج سے 23 حقیقی مثبت اور 33 حقیقی منفی دیکھتے ہیں۔ ہمارے معاملے میں، حقیقی مثبتات اس ماڈل کا حوالہ دیتے ہیں جو کسی فرد کو ذیابیطس ہونے کی صحیح پیش گوئی کرتا ہے۔ اس کے برعکس، حقیقی منفی اس ماڈل کا حوالہ دیتے ہیں جو کسی فرد کو ذیابیطس نہ ہونے کی صحیح پیش گوئی کرتا ہے۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

ہمارے معاملے میں، درستگی اور یادداشت اہم میٹرکس ہیں۔ درستگی بنیادی طور پر ان تمام افراد کی پیمائش کرتی ہے جن کی ذیابیطس ہونے کی پیش گوئی کی گئی ہے، کتنے افراد کو واقعی ذیابیطس ہے؟ اس کے برعکس، یاد کرنے سے ان تمام افراد کی پیمائش کرنے میں مدد ملتی ہے جنہیں واقعی ذیابیطس ہے، کتنے لوگوں کو ذیابیطس ہونے کی پیش گوئی کی گئی تھی؟ مثال کے طور پر، آپ اعلی درستگی کے ساتھ ماڈل استعمال کرنا چاہتے ہیں کیونکہ آپ زیادہ سے زیادہ افراد کے ساتھ علاج کرنا چاہتے ہیں، خاص طور پر اگر علاج کے پہلے مرحلے کا ذیابیطس کے بغیر لوگوں پر کوئی اثر نہیں ہوتا ہے (یہ غلط مثبت ہیں — جن پر اس کا لیبل لگا ہوا ہے۔ جب حقیقت میں وہ ایسا نہیں کرتے)۔

ہم نتائج کا جائزہ لینے کے لیے ROC وکر (AUC) گراف کے نیچے کے علاقے کو بھی پلاٹ کرتے ہیں۔ AUC جتنا اونچا ہوگا، ماڈل کلاسوں کے درمیان فرق کرنے میں اتنا ہی بہتر ہے، جو ہمارے معاملے میں یہ ہے کہ ماڈل ذیابیطس کے ساتھ اور بغیر مریضوں کی تمیز کرنے میں کتنی اچھی کارکردگی کا مظاہرہ کرتا ہے۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عی

نتیجہ

اس پوسٹ میں، ہم نے دکھایا کہ ڈیٹا رینگلر اور آٹو پائلٹ کا استعمال کرتے ہوئے آپ کی ڈیٹا پروسیسنگ، فیچر انجینئرنگ، اور ماڈل بلڈنگ کو کیسے مربوط کیا جائے۔ ہم نے اس بات پر روشنی ڈالی کہ آپ کس طرح آسانی سے ڈیٹا رینگلر یوزر انٹرفیس سے آٹو پائلٹ کے ساتھ ماڈل کو آسانی سے تربیت اور ٹیون کر سکتے ہیں۔ اس انٹیگریشن فیچر کے ساتھ، ہم فیچر انجینئرنگ مکمل کرنے کے بعد بغیر کوئی کوڈ لکھے تیزی سے ایک ماڈل بنا سکتے ہیں۔ پھر ہم نے SageMaker Python SDK کے ساتھ AutoML کلاس کا استعمال کرتے ہوئے بیچ کی پیشین گوئیاں چلانے کے لیے Autopilot کے بہترین ماڈل کا حوالہ دیا۔

کم کوڈ اور آٹو ایم ایل حل جیسے ڈیٹا رینگلر اور آٹو پائلٹ مضبوط ایم ایل ماڈلز بنانے کے لیے کوڈنگ کے بارے میں گہرے علم کی ضرورت کو دور کرتے ہیں۔ ڈیٹا رینگلر کا استعمال شروع کریں۔ آج یہ تجربہ کرنے کے لیے کہ ایم ایل ماڈلز کو استعمال کرنا کتنا آسان ہے۔ سیج میکر آٹو پائلٹ.


مصنفین کے بارے میں

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عیپیٹر چنگ AWS کے لیے ایک سولیوشنز آرکیٹیکٹ ہے، اور صارفین کو ان کے ڈیٹا سے بصیرت کا پتہ لگانے میں مدد کرنے کے لیے پرجوش ہے۔ وہ سرکاری اور نجی دونوں شعبوں میں ڈیٹا پر مبنی فیصلے کرنے میں تنظیموں کی مدد کے لیے حل تیار کر رہا ہے۔ اس کے پاس تمام AWS سرٹیفیکیشنز کے ساتھ ساتھ دو GCP سرٹیفیکیشن بھی ہیں۔ وہ کافی، کھانا پکانے، متحرک رہنے اور اپنے خاندان کے ساتھ وقت گزارنے سے لطف اندوز ہوتا ہے۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عیپردیپ ریڈی SageMaker Low/No Code ML ٹیم میں ایک سینئر پروڈکٹ مینیجر ہے، جس میں SageMaker Autopilot، SageMaker Automatic Model Tuner شامل ہیں۔ کام سے باہر، پردیپ کو راسبیری پائی جیسے کھجور کے سائز کے کمپیوٹرز، اور دیگر گھریلو آٹومیشن ٹیک کے ساتھ پڑھنے، چلانے اور باہر نکلنے کا لطف آتا ہے۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عیارون پرستھ شنکر AWS کے ساتھ ایک آرٹیفیشل انٹیلی جنس اور مشین لرننگ (AI/ML) ماہر حل آرکیٹیکٹ ہے، جو عالمی صارفین کو اپنے AI سلوشنز کو کلاؤڈ میں موثر اور مؤثر طریقے سے پیمانہ کرنے میں مدد کرتا ہے۔ اپنے فارغ وقت میں، ارون سائنس فائی فلمیں دیکھنا اور کلاسیکی موسیقی سننا پسند کرتے ہیں۔

ایمیزون سیج میکر ڈیٹا رینگلر اور ایمیزون سیج میکر آٹو پائلٹ پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے ساتھ متحد ڈیٹا کی تیاری اور ماڈل ٹریننگ۔ عمودی تلاش۔ عیسروجن گوپو سیج میکر لو کوڈ/نو کوڈ ایم ایل میں ایک سینئر فرنٹ اینڈ انجینئر ہے جو آٹو پائلٹ اور کینوس مصنوعات کے صارفین کی مدد کرتا ہے۔ کوڈنگ نہ کرنے پر، سرجن اپنے کتے میکس کے ساتھ دوڑ میں آڈیو کتابوں اور VR گیم ڈیولپمنٹ کو سن کر لطف اندوز ہوتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ