ایمیزون سیج میکر ڈیٹا رینگلر کا استعمال کرتے ہوئے بڑے ڈیٹاسیٹس پر تربیت یافتہ پیرامیٹرز کو ریفٹ کریں

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ایمیزون سیج میکر ڈیٹا رینگلر آپ کو ایک ہی بصری انٹرفیس سے مشین لرننگ (ML) کے لیے ڈیٹا کو سمجھنے، جمع کرنے، تبدیل کرنے اور تیار کرنے میں مدد کرتا ہے۔ اس میں 300 سے زیادہ بلٹ ان ڈیٹا ٹرانسفارمیشنز شامل ہیں تاکہ آپ کوڈ لکھے بغیر فیچرز کو تیزی سے نارمل، تبدیل اور یکجا کر سکیں۔

ڈیٹا سائنس پریکٹیشنرز کاروباری مسائل کو حل کرنے کے لیے ڈیٹا تیار کرتے ہیں، مشاہدہ کرتے ہیں اور اس پر کارروائی کرتے ہیں جہاں انہیں ڈیٹا سیٹس سے خصوصیات کو تبدیل کرنے اور نکالنے کی ضرورت ہوتی ہے۔ تبدیلیاں جیسے آرڈینل انکوڈنگ یا ون ہاٹ انکوڈنگ آپ کے ڈیٹاسیٹ پر انکوڈنگ سیکھتی ہیں۔ ان انکوڈ شدہ آؤٹ پٹس کو تربیت یافتہ پیرامیٹرز کہا جاتا ہے۔ جیسا کہ ڈیٹا سیٹس وقت کے ساتھ بدلتے رہتے ہیں، یہ ضروری ہو سکتا ہے کہ آپ کے ڈیٹا سے متعلقہ تبدیلی کے بہاؤ کو برقرار رکھنے کے لیے پہلے سے نہ دیکھے گئے ڈیٹا پر انکوڈنگز کو ریفٹ کریں۔

ہم ریفٹ ٹرینڈ پیرامیٹر فیچر کا اعلان کرنے کے لیے پرجوش ہیں، جو آپ کو سابقہ تربیت یافتہ پیرامیٹرز کو استعمال کرنے اور حسب خواہش ان کو ریفٹ کرنے کی اجازت دیتا ہے۔ اس پوسٹ میں، ہم اس خصوصیت کو استعمال کرنے کا طریقہ دکھاتے ہیں۔

ڈیٹا رینگلر ریفٹ فیچر کا جائزہ

ہم وضاحت کرتے ہیں کہ یہ خصوصیت درج ذیل مثال کے ساتھ کس طرح کام کرتی ہے، اس سے پہلے کہ ہم ریفٹ ٹرینڈ پیرامیٹر فیچر کی تفصیلات کو دیکھیں۔

فرض کریں کہ آپ کے گاہک کے ڈیٹاسیٹ میں ایک واضح خصوصیت ہے۔ country جیسے تار کے طور پر نمائندگی کرتا ہے۔ Australia اور Singapore. ML الگورتھم کو عددی ان پٹ کی ضرورت ہوتی ہے۔ لہذا، ان واضح اقدار کو عددی اقدار میں انکوڈ کرنا ہوگا۔ زمرہ جات کے اعداد و شمار کو انکوڈنگ کرنا زمروں کے لیے عددی نمائندگی بنانے کا عمل ہے۔ مثال کے طور پر، اگر آپ کے زمرے کے ملک کی قدریں ہیں۔ Australia اور Singapore، آپ اس معلومات کو دو ویکٹرز میں انکوڈ کر سکتے ہیں: [1، 0] نمائندگی کرنے کے لیے Australia اور نمائندگی کے لیے [0، 1] Singapore. یہاں استعمال ہونے والی تبدیلی ایک گرم انکوڈنگ ہے اور نئی انکوڈ شدہ آؤٹ پٹ تربیت یافتہ پیرامیٹرز کی عکاسی کرتی ہے۔

ماڈل کی تربیت کے بعد، وقت کے ساتھ ساتھ آپ کے گاہک بڑھ سکتے ہیں اور آپ کی ملک کی فہرست میں مزید الگ قدریں ہیں۔ نئے ڈیٹاسیٹ میں ایک اور زمرہ ہو سکتا ہے، Indiaجو کہ اصل ڈیٹاسیٹ کا حصہ نہیں تھا، جو ماڈل کی درستگی کو متاثر کر سکتا ہے۔ لہذا، وقت کے ساتھ ساتھ جمع کیے گئے نئے ڈیٹا کے ساتھ اپنے ماڈل کو دوبارہ تربیت دینا ضروری ہے۔

اس مسئلے پر قابو پانے کے لیے، آپ کو نئے زمرے کو شامل کرنے کے لیے انکوڈنگ کو تازہ کرنا ہوگا اور اپنے تازہ ترین ڈیٹا سیٹ کے مطابق ویکٹر کی نمائندگی کو اپ ڈیٹ کرنا ہوگا۔ ہماری مثال میں، انکوڈنگ کو نئے زمرے کی عکاسی کرنی چاہیے۔ countryہے، جو India. ہم عام طور پر انکوڈنگ کو ریفریش کرنے کے اس عمل کو ریفٹ آپریشن کے طور پر کہتے ہیں۔ ریفٹ آپریشن کرنے کے بعد، آپ کو نئی انکوڈنگ ملتی ہے: Australia: [1، 0، 0]، Singapore: [0، 1، 0]، اور India: [0، 0، 1]۔ ون ہاٹ انکوڈنگ کو ریفٹ کرنا اور پھر نئے ڈیٹاسیٹ پر ماڈل کو دوبارہ تربیت دینے سے بہتر معیار کی پیشین گوئیاں ہوتی ہیں۔

ڈیٹا رینگلر کی ریفٹ ٹرینڈ پیرامیٹر کی خصوصیت درج ذیل صورتوں میں مفید ہے:

ڈیٹاسیٹ میں نیا ڈیٹا شامل کیا جاتا ہے۔ - جب ڈیٹا سیٹ کو نئے ڈیٹا سے افزودہ کیا جاتا ہے تو ایم ایل ماڈل کی دوبارہ تربیت ضروری ہے۔ بہترین نتائج حاصل کرنے کے لیے، ہمیں نئے ڈیٹاسیٹ پر تربیت یافتہ پیرامیٹرز کو درست کرنے کی ضرورت ہے۔
نمونے کے ڈیٹا پر فیچر انجینئرنگ کرنے کے بعد مکمل ڈیٹا سیٹ پر تربیت - ایک بڑے ڈیٹاسیٹ کے لیے، تربیت یافتہ پیرامیٹرز سیکھنے کے لیے ڈیٹاسیٹ کے نمونے پر غور کیا جاتا ہے، جو ہو سکتا ہے کہ آپ کے پورے ڈیٹاسیٹ کی نمائندگی نہ کرے۔ ہمیں مکمل ڈیٹا سیٹ پر تربیت یافتہ پیرامیٹرز کو دوبارہ سیکھنے کی ضرورت ہے۔

ڈیٹا سیٹ پر کیے جانے والے کچھ عام ڈیٹا رینگلر ٹرانسفارمز درج ذیل ہیں جو ریفٹ ٹرینڈ پیرامیٹر آپشن سے فائدہ اٹھاتے ہیں:

ڈیٹا رینگلر میں تبدیلیوں کے بارے میں مزید معلومات کے لیے، رجوع کریں۔ ڈیٹا کو تبدیل کریں۔.

اس پوسٹ میں، ہم دکھاتے ہیں کہ ڈیٹا رینگلر کا استعمال کرتے ہوئے ڈیٹا سیٹس پر ان تربیت یافتہ پیرامیٹرز کو کیسے پروسیس کیا جائے۔ آپ ڈیٹا رینگلر کے بہاؤ کو پروڈکشن جابز میں استعمال کر سکتے ہیں تاکہ آپ کے ڈیٹا کے بڑھنے اور تبدیل ہونے کے ساتھ ہی اسے دوبارہ پروسیس کیا جا سکے۔

حل جائزہ

اس پوسٹ کے لیے، ہم یہ ظاہر کرتے ہیں کہ ڈیٹا رینگلر کی ریفٹ ٹرینڈ پیرامیٹر فیچر کو عوامی طور پر دستیاب ڈیٹا سیٹ کے ساتھ کیسے استعمال کیا جائے۔ کاگل: زیلو سے امریکی ہاؤسنگ ڈیٹا، ریاستہائے متحدہ میں برائے فروخت پراپرٹیز۔ اس میں گھروں کی مختلف جغرافیائی تقسیم میں گھر کی فروخت کی قیمتیں ہیں۔

درج ذیل خاکہ ریفٹ ٹرینڈ پیرامیٹر فیچر کا استعمال کرتے ہوئے ڈیٹا رینگلر کے اعلیٰ سطحی فن تعمیر کو واضح کرتا ہے۔ ہم ریفٹ ٹرینڈ پیرامیٹر کے بغیر ڈیٹا کے معیار پر اثر بھی دکھاتے ہیں اور آخر میں نتائج کو برعکس کرتے ہیں۔

ورک فلو میں درج ذیل مراحل شامل ہیں:

تحقیقی ڈیٹا کا تجزیہ کریں۔ - ڈیٹا رینگلر پر ایک نیا فلو بنائیں تاکہ ایکسپلوریٹری ڈیٹا اینالیسس (EDA) شروع کریں۔ تربیت کے لیے اپنے ڈیٹا کو سمجھنے، صاف کرنے، جمع کرنے، تبدیل کرنے اور تیار کرنے کے لیے کاروباری ڈیٹا درآمد کریں۔ کا حوالہ دیتے ہیں نمونہ ڈیٹا سیٹس کے ساتھ Amazon SageMaker ڈیٹا رینگلر کی صلاحیتوں کو دریافت کریں۔ ڈیٹا رینگلر کے ساتھ EDA انجام دینے کے بارے میں مزید تفصیلات کے لیے۔
ڈیٹا پروسیسنگ کا کام بنائیں - یہ مرحلہ ان تمام تبدیلیوں کو برآمد کرتا ہے جو آپ نے ڈیٹاسیٹ پر کی ہیں ایک فلو فائل کے طور پر کنفیگرڈ میں محفوظ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) مقام۔ ڈیٹا رینگلر کے ذریعے تیار کردہ فلو فائل کے ساتھ ڈیٹا پروسیسنگ کا کام آپ کے ڈیٹا سیٹ پر سیکھے گئے ٹرانسفارمز اور تربیت یافتہ پیرامیٹرز کو لاگو کرتا ہے۔ جب ڈیٹا پروسیسنگ کا کام مکمل ہو جاتا ہے، آؤٹ پٹ فائلوں کو ایمیزون S3 مقام پر اپ لوڈ کیا جاتا ہے جو منزل کے نوڈ میں ترتیب دیا گیا ہے۔ نوٹ کریں کہ ریفٹ آپشن بطور ڈیفالٹ آف ہے۔ پروسیسنگ کام کو فوری طور پر انجام دینے کے متبادل کے طور پر، آپ بھی کر سکتے ہیں۔ ایک پروسیسنگ کام کا شیڈول ڈیٹا رینگلر کا استعمال کرتے ہوئے چند کلکس میں - مخصوص اوقات میں چلانے کے لیے جاب بنائیں۔
ریفٹ ٹرینڈ پیرامیٹر فیچر کے ساتھ ڈیٹا پروسیسنگ کا کام بنائیں - اپنے مکمل یا مضبوط ڈیٹاسیٹ پر اپنے تربیت یافتہ پیرامیٹرز کو دوبارہ سیکھنے کو نافذ کرنے کے لیے جاب بناتے وقت نئے ریفٹ ٹرینڈ پیرامیٹر فیچر کو منتخب کریں۔ فلو فائل کو اسٹور کرنے کے لیے Amazon S3 لوکیشن کنفیگریشن کے مطابق، ڈیٹا پروسیسنگ کا کام نئی فلو فائل کو تخلیق یا اپ ڈیٹ کرتا ہے۔ اگر آپ وہی Amazon S3 مقام کنفیگر کرتے ہیں جیسا کہ مرحلہ 2 میں ہے، تو ڈیٹا پروسیسنگ کا کام مرحلہ 2 میں تیار کردہ فلو فائل کو اپ ڈیٹ کرتا ہے، جسے آپ کے ڈیٹا سے متعلقہ آپ کے بہاؤ کو برقرار رکھنے کے لیے استعمال کیا جا سکتا ہے۔ پروسیسنگ کے کام کی تکمیل پر، آؤٹ پٹ فائلیں منزل کے نوڈ کنفیگرڈ S3 بالٹی پر اپ لوڈ ہو جاتی ہیں۔ آپ پروڈکشن ورک فلو کے لیے اپنے پورے ڈیٹاسیٹ پر اپ ڈیٹ شدہ فلو استعمال کر سکتے ہیں۔

شرائط

شروع کرنے سے پہلے، ڈیٹا سیٹ کو S3 بالٹی میں اپ لوڈ کریں، پھر اسے ڈیٹا رینگلر میں درآمد کریں۔ ہدایات کے لیے، رجوع کریں۔ ایمیزون S3 سے ڈیٹا درآمد کریں۔.

آئیے اب آرکیٹیکچر ڈایاگرام میں مذکور مراحل پر چلتے ہیں۔

ڈیٹا رینگلر میں EDA انجام دیں۔

ریفٹ ٹرینڈ پیرامیٹر فیچر کو آزمانے کے لیے، ڈیٹا رینگلر میں درج ذیل تجزیہ اور تبدیلی ترتیب دیں۔ EDA ترتیب دینے کے اختتام پر، ڈیٹا رینگلر ڈیٹاسیٹ سے تربیت یافتہ پیرامیٹرز کے ساتھ کیپچر کردہ ایک فلو فائل بناتا ہے۔

تلاشی ڈیٹا کے تجزیہ کے لیے Amazon SageMaker Data Wrangler میں ایک نیا بہاؤ بنائیں۔
Amazon S3 پر اپ لوڈ کردہ کاروباری ڈیٹا درآمد کریں۔
آپ فائل کی قسم، حد بندی، نمونے لینے، وغیرہ کو منتخب کرنے کے لیے ڈیٹا اور اختیارات کا جائزہ لے سکتے ہیں۔ اس مثال کے لئے، ہم استعمال کرتے ہیں پہلے K ڈیٹا سیٹ سے پہلے 50,000 ریکارڈ درآمد کرنے کے لیے ڈیٹا رینگلر کے ذریعے فراہم کردہ نمونے لینے کا اختیار۔
میں سے انتخاب کریں درآمد کریں.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے بڑے ڈیٹاسیٹس پر تربیت یافتہ پیرامیٹرز کو ریفٹ کریں۔ عمودی تلاش۔ عی

ڈیٹا رینگلر کی طرف سے لاگو کردہ ڈیٹا ٹائپ میچنگ کو چیک کرنے کے بعد، ایک نیا تجزیہ شامل کریں۔

کے لئے تجزیہ کی قسممنتخب کریں ڈیٹا کوالٹی اور بصیرت کی رپورٹ.
میں سے انتخاب کریں تخلیق کریں.

ڈیٹا کوالٹی اور بصیرت کی رپورٹ کے ساتھ، آپ کو ڈیٹا سیٹ کا ایک مختصر خلاصہ ملتا ہے جس میں عمومی معلومات جیسے گمشدہ اقدار، غلط اقدار، خصوصیت کی اقسام، آؤٹ لیئر شمار اور مزید بہت کچھ۔ آپ خصوصیات کا انتخاب کرسکتے ہیں۔ property_type اور city ریفٹ ٹرینڈ پیرامیٹر فیچر کو سمجھنے کے لیے ڈیٹاسیٹ پر تبدیلیوں کو لاگو کرنے کے لیے۔

آئیے خصوصیت پر توجہ دیں۔ property_type ڈیٹاسیٹ سے رپورٹ میں خصوصیت کی تفصیلات سیکشن، آپ دیکھ سکتے ہیں property_typeجو کہ ایک واضح خصوصیت ہے، اور ڈیٹا رینگلر کے 50,000 نمونے والے ڈیٹاسیٹ سے اخذ کردہ چھ منفرد اقدار۔ مکمل ڈیٹا سیٹ میں فیچر کے لیے مزید زمرے ہو سکتے ہیں۔ property_type. بہت سی منفرد اقدار والی خصوصیت کے لیے، آپ آرڈینل انکوڈنگ کو ترجیح دے سکتے ہیں۔ اگر خصوصیت کی چند منفرد اقدار ہیں، تو ایک گرم انکوڈنگ کا طریقہ استعمال کیا جا سکتا ہے۔ اس مثال کے لیے، ہم ایک گرم انکوڈنگ آن کا انتخاب کرتے ہیں۔ property_type.

اسی طرح، کے لئے city خصوصیت، جو کہ ایک متنی ڈیٹا کی قسم ہے جس میں بڑی تعداد میں منفرد اقدار ہیں، آئیے اس خصوصیت پر آرڈینل انکوڈنگ کا اطلاق کریں۔

ڈیٹا رینگلر فلو پر جائیں، جمع کا نشان منتخب کریں، اور منتخب کریں۔ تبدیلی شامل کریں۔.

منتخب کیجئیے واضح انکوڈ کریں۔ واضح خصوصیات کو تبدیل کرنے کا اختیار۔

ڈیٹا کوالٹی اور بصیرت کی رپورٹ سے، خصوصیت property_type چھ منفرد زمرے دکھاتا ہے: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILY، اور TOWNHOUSE.

کے لئے تبدیلمنتخب کریں ایک گرم انکوڈ.

فیچر پر ون ہاٹ انکوڈنگ لگانے کے بعد property_type، آپ تمام چھ زمروں کا جائزہ لے سکتے ہیں بطور علیحدہ خصوصیات نئے کالم کے طور پر شامل کی گئی ہیں۔ نوٹ کریں کہ اس پیش نظارہ کو بنانے کے لیے آپ کے ڈیٹاسیٹ سے 50,000 ریکارڈز کا نمونہ لیا گیا تھا۔ اس بہاؤ کے ساتھ ڈیٹا رینگلر پروسیسنگ جاب چلاتے وقت، یہ تبدیلیاں آپ کے پورے ڈیٹا سیٹ پر لاگو ہوتی ہیں۔

ایک نیا ٹرانسفارم شامل کریں اور منتخب کریں۔ انکوڈ کیٹیگوریکل خصوصیت پر تبدیلی کا اطلاق کرنے کے لیے city، جس میں منفرد زمرہ کے متن کی قدروں کی ایک بڑی تعداد ہے۔
اس خصوصیت کو عددی نمائندگی میں انکوڈ کرنے کے لیے، منتخب کریں۔ آرڈینل انکوڈ لیے تبدیل.

اس تبدیلی پر پیش نظارہ کا انتخاب کریں۔

آپ دیکھ سکتے ہیں کہ دوٹوک خصوصیت city آؤٹ پٹ کالم میں آرڈینل اقدار کے ساتھ میپ کیا جاتا ہے۔ e_city.

منتخب کرکے اس قدم کو شامل کریں۔ اپ ڈیٹ کریں.

آپ CSV فائل کے طور پر آؤٹ پٹ جنریٹ کرنے کے لیے ڈیٹاسیٹ پر لاگو تبدیلیوں کو ذخیرہ کرنے کے لیے منزل کو Amazon S3 پر سیٹ کر سکتے ہیں۔

ڈیٹا رینگلر ورک فلو کو اسٹور کرتا ہے جسے آپ نے یوزر انٹرفیس میں فلو فائل کے طور پر بیان کیا ہے اور کنفیگر شدہ ڈیٹا پروسیسنگ جاب کے Amazon S3 مقام پر اپ لوڈ کرتا ہے۔ اس فلو فائل کا استعمال اس وقت ہوتا ہے جب آپ ڈیٹا رینگلر پروسیسنگ جابز بناتے ہیں تاکہ بڑے ڈیٹا سیٹس پر ٹرانسفارمز کو لاگو کیا جا سکے، یا ماڈل کو دوبارہ تربیت دینے کے لیے نئے کمک ڈیٹا کو تبدیل کیا جا سکے۔

ریفٹ کو فعال کیے بغیر ڈیٹا رینگلر ڈیٹا پروسیسنگ کا کام شروع کریں۔

اب آپ دیکھ سکتے ہیں کہ کس طرح ریفٹ آپشن نئے ڈیٹاسیٹس پر تربیت یافتہ پیرامیٹرز کا استعمال کرتا ہے۔ اس مظاہرے کے لیے، ہم ایک ہی ڈیٹا پر کام کرنے والی دو ڈیٹا رینگلر پروسیسنگ جابز کی وضاحت کرتے ہیں۔ پروسیسنگ کا پہلا کام ریفٹ کو فعال نہیں کرے گا۔ دوسری پروسیسنگ کے کام کے لیے، ہم ریفٹ کا استعمال کرتے ہیں۔ ہم آخر میں اثرات کا موازنہ کرتے ہیں۔

میں سے انتخاب کریں نوکری پیدا کریں۔ ڈیٹا رینگلر کے ساتھ ڈیٹا پروسیسنگ کا کام شروع کرنے کے لیے۔

کے لئے نوکری کا نام، ایک نام درج کریں۔
کے تحت تربیت یافتہ پیرامیٹرز، منتخب نہ کریں۔ واپسی.
میں سے انتخاب کریں کام کو ترتیب دیں۔.

آؤٹ پٹ فلو فائل کو اسٹور کرنے کے لیے جاب کے پیرامیٹرز جیسے مثال کی قسمیں، حجم کا سائز، اور Amazon S3 مقام کو ترتیب دیں۔
ڈیٹا رینگلر فلو فائل S3 لوکیشن میں فلو فائل بناتا ہے۔ بہاؤ پیرامیٹرز کو تربیت دینے کے لیے تبدیلیوں کا استعمال کرتا ہے، اور ہم بعد میں ان پیرامیٹرز کو دوبارہ تربیت دینے کے لیے ریفٹ آپشن کا استعمال کرتے ہیں۔
میں سے انتخاب کریں تخلیق کریں.

ڈیسٹینیشن نوڈ میں کنفیگر کردہ S3 بالٹی میں تبدیل شدہ ڈیٹا دیکھنے کے لیے ڈیٹا پروسیسنگ کا کام مکمل ہونے کا انتظار کریں۔

ریفٹ فعال کے ساتھ ڈیٹا رینگلر ڈیٹا پروسیسنگ کا کام شروع کریں۔

آئیے ریفٹ ٹرینڈ پیرامیٹر فیچر کو فعال کرکے ایک اور پروسیسنگ جاب بنائیں۔ یہ اختیار پورے ڈیٹاسیٹ پر دوبارہ سیکھے گئے تربیت یافتہ پیرامیٹرز کو نافذ کرتا ہے۔ جب یہ ڈیٹا پروسیسنگ کام مکمل ہو جاتا ہے، ایک فلو فائل بنائی جاتی ہے یا ترتیب شدہ Amazon S3 مقام پر اپ ڈیٹ کی جاتی ہے۔

میں سے انتخاب کریں نوکری پیدا کریں۔.

کے لئے نوکری کا نام، ایک نام درج کریں۔
کے لئے تربیت یافتہ پیرامیٹرزمنتخب واپسی.
اگر آپ کا انتخاب ہے تمام ملاحظہ کریں، آپ تمام تربیت یافتہ پیرامیٹرز کا جائزہ لے سکتے ہیں۔

میں سے انتخاب کریں کام کو ترتیب دیں۔.
ایمیزون S3 فلو فائل کا مقام درج کریں۔
میں سے انتخاب کریں تخلیق کریں.

ڈیٹا پروسیسنگ کا کام مکمل ہونے کا انتظار کریں۔

ڈیفائنڈ ٹرانسفارمز کو چلانے والے ڈیٹا پروسیسنگ جاب کے ذریعے تیار کردہ ڈیٹا کو دیکھنے کے لیے ڈیسٹینیشن نوڈ میں کنفیگر کردہ S3 بالٹی کا حوالہ دیں۔

ڈیٹا رینگلر پروسیسنگ جابز کو چلانے کے لیے Python کوڈ میں ایکسپورٹ کریں۔

ڈیٹا رینگلر میں Create job آپشن کا استعمال کرتے ہوئے پروسیسنگ جابز شروع کرنے کے متبادل کے طور پر، آپ Data Wrangler فلو کو Jupyter نوٹ بک میں ایکسپورٹ کر کے ڈیٹا پروسیسنگ جابز کو متحرک کر سکتے ہیں۔ ڈیٹا رینگلر ان پٹ، آؤٹ پٹس، پروسیسنگ جاب کنفیگریشنز، اور جاب اسٹیٹس چیک کے لیے کوڈ کے ساتھ ایک Jupyter نوٹ بک تیار کرتا ہے۔ آپ اپنی ڈیٹا کی تبدیلی کی ضروریات کے مطابق پیرامیٹرز کو تبدیل یا اپ ڈیٹ کر سکتے ہیں۔

فائنل کے آگے جمع کا نشان منتخب کریں۔ تبدیل نوڈ.
میں سے انتخاب کریں برآمد اور اور Amazon S3 (بذریعہ Jupyter نوٹ بک).

آپ ایک Jupyter نوٹ بک دیکھ سکتے ہیں جس میں ان پٹ، آؤٹ پٹ، پروسیسنگ جاب کنفیگریشنز، اور جاب اسٹیٹس چیک کے کوڈ کے ساتھ کھلی ہوئی ہے۔

کوڈ کے ذریعے ریفٹ ٹرینڈ پیرامیٹرز کے آپشن کو نافذ کرنے کے لیے، سیٹ کریں۔ refit کرنے کے لئے پیرامیٹر True.

ڈیٹا پروسیسنگ کے کام کے نتائج کا موازنہ کریں۔

ڈیٹا رینگلر پراسیسنگ جابز مکمل ہونے کے بعد، آپ کو کنفیگر شدہ Amazon S3 ڈیسٹینیشن میں ذخیرہ کردہ ڈیٹا پروسیسنگ جابز کے ذریعے پیدا ہونے والے آؤٹ پٹ کے ساتھ دو نئے ڈیٹا رینگلر فلو بنانا ہوں گے۔

ڈیٹا پروسیسنگ جابز کے آؤٹ پٹس کا جائزہ لینے کے لیے آپ Amazon S3 ڈیسٹینیشن فولڈر میں کنفیگر کردہ مقام کا حوالہ دے سکتے ہیں۔

پروسیسنگ جاب کے نتائج کا معائنہ کرنے کے لیے، تبدیلی کے نتائج کا موازنہ کرنے کے لیے ڈیٹا کوالٹی اور بصیرت کی رپورٹ کا استعمال کرتے ہوئے دو نئے ڈیٹا رینگلر فلو بنائیں۔

ایمیزون سیج میکر ڈیٹا رینگلر میں ایک نیا فلو بنائیں۔
ایمیزون S3 سے ڈیٹا پروسیسنگ جاب ریفٹ ان ایبلڈ آؤٹ پٹ فائل کے بغیر درآمد کریں۔
ایک نیا تجزیہ شامل کریں۔
کے لئے تجزیہ کی قسممنتخب کریں ڈیٹا کوالٹی اور بصیرت کی رپورٹ.
میں سے انتخاب کریں تخلیق کریں.

مندرجہ بالا مراحل کو دہرائیں اور ڈیٹا پروسیسنگ جاب آؤٹ پٹ کا تجزیہ کرنے کے لیے نیا ڈیٹا رینگلر فلو تخلیق کریں جس میں ریفٹ فعال ہے۔

اب آئیے فیچر کے لیے پروسیسنگ جابز کے آؤٹ پٹ کو دیکھتے ہیں۔ property_type ڈیٹا کوالٹی اور بصیرت کی رپورٹس کا استعمال کرتے ہوئے ڈیٹا اور بصیرت کی رپورٹس کی فہرست میں خصوصیت کی تفصیلات تک سکرول کریں۔ feature_type.

ریفٹ ٹرینڈ پیرامیٹر پروسیسنگ جاب نے تربیت یافتہ پیرامیٹرز کو پورے ڈیٹاسیٹ پر ریفٹ کیا ہے اور نئی ویلیو کو انکوڈ کیا ہے۔ APARTMENT مکمل ڈیٹا سیٹ پر سات الگ الگ اقدار کے ساتھ۔

عام پروسیسنگ جاب نے نمونہ ڈیٹاسیٹ کے تربیت یافتہ پیرامیٹرز کو لاگو کیا، جن کی صرف چھ الگ اقدار ہیں۔ property_type خصوصیت کے ساتھ ڈیٹا کے لیے feature_type APARTMENT، ہینڈلنگ کی غلط حکمت عملی اسکیپ کا اطلاق ہوتا ہے اور ڈیٹا پروسیسنگ کا کام اس نئے زمرے کو نہیں سیکھتا ہے۔ ایک گرم انکوڈنگ نے نئے ڈیٹا پر موجود اس نئے زمرے کو چھوڑ دیا ہے، اور انکوڈنگ زمرہ کو چھوڑ دیتی ہے APARTMENT.

آئیے اب ایک اور خصوصیت پر توجہ مرکوز کرتے ہیں، city. ریفٹ ٹرینڈ پیرامیٹر پروسیسنگ جاب نے کے لیے دستیاب تمام اقدار کو دوبارہ سیکھا ہے۔ city خصوصیت، نئے ڈیٹا پر غور کرتے ہوئے.

جیسا کہ دکھایا گیا ہے خصوصیت کا خلاصہ رپورٹ کا سیکشن، نیا انکوڈ شدہ فیچر کالم e_city ریفٹ ٹرینڈ پیرامیٹر فیچر کا استعمال کرتے ہوئے 100% درست پیرامیٹرز ہیں۔

اس کے برعکس، عام پروسیسنگ جاب میں نئے انکوڈ شدہ فیچر کالم میں 82.4% گم شدہ اقدار ہیں e_city. یہ رجحان اس لیے ہے کہ سیکھے ہوئے تربیت یافتہ پیرامیٹرز کا صرف نمونہ سیٹ مکمل ڈیٹاسیٹ پر لاگو ہوتا ہے اور ڈیٹا پروسیسنگ جاب کے ذریعے کوئی ریفٹنگ لاگو نہیں ہوتی ہے۔

مندرجہ ذیل ہسٹگرامس آرڈینل انکوڈ شدہ خصوصیت کو ظاہر کرتے ہیں۔ e_city. پہلا ہسٹوگرام ریفٹ آپشن کے ساتھ تبدیل شدہ فیچر کا ہے۔

اگلا ہسٹوگرام ریفٹ آپشن کے بغیر تبدیل شدہ فیچر کا ہے۔ نارنجی کالم ڈیٹا کوالٹی اور بصیرت کی رپورٹ میں گمشدہ اقدار (NaN) دکھاتا ہے۔ نئی اقدار جو نمونہ ڈیٹاسیٹ سے نہیں سیکھی گئی ہیں ان کو ڈیٹا رینگلر UI کے کنفیگر کیے گئے نمبر (NaN) کے طور پر تبدیل کر دیا گیا ہے۔ ہینڈلنگ کی غلط حکمت عملی.

ریفٹ ٹرینڈ پیرامیٹر کے ساتھ ڈیٹا پروسیسنگ کے کام نے دوبارہ سیکھا۔ property_type اور city پورے ڈیٹاسیٹ سے نئی اقدار پر غور کرنے والی خصوصیات۔ ریفٹ ٹرینڈ پیرامیٹر کے بغیر، ڈیٹا پروسیسنگ کا کام صرف نمونے والے ڈیٹاسیٹ کے پہلے سے سیکھے ہوئے تربیت یافتہ پیرامیٹرز کا استعمال کرتا ہے۔ یہ پھر انہیں نئے ڈیٹا پر لاگو کرتا ہے، لیکن نئی اقدار کو انکوڈنگ کے لیے نہیں سمجھا جاتا ہے۔ اس کا ماڈل کی درستگی پر اثر پڑے گا۔

صاف کرو

جب آپ ڈیٹا رینگلر استعمال نہیں کر رہے ہیں، تو یہ ضروری ہے کہ اس مثال کو بند کر دیا جائے جس پر یہ چلتا ہے تاکہ اضافی فیسوں سے بچنے کے لیے۔

کام کھونے سے بچنے کے لیے، ڈیٹا رینگلر کو بند کرنے سے پہلے اپنے ڈیٹا کے بہاؤ کو محفوظ کریں۔

اپنے ڈیٹا کے بہاؤ کو بچانے کے لیے ایمیزون سیج میکر اسٹوڈیومنتخب کریں فائل، پھر منتخب کریں ڈیٹا رینگلر فلو کو محفوظ کریں۔. ڈیٹا رینگلر ہر 60 سیکنڈ میں آپ کے ڈیٹا کے بہاؤ کو خود بخود محفوظ کرتا ہے۔
ڈیٹا رینگلر مثال کو بند کرنے کے لیے، اسٹوڈیو میں، منتخب کریں۔ رننگ انسٹینسز اور دانا.
کے تحت چل رہی ایپسsagemaker-data-wrangler-1.0 ایپ کے آگے شٹ ڈاؤن آئیکن کا انتخاب کریں۔

میں سے انتخاب کریں سب بند کرو تصدیق کے لئے.

ڈیٹا رینگلر ایک ml.m5.4xlarge مثال پر چلتا ہے۔ یہ مثال غائب ہو جاتی ہے۔ مثالیں چل رہی ہیں۔ جب آپ ڈیٹا رینگلر ایپ کو بند کرتے ہیں۔

ڈیٹا رینگلر ایپ کو بند کرنے کے بعد، اگلی بار جب آپ ڈیٹا رینگلر فلو فائل کھولیں گے تو اسے دوبارہ شروع کرنا ہوگا۔ اس میں چند منٹ لگ سکتے ہیں۔

نتیجہ

اس پوسٹ میں، ہم نے ڈیٹا رینگلر میں ریفٹ ٹرینڈ پیرامیٹر فیچر کا ایک جائزہ فراہم کیا۔ اس نئی خصوصیت کے ساتھ، آپ ڈیٹا رینگلر کے بہاؤ میں تربیت یافتہ پیرامیٹرز کو محفوظ کر سکتے ہیں، اور ڈیٹا پروسیسنگ کی نوکریاں تربیت یافتہ پیرامیٹرز کا استعمال بڑے ڈیٹا سیٹس یا ریانفورسمنٹ ڈیٹا سیٹس پر سیکھی ہوئی تبدیلیوں کو لاگو کرنے کے لیے کرتی ہیں۔ آپ اس اختیار کو ٹیکسٹ فیچرز، عددی ڈیٹا، اور آؤٹ لیرز کو ہینڈل کرنے کے لیے استعمال کر سکتے ہیں۔

ایم ایل لائف سائیکل کی پوری ڈیٹا پروسیسنگ کے دوران تربیت یافتہ پیرامیٹرز کو محفوظ کرنا ڈیٹا پروسیسنگ کے مراحل کو آسان اور کم کرتا ہے، مضبوط فیچر انجینئرنگ کو سپورٹ کرتا ہے، اور نئے ڈیٹا پر ماڈل ٹریننگ اور ری انفورسمنٹ ٹریننگ کو سپورٹ کرتا ہے۔

ہم آپ کو اپنی ڈیٹا پروسیسنگ کی ضروریات کے لیے اس نئی خصوصیت کو آزمانے کی ترغیب دیتے ہیں۔

مصنفین کے بارے میں

ہری ہرن سریش AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ وہ ڈیٹا بیس، مشین لرننگ، اور اختراعی حل ڈیزائن کرنے کا شوق رکھتا ہے۔ AWS میں شامل ہونے سے پہلے، ہری ہرن ایک پروڈکٹ آرکیٹیکٹ، کور بینکنگ کے نفاذ کے ماہر، اور ڈویلپر تھے، اور انہوں نے BFSI تنظیموں کے ساتھ 11 سال سے زیادہ کام کیا۔ ٹیکنالوجی سے باہر، وہ پیراگلائیڈنگ اور سائیکلنگ سے لطف اندوز ہوتا ہے۔

سنتوش کلکرنی Amazon Web Services میں ایک انٹرپرائز سلوشنز آرکیٹیکٹ ہے جو آسٹریلیا میں کھیلوں کے صارفین کے ساتھ کام کرتا ہے۔ وہ AI/ML، بڑے ڈیٹا، اور سافٹ ویئر ڈویلپمنٹ میں اپنے علم کا استعمال کرتے ہوئے کاروباری مسائل کو حل کرنے کے لیے بڑے پیمانے پر تقسیم شدہ ایپلی کیشنز بنانے کا پرجوش ہے۔

وشال کپور AWS AI کے ساتھ ایک سینئر اپلائیڈ سائنٹسٹ ہے۔ وہ ڈیٹا رینگلر میں صارفین کو ان کے ڈیٹا کو سمجھنے میں مدد کرنے کا پرجوش ہے۔ اپنے فارغ وقت میں، وہ پہاڑی بائیک، سنو بورڈز، اور اپنے خاندان کے ساتھ وقت گزارتا ہے۔

انیکتھ منجوناتھ ایمیزون سیج میکر میں سافٹ ویئر ڈویلپمنٹ انجینئر ہے۔ وہ ایمیزون سیج میکر ڈیٹا رینگلر کی مدد کرتا ہے اور تقسیم شدہ مشین لرننگ سسٹم کے بارے میں پرجوش ہے۔ کام سے باہر، وہ پیدل سفر، فلمیں دیکھنے، اور کرکٹ کھیلنا پسند کرتا ہے۔

ٹائم اسٹیمپ: نومبر 14، 2022نومبر 14، 2022

ٹائم اسٹیمپ: نومبر 17، 2023

ایمیزون سیج میکر ڈیٹا رینگلر کا استعمال کرتے ہوئے بڑے ڈیٹا سیٹس پر تربیت یافتہ پیرامیٹرز کو ریفٹ کریں۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

ڈیٹا رینگلر ریفٹ فیچر کا جائزہ

حل جائزہ

شرائط

ڈیٹا رینگلر میں EDA انجام دیں۔

ریفٹ کو فعال کیے بغیر ڈیٹا رینگلر ڈیٹا پروسیسنگ کا کام شروع کریں۔

ریفٹ فعال کے ساتھ ڈیٹا رینگلر ڈیٹا پروسیسنگ کا کام شروع کریں۔

ڈیٹا رینگلر پروسیسنگ جابز کو چلانے کے لیے Python کوڈ میں ایکسپورٹ کریں۔

ڈیٹا پروسیسنگ کے کام کے نتائج کا موازنہ کریں۔

صاف کرو

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

جانیں کہ ایمیزون سیج میکر کی وضاحت کس طرح تعصب کا پتہ لگانے میں مدد کرتا ہے۔

Amazon SageMaker پر TensorFlow 1.x ایکسلریشن ٹریننگ کے بہترین طریقے

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ