جیسے جیسے تنظیمیں سائز اور پیمانے میں بڑھتی ہیں، کام کے بوجھ کو چلانے کی پیچیدگیاں بڑھتی جاتی ہیں، اور عمل اور ورک فلو کو تیار کرنے اور چلانے کی ضرورت اہم ہو جاتی ہے۔ لہذا، تنظیموں نے ڈیلیوری کے وقت کو بہتر بنانے، نقائص کو کم کرنے اور ملازمین کی پیداواری صلاحیت کو بڑھانے کے لیے ٹیکنالوجی کے بہترین طریقوں کو اپنایا ہے، بشمول مائیکرو سروس آرکیٹیکچر، MLOps، DevOps، اور بہت کچھ۔ یہ پوسٹ آپ کے اندر کسٹم کوڈ کو منظم کرنے کے لیے ایک بہترین پریکٹس متعارف کراتی ہے۔ ایمیزون سیج میکر ڈیٹا رینگلر ورک فلو.
ڈیٹا رینگلر ایک کم کوڈ والا ٹول ہے جو ڈیٹا کے تجزیہ، پری پروسیسنگ اور ویژولائزیشن کی سہولت فراہم کرتا ہے۔ اس میں 300 سے زیادہ بلٹ ان ڈیٹا ٹرانسفارمیشن کے اقدامات شامل ہیں جن میں فیچر انجینئرنگ، نارملائزیشن، اور کلینزنگ میں مدد ملتی ہے تاکہ آپ کے ڈیٹا کو بغیر کوئی کوڈ لکھے تبدیل کیا جا سکے۔
بلٹ ان ٹرانسفارمز کے علاوہ، ڈیٹا رینگلر میں ایک حسب ضرورت کوڈ ایڈیٹر ہوتا ہے جو آپ کو Python، PySpark، یا SparkSQL میں لکھا ہوا اپنی مرضی کے کوڈ کو نافذ کرنے کی اجازت دیتا ہے۔
اپنے حسب ضرورت فنکشنز کو لاگو کرنے کے لیے ڈیٹا رینگلر کسٹم ٹرانسفارم اسٹیپس استعمال کرتے وقت، آپ کو ڈیٹا رینگلر فلو میں کوڈ کو ڈیولپ کرنے اور ڈیپلائی کرنے کے لیے بہترین طریقوں کو نافذ کرنے کی ضرورت ہے۔
یہ پوسٹ دکھاتی ہے کہ آپ اس میں ذخیرہ شدہ کوڈ کو کیسے استعمال کر سکتے ہیں۔ AWS CodeCommit ڈیٹا رینگلر کسٹم ٹرانسفارم مرحلے میں۔ یہ آپ کو اضافی فوائد فراہم کرتا ہے، بشمول:
- عملے اور ٹیموں کے درمیان پیداوری اور تعاون کو بہتر بنائیں
- اپنے حسب ضرورت کوڈ کا ورژن بنائیں
- لاگ ان کیے بغیر اپنے ڈیٹا رینگلر کے کسٹم ٹرانسفارم مرحلے میں ترمیم کریں۔ ایمیزون سیج میکر اسٹوڈیو ڈیٹا رینگلر استعمال کرنے کے لیے
- اپنے کسٹم ٹرانسفارم مرحلے میں پیرامیٹر فائلوں کا حوالہ دیں۔
- CodeCommit کا استعمال کرتے ہوئے کوڈ اسکین کریں۔ ایمیزون کوڈ گرو یا کسی تیسری پارٹی کی درخواست Data Wrangler flowssagemake میں اسے استعمال کرنے سے پہلے سیکیورٹی کے خطرات کے لیے
حل جائزہ
یہ پوسٹ ظاہر کرتی ہے کہ کس طرح اپنی مرضی کے مطابق تبدیلی کے قدم کے ساتھ ڈیٹا رینگلر فلو فائل بنائی جائے۔ اپنے کسٹم ٹرانسفارم سٹیپ میں کسٹم فنکشن کو ہارڈ کوڈ کرنے کے بجائے، آپ کوڈ کامیٹ سے فنکشن پر مشتمل ایک اسکرپٹ کھینچیں، اسے لوڈ کریں، اور اپنے کسٹم ٹرانسفارم سٹیپ میں لوڈڈ فنکشن کو کال کریں۔
اس پوسٹ کے لیے، ہم استعمال کرتے ہیں۔ bank-full.csv
سے اعداد و شمار یونیورسٹی آف کیلیفورنیا ارونگ مشین لرننگ ریپوزٹری ان افعال کو ظاہر کرنے کے لیے۔ ڈیٹا بینکنگ ادارے کی براہ راست مارکیٹنگ مہمات سے متعلق ہے۔ اکثر، ایک ہی کلائنٹ کے ساتھ ایک سے زیادہ رابطے کی ضرورت ہوتی تھی اس بات کا اندازہ لگانے کے لیے کہ آیا پروڈکٹ (بینک ٹرم ڈپازٹ) سبسکرائب کیا جائے گا (yes
) یا سبسکرائب نہیں کیا (no
).
مندرجہ ذیل خاکہ اس حل کی وضاحت کرتا ہے۔
ورک فلو مندرجہ ذیل ہے:
- ڈیٹا رینگلر فلو فائل بنائیں اور اس سے ڈیٹاسیٹ درآمد کریں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3).
- ڈیٹا رینگلر کی تبدیلی کے اقدامات کی ایک سیریز بنائیں:
- CodeCommit میں ذخیرہ کردہ اپنی مرضی کے مطابق کوڈ کو نافذ کرنے کے لیے ایک حسب ضرورت تبدیلی کا مرحلہ۔
- دو بلٹ ان ٹرانسفارم اقدامات۔
ہم تبدیلی کے اقدامات کو کم سے کم رکھتے ہیں تاکہ اس پوسٹ کے مقصد سے ہٹ نہ جائے، جو کہ کسٹم ٹرانسفارم قدم پر مرکوز ہے۔ دستیاب تبدیلی کے اقدامات اور نفاذ کے بارے میں مزید معلومات کے لیے، رجوع کریں۔ ڈیٹا کو تبدیل کریں۔ اور ڈیٹا رینگلر بلاگ.
- کسٹم ٹرانسفارم مرحلے میں، کوڈ کامیٹ سے اسکرپٹ اور کنفیگریشن فائل کو کھینچنے کے لیے کوڈ لکھیں، اسکرپٹ کو ازگر کے ماڈیول کے طور پر لوڈ کریں، اور اسکرپٹ میں ایک فنکشن کو کال کریں۔ فنکشن ایک کنفیگریشن فائل کو بطور دلیل لیتا ہے۔
- ڈیٹا رینگلر جاب چلائیں اور ایمیزون S3 کو منزل کے طور پر سیٹ کریں۔
منزل کے اختیارات بھی شامل ہیں۔ ایمیزون سیج میکر فیچر اسٹور.
شرائط
شرط کے طور پر، ہم CodeCommit ریپوزٹری، ڈیٹا رینگلر فلو، اور CodeCommit اجازتیں ترتیب دیتے ہیں۔
ایک CodeCommit ذخیرہ بنائیں
اس پوسٹ کے لیے، ہم ایک استعمال کرتے ہیں۔ AWS کلاؤڈ فارمیشن ایک CodeCommit ریپوزٹری قائم کرنے اور مطلوبہ فائلوں کو اس ریپوزٹری میں کاپی کرنے کے لیے ٹیمپلیٹ۔ درج ذیل مراحل کو مکمل کریں:
- میں سے انتخاب کریں اسٹیک لانچ کریں۔:
- وہ علاقہ منتخب کریں جہاں آپ CodeCommit ریپوزٹری بنانا چاہتے ہیں۔
- کے لیے ایک نام درج کریں۔ اسٹیک کا نام.
- ذخیرہ کرنے کے لیے ایک نام درج کریں۔ RepoName.
- میں سے انتخاب کریں اسٹیک بنائیں.
AWS CloudFormation کو آپ کے CodeCommit ریپوزٹری کی فراہمی میں چند سیکنڈ لگتے ہیں۔ کے بعد CREATE_COMPLETE
اسٹیٹس ظاہر ہوتا ہے، اپنے نئے بنائے گئے ذخیرے کو دیکھنے کے لیے CodeCommit کنسول پر جائیں۔
ڈیٹا رینگلر ترتیب دیں۔
ڈاؤن لوڈ، اتارنا bank.zip
سے ڈیٹاسیٹ یونیورسٹی آف کیلیفورنیا ارونگ مشین لرننگ ریپوزٹری. پھر، کے مواد کو نکالیں۔ bank.zip
اور اپ لوڈ bank-full.csv
ایمیزون S3 پر۔
ڈیٹا رینگلر فلو فائل بنانے اور درآمد کرنے کے لیے bank-full.csv
ایمیزون S3 سے ڈیٹا سیٹ، درج ذیل مراحل کو مکمل کریں:
- فوری آغاز کا استعمال کرتے ہوئے سیج میکر اسٹوڈیو پر آن بورڈ اسٹوڈیو میں نئے صارفین کے لیے۔
- اپنا سیج میکر ڈومین اور صارف پروفائل منتخب کریں اور پر شروع مینو، منتخب کریں سٹوڈیو.
- اسٹوڈیو کنسول پر، پر فائل مینو، منتخب کریں نئی، پھر منتخب کریں ڈیٹا رینگلر فلو.
- میں سے انتخاب کریں ایمیزون S3 لیے اعداد و شمار ذرائع.
- فائل پر مشتمل اپنی S3 بالٹی پر جائیں اور اپ لوڈ کریں۔
bank-full.csv
فائل.
A پیش نظارہ کی خرابی۔ پھینک دیا جائے گا.
- تبدیل کریں ڈیلیمیٹر میں تفصیلات دیکھیں دائیں طرف پین سیمیکولن.
ڈیٹا سیٹ کا ایک پیش نظارہ نتیجہ ونڈو میں دکھایا جائے گا۔
- میں تفصیلات دیکھیں پین، پر سیمپلنگ ڈراپ ڈاؤن مینو ، منتخب کریں۔ کوئی بھی نہیں.
یہ نسبتاً چھوٹا ڈیٹاسیٹ ہے، لہذا آپ کو نمونے لینے کی ضرورت نہیں ہے۔
- میں سے انتخاب کریں درآمد کریں.
CodeCommit اجازتوں کو ترتیب دیں۔
آپ کو CodeCommit تک رسائی کی اجازت کے ساتھ اسٹوڈیو کو فراہم کرنے کی ضرورت ہے۔ ایک کی فراہمی کے لیے ہم CloudFormation ٹیمپلیٹ کا استعمال کرتے ہیں۔ AWS شناخت اور رسائی کے انتظام (IAM) کی پالیسی جو آپ کو دیتا ہے اسٹوڈیو کا کردار CodeCommit تک رسائی کی اجازت۔ درج ذیل مراحل کو مکمل کریں:
- میں سے انتخاب کریں اسٹیک لانچ کریں۔:
- وہ علاقہ منتخب کریں جس میں آپ کام کر رہے ہیں۔
- کے لیے ایک نام درج کریں۔ اسٹیک کا نام.
- کے لیے اپنا اسٹوڈیو ڈومین ID درج کریں۔ SageMakerDomainID. ڈومین کی معلومات SageMaker کنسول پر دستیاب ہے۔ ڈومینز صفحہ، جیسا کہ مندرجہ ذیل اسکرین شاٹ میں دکھایا گیا ہے۔
- کے لیے اپنا اسٹوڈیو ڈومین صارف پروفائل نام درج کریں۔ SageMakerUserProfileName. آپ اپنے اسٹوڈیو ڈومین میں جا کر اپنا صارف پروفائل نام دیکھ سکتے ہیں۔ اگر آپ کے اسٹوڈیو ڈومین میں متعدد صارف پروفائلز ہیں، تو اسٹوڈیو کو لانچ کرنے کے لیے استعمال ہونے والے صارف پروفائل کا نام درج کریں۔
- تسلیم شدہ باکس کو منتخب کریں۔
اس CloudFormation ٹیمپلیٹ کے ذریعے استعمال ہونے والے IAM وسائل CodeCommit رسائی کے لیے آپ کے اسٹوڈیو رول سے منسلک IAM پالیسی کو کامیابی کے ساتھ بنانے کے لیے کم از کم اجازتیں فراہم کرتے ہیں۔
- میں سے انتخاب کریں اسٹیک بنائیں.
تبدیلی کے مراحل
اگلا، ہم ڈیٹا پر کارروائی کرنے کے لیے تبدیلیاں شامل کرتے ہیں۔
اپنی مرضی کے مطابق تبدیلی کا مرحلہ
اس پوسٹ میں، ہم حساب کرتے ہیں۔ متغیر افراط زر کا عنصر (VIF) ہر عددی خصوصیت اور ڈراپ فیچرز کے لیے جو VIF کی حد سے زیادہ ہیں۔ ہم یہ کسٹم ٹرانسفارم سٹیپ میں کرتے ہیں کیونکہ اس تحریر کے مطابق ڈیٹا رینگلر کے پاس اس کام کے لیے بلٹ ان ٹرانسفارم نہیں ہے۔
تاہم، ہم اس VIF فنکشن کو ہارڈ کوڈ نہیں کرتے ہیں۔ اس کے بجائے، ہم اس فنکشن کو CodeCommit ریپوزٹری سے کسٹم ٹرانسفارم سٹیپ میں کھینچتے ہیں۔ پھر ہم ڈیٹا سیٹ پر فنکشن چلاتے ہیں۔
- ڈیٹا رینگلر کنسول پر، اپنے ڈیٹا فلو پر جائیں۔
- آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام اور منتخب کریں تبدیلی شامل کریں۔.
- میں سے انتخاب کریں + قدم شامل کریں۔.
- میں سے انتخاب کریں اپنی مرضی کی تبدیلی.
- اختیاری طور پر، میں ایک نام درج کریں۔ نام میدان.
- میں سے انتخاب کریں Python (PySpark) ڈراپ ڈاؤن مینو پر۔
- کے لئے آپ کی اپنی مرضی کی تبدیلیمندرجہ ذیل کوڈ درج کریں (کوڈ کامیٹ ریپوزٹری اور اس علاقے کا نام فراہم کریں جہاں ریپوزٹری واقع ہے):
کوڈ استعمال کرتا ہے۔ AWS SDK برائے Python (Boto3) CodeCommit API افعال تک رسائی حاصل کرنے کے لیے۔ ہم استعمال کرتے ہیں get_file
کوڈ کامیٹ ریپوزٹری سے فائلوں کو ڈیٹا رینگلر ماحول میں کھینچنے کے لیے API فنکشن۔
- میں سے انتخاب کریں پیش نظارہ.
میں آؤٹ پٹ پین، مختلف عددی خصوصیات اور ان کی متعلقہ VIF قدر کو ظاہر کرنے والا ایک ٹیبل ظاہر ہوتا ہے۔ اس مشق کے لیے، VIF تھریشولڈ ویلیو 1.2 پر سیٹ کی گئی ہے۔ تاہم، آپ اس حد کی قدر میں ترمیم کر سکتے ہیں۔ parameter.json
فائل آپ کے CodeCommit ذخیرہ میں پائی گئی۔ آپ دیکھیں گے کہ دو کالم چھوڑے گئے ہیں (pdays
اور previous
)، کالم کی کل تعداد کو 15 تک لانا۔
- میں سے انتخاب کریں شامل کریں.
واضح خصوصیات کو انکوڈ کریں۔
کچھ خصوصیت کی اقسام واضح متغیرات ہیں جن کو عددی شکلوں میں تبدیل کرنے کی ضرورت ہے۔ اس ڈیٹا کی تبدیلی کو حاصل کرنے کے لیے ون ہاٹ انکوڈ بلٹ ان ٹرانسفارم کا استعمال کریں۔ آئیے ڈیٹاسیٹ میں ہر مخصوص خصوصیت میں منفرد قدر کی نمائندگی کرنے والی عددی خصوصیات بنائیں۔ درج ذیل مراحل کو مکمل کریں:
- میں سے انتخاب کریں + قدم شامل کریں۔.
- منتخب کیجئیے واضح انکوڈ کریں۔ تبدیل
- پر تبدیل ڈراپ ڈاؤن مینو ، منتخب کریں۔ ایک گرم انکوڈ.
- کے لئے ان پٹ کالم، تمام واضح خصوصیات کا انتخاب کریں، بشمول
poutcome
,y
,month
,marital
,contact
,default
,education
,housing
,job
، اورloan
. - کے لئے آؤٹ پٹ اسٹائلمنتخب کریں کالم.
- میں سے انتخاب کریں پیش نظارہ نتائج کا جائزہ لینے کے لیے۔
ہر خصوصیت کے اندر خصوصیات کی تعداد اور منفرد اقدار کو دیکھتے ہوئے، ایک گرم انکوڈنگ کو نتائج پیدا کرنے میں کچھ وقت لگ سکتا ہے۔
- میں سے انتخاب کریں شامل کریں.
ون ہاٹ انکوڈنگ کے ساتھ تخلیق کردہ ہر عددی خصوصیت کے لیے، نام انڈر سکور (_
) اور اس خصوصیت کے اندر انوکھی دوٹوک قدر۔
ڈراپ کالم
۔ y_yes
خصوصیت اس مشق کا ہدف کالم ہے، لہذا ہم اسے چھوڑ دیتے ہیں۔ y_no
کو نمایاں کریں.
- میں سے انتخاب کریں + قدم شامل کریں۔.
- میں سے انتخاب کریں کالموں کا نظم کریں۔.
- میں سے انتخاب کریں ڈراپ کالم کے تحت تبدیل.
- میں سے انتخاب کریں
y_no
کے تحت چھوڑنے کے لیے کالم. - میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.
ڈیٹا رینگلر جاب بنائیں
اب جب کہ آپ نے ٹرانسفارم کے تمام مراحل بنا لیے ہیں، آپ اپنے ان پٹ ڈیٹا کو پروسیس کرنے اور آؤٹ پٹ کو Amazon S3 میں اسٹور کرنے کے لیے ڈیٹا رینگلر جاب بنا سکتے ہیں۔ درج ذیل مراحل کو مکمل کریں:
- میں سے انتخاب کریں ڈیٹا کے بہاؤ واپس جانے کے لئے ڈیٹا کے بہاؤ صفحہ.
- اپنے فلو ویژولائزیشن کے آخری ٹائل پر جمع کا نشان منتخب کریں۔
- میں سے انتخاب کریں منزل شامل کریں۔ اور منتخب کریں ایمیزون S3.
- کے لیے آؤٹ پٹ فائل کا نام درج کریں۔ ڈیٹا سیٹ کا نام.
- میں سے انتخاب کریں براؤز کریں اور بالٹی کی منزل کا انتخاب کریں۔ ایمیزون S3 مقام.
- میں سے انتخاب کریں منزل شامل کریں۔.
- میں سے انتخاب کریں نوکری پیدا کریں۔.
- تبدیل کریں نوکری کا نام قدر کریں جیسا کہ آپ مناسب دیکھتے ہیں۔
- میں سے انتخاب کریں اگلا، 2. جاب کو کنفیگر کریں۔.
- تبدیل کریں مثال کی گنتی کرنے کے لئے 1کیونکہ ہم نسبتاً چھوٹے ڈیٹاسیٹ کے ساتھ کام کرتے ہیں، تاکہ ہونے والی لاگت کو کم کیا جا سکے۔
- میں سے انتخاب کریں تخلیق کریں.
یہ ایک شروع کرے گا ایمیزون سیج میکر پروسیسنگ کا کام اپنی ڈیٹا رینگلر فلو فائل کو پروسیس کرنے اور آؤٹ پٹ کو مخصوص S3 بالٹی میں اسٹور کرنے کے لیے۔
میشن
اب جب کہ آپ نے اپنی ڈیٹا رینگلر فلو فائل بنا لی ہے، آپ کر سکتے ہیں۔ شیڈول آپ کے ڈیٹا رینگلر کی نوکریاں خود بخود مخصوص اوقات اور تعدد پر چلتی ہیں۔ یہ ایک ایسی خصوصیت ہے جو ڈیٹا رینگلر کے ساتھ باکس سے باہر آتی ہے اور ڈیٹا رینگلر کی ملازمتوں کو شیڈول کرنے کے عمل کو آسان بناتی ہے۔ مزید برآں، CRON ایکسپریشنز سپورٹ ہوتے ہیں اور آپ کے ڈیٹا رینگلر جابز کو شیڈول کرنے میں اضافی حسب ضرورت اور لچک فراہم کرتے ہیں۔
تاہم، یہ پوسٹ ظاہر کرتی ہے کہ جب بھی CodeCommit ریپوزٹری میں فائلوں میں کوئی ترمیم ہوتی ہے تو آپ ڈیٹا رینگلر جاب کو کیسے خود کار طریقے سے چلا سکتے ہیں۔ یہ آٹومیشن تکنیک اس بات کو یقینی بناتی ہے کہ کسٹم کوڈ کے افعال میں کوئی تبدیلی یا CodeCommit میں کنفیگریشن فائل میں اقدار میں تبدیلی ان تبدیلیوں کو فوری طور پر ظاہر کرنے کے لیے ڈیٹا رینگلر جاب کو متحرک کرتی ہے۔
لہذا، آپ کو آؤٹ پٹ ڈیٹا حاصل کرنے کے لیے دستی طور پر ڈیٹا رینگلر جاب شروع کرنے کی ضرورت نہیں ہے جو آپ کی ابھی کی گئی تبدیلیوں کی عکاسی کرتا ہے۔ اس آٹومیشن کے ساتھ، آپ اپنے ڈیٹا رینگلر کے کام کے بوجھ کی چستی اور پیمانے کو بہتر بنا سکتے ہیں۔ اپنی ڈیٹا رینگلر جابز کو خودکار کرنے کے لیے، آپ درج ذیل کو کنفیگر کرتے ہیں:
- ایمیزون سیج میکر پائپ لائنز - پائپ لائنز آپ کو استعمال میں آسان Python SDK کے ساتھ مشین لرننگ (ML) ورک فلو بنانے میں مدد کرتی ہے، اور آپ سٹوڈیو کا استعمال کر کے اپنے ورک فلو کا تصور اور انتظام کر سکتے ہیں۔
- ایمیزون ایونٹ برج - EventBridge ورک فلوز کو شروع کرنے کے لیے AWS سروسز، سافٹ ویئر بطور سروس (SaaS) ایپلی کیشنز، اور حسب ضرورت ایپلیکیشنز کو ایونٹ پروڈیوسرز کے ساتھ کنکشن کی سہولت فراہم کرتا ہے۔
سیج میکر پائپ لائن بنائیں
سب سے پہلے، آپ کو اپنی ڈیٹا رینگلر جاب کے لیے سیج میکر پائپ لائن بنانے کی ضرورت ہے۔ پھر درج ذیل مراحل کو مکمل کریں۔ اپنے ڈیٹا رینگلر کے بہاؤ کو برآمد کریں۔ ایک سیج میکر پائپ لائن:
- اپنی آخری ٹرانسفارم ٹائل پر جمع کا نشان منتخب کریں (ٹرانسفارم ٹائل سے پہلے منزل مقصود ٹائل).
- میں سے انتخاب کریں برآمد کریں.
- میں سے انتخاب کریں سیج میکر انفرنس پائپ لائن (بذریعہ Jupyter نوٹ بک).
یہ آپ کے ڈیٹا رینگلر جاب کے لیے سیج میکر پائپ لائن بنانے کے لیے کوڈ کے ساتھ ایک نئی Jupyter نوٹ بک تیار کرتا ہے۔ نوٹ بک میں تمام سیل چلانے سے پہلے، آپ کچھ متغیرات کو تبدیل کرنا چاہتے ہیں۔
- شامل کرنا a تربیتی قدم اپنی پائپ لائن میں، تبدیل کریں۔
add_training_step
کے لیے متغیرTrue
.
آگاہ رہیں کہ تربیتی کام چلانے سے آپ کے اکاؤنٹ پر اضافی اخراجات آئیں گے۔
- کے لیے ایک قدر کی وضاحت کریں۔
target_attribute_name
کے لیے متغیرy_yes
.
- پائپ لائن کا نام تبدیل کرنے کے لیے، تبدیل کریں۔
pipeline_name
متغیر.
- آخر میں، منتخب کرکے پوری نوٹ بک چلائیں۔ رن اور تمام سیل چلائیں۔
یہ سیج میکر پائپ لائن بناتا ہے اور ڈیٹا رینگلر جاب چلاتا ہے۔
- اپنی پائپ لائن دیکھنے کے لیے، نیویگیشن پین پر ہوم آئیکن کو منتخب کریں اور منتخب کریں۔ پائپ لائنز
آپ دیکھ سکتے ہیں کہ نئی سیج میکر پائپ لائن بنائی گئی ہے۔
- رن لسٹ دیکھنے کے لیے نئی بنائی گئی پائپ لائن کا انتخاب کریں۔
- SageMaker پائپ لائن کا نام نوٹ کریں، کیونکہ آپ اسے بعد میں استعمال کریں گے۔
- پہلے رن کا انتخاب کریں اور منتخب کریں۔ گراف دیکھنا a ڈائریکٹڈ ایکائیلک گراف (DAG) آپ کی سیج میکر پائپ لائن کا بہاؤ۔
جیسا کہ درج ذیل اسکرین شاٹ میں دکھایا گیا ہے، ہم نے اپنی پائپ لائن میں تربیتی مرحلہ شامل نہیں کیا۔ اگر آپ نے اپنی پائپ لائن میں تربیتی مرحلہ شامل کیا ہے، تو یہ آپ کی پائپ لائن چلانے میں ظاہر ہوگا۔ گراف ٹیب کے تحت ڈیٹا رینگلر پروسیسنگ مرحلہ.
ایک EventBridge اصول بنائیں
ڈیٹا رینگلر جاب کے لیے کامیابی کے ساتھ اپنی سیج میکر پائپ لائن بنانے کے بعد، آپ ایک EventBridge قاعدہ ترتیب دینے کے لیے آگے بڑھ سکتے ہیں۔ یہ اصول آپ کے CodeCommit ریپوزٹری میں ہونے والی سرگرمیوں کو سنتا ہے اور CodeCommit ریپوزٹری میں کسی بھی فائل میں ترمیم کی صورت میں پائپ لائن کو چلانے کو متحرک کرتا ہے۔ ہم اسے خودکار بنانے کے لیے CloudFormation ٹیمپلیٹ کا استعمال کرتے ہیں۔ ایونٹ برج کا اصول. درج ذیل مراحل کو مکمل کریں:
- میں سے انتخاب کریں اسٹیک لانچ کریں۔:
- وہ علاقہ منتخب کریں جس میں آپ کام کر رہے ہیں۔
- کے لیے ایک نام درج کریں۔ اسٹیک کا نام.
- اپنے EventBridge اصول کے لیے ایک نام درج کریں۔ EventRuleName.
- اس پائپ لائن کا نام درج کریں جس کے لیے آپ نے بنایا ہے۔ پائپ لائن کا نام.
- CodeCommit ریپوزٹری کا نام درج کریں جس کے ساتھ آپ کام کر رہے ہیں۔ RepoName.
- تسلیم شدہ باکس کو منتخب کریں۔
IAM وسائل جو یہ CloudFormation ٹیمپلیٹ استعمال کرتا ہے وہ EventBridge اصول کو کامیابی کے ساتھ بنانے کے لیے کم از کم اجازتیں فراہم کرتے ہیں۔
- میں سے انتخاب کریں اسٹیک بنائیں.
CloudFormation ٹیمپلیٹ کو کامیابی سے چلنے میں چند منٹ لگتے ہیں۔ جب درجہ میں تبدیلیاں CREATE_COMPLTE، آپ تخلیق کردہ اصول کو دیکھنے کے لیے EventBridge کنسول پر جا سکتے ہیں۔
اب جب کہ آپ نے یہ قاعدہ بنا لیا ہے، آپ اپنے CodeCommit ریپوزٹری میں فائل میں جو بھی تبدیلیاں کرتے ہیں وہ SageMaker پائپ لائن کے چلانے کو متحرک کرے گی۔
پائپ لائن کی جانچ کرنے کے لیے اپنے CodeCommit ذخیرہ میں ایک فائل میں ترمیم کریں۔اپنے میں VIF تھریشولڈ میں ترمیم کریں۔ parameter.json
ایک مختلف نمبر پر فائل کریں، اور سیج میکر پائپ لائن کی تفصیلات والے صفحے پر جائیں۔ اپنی پائپ لائن کا ایک نیا رن دیکھیں پیدا.
اس نئی پائپ لائن رن میں، ڈیٹا رینگلر عددی خصوصیات کو چھوڑ دیتا ہے جن کی VIF قدر اس حد سے زیادہ ہوتی ہے جو آپ نے اپنی parameter.json
CodeCommit میں فائل۔
آپ نے اپنی ڈیٹا رینگلر جاب کو کامیابی کے ساتھ خودکار اور ڈیکپل کر لیا ہے۔ مزید برآں، آپ اپنی SageMaker پائپ لائن میں مزید اقدامات شامل کر سکتے ہیں۔ آپ اپنے ڈیٹا رینگلر کے بہاؤ میں مختلف فنکشنز کو نافذ کرنے کے لیے CodeCommit میں اپنی مرضی کے اسکرپٹس میں بھی ترمیم کر سکتے ہیں۔
اپنے اسکرپٹس اور فائلوں کو Amazon S3 میں اسٹور کرنا اور CodeCommit کے متبادل کے طور پر اپنے ڈیٹا رینگلر کسٹم ٹرانسفارم سٹیپ میں ڈاؤن لوڈ کرنا بھی ممکن ہے۔ اس کے علاوہ، آپ نے اپنا کسٹم ٹرانسفارم مرحلہ استعمال کرتے ہوئے چلایا Python (PyScript) فریم ورک تاہم، آپ بھی استعمال کر سکتے ہیں ازگر (پانڈا) آپ کے کسٹم ٹرانسفارم سٹیپ کے لیے فریم ورک، جو آپ کو اپنی مرضی کے مطابق Python اسکرپٹ چلانے کی اجازت دیتا ہے۔ آپ اپنی مرضی کے مطابق تبدیلی کے مرحلے میں اپنے فریم ورک کو تبدیل کرکے اس کی جانچ کر سکتے ہیں۔ ازگر (پانڈا) اور آپ کے CodeCommit ریپوزٹری میں محفوظ Python اسکرپٹ ورژن کو کھینچنے اور لاگو کرنے کے لیے اپنے کسٹم ٹرانسفارم سٹیپ کوڈ میں ترمیم کرنا۔ تاہم، ڈیٹا رینگلر کے لیے PySpark آپشن Python Pandas آپشن کے مقابلے میں بڑے ڈیٹا سیٹ پر کام کرتے وقت بہتر کارکردگی فراہم کرتا ہے۔
صاف کرو
اس استعمال کے معاملے کے ساتھ تجربہ کرنے کے بعد، اپنے اکاؤنٹ پر اضافی چارجز لگانے سے بچنے کے لیے اپنے بنائے گئے وسائل کو صاف کریں:
- بند کرو بنیادی مثال جو آپ کے ڈیٹا رینگلر فلو کو بنانے کے لیے استعمال ہوتی ہے۔
- خارج کر دیں مختلف CloudFormation ٹیمپلیٹ کے ذریعہ تخلیق کردہ وسائل۔
- اگر آپ دیکھیں گے
DELETE_FAILED
ریاست، CloudFormation ٹیمپلیٹ کو حذف کرتے وقت، اسٹیک کو کامیابی کے ساتھ حذف کرنے کے لیے ایک بار پھر حذف کریں۔
خلاصہ
اس پوسٹ نے آپ کو دکھایا کہ کس طرح کوڈ کامیٹ سے اسکرپٹس کو کھینچ کر اپنے ڈیٹا رینگلر کے کسٹم ٹرانسفارم سٹیپ کو ڈیکپل کرنا ہے۔ ہم نے یہ بھی دکھایا کہ سیج میکر پائپ لائنز اور ایونٹ برج کا استعمال کرتے ہوئے آپ کی ڈیٹا رینگلر جابز کو خودکار کیسے بنایا جائے۔
اب آپ اپنی ڈیٹا رینگلر فلو فائل میں ترمیم کیے بغیر اپنی ڈیٹا رینگلر جابز کو آپریشنل اور اسکیل کر سکتے ہیں۔ ڈیٹا رینگلر میں لاگو کرنے سے پہلے آپ اپنے کسٹم کوڈ کو CodeGuru یا کمزوریوں کے لیے کسی تھرڈ پارٹی ایپلیکیشن کا استعمال کرتے ہوئے CodeCommit میں بھی اسکین کرسکتے ہیں۔ AWS پر اینڈ ٹو اینڈ مشین لرننگ آپریشنز (MLOps) کے بارے میں مزید جاننے کے لیے، ملاحظہ کریں۔ MLOps کے لیے ایمیزون سیج میکر.
مصنف کے بارے میں
اچینا ایگبی AWS میں ایک ایسوسی ایٹ سولیوشن آرکیٹیکٹ ہے۔ وہ اپنا فارغ وقت جڑی بوٹیوں، چائے، سپر فوڈز اور انہیں اپنی روزمرہ کی خوراک میں شامل کرنے کے بارے میں تحقیق کرنے میں صرف کرتا ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/machine-learning/build-custom-code-libraries-for-your-amazon-sagemaker-data-wrangler-flows-using-aws-code-commit/
- : ہے
- $UP
- 1
- 100
- 7
- 8
- 9
- a
- ہمارے بارے میں
- تک رسائی حاصل
- اکاؤنٹ
- حاصل
- کے پار
- سرگرمیوں
- تیزابیت
- شامل کیا
- اس کے علاوہ
- ایڈیشنل
- اپنایا
- کے بعد
- امداد
- تمام
- اجازت دے رہا ہے
- کی اجازت دیتا ہے
- متبادل
- ایمیزون
- ایمیزون سیج میکر
- ایمیزون سیج میکر ڈیٹا رینگلر
- تجزیہ
- اور
- اے پی آئی
- درخواست
- ایپلی کیشنز
- فن تعمیر
- کیا
- دلیل
- ارد گرد
- AS
- ایسوسی ایٹ
- At
- خود کار طریقے سے
- آٹومیٹڈ
- خود کار طریقے سے
- میشن
- دستیاب
- AWS
- واپس
- بینک
- بینکنگ
- BE
- کیونکہ
- ہو جاتا ہے
- اس سے پہلے
- فوائد
- BEST
- بہترین طریقوں
- بہتر
- باکس
- آ رہا ہے
- تعمیر
- تعمیر میں
- by
- حساب
- کیلی فورنیا
- فون
- مہمات
- کر سکتے ہیں
- کیس
- خلیات
- کچھ
- تبدیل
- تبدیلیاں
- تبدیل کرنے
- بوجھ
- میں سے انتخاب کریں
- منتخب کریں
- کلائنٹ
- کوڈ
- تعاون
- کالم
- کالم
- یکجا
- وعدہ کرنا
- مقابلے میں
- مکمل
- پیچیدگیاں
- ترتیب
- کنکشن
- کنسول
- رابطہ کریں
- پر مشتمل ہے
- مندرجات
- اسی کے مطابق
- قیمت
- اخراجات
- تخلیق
- بنائی
- پیدا
- تخلیق
- اہم
- اپنی مرضی کے
- اصلاح
- ماؤنٹین
- روزانہ
- اعداد و شمار
- ڈیٹا تجزیہ
- ترسیل
- مظاہرہ
- ثبوت
- تعینات
- ۱۰۰۰۰ ڈالر ڈیپازٹ
- منزل
- تفصیلات
- ترقی
- ترقی
- غذا
- مختلف
- براہ راست
- دکھائیں
- نہیں کرتا
- ڈومین
- نہیں
- ڈاؤن لوڈ، اتارنا
- چھوڑ
- گرا دیا
- قطرے
- ہر ایک
- استعمال میں آسان
- ایڈیٹر
- ملازم
- آخر سے آخر تک
- انجنیئرنگ
- یقینی بناتا ہے
- درج
- پوری
- ماحولیات
- واقعہ
- ہر کوئی
- حد سے تجاوز
- پھانسی
- ورزش
- اظہار
- نکالنے
- سہولت
- نمایاں کریں
- خصوصیات
- چند
- میدان
- فائل
- فائلوں
- پہلا
- فٹ
- لچک
- بہاؤ
- بہنا
- توجہ مرکوز
- کے بعد
- مندرجہ ذیل ہے
- کے لئے
- فارم
- ملا
- فریم ورک
- مفت
- فرکوےنسی
- سے
- تقریب
- افعال
- افعال
- مزید برآں
- پیدا
- حاصل
- GIF
- دی
- فراہم کرتا ہے
- Go
- گراف
- زیادہ سے زیادہ
- بڑھائیں
- ہے
- ہونے
- مدد کرتا ہے
- پکڑو
- ہوم پیج (-)
- کس طرح
- کیسے
- تاہم
- HTML
- HTTPS
- آئکن
- ID
- شناختی
- فوری طور پر
- پر عملدرآمد
- نفاذ
- پر عمل درآمد
- درآمد
- درآمد
- کو بہتر بنانے کے
- in
- شامل
- سمیت
- شامل
- اضافہ
- افراط زر کی شرح
- معلومات
- ان پٹ
- مثال کے طور پر
- کے بجائے
- انسٹی
- متعارف کرواتا ہے
- IT
- ایوب
- نوکریاں
- فوٹو
- JSON
- رکھیں
- جان
- بڑے
- آخری
- شروع
- سیکھنے
- لائبریریوں
- لسٹ
- لوڈ
- واقع ہے
- مشین
- مشین لرننگ
- بنا
- بنا
- انتظام
- انتظام
- مینیجنگ
- دستی طور پر
- مارکیٹنگ
- یاد داشت
- مینو
- شاید
- کم سے کم
- منٹ
- ML
- ایم ایل اوپس
- نظر ثانی کرنے
- ماڈیول
- زیادہ
- منتقل
- ایک سے زیادہ
- نام
- تشریف لے جائیں
- تشریف لے جارہا ہے
- سمت شناسی
- ضرورت ہے
- نئی
- اگلے
- نوٹ بک
- تعداد
- عجیب
- of
- on
- ایک
- آپریشنز
- اختیار
- آپشنز کے بھی
- تنظیمیں
- OS
- پیداوار
- صفحہ
- pandas
- پین
- پیرامیٹر
- راستہ
- کارکردگی
- اجازت
- اجازتیں
- کارمک
- پائپ لائن
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- علاوہ
- پالیسی
- ممکن
- پوسٹ
- پریکٹس
- طریقوں
- پیش نظارہ
- عمل
- عمل
- پروسیسنگ
- پروڈیوسرس
- مصنوعات
- پیداوری
- پروفائل
- پروفائلز
- فراہم
- فراہم کرتا ہے
- پراجیکٹ
- ھیںچو
- ازگر
- فوری
- کو کم
- کی عکاسی
- کی عکاسی کرتا ہے
- خطے
- متعلقہ
- نسبتا
- ذخیرہ
- نمائندگی
- ضرورت
- وسائل
- جواب
- نتیجہ
- نتائج کی نمائش
- کردار
- حکمرانی
- رن
- چل رہا ہے
- ساس
- sagemaker
- سیج میکر پائپ لائنز
- اسی
- پیمانے
- اسکین
- شیڈولنگ
- سکرپٹ
- sdk
- سیکنڈ
- سیکورٹی
- سیریز
- سروس
- سروسز
- مقرر
- قائم کرنے
- دکھایا گیا
- شوز
- سائن ان کریں
- سادہ
- سائز
- چھوٹے
- So
- سافٹ ویئر کی
- ایک خدمت کے طور پر سافٹ ویئر
- حل
- حل
- مخصوص
- مخصوص
- ڈھیر لگانا
- شروع کریں
- حالت
- درجہ
- مرحلہ
- مراحل
- ذخیرہ
- ذخیرہ
- ذخیرہ
- سٹوڈیو
- کامیابی کے ساتھ
- تائید
- سیس
- ٹیبل
- لے لو
- لیتا ہے
- ہدف
- ٹاسک
- ٹیکنالوجی
- سانچے
- ٹیسٹ
- کہ
- ۔
- ان
- ان
- لہذا
- یہ
- تیسری پارٹی
- حد
- وقت
- اوقات
- کرنے کے لئے
- کے آلے
- کل
- ٹریننگ
- تبدیل
- تبدیلی
- تبدیلی
- تبدیل
- ٹرگر
- اقسام
- کے تحت
- بنیادی
- منفرد
- استعمال کی شرائط
- استعمال کیس
- رکن کا
- صارفین
- قیمت
- اقدار
- مختلف
- ورژن
- کی طرف سے
- لنک
- دورہ
- تصور
- نقصان دہ
- W
- جس
- جبکہ
- وکیپیڈیا
- گے
- ساتھ
- کے اندر
- بغیر
- کام
- کام کے بہاؤ
- کام کر
- گا
- لکھنا
- کوڈ لکھیں
- تحریری طور پر
- لکھا
- تم
- اور
- زیفیرنیٹ