AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ایم ایل ماڈلز بنائیں اور ان کی تربیت کریں: حصہ 1

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

مختلف صنعتوں میں تنظیمیں اپنی صنعت کے لیے مخصوص کاروباری چیلنجوں کو حل کرنے کے لیے مصنوعی ذہانت (AI) اور مشین لرننگ (ML) کا استعمال کر رہی ہیں۔ مثال کے طور پر، مالیاتی خدمات کی صنعت میں، آپ AI اور ML کو فراڈ کا پتہ لگانے، کریڈٹ رسک کی پیشین گوئی، براہ راست مارکیٹنگ، اور بہت سے دوسرے چیلنجوں کو حل کرنے کے لیے استعمال کر سکتے ہیں۔

بڑے ادارے بعض اوقات اختراعی تجزیات اور ایم ایل پروجیکٹس کے ساتھ کاروبار کی مختلف لائنوں (LoBs) کی ضروریات کو پورا کرنے کے لیے ایک سنٹر آف ایکسیلنس (CoE) قائم کرتے ہیں۔

پیمانے پر اعلیٰ معیار کے اور پرفارمنس ایم ایل ماڈلز بنانے کے لیے، انہیں درج ذیل کام کرنے کی ضرورت ہے:

ان کے تجزیات اور ML CoE تک متعلقہ ڈیٹا تک رسائی کا آسان طریقہ فراہم کریں۔
کیوریٹڈ ڈیٹا اثاثوں کو شیئر کرنے کے لیے انفرادی LoBs سے ڈیٹا فراہم کرنے والوں پر جوابدہی پیدا کریں جو قابل دریافت، قابل فہم، قابل عمل، اور قابل اعتماد ہیں۔

یہ ML استعمال کے کیسز کو تجربے سے پیداوار میں تبدیل کرنے اور پوری تنظیم میں کاروباری قدر پیدا کرنے کے لیے طویل سائیکل کے وقت کو کم کر سکتا ہے۔

ڈیٹا میش آرکیٹیکچر ان تکنیکی اور تنظیمی چیلنجوں کو حل کرنے کی کوشش کرتا ہے تاکہ تنظیموں کے اندر یا اس کے پار پیچیدہ اور بڑے پیمانے پر ماحول میں ڈیٹا کو شیئر کرنے، ان تک رسائی اور ان کا نظم کرنے کے لیے ایک غیر مرکزی سماجی-تکنیکی نقطہ نظر متعارف کرایا جائے۔ ڈیٹا میش ڈیزائن پیٹرن ایک ذمہ دار ڈیٹا شیئرنگ ماڈل بناتا ہے جو ڈیٹا ٹیموں، عمل اور ٹیکنالوجی میں کاروباری سرمایہ کاری کی واپسی کو بڑھانے کے حتمی مقصد کو حاصل کرنے کے لیے تنظیمی ترقی کے ساتھ ہم آہنگ ہوتا ہے۔

اس دو حصوں کی سیریز میں، ہم اس بارے میں رہنمائی فراہم کرتے ہیں کہ تنظیمیں AWS پر ڈیٹا میش ڈیزائن پیٹرن کا استعمال کرتے ہوئے کس طرح ایک جدید ڈیٹا آرکیٹیکچر بنا سکتی ہیں اور ایک سے زیادہ LoBs میں ڈیٹا کے ساتھ ML ماڈلز بنانے اور تربیت دینے کے لیے ایک اینالیٹکس اور ML CoE کو فعال کر سکتی ہیں۔ ہم اس سیریز کے لیے سیاق و سباق اور استعمال کے معاملے کو ترتیب دینے کے لیے مالیاتی خدمات کی تنظیم کی مثال استعمال کرتے ہیں۔

اس پہلی پوسٹ میں، ہم متعدد AWS ڈیٹا پروڈیوسر اور کنزیومر اکاؤنٹس کے ساتھ ڈیٹا میش آرکیٹیکچر ترتیب دینے کے طریقہ کار کو دکھاتے ہیں۔ پھر ہم ایک ڈیٹا پروڈکٹ پر توجہ مرکوز کرتے ہیں، جو مالیاتی تنظیم کے اندر ایک LoB کی ملکیت ہے، اور اسے ڈیٹا میش ماحول میں کس طرح شیئر کیا جا سکتا ہے تاکہ دوسرے LoBs کو اس ڈیٹا پروڈکٹ کو استعمال اور استعمال کرنے کی اجازت دی جا سکے۔ یہ بنیادی طور پر ڈیٹا اسٹیورڈ شخصیت کو نشانہ بنا رہا ہے، جو ڈیٹا پروڈیوسرز اور صارفین کے درمیان ڈیٹا شیئر کرنے کے عمل کو ہموار اور معیاری بنانے اور ڈیٹا گورننس کے قوانین کی تعمیل کو یقینی بنانے کے لیے ذمہ دار ہے۔

دوسری پوسٹ میں، ہم ایک مثال دکھاتے ہیں کہ کس طرح اینالیٹکس اور ML CoE خطرے کی پیشن گوئی کے استعمال کے کیس کے لیے ڈیٹا پروڈکٹ کو استعمال کر سکتے ہیں۔ یہ بنیادی طور پر ڈیٹا سائنسدان شخصیت کو نشانہ بنا رہا ہے، جو مالیاتی خدمات کے صارفین کے تجربے کو بڑھانے کے لیے کاروباری بصیرت نکالنے والے ایم ایل ماڈلز بنانے اور تربیت دینے کے لیے تنظیمی وسیع اور فریق ثالث دونوں ڈیٹا اثاثوں کو استعمال کرنے کا ذمہ دار ہے۔

ڈیٹا میش کا جائزہ

ڈیٹا میش پیٹرن کی بانی، زامک دہغانی اپنی کتاب میں ڈیٹا میش پیمانے پر ڈیٹا سے چلنے والی قدر کی فراہمی، ڈیٹا میش کے مقصد کی طرف چار اصولوں کی وضاحت کی:

تقسیم شدہ ڈومین کی ملکیت - ڈیٹا کی مرکزی ملکیت سے ڈیٹا پلیٹ فارم ٹیکنالوجیز کو ایک وکندریقرت شدہ ڈیٹا کی ملکیت کے ماڈل میں چلانے والے ماہرین کے ذریعے تنظیمی تبدیلی کو آگے بڑھانے کے لیے، ڈیٹا کی ملکیت اور جوابدہی کو واپس LoBs تک پہنچانا جہاں ڈیٹا تیار کیا جاتا ہے (ماخذ سے منسلک ڈومینز) یا استعمال کیا جاتا ہے۔ کھپت سے منسلک ڈومینز)۔
ڈیٹا بطور پروڈکٹ - کیوریٹڈ، اعلیٰ معیار، انٹرآپریبل، اور محفوظ ڈیٹا اثاثوں کو شیئر کرنے کے احتساب کو آگے بڑھانے کے لیے۔ لہٰذا، مختلف LoBs کے ڈیٹا پروڈیوسرز ڈیٹا کو استعمال کے قابل شکل میں ماخذ پر بنانے کے لیے ذمہ دار ہیں۔
سیلف سروس کے تجزیات - اینالیٹکس اور ایم ایل کے ڈیٹا استعمال کرنے والوں کے تجربے کو ہموار کرنے کے لیے تاکہ وہ اپنے پسندیدہ ٹولز کے ساتھ ڈیٹا پروڈکٹس کو دریافت، ان تک رسائی اور استعمال کر سکیں۔ مزید برآں، ترکیبیں اور دوبارہ قابل استعمال اجزاء اور ٹیمپلیٹس کے ذریعے ڈیٹا پروڈکٹس کی تعمیر، تعیناتی، اور برقرار رکھنے کے لیے LoB ڈیٹا فراہم کرنے والوں کے تجربے کو ہموار کرنا۔
فیڈریٹڈ کمپیوٹیشنل گورننس - مختلف LoBs سے ڈیٹا مالکان کی سطح پر ہونے کے لیے ڈیٹا تک رسائی کو منظم اور کنٹرول کرنے میں شامل فیصلہ سازی کو فیڈریٹ اور خودکار بنانا، جو کہ اب بھی وسیع تر تنظیم کی قانونی، تعمیل، اور حفاظتی پالیسیوں کے مطابق ہے جو بالآخر اس کے ذریعے نافذ کی جاتی ہیں۔ میش

AWS نے مختلف پوسٹوں میں AWS کے اوپر ڈیٹا میش بنانے کے لیے اپنا وژن متعارف کرایا:

سب سے پہلے، ہم نے پروڈکٹ کے اصولوں کے طور پر تقسیم شدہ ڈومین کی ملکیت اور ڈیٹا سے وابستہ تنظیمی حصے پر توجہ مرکوز کی۔ مصنفین نے ڈیٹا پروڈکٹ کی حکمت عملی کی طرف پوری تنظیم میں متعدد LOBs کو سیدھ میں کرنے کے وژن کو بیان کیا جو استعمال سے منسلک ڈومینز کو ان کے مطلوبہ ڈیٹا کو تلاش کرنے اور حاصل کرنے کے لیے ٹولز فراہم کرتا ہے، جبکہ اس ڈیٹا کے استعمال کے ارد گرد ضروری کنٹرول کی ضمانت دیتا ہے۔ ماخذ سے منسلک ڈومینز ڈیٹا پروڈکٹس فراہم کرنے کے لیے جو ماخذ پر صحیح استعمال کے لیے تیار ہوں۔ مزید معلومات کے لیے رجوع کریں۔ کس طرح JPMorgan Chase نے اپنے انٹرپرائز ڈیٹا پلیٹ فارم کو بڑھانے کے لیے اہم ویلیو چلانے کے لیے ڈیٹا میش فن تعمیر بنایا.
پھر ہم نے ڈیٹا پروڈکٹس، سیلف سروس اینالیٹکس، اور فیڈریٹڈ کمپیوٹیشنل گورننس کے اصولوں سے وابستہ تکنیکی حصے پر توجہ مرکوز کی۔ مصنفین نے بنیادی AWS خدمات کو بیان کیا جو ماخذ سے منسلک ڈومینز کو ڈیٹا پروڈکٹس بنانے اور شیئر کرنے کے لیے بااختیار بناتے ہیں، خدمات کی ایک وسیع اقسام جو صارفین سے منسلک ڈومینز کو ان کے ترجیحی ٹولز اور استعمال کے معاملات کی بنیاد پر ڈیٹا پروڈکٹس کو مختلف طریقوں سے استعمال کرنے کے قابل بناتی ہیں۔ کی طرف کام کر رہے ہیں، اور آخر میں AWS سروسز جو ڈیٹا تک رسائی کی پالیسیوں کو نافذ کر کے ڈیٹا شیئرنگ کے طریقہ کار کو کنٹرول کرتی ہیں۔ مزید معلومات کے لیے رجوع کریں۔ AWS Lake Formation اور AWS Glue کا استعمال کرتے ہوئے ڈیٹا میش فن تعمیر کو ڈیزائن کریں۔.
ہم نے مرکزی ڈیٹا میش UI کے ذریعے ڈیٹا کی دریافت اور رسائی کنٹرول کو خودکار کرنے کا حل بھی دکھایا۔ مزید تفصیلات کے لیے رجوع کریں۔ اپنے ڈیٹا میش کے لیے AWS Lake Formation کے ساتھ ڈیٹا شیئرنگ ورک فلو بنائیں.

مالیاتی خدمات استعمال کیس

عام طور پر، بڑی مالیاتی خدمات کی تنظیموں کے پاس متعدد LoBs ہوتے ہیں، جیسے کنزیومر بینکنگ، انویسٹمنٹ بینکنگ، اور اثاثہ جات کا انتظام، اور ایک یا زیادہ اینالیٹکس اور ML CoE ٹیمیں بھی۔ ہر LoB مختلف خدمات فراہم کرتا ہے:

کنزیومر بینکنگ LoB صارفین اور کاروباروں کو متعدد خدمات فراہم کرتا ہے، بشمول کریڈٹ اور مارگیج، کیش مینجمنٹ، ادائیگی کے حل، ڈپازٹ اور سرمایہ کاری کی مصنوعات، اور بہت کچھ
تجارتی یا سرمایہ کاری بینکنگ LoB جامع مالیاتی حل پیش کرتا ہے، جیسے کہ قرض دینا، دیوالیہ پن کا خطرہ، اور گاہکوں کو تھوک ادائیگی، بشمول چھوٹے کاروبار، درمیانے درجے کی کمپنیاں، اور بڑی کارپوریشنز۔
اثاثہ جات کا انتظام LoB تمام اثاثوں کی کلاسوں میں ریٹائرمنٹ مصنوعات اور سرمایہ کاری کی خدمات فراہم کرتا ہے۔

ہر LoB ان کے اپنے ڈیٹا پروڈکٹس کی وضاحت کرتا ہے، جو ڈیٹا کو سمجھنے والے لوگوں کے ذریعے کیوریٹ کیے جاتے ہیں اور یہ بتانے کے لیے بہترین ہیں کہ کون اسے استعمال کرنے کا مجاز ہے، اور اسے کیسے استعمال کیا جا سکتا ہے۔ اس کے برعکس، دیگر LoBs اور ایپلیکیشن ڈومینز جیسے کہ analytics اور ML CoE اہل ڈیٹا پروڈکٹس کو دریافت کرنے اور استعمال کرنے میں دلچسپی رکھتے ہیں، بصیرت پیدا کرنے کے لیے اسے آپس میں ملانے، اور ڈیٹا پر مبنی فیصلے کرنے میں دلچسپی رکھتے ہیں۔

مندرجہ ذیل مثال میں کچھ LoBs اور ڈیٹا پروڈکٹس کی مثالیں دی گئی ہیں جنہیں وہ شیئر کر سکتے ہیں۔ یہ ڈیٹا پروڈکٹس جیسے اینالیٹکس اور ML CoE کے صارفین کو بھی دکھاتا ہے، جو ML ماڈل بناتے ہیں جنہیں صارف کے سامنے آنے والی ایپلی کیشنز میں تعینات کیا جا سکتا ہے تاکہ آخر صارف کے تجربے کو مزید بہتر بنایا جا سکے۔

ڈیٹا میش سماجی-تکنیکی تصور کے بعد، ہم سماجی پہلو کے ساتھ تنظیمی اقدامات کے ایک سیٹ کے ساتھ شروع کرتے ہیں، جیسے کہ درج ذیل:

ہر ڈومین کے لیے حدود کی وضاحت کرنے کے لیے ڈومین کے ماہرین کا استعمال، تاکہ ہر ڈیٹا پروڈکٹ کو ایک مخصوص ڈومین میں میپ کیا جا سکے۔
ہر ڈومین سے فراہم کردہ ڈیٹا پروڈکٹس کے لیے مالکان کی شناخت، اس لیے ہر ڈیٹا پروڈکٹ کے لیے ان کے مالک کی طرف سے بیان کردہ حکمت عملی ہوتی ہے۔
عالمی اور مقامی یا فیڈریٹڈ مراعات سے گورننس کی پالیسیوں کی نشاندہی کرنا، لہذا جب ڈیٹا صارفین کسی مخصوص ڈیٹا پروڈکٹ تک رسائی حاصل کرتے ہیں، تو پروڈکٹ سے منسلک رسائی کی پالیسی کو مرکزی ڈیٹا گورننس لیئر کے ذریعے خود بخود نافذ کیا جا سکتا ہے۔

پھر ہم تکنیکی پہلو کی طرف بڑھتے ہیں، جس میں پچھلے خاکے میں بیان کردہ مندرجہ ذیل آخر سے آخر تک کا منظرنامہ شامل ہے:

کنزیومر بینکنگ LoB کو ٹولز کے ساتھ بااختیار بنائیں تاکہ استعمال کے لیے تیار کنزیومر کریڈٹ پروفائل ڈیٹا پروڈکٹ بنایا جا سکے۔
کنزیومر بینکنگ ایل او بی کو ڈیٹا پروڈکٹس کو مرکزی گورننس لیئر میں شیئر کرنے کی اجازت دیں۔
ڈیٹا تک رسائی کی پالیسیوں کی عالمی اور وفاقی تعریفیں شامل کریں جو مرکزی ڈیٹا گورننس کے ذریعے صارفین کے کریڈٹ پروفائل ڈیٹا پروڈکٹ تک رسائی کے دوران لاگو کی جانی چاہئیں۔
اینالیٹکس اور ML CoE کو سینٹرل گورننس لیئر کے ذریعے ڈیٹا پروڈکٹ کو دریافت کرنے اور اس تک رسائی کی اجازت دیں۔
کریڈٹ رسک کی پیشین گوئی کے ماڈل کی تعمیر اور تربیت کے لیے ڈیٹا پروڈکٹ کو استعمال کرنے کے لیے ٹولز کے ساتھ تجزیات اور ML CoE کو بااختیار بنائیں۔ ہم اس سیریز میں آخری مراحل (پچھلے ڈایاگرام میں 6 اور 7) کا احاطہ نہیں کرتے ہیں۔ تاہم، کاروباری قدر کو ظاہر کرنے کے لیے اس طرح کا ML ماڈل تنظیم کو آخر سے آخر تک کے منظر نامے میں لا سکتا ہے، ہم درج ذیل کی وضاحت کرتے ہیں:
اس ماڈل کو بعد میں صارفین کا سامنا کرنے والے سسٹمز جیسے کہ کنزیومر بینکنگ ویب پورٹل یا موبائل ایپلیکیشن پر دوبارہ تعینات کیا جا سکتا ہے۔
یہ خاص طور پر قرض کی درخواست کے اندر کریڈٹ اور رہن کی درخواستوں کے رسک پروفائل کا اندازہ لگانے کے لیے استعمال کیا جا سکتا ہے۔

اگلا، ہم اجزاء میں سے ہر ایک کی تکنیکی ضروریات کو بیان کرتے ہیں۔

تکنیکی ضروریات میں گہرا غوطہ لگائیں۔

ڈیٹا پراڈکٹس کو ہر ایک کے لیے دستیاب کرنے کے لیے، تنظیموں کو اس پر مناسب کنٹرول برقرار رکھتے ہوئے، یا دوسرے لفظوں میں، چستی کو مناسب حکمرانی کے ساتھ متوازن کرنے کے لیے پوری تنظیم میں مختلف اداروں کے درمیان ڈیٹا کا اشتراک کرنا آسان بنانا ہوگا۔

ڈیٹا صارف: تجزیات اور ML CoE

ڈیٹا صارفین جیسے اینالیٹکس کے ڈیٹا سائنسدانوں اور ML CoE کو درج ذیل کام کرنے کے قابل ہونے کی ضرورت ہے:

دیے گئے استعمال کیس کے لیے متعلقہ ڈیٹاسیٹس کو دریافت کریں اور ان تک رسائی حاصل کریں۔
یقین رکھیں کہ وہ ڈیٹاسیٹس جن تک وہ رسائی حاصل کرنا چاہتے ہیں پہلے سے تیار شدہ، تازہ ترین، اور مضبوط تفصیل کے حامل ہیں
اپنے کاروباری معاملات میں دلچسپی کے ڈیٹاسیٹس تک رسائی کی درخواست کریں۔
ML کے لیے اپنے ماحول کے اندر ایسے ڈیٹاسیٹس کو استفسار کرنے اور ان پر کارروائی کرنے کے لیے اپنے پسندیدہ ٹولز کا استعمال کریں، بغیر کسی دور دراز کے اصل مقام سے ڈیٹا کو نقل کرنے کی ضرورت کے یا کسی دور دراز سائٹ میں جسمانی طور پر ذخیرہ شدہ ڈیٹا کی پروسیسنگ سے منسلک انجینئرنگ یا انفراسٹرکچر کی پیچیدگیوں کے بارے میں فکر مند ہونے کے لیے۔
ڈیٹا مالکان کی طرف سے کی گئی کسی بھی ڈیٹا اپ ڈیٹ کی اطلاع حاصل کریں۔

ڈیٹا پروڈیوسر: ڈومین کی ملکیت

ڈیٹا پروڈیوسرز، جیسے کہ مالیاتی خدمات org میں مختلف LoBs کی ڈومین ٹیمیں، کو درج ذیل پر مشتمل ڈیٹا سیٹس کو رجسٹر کرنے اور شیئر کرنے کی ضرورت ہے:

تکنیکی اور آپریشنل میٹا ڈیٹا، جیسے ڈیٹا بیس اور ٹیبل کے نام اور سائز، کالم اسکیماس، اور کیز
کاروباری میٹا ڈیٹا جیسے ڈیٹا کی تفصیل، درجہ بندی، اور حساسیت
ٹریکنگ میٹا ڈیٹا جیسے منبع سے ہدف کی شکل تک اسکیما ارتقاء اور کسی بھی درمیانی شکل
ڈیٹا کوالٹی میٹا ڈیٹا جیسے درستگی اور مکمل ہونے کا تناسب اور ڈیٹا کا تعصب
رسائی کی پالیسیاں اور طریقہ کار

ڈیٹا صارفین کو دستی طریقہ کار پر انحصار کیے بغیر یا ڈیٹا کے معنی اور اس تک رسائی کے طریقہ کے بارے میں مزید معلومات حاصل کرنے کے لیے ڈیٹا پروڈکٹ کے ڈومین ماہرین سے رابطہ کیے بغیر ڈیٹا کو دریافت کرنے اور اس تک رسائی کی اجازت دینے کے لیے ان کی ضرورت ہے۔

ڈیٹا گورننس: دریافت، قابل رسائی، اور آڈٹ ایبلٹی

تنظیموں کو ڈیٹا لیک سے وابستہ خطرات کی مناسب تخفیف کے ساتھ پہلے بیان کردہ چستیوں میں توازن پیدا کرنے کی ضرورت ہے۔ خاص طور پر مالیاتی خدمات جیسی ریگولیٹڈ صنعتوں میں، ڈیٹا کی مجموعی رسائی اور آڈٹ کنٹرول فراہم کرنے کے لیے مرکزی ڈیٹا گورننس کو برقرار رکھنے کی ضرورت ہے جبکہ مختلف جگہوں پر ایک ہی ڈیٹا کی متعدد کاپیوں سے گریز کرتے ہوئے اسٹوریج کے اثرات کو کم کرتے ہیں۔

روایتی سینٹرلائزڈ ڈیٹا لیک آرکیٹیکچرز میں، ڈیٹا پروڈیوسر اکثر خام ڈیٹا شائع کرتے ہیں اور ڈیٹا کیوریشن، ڈیٹا کوالٹی مینجمنٹ، اور ڈیٹا اور انفراسٹرکچر انجینئرز تک رسائی کنٹرول کی ذمہ داری سینٹرلائزڈ ڈیٹا پلیٹ فارم ٹیم میں دیتے ہیں۔ تاہم، یہ ڈیٹا پلیٹ فارم ٹیمیں مختلف ڈیٹا ڈومینز سے کم واقف ہو سکتی ہیں، اور پھر بھی ڈیٹا پروڈیوسرز کے تعاون پر انحصار کرتی ہیں تاکہ وہ ہر ڈیٹا ڈومین پر نافذ کردہ پالیسیوں کے مطابق ڈیٹا تک رسائی کو درست طریقے سے درست اور کنٹرول کر سکیں۔ اس کے برعکس، ڈیٹا پروڈیوسرز خود کیوریٹڈ، کوالیفائیڈ ڈیٹا اثاثے فراہم کرنے کے لیے بہترین پوزیشن میں ہیں اور ڈومین کے لیے مخصوص رسائی کی پالیسیوں سے آگاہ ہیں جنہیں ڈیٹا اثاثوں تک رسائی کے دوران نافذ کرنے کی ضرورت ہے۔

حل جائزہ

درج ذیل خاکہ مجوزہ حل کے اعلیٰ سطحی فن تعمیر کو ظاہر کرتا ہے۔

ہم تجزیات اور ML CoE کے ذریعہ ڈیٹا کی کھپت کو حل کرتے ہیں۔ ایمیزون ایتینا اور ایمیزون سیج میکر in حصہ 2 اس سیریز کا

اس پوسٹ میں، ہم ڈیٹا میش میں ڈیٹا آن بورڈنگ کے عمل پر توجہ مرکوز کرتے ہیں اور یہ بیان کرتے ہیں کہ کس طرح ایک فرد LoB جیسا کہ صارف بینکنگ ڈومین ڈیٹا ٹیم AWS ٹولز استعمال کر سکتی ہے جیسے AWS گلو اور AWS گلو ڈیٹا بریو ان کے ڈیٹا پروڈکٹس کی تیاری، درستگی اور معیار کو بڑھانے کے لیے، اور پھر ان ڈیٹا پروڈکٹس کو مرکزی ڈیٹا گورننس اکاؤنٹ میں رجسٹر کرنے کے لیے AWS جھیل کی تشکیل.

کنزیومر بینکنگ ایل او بی (ڈیٹا پروڈیوسر)

ڈیٹا میش کے بنیادی اصولوں میں سے ایک پروڈکٹ کے طور پر ڈیٹا کا تصور ہے۔ یہ بہت اہم ہے کہ کنزیومر بینکنگ ڈومین ڈیٹا ٹیم ڈیٹا پروڈکٹس کی تیاری پر کام کرے جو ڈیٹا صارفین کے استعمال کے لیے تیار ہوں۔ یہ AWS ایکسٹریکٹ، ٹرانسفارم، اور لوڈ (ETL) ٹولز جیسے AWS Glue کا استعمال کرتے ہوئے کیا جا سکتا ہے تاکہ جمع کیے گئے خام ڈیٹا پر کارروائی کی جا سکے۔ ایمیزون سادہ اسٹوریج سروس (Amazon S3)، یا متبادل طور پر آپریشنل ڈیٹا اسٹورز سے جڑیں جہاں ڈیٹا تیار کیا جاتا ہے۔ آپ بھی استعمال کر سکتے ہیں۔ ڈیٹا بریوجو کہ بغیر کوڈ کے بصری ڈیٹا کی تیاری کا ٹول ہے جو ڈیٹا کو صاف اور معمول پر لانا آسان بناتا ہے۔

مثال کے طور پر، کنزیومر کریڈٹ پروفائل ڈیٹا پروڈکٹ کی تیاری کے دوران، کنزیومر بینکنگ ڈومین ڈیٹا ٹیم اوپن سورس ڈیٹاسیٹ سے حاصل کیے گئے خام ڈیٹا کے انتساب ناموں کا جرمن سے انگریزی میں ترجمہ کرنے کے لیے ایک آسان کیوریشن بنا سکتی ہے۔ اسٹیٹلاگ جرمن کریڈٹ ڈیٹا، جو 20 صفات اور 1,000 قطاروں پر مشتمل ہے۔

ڈیٹا گورننس

ڈیٹا میش گورننس کو فعال کرنے کے لیے بنیادی AWS سروس Lake Formation ہے۔ لیک فارمیشن ہر ڈیٹا ڈومین کے اندر اور تمام ڈومینز میں ڈیٹا گورننس کو نافذ کرنے کی صلاحیت پیش کرتا ہے تاکہ یہ یقینی بنایا جا سکے کہ ڈیٹا آسانی سے قابل دریافت اور محفوظ ہے۔ یہ ایک وفاقی سیکورٹی ماڈل فراہم کرتا ہے جس کا انتظام مرکزی طور پر کیا جا سکتا ہے، ڈیٹا کی دریافت، سیکورٹی اور تعمیل کے بہترین طریقوں کے ساتھ، ہر ڈومین کے اندر اعلیٰ چستی کی اجازت دیتے ہوئے

Lake Formation آپ کے ڈیٹا کی حفاظت کے لیے قطار کی سطح کی سیکیورٹی کے ساتھ ساتھ، ڈیٹا کو کیسے اندراج، ذخیرہ اور منظم کیا جاتا ہے اس کو آسان بنانے کے لیے ایک API پیش کرتا ہے۔ یہ دانے دار رسائی کنٹرول، زیر انتظام میزیں، اور اسٹوریج آپٹیمائزیشن جیسی فعالیت بھی فراہم کرتا ہے۔

اس کے علاوہ، Lake Formations پیش کرتا ہے a ڈیٹا شیئرنگ API جسے آپ ڈیٹا شیئر کرنے کے لیے استعمال کر سکتے ہیں۔ مختلف اکاؤنٹس میں. یہ اینالیٹکس اور ML CoE صارفین کو ایتھینا کے سوالات چلانے کی اجازت دیتا ہے جو متعدد اکاؤنٹس میں ٹیبلز کو استفسار اور جوائن کرتے ہیں۔ مزید معلومات کے لیے، سے رجوع کریں۔ AWS لیک فارمیشن ڈویلپر گائیڈ.

AWS ریسورس ایکسیس مینیجر (AWS RAM) کے ذریعے وسائل کا اشتراک کرنے کا ایک محفوظ طریقہ فراہم کرتا ہے۔ AWS شناخت اور رسائی مینیجر (IAM) کسی تنظیم یا تنظیمی اکائیوں (OUs) میں AWS اکاؤنٹس میں کردار اور صارفین AWS تنظیمیں

AWS RAM کے ساتھ لیک فارمیشن ڈیٹا شیئرنگ اور AWS اکاؤنٹس تک رسائی کو منظم کرنے کا ایک طریقہ فراہم کرتا ہے۔ ہم اس نقطہ نظر کو بطور حوالہ دیتے ہیں۔ RAM پر مبنی رسائی کنٹرول. اس نقطہ نظر کے بارے میں مزید تفصیلات کے لیے، رجوع کریں۔ اپنے ڈیٹا میش کے لیے AWS Lake Formation کے ساتھ ڈیٹا شیئرنگ ورک فلو بنائیں.

لیک فارمیشن ڈیٹا شیئرنگ اور اس تک رسائی کا انتظام کرنے کا ایک اور طریقہ بھی پیش کرتا ہے۔ جھیل کی تشکیل کے ٹیگز. ہم اس نقطہ نظر کو بطور حوالہ دیتے ہیں۔ ٹیگ پر مبنی رسائی کنٹرول. مزید تفصیلات کے لیے رجوع کریں۔ AWS لیک فارمیشن ٹیگ پر مبنی رسائی کنٹرول کا استعمال کرتے ہوئے پیمانے پر ایک جدید ڈیٹا فن تعمیر اور ڈیٹا میش پیٹرن بنائیں.

اس پوری پوسٹ کے دوران، ہم ٹیگ پر مبنی رسائی کنٹرول اپروچ کا استعمال کرتے ہیں کیونکہ یہ بنیادی ڈھانچے کی سطح پر نامزد وسائل کے بارے میں پالیسیاں بتانے کے بجائے کم تعداد میں منطقی ٹیگز پر پالیسیوں کی تشکیل کو آسان بناتا ہے جو عام طور پر مختلف LoBs میں پائے جاتے ہیں۔

شرائط

ڈیٹا میش فن تعمیر کو ترتیب دینے کے لیے، آپ کو کم از کم تین AWS اکاؤنٹس کی ضرورت ہے: ایک پروڈیوسر اکاؤنٹ، ایک مرکزی اکاؤنٹ، اور ایک صارف اکاؤنٹ۔

ڈیٹا میش ماحول کو تعینات کریں۔

ڈیٹا میش ماحول کو تعینات کرنے کے لیے، آپ درج ذیل کو استعمال کر سکتے ہیں۔ GitHub ذخیرہ. یہ ذخیرہ تین پر مشتمل ہے۔ AWS کلاؤڈ فارمیشن ٹیمپلیٹس جو ڈیٹا میش ماحول کو متعین کرتے ہیں جس میں ہر ایک اکاؤنٹ (پروڈیوسر، مرکزی، اور صارف) شامل ہوتا ہے۔ ہر اکاؤنٹ کے اندر، آپ اس سے متعلقہ CloudFormation ٹیمپلیٹ چلا سکتے ہیں۔

مرکزی اکاؤنٹ

مرکزی اکاؤنٹ میں، درج ذیل مراحل کو مکمل کریں:

CloudFormation اسٹیک لانچ کریں:
دو IAM صارفین بنائیں:
1. DataMeshOwner
2. ProducerSteward
گرانٹ DataMeshOwner لیک فارمیشن ایڈمن کے طور پر۔
ایک IAM کردار بنائیں:
1. LFRegisterLocationServiceRole
دو IAM پالیسیاں بنائیں:
1. ProducerStewardPolicy
2. S3DataLakePolicy
کے لیے ڈیٹا بیس کریڈٹ کارڈ بنائیں ProducerSteward پروڈیوسر کے اکاؤنٹ میں۔
پروڈیوسر اکاؤنٹ میں ڈیٹا لوکیشن کی اجازت کا اشتراک کریں۔

پروڈیوسر اکاؤنٹ

پروڈیوسر اکاؤنٹ میں، درج ذیل مراحل کو مکمل کریں:

CloudFormation اسٹیک لانچ کریں:
S3 بالٹی بنائیں credit-card، جو میز رکھتا ہے۔ credit_card.
مرکزی اکاؤنٹ لیک فارمیشن سروس رول کے لیے S3 بالٹی تک رسائی کی اجازت دیں۔
AWS Glue کرالر بنائیں creditCrawler-<ProducerAccountID>.
AWS Glue کرالر سروس رول بنائیں۔
S3 بالٹی کے مقام پر اجازتیں دیں۔ credit-card-<ProducerAccountID>-<aws-region> AWS Glue کرالر کے کردار میں۔
ایک پروڈیوسر سٹیورڈ IAM صارف بنائیں۔

صارف اکاؤنٹ

صارف اکاؤنٹ میں، درج ذیل مراحل کو مکمل کریں:

CloudFormation اسٹیک لانچ کریں:
S3 بالٹی بنائیں <AWS Account ID>-<aws-region>-athena-logs.
ایتھینا ورک گروپ بنائیں consumer-workgroup.
IAM صارف بنائیں ConsumerAdmin.

ایک ڈیٹا بیس شامل کریں اور اس میں صارف اکاؤنٹ کو سبسکرائب کریں۔

ٹیمپلیٹس چلانے کے بعد، آپ کے ذریعے جا سکتے ہیں۔ مرحلہ وار گائیڈ ڈیٹا کیٹلاگ میں کسی پروڈکٹ کو شامل کرنے اور صارفین کو اسے سبسکرائب کرنے کے لیے۔ گائیڈ ایک ڈیٹا بیس ترتیب دینے سے شروع ہوتا ہے جہاں پروڈیوسر اپنی مصنوعات رکھ سکتا ہے اور پھر یہ بتاتا ہے کہ صارف کس طرح اس ڈیٹا بیس کو سبسکرائب کر سکتا ہے اور ڈیٹا تک رسائی حاصل کر سکتا ہے۔ یہ سب استعمال کرتے وقت انجام دیا جاتا ہے۔ ایل ایف ٹیگز، جو ہے ٹیگ پر مبنی رسائی کنٹرول جھیل کی تشکیل کے لیے۔

ڈیٹا پروڈکٹ کی رجسٹریشن

مندرجہ ذیل آرکیٹیکچر تفصیلی مراحل کی وضاحت کرتا ہے کہ کس طرح ڈیٹا پروڈیوسرز کے طور پر کام کرنے والی صارف بینکنگ LoB ٹیم اپنے ڈیٹا پروڈکٹس کو سینٹرل ڈیٹا گورننس اکاؤنٹ (آن بورڈ ڈیٹا پروڈکٹس کو آرگنائزیشن ڈیٹا میش) میں رجسٹر کر سکتی ہے۔

ڈیٹا پروڈکٹ کو رجسٹر کرنے کے عمومی اقدامات درج ذیل ہیں:

سینٹرل گورننس اکاؤنٹ میں ڈیٹا پروڈکٹ کے لیے ٹارگٹ ڈیٹا بیس بنائیں۔ مثال کے طور پر، مرکزی اکاؤنٹ سے CloudFormation ٹیمپلیٹ پہلے سے ہی ہدف ڈیٹا بیس بناتا ہے۔ credit-card.
تخلیق کردہ ٹارگٹ ڈیٹا بیس کو پروڈیوسر اکاؤنٹ میں اصل کے ساتھ شیئر کریں۔
پروڈیوسر اکاؤنٹ میں مشترکہ ڈیٹا بیس کا ایک وسیلہ لنک بنائیں۔ مندرجہ ذیل اسکرین شاٹ میں، ہم پروڈیوسر کے اکاؤنٹ میں لیک فارمیشن کنسول پر دیکھتے ہیں۔ rl_credit-card کا وسیلہ لنک ہے۔ credit-card ڈیٹا بیس
ریسورس لنک ڈیٹا بیس کے اندر ٹیبلز (پروڈیوسر اکاؤنٹ میں کیوریٹ کردہ ڈیٹا کے ساتھ) کو آباد کریں (rl_credit-card) پروڈیوسر اکاؤنٹ میں AWS Glue کرالر کا استعمال کرتے ہوئے

بنائی گئی میز خود بخود سنٹرل گورننس اکاؤنٹ میں ظاہر ہو جاتی ہے۔ مندرجہ ذیل اسکرین شاٹ مرکزی اکاؤنٹ میں لیک فارمیشن میں جدول کی ایک مثال دکھاتا ہے۔ یہ ریسورس لنک ڈیٹا بیس کو آباد کرنے کے لیے پہلے کے اقدامات کرنے کے بعد ہے۔ rl_credit-card پروڈیوسر کے اکاؤنٹ میں

نتیجہ

اس سیریز کے حصہ 1 میں، ہم نے مالیاتی خدمات کی تنظیموں کے اہداف پر تبادلہ خیال کیا تاکہ ان کے تجزیات اور ایم ایل ٹیموں کے لیے زیادہ چستیاں حاصل کی جائیں اور ڈیٹا سے بصیرت تک کا وقت کم کیا جائے۔ ہم نے AWS پر ڈیٹا میش آرکیٹیکچر بنانے پر بھی توجہ مرکوز کی، جہاں ہم نے استعمال میں آسان، قابل توسیع، اور لاگت سے موثر AWS خدمات جیسے AWS Glue، DataBrew، اور Lake Formation متعارف کرائی ہیں۔ ڈیٹا تیار کرنے والی ٹیمیں ان خدمات کو کیوریٹڈ، اعلیٰ کوالٹی، انٹرآپریبل، اور محفوظ ڈیٹا پروڈکٹس بنانے اور شیئر کرنے کے لیے استعمال کر سکتی ہیں جو مختلف ڈیٹا صارفین تجزیاتی مقاصد کے لیے استعمال کرنے کے لیے تیار ہیں۔

In حصہ 2، ہم تجزیات اور ML CoE ٹیموں پر توجہ مرکوز کرتے ہیں جو AWS خدمات جیسے Athena اور SageMaker کا استعمال کرتے ہوئے کریڈٹ رسک کی پیش گوئی کا ماڈل بنانے کے لیے صارف بینکنگ LoB کے اشتراک کردہ ڈیٹا پروڈکٹس کا استعمال کرتے ہیں۔

مصنفین کے بارے میں

کریم حمودہ ڈیٹا انٹیگریشن، ڈیٹا اینالیسس، اور BI کے شوق کے ساتھ AWS میں تجزیات کے لیے ایک ماہر حل آرکیٹیکٹ ہے۔ وہ AWS صارفین کے ساتھ ایسے تجزیاتی حلوں کو ڈیزائن اور بنانے کے لیے کام کرتا ہے جو ان کے کاروبار کی ترقی میں حصہ ڈالتے ہیں۔ اپنے فارغ وقت میں، وہ اپنے بیٹے کے ساتھ ٹی وی دستاویزی فلمیں دیکھنا اور ویڈیو گیمز کھیلنا پسند کرتا ہے۔

حسن پونا والا AWS میں ایک سینئر AI/ML ماہر حل آرکیٹیکٹ ہے، حسن AWS پر پروڈکشن میں مشین لرننگ ایپلی کیشنز کو ڈیزائن اور تعینات کرنے میں صارفین کی مدد کرتا ہے۔ اس کے پاس ڈیٹا سائنٹسٹ، مشین لرننگ پریکٹیشنر، اور سافٹ ویئر ڈویلپر کے طور پر 12 سال سے زیادہ کام کا تجربہ ہے۔ اپنے فارغ وقت میں، حسن کو فطرت کی سیر کرنا اور دوستوں اور کنبہ کے ساتھ وقت گزارنا پسند ہے۔

بینوئٹ ڈی پاٹول AWS میں ایک AI/ML ماہر حل آرکیٹیکٹ ہے۔ وہ AWS کا استعمال کرتے ہوئے AI/ML سے متعلق حل تیار کرنے کے لیے رہنمائی اور تکنیکی مدد فراہم کرکے صارفین کی مدد کرتا ہے۔ اپنے فارغ وقت میں وہ پیانو بجانا اور دوستوں کے ساتھ وقت گزارنا پسند کرتا ہے۔

ٹائم اسٹیمپ: جولائی 29، 2022جولائی 30، 2022

ٹائم اسٹیمپ: دسمبر 1، 2023

ایمیزون سیج میکر پر آر اسٹوڈیو کے ساتھ متوازی ڈیٹا پروسیسنگ

ماخذ کلسٹر:

AWS مشین لرننگ

ماخذ نوڈ: 1671065

ٹائم اسٹیمپ: ستمبر 19، 2022

ایمیزون سیج میکر آٹومیٹک ماڈل ٹیوننگ اب خود کار طریقے سے استعمال کی اہلیت اور لاگت کی کارکردگی کو بہتر بنانے کے لیے ٹیوننگ کنفیگریشنز کا انتخاب کرتی ہے۔ ایمیزون ویب سروسز

ماخذ کلسٹر:

AWS مشین لرننگ

ماخذ نوڈ: 1844341

ٹائم اسٹیمپ: جون 5، 2023

AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

ڈیٹا میش کا جائزہ

مالیاتی خدمات استعمال کیس

تکنیکی ضروریات میں گہرا غوطہ لگائیں۔

ڈیٹا صارف: تجزیات اور ML CoE

ڈیٹا پروڈیوسر: ڈومین کی ملکیت

ڈیٹا گورننس: دریافت، قابل رسائی، اور آڈٹ ایبلٹی

حل جائزہ

کنزیومر بینکنگ ایل او بی (ڈیٹا پروڈیوسر)

ڈیٹا گورننس

شرائط

ڈیٹا میش ماحول کو تعینات کریں۔

مرکزی اکاؤنٹ

پروڈیوسر اکاؤنٹ

صارف اکاؤنٹ

ایک ڈیٹا بیس شامل کریں اور اس میں صارف اکاؤنٹ کو سبسکرائب کریں۔

ڈیٹا پروڈکٹ کی رجسٹریشن

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

AWS Trainium کے ساتھ تیز رفتار اور سرمایہ کاری مؤثر LLaMA 2 فائن ٹیوننگ | ایمیزون ویب سروسز

Amazon Translate میں گستاخانہ ماسکنگ کا اطلاق کریں۔

ایمیزون سیج میکر پر MLOps کے ساتھ مضبوط ٹائم سیریز کی پیشن گوئی | ایمیزون ویب سروسز

ایمیزون سیج میکر کینوس میں لاما 2 اور Mistral ماڈلز اور اسٹریمنگ ردعمل کے لیے حمایت کا اعلان ایمیزون ویب سروسز

ڈیٹا کی تیاری کے لیے ایمیزون سیج میکر ڈیٹا رینگلر اور ایم ایل کے ساتھ سیکھنے اور تجربہ کرنے کے لیے اسٹوڈیو لیبز کا استعمال کریں۔

HTML دستاویزات کے لیے Amazon Kendra ٹیبلر سرچ کا تعارف

ایمیزون سیج میکر اسٹوڈیو اور ایمیزون سیج میکر آٹو پائلٹ کا استعمال کرتے ہوئے سیٹلائٹ امیج کی خصوصیات کا استعمال کرتے ہوئے مینگروو کے جنگلات کی شناخت کریں - حصہ 1

ایمیزون ای کے ایس اور کارپینٹر کے ذریعے منشیات کی دریافت کے لیے پیمانہ AI تربیت اور تخمینہ | ایمیزون ویب سروسز

ایمیزون سیج میکر پر آر اسٹوڈیو کے ساتھ متوازی ڈیٹا پروسیسنگ

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ