AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عی

AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1

مختلف صنعتوں میں تنظیمیں اپنی صنعت کے لیے مخصوص کاروباری چیلنجوں کو حل کرنے کے لیے مصنوعی ذہانت (AI) اور مشین لرننگ (ML) کا استعمال کر رہی ہیں۔ مثال کے طور پر، مالیاتی خدمات کی صنعت میں، آپ AI اور ML کو فراڈ کا پتہ لگانے، کریڈٹ رسک کی پیشین گوئی، براہ راست مارکیٹنگ، اور بہت سے دوسرے چیلنجوں کو حل کرنے کے لیے استعمال کر سکتے ہیں۔

بڑے ادارے بعض اوقات اختراعی تجزیات اور ایم ایل پروجیکٹس کے ساتھ کاروبار کی مختلف لائنوں (LoBs) کی ضروریات کو پورا کرنے کے لیے ایک سنٹر آف ایکسیلنس (CoE) قائم کرتے ہیں۔

پیمانے پر اعلیٰ معیار کے اور پرفارمنس ایم ایل ماڈلز بنانے کے لیے، انہیں درج ذیل کام کرنے کی ضرورت ہے:

  • ان کے تجزیات اور ML CoE تک متعلقہ ڈیٹا تک رسائی کا آسان طریقہ فراہم کریں۔
  • کیوریٹڈ ڈیٹا اثاثوں کو شیئر کرنے کے لیے انفرادی LoBs سے ڈیٹا فراہم کرنے والوں پر جوابدہی پیدا کریں جو قابل دریافت، قابل فہم، قابل عمل، اور قابل اعتماد ہیں۔

یہ ML استعمال کے کیسز کو تجربے سے پیداوار میں تبدیل کرنے اور پوری تنظیم میں کاروباری قدر پیدا کرنے کے لیے طویل سائیکل کے وقت کو کم کر سکتا ہے۔

ڈیٹا میش آرکیٹیکچر ان تکنیکی اور تنظیمی چیلنجوں کو حل کرنے کی کوشش کرتا ہے تاکہ تنظیموں کے اندر یا اس کے پار پیچیدہ اور بڑے پیمانے پر ماحول میں ڈیٹا کو شیئر کرنے، ان تک رسائی اور ان کا نظم کرنے کے لیے ایک غیر مرکزی سماجی-تکنیکی نقطہ نظر متعارف کرایا جائے۔ ڈیٹا میش ڈیزائن پیٹرن ایک ذمہ دار ڈیٹا شیئرنگ ماڈل بناتا ہے جو ڈیٹا ٹیموں، عمل اور ٹیکنالوجی میں کاروباری سرمایہ کاری کی واپسی کو بڑھانے کے حتمی مقصد کو حاصل کرنے کے لیے تنظیمی ترقی کے ساتھ ہم آہنگ ہوتا ہے۔

اس دو حصوں کی سیریز میں، ہم اس بارے میں رہنمائی فراہم کرتے ہیں کہ تنظیمیں AWS پر ڈیٹا میش ڈیزائن پیٹرن کا استعمال کرتے ہوئے کس طرح ایک جدید ڈیٹا آرکیٹیکچر بنا سکتی ہیں اور ایک سے زیادہ LoBs میں ڈیٹا کے ساتھ ML ماڈلز بنانے اور تربیت دینے کے لیے ایک اینالیٹکس اور ML CoE کو فعال کر سکتی ہیں۔ ہم اس سیریز کے لیے سیاق و سباق اور استعمال کے معاملے کو ترتیب دینے کے لیے مالیاتی خدمات کی تنظیم کی مثال استعمال کرتے ہیں۔

اس پہلی پوسٹ میں، ہم متعدد AWS ڈیٹا پروڈیوسر اور کنزیومر اکاؤنٹس کے ساتھ ڈیٹا میش آرکیٹیکچر ترتیب دینے کے طریقہ کار کو دکھاتے ہیں۔ پھر ہم ایک ڈیٹا پروڈکٹ پر توجہ مرکوز کرتے ہیں، جو مالیاتی تنظیم کے اندر ایک LoB کی ملکیت ہے، اور اسے ڈیٹا میش ماحول میں کس طرح شیئر کیا جا سکتا ہے تاکہ دوسرے LoBs کو اس ڈیٹا پروڈکٹ کو استعمال اور استعمال کرنے کی اجازت دی جا سکے۔ یہ بنیادی طور پر ڈیٹا اسٹیورڈ شخصیت کو نشانہ بنا رہا ہے، جو ڈیٹا پروڈیوسرز اور صارفین کے درمیان ڈیٹا شیئر کرنے کے عمل کو ہموار اور معیاری بنانے اور ڈیٹا گورننس کے قوانین کی تعمیل کو یقینی بنانے کے لیے ذمہ دار ہے۔

دوسری پوسٹ میں، ہم ایک مثال دکھاتے ہیں کہ کس طرح اینالیٹکس اور ML CoE خطرے کی پیشن گوئی کے استعمال کے کیس کے لیے ڈیٹا پروڈکٹ کو استعمال کر سکتے ہیں۔ یہ بنیادی طور پر ڈیٹا سائنسدان شخصیت کو نشانہ بنا رہا ہے، جو مالیاتی خدمات کے صارفین کے تجربے کو بڑھانے کے لیے کاروباری بصیرت نکالنے والے ایم ایل ماڈلز بنانے اور تربیت دینے کے لیے تنظیمی وسیع اور فریق ثالث دونوں ڈیٹا اثاثوں کو استعمال کرنے کا ذمہ دار ہے۔

ڈیٹا میش کا جائزہ

ڈیٹا میش پیٹرن کی بانی، زامک دہغانی اپنی کتاب میں ڈیٹا میش پیمانے پر ڈیٹا سے چلنے والی قدر کی فراہمی، ڈیٹا میش کے مقصد کی طرف چار اصولوں کی وضاحت کی:

  • تقسیم شدہ ڈومین کی ملکیت - ڈیٹا کی مرکزی ملکیت سے ڈیٹا پلیٹ فارم ٹیکنالوجیز کو ایک وکندریقرت شدہ ڈیٹا کی ملکیت کے ماڈل میں چلانے والے ماہرین کے ذریعے تنظیمی تبدیلی کو آگے بڑھانے کے لیے، ڈیٹا کی ملکیت اور جوابدہی کو واپس LoBs تک پہنچانا جہاں ڈیٹا تیار کیا جاتا ہے (ماخذ سے منسلک ڈومینز) یا استعمال کیا جاتا ہے۔ کھپت سے منسلک ڈومینز)۔
  • ڈیٹا بطور پروڈکٹ - کیوریٹڈ، اعلیٰ معیار، انٹرآپریبل، اور محفوظ ڈیٹا اثاثوں کو شیئر کرنے کے احتساب کو آگے بڑھانے کے لیے۔ لہٰذا، مختلف LoBs کے ڈیٹا پروڈیوسرز ڈیٹا کو استعمال کے قابل شکل میں ماخذ پر بنانے کے لیے ذمہ دار ہیں۔
  • سیلف سروس کے تجزیات - اینالیٹکس اور ایم ایل کے ڈیٹا استعمال کرنے والوں کے تجربے کو ہموار کرنے کے لیے تاکہ وہ اپنے پسندیدہ ٹولز کے ساتھ ڈیٹا پروڈکٹس کو دریافت، ان تک رسائی اور استعمال کر سکیں۔ مزید برآں، ترکیبیں اور دوبارہ قابل استعمال اجزاء اور ٹیمپلیٹس کے ذریعے ڈیٹا پروڈکٹس کی تعمیر، تعیناتی، اور برقرار رکھنے کے لیے LoB ڈیٹا فراہم کرنے والوں کے تجربے کو ہموار کرنا۔
  • فیڈریٹڈ کمپیوٹیشنل گورننس - مختلف LoBs سے ڈیٹا مالکان کی سطح پر ہونے کے لیے ڈیٹا تک رسائی کو منظم اور کنٹرول کرنے میں شامل فیصلہ سازی کو فیڈریٹ اور خودکار بنانا، جو کہ اب بھی وسیع تر تنظیم کی قانونی، تعمیل، اور حفاظتی پالیسیوں کے مطابق ہے جو بالآخر اس کے ذریعے نافذ کی جاتی ہیں۔ میش

AWS نے مختلف پوسٹوں میں AWS کے اوپر ڈیٹا میش بنانے کے لیے اپنا وژن متعارف کرایا:

  • سب سے پہلے، ہم نے پروڈکٹ کے اصولوں کے طور پر تقسیم شدہ ڈومین کی ملکیت اور ڈیٹا سے وابستہ تنظیمی حصے پر توجہ مرکوز کی۔ مصنفین نے ڈیٹا پروڈکٹ کی حکمت عملی کی طرف پوری تنظیم میں متعدد LOBs کو سیدھ میں کرنے کے وژن کو بیان کیا جو استعمال سے منسلک ڈومینز کو ان کے مطلوبہ ڈیٹا کو تلاش کرنے اور حاصل کرنے کے لیے ٹولز فراہم کرتا ہے، جبکہ اس ڈیٹا کے استعمال کے ارد گرد ضروری کنٹرول کی ضمانت دیتا ہے۔ ماخذ سے منسلک ڈومینز ڈیٹا پروڈکٹس فراہم کرنے کے لیے جو ماخذ پر صحیح استعمال کے لیے تیار ہوں۔ مزید معلومات کے لیے رجوع کریں۔ کس طرح JPMorgan Chase نے اپنے انٹرپرائز ڈیٹا پلیٹ فارم کو بڑھانے کے لیے اہم ویلیو چلانے کے لیے ڈیٹا میش فن تعمیر بنایا.
  • پھر ہم نے ڈیٹا پروڈکٹس، سیلف سروس اینالیٹکس، اور فیڈریٹڈ کمپیوٹیشنل گورننس کے اصولوں سے وابستہ تکنیکی حصے پر توجہ مرکوز کی۔ مصنفین نے بنیادی AWS خدمات کو بیان کیا جو ماخذ سے منسلک ڈومینز کو ڈیٹا پروڈکٹس بنانے اور شیئر کرنے کے لیے بااختیار بناتے ہیں، خدمات کی ایک وسیع اقسام جو صارفین سے منسلک ڈومینز کو ان کے ترجیحی ٹولز اور استعمال کے معاملات کی بنیاد پر ڈیٹا پروڈکٹس کو مختلف طریقوں سے استعمال کرنے کے قابل بناتی ہیں۔ کی طرف کام کر رہے ہیں، اور آخر میں AWS سروسز جو ڈیٹا تک رسائی کی پالیسیوں کو نافذ کر کے ڈیٹا شیئرنگ کے طریقہ کار کو کنٹرول کرتی ہیں۔ مزید معلومات کے لیے رجوع کریں۔ AWS Lake Formation اور AWS Glue کا استعمال کرتے ہوئے ڈیٹا میش فن تعمیر کو ڈیزائن کریں۔.
  • ہم نے مرکزی ڈیٹا میش UI کے ذریعے ڈیٹا کی دریافت اور رسائی کنٹرول کو خودکار کرنے کا حل بھی دکھایا۔ مزید تفصیلات کے لیے رجوع کریں۔ اپنے ڈیٹا میش کے لیے AWS Lake Formation کے ساتھ ڈیٹا شیئرنگ ورک فلو بنائیں.

مالیاتی خدمات استعمال کیس

عام طور پر، بڑی مالیاتی خدمات کی تنظیموں کے پاس متعدد LoBs ہوتے ہیں، جیسے کنزیومر بینکنگ، انویسٹمنٹ بینکنگ، اور اثاثہ جات کا انتظام، اور ایک یا زیادہ اینالیٹکس اور ML CoE ٹیمیں بھی۔ ہر LoB مختلف خدمات فراہم کرتا ہے:

  • کنزیومر بینکنگ LoB صارفین اور کاروباروں کو متعدد خدمات فراہم کرتا ہے، بشمول کریڈٹ اور مارگیج، کیش مینجمنٹ، ادائیگی کے حل، ڈپازٹ اور سرمایہ کاری کی مصنوعات، اور بہت کچھ
  • تجارتی یا سرمایہ کاری بینکنگ LoB جامع مالیاتی حل پیش کرتا ہے، جیسے کہ قرض دینا، دیوالیہ پن کا خطرہ، اور گاہکوں کو تھوک ادائیگی، بشمول چھوٹے کاروبار، درمیانے درجے کی کمپنیاں، اور بڑی کارپوریشنز۔
  • اثاثہ جات کا انتظام LoB تمام اثاثوں کی کلاسوں میں ریٹائرمنٹ مصنوعات اور سرمایہ کاری کی خدمات فراہم کرتا ہے۔

ہر LoB ان کے اپنے ڈیٹا پروڈکٹس کی وضاحت کرتا ہے، جو ڈیٹا کو سمجھنے والے لوگوں کے ذریعے کیوریٹ کیے جاتے ہیں اور یہ بتانے کے لیے بہترین ہیں کہ کون اسے استعمال کرنے کا مجاز ہے، اور اسے کیسے استعمال کیا جا سکتا ہے۔ اس کے برعکس، دیگر LoBs اور ایپلیکیشن ڈومینز جیسے کہ analytics اور ML CoE اہل ڈیٹا پروڈکٹس کو دریافت کرنے اور استعمال کرنے میں دلچسپی رکھتے ہیں، بصیرت پیدا کرنے کے لیے اسے آپس میں ملانے، اور ڈیٹا پر مبنی فیصلے کرنے میں دلچسپی رکھتے ہیں۔

مندرجہ ذیل مثال میں کچھ LoBs اور ڈیٹا پروڈکٹس کی مثالیں دی گئی ہیں جنہیں وہ شیئر کر سکتے ہیں۔ یہ ڈیٹا پروڈکٹس جیسے اینالیٹکس اور ML CoE کے صارفین کو بھی دکھاتا ہے، جو ML ماڈل بناتے ہیں جنہیں صارف کے سامنے آنے والی ایپلی کیشنز میں تعینات کیا جا سکتا ہے تاکہ آخر صارف کے تجربے کو مزید بہتر بنایا جا سکے۔

ڈیٹا میش سماجی-تکنیکی تصور کے بعد، ہم سماجی پہلو کے ساتھ تنظیمی اقدامات کے ایک سیٹ کے ساتھ شروع کرتے ہیں، جیسے کہ درج ذیل:

  • ہر ڈومین کے لیے حدود کی وضاحت کرنے کے لیے ڈومین کے ماہرین کا استعمال، تاکہ ہر ڈیٹا پروڈکٹ کو ایک مخصوص ڈومین میں میپ کیا جا سکے۔
  • ہر ڈومین سے فراہم کردہ ڈیٹا پروڈکٹس کے لیے مالکان کی شناخت، اس لیے ہر ڈیٹا پروڈکٹ کے لیے ان کے مالک کی طرف سے بیان کردہ حکمت عملی ہوتی ہے۔
  • عالمی اور مقامی یا فیڈریٹڈ مراعات سے گورننس کی پالیسیوں کی نشاندہی کرنا، لہذا جب ڈیٹا صارفین کسی مخصوص ڈیٹا پروڈکٹ تک رسائی حاصل کرتے ہیں، تو پروڈکٹ سے منسلک رسائی کی پالیسی کو مرکزی ڈیٹا گورننس لیئر کے ذریعے خود بخود نافذ کیا جا سکتا ہے۔

پھر ہم تکنیکی پہلو کی طرف بڑھتے ہیں، جس میں پچھلے خاکے میں بیان کردہ مندرجہ ذیل آخر سے آخر تک کا منظرنامہ شامل ہے:

  1. کنزیومر بینکنگ LoB کو ٹولز کے ساتھ بااختیار بنائیں تاکہ استعمال کے لیے تیار کنزیومر کریڈٹ پروفائل ڈیٹا پروڈکٹ بنایا جا سکے۔
  2. کنزیومر بینکنگ ایل او بی کو ڈیٹا پروڈکٹس کو مرکزی گورننس لیئر میں شیئر کرنے کی اجازت دیں۔
  3. ڈیٹا تک رسائی کی پالیسیوں کی عالمی اور وفاقی تعریفیں شامل کریں جو مرکزی ڈیٹا گورننس کے ذریعے صارفین کے کریڈٹ پروفائل ڈیٹا پروڈکٹ تک رسائی کے دوران لاگو کی جانی چاہئیں۔
  4. اینالیٹکس اور ML CoE کو سینٹرل گورننس لیئر کے ذریعے ڈیٹا پروڈکٹ کو دریافت کرنے اور اس تک رسائی کی اجازت دیں۔
  5. کریڈٹ رسک کی پیشین گوئی کے ماڈل کی تعمیر اور تربیت کے لیے ڈیٹا پروڈکٹ کو استعمال کرنے کے لیے ٹولز کے ساتھ تجزیات اور ML CoE کو بااختیار بنائیں۔ ہم اس سیریز میں آخری مراحل (پچھلے ڈایاگرام میں 6 اور 7) کا احاطہ نہیں کرتے ہیں۔ تاہم، کاروباری قدر کو ظاہر کرنے کے لیے اس طرح کا ML ماڈل تنظیم کو آخر سے آخر تک کے منظر نامے میں لا سکتا ہے، ہم درج ذیل کی وضاحت کرتے ہیں:
  6. اس ماڈل کو بعد میں صارفین کا سامنا کرنے والے سسٹمز جیسے کہ کنزیومر بینکنگ ویب پورٹل یا موبائل ایپلیکیشن پر دوبارہ تعینات کیا جا سکتا ہے۔
  7. یہ خاص طور پر قرض کی درخواست کے اندر کریڈٹ اور رہن کی درخواستوں کے رسک پروفائل کا اندازہ لگانے کے لیے استعمال کیا جا سکتا ہے۔

اگلا، ہم اجزاء میں سے ہر ایک کی تکنیکی ضروریات کو بیان کرتے ہیں۔

تکنیکی ضروریات میں گہرا غوطہ لگائیں۔

ڈیٹا پراڈکٹس کو ہر ایک کے لیے دستیاب کرنے کے لیے، تنظیموں کو اس پر مناسب کنٹرول برقرار رکھتے ہوئے، یا دوسرے لفظوں میں، چستی کو مناسب حکمرانی کے ساتھ متوازن کرنے کے لیے پوری تنظیم میں مختلف اداروں کے درمیان ڈیٹا کا اشتراک کرنا آسان بنانا ہوگا۔

ڈیٹا صارف: تجزیات اور ML CoE

ڈیٹا صارفین جیسے اینالیٹکس کے ڈیٹا سائنسدانوں اور ML CoE کو درج ذیل کام کرنے کے قابل ہونے کی ضرورت ہے:

  • دیے گئے استعمال کیس کے لیے متعلقہ ڈیٹاسیٹس کو دریافت کریں اور ان تک رسائی حاصل کریں۔
  • یقین رکھیں کہ وہ ڈیٹاسیٹس جن تک وہ رسائی حاصل کرنا چاہتے ہیں پہلے سے تیار شدہ، تازہ ترین، اور مضبوط تفصیل کے حامل ہیں
  • اپنے کاروباری معاملات میں دلچسپی کے ڈیٹاسیٹس تک رسائی کی درخواست کریں۔
  • ML کے لیے اپنے ماحول کے اندر ایسے ڈیٹاسیٹس کو استفسار کرنے اور ان پر کارروائی کرنے کے لیے اپنے پسندیدہ ٹولز کا استعمال کریں، بغیر کسی دور دراز کے اصل مقام سے ڈیٹا کو نقل کرنے کی ضرورت کے یا کسی دور دراز سائٹ میں جسمانی طور پر ذخیرہ شدہ ڈیٹا کی پروسیسنگ سے منسلک انجینئرنگ یا انفراسٹرکچر کی پیچیدگیوں کے بارے میں فکر مند ہونے کے لیے۔
  • ڈیٹا مالکان کی طرف سے کی گئی کسی بھی ڈیٹا اپ ڈیٹ کی اطلاع حاصل کریں۔

ڈیٹا پروڈیوسر: ڈومین کی ملکیت

ڈیٹا پروڈیوسرز، جیسے کہ مالیاتی خدمات org میں مختلف LoBs کی ڈومین ٹیمیں، کو درج ذیل پر مشتمل ڈیٹا سیٹس کو رجسٹر کرنے اور شیئر کرنے کی ضرورت ہے:

  • تکنیکی اور آپریشنل میٹا ڈیٹا، جیسے ڈیٹا بیس اور ٹیبل کے نام اور سائز، کالم اسکیماس، اور کیز
  • کاروباری میٹا ڈیٹا جیسے ڈیٹا کی تفصیل، درجہ بندی، اور حساسیت
  • ٹریکنگ میٹا ڈیٹا جیسے منبع سے ہدف کی شکل تک اسکیما ارتقاء اور کسی بھی درمیانی شکل
  • ڈیٹا کوالٹی میٹا ڈیٹا جیسے درستگی اور مکمل ہونے کا تناسب اور ڈیٹا کا تعصب
  • رسائی کی پالیسیاں اور طریقہ کار

ڈیٹا صارفین کو دستی طریقہ کار پر انحصار کیے بغیر یا ڈیٹا کے معنی اور اس تک رسائی کے طریقہ کے بارے میں مزید معلومات حاصل کرنے کے لیے ڈیٹا پروڈکٹ کے ڈومین ماہرین سے رابطہ کیے بغیر ڈیٹا کو دریافت کرنے اور اس تک رسائی کی اجازت دینے کے لیے ان کی ضرورت ہے۔

ڈیٹا گورننس: دریافت، قابل رسائی، اور آڈٹ ایبلٹی

تنظیموں کو ڈیٹا لیک سے وابستہ خطرات کی مناسب تخفیف کے ساتھ پہلے بیان کردہ چستیوں میں توازن پیدا کرنے کی ضرورت ہے۔ خاص طور پر مالیاتی خدمات جیسی ریگولیٹڈ صنعتوں میں، ڈیٹا کی مجموعی رسائی اور آڈٹ کنٹرول فراہم کرنے کے لیے مرکزی ڈیٹا گورننس کو برقرار رکھنے کی ضرورت ہے جبکہ مختلف جگہوں پر ایک ہی ڈیٹا کی متعدد کاپیوں سے گریز کرتے ہوئے اسٹوریج کے اثرات کو کم کرتے ہیں۔

روایتی سینٹرلائزڈ ڈیٹا لیک آرکیٹیکچرز میں، ڈیٹا پروڈیوسر اکثر خام ڈیٹا شائع کرتے ہیں اور ڈیٹا کیوریشن، ڈیٹا کوالٹی مینجمنٹ، اور ڈیٹا اور انفراسٹرکچر انجینئرز تک رسائی کنٹرول کی ذمہ داری سینٹرلائزڈ ڈیٹا پلیٹ فارم ٹیم میں دیتے ہیں۔ تاہم، یہ ڈیٹا پلیٹ فارم ٹیمیں مختلف ڈیٹا ڈومینز سے کم واقف ہو سکتی ہیں، اور پھر بھی ڈیٹا پروڈیوسرز کے تعاون پر انحصار کرتی ہیں تاکہ وہ ہر ڈیٹا ڈومین پر نافذ کردہ پالیسیوں کے مطابق ڈیٹا تک رسائی کو درست طریقے سے درست اور کنٹرول کر سکیں۔ اس کے برعکس، ڈیٹا پروڈیوسرز خود کیوریٹڈ، کوالیفائیڈ ڈیٹا اثاثے فراہم کرنے کے لیے بہترین پوزیشن میں ہیں اور ڈومین کے لیے مخصوص رسائی کی پالیسیوں سے آگاہ ہیں جنہیں ڈیٹا اثاثوں تک رسائی کے دوران نافذ کرنے کی ضرورت ہے۔

حل جائزہ

درج ذیل خاکہ مجوزہ حل کے اعلیٰ سطحی فن تعمیر کو ظاہر کرتا ہے۔

AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عی

ہم تجزیات اور ML CoE کے ذریعہ ڈیٹا کی کھپت کو حل کرتے ہیں۔ ایمیزون ایتینا اور ایمیزون سیج میکر in حصہ 2 اس سیریز کا

اس پوسٹ میں، ہم ڈیٹا میش میں ڈیٹا آن بورڈنگ کے عمل پر توجہ مرکوز کرتے ہیں اور یہ بیان کرتے ہیں کہ کس طرح ایک فرد LoB جیسا کہ صارف بینکنگ ڈومین ڈیٹا ٹیم AWS ٹولز استعمال کر سکتی ہے جیسے AWS گلو اور AWS گلو ڈیٹا بریو ان کے ڈیٹا پروڈکٹس کی تیاری، درستگی اور معیار کو بڑھانے کے لیے، اور پھر ان ڈیٹا پروڈکٹس کو مرکزی ڈیٹا گورننس اکاؤنٹ میں رجسٹر کرنے کے لیے AWS جھیل کی تشکیل.

کنزیومر بینکنگ ایل او بی (ڈیٹا پروڈیوسر)

ڈیٹا میش کے بنیادی اصولوں میں سے ایک پروڈکٹ کے طور پر ڈیٹا کا تصور ہے۔ یہ بہت اہم ہے کہ کنزیومر بینکنگ ڈومین ڈیٹا ٹیم ڈیٹا پروڈکٹس کی تیاری پر کام کرے جو ڈیٹا صارفین کے استعمال کے لیے تیار ہوں۔ یہ AWS ایکسٹریکٹ، ٹرانسفارم، اور لوڈ (ETL) ٹولز جیسے AWS Glue کا استعمال کرتے ہوئے کیا جا سکتا ہے تاکہ جمع کیے گئے خام ڈیٹا پر کارروائی کی جا سکے۔ ایمیزون سادہ اسٹوریج سروس (Amazon S3)، یا متبادل طور پر آپریشنل ڈیٹا اسٹورز سے جڑیں جہاں ڈیٹا تیار کیا جاتا ہے۔ آپ بھی استعمال کر سکتے ہیں۔ ڈیٹا بریوجو کہ بغیر کوڈ کے بصری ڈیٹا کی تیاری کا ٹول ہے جو ڈیٹا کو صاف اور معمول پر لانا آسان بناتا ہے۔

مثال کے طور پر، کنزیومر کریڈٹ پروفائل ڈیٹا پروڈکٹ کی تیاری کے دوران، کنزیومر بینکنگ ڈومین ڈیٹا ٹیم اوپن سورس ڈیٹاسیٹ سے حاصل کیے گئے خام ڈیٹا کے انتساب ناموں کا جرمن سے انگریزی میں ترجمہ کرنے کے لیے ایک آسان کیوریشن بنا سکتی ہے۔ اسٹیٹلاگ جرمن کریڈٹ ڈیٹا، جو 20 صفات اور 1,000 قطاروں پر مشتمل ہے۔

AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عی

ڈیٹا گورننس

ڈیٹا میش گورننس کو فعال کرنے کے لیے بنیادی AWS سروس Lake Formation ہے۔ لیک فارمیشن ہر ڈیٹا ڈومین کے اندر اور تمام ڈومینز میں ڈیٹا گورننس کو نافذ کرنے کی صلاحیت پیش کرتا ہے تاکہ یہ یقینی بنایا جا سکے کہ ڈیٹا آسانی سے قابل دریافت اور محفوظ ہے۔ یہ ایک وفاقی سیکورٹی ماڈل فراہم کرتا ہے جس کا انتظام مرکزی طور پر کیا جا سکتا ہے، ڈیٹا کی دریافت، سیکورٹی اور تعمیل کے بہترین طریقوں کے ساتھ، ہر ڈومین کے اندر اعلیٰ چستی کی اجازت دیتے ہوئے

Lake Formation آپ کے ڈیٹا کی حفاظت کے لیے قطار کی سطح کی سیکیورٹی کے ساتھ ساتھ، ڈیٹا کو کیسے اندراج، ذخیرہ اور منظم کیا جاتا ہے اس کو آسان بنانے کے لیے ایک API پیش کرتا ہے۔ یہ دانے دار رسائی کنٹرول، زیر انتظام میزیں، اور اسٹوریج آپٹیمائزیشن جیسی فعالیت بھی فراہم کرتا ہے۔

اس کے علاوہ، Lake Formations پیش کرتا ہے a ڈیٹا شیئرنگ API جسے آپ ڈیٹا شیئر کرنے کے لیے استعمال کر سکتے ہیں۔ مختلف اکاؤنٹس میں. یہ اینالیٹکس اور ML CoE صارفین کو ایتھینا کے سوالات چلانے کی اجازت دیتا ہے جو متعدد اکاؤنٹس میں ٹیبلز کو استفسار اور جوائن کرتے ہیں۔ مزید معلومات کے لیے، سے رجوع کریں۔ AWS لیک فارمیشن ڈویلپر گائیڈ.

AWS ریسورس ایکسیس مینیجر (AWS RAM) کے ذریعے وسائل کا اشتراک کرنے کا ایک محفوظ طریقہ فراہم کرتا ہے۔ AWS شناخت اور رسائی مینیجر (IAM) کسی تنظیم یا تنظیمی اکائیوں (OUs) میں AWS اکاؤنٹس میں کردار اور صارفین AWS تنظیمیں

AWS RAM کے ساتھ لیک فارمیشن ڈیٹا شیئرنگ اور AWS اکاؤنٹس تک رسائی کو منظم کرنے کا ایک طریقہ فراہم کرتا ہے۔ ہم اس نقطہ نظر کو بطور حوالہ دیتے ہیں۔ RAM پر مبنی رسائی کنٹرول. اس نقطہ نظر کے بارے میں مزید تفصیلات کے لیے، رجوع کریں۔ اپنے ڈیٹا میش کے لیے AWS Lake Formation کے ساتھ ڈیٹا شیئرنگ ورک فلو بنائیں.

لیک فارمیشن ڈیٹا شیئرنگ اور اس تک رسائی کا انتظام کرنے کا ایک اور طریقہ بھی پیش کرتا ہے۔ جھیل کی تشکیل کے ٹیگز. ہم اس نقطہ نظر کو بطور حوالہ دیتے ہیں۔ ٹیگ پر مبنی رسائی کنٹرول. مزید تفصیلات کے لیے رجوع کریں۔ AWS لیک فارمیشن ٹیگ پر مبنی رسائی کنٹرول کا استعمال کرتے ہوئے پیمانے پر ایک جدید ڈیٹا فن تعمیر اور ڈیٹا میش پیٹرن بنائیں.

اس پوری پوسٹ کے دوران، ہم ٹیگ پر مبنی رسائی کنٹرول اپروچ کا استعمال کرتے ہیں کیونکہ یہ بنیادی ڈھانچے کی سطح پر نامزد وسائل کے بارے میں پالیسیاں بتانے کے بجائے کم تعداد میں منطقی ٹیگز پر پالیسیوں کی تشکیل کو آسان بناتا ہے جو عام طور پر مختلف LoBs میں پائے جاتے ہیں۔

شرائط

ڈیٹا میش فن تعمیر کو ترتیب دینے کے لیے، آپ کو کم از کم تین AWS اکاؤنٹس کی ضرورت ہے: ایک پروڈیوسر اکاؤنٹ، ایک مرکزی اکاؤنٹ، اور ایک صارف اکاؤنٹ۔

ڈیٹا میش ماحول کو تعینات کریں۔

ڈیٹا میش ماحول کو تعینات کرنے کے لیے، آپ درج ذیل کو استعمال کر سکتے ہیں۔ GitHub ذخیرہ. یہ ذخیرہ تین پر مشتمل ہے۔ AWS کلاؤڈ فارمیشن ٹیمپلیٹس جو ڈیٹا میش ماحول کو متعین کرتے ہیں جس میں ہر ایک اکاؤنٹ (پروڈیوسر، مرکزی، اور صارف) شامل ہوتا ہے۔ ہر اکاؤنٹ کے اندر، آپ اس سے متعلقہ CloudFormation ٹیمپلیٹ چلا سکتے ہیں۔

مرکزی اکاؤنٹ

مرکزی اکاؤنٹ میں، درج ذیل مراحل کو مکمل کریں:

  1. CloudFormation اسٹیک لانچ کریں:
    AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عی
  2. دو IAM صارفین بنائیں:
    1. DataMeshOwner
    2. ProducerSteward
  3. گرانٹ DataMeshOwner لیک فارمیشن ایڈمن کے طور پر۔
  4. ایک IAM کردار بنائیں:
    1. LFRegisterLocationServiceRole
  5. دو IAM پالیسیاں بنائیں:
    1. ProducerStewardPolicy
    2. S3DataLakePolicy
  6. کے لیے ڈیٹا بیس کریڈٹ کارڈ بنائیں ProducerSteward پروڈیوسر کے اکاؤنٹ میں۔
  7. پروڈیوسر اکاؤنٹ میں ڈیٹا لوکیشن کی اجازت کا اشتراک کریں۔

پروڈیوسر اکاؤنٹ

پروڈیوسر اکاؤنٹ میں، درج ذیل مراحل کو مکمل کریں:

  1. CloudFormation اسٹیک لانچ کریں:
    AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عی
  2. S3 بالٹی بنائیں credit-card، جو میز رکھتا ہے۔ credit_card.
  3. مرکزی اکاؤنٹ لیک فارمیشن سروس رول کے لیے S3 بالٹی تک رسائی کی اجازت دیں۔
  4. AWS Glue کرالر بنائیں creditCrawler-<ProducerAccountID>.
  5. AWS Glue کرالر سروس رول بنائیں۔
  6. S3 بالٹی کے مقام پر اجازتیں دیں۔ credit-card-<ProducerAccountID>-<aws-region> AWS Glue کرالر کے کردار میں۔
  7. ایک پروڈیوسر سٹیورڈ IAM صارف بنائیں۔

صارف اکاؤنٹ

صارف اکاؤنٹ میں، درج ذیل مراحل کو مکمل کریں:

  1. CloudFormation اسٹیک لانچ کریں:
    AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عی
  2. S3 بالٹی بنائیں <AWS Account ID>-<aws-region>-athena-logs.
  3. ایتھینا ورک گروپ بنائیں consumer-workgroup.
  4. IAM صارف بنائیں ConsumerAdmin.

ایک ڈیٹا بیس شامل کریں اور اس میں صارف اکاؤنٹ کو سبسکرائب کریں۔

ٹیمپلیٹس چلانے کے بعد، آپ کے ذریعے جا سکتے ہیں۔ مرحلہ وار گائیڈ ڈیٹا کیٹلاگ میں کسی پروڈکٹ کو شامل کرنے اور صارفین کو اسے سبسکرائب کرنے کے لیے۔ گائیڈ ایک ڈیٹا بیس ترتیب دینے سے شروع ہوتا ہے جہاں پروڈیوسر اپنی مصنوعات رکھ سکتا ہے اور پھر یہ بتاتا ہے کہ صارف کس طرح اس ڈیٹا بیس کو سبسکرائب کر سکتا ہے اور ڈیٹا تک رسائی حاصل کر سکتا ہے۔ یہ سب استعمال کرتے وقت انجام دیا جاتا ہے۔ ایل ایف ٹیگز، جو ہے ٹیگ پر مبنی رسائی کنٹرول جھیل کی تشکیل کے لیے۔

ڈیٹا پروڈکٹ کی رجسٹریشن

مندرجہ ذیل آرکیٹیکچر تفصیلی مراحل کی وضاحت کرتا ہے کہ کس طرح ڈیٹا پروڈیوسرز کے طور پر کام کرنے والی صارف بینکنگ LoB ٹیم اپنے ڈیٹا پروڈکٹس کو سینٹرل ڈیٹا گورننس اکاؤنٹ (آن بورڈ ڈیٹا پروڈکٹس کو آرگنائزیشن ڈیٹا میش) میں رجسٹر کر سکتی ہے۔

AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عی

ڈیٹا پروڈکٹ کو رجسٹر کرنے کے عمومی اقدامات درج ذیل ہیں:

  1. سینٹرل گورننس اکاؤنٹ میں ڈیٹا پروڈکٹ کے لیے ٹارگٹ ڈیٹا بیس بنائیں۔ مثال کے طور پر، مرکزی اکاؤنٹ سے CloudFormation ٹیمپلیٹ پہلے سے ہی ہدف ڈیٹا بیس بناتا ہے۔ credit-card.
  2. تخلیق کردہ ٹارگٹ ڈیٹا بیس کو پروڈیوسر اکاؤنٹ میں اصل کے ساتھ شیئر کریں۔
  3. پروڈیوسر اکاؤنٹ میں مشترکہ ڈیٹا بیس کا ایک وسیلہ لنک بنائیں۔ مندرجہ ذیل اسکرین شاٹ میں، ہم پروڈیوسر کے اکاؤنٹ میں لیک فارمیشن کنسول پر دیکھتے ہیں۔ rl_credit-card کا وسیلہ لنک ہے۔ credit-card ڈیٹا بیس
    AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عی
  4. ریسورس لنک ڈیٹا بیس کے اندر ٹیبلز (پروڈیوسر اکاؤنٹ میں کیوریٹ کردہ ڈیٹا کے ساتھ) کو آباد کریں (rl_credit-card) پروڈیوسر اکاؤنٹ میں AWS Glue کرالر کا استعمال کرتے ہوئے
    AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عی

بنائی گئی میز خود بخود سنٹرل گورننس اکاؤنٹ میں ظاہر ہو جاتی ہے۔ مندرجہ ذیل اسکرین شاٹ مرکزی اکاؤنٹ میں لیک فارمیشن میں جدول کی ایک مثال دکھاتا ہے۔ یہ ریسورس لنک ڈیٹا بیس کو آباد کرنے کے لیے پہلے کے اقدامات کرنے کے بعد ہے۔ rl_credit-card پروڈیوسر کے اکاؤنٹ میں

AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عی

نتیجہ

اس سیریز کے حصہ 1 میں، ہم نے مالیاتی خدمات کی تنظیموں کے اہداف پر تبادلہ خیال کیا تاکہ ان کے تجزیات اور ایم ایل ٹیموں کے لیے زیادہ چستیاں حاصل کی جائیں اور ڈیٹا سے بصیرت تک کا وقت کم کیا جائے۔ ہم نے AWS پر ڈیٹا میش آرکیٹیکچر بنانے پر بھی توجہ مرکوز کی، جہاں ہم نے استعمال میں آسان، قابل توسیع، اور لاگت سے موثر AWS خدمات جیسے AWS Glue، DataBrew، اور Lake Formation متعارف کرائی ہیں۔ ڈیٹا تیار کرنے والی ٹیمیں ان خدمات کو کیوریٹڈ، اعلیٰ کوالٹی، انٹرآپریبل، اور محفوظ ڈیٹا پروڈکٹس بنانے اور شیئر کرنے کے لیے استعمال کر سکتی ہیں جو مختلف ڈیٹا صارفین تجزیاتی مقاصد کے لیے استعمال کرنے کے لیے تیار ہیں۔

In حصہ 2، ہم تجزیات اور ML CoE ٹیموں پر توجہ مرکوز کرتے ہیں جو AWS خدمات جیسے Athena اور SageMaker کا استعمال کرتے ہوئے کریڈٹ رسک کی پیش گوئی کا ماڈل بنانے کے لیے صارف بینکنگ LoB کے اشتراک کردہ ڈیٹا پروڈکٹس کا استعمال کرتے ہیں۔


مصنفین کے بارے میں

AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عیکریم حمودہ ڈیٹا انٹیگریشن، ڈیٹا اینالیسس، اور BI کے شوق کے ساتھ AWS میں تجزیات کے لیے ایک ماہر حل آرکیٹیکٹ ہے۔ وہ AWS صارفین کے ساتھ ایسے تجزیاتی حلوں کو ڈیزائن اور بنانے کے لیے کام کرتا ہے جو ان کے کاروبار کی ترقی میں حصہ ڈالتے ہیں۔ اپنے فارغ وقت میں، وہ اپنے بیٹے کے ساتھ ٹی وی دستاویزی فلمیں دیکھنا اور ویڈیو گیمز کھیلنا پسند کرتا ہے۔

AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عیحسن پونا والا AWS میں ایک سینئر AI/ML ماہر حل آرکیٹیکٹ ہے، حسن AWS پر پروڈکشن میں مشین لرننگ ایپلی کیشنز کو ڈیزائن اور تعینات کرنے میں صارفین کی مدد کرتا ہے۔ اس کے پاس ڈیٹا سائنٹسٹ، مشین لرننگ پریکٹیشنر، اور سافٹ ویئر ڈویلپر کے طور پر 12 سال سے زیادہ کام کا تجربہ ہے۔ اپنے فارغ وقت میں، حسن کو فطرت کی سیر کرنا اور دوستوں اور کنبہ کے ساتھ وقت گزارنا پسند ہے۔

AWS پر ڈیٹا میش آرکیٹیکچر کا استعمال کرتے ہوئے ML ماڈلز بنائیں اور تربیت دیں: حصہ 1 PlatoBlockchain Data Intelligence۔ عمودی تلاش۔ عیبینوئٹ ڈی پاٹول AWS میں ایک AI/ML ماہر حل آرکیٹیکٹ ہے۔ وہ AWS کا استعمال کرتے ہوئے AI/ML سے متعلق حل تیار کرنے کے لیے رہنمائی اور تکنیکی مدد فراہم کرکے صارفین کی مدد کرتا ہے۔ اپنے فارغ وقت میں وہ پیانو بجانا اور دوستوں کے ساتھ وقت گزارنا پسند کرتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ