AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1

विभिन्न उद्योगों के संगठन अपने उद्योग के लिए विशिष्ट व्यावसायिक चुनौतियों को हल करने के लिए कृत्रिम बुद्धिमत्ता (एआई) और मशीन लर्निंग (एमएल) का उपयोग कर रहे हैं। उदाहरण के लिए, वित्तीय सेवा उद्योग में, आप धोखाधड़ी का पता लगाने, क्रेडिट जोखिम की भविष्यवाणी, प्रत्यक्ष विपणन, और कई अन्य चुनौतियों को हल करने के लिए AI और ML का उपयोग कर सकते हैं।

बड़े उद्यम कभी-कभी नवोन्मेषी विश्लेषण और एमएल परियोजनाओं के साथ व्यापार की विभिन्न लाइनों (एलओबी) की जरूरतों से निपटने के लिए उत्कृष्टता केंद्र (सीओई) स्थापित करते हैं।

बड़े पैमाने पर उच्च-गुणवत्ता और प्रदर्शन करने वाले एमएल मॉडल तैयार करने के लिए, उन्हें निम्नलिखित कार्य करने होंगे:

  • उनके एनालिटिक्स और एमएल सीओई के लिए प्रासंगिक डेटा तक पहुंचने का एक आसान तरीका प्रदान करें
  • खोज योग्य, समझने योग्य, इंटरऑपरेबल और भरोसेमंद क्यूरेटेड डेटा संपत्तियों को साझा करने के लिए अलग-अलग एलओबी से डेटा प्रदाताओं पर जवाबदेही बनाएं

यह एमएल उपयोग के मामलों को प्रयोग से उत्पादन में परिवर्तित करने के लिए लंबे चक्र समय को कम कर सकता है और पूरे संगठन में व्यावसायिक मूल्य उत्पन्न कर सकता है।

डेटा मेश आर्किटेक्चर जटिल और बड़े पैमाने के वातावरण में डेटा को साझा करने, एक्सेस करने और प्रबंधित करने के लिए एक विकेन्द्रीकृत सामाजिक-तकनीकी दृष्टिकोण पेश करके इन तकनीकी और संगठनात्मक चुनौतियों को हल करने का प्रयास करता है - संगठनों के भीतर या सभी में। डेटा मेश डिज़ाइन पैटर्न एक जिम्मेदार डेटा-साझाकरण मॉडल बनाता है जो डेटा टीमों, प्रक्रिया और प्रौद्योगिकी में व्यावसायिक निवेश की वापसी को बढ़ाने के अंतिम लक्ष्य को प्राप्त करने के लिए संगठनात्मक विकास के साथ संरेखित करता है।

इस दो-भाग की श्रृंखला में, हम मार्गदर्शन प्रदान करते हैं कि कैसे संगठन AWS पर डेटा मेश डिज़ाइन पैटर्न का उपयोग करके एक आधुनिक डेटा आर्किटेक्चर का निर्माण कर सकते हैं और एक एनालिटिक्स और ML CoE को कई LoB में डेटा के साथ ML मॉडल बनाने और प्रशिक्षित करने में सक्षम बनाते हैं। हम इस श्रृंखला के संदर्भ और उपयोग के मामले को सेट करने के लिए एक वित्तीय सेवा संगठन के उदाहरण का उपयोग करते हैं।

इस पहली पोस्ट में, हम कई AWS डेटा प्रोड्यूसर और उपभोक्ता खातों के साथ डेटा मेश आर्किटेक्चर स्थापित करने की प्रक्रिया दिखाते हैं। फिर हम एक डेटा उत्पाद पर ध्यान केंद्रित करते हैं, जो वित्तीय संगठन के भीतर एक एलओबी के स्वामित्व में होता है, और इसे डेटा मेष वातावरण में कैसे साझा किया जा सकता है ताकि अन्य एलओबी इस डेटा उत्पाद का उपभोग और उपयोग कर सकें। यह मुख्य रूप से डेटा स्टीवर्ड व्यक्तित्व को लक्षित कर रहा है, जो डेटा उत्पादकों और उपभोक्ताओं के बीच डेटा साझा करने की प्रक्रिया को सुव्यवस्थित और मानकीकृत करने और डेटा शासन नियमों के अनुपालन को सुनिश्चित करने के लिए जिम्मेदार है।

दूसरी पोस्ट में, हम एक उदाहरण दिखाते हैं कि कैसे एक विश्लेषिकी और एमएल सीओई जोखिम पूर्वानुमान उपयोग के मामले के लिए डेटा उत्पाद का उपभोग कर सकते हैं। यह मुख्य रूप से डेटा वैज्ञानिक व्यक्तित्व को लक्षित कर रहा है, जो वित्तीय सेवाओं के ग्राहकों के अनुभव को बढ़ाने के लिए व्यावसायिक अंतर्दृष्टि निकालने वाले एमएल मॉडल बनाने और प्रशिक्षित करने के लिए संगठनात्मक-व्यापी और तृतीय-पक्ष डेटा संपत्तियों दोनों का उपयोग करने के लिए ज़िम्मेदार है।

डेटा मेष सिंहावलोकन

डेटा मेश पैटर्न के संस्थापक, झमाक देहघानी ने अपनी पुस्तक . में डेटा मेष पैमाने पर डेटा-संचालित मूल्य वितरित करना, डेटा मेष के उद्देश्य के लिए चार सिद्धांतों को परिभाषित किया:

  • वितरित डोमेन स्वामित्व - डेटा प्लेटफ़ॉर्म प्रौद्योगिकियों को चलाने वाले विशेषज्ञों द्वारा डेटा के केंद्रीकृत स्वामित्व से एक विकेन्द्रीकृत डेटा स्वामित्व मॉडल में एक संगठनात्मक बदलाव का पीछा करने के लिए, डेटा के स्वामित्व और जवाबदेही को वापस LoBs पर धकेलना जहां डेटा का उत्पादन (स्रोत-संरेखित डोमेन) या उपभोग किया जाता है ( खपत-संरेखित डोमेन)।
  • उत्पाद के रूप में डेटा - क्यूरेटेड, उच्च-गुणवत्ता, इंटरऑपरेबल और सुरक्षित डेटा परिसंपत्तियों को साझा करने की जवाबदेही को ऊपर की ओर धकेलने के लिए। इसलिए, विभिन्न एलओबी के डेटा निर्माता स्रोत पर ही उपभोग योग्य रूप में डेटा बनाने के लिए जिम्मेदार होते हैं।
  • स्वयं सेवा विश्लेषण - एनालिटिक्स और एमएल के डेटा उपयोगकर्ताओं के अनुभव को सुव्यवस्थित करने के लिए ताकि वे अपने पसंदीदा टूल के साथ डेटा उत्पादों की खोज, एक्सेस और उपयोग कर सकें। इसके अतिरिक्त, व्यंजनों और पुन: प्रयोज्य घटकों और टेम्पलेट्स के माध्यम से डेटा उत्पादों को बनाने, तैनात करने और बनाए रखने के लिए एलओबी डेटा प्रदाताओं के अनुभव को सुव्यवस्थित करने के लिए।
  • फ़ेडरेटेड कम्प्यूटेशनल गवर्नेंस - विभिन्न एलओबी से डेटा मालिकों के स्तर पर होने के लिए डेटा एक्सेस के प्रबंधन और नियंत्रण में शामिल निर्णय लेने के लिए फ़ेडरेट और स्वचालित करने के लिए, जो अभी भी व्यापक संगठन की कानूनी, अनुपालन और सुरक्षा नीतियों के अनुरूप है जो अंततः लागू होते हैं जाल।

AWS ने विभिन्न पदों पर AWS के शीर्ष पर डेटा जाल बनाने के लिए अपना दृष्टिकोण पेश किया:

  • सबसे पहले, हमने उत्पाद सिद्धांतों के रूप में वितरित डोमेन स्वामित्व और डेटा से जुड़े संगठनात्मक भाग पर ध्यान केंद्रित किया। लेखकों ने डेटा उत्पाद रणनीति की दिशा में संगठन भर में कई एलओबी को संरेखित करने की दृष्टि का वर्णन किया है जो उपभोग-संरेखित डोमेन को उनके लिए आवश्यक डेटा खोजने और प्राप्त करने के लिए उपकरण प्रदान करता है, जबकि उस डेटा के उपयोग के आसपास आवश्यक नियंत्रण की गारंटी देता है। स्रोत-संरेखित डोमेन सीधे स्रोत पर उपयोग किए जाने के लिए तैयार डेटा उत्पाद प्रदान करने के लिए। अधिक जानकारी के लिए देखें कैसे जेपी मॉर्गन चेज़ ने अपने एंटरप्राइज़ डेटा प्लेटफ़ॉर्म को बढ़ाने के लिए महत्वपूर्ण मूल्य चलाने के लिए डेटा मेश आर्किटेक्चर का निर्माण किया.
  • फिर हमने डेटा उत्पादों, स्वयं-सेवा विश्लेषण और फ़ेडरेटेड कम्प्यूटेशनल गवर्नेंस सिद्धांतों के निर्माण से जुड़े तकनीकी हिस्से पर ध्यान केंद्रित किया। लेखकों ने मुख्य एडब्ल्यूएस सेवाओं का वर्णन किया है जो डेटा उत्पादों के निर्माण और साझा करने के लिए स्रोत-संरेखित डोमेन को सशक्त बनाती हैं, सेवाओं की एक विस्तृत विविधता जो उपभोक्ता-संरेखित डोमेन को उनके पसंदीदा टूल और उनके उपयोग के मामलों के आधार पर डेटा उत्पादों का विभिन्न तरीकों से उपभोग करने में सक्षम बनाती है। डेटा एक्सेस नीतियों को लागू करके डेटा साझा करने की प्रक्रिया को नियंत्रित करने वाली एडब्ल्यूएस सेवाओं की दिशा में काम कर रहे हैं। अधिक जानकारी के लिए देखें AWS लेक फॉर्मेशन और AWS ग्लू का उपयोग करके डेटा मेश आर्किटेक्चर डिज़ाइन करें.
  • हमने एक केंद्रीकृत डेटा मेश UI के माध्यम से डेटा खोज और अभिगम नियंत्रण को स्वचालित करने का एक समाधान भी दिखाया। अधिक जानकारी के लिए देखें अपने डेटा मेश के लिए AWS लेक फॉर्मेशन के साथ डेटा शेयरिंग वर्कफ़्लो बनाएँ.

वित्तीय सेवाओं के मामले का उपयोग करें

आमतौर पर, बड़े वित्तीय सेवा संगठनों के पास कई एलओबी होते हैं, जैसे कि उपभोक्ता बैंकिंग, निवेश बैंकिंग और परिसंपत्ति प्रबंधन, और एक या अधिक एनालिटिक्स और एमएल सीओई टीम। प्रत्येक एलओबी विभिन्न सेवाएं प्रदान करता है:

  • उपभोक्ता बैंकिंग एलओबी उपभोक्ताओं और व्यवसायों को क्रेडिट और बंधक, नकद प्रबंधन, भुगतान समाधान, जमा और निवेश उत्पादों, और अधिक सहित विभिन्न प्रकार की सेवाएं प्रदान करता है।
  • वाणिज्यिक या निवेश बैंकिंग एलओबी छोटे व्यवसायों, मध्यम आकार की कंपनियों और बड़े निगमों सहित ग्राहकों को उधार, दिवालियापन जोखिम और थोक भुगतान जैसे व्यापक वित्तीय समाधान प्रदान करता है।
  • परिसंपत्ति प्रबंधन एलओबी सभी परिसंपत्ति वर्गों में सेवानिवृत्ति उत्पाद और निवेश सेवाएं प्रदान करता है

प्रत्येक एलओबी अपने स्वयं के डेटा उत्पादों को परिभाषित करता है, जो उन लोगों द्वारा क्यूरेट किए जाते हैं जो डेटा को समझते हैं और यह निर्दिष्ट करने के लिए सबसे उपयुक्त हैं कि इसका उपयोग करने के लिए कौन अधिकृत है, और इसका उपयोग कैसे किया जा सकता है। इसके विपरीत, अन्य एलओबी और एप्लिकेशन डोमेन जैसे एनालिटिक्स और एमएल सीओई योग्य डेटा उत्पादों की खोज और उपभोग करने, अंतर्दृष्टि उत्पन्न करने के लिए इसे एक साथ मिश्रित करने और डेटा-संचालित निर्णय लेने में रुचि रखते हैं।

निम्नलिखित चित्रण कुछ एलओबी और डेटा उत्पादों के उदाहरणों को दर्शाता है जिन्हें वे साझा कर सकते हैं। यह एनालिटिक्स और एमएल सीओई जैसे डेटा उत्पादों के उपभोक्ताओं को भी दिखाता है, जो एमएल मॉडल बनाते हैं जिन्हें ग्राहक-सामना करने वाले अनुप्रयोगों में तैनात किया जा सकता है ताकि अंतिम ग्राहक के अनुभव को और बढ़ाया जा सके।

डेटा मेष सामाजिक-तकनीकी अवधारणा के बाद, हम सामाजिक पहलू के साथ संगठनात्मक कदमों के एक सेट के साथ शुरू करते हैं, जैसे कि निम्नलिखित:

  • प्रत्येक डोमेन के लिए सीमाओं को परिभाषित करने के लिए डोमेन विशेषज्ञों का उपयोग करना, ताकि प्रत्येक डेटा उत्पाद को एक विशिष्ट डोमेन में मैप किया जा सके
  • प्रत्येक डोमेन से प्रदान किए गए डेटा उत्पादों के लिए स्वामियों की पहचान करना, इसलिए प्रत्येक डेटा उत्पाद की उनके स्वामी द्वारा परिभाषित रणनीति होती है
  • वैश्विक और स्थानीय या फ़ेडरेटेड प्रोत्साहनों से शासन नीतियों की पहचान करना, इसलिए जब डेटा उपभोक्ता किसी विशिष्ट डेटा उत्पाद तक पहुँचते हैं, तो उत्पाद से जुड़ी पहुँच नीति को केंद्रीय डेटा शासन परत के माध्यम से स्वचालित रूप से लागू किया जा सकता है।

फिर हम तकनीकी पहलू की ओर बढ़ते हैं, जिसमें पिछले आरेख में परिभाषित निम्नलिखित एंड-टू-एंड परिदृश्य शामिल है:

  1. उपयोग के लिए तैयार उपभोक्ता क्रेडिट प्रोफाइल डेटा उत्पाद बनाने के लिए उपकरणों के साथ उपभोक्ता बैंकिंग एलओबी को सशक्त बनाना।
  2. उपभोक्ता बैंकिंग LoB को डेटा उत्पादों को केंद्रीय शासन स्तर में साझा करने की अनुमति दें।
  3. डेटा एक्सेस नीतियों की वैश्विक और फ़ेडरेटेड परिभाषाएँ एम्बेड करें जिन्हें केंद्रीय डेटा गवर्नेंस के माध्यम से उपभोक्ता क्रेडिट प्रोफ़ाइल डेटा उत्पाद तक पहुँचने के दौरान लागू किया जाना चाहिए।
  4. एनालिटिक्स और एमएल सीओई को सेंट्रल गवर्नेंस लेयर के जरिए डेटा प्रोडक्ट को खोजने और एक्सेस करने की अनुमति दें।
  5. क्रेडिट जोखिम पूर्वानुमान मॉडल के निर्माण और प्रशिक्षण के लिए डेटा उत्पाद का उपयोग करने के लिए टूल के साथ एनालिटिक्स और एमएल सीओई को सशक्त बनाएं। हम इस श्रृंखला में अंतिम चरणों (पिछले आरेख में 6 और 7) को कवर नहीं करते हैं। हालाँकि, व्यावसायिक मूल्य दिखाने के लिए इस तरह के एक एमएल मॉडल संगठन को एंड-टू-एंड परिदृश्य में ला सकते हैं, हम निम्नलिखित का वर्णन करते हैं:
  6. इस मॉडल को बाद में उपभोक्ता बैंकिंग वेब पोर्टल या मोबाइल एप्लिकेशन जैसे ग्राहक-उन्मुख सिस्टम पर वापस लागू किया जा सकता है।
  7. यह विशेष रूप से ऋण आवेदन के भीतर ऋण और बंधक अनुरोधों के जोखिम प्रोफाइल का आकलन करने के लिए उपयोग किया जा सकता है।

अगला, हम प्रत्येक घटक की तकनीकी आवश्यकताओं का वर्णन करते हैं।

तकनीकी जरूरतों में गहरा गोता लगाएँ

सभी के लिए डेटा उत्पाद उपलब्ध कराने के लिए, संगठनों को इस पर उचित नियंत्रण बनाए रखते हुए, या दूसरे शब्दों में, उचित शासन के साथ चपलता को संतुलित करने के लिए, संगठन में विभिन्न संस्थाओं के बीच डेटा साझा करना आसान बनाने की आवश्यकता है।

डेटा उपभोक्ता: एनालिटिक्स और एमएल सीओई

डेटा उपभोक्ताओं जैसे एनालिटिक्स के डेटा वैज्ञानिक और एमएल सीओई को निम्नलिखित करने में सक्षम होना चाहिए:

  • किसी दिए गए उपयोग के मामले के लिए प्रासंगिक डेटासेट खोजें और एक्सेस करें
  • आश्वस्त रहें कि वे जिन डेटासेट तक पहुंचना चाहते हैं, वे पहले से ही क्यूरेट किए गए हैं, अप टू डेट हैं, और उनके पास मजबूत विवरण हैं
  • उनके व्यावसायिक मामलों में रुचि के डेटासेट तक पहुंच का अनुरोध करें
  • मूल दूरस्थ स्थान से डेटा की प्रतिलिपि बनाने की आवश्यकता के बिना या दूरस्थ साइट में भौतिक रूप से संग्रहीत डेटा को संसाधित करने से जुड़ी इंजीनियरिंग या बुनियादी ढांचे की जटिलताओं के बारे में चिंता करने के लिए एमएल के लिए अपने पर्यावरण के भीतर ऐसे डेटासेट को क्वेरी और संसाधित करने के लिए अपने पसंदीदा टूल का उपयोग करें।
  • डेटा स्वामियों द्वारा किए गए किसी भी डेटा अपडेट की सूचना प्राप्त करें

डेटा निर्माता: डोमेन स्वामित्व

डेटा उत्पादकों, जैसे कि वित्तीय सेवाओं के संगठन में विभिन्न एलओबी से डोमेन टीम, को क्यूरेट किए गए डेटासेट को पंजीकृत करने और साझा करने की आवश्यकता होती है जिसमें निम्नलिखित शामिल हैं:

  • तकनीकी और परिचालन मेटाडेटा, जैसे डेटाबेस और तालिका के नाम और आकार, स्तंभ स्कीमा और कुंजियाँ
  • व्यापार मेटाडेटा जैसे डेटा विवरण, वर्गीकरण और संवेदनशीलता
  • स्रोत से लक्ष्य रूप और किसी भी मध्यवर्ती रूपों में स्कीमा विकास जैसे मेटाडेटा को ट्रैक करना
  • डेटा गुणवत्ता मेटाडेटा जैसे शुद्धता और पूर्णता अनुपात और डेटा पूर्वाग्रह
  • एक्सेस नीतियां और प्रक्रियाएं

डेटा उपभोक्ताओं को मैन्युअल प्रक्रियाओं पर भरोसा किए बिना या डेटा उत्पाद के डोमेन विशेषज्ञों से संपर्क करने के लिए डेटा के अर्थ और इसे कैसे एक्सेस किया जा सकता है, के बारे में अधिक जानकारी प्राप्त करने के लिए डेटा की खोज और एक्सेस करने की अनुमति देने के लिए इनकी आवश्यकता होती है।

डेटा गवर्नेंस: डिस्कवरेबिलिटी, एक्सेसिबिलिटी और ऑडिटेबिलिटी

डेटा लीक से जुड़े जोखिमों के उचित शमन के साथ संगठनों को पहले सचित्र चपलता को संतुलित करने की आवश्यकता है। विशेष रूप से वित्तीय सेवाओं जैसे विनियमित उद्योगों में, विभिन्न स्थानों पर एक ही डेटा की कई प्रतियों से बचकर भंडारण पदचिह्न को कम करते हुए समग्र डेटा एक्सेस और ऑडिट नियंत्रण प्रदान करने के लिए केंद्रीय डेटा शासन बनाए रखने की आवश्यकता है।

पारंपरिक केंद्रीकृत डेटा लेक आर्किटेक्चर में, डेटा निर्माता अक्सर कच्चे डेटा को प्रकाशित करते हैं और एक केंद्रीकृत डेटा प्लेटफ़ॉर्म टीम में डेटा क्यूरेशन, डेटा गुणवत्ता प्रबंधन, और डेटा और इन्फ्रास्ट्रक्चर इंजीनियरों तक पहुंच नियंत्रण की जिम्मेदारी देते हैं। हालाँकि, ये डेटा प्लेटफ़ॉर्म टीमें विभिन्न डेटा डोमेन से कम परिचित हो सकती हैं, और फिर भी डेटा उत्पादकों के समर्थन पर निर्भर रहती हैं, ताकि वे प्रत्येक डेटा डोमेन पर लागू नीतियों के अनुसार डेटा तक पहुँच को ठीक से नियंत्रित और नियंत्रित कर सकें। इसके विपरीत, डेटा निर्माता स्वयं क्यूरेटेड, योग्य डेटा संपत्ति प्रदान करने के लिए सबसे अच्छी स्थिति में होते हैं और डोमेन-विशिष्ट एक्सेस नीतियों से अवगत होते हैं जिन्हें डेटा संपत्तियों तक पहुंचने के दौरान लागू करने की आवश्यकता होती है।

समाधान अवलोकन

निम्नलिखित आरेख प्रस्तावित समाधान की उच्च-स्तरीय वास्तुकला को दर्शाता है।

AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

हम विश्लेषिकी और एमएल सीओई द्वारा डेटा खपत को संबोधित करते हैं अमेज़न एथेना और अमेज़न SageMaker in भाग 2 इस श्रृंखला के।

इस पोस्ट में, हम डेटा मेश में डेटा ऑनबोर्डिंग प्रक्रिया पर ध्यान केंद्रित करते हैं और वर्णन करते हैं कि कैसे एक व्यक्तिगत LoB जैसे कि उपभोक्ता बैंकिंग डोमेन डेटा टीम AWS टूल का उपयोग कर सकती है जैसे कि एडब्ल्यूएस गोंद और AWS ग्लू डेटाब्रयू अपने डेटा उत्पादों की गुणवत्ता तैयार करने, क्यूरेट करने और बढ़ाने के लिए, और फिर उन डेटा उत्पादों को केंद्रीय डेटा गवर्नेंस खाते में पंजीकृत करें AWS झील निर्माण.

उपभोक्ता बैंकिंग LoB (डेटा निर्माता)

डेटा मेष के मूल सिद्धांतों में से एक उत्पाद के रूप में डेटा की अवधारणा है। यह बहुत महत्वपूर्ण है कि उपभोक्ता बैंकिंग डोमेन डेटा टीम डेटा उपभोक्ताओं द्वारा उपयोग के लिए तैयार डेटा उत्पाद तैयार करने पर काम करे। यह AWS ग्लू जैसे AWS एक्सट्रैक्ट, ट्रांसफॉर्म और लोड (ETL) टूल्स का उपयोग करके कच्चे डेटा को संसाधित करने के लिए किया जा सकता है अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस 3), या वैकल्पिक रूप से परिचालन डेटा स्टोर से कनेक्ट करें जहां डेटा का उत्पादन किया जाता है। आप भी उपयोग कर सकते हैं डेटाब्रू, जो एक नो-कोड विज़ुअल डेटा तैयारी उपकरण है जो डेटा को साफ और सामान्य करना आसान बनाता है।

उदाहरण के लिए, उपभोक्ता क्रेडिट प्रोफाइल डेटा उत्पाद तैयार करते समय, उपभोक्ता बैंकिंग डोमेन डेटा टीम ओपन-सोर्स डेटासेट से प्राप्त कच्चे डेटा के विशेषता नामों को जर्मन से अंग्रेजी में अनुवाद करने के लिए एक सरल अवधि बना सकती है। स्टेटलॉग जर्मन क्रेडिट डेटा, जिसमें 20 विशेषताएँ और 1,000 पंक्तियाँ हैं।

AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

सामग्री संचालन

डेटा मेश गवर्नेंस को सक्षम करने के लिए कोर AWS सेवा लेक फॉर्मेशन है। लेक फॉर्मेशन यह सुनिश्चित करने के लिए प्रत्येक डेटा डोमेन और डोमेन में डेटा शासन को लागू करने की क्षमता प्रदान करता है कि डेटा आसानी से खोजा जा सके और सुरक्षित हो। यह एक फ़ेडरेटेड सुरक्षा मॉडल प्रदान करता है जिसे प्रत्येक डोमेन के भीतर उच्च चपलता की अनुमति देते हुए, डेटा खोज, सुरक्षा और अनुपालन के लिए सर्वोत्तम प्रथाओं के साथ केंद्रीय रूप से प्रशासित किया जा सकता है।

लेक फॉर्मेशन आपके डेटा की सुरक्षा के लिए पंक्ति-स्तरीय सुरक्षा के साथ-साथ डेटा को कैसे अंतर्ग्रहण, संग्रहीत और प्रबंधित किया जाता है, इसे सरल बनाने के लिए एक एपीआई प्रदान करता है। यह दानेदार अभिगम नियंत्रण, शासित तालिकाओं और भंडारण अनुकूलन जैसी कार्यक्षमता भी प्रदान करता है।

इसके अलावा, लेक फॉर्मेशन एक प्रदान करता है डेटा शेयरिंग एपीआई जिसका उपयोग आप डेटा साझा करने के लिए कर सकते हैं विभिन्न खातों में. यह एनालिटिक्स और एमएल सीओई उपभोक्ता को एथेना क्वेरी चलाने की अनुमति देता है जो कई खातों में टेबल को क्वेरी और शामिल करता है। अधिक जानकारी के लिए, देखें एडब्ल्यूएस लेक फॉर्मेशन डेवलपर गाइड.

एडब्ल्यूएस रिसोर्स एक्सेस मैनेजर (एडब्ल्यूएस रैम) संसाधनों को साझा करने का एक सुरक्षित तरीका प्रदान करता है AWS पहचान और पहुंच प्रबंधक (IAM) भूमिकाएँ और उपयोगकर्ता AWS खातों में एक संगठन या संगठनात्मक इकाइयों (OUs) के भीतर एडब्ल्यूएस संगठन।

एडब्ल्यूएस रैम के साथ लेक फॉर्मेशन डेटा साझाकरण और एडब्ल्यूएस खातों तक पहुंच को प्रबंधित करने का एक तरीका प्रदान करता है। हम इस दृष्टिकोण का उल्लेख करते हैं: रैम-आधारित अभिगम नियंत्रण. इस दृष्टिकोण के बारे में अधिक जानकारी के लिए देखें अपने डेटा मेश के लिए AWS लेक फॉर्मेशन के साथ डेटा शेयरिंग वर्कफ़्लो बनाएँ.

लेक फॉर्मेशन डेटा शेयरिंग और एक्सेस का उपयोग करके प्रबंधित करने का एक और तरीका भी प्रदान करता है झील निर्माण Tags. हम इस दृष्टिकोण का उल्लेख करते हैं: टैग-आधारित अभिगम नियंत्रण. अधिक विवरण के लिए, देखें AWS लेक फॉर्मेशन टैग-आधारित एक्सेस कंट्रोल का उपयोग करके बड़े पैमाने पर एक आधुनिक डेटा आर्किटेक्चर और डेटा मेश पैटर्न बनाएं.

इस पोस्ट के दौरान, हम टैग-आधारित अभिगम नियंत्रण दृष्टिकोण का उपयोग करते हैं क्योंकि यह बुनियादी ढांचे के स्तर पर नामित संसाधनों पर नीतियों को निर्दिष्ट करने के बजाय सामान्य रूप से विभिन्न एलओबी में पाए जाने वाले तार्किक टैग की एक छोटी संख्या पर नीतियों के निर्माण को सरल बनाता है।

.. पूर्वापेक्षाएँ

डेटा मेश आर्किटेक्चर स्थापित करने के लिए, आपको कम से कम तीन AWS खातों की आवश्यकता होती है: एक निर्माता खाता, एक केंद्रीय खाता और एक उपभोक्ता खाता।

डेटा मेष वातावरण परिनियोजित करें

डेटा मेष वातावरण को परिनियोजित करने के लिए, आप निम्नलिखित का उपयोग कर सकते हैं: गिटहब भंडार. इस भंडार में तीन शामिल हैं एडब्ल्यूएस CloudFormation टेम्प्लेट जो एक डेटा मेष वातावरण को तैनात करते हैं जिसमें प्रत्येक खाते (निर्माता, केंद्रीय और उपभोक्ता) शामिल होते हैं। प्रत्येक खाते के भीतर, आप इसके संबंधित CloudFormation टेम्पलेट को चला सकते हैं।

केंद्रीय खाता

केंद्रीय खाते में, निम्नलिखित चरणों को पूरा करें:

  1. CloudFormation स्टैक लॉन्च करें:
    AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.
  2. दो IAM उपयोगकर्ता बनाएँ:
    1. DataMeshOwner
    2. ProducerSteward
  3. अनुदान DataMeshOwner झील गठन व्यवस्थापक के रूप में।
  4. एक IAM भूमिका बनाएँ:
    1. LFRegisterLocationServiceRole
  5. दो IAM नीतियां बनाएं:
    1. ProducerStewardPolicy
    2. S3DataLakePolicy
  6. के लिए डेटाबेस क्रेडिट-कार्ड बनाएं ProducerSteward निर्माता के खाते में।
  7. निर्माता खाते में डेटा स्थान की अनुमति साझा करें।

निर्माता खाता

निर्माता खाते में, निम्नलिखित चरणों को पूरा करें:

  1. CloudFormation स्टैक लॉन्च करें:
    AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.
  2. S3 बाल्टी बनाएँ credit-card, जो टेबल रखता है credit_card.
  3. सेंट्रल अकाउंट लेक फॉर्मेशन सर्विस रोल के लिए S3 बकेट एक्सेस की अनुमति दें।
  4. एडब्ल्यूएस गोंद क्रॉलर बनाएं creditCrawler-<ProducerAccountID>.
  5. AWS ग्लू क्रॉलर सर्विस रोल बनाएं।
  6. S3 बकेट लोकेशन पर अनुमति दें credit-card-<ProducerAccountID>-<aws-region> एडब्ल्यूएस गोंद क्रॉलर भूमिका के लिए।
  7. एक निर्माता स्टीवर्ड IAM उपयोगकर्ता बनाएँ।

उपभोक्ता खाता

उपभोक्ता खाते में, निम्नलिखित चरणों को पूरा करें:

  1. CloudFormation स्टैक लॉन्च करें:
    AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.
  2. S3 बाल्टी बनाएँ <AWS Account ID>-<aws-region>-athena-logs.
  3. एथेना कार्यसमूह बनाएँ consumer-workgroup.
  4. IAM उपयोगकर्ता बनाएं ConsumerAdmin.

एक डेटाबेस जोड़ें और इसमें उपभोक्ता खाते की सदस्यता लें

टेम्प्लेट चलाने के बाद, आप इसके माध्यम से जा सकते हैं कदम-दर-चरण गाइड डेटा कैटलॉग में एक उत्पाद जोड़ने के लिए और उपभोक्ता ने इसकी सदस्यता ली है। गाइड एक डेटाबेस स्थापित करके शुरू होता है जहां निर्माता अपने उत्पादों को रख सकता है और फिर बताता है कि उपभोक्ता उस डेटाबेस की सदस्यता कैसे ले सकता है और डेटा तक पहुंच सकता है। यह सब प्रयोग करते समय किया जाता है एलएफ-टैग, कौन सा टैग-आधारित अभिगम नियंत्रण झील निर्माण के लिए।

डेटा उत्पाद पंजीकरण

निम्नलिखित आर्किटेक्चर विस्तृत चरणों का वर्णन करता है कि कैसे उपभोक्ता बैंकिंग एलओबी टीम डेटा उत्पादकों के रूप में कार्य कर रही है, अपने डेटा उत्पादों को केंद्रीय डेटा गवर्नेंस खाते (ऑनबोर्ड डेटा उत्पादों को संगठन डेटा जाल में) में पंजीकृत कर सकती है।

AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

डेटा उत्पाद पंजीकृत करने के सामान्य चरण इस प्रकार हैं:

  1. केंद्रीय शासन खाते में डेटा उत्पाद के लिए एक लक्ष्य डेटाबेस बनाएँ। एक उदाहरण के रूप में, केंद्रीय खाते से CloudFormation टेम्पलेट पहले से ही लक्ष्य डेटाबेस बनाता है credit-card.
  2. निर्माता खाते में मूल के साथ बनाए गए लक्ष्य डेटाबेस को साझा करें।
  3. निर्माता खाते में साझा डेटाबेस का संसाधन लिंक बनाएं। निम्नलिखित स्क्रीनशॉट में, हम निर्माता खाते में लेक फॉर्मेशन कंसोल पर देखते हैं कि rl_credit-card का संसाधन लिंक है credit-card डेटाबेस।
    AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.
  4. संसाधन लिंक डेटाबेस के अंदर तालिकाओं (निर्माता खाते में क्यूरेट किए गए डेटा के साथ) को पॉप्युलेट करें (rl_credit-card) निर्माता खाते में AWS ग्लू क्रॉलर का उपयोग करना।
    AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

बनाई गई तालिका स्वचालित रूप से केंद्रीय शासन खाते में दिखाई देती है। निम्न स्क्रीनशॉट केंद्रीय खाते में झील निर्माण में तालिका का एक उदाहरण दिखाता है। यह संसाधन लिंक डेटाबेस को पॉप्युलेट करने के लिए पहले के चरणों को पूरा करने के बाद है rl_credit-card निर्माता खाते में।

AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

निष्कर्ष

इस श्रृंखला के भाग 1 में, हमने वित्तीय सेवा संगठनों के उनके विश्लेषण और एमएल टीमों के लिए अधिक चपलता प्राप्त करने और डेटा से अंतर्दृष्टि तक के समय को कम करने के लक्ष्यों पर चर्चा की। हमने AWS पर डेटा मेश आर्किटेक्चर बनाने पर भी ध्यान केंद्रित किया है, जहां हमने उपयोग में आसान, स्केलेबल और लागत प्रभावी AWS सेवाएं जैसे AWS ग्लू, डेटाब्रू और लेक फॉर्मेशन पेश किया है। डेटा उत्पादक टीमें इन सेवाओं का उपयोग क्यूरेटेड, उच्च-गुणवत्ता, इंटरऑपरेबल और सुरक्षित डेटा उत्पादों को बनाने और साझा करने के लिए कर सकती हैं जो विश्लेषणात्मक उद्देश्यों के लिए विभिन्न डेटा उपभोक्ताओं द्वारा उपयोग करने के लिए तैयार हैं।

In भाग 2, हम एनालिटिक्स और एमएल सीओई टीमों पर ध्यान केंद्रित करते हैं जो एथेना और सेजमेकर जैसी एडब्ल्यूएस सेवाओं का उपयोग करके क्रेडिट जोखिम भविष्यवाणी मॉडल बनाने के लिए उपभोक्ता बैंकिंग एलओबी द्वारा साझा किए गए डेटा उत्पादों का उपभोग करते हैं।


लेखक के बारे में

AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.करीम हम्मौदा डेटा एकीकरण, डेटा विश्लेषण और बीआई के जुनून के साथ एडब्ल्यूएस में एनालिटिक्स के लिए एक विशेषज्ञ समाधान आर्किटेक्ट है। वह एडब्ल्यूएस ग्राहकों के साथ काम करता है ताकि एनालिटिक्स समाधान डिजाइन और निर्माण कर सकें जो उनके व्यवसाय के विकास में योगदान करते हैं। अपने खाली समय में, वह टीवी वृत्तचित्र देखना और अपने बेटे के साथ वीडियो गेम खेलना पसंद करते हैं।

AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.हसन पूनावाला एडब्ल्यूएस में एक वरिष्ठ एआई/एमएल विशेषज्ञ समाधान वास्तुकार हैं, हसन ग्राहकों को एडब्ल्यूएस पर उत्पादन में मशीन सीखने के अनुप्रयोगों को डिजाइन और तैनात करने में मदद करता है। उनके पास डेटा साइंटिस्ट, मशीन लर्निंग प्रैक्टिशनर और सॉफ्टवेयर डेवलपर के रूप में 12 साल से अधिक का कार्य अनुभव है। अपने खाली समय में, हसन को प्रकृति की खोज करना और दोस्तों और परिवार के साथ समय बिताना पसंद है।

AWS पर डेटा मेश आर्किटेक्चर का उपयोग करके ML मॉडल बनाएं और प्रशिक्षित करें: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.बेनोइट डी पटौला एडब्ल्यूएस में एआई/एमएल विशेषज्ञ समाधान आर्किटेक्ट हैं। वह AWS का उपयोग करके AI / ML से संबंधित समाधान बनाने के लिए मार्गदर्शन और तकनीकी सहायता प्रदान करके ग्राहकों की मदद करता है। अपने खाली समय में उन्हें पियानो बजाना और दोस्तों के साथ समय बिताना पसंद है।

समय टिकट:

से अधिक AWS मशीन लर्निंग