สร้างและฝึกโมเดล ML โดยใช้ Data Mesh Architecture บน AWS: ตอนที่ 1

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

องค์กรในอุตสาหกรรมต่างๆ กำลังใช้ปัญญาประดิษฐ์ (AI) และแมชชีนเลิร์นนิง (ML) เพื่อแก้ปัญหาความท้าทายทางธุรกิจเฉพาะสำหรับอุตสาหกรรมของตน ตัวอย่างเช่น ในอุตสาหกรรมบริการทางการเงิน คุณสามารถใช้ AI และ ML เพื่อแก้ปัญหาเกี่ยวกับการตรวจจับการฉ้อโกง การคาดการณ์ความเสี่ยงด้านเครดิต การตลาดทางตรง และอื่นๆ อีกมากมาย

บางครั้งองค์กรขนาดใหญ่ได้จัดตั้งศูนย์ความเป็นเลิศ (CoE) เพื่อจัดการกับความต้องการของสายธุรกิจต่างๆ (LoB) ด้วยการวิเคราะห์เชิงนวัตกรรมและโครงการ ML

ในการสร้างแบบจำลอง ML คุณภาพสูงและมีประสิทธิภาพตามขนาด พวกเขาจำเป็นต้องทำสิ่งต่อไปนี้:

ให้วิธีง่ายๆ ในการเข้าถึงข้อมูลที่เกี่ยวข้องกับการวิเคราะห์และ ML CoE
สร้างความรับผิดชอบต่อผู้ให้บริการข้อมูลจาก LoB แต่ละรายการเพื่อแบ่งปันสินทรัพย์ข้อมูลที่ดูแลจัดการซึ่งสามารถค้นพบได้ เข้าใจได้ ทำงานร่วมกันได้ และน่าเชื่อถือ

ซึ่งสามารถลดรอบเวลาที่ยาวนานในการแปลงกรณีการใช้งาน ML จากการทดลองเป็นการผลิต และสร้างมูลค่าทางธุรกิจทั่วทั้งองค์กร

สถาปัตยกรรม data mesh มุ่งมั่นที่จะแก้ปัญหาทางเทคนิคและความท้าทายขององค์กรเหล่านี้ด้วยการแนะนำวิธีการทางสังคมและเทคนิคแบบกระจายศูนย์เพื่อแบ่งปัน เข้าถึง และจัดการข้อมูลในสภาพแวดล้อมที่ซับซ้อนและขนาดใหญ่—ภายในหรือข้ามองค์กร รูปแบบการออกแบบดาต้าเมชจะสร้างโมเดลการแบ่งปันข้อมูลอย่างรับผิดชอบ ซึ่งสอดคล้องกับการเติบโตขององค์กร เพื่อให้บรรลุเป้าหมายสูงสุดในการเพิ่มผลตอบแทนจากการลงทุนทางธุรกิจในทีมข้อมูล กระบวนการ และเทคโนโลยี

ในซีรีส์สองส่วนนี้ เราให้คำแนะนำเกี่ยวกับวิธีที่องค์กรสามารถสร้างสถาปัตยกรรมข้อมูลที่ทันสมัยโดยใช้รูปแบบการออกแบบ data mesh บน AWS และเปิดใช้งานการวิเคราะห์และ ML CoE เพื่อสร้างและฝึกอบรมโมเดล ML ด้วยข้อมูลใน LoB หลายตัว เราใช้ตัวอย่างขององค์กรที่ให้บริการทางการเงินเพื่อกำหนดบริบทและกรณีการใช้งานสำหรับชุดนี้

ในโพสต์แรกนี้ เราแสดงขั้นตอนการตั้งค่าสถาปัตยกรรม data mesh กับผู้ผลิตข้อมูล AWS และบัญชีผู้บริโภคหลายบัญชี จากนั้นเรามุ่งเน้นไปที่ผลิตภัณฑ์ข้อมูลหนึ่งซึ่งมี LoB หนึ่งรายการภายในองค์กรทางการเงิน และวิธีแชร์ข้อมูลดังกล่าวในสภาพแวดล้อมของ data mesh เพื่อให้ LoB อื่นใช้และใช้ผลิตภัณฑ์ข้อมูลนี้ได้อย่างไร โดยมุ่งเป้าไปที่บุคคลผู้พิทักษ์ข้อมูลเป็นหลัก ซึ่งมีหน้าที่รับผิดชอบในการปรับปรุงและสร้างมาตรฐานกระบวนการแบ่งปันข้อมูลระหว่างผู้ผลิตข้อมูลและผู้บริโภค และรับรองการปฏิบัติตามกฎการกำกับดูแลข้อมูล

ในโพสต์ที่สอง เราแสดงตัวอย่างหนึ่งว่าการวิเคราะห์และ ML CoE สามารถใช้ผลิตภัณฑ์ข้อมูลสำหรับกรณีการใช้งานการคาดการณ์ความเสี่ยงได้อย่างไร โดยมุ่งเป้าไปที่บุคคลที่เป็นนักวิทยาศาสตร์ข้อมูลเป็นหลัก ซึ่งรับผิดชอบการใช้สินทรัพย์ข้อมูลทั้งทั่วทั้งองค์กรและบุคคลที่สามเพื่อสร้างและฝึกอบรมโมเดล ML ที่ดึงข้อมูลเชิงลึกทางธุรกิจเพื่อยกระดับประสบการณ์ของลูกค้าที่ให้บริการทางการเงิน

ภาพรวมโครงข่ายข้อมูล

Zhamak Dehghani ผู้ก่อตั้ง data mesh pattern ในหนังสือของเธอ Data Mesh มอบคุณค่าที่ขับเคลื่อนด้วยข้อมูลในระดับต่างๆได้กำหนดหลักการสี่ประการต่อวัตถุประสงค์ของ data mesh:

ความเป็นเจ้าของโดเมนแบบกระจาย – เพื่อดำเนินการเปลี่ยนองค์กรจากการเป็นเจ้าของข้อมูลแบบรวมศูนย์โดยผู้เชี่ยวชาญที่เรียกใช้เทคโนโลยีแพลตฟอร์มข้อมูลเป็นโมเดลการเป็นเจ้าของข้อมูลแบบกระจายอำนาจ ผลักดันความเป็นเจ้าของและความรับผิดชอบของข้อมูลกลับไปยัง LoB ที่มีการสร้างข้อมูล (โดเมนที่จัดตำแหน่งตามแหล่งที่มา) หรือถูกใช้ ( โดเมนที่สอดคล้องกับการบริโภค)
ข้อมูลเป็นผลิตภัณฑ์ – เพื่อผลักดันให้ต้นน้ำมีความรับผิดชอบในการแบ่งปันสินทรัพย์ข้อมูลที่ดูแลจัดการ มีคุณภาพสูง ทำงานร่วมกันได้และปลอดภัย ดังนั้นผู้ผลิตข้อมูลจาก LoB ที่แตกต่างกันมีหน้าที่รับผิดชอบในการสร้างข้อมูลในรูปแบบวัสดุสิ้นเปลืองที่ต้นทาง
การวิเคราะห์แบบบริการตนเอง – เพื่อปรับปรุงประสบการณ์ของผู้ใช้ข้อมูลของ Analytics และ ML เพื่อให้พวกเขาสามารถค้นพบ เข้าถึง และใช้ผลิตภัณฑ์ข้อมูลด้วยเครื่องมือที่ต้องการได้ นอกจากนี้ เพื่อปรับปรุงประสบการณ์ของผู้ให้บริการข้อมูล LoB เพื่อสร้าง ปรับใช้ และบำรุงรักษาผลิตภัณฑ์ข้อมูลผ่านสูตรและส่วนประกอบและเทมเพลตที่นำกลับมาใช้ใหม่ได้
การปกครองแบบสหพันธรัฐคอมพิวเตอร์ – เพื่อเชื่อมโยงและทำให้การตัดสินใจที่เกี่ยวข้องกับการจัดการและควบคุมการเข้าถึงข้อมูลเป็นแบบอัตโนมัติให้อยู่ในระดับเจ้าของข้อมูลจาก LoB ต่างๆ ซึ่งยังคงสอดคล้องกับนโยบายทางกฎหมาย การปฏิบัติตามกฎระเบียบ และความปลอดภัยขององค์กรในวงกว้างที่บังคับใช้ในที่สุด ตาข่าย

AWS นำเสนอวิสัยทัศน์ในการสร้างตาข่ายข้อมูลบน AWS ในโพสต์ต่างๆ:

อันดับแรก เราเน้นที่ส่วนขององค์กรที่เกี่ยวข้องกับการเป็นเจ้าของโดเมนและข้อมูลแบบกระจายตามหลักการของผลิตภัณฑ์ ผู้เขียนอธิบายวิสัยทัศน์ในการปรับ LOB หลายรายการทั่วทั้งองค์กรไปสู่กลยุทธ์ผลิตภัณฑ์ข้อมูลที่มีเครื่องมือในการค้นหาและรับข้อมูลที่ต้องการให้กับโดเมนที่สอดคล้องกับการบริโภค ในขณะเดียวกันก็รับประกันการควบคุมที่จำเป็นเกี่ยวกับการใช้ข้อมูลนั้นด้วยการแนะนำความรับผิดชอบสำหรับ โดเมนที่จัดแนวแหล่งที่มาเพื่อให้ผลิตภัณฑ์ข้อมูลพร้อมใช้งานที่ต้นทางโดยตรง สำหรับข้อมูลเพิ่มเติม โปรดดูที่ วิธีที่ JPMorgan Chase สร้างสถาปัตยกรรม data mesh เพื่อขับเคลื่อนมูลค่าที่สำคัญเพื่อปรับปรุงแพลตฟอร์มข้อมูลองค์กร.
จากนั้นเรามุ่งเน้นไปที่ส่วนทางเทคนิคที่เกี่ยวข้องกับการสร้างผลิตภัณฑ์ข้อมูล การวิเคราะห์แบบบริการตนเอง และหลักการกำกับดูแลการคำนวณแบบรวมศูนย์ ผู้เขียนอธิบายบริการหลักของ AWS ที่ส่งเสริมโดเมนที่จัดแนวแหล่งที่มาเพื่อสร้างและแบ่งปันผลิตภัณฑ์ข้อมูล ซึ่งเป็นบริการที่หลากหลายที่ช่วยให้โดเมนที่สอดคล้องกับผู้บริโภคใช้ผลิตภัณฑ์ข้อมูลในรูปแบบต่างๆ ตามเครื่องมือที่ต้องการและกรณีการใช้งาน กำลังดำเนินการ และสุดท้ายคือบริการของ AWS ที่ควบคุมขั้นตอนการแชร์ข้อมูลโดยการบังคับใช้นโยบายการเข้าถึงข้อมูล สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ออกแบบสถาปัตยกรรม data mesh โดยใช้ AWS Lake Formation และ AWS Glue.
เรายังแสดงโซลูชันในการค้นหาข้อมูลและการควบคุมการเข้าถึงโดยอัตโนมัติผ่าน data mesh UI แบบรวมศูนย์ ดูรายละเอียดเพิ่มเติมได้ที่ สร้างเวิร์กโฟลว์การแชร์ข้อมูลด้วย AWS Lake Formation สำหรับ data mesh ของคุณ.

กรณีใช้บริการทางการเงิน

โดยปกติ องค์กรบริการทางการเงินขนาดใหญ่จะมี LoB หลายตัว เช่น ธนาคารเพื่อผู้บริโภค ธนาคารเพื่อการลงทุน และการจัดการสินทรัพย์ และทีมวิเคราะห์และ ML CoE อย่างน้อยหนึ่งทีม แต่ละ LoB ให้บริการที่แตกต่างกัน:

ธนาคารเพื่อผู้บริโภค LoB ให้บริการที่หลากหลายแก่ผู้บริโภคและธุรกิจ รวมถึงสินเชื่อและการจำนอง การจัดการเงินสด โซลูชันการชำระเงิน ผลิตภัณฑ์เงินฝากและการลงทุน และอื่นๆ
LoB พาณิชย์หรือวาณิชธนกิจนำเสนอโซลูชั่นทางการเงินที่ครอบคลุม เช่น การให้กู้ยืม ความเสี่ยงในการล้มละลาย และการชำระเงินขายส่งให้กับลูกค้า รวมถึงธุรกิจขนาดเล็ก บริษัทขนาดกลาง และองค์กรขนาดใหญ่
การจัดการสินทรัพย์ LoB นำเสนอผลิตภัณฑ์เพื่อการเกษียณอายุและบริการการลงทุนในสินทรัพย์ทุกประเภท

LoB แต่ละรายการกำหนดผลิตภัณฑ์ข้อมูลของตนเอง ซึ่งดูแลจัดการโดยผู้ที่เข้าใจข้อมูลและเหมาะสมที่สุดในการระบุว่าใครได้รับอนุญาตให้ใช้ข้อมูลดังกล่าว และนำไปใช้อย่างไร ในทางตรงกันข้าม LoB และโดเมนแอปพลิเคชันอื่นๆ เช่น การวิเคราะห์และ ML CoE สนใจที่จะค้นหาและใช้ผลิตภัณฑ์ข้อมูลที่มีคุณสมบัติเหมาะสม ผสมผสานเข้าด้วยกันเพื่อสร้างข้อมูลเชิงลึก และตัดสินใจโดยใช้ข้อมูลเป็นหลัก

ภาพประกอบต่อไปนี้แสดง LoB และตัวอย่างผลิตภัณฑ์ข้อมูลที่สามารถแชร์ได้ นอกจากนี้ยังแสดงให้เห็นผู้บริโภคของผลิตภัณฑ์ข้อมูล เช่น การวิเคราะห์และ ML CoE ซึ่งเป็นผู้สร้างโมเดล ML ที่สามารถปรับใช้กับแอปพลิเคชันที่ติดต่อกับลูกค้าได้ เพื่อปรับปรุงประสบการณ์ของลูกค้าปลายทางให้ดียิ่งขึ้น

ตามแนวคิดทางสังคมและเทคนิคของ data mesh เราเริ่มต้นด้วยแง่มุมทางสังคมด้วยชุดของขั้นตอนขององค์กร เช่น:

ใช้ผู้เชี่ยวชาญด้านโดเมนเพื่อกำหนดขอบเขตสำหรับแต่ละโดเมน ดังนั้นผลิตภัณฑ์ข้อมูลแต่ละรายการจึงสามารถจับคู่กับโดเมนเฉพาะได้
การระบุเจ้าของผลิตภัณฑ์ข้อมูลที่ได้รับจากแต่ละโดเมน ดังนั้นผลิตภัณฑ์ข้อมูลแต่ละรายการจึงมีกลยุทธ์ที่เจ้าของกำหนดไว้
การระบุนโยบายการกำกับดูแลจากสิ่งจูงใจระดับสากลและระดับท้องถิ่นหรือแบบสหพันธ์ ดังนั้นเมื่อผู้บริโภคข้อมูลเข้าถึงผลิตภัณฑ์ข้อมูลเฉพาะ นโยบายการเข้าถึงที่เกี่ยวข้องกับผลิตภัณฑ์สามารถบังคับใช้โดยอัตโนมัติผ่านเลเยอร์การกำกับดูแลข้อมูลส่วนกลาง

จากนั้นเราจะย้ายไปที่ด้านเทคนิค ซึ่งรวมถึงสถานการณ์จำลองแบบ end-to-end ต่อไปนี้ที่กำหนดไว้ในไดอะแกรมก่อนหน้านี้:

ให้อำนาจแก่ธนาคารผู้บริโภค LoB ด้วยเครื่องมือในการสร้างผลิตภัณฑ์ข้อมูลโปรไฟล์สินเชื่อผู้บริโภคที่พร้อมใช้งาน
อนุญาตให้ธนาคารเพื่อผู้บริโภค LoB แบ่งปันผลิตภัณฑ์ข้อมูลในชั้นการกำกับดูแลส่วนกลาง
ฝังคำจำกัดความสากลและแบบรวมศูนย์ของนโยบายการเข้าถึงข้อมูลที่ควรบังคับใช้ขณะเข้าถึงผลิตภัณฑ์ข้อมูลโปรไฟล์สินเชื่อผู้บริโภคผ่านการกำกับดูแลข้อมูลส่วนกลาง
อนุญาตให้ Analytics และ ML CoE ค้นพบและเข้าถึงผลิตภัณฑ์ข้อมูลผ่านเลเยอร์การกำกับดูแลส่วนกลาง
เพิ่มประสิทธิภาพให้กับการวิเคราะห์และ ML CoE ด้วยเครื่องมือในการใช้ผลิตภัณฑ์ข้อมูลเพื่อสร้างและฝึกอบรมแบบจำลองการคาดการณ์ความเสี่ยงด้านเครดิต เราไม่ครอบคลุมขั้นตอนสุดท้าย (6 และ 7 ในแผนภาพก่อนหน้า) ในชุดนี้ อย่างไรก็ตาม เพื่อแสดงคุณค่าทางธุรกิจที่โมเดล ML สามารถนำมาสู่องค์กรในสถานการณ์แบบ end-to-end เราแสดงให้เห็นดังต่อไปนี้:
โมเดลนี้สามารถนำกลับมาใช้กับระบบที่ติดต่อกับลูกค้าได้ในภายหลัง เช่น เว็บพอร์ทัลสำหรับธนาคารเพื่อผู้บริโภคหรือแอปพลิเคชันมือถือ
สามารถใช้เฉพาะในใบสมัครสินเชื่อเพื่อประเมินโปรไฟล์ความเสี่ยงของคำขอสินเชื่อและการจำนอง

ต่อไป เราจะอธิบายความต้องการทางเทคนิคของแต่ละส่วนประกอบ

เจาะลึกความต้องการด้านเทคนิค

ในการทำให้ผลิตภัณฑ์ข้อมูลพร้อมใช้งานสำหรับทุกคน องค์กรจำเป็นต้องทำให้การแบ่งปันข้อมูลระหว่างหน่วยงานต่างๆ ทั่วทั้งองค์กรเป็นเรื่องง่าย ในขณะเดียวกันก็รักษาการควบคุมที่เหมาะสม หรือกล่าวอีกนัยหนึ่ง เพื่อสร้างสมดุลระหว่างความคล่องตัวกับการกำกับดูแลที่เหมาะสม

ผู้บริโภคข้อมูล: Analytics และ ML CoE

ผู้บริโภคข้อมูล เช่น นักวิทยาศาสตร์ข้อมูลจากการวิเคราะห์และ ML CoE จำเป็นต้องทำสิ่งต่อไปนี้ได้:

ค้นพบและเข้าถึงชุดข้อมูลที่เกี่ยวข้องสำหรับกรณีการใช้งานที่กำหนด
มั่นใจได้ว่าชุดข้อมูลที่ต้องการเข้าถึงได้รับการดูแลจัดการ อัปเดตแล้ว และมีคำอธิบายที่มีประสิทธิภาพ
ขอเข้าถึงชุดข้อมูลที่น่าสนใจสำหรับกรณีธุรกิจของพวกเขา
ใช้เครื่องมือที่ต้องการเพื่อสืบค้นและประมวลผลชุดข้อมูลดังกล่าวภายในสภาพแวดล้อมสำหรับ ML โดยไม่จำเป็นต้องจำลองข้อมูลจากตำแหน่งระยะไกลเดิมหรือกังวลเกี่ยวกับความซับซ้อนทางวิศวกรรมหรือโครงสร้างพื้นฐานที่เกี่ยวข้องกับการประมวลผลข้อมูลที่จัดเก็บไว้ในไซต์ระยะไกล
รับการแจ้งเตือนเมื่อมีการปรับปรุงข้อมูลใด ๆ ที่ทำโดยเจ้าของข้อมูล

ผู้ผลิตข้อมูล: ความเป็นเจ้าของโดเมน

ผู้ผลิตข้อมูล เช่น ทีมโดเมนจาก LoB ต่างๆ ในองค์กรบริการทางการเงิน จำเป็นต้องลงทะเบียนและแชร์ชุดข้อมูลที่ดูแลจัดการซึ่งมีข้อมูลต่อไปนี้:

ข้อมูลเมตาทางเทคนิคและการปฏิบัติงาน เช่น ชื่อและขนาดของฐานข้อมูลและตาราง สคีมาของคอลัมน์ และคีย์
ข้อมูลเมตาของธุรกิจ เช่น คำอธิบายข้อมูล การจัดประเภท และความละเอียดอ่อน
การติดตามข้อมูลเมตา เช่น วิวัฒนาการสคีมาจากต้นทางไปยังรูปแบบเป้าหมายและรูปแบบกลางใดๆ
ข้อมูลเมตาของคุณภาพข้อมูล เช่น อัตราส่วนความถูกต้องและความสมบูรณ์ และอคติของข้อมูล
นโยบายและขั้นตอนการเข้าถึง

สิ่งเหล่านี้จำเป็นสำหรับการอนุญาตให้ผู้บริโภคข้อมูลค้นพบและเข้าถึงข้อมูลโดยไม่ต้องอาศัยขั้นตอนแบบแมนนวลหรือต้องติดต่อผู้เชี่ยวชาญด้านโดเมนของผลิตภัณฑ์ข้อมูลเพื่อรับความรู้เพิ่มเติมเกี่ยวกับความหมายของข้อมูลและวิธีการเข้าถึงข้อมูล

การกำกับดูแลข้อมูล: ความสามารถในการค้นพบ การเข้าถึง และตรวจสอบได้

องค์กรจำเป็นต้องปรับสมดุลความคล่องตัวที่แสดงไว้ก่อนหน้านี้ด้วยการลดความเสี่ยงที่เกี่ยวข้องกับการรั่วไหลของข้อมูลอย่างเหมาะสม โดยเฉพาะอย่างยิ่งในอุตสาหกรรมที่มีการควบคุม เช่น บริการทางการเงิน มีความจำเป็นต้องรักษาการกำกับดูแลข้อมูลส่วนกลางเพื่อให้การเข้าถึงข้อมูลโดยรวมและการควบคุมการตรวจสอบ ในขณะที่ลดการปล่อยพื้นที่จัดเก็บโดยหลีกเลี่ยงสำเนาข้อมูลเดียวกันหลายชุดในสถานที่ต่างๆ

ในสถาปัตยกรรม data lake แบบรวมศูนย์แบบดั้งเดิม ผู้ผลิตข้อมูลมักจะเผยแพร่ข้อมูลดิบและส่งต่อความรับผิดชอบในการดูแลจัดการข้อมูล การจัดการคุณภาพข้อมูล และการควบคุมการเข้าถึงข้อมูลและวิศวกรโครงสร้างพื้นฐานในทีมแพลตฟอร์มข้อมูลแบบรวมศูนย์ อย่างไรก็ตาม ทีมแพลตฟอร์มข้อมูลเหล่านี้อาจไม่ค่อยคุ้นเคยกับโดเมนข้อมูลต่างๆ และยังคงพึ่งพาการสนับสนุนจากผู้ผลิตข้อมูลเพื่อให้สามารถดูแลจัดการและควบคุมการเข้าถึงข้อมูลได้อย่างเหมาะสมตามนโยบายที่บังคับใช้ในแต่ละโดเมนข้อมูล ในทางตรงกันข้าม ผู้ผลิตข้อมูลเองอยู่ในตำแหน่งที่ดีที่สุดในการจัดหาสินทรัพย์ข้อมูลที่มีคุณสมบัติเหมาะสม และตระหนักถึงนโยบายการเข้าถึงเฉพาะโดเมนที่จำเป็นต้องบังคับใช้ขณะเข้าถึงสินทรัพย์ข้อมูล

ภาพรวมโซลูชัน

แผนภาพต่อไปนี้แสดงสถาปัตยกรรมระดับสูงของโซลูชันที่เสนอ

เราจัดการการใช้ข้อมูลโดยการวิเคราะห์และ ML CoE ด้วย อเมซอน อาเธน่า และ อเมซอน SageMaker in 2 ส่วนหนึ่ง ของชุดนี้

ในโพสต์นี้ เราเน้นที่กระบวนการออนบอร์ดข้อมูลใน data mesh และอธิบายว่าแต่ละ LoB เช่นทีมข้อมูลโดเมนธนาคารเพื่อผู้บริโภคสามารถใช้เครื่องมือ AWS เช่น AWS กาว และ AWS กาว DataBrew เพื่อจัดเตรียม จัดการ และปรับปรุงคุณภาพของผลิตภัณฑ์ข้อมูล จากนั้นลงทะเบียนผลิตภัณฑ์ข้อมูลเหล่านั้นลงในบัญชีกลางการกำกับดูแลข้อมูลผ่าน การก่อตัวของทะเลสาบ AWS.

ธนาคารเพื่อผู้บริโภค LoB (ผู้ผลิตข้อมูล)

หลักการสำคัญประการหนึ่งของ data mesh คือแนวคิดของข้อมูลในฐานะผลิตภัณฑ์ เป็นสิ่งสำคัญมากที่ทีมข้อมูลโดเมนธนาคารเพื่อผู้บริโภคจะต้องเตรียมผลิตภัณฑ์ข้อมูลที่พร้อมสำหรับการใช้งานโดยผู้บริโภคข้อมูล ซึ่งสามารถทำได้โดยใช้เครื่องมือแยก แปลง และโหลด (ETL) ของ AWS เช่น AWS Glue เพื่อประมวลผลข้อมูลดิบที่รวบรวมบน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) หรือเชื่อมต่อกับที่เก็บข้อมูลการปฏิบัติงานที่ผลิตข้อมูล คุณสามารถใช้ ดาต้าบรูว์ซึ่งเป็นเครื่องมือเตรียมข้อมูลภาพแบบไม่มีโค้ดที่ทำให้ง่ายต่อการล้างและทำให้ข้อมูลเป็นมาตรฐาน

ตัวอย่างเช่น ในขณะที่เตรียมผลิตภัณฑ์ข้อมูลโปรไฟล์เครดิตของผู้บริโภค ทีมข้อมูลโดเมนธนาคารเพื่อผู้บริโภคสามารถสร้างการจัดการอย่างง่ายเพื่อแปลชื่อแอตทริบิวต์ของข้อมูลดิบที่ดึงมาจากชุดข้อมูลโอเพนซอร์สจากภาษาเยอรมันเป็นภาษาอังกฤษ Statlog ข้อมูลเครดิตเยอรมันซึ่งประกอบด้วยแอตทริบิวต์ 20 รายการและ 1,000 แถว

การกำกับดูแลข้อมูล

บริการหลักของ AWS สำหรับการเปิดใช้การกำกับดูแล data mesh คือ Lake Formation Lake Formation เสนอความสามารถในการบังคับใช้การกำกับดูแลข้อมูลภายในโดเมนข้อมูลแต่ละโดเมนและข้ามโดเมน เพื่อให้แน่ใจว่าข้อมูลจะค้นพบได้ง่ายและปลอดภัย โดยมีรูปแบบการรักษาความปลอดภัยแบบรวมศูนย์ที่สามารถบริหารจัดการได้จากส่วนกลาง โดยมีแนวทางปฏิบัติที่ดีที่สุดสำหรับการค้นหาข้อมูล ความปลอดภัย และการปฏิบัติตามข้อกำหนด ในขณะที่ให้ความคล่องตัวสูงภายในแต่ละโดเมน

Lake Formation นำเสนอ API เพื่อทำให้วิธีการนำเข้า จัดเก็บ และจัดการข้อมูลง่ายขึ้น ร่วมกับการรักษาความปลอดภัยระดับแถวเพื่อปกป้องข้อมูลของคุณ นอกจากนี้ยังมีฟังก์ชันต่างๆ เช่น การควบคุมการเข้าถึงแบบละเอียด ตารางที่ได้รับการควบคุม และการเพิ่มประสิทธิภาพพื้นที่เก็บข้อมูล

นอกจากนี้ Lake Formations ยังให้บริการ a API การแบ่งปันข้อมูล ที่คุณสามารถใช้เพื่อแชร์ข้อมูล ในบัญชีต่างๆ. ซึ่งช่วยให้การวิเคราะห์และผู้บริโภค ML CoE เรียกใช้การสืบค้น Athena ที่สืบค้นและรวมตารางในหลายบัญชี สำหรับข้อมูลเพิ่มเติม โปรดดูที่ คู่มือนักพัฒนา AWS Lake Formation.

ตัวจัดการการเข้าถึงทรัพยากร AWS (AWS RAM) เป็นวิธีที่ปลอดภัยในการแบ่งปันทรัพยากรผ่าน AWS Identity และตัวจัดการการเข้าถึง บทบาท (IAM) และผู้ใช้ในบัญชี AWS ภายในองค์กรหรือหน่วยขององค์กร (OU) ใน องค์กร AWS

Lake Formation ร่วมกับ AWS RAM เป็นวิธีหนึ่งในการจัดการการแชร์ข้อมูลและการเข้าถึงในบัญชี AWS เราเรียกวิธีนี้ว่า การควบคุมการเข้าถึงด้วยแรม. สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการนี้ โปรดดูที่ สร้างเวิร์กโฟลว์การแชร์ข้อมูลด้วย AWS Lake Formation สำหรับ data mesh ของคุณ.

Lake Formation ยังมีวิธีอื่นในการจัดการการแบ่งปันข้อมูลและการเข้าถึงโดยใช้ แท็กการก่อตัวของทะเลสาบ. เราเรียกวิธีนี้ว่า การควบคุมการเข้าถึงตามแท็ก. ดูรายละเอียดเพิ่มเติมได้ที่ สร้างสถาปัตยกรรมข้อมูลที่ทันสมัยและรูปแบบตาข่ายข้อมูลตามขนาดโดยใช้การควบคุมการเข้าถึงตามแท็กของ AWS Lake Formation.

ตลอดโพสต์นี้ เราใช้วิธีการควบคุมการเข้าถึงแบบแท็ก เนื่องจากช่วยลดความยุ่งยากในการสร้างนโยบายบนแท็กลอจิคัลจำนวนน้อยที่มักพบใน LoB ต่างๆ แทนที่จะระบุนโยบายเกี่ยวกับทรัพยากรที่มีชื่อที่ระดับโครงสร้างพื้นฐาน

เบื้องต้น

ในการตั้งค่าสถาปัตยกรรม data mesh คุณต้องมีบัญชี AWS อย่างน้อยสามบัญชี: บัญชีผู้ผลิต บัญชีกลาง และบัญชีผู้บริโภค

ปรับใช้สภาพแวดล้อมตาข่ายข้อมูล

ในการปรับใช้สภาพแวดล้อม data mesh คุณสามารถใช้สิ่งต่อไปนี้ พื้นที่เก็บข้อมูล GitHub. ที่เก็บนี้มีสาม การก่อตัวของ AWS Cloud เทมเพลตที่ปรับใช้สภาพแวดล้อมตาข่ายข้อมูลที่มีแต่ละบัญชี (ผู้ผลิต ส่วนกลาง และผู้บริโภค) ภายในแต่ละบัญชี คุณสามารถเรียกใช้เทมเพลต CloudFormation ที่เกี่ยวข้องได้

บัญชีกลาง

ในบัญชีกลาง ให้ทำตามขั้นตอนต่อไปนี้:

เปิดกอง CloudFormation:
สร้างผู้ใช้ IAM สองคน:
1. DataMeshOwner
2. ProducerSteward
ให้ DataMeshOwner เป็นผู้ดูแลการสร้างทะเลสาบ
สร้างหนึ่งบทบาท IAM:
1. LFRegisterLocationServiceRole
สร้างนโยบาย IAM สองรายการ:
1. ProducerStewardPolicy
2. S3DataLakePolicy
สร้างฐานข้อมูลบัตรเครดิตสำหรับ ProducerSteward ที่บัญชีผู้ผลิต
แบ่งปันการอนุญาตตำแหน่งข้อมูลไปยังบัญชีผู้ผลิต

บัญชีผู้ผลิต

ในบัญชีผู้ผลิต ทำตามขั้นตอนต่อไปนี้:

เปิดกอง CloudFormation:
สร้างที่เก็บข้อมูล S3 credit-cardซึ่งถือโต๊ะ credit_card.
อนุญาตให้เข้าถึงบัคเก็ต S3 สำหรับบทบาทบริการ Lake Formation ของบัญชีกลาง
สร้างโปรแกรมรวบรวมข้อมูล AWS Glue creditCrawler-<ProducerAccountID>.
สร้างบทบาทบริการโปรแกรมรวบรวมข้อมูลของ AWS Glue
ให้สิทธิ์กับตำแหน่งบัคเก็ต S3 credit-card-<ProducerAccountID>-<aws-region> กับบทบาทโปรแกรมรวบรวมข้อมูลของ AWS Glue
สร้างผู้ใช้สจ๊วตผู้ผลิต IAM

บัญชีผู้บริโภค

ในบัญชีผู้ใช้ทั่วไป ให้ทำตามขั้นตอนต่อไปนี้:

เปิดกอง CloudFormation:
สร้างที่เก็บข้อมูล S3 <AWS Account ID>-<aws-region>-athena-logs.
สร้างเวิร์กกรุ๊ป Athena consumer-workgroup.
สร้างผู้ใช้ IAM ConsumerAdmin.

เพิ่มฐานข้อมูลและสมัครบัญชีผู้บริโภคกับมัน

หลังจากที่คุณเรียกใช้เทมเพลตแล้ว คุณสามารถเข้าสู่ ขั้นตอนโดยขั้นตอนคู่มือ เพื่อเพิ่มผลิตภัณฑ์ในแค็ตตาล็อกข้อมูลและให้ผู้บริโภคสมัครรับข้อมูล คู่มือเริ่มต้นโดยการตั้งค่าฐานข้อมูลที่ผู้ผลิตสามารถวางผลิตภัณฑ์ของตนได้ จากนั้นจะอธิบายว่าผู้บริโภคสามารถสมัครรับข้อมูลฐานข้อมูลนั้นและเข้าถึงข้อมูลได้อย่างไร ทั้งหมดนี้ดำเนินการในขณะที่ใช้ LF-แท็กซึ่งก็คือ การควบคุมการเข้าถึงตามแท็ก สำหรับการก่อตัวของทะเลสาบ

การลงทะเบียนผลิตภัณฑ์ข้อมูล

สถาปัตยกรรมต่อไปนี้อธิบายขั้นตอนโดยละเอียดของวิธีที่ทีมธนาคารผู้บริโภค LoB ทำหน้าที่เป็นผู้ผลิตข้อมูลสามารถลงทะเบียนผลิตภัณฑ์ข้อมูลของตนในบัญชีกลางการกำกับดูแลข้อมูล (ผลิตภัณฑ์ข้อมูลออนบอร์ดไปยังตาข่ายข้อมูลองค์กร)

ขั้นตอนทั่วไปในการลงทะเบียนผลิตภัณฑ์ข้อมูลมีดังนี้:

สร้างฐานข้อมูลเป้าหมายสำหรับผลิตภัณฑ์ข้อมูลในบัญชีการกำกับดูแลส่วนกลาง ตัวอย่างเช่น เทมเพลต CloudFormation จากบัญชีกลางสร้างฐานข้อมูลเป้าหมายแล้ว credit-card.
แชร์ฐานข้อมูลเป้าหมายที่สร้างขึ้นกับต้นทางในบัญชีผู้ผลิต
สร้างลิงก์ทรัพยากรของฐานข้อมูลที่แชร์ในบัญชีผู้ผลิต ในภาพหน้าจอต่อไปนี้ เราจะเห็นบนคอนโซล Lake Formation ในบัญชีผู้ผลิตที่ rl_credit-card เป็นลิงค์ทรัพยากรของ credit-card ฐานข้อมูล
เติมตาราง (ด้วยข้อมูลที่ดูแลในบัญชีผู้ผลิต) ภายในฐานข้อมูลลิงก์ทรัพยากร (rl_credit-card) โดยใช้โปรแกรมรวบรวมข้อมูล AWS Glue ในบัญชีผู้ผลิต

ตารางที่สร้างขึ้นจะปรากฏในบัญชีการกำกับดูแลส่วนกลางโดยอัตโนมัติ ภาพหน้าจอต่อไปนี้แสดงตัวอย่างตารางใน Lake Formation ในบัญชีกลาง นี่คือหลังจากทำตามขั้นตอนก่อนหน้านี้เพื่อเติมฐานข้อมูลลิงค์ทรัพยากร rl_credit-card ในบัญชีผู้ผลิต

สรุป

ในส่วนที่ 1 ของชุดนี้ เราได้หารือเกี่ยวกับเป้าหมายขององค์กรที่ให้บริการทางการเงินเพื่อให้เกิดความคล่องตัวมากขึ้นสำหรับทีมวิเคราะห์และ ML ของพวกเขา และลดเวลาจากข้อมูลไปสู่ข้อมูลเชิงลึก เรายังมุ่งเน้นที่การสร้างสถาปัตยกรรม data mesh บน AWS ซึ่งเราได้นำเสนอบริการของ AWS ที่ใช้งานง่าย ปรับขนาดได้ และคุ้มค่า เช่น AWS Glue, DataBrew และ Lake Formation ทีมผู้ผลิตข้อมูลสามารถใช้บริการเหล่านี้เพื่อสร้างและแชร์ผลิตภัณฑ์ข้อมูลที่ดูแลจัดการ มีคุณภาพสูง ทำงานร่วมกันได้และปลอดภัย ซึ่งผู้บริโภคข้อมูลต่างๆ พร้อมที่จะใช้งานเพื่อวัตถุประสงค์ในการวิเคราะห์

In 2 ส่วนหนึ่งเรามุ่งเน้นที่ทีมวิเคราะห์และ ML CoE ที่ใช้ผลิตภัณฑ์ข้อมูลร่วมกันโดย LoB ของธนาคารผู้บริโภคเพื่อสร้างแบบจำลองการคาดการณ์ความเสี่ยงด้านเครดิตโดยใช้บริการของ AWS เช่น Athena และ SageMaker

เกี่ยวกับผู้แต่ง

คาริม ฮัมมูดา เป็น Specialist Solutions Architect สำหรับ Analytics ที่ AWS ที่มีความหลงใหลในการรวมข้อมูล การวิเคราะห์ข้อมูล และ BI เขาทำงานร่วมกับลูกค้าของ AWS เพื่อออกแบบและสร้างโซลูชันการวิเคราะห์ที่สนับสนุนการเติบโตของธุรกิจ ในเวลาว่าง เขาชอบดูสารคดีทางทีวีและเล่นวิดีโอเกมกับลูกชายของเขา

ฮาซัน ปุณณวลา เป็นสถาปนิกอาวุโสโซลูชัน AI/ML ที่ AWS Hasan ช่วยลูกค้าในการออกแบบและปรับใช้แอปพลิเคชันการเรียนรู้ของเครื่องในการผลิตบน AWS เขามีประสบการณ์การทำงานมากกว่า 12 ปีในฐานะนักวิทยาศาสตร์ข้อมูล ผู้ปฏิบัติงานด้านแมชชีนเลิร์นนิง และนักพัฒนาซอฟต์แวร์ ในเวลาว่าง Hasan ชอบที่จะสำรวจธรรมชาติและใช้เวลากับเพื่อนและครอบครัว

เบอนัวต์ เดอ ปาตูล เป็นสถาปนิก AI/ML Specialist Solutions Architect ที่ AWS เขาช่วยลูกค้าด้วยการให้คำแนะนำและความช่วยเหลือด้านเทคนิคเพื่อสร้างโซลูชันที่เกี่ยวข้องกับ AI/ML โดยใช้ AWS ในเวลาว่าง เขาชอบเล่นเปียโนและใช้เวลากับเพื่อนฝูง

ประทับเวลา: กรกฎาคม 29, 2022กรกฎาคม 30, 2022

ประทับเวลา: Mar 10, 2022

สร้างและฝึกโมเดล ML โดยใช้สถาปัตยกรรม data mesh บน AWS: ตอนที่ 1

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโครงข่ายข้อมูล

กรณีใช้บริการทางการเงิน

เจาะลึกความต้องการด้านเทคนิค

ผู้บริโภคข้อมูล: Analytics และ ML CoE

ผู้ผลิตข้อมูล: ความเป็นเจ้าของโดเมน

การกำกับดูแลข้อมูล: ความสามารถในการค้นพบ การเข้าถึง และตรวจสอบได้

ภาพรวมโซลูชัน

ธนาคารเพื่อผู้บริโภค LoB (ผู้ผลิตข้อมูล)

การกำกับดูแลข้อมูล

เบื้องต้น

ปรับใช้สภาพแวดล้อมตาข่ายข้อมูล

บัญชีกลาง

บัญชีผู้ผลิต

บัญชีผู้บริโภค

เพิ่มฐานข้อมูลและสมัครบัญชีผู้บริโภคกับมัน

การลงทะเบียนผลิตภัณฑ์ข้อมูล

สรุป

เกี่ยวกับผู้แต่ง

เพิ่มเติมจาก AWS Machine Learning AWS

ใหม่ – ความสามารถ AI ที่สร้างแบบไม่ต้องใช้โค้ดพร้อมใช้งานแล้วใน Amazon SageMaker Canvas | อเมซอนเว็บเซอร์วิส

ปรับแต่งผลการค้นหาในแบบของคุณด้วยการผสานรวม Amazon Personalize และ Amazon OpenSearch Service | อเมซอนเว็บเซอร์วิส

การจัดการทีมและผู้ใช้ด้วย Amazon SageMaker และ AWS SSO

Earth.com และ Provectus ใช้งานโครงสร้างพื้นฐาน MLOps กับ Amazon SageMaker | ได้อย่างไร บริการเว็บอเมซอน

เร่งวงจรชีวิตการพัฒนาแชทบอทของ Amazon Lex ด้วย Test Workbench | บริการเว็บอเมซอน

สร้างเสียงสำหรับเนื้อหาในหลายภาษาด้วยบุคลิกเสียง TTS เดียวกันใน Amazon Polly

ลดความซับซ้อนในการเรียนรู้อย่างต่อเนื่องของโมเดลแบบกำหนดเองของ Amazon Comprehend โดยใช้ฟลายวีล Comprehend

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้