Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Xây dựng và đào tạo các mô hình ML bằng cách sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1

Các tổ chức trong nhiều ngành khác nhau đang sử dụng trí tuệ nhân tạo (AI) và máy học (ML) để giải quyết các thách thức kinh doanh cụ thể cho ngành của họ. Ví dụ: trong ngành dịch vụ tài chính, bạn có thể sử dụng AI và ML để giải quyết các thách thức xung quanh việc phát hiện gian lận, dự đoán rủi ro tín dụng, tiếp thị trực tiếp và nhiều vấn đề khác.

Các doanh nghiệp lớn đôi khi thành lập một trung tâm xuất sắc (CoE) để giải quyết nhu cầu của các ngành kinh doanh khác nhau (LoB) bằng các phân tích sáng tạo và các dự án ML.

Để tạo ra các mô hình ML chất lượng cao và hiệu quả trên quy mô lớn, họ cần thực hiện những việc sau:

  • Cung cấp một cách dễ dàng để truy cập dữ liệu có liên quan vào phân tích của họ và ML CoE
  • Tạo trách nhiệm giải trình cho các nhà cung cấp dữ liệu từ các LoB riêng lẻ để chia sẻ các tài sản dữ liệu được quản lý có thể khám phá, dễ hiểu, có thể tương tác và đáng tin cậy

Điều này có thể giảm thời gian chu kỳ dài để chuyển đổi các trường hợp sử dụng ML từ thử nghiệm sang sản xuất và tạo ra giá trị kinh doanh trong toàn tổ chức.

Kiến trúc lưới dữ liệu cố gắng giải quyết những thách thức về kỹ thuật và tổ chức này bằng cách giới thiệu cách tiếp cận kỹ thuật xã hội phi tập trung để chia sẻ, truy cập và quản lý dữ liệu trong các môi trường phức tạp và quy mô lớn — trong hoặc giữa các tổ chức. Mẫu thiết kế lưới dữ liệu tạo ra một mô hình chia sẻ dữ liệu có trách nhiệm phù hợp với sự phát triển của tổ chức để đạt được mục tiêu cuối cùng là tăng lợi tức đầu tư kinh doanh vào các nhóm dữ liệu, quy trình và công nghệ.

Trong loạt bài gồm hai phần này, chúng tôi cung cấp hướng dẫn về cách các tổ chức có thể xây dựng kiến ​​trúc dữ liệu hiện đại bằng cách sử dụng mẫu thiết kế lưới dữ liệu trên AWS và cho phép phân tích và ML CoE xây dựng và đào tạo mô hình ML với dữ liệu trên nhiều LoB. Chúng tôi sử dụng một ví dụ về một tổ chức dịch vụ tài chính để đặt bối cảnh và trường hợp sử dụng cho loạt bài này.

Trong bài đăng đầu tiên này, chúng tôi trình bày các quy trình thiết lập kiến ​​trúc lưới dữ liệu với nhiều tài khoản người tiêu dùng và nhà sản xuất dữ liệu AWS. Sau đó, chúng tôi tập trung vào một sản phẩm dữ liệu, thuộc sở hữu của một LoB trong tổ chức tài chính và cách nó có thể được chia sẻ vào môi trường lưới dữ liệu để cho phép các LoB khác tiêu thụ và sử dụng sản phẩm dữ liệu này. Điều này chủ yếu nhắm vào người quản lý dữ liệu, người chịu trách nhiệm hợp lý hóa và chuẩn hóa quy trình chia sẻ dữ liệu giữa người sản xuất dữ liệu và người tiêu dùng và đảm bảo tuân thủ các quy tắc quản lý dữ liệu.

Trong bài đăng thứ hai, chúng tôi đưa ra một ví dụ về cách phân tích và ML CoE có thể sử dụng sản phẩm dữ liệu cho trường hợp sử dụng dự đoán rủi ro. Điều này chủ yếu nhắm vào nhân vật nhà khoa học dữ liệu, người chịu trách nhiệm sử dụng cả tài sản dữ liệu của bên thứ ba và toàn tổ chức để xây dựng và đào tạo các mô hình ML trích xuất thông tin chi tiết về doanh nghiệp nhằm nâng cao trải nghiệm của khách hàng sử dụng dịch vụ tài chính.

Tổng quan về lưới dữ liệu

Người sáng lập mô hình lưới dữ liệu, Zhamak Dehghani trong cuốn sách của cô ấy Lưới dữ liệu cung cấp giá trị theo hướng dữ liệu trên quy mô, đã xác định bốn nguyên tắc hướng tới mục tiêu của lưới dữ liệu:

  • Quyền sở hữu miền được phân phối - Theo đuổi sự thay đổi tổ chức từ quyền sở hữu tập trung dữ liệu bởi các chuyên gia điều hành công nghệ nền tảng dữ liệu sang mô hình sở hữu dữ liệu phi tập trung, đẩy quyền sở hữu và trách nhiệm giải trình dữ liệu trở lại LoB nơi dữ liệu được sản xuất (miền căn chỉnh nguồn) hoặc tiêu thụ ( miền phù hợp với tiêu dùng).
  • Dữ liệu như một sản phẩm - Đẩy mạnh trách nhiệm giải trình của việc chia sẻ tài sản dữ liệu được quản lý, chất lượng cao, có thể tương tác và an toàn. Do đó, các nhà sản xuất dữ liệu từ các LoB khác nhau có trách nhiệm tạo dữ liệu ở dạng có thể tiêu thụ được ngay tại nguồn.
  • Phân tích tự phục vụ - Để hợp lý hóa trải nghiệm của người dùng dữ liệu của phân tích và ML để họ có thể khám phá, truy cập và sử dụng các sản phẩm dữ liệu bằng các công cụ ưa thích của họ. Ngoài ra, để hợp lý hóa trải nghiệm của các nhà cung cấp dữ liệu LoB để xây dựng, triển khai và duy trì các sản phẩm dữ liệu thông qua công thức nấu ăn và các thành phần và mẫu có thể tái sử dụng.
  • Quản trị máy tính liên bang - Liên kết và tự động hóa việc ra quyết định liên quan đến quản lý và kiểm soát quyền truy cập dữ liệu ở cấp độ chủ sở hữu dữ liệu từ các LoB khác nhau, điều này vẫn phù hợp với các chính sách pháp lý, tuân thủ và bảo mật của tổ chức rộng lớn hơn được thực thi thông qua lưới.

AWS đã giới thiệu tầm nhìn của mình về việc xây dựng lưới dữ liệu trên AWS trong các bài đăng khác nhau:

  • Đầu tiên, chúng tôi tập trung vào phần tổ chức liên quan đến quyền sở hữu miền phân tán và dữ liệu như một nguyên tắc sản phẩm. Các tác giả đã mô tả tầm nhìn của việc sắp xếp nhiều LOB trong tổ chức theo hướng chiến lược sản phẩm dữ liệu cung cấp cho các lĩnh vực phù hợp với tiêu dùng các công cụ để tìm và lấy dữ liệu họ cần, đồng thời đảm bảo sự kiểm soát cần thiết xung quanh việc sử dụng dữ liệu đó bằng cách đưa ra trách nhiệm giải trình miền căn chỉnh nguồn để cung cấp các sản phẩm dữ liệu sẵn sàng được sử dụng ngay tại nguồn. Để biết thêm thông tin, hãy tham khảo Cách JPMorgan Chase xây dựng kiến ​​trúc lưới dữ liệu để thúc đẩy giá trị đáng kể nhằm nâng cao nền tảng dữ liệu doanh nghiệp của họ.
  • Sau đó, chúng tôi tập trung vào phần kỹ thuật liên quan đến việc xây dựng sản phẩm dữ liệu, phân tích tự phục vụ và các nguyên tắc quản trị máy tính liên hợp. Các tác giả đã mô tả các dịch vụ AWS cốt lõi giúp trao quyền cho các miền phù hợp với nguồn xây dựng và chia sẻ các sản phẩm dữ liệu, nhiều loại dịch vụ có thể cho phép các miền phù hợp với người tiêu dùng sử dụng các sản phẩm dữ liệu theo những cách khác nhau dựa trên các công cụ ưa thích của họ và các trường hợp sử dụng. đang nỗ lực hướng tới và cuối cùng là các dịch vụ AWS chi phối quy trình chia sẻ dữ liệu bằng cách thực thi các chính sách truy cập dữ liệu. Để biết thêm thông tin, hãy tham khảo Thiết kế kiến ​​trúc lưới dữ liệu bằng AWS Lake Formation và AWS Glue.
  • Chúng tôi cũng cho thấy một giải pháp để tự động hóa việc khám phá dữ liệu và kiểm soát truy cập thông qua giao diện người dùng lưới dữ liệu tập trung. Để biết thêm chi tiết, hãy tham khảo Xây dựng quy trình chia sẻ dữ liệu với AWS Lake Formation cho lưới dữ liệu của bạn.

Trường hợp sử dụng dịch vụ tài chính

Thông thường, các tổ chức dịch vụ tài chính lớn có nhiều LoB, chẳng hạn như ngân hàng tiêu dùng, ngân hàng đầu tư và quản lý tài sản, đồng thời cũng có một hoặc nhiều nhóm phân tích và ML CoE. Mỗi LoB cung cấp các dịch vụ khác nhau:

  • Ngân hàng tiêu dùng LoB cung cấp nhiều dịch vụ khác nhau cho người tiêu dùng và doanh nghiệp, bao gồm tín dụng và thế chấp, quản lý tiền mặt, giải pháp thanh toán, sản phẩm tiền gửi và đầu tư, v.v.
  • Ngân hàng thương mại hoặc đầu tư LoB cung cấp các giải pháp tài chính toàn diện, chẳng hạn như cho vay, rủi ro phá sản và thanh toán bán buôn cho khách hàng, bao gồm các doanh nghiệp nhỏ, công ty quy mô vừa và các tập đoàn lớn
  • LoB quản lý tài sản cung cấp các sản phẩm hưu trí và dịch vụ đầu tư trên tất cả các loại tài sản

Mỗi LoB xác định các sản phẩm dữ liệu của riêng họ, được quản lý bởi những người hiểu dữ liệu và phù hợp nhất để chỉ định ai được phép sử dụng nó và cách nó có thể được sử dụng. Ngược lại, các LoB và miền ứng dụng khác như phân tích và ML CoE quan tâm đến việc khám phá và sử dụng các sản phẩm dữ liệu đủ điều kiện, kết hợp chúng với nhau để tạo ra thông tin chi tiết và đưa ra quyết định dựa trên dữ liệu.

Hình minh họa sau đây mô tả một số LoB và ví dụ về các sản phẩm dữ liệu mà chúng có thể chia sẻ. Nó cũng cho thấy những người tiêu dùng các sản phẩm dữ liệu như phân tích và ML CoE, những người xây dựng các mô hình ML có thể được triển khai cho các ứng dụng dành cho khách hàng để nâng cao hơn nữa trải nghiệm của khách hàng cuối.

Sau khái niệm kỹ thuật xã hội của lưới dữ liệu, chúng tôi bắt đầu với khía cạnh xã hội với một loạt các bước tổ chức, chẳng hạn như sau:

  • Sử dụng các chuyên gia miền để xác định ranh giới cho từng miền, do đó, mỗi sản phẩm dữ liệu có thể được ánh xạ tới một miền cụ thể
  • Xác định chủ sở hữu cho các sản phẩm dữ liệu được cung cấp từ mỗi miền, do đó, mỗi sản phẩm dữ liệu có một chiến lược do chủ sở hữu của chúng xác định
  • Xác định các chính sách quản trị từ các biện pháp khuyến khích toàn cầu và địa phương hoặc liên kết, vì vậy khi người tiêu dùng dữ liệu truy cập vào một sản phẩm dữ liệu cụ thể, chính sách truy cập được liên kết với sản phẩm có thể được thực thi tự động thông qua lớp quản trị dữ liệu trung tâm

Sau đó, chúng tôi chuyển sang khía cạnh kỹ thuật, bao gồm kịch bản end-to-end sau đây được xác định trong sơ đồ trước:

  1. Trao quyền cho LoB ngân hàng tiêu dùng với các công cụ để xây dựng sản phẩm dữ liệu hồ sơ tín dụng tiêu dùng sẵn sàng sử dụng.
  2. Cho phép LoB ngân hàng tiêu dùng chia sẻ các sản phẩm dữ liệu vào lớp quản trị trung tâm.
  3. Nhúng các định nghĩa liên kết và toàn cầu về các chính sách truy cập dữ liệu cần được thực thi trong khi truy cập sản phẩm dữ liệu hồ sơ tín dụng tiêu dùng thông qua quản trị dữ liệu trung tâm.
  4. Cho phép phân tích và ML CoE khám phá và truy cập sản phẩm dữ liệu thông qua lớp quản trị trung tâm.
  5. Trao quyền cho bộ phận phân tích và ML CoE bằng các công cụ sử dụng sản phẩm dữ liệu để xây dựng và đào tạo mô hình dự báo rủi ro tín dụng. Chúng tôi không đề cập đến các bước cuối cùng (6 và 7 trong sơ đồ trước) trong loạt bài này. Tuy nhiên, để cho thấy giá trị kinh doanh mà một mô hình ML như vậy có thể mang lại cho tổ chức trong một kịch bản end-to-end, chúng tôi minh họa như sau:
  6. Mô hình này sau đó có thể được triển khai trở lại các hệ thống hướng tới khách hàng như cổng thông tin điện tử ngân hàng tiêu dùng hoặc ứng dụng di động.
  7. Nó có thể được sử dụng cụ thể trong đơn xin vay để đánh giá hồ sơ rủi ro của các yêu cầu tín dụng và thế chấp.

Tiếp theo, chúng tôi mô tả nhu cầu kỹ thuật của từng thành phần.

Đi sâu vào nhu cầu kỹ thuật

Để cung cấp các sản phẩm dữ liệu cho tất cả mọi người, các tổ chức cần giúp dễ dàng chia sẻ dữ liệu giữa các thực thể khác nhau trong tổ chức trong khi vẫn duy trì quyền kiểm soát thích hợp đối với sản phẩm đó, hay nói cách khác, để cân bằng giữa sự linh hoạt với quản trị phù hợp.

Người tiêu dùng dữ liệu: Analytics và ML CoE

Những người tiêu dùng dữ liệu như các nhà khoa học dữ liệu từ phân tích và ML CoE cần có khả năng làm những việc sau:

  • Khám phá và truy cập các tập dữ liệu có liên quan cho một trường hợp sử dụng nhất định
  • Hãy tự tin rằng các tập dữ liệu mà họ muốn truy cập đã được sắp xếp, cập nhật và có các mô tả mạnh mẽ
  • Yêu cầu quyền truy cập vào tập dữ liệu quan tâm đến các trường hợp kinh doanh của họ
  • Sử dụng các công cụ ưa thích của họ để truy vấn và xử lý các tập dữ liệu đó trong môi trường của họ cho ML mà không cần sao chép dữ liệu từ vị trí từ xa ban đầu hoặc vì lo lắng về sự phức tạp về kỹ thuật hoặc cơ sở hạ tầng liên quan đến việc xử lý dữ liệu được lưu trữ vật lý trong một trang web từ xa
  • Nhận thông báo về bất kỳ cập nhật dữ liệu nào do chủ sở hữu dữ liệu thực hiện

Nhà sản xuất dữ liệu: Quyền sở hữu miền

Các nhà sản xuất dữ liệu, chẳng hạn như các nhóm miền từ các LoB khác nhau trong tổ chức dịch vụ tài chính, cần đăng ký và chia sẻ các tập dữ liệu được quản lý có chứa những điều sau:

  • Siêu dữ liệu kỹ thuật và hoạt động, chẳng hạn như tên và kích thước cơ sở dữ liệu và bảng, lược đồ cột và khóa
  • Siêu dữ liệu kinh doanh như mô tả dữ liệu, phân loại và độ nhạy
  • Theo dõi siêu dữ liệu, chẳng hạn như sự tiến hóa của lược đồ từ nguồn sang biểu mẫu đích và bất kỳ biểu mẫu trung gian nào
  • Siêu dữ liệu chất lượng dữ liệu chẳng hạn như tỷ lệ đúng và đầy đủ và độ lệch dữ liệu
  • Các chính sách và thủ tục truy cập

Những điều này là cần thiết để cho phép người tiêu dùng dữ liệu khám phá và truy cập dữ liệu mà không cần dựa vào các quy trình thủ công hoặc phải liên hệ với các chuyên gia miền của sản phẩm dữ liệu để có thêm kiến ​​thức về ý nghĩa của dữ liệu và cách có thể truy cập dữ liệu đó.

Quản trị dữ liệu: Khả năng khám phá, khả năng truy cập và khả năng kiểm tra

Các tổ chức cần phải cân bằng giữa các tính năng được minh họa trước đó với việc giảm thiểu các rủi ro liên quan đến rò rỉ dữ liệu một cách thích hợp. Đặc biệt trong các ngành được quản lý như dịch vụ tài chính, cần phải duy trì quản trị dữ liệu trung tâm để cung cấp quyền truy cập dữ liệu tổng thể và kiểm soát kiểm toán đồng thời giảm dung lượng lưu trữ bằng cách tránh nhiều bản sao của cùng một dữ liệu trên các địa điểm khác nhau.

Trong kiến ​​trúc hồ dữ liệu tập trung truyền thống, nhà sản xuất dữ liệu thường xuất bản dữ liệu thô và chuyển trách nhiệm quản lý dữ liệu, quản lý chất lượng dữ liệu và kiểm soát truy cập cho các kỹ sư cơ sở hạ tầng và dữ liệu trong nhóm nền tảng dữ liệu tập trung. Tuy nhiên, các nhóm nền tảng dữ liệu này có thể ít quen thuộc với các miền dữ liệu khác nhau và vẫn dựa vào sự hỗ trợ từ nhà sản xuất dữ liệu để có thể quản lý và chi phối quyền truy cập vào dữ liệu theo các chính sách được thực thi tại mỗi miền dữ liệu. Ngược lại, bản thân nhà sản xuất dữ liệu có vị trí tốt nhất để cung cấp nội dung dữ liệu đủ điều kiện, được quản lý và nhận thức được các chính sách truy cập dành riêng cho miền cần được thực thi khi truy cập nội dung dữ liệu.

Tổng quan về giải pháp

Sơ đồ sau đây cho thấy kiến ​​trúc cấp cao của giải pháp được đề xuất.

Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Chúng tôi giải quyết việc tiêu thụ dữ liệu bằng phân tích và ML CoE với amazon AthenaAmazon SageMaker in phần 2 của loạt bài này.

Trong bài đăng này, chúng tôi tập trung vào quá trình tích hợp dữ liệu vào lưới dữ liệu và mô tả cách một LoB cá nhân, chẳng hạn như nhóm dữ liệu miền ngân hàng tiêu dùng có thể sử dụng các công cụ AWS, chẳng hạn như Keo AWSAWS Keo DataBrew chuẩn bị, quản lý và nâng cao chất lượng các sản phẩm dữ liệu của họ và sau đó đăng ký các sản phẩm dữ liệu đó vào tài khoản quản trị dữ liệu trung tâm thông qua Sự hình thành hồ AWS.

Ngân hàng tiêu dùng LoB (nhà sản xuất dữ liệu)

Một trong những nguyên tắc cốt lõi của lưới dữ liệu là khái niệm dữ liệu như một sản phẩm. Điều rất quan trọng là nhóm dữ liệu miền ngân hàng tiêu dùng làm việc để chuẩn bị các sản phẩm dữ liệu sẵn sàng cho người tiêu dùng dữ liệu sử dụng. Điều này có thể được thực hiện bằng cách sử dụng các công cụ trích xuất, chuyển đổi và tải (ETL) AWS như AWS Glue để xử lý dữ liệu thô được thu thập trên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), hoặc kết nối với các cửa hàng dữ liệu hoạt động nơi dữ liệu được sản xuất. Bạn cũng có thể dùng dữ liệubrew, là một công cụ chuẩn bị dữ liệu trực quan không cần mã giúp dễ dàng làm sạch và chuẩn hóa dữ liệu.

Ví dụ: trong khi chuẩn bị sản phẩm dữ liệu hồ sơ tín dụng tiêu dùng, nhóm dữ liệu miền ngân hàng tiêu dùng có thể thực hiện một phép đơn giản để dịch từ tiếng Đức sang tiếng Anh các tên thuộc tính của dữ liệu thô được truy xuất từ ​​tập dữ liệu nguồn mở Dữ liệu tín dụng của Statlog Đức, bao gồm 20 thuộc tính và 1,000 hàng.

Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Quản trị dữ liệu

Dịch vụ AWS cốt lõi để cho phép quản trị lưới dữ liệu là Lake Formation. Lake Formation cung cấp khả năng thực thi quản trị dữ liệu trong từng miền dữ liệu và trên các miền để đảm bảo dữ liệu có thể dễ dàng phát hiện và an toàn. Nó cung cấp một mô hình bảo mật liên hợp có thể được quản lý tập trung, với các phương pháp hay nhất để khám phá, bảo mật và tuân thủ dữ liệu, đồng thời cho phép tính linh hoạt cao trong mỗi miền.

Lake Formation cung cấp một API để đơn giản hóa cách dữ liệu được nhập, lưu trữ và quản lý, cùng với bảo mật cấp hàng để bảo vệ dữ liệu của bạn. Nó cũng cung cấp các chức năng như kiểm soát truy cập chi tiết, bảng được quản lý và tối ưu hóa lưu trữ.

Ngoài ra, Lake Formations cung cấp một API chia sẻ dữ liệu mà bạn có thể sử dụng để chia sẻ dữ liệu trên các tài khoản khác nhau. Điều này cho phép phân tích và người tiêu dùng ML CoE chạy các truy vấn Athena truy vấn và kết hợp các bảng trên nhiều tài khoản. Để biết thêm thông tin, hãy tham khảo Hướng dẫn dành cho nhà phát triển AWS Lake Formation.

Trình quản lý truy cập tài nguyên AWS (AWS RAM) cung cấp một cách an toàn để chia sẻ tài nguyên qua Trình quản lý truy cập và nhận dạng AWS (IAM) vai trò và người dùng trên các tài khoản AWS trong một tổ chức hoặc các đơn vị tổ chức (OU) trong Tổ chức AWS.

Lake Formation cùng với AWS RAM cung cấp một cách để quản lý việc chia sẻ và truy cập dữ liệu trên các tài khoản AWS. Chúng tôi gọi cách tiếp cận này là Kiểm soát truy cập dựa trên RAM. Để biết thêm chi tiết về cách tiếp cận này, hãy tham khảo Xây dựng quy trình chia sẻ dữ liệu với AWS Lake Formation cho lưới dữ liệu của bạn.

Lake Formation cũng cung cấp một cách khác để quản lý việc chia sẻ và truy cập dữ liệu bằng cách sử dụng Thẻ hình thành hồ. Chúng tôi gọi cách tiếp cận này là kiểm soát truy cập dựa trên thẻ. Để biết thêm chi tiết, hãy tham khảo Xây dựng cấu trúc dữ liệu hiện đại và mẫu lưới dữ liệu trên quy mô lớn bằng cách sử dụng kiểm soát truy cập dựa trên thẻ AWS Lake Formation.

Trong suốt bài đăng này, chúng tôi sử dụng phương pháp kiểm soát truy cập dựa trên thẻ vì nó đơn giản hóa việc tạo các chính sách trên một số lượng nhỏ hơn các thẻ logic thường thấy trong các LoB khác nhau thay vì chỉ định các chính sách trên các tài nguyên được đặt tên ở cấp cơ sở hạ tầng.

Điều kiện tiên quyết

Để thiết lập kiến ​​trúc lưới dữ liệu, bạn cần có ít nhất ba tài khoản AWS: tài khoản nhà sản xuất, tài khoản trung tâm và tài khoản người tiêu dùng.

Triển khai môi trường lưới dữ liệu

Để triển khai môi trường lưới dữ liệu, bạn có thể sử dụng cách sau Kho GitHub. Kho lưu trữ này chứa ba Hình thành đám mây AWS các mẫu triển khai môi trường lưới dữ liệu bao gồm từng tài khoản (nhà sản xuất, trung tâm và người tiêu dùng). Trong mỗi tài khoản, bạn có thể chạy mẫu CloudFormation tương ứng của nó.

Tài khoản trung tâm

Trong tài khoản trung tâm, hãy hoàn thành các bước sau:

  1. Khởi chạy ngăn xếp CloudFormation:
    Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.
  2. Tạo hai người dùng IAM:
    1. DataMeshOwner
    2. ProducerSteward
  3. Cấp DataMeshOwner với tư cách là quản trị viên của Lake Formation.
  4. Tạo một vai trò IAM:
    1. LFRegisterLocationServiceRole
  5. Tạo hai chính sách IAM:
    1. ProducerStewardPolicy
    2. S3DataLakePolicy
  6. Tạo cơ sở dữ liệu thẻ tín dụng cho ProducerSteward tại tài khoản nhà sản xuất.
  7. Chia sẻ quyền vị trí dữ liệu với tài khoản nhà sản xuất.

Tài khoản nhà sản xuất

Trong tài khoản nhà sản xuất, hãy hoàn thành các bước sau:

  1. Khởi chạy ngăn xếp CloudFormation:
    Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.
  2. Tạo nhóm S3 credit-card, giữ cái bàn credit_card.
  3. Cho phép truy cập nhóm S3 cho vai trò dịch vụ Lake Formation của tài khoản trung tâm.
  4. Tạo trình thu thập thông tin AWS Glue creditCrawler-<ProducerAccountID>.
  5. Tạo vai trò dịch vụ trình thu thập thông tin AWS Glue.
  6. Cấp quyền đối với vị trí nhóm S3 credit-card-<ProducerAccountID>-<aws-region> vào vai trò trình thu thập thông tin AWS Glue.
  7. Tạo người dùng IAM quản lý nhà sản xuất.

Tài khoản người tiêu dùng

Trong tài khoản người tiêu dùng, hãy hoàn thành các bước sau:

  1. Khởi chạy ngăn xếp CloudFormation:
    Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.
  2. Tạo nhóm S3 <AWS Account ID>-<aws-region>-athena-logs.
  3. Tạo nhóm làm việc Athena consumer-workgroup.
  4. Tạo người dùng IAM ConsumerAdmin.

Thêm cơ sở dữ liệu và đăng ký tài khoản người tiêu dùng vào đó

Sau khi chạy các mẫu, bạn có thể đi qua step-by-step hướng dẫn để thêm một sản phẩm vào danh mục dữ liệu và khiến người tiêu dùng đăng ký sản phẩm đó. Hướng dẫn bắt đầu bằng cách thiết lập cơ sở dữ liệu nơi nhà sản xuất có thể đặt sản phẩm của mình và sau đó giải thích cách người tiêu dùng có thể đăng ký vào cơ sở dữ liệu đó và truy cập dữ liệu. Tất cả điều này được thực hiện trong khi sử dụng Thẻ LF, đó là kiểm soát truy cập dựa trên thẻ đối với Hồ hình thành.

Đăng ký sản phẩm dữ liệu

Kiến trúc sau đây mô tả các bước chi tiết về cách nhóm LoB ngân hàng tiêu dùng đóng vai trò là nhà sản xuất dữ liệu có thể đăng ký sản phẩm dữ liệu của họ trong tài khoản quản trị dữ liệu trung tâm (tích hợp sản phẩm dữ liệu vào lưới dữ liệu của tổ chức).

Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Các bước chung để đăng ký một sản phẩm dữ liệu như sau:

  1. Tạo cơ sở dữ liệu đích cho sản phẩm dữ liệu trong tài khoản quản trị trung tâm. Ví dụ: mẫu CloudFormation từ tài khoản trung tâm đã tạo cơ sở dữ liệu đích credit-card.
  2. Chia sẻ cơ sở dữ liệu đích đã tạo với nguồn gốc trong tài khoản nhà sản xuất.
  3. Tạo liên kết tài nguyên của cơ sở dữ liệu được chia sẻ trong tài khoản nhà sản xuất. Trong ảnh chụp màn hình sau, chúng tôi thấy trên bảng điều khiển Lake Formation trong tài khoản nhà sản xuất rl_credit-card là liên kết tài nguyên của credit-card cơ sở dữ liệu.
    Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.
  4. Điền các bảng (với dữ liệu được sắp xếp trong tài khoản nhà sản xuất) bên trong cơ sở dữ liệu liên kết tài nguyên (rl_credit-card) bằng cách sử dụng trình thu thập AWS Glue trong tài khoản nhà sản xuất.
    Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Bảng đã tạo sẽ tự động xuất hiện trong tài khoản quản trị trung tâm. Ảnh chụp màn hình sau đây cho thấy một ví dụ về bảng trong Lake Formation trong tài khoản trung tâm. Đây là sau khi thực hiện các bước trước đó để điền cơ sở dữ liệu liên kết tài nguyên rl_credit-card trong tài khoản nhà sản xuất.

Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Kết luận

Trong phần 1 của loạt bài này, chúng ta đã thảo luận về mục tiêu của các tổ chức dịch vụ tài chính nhằm đạt được sự linh hoạt hơn cho nhóm phân tích và ML của họ và giảm thời gian từ dữ liệu đến thông tin chi tiết. Chúng tôi cũng tập trung vào việc xây dựng kiến ​​trúc lưới dữ liệu trên AWS, nơi chúng tôi đã giới thiệu các dịch vụ AWS dễ sử dụng, có thể mở rộng và tiết kiệm chi phí như AWS Glue, DataBrew và Lake Formation. Các nhóm sản xuất dữ liệu có thể sử dụng các dịch vụ này để xây dựng và chia sẻ các sản phẩm dữ liệu được quản lý, chất lượng cao, có thể tương tác và bảo mật, sẵn sàng sử dụng cho những người tiêu dùng dữ liệu khác nhau cho các mục đích phân tích.

In phần 2, chúng tôi tập trung vào nhóm phân tích và ML CoE, những người sử dụng các sản phẩm dữ liệu được chia sẻ bởi LoB ngân hàng tiêu dùng để xây dựng mô hình dự đoán rủi ro tín dụng bằng cách sử dụng các dịch vụ AWS như Athena và SageMaker.


Giới thiệu về tác giả

Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.Karim Hammouda là Kiến trúc sư Giải pháp Chuyên gia về Phân tích tại AWS với niềm đam mê tích hợp dữ liệu, phân tích dữ liệu và BI. Anh ấy làm việc với các khách hàng của AWS để thiết kế và xây dựng các giải pháp phân tích đóng góp vào sự phát triển kinh doanh của họ. Khi rảnh rỗi, anh ấy thích xem phim tài liệu TV và chơi trò chơi điện tử với con trai.

Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.Hasan Poonawala là Kiến trúc sư Giải pháp Chuyên gia về AI / ML Cấp cao tại AWS, Hasan giúp khách hàng thiết kế và triển khai các ứng dụng học máy trong sản xuất trên AWS. Anh ấy có hơn 12 năm kinh nghiệm làm việc với tư cách là nhà khoa học dữ liệu, người thực hành máy học và nhà phát triển phần mềm. Khi rảnh rỗi, Hasan thích khám phá thiên nhiên và dành thời gian cho bạn bè và gia đình.

Xây dựng và huấn luyện các mô hình ML sử dụng kiến ​​trúc lưới dữ liệu trên AWS: Phần 1 Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.Benoit de Patoul là Kiến trúc sư Giải pháp Chuyên gia về AI / ML tại AWS. Anh ấy giúp đỡ khách hàng bằng cách cung cấp hướng dẫn và hỗ trợ kỹ thuật để xây dựng các giải pháp liên quan đến AI / ML bằng AWS. Khi rảnh rỗi, anh ấy thích chơi piano và dành thời gian cho bạn bè.

Dấu thời gian:

Thêm từ Học máy AWS