AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。

AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1

さまざまな業界の組織が、人工知能 (AI) と機械学習 (ML) を使用して、業界固有のビジネス上の課題を解決しています。 たとえば、金融サービス業界では、AI と ML を使用して、不正行為の検出、信用リスクの予測、ダイレクト マーケティング、その他多くの課題を解決できます。

大企業では、センター オブ エクセレンス (CoE) を設立して、革新的な分析と ML プロジェクトでさまざまな事業部門 (LoB) のニーズに取り組むことがあります。

高品質でパフォーマンスの高い ML モデルを大規模に生成するには、次のことを行う必要があります。

  • 分析および ML CoE に関連するデータにアクセスする簡単な方法を提供する
  • 個々の LoB のデータ プロバイダーに責任を負わせて、発見可能、理解可能、相互運用可能、信頼できる精選されたデータ資産を共有する

これにより、ML ユースケースを実験から本番環境に変換するための長いサイクル時間を短縮し、組織全体でビジネス価値を生み出すことができます。

データ メッシュ アーキテクチャは、複雑で大規模な環境 (組織内または組織間) でデータを共有、アクセス、および管理するための分散化された社会技術的アプローチを導入することにより、これらの技術的および組織的な課題を解決しようとします。 データ メッシュ設計パターンは、データ チーム、プロセス、およびテクノロジにおけるビジネス投資の収益を増やすという最終的な目標を達成するために、組織の成長に合わせた責任あるデータ共有モデルを作成します。

この XNUMX 部構成のシリーズでは、組織が AWS でデータ メッシュ デザイン パターンを使用して最新のデータ アーキテクチャを構築し、分析と ML CoE が複数の LoB にわたるデータを使用して ML モデルを構築およびトレーニングできるようにする方法についてのガイダンスを提供します。 金融サービス組織の例を使用して、このシリーズのコンテキストとユース ケースを設定します。

この最初の投稿では、複数の AWS データ プロデューサーおよびコンシューマー アカウントを使用してデータ メッシュ アーキテクチャをセットアップする手順を示します。 次に、金融組織内の XNUMX つの LoB が所有する XNUMX つのデータ製品と、それをデータ メッシュ環境で共有して、他の LoB がこのデータ製品を消費および使用できるようにする方法に焦点を当てます。 これは主に、データ プロデューサーとコンシューマーの間でデータを共有するプロセスの合理化と標準化、およびデータ ガバナンス ルールへの準拠の確保を担当するデータ スチュワード ペルソナを対象としています。

XNUMX つ目の投稿では、分析と ML CoE がリスク予測のユース ケースでデータ プロダクトを使用する方法の一例を示します。 これは主にデータ サイエンティスト ペルソナを対象としています。データ サイエンティストは、組織全体のデータ資産とサードパーティのデータ資産の両方を利用して、ビジネス インサイトを抽出し、金融サービスの顧客のエクスペリエンスを向上させる ML モデルを構築およびトレーニングする責任があります。

データ メッシュの概要

データ メッシュ パターンの創始者である Zhamak Dehghani の著書 データドリブンの価値を大規模に提供するデータ メッシュは、データ メッシュの目的に向けて XNUMX つの原則を定義しました。

  • ドメイン所有権の分散 – データ プラットフォーム テクノロジを実行する専門家による集中型のデータ所有権から分散型データ所有モデルへの組織的移行を追求し、データの所有権と説明責任を、データが生成される (ソースに合わせたドメイン) または消費される LoB に押し戻す (消費に合わせたドメイン)。
  • 製品としてのデータ – 精選された、高品質で、相互運用可能で、安全なデータ資産を共有する責任を上流に押し上げる。 したがって、さまざまな LoB のデータ プロデューサーは、ソースで消費可能な形式でデータを作成する責任があります。
  • セルフサービス分析 – 分析と ML のデータ ユーザーのエクスペリエンスを合理化して、好みのツールでデータ製品を発見、アクセス、使用できるようにする。 さらに、LoB データ プロバイダーのエクスペリエンスを合理化し、レシピと再利用可能なコンポーネントとテンプレートを介してデータ プロダクトを構築、デプロイ、および維持します。
  • 連合計算ガバナンス – データ アクセスの管理と制御に関連する意思決定を統合および自動化して、さまざまな LoB のデータ所有者のレベルになるようにする。メッシュ。

AWS は、さまざまな投稿で AWS 上にデータ メッシュを構築するというビジョンを紹介しました。

  • まず、製品の原則として、分散ドメインの所有権とデータに関連する組織の部分に焦点を当てました。 著者は、組織全体の複数の LOB をデータ製品戦略に向けて調整するというビジョンを説明しました。これは、消費に合わせたドメインに、必要なデータを見つけて取得するためのツールを提供し、そのデータの使用に関する必要な制御を保証するための説明責任を導入することによって保証します。ソースに合わせたドメインを使用して、ソースですぐに使用できるデータ製品を提供します。 詳細については、次を参照してください。 JPモルガン・チェースがデータ メッシュ アーキテクチャを構築して大きな価値を生み出し、エンタープライズ データ プラットフォームを強化した方法.
  • 次に、データ製品の構築、セルフサービス分析、フェデレーテッド コンピューティング ガバナンスの原則に関連する技術的な部分に焦点を当てました。 著者は、ソースに合わせたドメインがデータ製品を構築および共有できるようにするコア AWS サービス、消費者に合わせたドメインが好みのツールとユースケースに基づいてさまざまな方法でデータ製品を消費できるようにするさまざまなサービスについて説明しました。データ アクセス ポリシーを適用することでデータ共有手順を管理する AWS サービスに向けて取り組んでいます。 詳細については、次を参照してください。 AWS Lake Formation と AWS Glue を使用してデータ メッシュ アーキテクチャを設計する.
  • また、一元化されたデータ メッシュ UI を介してデータ検出とアクセス制御を自動化するソリューションも示しました。 詳細については、を参照してください。 データメッシュ用にAWSLakeFormationを使用してデータ共有ワークフローを構築します.

金融サービスのユースケース

通常、大規模な金融サービス組織には、コンシューマー バンキング、投資銀行、資産管理などの複数の LoB と、XNUMX つ以上の分析および ML CoE チームがあります。 各 LoB はさまざまなサービスを提供します。

  • コンシューマー バンキング LoB は、消費者と企業に、クレジットと住宅ローン、現金管理、支払いソリューション、預金と投資商品など、さまざまなサービスを提供します。
  • コマーシャルまたはインベストメント バンキングの LoB は、中小企業、中規模企業、大企業を含むクライアントへの融資、倒産リスク、ホールセール支払いなどの包括的な金融ソリューションを提供します。
  • 資産管理 LoB は、すべての資産クラスにわたって退職金商品と投資サービスを提供します。

各 LoB は独自のデータ プロダクトを定義します。これらのデータ プロダクトは、データを理解し、誰がデータを使用する権限を与えられているか、およびどのように使用できるかを指定するのに最適な人々によってキュレーションされます。 対照的に、分析や ML CoE などの他の LoB やアプリケーション ドメインは、適格なデータ製品を発見して消費し、それらを組み合わせて洞察を生成し、データ主導の意思決定を行うことに関心があります。

次の図は、いくつかの LoB と、それらが共有できるデータ製品の例を示しています。 また、分析や ML CoE などのデータ製品の消費者も示しています。これらは、エンド カスタマーのエクスペリエンスをさらに強化するために、顧客向けアプリケーションに展開できる ML モデルを構築します。

データ メッシュの社会技術的概念に従い、次のような一連の組織的な手順で社会的側面から始めます。

  • ドメインの専門家を利用して各ドメインの境界を定義し、各データ製品を特定のドメインにマッピングできるようにする
  • 各ドメインから提供されたデータ プロダクトの所有者を特定し、各データ プロダクトが所有者によって定義された戦略を持つようにする
  • グローバルおよびローカルまたはフェデレーション インセンティブからガバナンス ポリシーを特定することで、データ コンシューマーが特定のデータ製品にアクセスすると、その製品に関連付けられたアクセス ポリシーが中央のデータ ガバナンス レイヤーを通じて自動的に適用されます。

次に、前の図で定義された次のエンド ツー エンドのシナリオを含む技術的な側面に移ります。

  1. すぐに使用できる消費者信用プロファイル データ製品を構築するためのツールを使用して、消費者銀行部門を強化します。
  2. コンシューマー バンキングの LoB がデータ製品を中央のガバナンス レイヤーに共有できるようにします。
  3. 中央データ ガバナンスを介して消費者信用プロファイル データ製品にアクセスする際に実施する必要があるデータ アクセス ポリシーのグローバルおよびフェデレーション定義を埋め込みます。
  4. 分析と ML CoE が、中央のガバナンス レイヤーを介してデータ製品を検出してアクセスできるようにします。
  5. データ プロダクトを利用して信用リスク予測モデルを構築およびトレーニングするためのツールを使用して、分析と ML CoE を強化します。 ただし、このような ML モデルがエンドツーエンドのシナリオで組織にもたらすビジネス価値を示すために、次の図を示します。
  6. このモデルは、後で消費者向け銀行の Web ポータルやモバイル アプリケーションなどの顧客向けシステムに展開することができます。
  7. これは、融資申請の中で特に使用して、信用および住宅ローンの申請のリスク プロファイルを評価できます。

次に、各コンポーネントの技術的なニーズについて説明します。

技術的なニーズを深く掘り下げる

すべての人がデータ製品を利用できるようにするために、組織は、適切な制御を維持しながら、組織全体のさまざまなエンティティ間でデータを簡単に共有できるようにする必要があります。つまり、俊敏性と適切なガバナンスのバランスを取る必要があります。

データ コンシューマー: 分析と ML CoE

分析や ML CoE のデータ サイエンティストなどのデータ コンシューマーは、次のことができる必要があります。

  • 特定のユースケースに関連するデータセットを見つけてアクセスする
  • 彼らがアクセスしたいデータセットがすでに精選され、最新であり、しっかりとした説明を持っていることを確信してください。
  • ビジネス ケースに関心のあるデータセットへのアクセスを要求する
  • 元のリモート ロケーションからデータを複製したり、リモート サイトに物理的に保存されたデータの処理に関連するエンジニアリングやインフラストラクチャの複雑さを心配したりする必要なく、好みのツールを使用して ML の環境内でそのようなデータセットをクエリおよび処理します。
  • データ所有者によるデータ更新の通知を受け取る

データ プロデューサー: ドメインの所有権

金融サービス組織のさまざまな LoB のドメイン チームなどのデータ プロデューサーは、以下を含む精選されたデータセットを登録して共有する必要があります。

  • データベースとテーブルの名前とサイズ、列スキーマ、キーなどの技術的および運用上のメタデータ
  • データの説明、分類、機密性などのビジネス メタデータ
  • ソースからターゲット フォームおよび中間フォームへのスキーマ進化などのメタデータの追跡
  • 正確性と完全性の比率、データの偏りなどのデータ品質メタデータ
  • アクセス ポリシーと手順

これらは、データの消費者が手動の手順に頼ったり、データの意味やアクセス方法についてより多くの知識を得るためにデータ製品のドメインの専門家に連絡したりすることなく、データを発見してアクセスできるようにするために必要です。

データ ガバナンス: 検出可能性、アクセシビリティ、および監査可能性

組織は、前述のアジリティと、データ漏洩に関連するリスクの適切な軽減とのバランスを取る必要があります。 特に金融サービスのような規制の厳しい業界では、中央のデータ ガバナンスを維持して全体的なデータ アクセスと監査制御を提供すると同時に、異なる場所に同じデータの複数のコピーを作成することを回避してストレージのフットプリントを削減する必要があります。

従来の集中型データ レイク アーキテクチャでは、データ プロデューサーが生データを公開し、データ キュレーション、データ品質管理、およびアクセス制御の責任を、集中型データ プラットフォーム チームのデータおよびインフラストラクチャ エンジニアに引き渡すことがよくあります。 ただし、これらのデータ プラットフォーム チームは、さまざまなデータ ドメインにあまり詳しくない可能性があり、データ プロデューサーからのサポートに依存して、各データ ドメインで適用されるポリシーに従ってデータへのアクセスを適切にキュレートおよび管理できるようにします。 対照的に、データ プロデューサー自身は、厳選された適格なデータ資産を提供するのに最適な立場にあり、データ資産にアクセスする際に実施する必要があるドメイン固有のアクセス ポリシーを認識しています。

ソリューションの概要

次の図は、提案されたソリューションのアーキテクチャの概要を示しています。

AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。

分析と ML CoE によるデータ消費に対処します。 アマゾンアテナ & アマゾンセージメーカー in 一部2 このシリーズの。

この投稿では、データ メッシュへのデータ オンボーディング プロセスに焦点を当て、消費者銀行ドメイン データ チームなどの個々の LoB が次のような AWS ツールを使用する方法について説明します。 AWSグルー & AWS グルー DataBrew データ製品の品質を準備、キュレート、強化し、それらのデータ製品を中央のデータ ガバナンス アカウントに登録します。 AWSレイクフォーメーション.

コンシューマー バンキングの LoB (データ プロデューサー)

データ メッシュの中核となる原則の XNUMX つは、製品としてのデータの概念です。 コンシューマー バンキング ドメインのデータ チームが、データ コンシューマーがすぐに使用できるデータ製品の準備に取り組むことは非常に重要です。 これは、AWS Glue などの AWS 抽出、変換、ロード (ETL) ツールを使用して、収集された生データを処理することで実行できます。 Amazon シンプル ストレージ サービス (Amazon S3)、またはデータが生成されるオペレーショナル データ ストアに接続します。 使用することもできます データブリューは、データのクリーニングと正規化を容易にするコード不要のビジュアル データ準備ツールです。

たとえば、消費者信用プロファイル データ製品を準備している間、消費者銀行ドメイン データ チームは、オープンソース データセットから取得した生データの属性名をドイツ語から英語に翻訳するための簡単なキュレーションを作成できます。 Statlog ドイツの信用データ、20 の属性と 1,000 行で構成されます。

AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。

データガバナンス

データ メッシュ ガバナンスを有効にする AWS のコア サービスは、Lake Formation です。 Lake Formation は、各データ ドメイン内およびドメイン間でデータ ガバナンスを実施する機能を提供し、データを簡単に検出して安全に保つことができます。 各ドメイン内で高い俊敏性を実現しながら、データ検出、セキュリティ、およびコンプライアンスのベスト プラクティスを使用して、一元的に管理できるフェデレーション セキュリティ モデルを提供します。

Lake Formation は、データを保護するための行レベルのセキュリティと共に、データの取り込み、保存、および管理を簡素化する API を提供します。 また、きめ細かなアクセス制御、管理されたテーブル、ストレージの最適化などの機能も提供します。

さらに、Lake Formations は、 データ共有 API データの共有に使用できる 異なるアカウント間で. これにより、分析および ML CoE コンシューマーは、複数のアカウントにわたってテーブルをクエリおよび結合する Athena クエリを実行できます。 詳細については、 AWS Lake Formation 開発者ガイド.

AWS リソース アクセス マネージャー (AWS RAM) は、リソースを安全に共有する方法を提供します。 AWS ID とアクセス マネージャー (IAM) 組織または組織単位 (OU) 内の AWS アカウント全体のロールとユーザー AWS 組織。

Lake Formation と AWS RAM を組み合わせることで、AWS アカウント全体でデータ共有とアクセスを管理する XNUMX つの方法が提供されます。 このアプローチを RAM ベースのアクセス制御. このアプローチの詳細については、次を参照してください。 データメッシュ用にAWSLakeFormationを使用してデータ共有ワークフローを構築します.

Lake Formation は、データ共有とアクセスを管理する別の方法も提供します。 湖の形成タグ. このアプローチを タグベースのアクセス制御。 詳細については、を参照してください。 AWSLakeFormationタグベースのアクセス制御を使用して大規模な最新のデータアーキテクチャとデータメッシュパターンを構築する.

インフラストラクチャ レベルで名前付きリソースにポリシーを指定する代わりに、さまざまな LoB で一般的に見られる少数の論理タグでポリシーの作成を簡素化するため、この記事全体でタグベースのアクセス制御アプローチを使用します。

前提条件

データ メッシュ アーキテクチャを設定するには、少なくとも XNUMX つの AWS アカウント (プロデューサー アカウント、中央アカウント、およびコンシューマー アカウント) が必要です。

データ メッシュ環境をデプロイする

データ メッシュ環境を展開するには、次を使用できます。 GitHubリポジトリ. このリポジトリには XNUMX つの AWS CloudFormation 各アカウント (プロデューサー、セントラル、およびコンシューマー) を含むデータ メッシュ環境を展開するテンプレート。 各アカウント内で、対応する CloudFormation テンプレートを実行できます。

中央アカウント

中央アカウントで、次の手順を完了します。

  1. CloudFormationスタックを起動します。
    AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。
  2. XNUMX つの IAM ユーザーを作成します。
    1. DataMeshOwner
    2. ProducerSteward
  3. グラント DataMeshOwner Lake Formation 管理者として。
  4. XNUMX つの IAM ロールを作成します。
    1. LFRegisterLocationServiceRole
  5. XNUMX つの IAM ポリシーを作成します。
    1. ProducerStewardPolicy
    2. S3DataLakePolicy
  6. のデータベースクレジットカードを作成します ProducerSteward プロデューサーアカウントで。
  7. データの場所のアクセス許可をプロデューサー アカウントに共有します。

プロデューサーアカウント

プロデューサーアカウントで、次の手順を実行します。

  1. CloudFormationスタックを起動します。
    AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。
  2. S3バケットを作成する credit-card、テーブルを保持します credit_card.
  3. 中央アカウントの Lake Formation サービスロールに S3 バケットへのアクセスを許可します。
  4. AWS Glue クローラーを作成する creditCrawler-<ProducerAccountID>.
  5. AWS Glue クローラー サービス ロールを作成します。
  6. S3 バケットの場所に対するアクセス許可を付与する credit-card-<ProducerAccountID>-<aws-region> AWS Glue クローラー ロールに。
  7. プロデューサー スチュワード IAM ユーザーを作成します。

消費者アカウント

コンシューマーアカウントで、次の手順を実行します。

  1. CloudFormationスタックを起動します。
    AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。
  2. S3バケットを作成する <AWS Account ID>-<aws-region>-athena-logs.
  3. Athena ワークグループを作成する consumer-workgroup.
  4. IAMユーザーを作成します ConsumerAdmin.

データベースを追加し、消費者アカウントをサブスクライブします

テンプレートを実行したら、次の手順を実行できます。 ステップバイステップガイド データ カタログに製品を追加し、消費者にそれを購読してもらいます。 このガイドでは、生産者が製品を配置できるデータベースをセットアップすることから始め、次に消費者がそのデータベースを購読してデータにアクセスする方法について説明します。 これらはすべて使用中に実行されます LFタグ、これは タグベースのアクセス制御 レイクフォーメーション用。

データ商品登録

次のアーキテクチャでは、データ プロデューサーとして機能するコンシューマー バンキングの LoB チームが、データ プロダクトを中央のデータ ガバナンス アカウントに登録する (データ プロダクトを組織のデータ メッシュにオンボードする) 方法の詳細な手順について説明します。

AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。

データ プロダクトを登録する一般的な手順は次のとおりです。

  1. 中央ガバナンス アカウントでデータ製品のターゲット データベースを作成します。 例として、中央アカウントの CloudFormation テンプレートは既にターゲット データベースを作成しています。 credit-card.
  2. 作成したターゲット データベースをプロデューサー アカウントのオリジンと共有します。
  3. プロデューサー アカウントで共有データベースのリソース リンクを作成します。 次のスクリーンショットでは、プロデューサー アカウントの Lake Formation コンソールに rl_credit-card のリソース リンクです。 credit-card データベース。
    AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。
  4. リソース リンク データベース内のテーブルに (プロデューサー アカウントでキュレートされたデータを使用して) データを入力します (rl_credit-card) プロデューサー アカウントで AWS Glue クローラーを使用します。
    AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。

作成されたテーブルは、中央ガバナンス アカウントに自動的に表示されます。 次のスクリーンショットは、中央アカウントの Lake Formation のテーブルの例を示しています。 これは、前の手順を実行してリソース リンク データベースにデータを入力した後です。 rl_credit-card プロデューサーアカウントで。

AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。

まとめ

このシリーズのパート 1 では、分析および ML チームのアジリティを高め、データからインサイトまでの時間を短縮するための金融サービス組織の目標について説明しました。 また、AWS でのデータ メッシュ アーキテクチャの構築にも注力し、AWS Glue、DataBrew、Lake Formation などの使いやすく、スケーラブルで費用対効果の高い AWS サービスを導入しました。 データ作成チームは、これらのサービスを使用して、さまざまなデータ コンシューマーが分析目的ですぐに使用できる、精選された高品質で相互運用可能な安全なデータ製品を構築および共有できます。

In 一部2、Athena や SageMaker などの AWS サービスを使用して信用リスク予測モデルを構築するために、コンシューマー バンキング LoB が共有するデータ製品を使用する分析および ML CoE チームに焦点を当てています。


著者について

AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。カリム・ハモウダ は、データ統合、データ分析、およびBIに情熱を注ぐAWSのアナリティクスのスペシャリストソリューションアーキテクトです。 彼はAWSのお客様と協力して、ビジネスの成長に貢献する分析ソリューションを設計および構築しています。 余暇には、息子と一緒にテレビのドキュメンタリーを見たり、ビデオゲームをしたりするのが好きです。

AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。ハサン・プーナワラ AWS のシニア AI/ML スペシャリスト ソリューション アーキテクトである Hasan は、顧客が AWS の本番環境で機械学習アプリケーションを設計およびデプロイするのを支援しています。 彼は、データ サイエンティスト、機械学習の実践者、およびソフトウェア開発者として 12 年以上の実務経験があります。 余暇には、Hasan は自然を探索し、友人や家族と過ごすのが大好きです。

AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする:パート1PlatoBlockchainデータインテリジェンス。 垂直検索。 愛。ブノワ・ド・パトゥール AWS の AI/ML スペシャリスト ソリューション アーキテクトです。 彼は、AWS を使用して AI/ML に関連するソリューションを構築するためのガイダンスと技術支援を提供することで、お客様を支援しています。 余暇には、ピアノを弾いたり、友達と時間を過ごしたりするのが好きです。

タイムスタンプ:

より多くの AWS機械学習