AmazonSageMakerを使用する企業向けのMLOpsFoundationロードマップ

プラトン再発行

フォロワー： 0

エンタープライズビジネスが組織全体で機械学習（ML）を採用しているため、MLモデルを構築、トレーニング、および展開するための手動ワークフローは、イノベーションのボトルネックになる傾向があります。これを克服するために、企業は、データサイエンティスト、データエンジニア、MLエンジニア、IT、ビジネスの利害関係者などの複数のペルソナがどのように協力して相互作用するかを定義する明確な運用モデルを形成する必要があります。懸念、責任、スキルをどのように分離するか。 AWSサービスを最適に使用する方法。 MLと運用（MLOps）のこの組み合わせは、企業がエンドツーエンドのMLライフサイクルを合理化し、データサイエンティストの生産性を高めながら、高いモデル精度を維持し、セキュリティとコンプライアンスを強化するのに役立ちます。

ML Ops のペルソナ、運用、テクノロジー

この投稿では、MLOps基盤を構築するための主要なフェーズ、この基盤で複数のペルソナがどのように連携するか、およびアマゾンセージメーカー専用ツールと他のAWSサービスとの組み込み統合により、エンタープライズビジネス全体でのMLの採用を加速できます。

MLOps成熟度モデル

企業顧客の運用、人員、および技術のニーズをカバーできるMLOps基盤を構築することは困難です。したがって、XNUMXつの主要なフェーズでMLOpsの必要な機能を定義する次の成熟度モデルを定義します。

4段階のMLOps成熟度モデル

初期段階： このフェーズでは、データサイエンティストは、SageMakerサービスを使用して、AWSでモデルを実験、構築、トレーニング、およびデプロイできます。推奨される開発環境は Amazon SageMakerスタジオ、データサイエンティストは、Studioノートブックに基づいて実験とコラボレーションを行うことができます。
繰り返し可能なフェーズ – AWSで実験する機能を備えた次のステップは、データを前処理し、モデル（MLパイプライン）を構築およびトレーニングするための自動ワークフローを作成することです。データサイエンティストは、別の環境でMLエンジニアと協力して、堅牢で本番環境に対応したアルゴリズムとソースコードを構築し、 AmazonSageMakerパイプライン。生成されたモデルは、Amazon SageMakerモデルレジストリに保存され、ベンチマークされます。
信頼できるフェーズ –モデルはMLパイプラインを介して生成されていますが、本番環境に昇格する前にテストする必要があります。したがって、このフェーズでは、モデルとトリガーインフラストラクチャの両方に対して、本番環境をシミュレートする分離されたステージング（本番環境前）環境に自動テスト方法が導入されます。テストが正常に実行された後、モデルは本番環境の分離された環境にデプロイされます。複数の環境間でモデルを宣伝するには、手動による評価と承認が必要です。
スケーラブルフェーズ –最初のMLソリューションの生産後、複数のデータサイエンスチームが協力して数十または数百のMLユースケースを生産することをサポートするために、MLOps基盤をスケーリングする必要があります。このフェーズでは、ソリューションのテンプレート化を紹介します。これにより、新しい本番ソリューションの開発時間が数週間から数日に短縮され、価値にスピードがもたらされます。さらに、安全なMLOps環境のインスタンス化を自動化して、複数のチームがデータを操作できるようにし、ITへの依存とオーバーヘッドを削減します。

次のセクションでは、前述の成熟度モデルと次の信条に基づいてMLOps基盤を構築する方法を示します。

柔軟性 –データサイエンティストは、あらゆるフレームワーク（TensorFlowやPyTorchなど）に対応できます
再現性 –データサイエンティストは、過去の実験（コード、データ、および結果）を再現または観察できます。
再利用性 –データサイエンティストとMLエンジニアは、ソースコードとMLパイプラインを再利用して、不整合とコストを回避できます
スケーラビリティ –データサイエンティストとMLエンジニアは、リソースとサービスをオンデマンドで拡張できます
監査能力 –データサイエンティスト、IT、および法務部門は、ログ、バージョン、およびアーティファクトとデータの依存関係を監査できます。
一貫性 – MLOpsは複数の環境で構成されているため、基盤は環境間の差異を排除する必要があります

初期段階

初期段階の目標は、データサイエンティストがデータのスナップショットを受け取り、SageMakerノートブックを使用して実験を行い、MLが特定のビジネス上の問題を解決できることを証明する安全な実験環境を作成することです。これを実現するには、VPCエンドポイントを介したサービスへのアクセスを調整したStudio環境をお勧めします。リファレンスアーキテクチャのソースコードは、SageMakerチームが提供する例で入手できます。 AmazonSageMakerStudioリファレンスアーキテクチャを使用した安全なデータサイエンス GitHubレポ。

SageMakerサービスに加えて、データサイエンティストは、他のサービスを使用してデータを処理できます。アマゾンEMR, アマゾンアテナ, AWSグルー、ノートブックが保存され、バージョン管理されている AWS コードコミットリポジトリ（次の図を参照）。

MLOpsアカウント構造の初期段階

繰り返し可能なフェーズ

データサイエンティストがMLがビジネス上の問題を解決できることを証明し、SageMakerの実験、トレーニング、モデルのデプロイに精通したら、次のステップはMLソリューションの生産を開始することです。次の図は、このアーキテクチャを示しています。

繰り返し可能なフェーズアカウント構造

この段階では、関心の分離が必要です。環境を複数のAWSアカウントに分割します。

データレイク –オンプレミス（または他のシステム）からクラウドに取り込まれたすべてのデータを保存します。データエンジニアは、複数のデータソースを組み合わせて抽出、変換、読み込み（ETL）パイプラインを作成し、MLのユースケースに必要なデータセットを準備できます。データはAWSGlueデータカタログを介してカタログ化され、を介して他のユーザーやアカウントと共有されます AWSレイクフォーメーション（データガバナンス層）。同じアカウントで、 Amazon SageMaker フィーチャーストアホストすることはできますが、この投稿では取り上げません。詳細については、を参照してください。 Amazon SageMaker Feature Storeを使用して、アカウントおよびチーム間で機能の再利用を可能にします.
実験 –データサイエンティストが調査を実施できるようにします。唯一の違いは、データスナップショットの発信元がデータレイクであるということです。データサイエンティストは特定のデータセットにのみアクセスでき、GDPRやその他のデータプライバシーの制約がある場合は匿名化できます。さらに、実験アカウントはインターネットにアクセスして、データサイエンティストが新しいデータサイエンスフレームワークまたはサードパーティのオープンソースライブラリを使用できるようにする場合があります。したがって、実験アカウントは非本番環境の一部と見なされます。
開発（開発） –実稼働環境の最初の段階。データサイエンティストは、ノートブックから自動ワークフローとSageMakerパイプラインの世界に移行します。 MLエンジニアと協力してコードを抽象化し、テスト、エラー処理、コード品質を確実にカバーする必要があります。目標は、MLパイプラインを開発することです。これは、モデルを前処理、トレーニング、評価し、SageMakerモデルレジストリに登録する自動ワークフローです。 MLパイプラインのデプロイは、CI / CDパイプラインを介してのみ駆動され、 AWSマネジメントコンソール制限されています。 MLパイプラインはデータレイク内の本番データにアクセスできるため、インターネット接続は許可されていません（読み取り専用）。
ツーリング（または自動化） –CodeCommitリポジトリをホストします。 AWS コードパイプラインカスタムコンテナをホストするCI/CDパイプライン、SageMakerモデルレジストリ、AmazonECR。データレイクはデータの信頼できる唯一の情報源であるため、ツールアカウントはコード、コンテナ、および生成されたアーティファクトを対象としています。

このアカウントの命名規則とマルチアカウント戦略は、ビジネスニーズによって異なる場合がありますが、この構造は、推奨される分離レベルを示すことを目的としています。たとえば、開発アカウントの名前をモデルトレーニングまたはビルドアカウントに変更できます。

自動デプロイを実現するには、ノートブックからMLパイプラインに移行する方法を理解し、コードリポジトリとデータ構造を標準化することが重要です。これについては次のセクションで説明します。

ノートブックからMLパイプラインへ

開発環境の目標は、ノートブックのコードを再構築、拡張、改善、スケーリングして、MLパイプラインに移動することです。 MLパイプラインは、データの前処理、モデルのトレーニングまたは使用、および結果の後処理を担当する一連のステップです。各ステップは、正確にXNUMXつのタスク（特定の変換）を実行し、再利用を可能にするために十分に抽象的（たとえば、入力パラメーターとして列名を渡す）である必要があります。次の図は、パイプラインの例を示しています。

SageMakerパイプラインのサンプル

MLパイプラインを実装するために、データサイエンティスト（またはMLエンジニア）はSageMakerパイプラインを使用します。 SageMakerパイプラインは、Python SDKを使用したJSONパイプライン定義によって定義される一連の相互接続されたステップ（SageMaker処理ジョブ、トレーニング、HPO）です。このパイプライン定義は、有向非巡回グラフ（DAG）を使用してパイプラインをエンコードします。このDAGは、MLパイプラインの各ステップの要件と関係に関する情報を提供します。

ユースケースに応じて、MLパイプラインをトレーニングとバッチ推論のXNUMXつの主要なタイプに分けることができます。

次の図は、トレーニングMLパイプラインフローを示しています。

MLビルドパイプライン

前処理フェーズは、複数のステップで構成される場合があります。一般的なデータサイエンスの変換は、データの分割とサンプリング（トレーニング、検証、テストセット）、ワンホットエンコーディングまたはベクトル化、ビニング、スケーリングです。モデルトレーニングステップは、データサイエンティストが最適なモデル構成を認識している場合は、1つのトレーニングジョブ、またはAWSがモデルに最適なハイパーパラメーターを定義して対応するハイパーパラメーターを生成するハイパーパラメーター最適化（HPO）ジョブのいずれかです。モデルアーティファクト。評価ステップでは、生成されたモデルアーティファクトを使用して、検証データセットへの推論を実行します。次に、MLパイプラインは、生成された精度メトリック（FXNUMX、精度、ゲインの十分位数など）が必要なしきい値を超えているかどうかをチェックします。この手順が成功すると、モデルのアーティファクトとメタデータがモデルレジストリに移動されて本番環境に移行します。エクスポートベースラインステップは悪用されることに注意してください Amazon SageMakerモデルモニター機能。後でモデルのドリフト検出に使用され、モデルのメタデータとしてSageMakerモデルレジストリでホストできる統計を使用してJSONオブジェクトを生成します。

バッチ推論の場合、データサイエンティストは、次の図に示すように、同様のパイプラインを作成できます。

ML推論パイプライン

バッチ推論の前処理ステップは、多くの場合、データサンプリングとグラウンドトゥルースの列を除外することによるトレーニングと同じです。バッチ推論は、推論のためにデータをバッチで対応するエンドポイントに送信するステップであり、を使用して実装できます。バッチ変換。後処理ステップでは、結果の分布などの追加の統計を生成するか、結果を外部IDと結合します。次に、モデルモニターのステップで、トレーニングに使用されたデータ（モデルレジストリ内のモデルJSONメタデータ）のベースライン統計を、推論のために新しい受信データと比較できます。

データサイエンティストがSageMakerモデルレジストリに保存できるパイプラインモデルを作成する場合は、前処理手順をスキップできます。詳細については、を参照してください。 XNUMXつのエンドポイントの背後にあるシリアル推論パイプラインとしての前処理ロジックとともにホストモデル.

リポジトリの標準化

データサイエンティストとMLエンジニア間のコラボレーションを可能にするには、コードリポジトリ構造の標準化が必要です。さらに、標準化はCI / CDパイプライン構造にとって有益であり、自動検証、構築（カスタムコンテナ構築など）、およびテスト手順を組み込むことができます。

次の例は、MLソリューションをXNUMXつのリポジトリに分離する方法を示しています。トレーニング用の構築およびトレーニングリポジトリ（およびオプションでパイプラインモデル）と、バッチ推論パイプラインモデルをプロモートするかリアルタイムエンドポイントをインスタンス化するためのデプロイです。

リポジトリの構築/トレーニング

# Building/Training Repository
algorithms/
    shared_libraries/
        test/
            input/ # (optional)
            output/ # (optional)
            test_<step>.py
        <help_functions1>.py
        <help_functions2>.py
        README.md
    preprocessing/ # 1 folder per pre-processing job, order is defined in the ml pipeline logic
        <preprocessing_job_name1> # e.g classic ml: one hot encoding
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
            __main__.py
            dockerfile # (optional) define dockerfile in case of custom containers
            README.md
       <preprocessing_job_name2> # e.g classic ml: one hot encoding
        ...
    training/ # (optional) each one is a training job in SageMaker
        <training_job_name>/
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
            __main__.py
            README.md
    inference/ # (optional) for batch inference
        <batch_inference_job_name>/ # one job per training job name if we're building multiple models
            __main__.py
            README.md
    postprocessing/ # each one is a processing job in SageMaker
        <postprocessing_job_name1>/
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
           __main__.py
            README.md
        <postprocessing_job_name2>/
        ...
ml_pipelines/
    training/ # (note) Multiple training ML pipelines can be defined
        ml-pipeline-training.py # Define training ML pipelines using SageMaker Pipeline SDK
        input.json # (optinal - json or yaml) ML pipeline configuration to enable reusability
    README.md
notebooks/
    *.ipynb # the original notebooks as has been created by the data scientists
    README.md
build_spec.yml
README.md

デプロイメントリポジトリ

# Deployment Repository
inference_config/
    staging/
        inference_config.json # Batch inference ML pipeline or real-time model endpoint configuration to enable reusability
    prod/
        inference_config.json # Batch inference ML pipeline or real-time model endpoint configuration to enable reusability
    README.md
app_infra/
    api_gateway/...
    lambda/...
    event_bridge/...
    batch_inference/ml-pipeline-inference.py # Define batch inference SageMaker Pipeline
tests/
    integration_test/
        test_<description>.py
        test_<description>.py
        # …
    stress_test/
        test_<description>.py
    other_test/
        test_<description>.py
    README.md
README.md

構築およびトレーニングリポジトリは、XNUMXつの主要なフォルダに分かれています。

アルゴリズム –データサイエンティストは、アルゴリズムのルートフォルダーでMLパイプラインの各ステップのコードを開発します。ステップは、前処理、トレーニング、バッチ推論、および後処理（評価）にグループ化できます。各グループでは、対応するサブフォルダーで複数のステップを定義できます。このサブフォルダーには、単体テスト用のフォルダー（オプションの入力と出力を含む）、メイン関数、readme、およびカスタムコンテナーが必要な場合のDockerファイルが含まれます。メインに加えて、複数のコードファイルを同じフォルダーでホストできます。すべてのステップに共通のヘルパーライブラリは、共有ライブラリフォルダーでホストできます。データサイエンティストは、ステップのロジックを所有しているため、単体テストの開発を担当し、MLエンジニアは、エラー処理の強化とテストカバレッジの推奨を担当します。 CI / CDパイプラインは、テストの実行、コンテナーの自動構築（必要な場合）、および複数のソースコードファイルのパッケージ化を担当します。
MLパイプライン –各ステップのソースコードとテストを開発したら、次のステップは別のルートフォルダーにSageMakerパイプラインを定義することです。各MLパイプライン定義は、ハイパーパラメーター範囲などの入力パラメーター用の.pyファイルとJSONまたは.yamlファイルを含むサブフォルダーに配置されます。 MLパイプラインを説明するreadmeファイルが必要です。
ノートブック –このフォルダーは、データサイエンティストが実験中に使用した元のノートブックをホストします。

デプロイメントリポジトリは、次のXNUMXつの主要部分で構成されています。

推論構成 –インスタンスタイプなど、開発環境ごとのリアルタイムエンドポイントまたはバッチ推論の構成が含まれます。
アプリケーションインフラストラクチャ –必要に応じて、推論を実行するために必要なインフラストラクチャのソースコードをホストします。これは、を介したトリガーメカニズムである可能性がありますアマゾンイベントブリッジ, アマゾンAPIゲートウェイ, AWSラムダ関数、またはSageMakerパイプライン。
テスト –顧客のテスト方法に応じて、複数のサブフォルダーで構成されます。最小限のテストセットとして、統合テスト（アプリケーションインフラストラクチャを含む推論のエンドツーエンドの実行）、ストレステスト（エッジケースの調査）、およびMLテスト（信頼スコアや確率の分布など）をお勧めします。

構築およびトレーニングリポジトリに変更をコミットすることにより、CI / CDパイプラインは、リポジトリ構造の検証、テストの実行、およびMLパイプラインのデプロイと実行を担当します。別のCI/CDパイプラインがモデルのプロモートを担当します。これについては、次のセクションで説明します。

リポジトリの分岐とCI/CDの標準化

devアカウントのMLパイプラインの堅牢性を確保するために、マルチブランチリポジトリ戦略が提案されていますが、デプロイはCI/CDパイプラインのみを介して実行されます。データサイエンティストは、機能ブランチを利用して新しい機能（ソースコード）を開発する必要があります。対応するMLパイプラインをデプロイする準備ができたら、これを開発ブランチにプッシュできます。このアプローチの代替手段は、機能ブランチごとにMLパイプラインをデプロイできるようにすることです。詳細については、を参照してください。 AWSを使用したマルチブランチトレーニングMLOpsパイプラインでデータサイエンスワークフローを改善します.

次の図は、MLパイプラインとモデル構築のために開発環境で実行する分岐戦略と必要なCI/CDパイプラインステップを示しています。

ブランチモデルのバージョン管理

マルチブランチアプローチのコード例は、マルチブランチMLOpsトレーニングパイプライン。機能ブランチベースのMLパイプラインによって生成されたモデルを別の機能モデルグループに保存し、メインブランチとのマージリクエスト中にそれらを廃止することができます。メインモデルグループのモデルは、生産に昇格したモデルです。

データ構造の標準化

ソースコードの標準化にとって同様に重要なのは、データの構造の標準化です。これにより、データサイエンティストとMLエンジニアは、モデルとMLパイプラインの起源と履歴をデバッグ、監査、および監視できます。次の図は、そのような例を示しています。

s3バケットのファイル構造の例

簡単にするために、入力履歴データが入力サブキーの下の開発アカウントのバケットにあると仮定します（通常、これはデータレイクにあります）。 MLのユースケースごとに、個別のサブキーを作成する必要があります。新しいMLパイプラインをトリガーして実行するには、データサイエンティストはgit commit and pushを実行する必要があります。これにより、CI/CDパイプラインがトリガーされます。次に、CI / CDパイプラインは、コードアーティファクトをコピーしてサブキーを作成します（ code サブキー）および入力データ（ input サブキー）ビルドIDのサブパーティションの下. 例として、ビルドID c日時とgitハッシュの組み合わせ、またはSageMakerパイプライン実行IDである必要があります。この構造により、データサイエンティストは、過去の展開と実行を監査および照会できます。この後、CI / CDパイプラインが展開され、MLパイプラインがトリガーされます。 MLパイプラインの実行中、各ステップは中間結果をにエクスポートします ml-pipeline-outputs。さまざまな機能ブランチがMLパイプラインの新しいインスタンスをデプロイして実行し、それぞれが新しいサブキーや標準化されたプレフィックスまたはサフィックスを含むさまざまなサブフォルダーに中間結果をエクスポートする必要があることを覚えておくことが重要です。機能ブランチID。

このアプローチは、すべての実験の完全な監査可能性をサポートします。ただし、開発戦略のマルチブランチアプローチでは、大量のデータが生成されます。したがって、データライフサイクル戦略が必要です。プル/マージリクエストが成功するたびに、少なくとも各機能ブランチMLパイプラインのデータを削除することをお勧めします。ただし、これは、ビジネスがサポートする必要のある運用モデルと監査の粒度によって異なります。バッチ推論MLパイプラインでも同様のアプローチを使用できます

信頼できるフェーズ

複数のアカウントを使用してデータサイエンティスト、MLエンジニア、データエンジニアの間で関心の分離を最初に行った後、次のステップは、作成されたモデルをモデルレジストリから分離された環境に昇格させて推論を実行することです。ただし、デプロイされたモデルの堅牢性を確保する必要があります。したがって、本番環境のミラー環境にデプロイされたモデルのシミュレーション、つまり本番前（またはステージング）が必須です。

次の図は、このアーキテクチャを示しています。

信頼できるフェーズアカウント構造

実稼働前環境でのモデルとエンドポイントの展開のプロモーションは、モデルレジストリステータスの更新イベント（または展開リポジトリのgit push）を使用して実行されます。これにより、EventBridgeイベントを使用して個別のCI/CDパイプラインがトリガーされます。 CI / CDパイプラインの最初のステップでは、リードデータサイエンティスト（およびオプションで製品所有者、ビジネスアナリスト、またはその他のリードデータサイエンティスト）による手動承認を要求します。承認者は、モデルのパフォーマンスKPIとデプロイメントリポジトリ内のコードのQAを検証する必要があります。承認後、CI / CDパイプラインはテストコードを展開リポジトリに実行します（統合テスト、ストレステスト、MLテスト）。モデルエンドポイントに加えて、CI / CDは、EventBridge、Lambda関数、APIGatewayなどのトリガーインフラストラクチャもテストします。次の図は、この更新されたアーキテクチャを示しています。

個別のpreprodアカウントとprodアカウントを使用した信頼性の高いフェーズアカウントの設定

テストが正常に実行された後、CI / CDパイプラインは、モデルを本番環境に昇格させる準備ができていることを新しい（または同じ）承認者に通知します。この段階で、ビジネスアナリストは、モデルの結果に対していくつかの追加の統計的仮説検定を実行することをお勧めします。承認後、モデルとトリガーインフラストラクチャが本番環境にデプロイされます。青/緑、カナリア、A / Bテストなど、複数のデプロイ方法がSageMakerでサポートされています（詳細については、展開ガードレール）。 CI / CDパイプラインに障害が発生した場合、ロールバックメカニズムはシステムを最新の堅牢な状態に戻します。

次の図は、モデルをプロモートするCI / CDパイプラインの主な手順と、APIゲートウェイ、Lambda関数、EventBridgeなどのモデルエンドポイントをトリガーするインフラストラクチャを示しています。

デプロイメントCICDのトリガーメカニズムの例

データレイクとMLOpsの統合

この時点で、開発段階またはアカウントごとのデータ要件と、MLOpsを一元化されたデータレイクに組み込む方法を理解することが重要です。次の図は、MLOpsとデータレイクレイヤーを示しています。

ml環境とデータレイクのインターフェースの例

データレイクでは、データエンジニアは、ETLを構築することにより、複数のデータソースを結合し、MLユースケースに対応するデータセット（たとえば、構造データの単一のテーブル、またはPDFファイルまたは画像を含む単一のフォルダー）を作成する責任があります。データサイエンティストによって定義されたパイプライン（探索データ分析フェーズ中）。これらのデータセットは、履歴データと推論およびテスト用のデータに分割できます。すべてのデータはカタログ化され（たとえば、AWS Glueデータカタログを使用）、LakeFormationをデータガバナンスレイヤー（構造化データ用）として使用することで、他のアカウントやユーザーと共有できます。この記事の執筆時点では、LakeFormationはAthenaクエリ、AWS Glueジョブ、およびAmazonEMRとのみ互換性があります。

一方、MLOps環境では、dev、pre-prod、およびprodのローカルバケットにある特定のデータセットを使用してMLパイプラインを灌漑する必要があります。開発環境は、データレイクからデータをプルするSageMakerパイプラインを使用して、オンデマンドでモデルを構築およびトレーニングする責任があります。したがって、パイプラインの最初のステップとして、データのサンプリングとクエリのみが必要なAthenaステップ、またはより複雑な変換が必要な場合はAmazonEMRステップのいずれかを使用することをお勧めします。または、コールバックステップを介してAWS Glueジョブを使用することもできますが、SageMakerパイプラインではまだネイティブステップとしては使用できません。

Pre-prodとprodは、リアルタイムおよびバッチ推論のテストまたは実行を担当します。リアルタイム推論の場合、推論の入力がAPI Gatewayリクエストのペイロードに便乗する可能性があるため、MLOpspre-prodおよびprodアカウントにデータを送信する必要はありません。バッチ推論（または大規模な入力データ）の場合、テストデータまたは推論用データのいずれかである必要なデータセットは、ローカルMLデータバケット（pre-prodまたはprod）に配置する必要があります。データをpre-prodとprodに移動するには、AthenaまたはAmazon EMRをトリガーしてデータレイクからデータをプルするか、データレイクからそれらのMLOpsアカウントにデータをプッシュするかの3つのオプションがあります。最初のオプションでは、MLOpsアカウントで追加のメカニズムを開発する必要があります。たとえば、スケジュールされたEventBridgeイベントを作成する（データレイクのデータが更新されているかどうかを知らない）、またはデータレイクのSXNUMXEventBridgeイベントにデータを到着させる（詳細については、を参照してください AmazonEventBridgeリソースポリシーによるクロスアカウントアクセスの簡素化）。 MLOps側でイベントをキャッチした後、AthenaクエリまたはAmazonEMRはローカルでデータをフェッチしてトリガーできます非同期推論 or バッチ変換。簡単にするために、これをSageMakerパイプラインにラップすることができます。 XNUMX番目のオプションは、ETLパイプラインの最後のステップで、データをMLOpsバケットにプッシュする機能を追加することです。ただし、このアプローチでは責任が混在し（データレイクが推論をトリガーします）、MLOpsバケットに書き込むためにデータレイクへのアクセスを提供するためにレイクフォーメーションが必要になります。

最後のステップは、推論結果をデータレイクに戻すことです。データをカタログ化して他のユーザーが利用できるようにするには、データを新しいデータソースとしてランディングバケットに戻す必要があります。

スケーラブルフェーズ

MLOps基盤の開発と、最初のMLユースケースのエンドツーエンドの本番化の後、dev、pre-prod、prod、リポジトリのインフラストラクチャ、CI / CDパイプライン、およびデータ構造がテストされ、完成しました。。次のステップは、新しいMLユースケースとチームをプラットフォームに導入することです。価値実現のスピードを確保するために、SageMakerではカスタムSageMakerプロジェクトテンプレートを作成できます。これを使用して、テンプレートリポジトリとCI/CDパイプラインを自動的にインスタンス化できます。このようなSageMakerプロジェクトテンプレートを使用すると、リードデータサイエンティストは新しいプロジェクトをインスタンス化し、新しいMLユースケースごとに専用チームを割り当てる責任があります。

次の図は、このプロセスを示しています。

スケーラブルなフェーズアカウントの設定

さまざまなデータサイエンティストチーム（またはMLを生産する必要のある複数のビジネスユニット）がさまざまな機密データにアクセスでき、複数の製品所有者がモデルのトレーニング、展開、実行に対して個別の料金を支払う責任がある場合、問題はさらに複雑になります。。したがって、チームごとに個別のMLOpsアカウントのセット（実験、開発、事前生産、および生産）が必要です。新しいMLOpsアカウントを簡単に作成できるようにするために、別のアカウントである高度な分析ガバナンスアカウントを導入します。これにより、ITメンバーはアクセスでき、オンデマンドでMLOpsアカウントをカタログ化、インスタンス化、または廃止できます。具体的には、このアカウントは、MLOpsアカウントのインフラストラクチャコード（VPC、サブネット、エンドポイント、バケット、 AWS IDおよびアクセス管理（IAM）役割とポリシー、 AWS CloudFormation スタック）、 AWSサービスカタログインフラストラクチャのCloudFormationスタックをワンクリックで複数のアカウントに自動的にデプロイする製品。 Amazon DynamoDB アカウントの各セットを担当するチームなど、メタデータをカタログ化するためのテーブル。この機能により、ITチームはオンデマンドでMLOpsアカウントをインスタンス化し、必要なユーザー、アカウントごとのデータアクセス、および一貫したセキュリティ制約を割り当てます。

このシナリオに基づいて、アカウントを一時的なものと永続的なものに分けます。データレイクとツールは永続的なアカウントであり、それぞれデータとソースコードの信頼できる唯一の情報源の役割を果たします。 MLOpsアカウントはほとんどステートレスであり、オンデマンドでインスタンス化または廃止されるため、一時的なものになります。 MLOpsアカウントのセットが廃止された場合でも、ユーザーまたは監査人は、耐久性のある環境に保存されているため、過去の実験と結果を確認できます。

MLOpsにStudioUIを使用する場合は、次の図に示すように、ツールアカウントがdevアカウントの一部になります。

開発アカウント内のツールアカウントを使用したスケーラブルなフェーズアカウントのセットアップ

ユーザーがMLOpsにSagemakerStudioUIを使用したい場合、ツールアカウントは開発者の一部です
上の図のように説明します。このMLOPsFoundationのソースコードの例は次の場所にあります。
CDKに基づく安全なマルチアカウントMLOps基盤.

Sagemakerは、CodeCommitとCodePipelineをGitHubやJenkinsなどの他のサードパーティ開発ツールに置き換える機能を提供していることに注意してください（詳細については、 AmazonSageMakerプロジェクトを作成するサードパーティのソース管理とJenkinsを使用するおよび AmazonSageMakerプロジェクトMLOps GitLabおよびGitLabパイプラインを含むテンプレート).

ペルソナ、運用、およびテクノロジの概要

MLOps成熟度モデルを使用すると、明確なアーキテクチャ設計と配信ロードマップを定義できます。ただし、各ペルソナは、対話する主要なAWSアカウントとサービス、および実行する操作を明確に把握する必要があります。次の図は、これらのカテゴリをまとめたものです。

Amazon SageMaker PlatoBlockchainDataIntelligenceを使用する企業向けのMLOps基盤ロードマップ。垂直検索。愛。

まとめ

複数のペルソナとテクノロジー間の相互作用を明確に定義する堅牢なMLOps基盤は、価値実現のスピードを高め、コストを削減し、データサイエンティストがイノベーションに集中できるようにします。この投稿では、このような基盤を段階的に構築する方法を示しました。これにより、ビジネスのMLOps成熟度モデルがスムーズになり、本番環境で複数のデータサイエンスチームとMLユースケースをサポートできるようになります。複数のスキルと責任を持つ複数のペルソナで構成される運用モデルを定義しました。最後に、コード開発（リポジトリとCI / CDパイプライン）、データの保存と共有、およびエンタープライズ環境向けのMLOpsセキュアインフラストラクチャプロビジョニングを標準化する方法の例を共有しました。多くの企業顧客はこのアプローチを採用しており、MLソリューションを数か月ではなく数日で生産することができます。

コメントや質問がある場合は、コメントセクションに残してください。

著者について

Amazon SageMaker PlatoBlockchainDataIntelligenceを使用する企業向けのMLOps基盤ロードマップ。垂直検索。愛。 ソクラティス・カルタキス博士 アマゾンウェブサービスのシニア機械学習スペシャリストソリューションアーキテクトです。 Sokratisは、AWSサービスを活用し、運用モデル（MLOps基盤）を形成し、ベスト開発プラクティスを活用した変革ロードマップを作成することで、企業のお客様が機械学習（ML）ソリューションを産業化できるようにすることに重点を置いています。彼は、エネルギー、小売、健康、金融/銀行、モータースポーツなどの分野で革新的なエンドツーエンドの生産レベルのMLおよびモノのインターネット（IoT）ソリューションの発明、設計、主導、および実装に15年以上を費やしてきました。 Sokratisは、家族や友人と暇な時間を過ごしたり、バイクに乗ったりするのが好きです。

Amazon SageMaker PlatoBlockchainDataIntelligenceを使用する企業向けのMLOps基盤ロードマップ。垂直検索。愛。 ゲオルギオス・シナス は、EMEA地域のAI/MLのスペシャリストソリューションアーキテクトです。彼はロンドンを拠点とし、英国とアイルランドの顧客と緊密に協力しています。 Georgiosは、MLOpsの実践に特に関心を持ち、顧客が大規模な機械学習を実行できるようにすることで、顧客がAWSで本番環境に機械学習アプリケーションを設計およびデプロイするのを支援します。余暇には、旅行、料理、友人や家族との時間を楽しんでいます。

ジュゼッペアンジェロポルチェッリ アマゾンウェブサービスのプリンシパル機械学習スペシャリストソリューションアーキテクトです。 MLのバックグラウンドをソフトウェアエンジニアリングする数年の経験を持つ彼は、あらゆる規模の顧客と協力して、ビジネスと技術のニーズを深く理解し、AWSクラウドとAmazonMachineLearningスタックを最大限に活用するAIと機械学習ソリューションを設計しています。彼は、MLOps、Computer Vision、NLPなどのさまざまなドメインでプロジェクトに取り組み、幅広いAWSサービスを使用してきました。自由時間には、ジュゼッペはサッカーを楽しんでいます。

シェルビーアイゲンブロード アマゾンウェブサービス（AWS）のプリンシパルAIおよび機械学習スペシャリストソリューションアーキテクトです。彼女は24年間、複数の業界、テクノロジー、および役割にまたがるテクノロジーに携わってきました。彼女は現在、DevOpsとMLのバックグラウンドをMLOpsのドメインに組み合わせて、顧客がMLワークロードを大規模に提供および管理できるようにすることに注力しています。さまざまなテクノロジードメインで35を超える特許が付与されており、継続的なイノベーションとデータを使用してビジネスの成果を推進することに情熱を注いでいます。 Shelbeeは、Courseraの実用的なデータサイエンス専門分野の共同作成者およびインストラクターです。彼女はまた、デンバー支部のビッグデータ（WiBD）の女性の共同ディレクターでもあります。暇なときは、家族や友達、過激な犬と過ごすのが好きです。

タイムスタンプ： 2022 年 6 月 24 日

タイムスタンプ： 2022 年 12 月 20 日

プラトン再発行

Amazon SageMaker を使用して AWS Graviton ベースのインスタンスで機械学習推論ワークロードを実行する

Amazon Rekognition で音声イベントを検出する

Amazon Comprehend の PDF 事前ラベル付けを自動化する | アマゾンウェブサービス

安全でリアルタイムの推論のために、Amazon SageMaker エンドポイントで完全準同型暗号化を有効にします

AWSでデータメッシュアーキテクチャを使用してMLモデルを構築およびトレーニングする：パート2

Amazon Lex と Talkdesk クラウドコンタクトセンターを使用して、チャットボットユーザーにライブエージェントアシスタンスを提供します |アマゾンウェブサービス

IMDb ナレッジグラフを使用した電力の推奨と検索 – パート 1

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー