SIGNAL IDUNA が AWS で機械学習プロジェクトを運用する方法

プラトン再発行

フォロワー： 0

この投稿は、SIGNAL IDUNA の Jan Paul Assendorp、Thomas Lietzow、Christopher Masch、Alexander Meinert、Lars Palzer 博士、Jan Schillemans との共著です。

ドイツの大手保険会社である SIGNAL IDUNA では、現在、さらに顧客志向になるために、変革プログラム VISION2023 に基づいて自らを再発明しています。この変革の中心となるのは XNUMX つの側面です。それは、従業員の大部分を機能横断型の機敏なチームに再編成すること、もう XNUMX つは真のデータドリブンな企業になることです。ここでは、「自分で構築し、自分で実行する」というモットーが、データまたは機械学習 (ML) 製品を構築する部門横断的なチームにとって重要な要件です。これにより、チームが製品の生産と実行に費やすことができる作業量に厳しい制限が課されます。

この投稿では、SIGNAL IDUNA がどのようにこの課題に取り組み、 AWSクラウド部門を超えたチームが独自の ML 製品を構築して運用できるようにします。この目的を達成するために、まずアジャイルチームの組織構造を紹介します。これにより、製品の開発と実行に使用されるクラウドインフラストラクチャの中心的な要件が設定されます。次に、SIGNAL IDUNA の XNUMX つの中央チームが、簡単に使用および適応できる適切なワークフローとインフラストラクチャソリューションを提供することで、機能横断的なチームが最小限の支援で AWS クラウドでデータ製品を構築できるようにする方法を示します。最後に、私たちのアプローチを見直し、開発と運用がより厳密に分離されているより古典的なアプローチと比較します。

Agile@SI – 組織変革の基盤

2021 年の初め以来、SIGNAL IDUNA は戦略 Agile@SI を実行に移し、顧客志向のソリューションを開発するためのアジャイル手法を全社的に確立し始めました [1]。以前のタスクと目標は現在、と呼ばれる部門横断的なチームによって引き受けられています。分隊。これらのチームはアジャイル手法 (スクラムフレームワークなど) を採用し、独自の意思決定を行い、顧客志向の製品を構築します。通常、チームはマーケティングなどのビジネス部門に所属しており、多くはデータドリブンで ML を活用した製品の構築に重点を置いています。一例として、保険における典型的なユースケースは、顧客離れの予測と製品の推奨です。

ML は複雑であるため、単一チームで ML ソリューションを作成することは困難であり、さまざまなチームの協力が必要です。

SIGNAL IDUNA には、ML ソリューションの作成をサポートする 2 つの重要なチームがあります。これら XNUMX つの分隊に囲まれているのが、ML ソリューションの開発と長期的な運用を担当するチームです。このアプローチは、AWS 責任共有モデル [XNUMX] に従っています。

上の画像では、すべての分隊が概要で表示されています。

クラウドの実現

組織全体の基盤となるクラウドインフラストラクチャは、Cloud Enablement 部門によって提供されます。彼らの任務は、チームが独自にクラウドテクノロジーに基づいて製品を構築できるようにすることです。これにより、ML のような新製品を開発して市場に出すまでの時間が短縮され、「自分で構築し、自分で実行する」という原則に従います。

データオフィス/データレイク

データのクラウドへの移動と適切なデータセットの検索は、チームのデータオフィス/データレイクによってサポートされています。彼らは、必要なデータセットを検索して選択するために使用できるデータカタログをセットアップします。彼らの目的は、データの透明性とガバナンスを確立することです。さらに、チームが関連データにアクセスして処理できるようにするデータレイクの確立と運用も担当します。

データ分析プラットフォーム

私たちのデータ分析プラットフォーム (DAP) は、SIGNAL IDUNA のクラウドと ML に重点を置いたチームであり、ML エンジニアリング、データエンジニアリング、データサイエンスに精通しています。インフラストラクチャコンポーネントとナレッジを提供することで、内部チームが ML にパブリッククラウドを使用できるようにします。当社の製品とサービスについては、次のセクションで詳しく説明します。

部門横断的なチームによる ML ソリューションの構築を可能にする

SIGNAL IDUNA の部門横断的なチームが ML ソリューションを構築できるようにするには、再利用可能なクラウドインフラストラクチャをプロビジョニングするための迅速かつ多用途な方法と、クラウド機能を活用するためのオンボーディングチームのための効率的なワークフローが必要です。

この目的を達成するために、標準化されたオンボーディングとサポートのプロセスを作成し、モジュール式のインフラストラクチャテンプレートをコードとしてのインフラストラクチャ (IaC) として提供しました。これらのテンプレートには、一般的な ML ユースケース向けに設計されたインフラストラクチャコンポーネントが含まれており、特定のユースケースの要件に合わせて簡単に調整できます。

ML ソリューション構築のワークフロー

ML ソリューションの構築と運用には、データサイエンティスト、ML エンジニア、データエンジニアの XNUMX つの主な技術的役割が関係します。各役割は部門横断的なチームの一部であり、異なる責任を負っています。データサイエンティストは、ユースケースの機能要件と技術要件について必要な専門知識を持っています。 ML エンジニアは、自動化された ML ソリューションの構築とモデルのデプロイを専門としています。そして、データエンジニアは、オンプレミスとクラウド内からデータが流れることを確認します。

プラットフォームの提供プロセスは次のとおりです。

特定のユースケースのインフラストラクチャは IaC で定義され、中央のプロジェクトリポジトリでバージョン管理されます。これには、モデルのトレーニングとデプロイのためのパイプラインや、その他のデータサイエンス関連のコードアーティファクトも含まれます。データサイエンティスト、ML エンジニア、データエンジニアはプロジェクトリポジトリにアクセスでき、すべてのインフラストラクチャコードを自律的に構成および更新できます。これにより、チームは必要に応じてインフラストラクチャを迅速に変更できるようになります。ただし、ML エンジニアは、インフラストラクチャまたは ML モデルの開発と更新をいつでもサポートできます。

再利用可能なモジュール式インフラストラクチャコンポーネント

階層型およびモジュール型の IaC リソースは次のように実装されています。テラフォーム一般的なデータサイエンスと ETL のユースケースのためのインフラストラクチャが含まれます。これにより、インフラストラクチャコードを再利用し、必要なセキュリティおよびコンプライアンスポリシーを適用できます。 AWS キー管理サービス (KMS)) データの暗号化、およびインフラストラクチャのカプセル化 Amazon Virtual Private Cloud（VPC）インターネットに直接アクセスできない環境。

IaC の階層構造は次のとおりです。

モジュール セキュリティとアクセス管理に必要な構成を備えた基本的な AWS サービスをカプセル化します。これには、へのパブリックアクセスの防止などのベストプラクティス構成が含まれます。 Amazon Simple Storage Service（S3）バケットを削除したり、保存されているすべてのファイルの暗号化を強制したりできます。
場合によっては、さまざまな段階で ML モデルをデプロイするなど、プロセスを自動化するためにさまざまなサービスが必要になります。したがって、次のように定義しました。 ソリューション さまざまなタイプのタスク用の共同構成内のさまざまなモジュールのバンドルとして。
さらに、完全な 設計図 さまざまな環境のソリューションを組み合わせて、プロジェクトの多くの潜在的なニーズに対応します。 MLOps ブループリントでは、AWS アカウントに統合および分散される ML モデルのトレーニング、プロビジョニング、モニタリングのためのデプロイ可能なインフラストラクチャを定義します。詳細については次のセクションで説明します。

これらの製品は、DAP チームによって中央リポジトリでバージョン管理されます。これにより、IaC を継続的に改善し、AWS の新機能を検討できるようになります。アマゾンセージメーカーモデルレジストリ。各分隊はこれらのリソースを参照し、必要に応じてパラメータ化し、最終的に独自の AWS アカウントにデプロイできます。

MLOps アーキテクチャ

MLOps プロセス全体をカバーする特定のソリューションを備えた、すぐに使用できるブループリントを提供します。ブループリントには、ML モデルを構築およびデプロイするための XNUMX つの AWS アカウントに分散されたインフラストラクチャが含まれています。これにより、MLOps プロセスのさまざまなステップのリソースとワークフローを分離できます。次の図はマルチアカウントアーキテクチャを示しており、プロセスの特定のステップに対する責任がさまざまな技術的役割間でどのように分割されるかを説明します。

　 モデリング アカウントには、ML モデルの開発のためのサービスが含まれています。まず、データエンジニアは ETL プロセスを使用して、AWS クラウドのデータ駆動型ワークフローの一元化ゲートウェイである SIGNAL IDUNA データレイクから関連データを提供します。その後、データサイエンティストはこのデータセットを利用して、モデル候補をトレーニングおよび評価できます。大規模な実験の準備が完了すると、モデル候補は ML エンジニアによって自動トレーニングパイプラインに統合されます。 Amazon SageMaker Pipelines を使用して、トレーニング、ハイパーパラメータ調整、大規模なモデル評価を自動化します。これには、モデルの系統と、本番環境へのデプロイメントのためにステージングされるモデルの標準化された承認メカニズムも含まれます。自動化された単体テストとコード分析により、データの前処理、モデルのトレーニング、評価など、パイプラインの各ステップのコードの品質と信頼性が保証されます。モデルが評価され承認されると、トレーニングされたモデルと関連するメタデータへのインターフェイスとして Amazon SageMaker ModelPackage を使用します。

　 ツーリング アカウントには、トレーニングされたモデルのテストとデプロイのためのさまざまな段階を備えた自動化された CI/CD パイプラインが含まれています。テスト段階では、モデルが サービス非製品 アカウント。モデルの品質は、モデルが実稼働用にステージングされる前にトレーニングパイプラインで評価されますが、ここでは分離されたテスト環境でパフォーマンステストと統合テストを実行します。テスト段階を通過した後、モデルは サービング製品 アカウントを運用ワークフローに統合します。

MLOps ワークフローのステージをさまざまな AWS アカウントに分離することで、開発とテストを本番環境から分離できます。したがって、厳格なアクセスおよびセキュリティポリシーを適用できます。さらに、カスタマイズされた IAM ロールにより、特定のサービスがその範囲に必要なデータおよびその他のサービスにのみアクセスできるようになります。 最小特権の原則。さらに、サービス環境内のサービスに外部のビジネスプロセスからアクセスできるようにすることもできます。たとえば、ビジネスプロセスは、モデル予測のためにサービス提供環境内のエンドポイントをクエリできます。

私たちのアプローチの利点

このプロセスには、ML モデルと必要なインフラストラクチャの両方の開発と運用を厳密に分離するのと比較して、多くの利点があります。

分離: すべてのチームは、他のチームの環境から完全に分離された独自の AWS アカウントのセットを受け取ります。これにより、アクセス権の管理が容易になり、データを扱う資格のあるユーザーに対してデータを非公開に保つことができます。
クラウドの有効化: クラウド DevOps の経験がほとんどないチームメンバー (多くのデータサイエンティストなど) は、中央サービスの背後に (ほとんど) 何も隠されていないため、インフラストラクチャの設計と管理のプロセス全体を簡単に見ることができます。これによりインフラストラクチャへの理解が深まり、データサイエンス製品をより効率的に作成できるようになります。
製品の所有権: 事前構成されたインフラストラクチャソリューションとマネージドサービスを使用することで、実稼働環境で ML 製品を管理する障壁が非常に低くなります。したがって、データサイエンティストは、実稼働環境に導入されるモデルの所有権を簡単に取得できます。これにより、開発後にモデルを実稼働環境に導入できないというよく知られたリスクが最小限に抑えられます。
革新的手法: ML エンジニアは、モデルが本番環境に導入されるかなり前から関与するため、データサイエンティストが ML モデルを開発している間に、新しいユースケースに適したインフラストラクチャソリューションを作成できます。
適応性: DAP が開発した IaC ソリューションは無料で利用できるため、どのチームでもユースケースの特定のニーズに合わせてこれらを簡単に適応させることができます。
オープンソース: 新しいインフラストラクチャソリューションはすべて、中央の DAP コードリポジトリを介して簡単に利用できるようになり、他のチームが使用できるようになります。時間の経過とともに、これにより、さまざまなユースケースに合わせて調整されたインフラストラクチャコンポーネントを備えた豊富なコードベースが作成されます。

まとめ

この投稿では、SIGNAL IDUNA の部門横断的なチームが AWS 上で ML 製品を構築および実行できるようにする方法を説明しました。私たちのアプローチの中心となるのは、各チームの専用の AWS アカウントのセットを、オーダーメイドの IaC ブループリントやソリューションと組み合わせて使用することです。これら XNUMX つのコンポーネントにより、部門を超えたチームが実稼働品質のインフラストラクチャを作成および運用できるようになります。さらに、自社の ML 製品のエンドツーエンドの完全な所有権を取得できます。

参照する Amazon SageMaker モデル構築パイプライン – Amazon SageMaker to learn more.

より詳しい情報を探す AWS 上の ML 公式ページにあります。

参考文献

[1] https://www.handelsblatt.com/finanzen/versicherungsbranche-vorbild-spotify-signal-iduna-wird-von-einer-handwerker-versicherung-zum-agilen-konzern/27381902.html

[2] https://blog.crisp.se/wp-content/uploads/2012/11/SpotifyScaling.pdf

[3] https://aws.amazon.com/compliance/shared-responsibility-model/

著者について

ヤン・ポール・アセンドルプ データサイエンスに重点を置く ML エンジニアです。彼は ML モデルを構築し、モデルのトレーニングと運用環境への展開を自動化します。

トーマス・リーツォー チームデータ分析プラットフォームのスクラムマスターです。

クリストファー・マッシュ データ分析プラットフォーム部門のプロダクトオーナーであり、データエンジニアリング、データサイエンス、ML エンジニアリングの知識を持っています。

アレクサンダー・マイナート データ分析プラットフォームチームの一員で、ML エンジニアとして働いています。統計から始めて、データサイエンスプロジェクトで成長し、ML メソッドとアーキテクチャに情熱を感じました。

ラース・パルツァー博士 データサイエンティストであり、データ分析プラットフォームチームの一員です。 MLOps アーキテクチャコンポーネントの構築を支援した後、現在はそれらを使用して ML 製品を構築しています。

ヤン・シレマンス ソフトウェアエンジニアリングの背景を持つ ML エンジニアです。彼は、ソフトウェアエンジニアリングのベストプラクティスを ML 環境 (MLOps) に適用することに重点を置いています。

タイムスタンプ： 2022 年 2 月 16 日

SIGNALIDUNAがAWSで機械学習プロジェクトを運用する方法

プラトン再発行