Veriff が Amazon SageMaker マルチモデルエンドポイントを使用してデプロイ時間を 80% 短縮した方法

プラトン再発行

フォロワー： 0

ベリフは、金融サービス、フィンテック、仮想通貨、ゲーム、モビリティ、オンラインマーケットプレイスのパイオニアを含む、革新的な成長主導の組織のための本人確認プラットフォームパートナーです。 AI を活用した自動化と人間のフィードバック、深い洞察、専門知識を組み合わせた高度なテクノロジーを提供します。

Veriff が Amazon SageMaker マルチモデルエンドポイントを使用してデプロイ時間を 80% 短縮した方法 |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

Veriff は、顧客がカスタマージャーニーの関連するすべての瞬間にわたってユーザーのアイデンティティと個人的属性を信頼できるようにする実証済みのインフラストラクチャを提供します。 Veriff は、Bolt、Deel、Monese、Starship、Super Awesome、Trustpilot、Wise などの顧客から信頼されています。

AI を活用したソリューションとして、Veriff はコスト効率の高い方法で数十の機械学習 (ML) モデルを作成して実行する必要があります。これらのモデルは、軽量のツリーベースモデルからディープラーニングコンピュータービジョンモデルまで多岐にわたります。これらは、低遅延を実現し、ユーザーエクスペリエンスを向上させるために GPU で実行する必要があります。 Veriff は現在、顧客向けに非常にパーソナライズされたソリューションを目指して、より多くの製品を製品に追加しています。さまざまな顧客にさまざまなモデルを提供すると、スケーラブルなモデル提供ソリューションの必要性が高まります。

この投稿では、Veriff がどのようにしてモデル展開ワークフローを標準化したかを説明します。アマゾンセージメーカーコストと開発時間を削減します。

インフラストラクチャと開発の課題

Veriff のバックエンドアーキテクチャはマイクロサービスパターンに基づいており、AWS インフラストラクチャでホストされているさまざまな Kubernetes クラスター上でサービスが実行されます。このアプローチは当初、高価なコンピュータービジョン ML モデルを実行するマイクロサービスを含む、すべての企業サービスに使用されていました。

これらのモデルの一部では、GPU インスタンスへのデプロイが必要でした。 GPU ベースのインスタンスタイプのコストが比較的高いことを考慮して、Veriff はカスタムソリューション Kubernetes 上で、異なるサービスレプリカ間で特定の GPU のリソースを共有します。通常、単一の GPU には、複数の Veriff のコンピュータービジョンモデルをメモリ内に保持するのに十分な VRAM があります。

このソリューションにより GPU コストは軽減されましたが、データサイエンティストはモデルに必要な GPU メモリの量を事前に指定する必要があるという制約もありました。さらに、DevOps は、需要パターンに応じて GPU インスタンスを手動でプロビジョニングするという負担がかかりました。これにより、運用上のオーバーヘッドとインスタンスの過剰プロビジョニングが発生し、コストプロファイルが最適化されませんでした。

このセットアップでは、GPU プロビジョニングとは別に、データサイエンティストがモデルごとに REST API ラッパーを構築する必要もありました。これは、他の企業のサービスが利用できる汎用インターフェイスを提供し、モデルデータの前処理と後処理をカプセル化するために必要でした。これらの API には実稼働グレードのコードが必要であったため、データサイエンティストがモデルを実稼働化することが困難でした。

Veriff のデータサイエンスプラットフォームチームは、このアプローチに代わる方法を探しました。主な目的は、よりシンプルな導入パイプラインを提供することで、同社のデータサイエンティストが研究から本番環境へより適切に移行できるようにサポートすることでした。 XNUMX 番目の目的は、GPU インスタンスのプロビジョニングにかかる運用コストを削減することでした。

ソリューションの概要

Veriff は、次の XNUMX つの問題を解決する新しいソリューションを必要としていました。

ML モデルの周囲に REST API ラッパーを簡単に構築できるようにする
プロビジョニングされた GPU インスタンス容量を最適に、可能であれば自動的に管理できるようにします

最終的に、ML プラットフォームチームは、 Sagemaker マルチモデルエンドポイント (MME)。この決定は、MME による NVIDIA のサポートによって推進されました。 Triton推論サーバー (モデルを REST API としてラップすることを容易にする ML に重点を置いたサーバー。Veriff はすでに Triton の実験も行っていました)、また、単純な自動スケーリングポリシーを介して GPU インスタンスの自動スケーリングをネイティブに管理する機能も備えています。

Veriff では、ステージング用と本番用の XNUMX つの MME が作成されました。このアプローチにより、運用モデルに影響を与えることなく、ステージング環境でテスト手順を実行できます。

SageMaker MME

SageMaker は、開発者やデータサイエンティストに ML モデルを迅速に構築、トレーニング、デプロイする機能を提供するフルマネージドサービスです。 SageMaker MME は、リアルタイム推論用に多数のモデルをデプロイするためのスケーラブルでコスト効率の高いソリューションを提供します。 MME は、共有サービスコンテナーと、GPU などの高速化されたインスタンスを使用してすべてのモデルをホストできるリソースフリートを使用します。これにより、単一モデルのエンドポイントを使用する場合と比較して、エンドポイントの使用率が最大化され、ホスティングコストが削減されます。また、SageMaker がメモリ内でモデルのロードとアンロードを管理し、エンドポイントのトラフィックパターンに基づいてモデルをスケーリングするため、デプロイメントのオーバーヘッドも削減されます。さらに、すべての SageMaker リアルタイムエンドポイントは、モデルを管理および監視するための組み込み機能の恩恵を受けます。影の亜種, 自動スケーリング、およびネイティブ統合アマゾンクラウドウォッチ (詳細については、マルチモデルエンドポイントデプロイの CloudWatch メトリクス).

カスタム Triton アンサンブルモデル

Veriff が Triton Inference Server の使用を決定した理由はいくつかありますが、主な理由は次のとおりです。

データサイエンティストは、モデルアーティファクトファイルを標準ディレクトリ形式 (コードなしのソリューション) に配置することで、モデルから REST API を構築できます。
すべての主要な AI フレームワーク (PyTorch、Tensorflow、XGBoost など) と互換性があります。
次のような ML 固有の低レベルのサーバー最適化を提供します。動的バッチ処理リクエストの数

Triton を使用すると、データサイエンティストは REST API を構築するためのコードを記述するのではなく、フォーマットされたモデルリポジトリを構築するだけで済むため、モデルを簡単にデプロイできます (Triton はまた、 Python モデルカスタム推論ロジックが必要な場合)。これにより、モデルのデプロイ時間が短縮され、データサイエンティストはモデルのデプロイではなく構築に集中できる時間が増えます。

Triton のもう XNUMX つの重要な機能は、モデルアンサンブル、これらは互いにチェーンされたモデルのグループです。これらのアンサンブルは、単一の Triton モデルであるかのように実行できます。 Veriff は現在、この機能を使用して、(前述したように) Python モデルを使用して各 ML モデルで前処理および後処理ロジックをデプロイし、モデルが運用環境で使用されるときに入力データまたはモデル出力に不一致がないことを保証します。

このワークロードの典型的な Triton モデルリポジトリは次のようになります。

　 model.py ファイルには前処理コードと後処理コードが含まれています。トレーニングされたモデルの重みは次のとおりです。 screen_detection_inferencer ディレクトリ、モデルバージョンの下 1 (この例ではモデルは ONNX 形式ですが、TensorFlow、PyTorch 形式などの形式にすることもできます)。アンサンブルモデルの定義は、 screen_detection_pipeline このディレクトリでは、ステップ間の入力と出力が構成ファイルにマップされます。

Python モデルを実行するために必要な追加の依存関係については、「 requirements.txt ファイルを作成し、Conda 環境を構築するには conda パックする必要があります (python_env.tar.gz)。詳細については、を参照してください。 Python ランタイムとライブラリの管理。また、Python ステップの構成ファイルは以下を指す必要があります。 python_env.tar.gz 実行_ENV_パス指令。

次に、モデルフォルダーを TAR 圧縮し、次を使用して名前を変更する必要があります。 model_version.txt。最終的に、結果として、 <model_name>_<model_version>.tar.gz ファイルはにコピーされます Amazon シンプルストレージサービス (Amazon S3) バケットが MME に接続されているため、SageMaker がモデルを検出して提供できるようになります。

モデルのバージョン管理と継続的デプロイメント

前のセクションで明らかになったように、Triton モデルリポジトリの構築は簡単です。ただし、手動で実行すると、展開に必要なすべての手順を実行するのは面倒でエラーが発生しやすくなります。これを克服するために、Veriff は MME にデプロイされるすべてのモデルを含むモノリポジトリを構築しました。MME では、データサイエンティストが Gitflow のようなアプローチで連携します。このモノリポジトリには次の機能があります。

を使用して管理されていますパンツ.
Black や MyPy などのコード品質ツールは、Pants を使用して適用されます。
単体テストはモデルごとに定義され、モデル出力が特定のモデル入力に対して期待される出力であることを確認します。
モデルの重みはモデルリポジトリと一緒に保存されます。これらの重みは大きなバイナリファイルになる可能性があるため、 DVC は、バージョン管理された方法で Git と同期するために使用されます。

このモノリポジトリは、継続的インテグレーション (CI) ツールと統合されています。リポジトリまたは新しいモデルに新しいプッシュを行うたびに、次の手順が実行されます。

コード品質チェックに合格します。
モデルの重みをダウンロードします。
Conda 環境を構築します。
Conda 環境を使用して Triton サーバーをスピンアップし、それを使用して単体テストで定義されたリクエストを処理します。
最終モデルの TAR ファイルをビルドします (<model_name>_<model_version>.tar.gz).

これらの手順により、モデルがデプロイに必要な品質を備えていることが確認されるため、リポジトリブランチにプッシュされるたびに、結果の TAR ファイルが (別の CI ステップで) ステージング S3 バケットにコピーされます。プッシュがメインブランチで行われると、モデルファイルが本番環境の S3 バケットにコピーされます。次の図は、この CI/CD システムを示しています。

コストと導入速度のメリット

MME を使用すると、Veriff はモノリポジトリアプローチを使用してモデルを実稼働環境にデプロイできます。要約すると、Veriff の新しいモデル導入ワークフローは次の手順で構成されます。

新しいモデルまたはモデルバージョンを使用してモノリポジトリにブランチを作成します。
開発マシンで単体テストを定義して実行します。
モデルをステージング環境でテストする準備ができたら、ブランチをプッシュします。
モデルを実稼働環境で使用する準備ができたら、ブランチを main にマージします。

この新しいソリューションを導入すると、Veriff でのモデルのデプロイは開発プロセスの簡単な部分になります。新モデルの開発期間は 10 日から平均 2 日に短縮されました。

SageMaker のマネージドインフラストラクチャプロビジョニングと自動スケーリング機能は、Veriff にさらなるメリットをもたらしました。彼らが使用したのは、インスタンスごとの呼び出し数 CloudWatch メトリクスはトラフィックパターンに応じて拡張し、信頼性を犠牲にすることなくコストを節約します。メトリクスのしきい値を定義するために、ステージングエンドポイントで負荷テストを実行し、レイテンシとコストの間の最適なトレードオフを見つけました。

75 つの実稼働モデルを MME にデプロイして支出を分析した後、Veriff は、元の Kubernetes ベースのソリューションと比較して、GPU モデルのコストが XNUMX% 削減されたと報告しました。同社の DevOps エンジニアがインスタンスを手動でプロビジョニングする負担が軽減されたため、運用コストも削減されました。

まとめ

この投稿では、Veriff が Kubernetes での自己管理型モデルのデプロイメントではなく Sagemaker MME を選択した理由を検討しました。 SageMaker は差別化されていない重労働を引き受けるため、Veriff はビジネスクリティカルな業務に必要なパフォーマンスを維持しながら、モデル開発時間を短縮し、エンジニアリング効率を向上させ、リアルタイム推論のコストを大幅に削減できます。最後に、ソフトウェア開発のベストプラクティスと SageMaker MME を組み合わせたリファレンス実装として使用できる、Veriff のシンプルかつ効果的なモデルデプロイメント CI/CD パイプラインとモデルバージョニングメカニズムを紹介しました。 SageMaker MME を使用して複数のモデルをホストするコードサンプルは、次のサイトで見つけることができます。 GitHubの.

著者について

リカール・ボラス 彼は Veriff のシニア機械学習であり、社内の MLOps の取り組みを主導しています。彼は、社内にデータサイエンスプラットフォームを構築し、いくつかのオープンソースソリューションを AWS のサービスと組み合わせることで、データサイエンティストがより迅速で優れた AI / ML 製品を構築できるよう支援しています。

Veriff が Amazon SageMaker マルチモデルエンドポイントを使用してデプロイ時間を 80% 短縮した方法 |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ジョアンモウラ スペインを拠点とする AWS の AI/ML スペシャリストソリューションアーキテクトです。彼は、ディープラーニングモデルの大規模なトレーニングと推論の最適化、およびより広範な AWS 上での大規模な ML プラットフォームの構築で顧客を支援しています。

Veriff が Amazon SageMaker マルチモデルエンドポイントを使用してデプロイ時間を 80% 短縮した方法 |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ミゲル・フェレイラ フィンランドのヘルシンキを拠点とする AWS でシニアソリューションアーキテクトとして働いています。 AI/ML は生涯にわたる関心であり、複数の顧客が Amazon SageMaker を ML ワークフローに統合するのを支援してきました。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/how-veriff-decreased-deployment-time-by-80-using-amazon-sagemaker-multi-model-endpoints/

タイムスタンプ： 2023 年 10 月 16 日

タイムスタンプ： 2023 年 11 月 20 日

プラトン再発行

サンプルデータセットで Amazon SageMaker Data Wrangler の機能を調べる

Amazon Transcribe、Amazon Translate、AmazonPollyで言語の壁を打ち破る

新しい Amazon Kendra Alfresco コネクタを使用して Alfresco コンテンツにインデックスを付けます | アマゾンウェブサービス

Amazon Bedrock のナレッジベースがメタデータのフィルタリングをサポートし、取得精度が向上しました |アマゾンウェブサービス

Amazon Personalize の推奨事項のビジネスへの影響を測定する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー