現在利用可能な最も人気のあるモデルの XNUMX つは XGBoost です。 分類や回帰などのさまざまな問題を解決する機能を備えた XGBoost は、ツリーベース モデルのカテゴリにも分類される人気のあるオプションになっています。 この投稿では、その方法を詳しく見ていきます。 アマゾンセージメーカー を使用してこれらのモデルを提供できます NVIDIATriton推論サーバー. リアルタイムの推論ワークロードは、レイテンシーとスループットに関してさまざまなレベルの要件とサービスレベル契約 (SLA) を持つことができ、SageMaker リアルタイムエンドポイントを使用して満たすことができます。
SageMaker が提供する 単一モデルのエンドポイント、これにより、論理エンドポイントに対して単一の機械学習 (ML) モデルをデプロイできます。 他のユース ケースでは、次を使用してコストとパフォーマンスを管理することを選択できます。 マルチモデル エンドポイントこれにより、論理エンドポイントの背後でホストする複数のモデルを指定できます。 選択したオプションに関係なく、SageMaker エンドポイントは、最も要求の厳しい企業のお客様にもスケーラブルなメカニズムを提供しながら、以下を含む多くの機能で価値を提供します。 影の亜種, 自動スケーリング、およびネイティブ統合 アマゾンクラウドウォッチ (詳細については、 マルチモデル エンドポイント デプロイの CloudWatch メトリクス).
Triton は、推論用のさまざまな ML モデルの実行と提供をサポートするエンジンとして、さまざまなバックエンドをサポートしています。 Triton の展開では、バックエンドの動作がワークロードにどのように影響し、何を期待できるかを知ることが重要です。 この記事では、 フォレスト推論ライブラリ (FIL) バックエンドこれは、SageMaker の Triton によってサポートされているため、ワークロードについて情報に基づいた決定を下し、可能な限り最高のパフォーマンスとコストの最適化を得ることができます。
FIL バックエンドの詳細
トリトンがサポートする FIL バックエンド 次のようなツリーモデルを提供します XGブースト、LightGBM、 scikit-学ぶ ランダムフォレスト, RAPIDS cuML ランダム フォレスト、およびによってサポートされているその他のモデル ツリーライト. これらのモデルは、分類や回帰などの問題を解決するために長い間使用されてきました。 これらのタイプのモデルは伝統的に CPU 上で実行されてきましたが、これらのモデルの人気と推論の要求により、推論のパフォーマンスを向上させるためのさまざまな手法が生まれました。 FIL バックエンドは、cuML コンストラクトを使用してこれらの手法の多くを利用し、GPU アクセラレータでの推論パフォーマンスを最適化するために C++ および CUDA コア ライブラリ上に構築されています。
FIL バックエンドは cuML のライブラリを使用して、CPU または GPU コアを使用して学習を加速します。 これらのプロセッサを使用するために、ホスト メモリ (NumPy 配列など) または GPU 配列 (uDF、Numba、cuPY、または __cuda_array_interface__
) API。 データがメモリにステージングされた後、FIL バックエンドは、使用可能なすべての CPU または GPU コアで処理を実行できます。
FIL バックエンド スレッドは、ホストの共有メモリを使用せずに相互に通信できますが、アンサンブル ワークロードでは、ホスト メモリを考慮する必要があります。 次の図は、Triton (C++) と Python プロセス (Python バックエンド) の間のプロセス間通信に使用される CPU アドレス指定可能な共有メモリを含む、メモリ領域を微調整できるアンサンブル スケジューラ ランタイム アーキテクチャを示しています。 FIL バックエンドを使用したテンソル (入力/出力)。
Triton Inference Server は、開発者がワークロードを調整してモデルのパフォーマンスを最適化するための構成可能なオプションを提供します。 構成 dynamic_batching
Triton がクライアント側の要求を保持し、サーバー側でそれらをバッチ処理して、FIL の並列計算を効率的に使用してバッチ全体を一緒に推論できるようにします。 オプション max_queue_delay_microseconds
Triton がバッチを形成するまで待機する時間のフェールセーフ コントロールを提供します。
他にも多くの FIL 固有の 利用可能なオプション パフォーマンスと動作に影響を与えます。 から始めることをお勧めします storage_type
. GPU でバックエンドを実行する場合、FIL は、FIL がパフォーマンスとフットプリントに影響を与える可能性があるツリーの表現である新しいメモリ/データ構造を作成します。 これは、環境パラメーターを介して構成可能です storage_type
これには、dense、sparse、および auto のオプションがあります。 高密度オプションを選択すると、より多くの GPU メモリが消費され、常にパフォーマンスが向上するとは限らないため、確認することをお勧めします。 対照的に、sparse オプションは GPU メモリの消費が少なく、dense オプションと同等またはそれ以上のパフォーマンスを発揮する可能性があります。 auto を選択すると、スパースよりも大幅に多くの GPU メモリを消費しない限り、モデルはデフォルトで密に設定されます。
モデルのパフォーマンスに関しては、 threads_per_tree
オプション。 現実世界のシナリオでオーバーサーブする可能性があることの XNUMX つは、 threads_per_tree
他のどのパラメータよりもスループットに大きな影響を与える可能性があります。 2 ~ 1 の任意の 32 の累乗に設定することは正当です。 このパラメーターの最適な値を予測するのは困難ですが、サーバーがより高い負荷を処理するか、より大きなバッチ サイズを処理することが予想される場合は、一度に数行を処理する場合よりも大きな値を使用する方が効果的です。
注意すべきもう XNUMX つのパラメーターは、 algo
これは、GPU で実行している場合にも使用できます。 このパラメーターは、推論要求の処理に使用されるアルゴリズムを決定します。 このためにサポートされているオプションは次のとおりです。 ALGO_AUTO
, NAIVE
, TREE_REORG
, BATCH_TREE_REORG
. これらのオプションは、ツリー内のノードの編成方法を決定し、パフォーマンスの向上にもつながります。 の ALGO_AUTO
オプションのデフォルトは NAIVE
まばらなストレージと BATCH_TREE_REORG
高密度収納に。
最後に、FIL には Shapley Explainer が付属しており、 treeshap_output
パラメータ。 ただし、Shapley の出力は、出力サイズが原因でパフォーマンスが低下することに注意してください。
モデル形式
現在、フォレスト ベースのモデルを格納するための標準的なファイル形式はありません。 すべてのフレームワークは、独自の形式を定義する傾向があります。 複数の入力ファイル形式をサポートするために、FIL はオープンソースを使用してデータをインポートします。 ツリーライト 図書館。 これにより、FIL は、次のような一般的なフレームワークでトレーニングされたモデルをサポートできます。 XGブースト および ライトGBM. 提供するモデルの形式は、 model_type
で指定された構成値 config.pbtxt
ファイルにソフトウェアを指定する必要があります。
構成.pbtxt
各モデルの モデル リポジトリ モデルに関する必須およびオプションの情報を提供するモデル構成を含める必要があります。 通常、この構成は config.pbtxt
として指定されたファイル ModelConfig プロトバッファ. 構成設定の詳細については、次を参照してください。 モデル構成. モデル コンフィギュレーション パラメーターの一部を次に示します。
- 最大バッチサイズ – これにより、このモデルに渡すことができる最大バッチ サイズが決まります。 一般に、FIL バックエンドに渡されるバッチのサイズの唯一の制限は、それらを処理するために使用できるメモリです。 GPU 実行の場合、使用可能なメモリは Triton の CUDA メモリ プールのサイズによって決まります。これは、サーバーの起動時にコマンド ライン引数を介して設定できます。
- – このセクションのオプションは、各入力サンプルに期待される機能の数を Triton に伝えます。
- 出力 – このセクションのオプションは、各サンプルの出力値の数を Triton に伝えます。 もし
predict_proba
オプションが true に設定されている場合、各クラスの確率値が返されます。 それ以外の場合は、特定のサンプルに対して予測されたクラスを示す単一の値が返されます。 - インスタンス グループ – これにより、このモデルのインスタンスがいくつ作成されるか、および GPU と CPU のどちらを使用するかが決まります。
- モデルタイプ – この文字列は、モデルの形式を示します (
xgboost_json
この例では、しかしxgboost
,lightgbm
,tl_checkpoint
も有効な形式です)。 - 予測プロバ – true に設定すると、単なるクラス予測ではなく、各クラスの確率値が返されます。
- 出力クラス – これは、分類モデルの場合は true に設定され、回帰モデルの場合は false に設定されます。
- しきい値 – これは、分類を決定するためのスコアしきい値です。 いつ
output_class
が true に設定されている場合、これを指定する必要がありますが、次の場合は使用されませんpredict_proba
も true に設定されます。 - ストレージタイプ – 一般に、この設定に AUTO を使用すると、ほとんどのユース ケースに適合します。 AUTO ストレージが選択されている場合、FIL は、モデルのおおよそのサイズに基づいて疎または密な表現を使用してモデルをロードします。 場合によっては、大規模なモデルのメモリ フットプリントを削減するために、これを明示的に SPARSE に設定したい場合があります。
SageMaker 上の Triton 推論サーバー
セージメーカー ことができます NVIDIA Triton Inference Server を使用して、単一モデルと複数モデルの両方のエンドポイントをデプロイできます。 次の図は、Triton Inference Server の高レベル アーキテクチャを示しています。 の モデル リポジトリ は、Triton が推論に使用できるようにするモデルのファイル システム ベースのリポジトリです。 推論リクエストはサーバーに到着し、適切なモデルごとのスケジューラにルーティングされます。 トリトンの道具 複数のスケジューリングおよびバッチ処理アルゴリズム モデルごとに設定できます。 各モデルのスケジューラは、オプションで推論リクエストのバッチ処理を実行し、リクエストを バックエンド モデルタイプに対応。 バックエンドは、バッチ処理されたリクエストで提供された入力を使用して推論を実行し、リクエストされた出力を生成します。 その後、出力が返されます。
SageMaker エンドポイントの Auto Scaling グループを設定する場合、考慮すべきことがあります。 SageMakerVariantInvocationsPerInstance
Auto Scaling グループのスケーリング特性を決定する主な基準として。 さらに、モデルが GPU で実行されているか CPU で実行されているかに応じて、CPUUtilization または GPUUtilization を追加の基準として使用することも検討できます。 単一モデルのエンドポイントの場合、展開されるモデルはすべて同じであるため、SLA を満たす適切なポリシーを設定するのはかなり簡単です。 マルチモデル エンドポイントの場合、特定のエンドポイントの背後に同様のモデルを展開して、より安定した予測可能なパフォーマンスを実現することをお勧めします。 さまざまなサイズと要件のモデルが使用されるユースケースでは、それらのワークロードを複数のマルチモデル エンドポイントに分割するか、Auto Scaling グループ ポリシーの微調整に時間を費やして、最適なコストとパフォーマンスのバランスを得ることができます。
SageMaker 推論でサポートされている NVIDIA Triton Deep Learning Containers (DLC) のリストについては、以下を参照してください。 利用可能なディープラーニングコンテナの画像.
SageMaker ノートブックのチュートリアル
ML アプリケーションは複雑で、多くの場合、データの前処理が必要になる場合があります。 このノートブックでは、SageMaker マルチモデル エンドポイントで Triton の FIL バックエンドを使用して、XGBoost のようなツリーベースの ML モデルをデプロイする方法について詳しく説明します。 また、Triton のアンサンブル機能を使用して、モデルに Python ベースのデータ前処理推論パイプラインを実装する方法についても説明します。 これにより、クライアント側から生データを送信し、最適な推論パフォーマンスのために Triton SageMaker エンドポイントでデータの前処理とモデル推論の両方を行うことができます。
トリトンモデルアンサンブル機能
Triton Inference Server は、本番環境での大規模な AI モデルの展開を大幅に簡素化します。 Triton Inference Server には、前処理パイプラインと後処理パイプラインの構築を簡素化する便利なソリューションが付属しています。 Triton Inference Server プラットフォームは、効率を確保し、スループットを最適化しながら、推論プロセスに参加するモデルをパイプライン化する役割を担う、アンサンブル スケジューラを提供します。 アンサンブル モデルを使用すると、中間テンソルを転送するオーバーヘッドを回避し、Triton に送信する必要がある要求の数を最小限に抑えることができます。
このノートブックでは、アンサンブル機能を使用して、XGBoost モデル推論を使用してデータ前処理のパイプラインを構築する方法を示します。それから推定して、カスタムの後処理をパイプラインに追加できます。
環境をセットアップする
必要な環境をセットアップすることから始めます。 モデル パイプラインをパッケージ化し、Triton Inference Server を使用して推論を実行するために必要な依存関係をインストールします。 また、 AWS IDおよびアクセス管理 モデルアーティファクトと NVIDIA Triton への SageMaker アクセスを許可する (IAM) ロール Amazon エラスティック コンテナ レジストリ (Amazon ECR) 画像。 次のコードを参照してください。
依存関係を前処理するための Conda 環境を作成する
Triton の Python バックエンドでは、 コンダ 追加の依存関係の環境。 この場合、Python バックエンドを使用して生データを前処理してから、FIL バックエンドで実行されている XGBoost モデルにフィードします。 もともと RAPIDS cuDF と cuML を使用してデータの前処理を行っていましたが、ここでは推論中の前処理の依存関係として Pandas と scikit-learn を使用します。 これには次の XNUMX つの理由があります。
- 依存関係用の Conda 環境を作成する方法と、それをパッケージ化する方法を示します。 期待される形式 Triton の Python バックエンドによる。
- XGBoost が FIL バックエンドの GPU で実行されている間に、CPU の Python バックエンドで実行されている前処理モデルを示すことで、Triton のアンサンブル パイプラインの各モデルが異なるフレームワーク バックエンドと異なるハードウェア構成でどのように実行できるかを示します。
- RAPIDS ライブラリ (cuDF、cuML) が対応する CPU (Pandas、scikit-learn) とどのように互換性があるかを強調しています。 たとえば、次の方法を示すことができます。
LabelEncoders
cuML で作成されたものは scikit-learn で使用でき、その逆も可能です。
からの指示に従います。 トリトンのドキュメント 前処理の依存関係 (scikit-learn および Pandas) をパッケージ化して、Python バックエンドで Conda 環境の TAR ファイルとして使用します。 バッシュスクリプト create_prep_env.sh Conda 環境の TAR ファイルを作成し、それを前処理モデル ディレクトリに移動します。 次のコードを参照してください。
上記のスクリプトを実行すると、 preprocessing_env.tar.gz
、これを前処理ディレクトリにコピーします。
Triton Python バックエンドで前処理をセットアップする
前処理には Triton の Python バックエンド サーバーに入ってくる生データ要求の推論中に、表形式のデータの前処理 (カテゴリ エンコード) を実行します。 トレーニング中に行われた前処理の詳細については、 トレーニングノート.
Python バックエンドにより、前処理、後処理、およびその他のカスタム ロジックを Python で実装し、Triton で提供できます。 SageMaker で Triton を使用するには、提供するモデルを含むモデル リポジトリ フォルダーを最初に設定する必要があります。 で前処理と呼ばれる Python データ前処理のモデルを既にセットアップしています。 cpu_model_repository
および gpu_model_repository
.
Triton には、モデル リポジトリのレイアウトに関する特定の要件があります。 最上位のモデル リポジトリ ディレクトリ内に、各モデルには、対応するモデルの情報を含む独自のサブディレクトリがあります。 Triton の各モデル ディレクトリには、モデルのバージョンを表す数値サブディレクトリが少なくとも 1 つ必要です。 値 1 は、Python 前処理モデルのバージョン XNUMX を表します。 各モデルは特定のバックエンドによって実行されるため、各バージョンのサブディレクトリ内には、そのバックエンドが必要とするモデル アーティファクトが存在する必要があります。 この例では、Python バックエンドを使用します。これには、提供する Python ファイルが model.py と呼ばれる必要があり、ファイルは実装する必要があります。 特定の機能. PyTorch バックエンドを使用していた場合、model.pt ファイルが必要になります。 モデル ファイルの命名規則の詳細については、次を参照してください。 モデルファイル.
モデル.py ここで使用する Python ファイルは、すべての表形式データの前処理ロジックを実装して、生データを XGBoost モデルに供給できる機能に変換します。
すべての Triton モデルは、 config.pbtxt
モデル構成を記述したファイル。 構成設定の詳細については、次を参照してください。 モデル構成。 私たちの config.pbtxt ファイルは、バックエンドを python として指定し、生データのすべての入力列と、15 の機能で構成される前処理された出力を指定します。 また、この Python 前処理モデルを CPU で実行することも指定します。 次のコードを参照してください。
FIL バックエンド用にツリーベースの ML モデルを設定する
次に、FIL バックエンドを使用する XGBoost のようなツリーベースの ML モデルのモデル ディレクトリをセットアップします。
予想されるレイアウト cpu_memory_repository
および gpu_memory_repository
前に示したものと似ています。
ここでは、 FIL
モデルの名前です。 次のように別の名前を付けることができます xgboost
必要に応じて。 1
モデル アーティファクトを含むバージョン サブディレクトリです。 この場合、それは xgboost.json
保存したモデル。 この予想されるレイアウトを作成しましょう。
構成ファイルが必要です config.pbtxt
Triton の FIL バックエンドがそれを提供する方法を理解できるように、ツリーベースの ML モデルのモデル構成を記述します。 詳細については、最新のジェネリックを参照してください。 トリトン構成オプション およびに固有の構成オプション FIL バックエンド. この例では、最も一般的で関連性のあるオプションのほんの一部に焦点を当てています。
創造する config.pbtxt
for model_cpu_repository
:
同様に、セットアップ config.pbtxt
for model_gpu_repository
(違いに注意してください USE_GPU = True
):
アンサンブルを使用してデータ前処理 Python バックエンドと FIL バックエンドの推論パイプラインを設定する
これで、データの前処理とツリーベースのモデル推論のために、 アンサンブルモデル. アンサンブル モデルは、XNUMX つ以上のモデルのパイプラインと、それらのモデル間の入力テンソルと出力テンソルの接続を表します。 ここでは、アンサンブル モデルを使用して、Python バックエンドでデータ前処理のパイプラインを構築し、続いて FIL バックエンドで XGBoost を構築します。
の予想されるレイアウト ensemble
モデル ディレクトリは、以前に示したものと似ています。
アンサンブルモデルを作成しました config.pbtxt のガイダンスに従って アンサンブル モデル. 重要なのは、アンサンブル スケジューラを設定する必要があることです。 config.pbtxt
、アンサンブル内のモデル間のデータ フローを指定します。 アンサンブル スケジューラは、各ステップで出力テンソルを収集し、仕様に従って他のステップの入力テンソルとして提供します。
モデル リポジトリをパッケージ化し、Amazon S3 にアップロードする
最後に、次のモデル リポジトリ ディレクトリ構造が完成します。これには、Python 前処理モデルとその依存関係、および XGBoost FIL モデルとモデル アンサンブルが含まれます。
ディレクトリとその内容を次のようにパッケージ化します。 model.tar.gz
へのアップロード用 Amazon シンプル ストレージ サービス (アマゾン S3)。 この例には、CPU ベースのインスタンスまたは GPU ベースのインスタンスを使用する XNUMX つのオプションがあります。 GPU ベースのインスタンスは、より高い処理能力が必要で、CUDA コアを使用したい場合に適しています。
次のコードを使用して、CPU ベースのインスタンス (CPU 用に最適化) のモデル パッケージを作成してアップロードします。
次のコードを使用して、GPU ベースのインスタンス (GPU 用に最適化) のモデル パッケージを作成してアップロードします。
SageMakerエンドポイントを作成する
これで、モデル アーティファクトが S3 バケットに保存されました。 このステップでは、追加の環境変数を提供することもできます SAGEMAKER_TRITON_DEFAULT_MODEL_NAME
Triton によってロードされるモデルの名前を指定します。 このキーの値は、Amazon S3 にアップロードされたモデル パッケージのフォルダー名と一致する必要があります。 単一モデルの場合、この変数はオプションです。 アンサンブル モデルの場合、Triton が SageMaker で起動するには、このキーを指定する必要があります。
さらに、設定することができます SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT
および SAGEMAKER_TRITON_THREAD_COUNT
スレッド数を最適化するため。
前のモデルを使用して、エンドポイントで必要なインスタンスのタイプと数を指定できるエンドポイント構成を作成します
このエンドポイント設定を使用して SageMaker エンドポイントを作成し、デプロイが完了するのを待ちます。 SageMaker MME では、このプロセスを繰り返すことで複数のアンサンブル モデルをホストするオプションがありますが、この例では XNUMX つのデプロイに固執します。
ステータスが変わります InService
デプロイが成功したとき。
SageMaker エンドポイントでホストされているモデルを呼び出す
エンドポイントが実行された後、サンプルの生データを使用して、JSON をペイロード形式として使用して推論を実行できます。 推論リクエスト形式の場合、Triton は KFServing
コミュニティ標準 推論プロトコル。 次のコードを参照してください。
ブログで参照されているノートブックは、 GitHubリポジトリ.
ベストプラクティス
前述の FIL バックエンドの設定を微調整するオプションに加えて、データ サイエンティストは、バックエンドの入力データがエンジンによる処理用に最適化されていることを確認することもできます。 可能な限り、データを行優先形式で GPU 配列に入力します。 他の形式は内部変換を必要とし、サイクルを消費するため、パフォーマンスが低下します。
FIL データ構造が GPU メモリで維持される方法のため、ツリーの深さに注意してください。 ツリーの深さが深いほど、GPU メモリのフットプリントが大きくなります。
instance_group_count
パラメータを使用してワーカー プロセスを追加し、FIL バックエンドのスループットを向上させます。これにより、CPU と GPU のメモリ消費量が増加します。 さらに、HTTP スレッド、HTTP バッファサイズ、バッチサイズ、最大遅延など、スループットを向上させるために使用できる SageMaker 固有の変数を検討してください。
まとめ
この投稿では、Triton Inference Server が SageMaker でサポートする FIL バックエンドについて深く掘り下げました。 このバックエンドは、人気のある XGBoost アルゴリズムなど、ツリーベースのモデルの CPU と GPU アクセラレーションの両方を提供します。 バッチ サイズ、データ入力形式、およびニーズに合わせて調整できるその他の要因など、推論に最適なパフォーマンスを得るために考慮すべき多くのオプションがあります。 SageMaker では、この機能を単一および複数モデルのエンドポイントで使用して、パフォーマンスとコスト削減のバランスを取ることができます。
この投稿の情報を参考にして、SageMaker がツリーベースのモデルを提供するホスティングのニーズを満たし、コスト削減とワークロード パフォーマンスの要件を満たすことができるかどうかを確認することをお勧めします。
この投稿で参照されているノートブックは、SageMaker の例で見つけることができます GitHubリポジトリ. さらに、FIL バックエンドに関する最新のドキュメントは、 GitHubの.
著者について
ラグーラメシャ Amazon SageMaker サービスチームのシニア ML ソリューションアーキテクトです。 彼は、お客様が ML 本番ワークロードを大規模に構築、デプロイ、および SageMaker に移行するのを支援することに重点を置いています。 機械学習、AI、コンピューター ビジョンの分野を専門とし、UT ダラスでコンピューター サイエンスの修士号を取得しています。 余暇には、旅行と写真を楽しんでいます。
ジェームズ・パーク アマゾン ウェブ サービスのソリューション アーキテクトです。 彼は Amazon.com と協力して、AWS でテクノロジー ソリューションを設計、構築、デプロイしており、特に AI と機械学習に関心があります。 余暇には、新しい文化、新しい経験を探し、最新のテクノロジー トレンドを把握することを楽しんでいます。
ダワル・パテル AWS のプリンシパル機械学習アーキテクトです。 大企業から中規模の新興企業まで、さまざまな組織と協力して、分散コンピューティングと人工知能に関連する問題に取り組んできました。 彼は、NLP やコンピューター ビジョン ドメインなどのディープ ラーニングに焦点を当てています。 彼は、お客様が Amazon SageMaker で高性能のモデル推論を実現するのを支援しています。
ジャホン・リュウ NVIDIAのクラウドサービスプロバイダーチームのソリューションアーキテクトです。 彼は、クライアントがNVIDIAアクセラレーションコンピューティングを活用してトレーニングと推論の課題に対処する機械学習とAIソリューションを採用するのを支援しています。 余暇には、折り紙、DIYプロジェクト、バスケットボールを楽しんでいます。
クシチズ・グプタ NVIDIA のソリューション アーキテクトです。 彼は、NVIDIA が提供する GPU AI テクノロジについてクラウドの顧客を教育し、機械学習およびディープ ラーニング アプリケーションの高速化を支援することに喜びを感じています。 仕事以外では、ランニング、ハイキング、野生動物の観察を楽しんでいます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- プラトアイストリーム。 Web3 データ インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- 未来を鋳造する w エイドリエン・アシュリー。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/
- :持っている
- :は
- :not
- :どこ
- $UP
- 1
- 100
- 11
- 13
- 200
- 23
- 24
- 7
- 8
- 9
- a
- 能力
- 私たちについて
- 加速する
- 加速された
- 加速している
- 加速器
- アクセス
- 従った
- それに応じて
- 達成する
- 越えて
- 加えます
- 添加
- NEW
- 住所
- アドレス可能
- 採用
- 後
- に対して
- 協定
- AI
- アルゴリズム
- すべて
- 割り当て
- 許す
- ことができます
- 沿って
- 既に
- また
- しかし
- 常に
- Amazon
- アマゾンセージメーカー
- Amazon Webサービス
- Amazon.com
- 量
- an
- および
- どれか
- API
- 適切な
- 建築
- です
- エリア
- 引数
- 配列
- 人工の
- 人工知能
- AS
- アシスト
- At
- オート
- 利用できます
- 避ける
- AWS
- バックエンド
- ベース
- bash
- 基礎
- バスケットボール
- BE
- なぜなら
- になる
- き
- 始まる
- 背後に
- 以下
- 恩恵
- BEST
- より良いです
- の間に
- より大きい
- ブログ
- ボディ
- 両言語で
- バッファ
- ビルド
- 建物
- 内蔵
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- C + +
- 呼ばれます
- 缶
- カード
- 場合
- 例
- カテゴリー
- 原因となる
- 課題
- 変化する
- 特性
- チェック
- チップ
- 選択する
- 選択する
- 市町村
- class
- 分類
- クライアント
- クライアント
- クラウド
- コード
- コラム
- COM
- comes
- 到来
- コマンドと
- 伝える
- コミュニケーション
- コミュニティ
- 互換性のあります
- 複雑な
- 計算
- コンピュータ
- コンピュータサイエンス
- Computer Vision
- コンピューティング
- 接続
- 検討
- 見なさ
- 消費する
- 消費
- コンテナ
- コンテナ
- 含まれています
- 中身
- コントラスト
- コントロール
- 便利
- 変換
- 変換
- 基本
- 対応する
- 費用
- コスト削減
- コスト削減
- カバー
- 作ります
- 作成した
- 作成します。
- 基準
- 重大な
- 現在
- カスタム
- Customers
- サイクル
- ダラス
- データ
- 日付
- 中
- 取引
- 決定
- 深いです
- 深い学習
- より深い
- デフォルト
- デフォルト
- 度
- 遅らせる
- 厳しい
- 需要
- によっては
- 展開します
- 展開
- 展開する
- 展開
- 深さ
- 設計
- 細部
- 決定する
- 決定
- 決定する
- 決定
- 開発者
- 違い
- 異なります
- 配布
- 分散コンピューティング
- Diy
- do
- ドキュメント
- そうではありません
- すること
- ドメイン
- 行われ
- どこ
- 原因
- 間に
- 各
- 前
- 教育する
- 効率
- 効率良く
- どちら
- 強調
- 可能
- 奨励する
- end
- エンドポイント
- エンジン
- エンジン
- 確保
- 確保する
- Enterprise
- 企業
- 全体
- 環境
- エラー
- さらに
- あらゆる
- 例
- 例
- 交換
- 期待する
- 予想される
- エクスペリエンス
- export
- 要因
- かなり
- フォールズ
- false
- 特徴
- 特徴
- FRBは
- 摂食
- 少数の
- フィギュア
- File
- もう完成させ、ワークスペースに掲示しましたか?
- 仕上げ
- 名
- フロー
- フォーカス
- 焦点を当てて
- 続いて
- フォロー中
- フットプリント
- フォーム
- 形式でアーカイブしたプロジェクトを保存します.
- 発見
- フレームワーク
- フレームワーク
- 詐欺
- 無料版
- から
- さらに
- 利益
- 生成
- 取得する
- 与える
- 与えられた
- GPU
- 大いに
- グループ
- グループの
- ガイダンス
- 起こる
- ハード
- Hardware
- 持ってる
- he
- 助けます
- 助け
- ことができます
- こちら
- ハイレベル
- ハイパフォーマンス
- より高い
- ハイライト
- 彼の
- 保持している
- host
- 主催
- ホスティング
- 認定条件
- How To
- しかしながら
- HTML
- HTTP
- HTTPS
- 傷つける
- アイデンティティ
- イド
- IDX
- if
- 画像
- 影響
- 影響
- 実装する
- 実装
- 実装する
- 輸入
- in
- include
- 含めて
- 増える
- を示し
- 情報
- 情報に基づく
- install
- 説明書
- 統合
- インテリジェンス
- 関心
- 内部
- に
- IT
- ITS
- JPG
- JSON
- ただ
- キープ
- キー
- 種類
- 知っている
- 大
- 大企業
- より大きい
- レイテンシ
- 最新の
- レイアウト
- LEARN
- 学習
- 最低
- ツェッペリン
- 正当な
- less
- レベル
- レベル
- 活用します
- ライブラリ
- 図書館
- ような
- LIMIT
- LINE
- リスト
- 負荷
- ロジック
- 論理的な
- 長い
- 機械
- 機械学習
- make
- 管理します
- 多くの
- マスターの
- 一致
- マックス
- 五月..
- メカニズム
- 大会
- ご相談
- メモリ
- 言及した
- マーチャント
- メトリック
- かもしれない
- 移動します
- マインド
- ML
- モード
- モデル
- 月
- 他には?
- 最も
- 一番人気
- マルチモデル エンドポイント
- の試合に
- しなければなりません
- 名
- 命名
- ネイティブ
- 必要
- ニーズ
- 新作
- NLP
- いいえ
- ノード
- ノート
- 今
- 数
- numpy
- Nvidia
- 入手する
- of
- 提供
- オファー
- 頻繁に
- on
- ONE
- もの
- の
- オープンソース
- 最適な
- 最適化
- 最適化
- 最適化
- 最適化
- オプション
- オプション
- or
- 注文
- 組織
- 整理
- 元々
- OS
- その他
- さもないと
- 私たちの
- でる
- 出力
- 外側
- 自分の
- パッケージ
- 包装
- パンダ
- 並列シミュレーションの設定
- パラメーター
- パラメータ
- 参加する
- 特定の
- 渡された
- パス
- path
- 実行する
- パフォーマンス
- 実行する
- 許可
- 写真撮影
- パイプライン
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 再生
- お願いします
- 過多
- ポリシー
- 方針
- プール
- 人気
- 人気
- 可能
- おそらく
- ポスト
- 電力
- 予測する
- 予測可能な
- 予測
- 予測
- 予測
- 前に
- 主要な
- 校長
- 問題
- プロセス
- ラボレーション
- 処理
- 処理能力
- プロセッサ
- 作り出す
- 生産
- プロジェクト(実績作品)
- 適切な
- プロト
- 提供します
- 提供
- プロバイダー
- は、大阪で
- 提供
- Python
- パイトーチ
- ランダム
- 測距
- むしろ
- Raw
- 準備
- 現実の世界
- への
- 理由は
- 推奨する
- 減らします
- 言及
- 関係なく
- 地域
- 関連する
- 関連した
- replace
- 倉庫
- 表現
- 表します
- 表し
- 要求
- リクエスト
- 必要とする
- の提出が必要です
- 要件
- 必要
- 応答
- 責任
- 結果
- 結果
- 職種
- ラン
- ランニング
- s
- セージメーカー
- SageMaker の推論
- 同じ
- 貯蓄
- ド電源のデ
- 規模
- スケーリング
- シナリオ
- スケジューリング
- 科学
- 科学者たち
- scikit-学ぶ
- スコア
- セクション
- を求める
- 選択
- 送信
- シニア
- 別
- 役立つ
- サービス
- サービスプロバイダー
- サービス
- サービング
- セッションに
- 設定
- 設定
- 形状
- shared
- すべき
- 表示する
- 作品
- 側
- 著しく
- 同様の
- 簡単な拡張で
- サイズ
- サイズ
- So
- 溶液
- ソリューション
- 解決する
- 解決
- 一部
- ソース
- 専門にする
- 特定の
- 仕様
- 指定の
- 過ごす
- 標準
- start
- 起動
- スタートアップ
- 都道府県
- Status:
- 着実
- 手順
- ステップ
- ストレージ利用料
- 店舗
- 保存され
- 簡単な
- 文字列
- 構造
- 成功した
- そのような
- 示唆する
- 適当
- サポート
- サポート
- サポート
- 取る
- チーム
- テクニック
- テクノロジー
- テクノロジー
- 言う
- 条件
- より
- それ
- 情報
- アプリ環境に合わせて
- それら
- その後
- そこ。
- ボーマン
- 彼ら
- もの
- この
- それらの
- しかし?
- 三
- しきい値
- スループット
- 時間
- 〜へ
- 今日
- 一緒に
- トップレベル
- 伝統的に
- 訓練された
- トレーニング
- 転送
- 旅行
- ツリー
- トレンド
- トリトン
- true
- 2
- type
- 一般的に
- わかる
- アップロード
- アップロード
- us
- つかいます
- 中古
- ユーザー
- 利用
- 活用
- 値
- 価値観
- さまざまな
- バージョン
- 、
- ビジョン
- W
- wait
- 欲しいです
- ました
- 見ている
- 仕方..
- we
- ウェブ
- Webサービス
- WELL
- した
- この試験は
- いつ
- たびに
- かどうか
- which
- while
- 意志
- 以内
- 無し
- 仕事
- 働いていました
- ワーカー
- 作品
- でしょう
- XGブースト
- 年
- You
- あなたの
- ゼファーネット
- 〒