Hospedagem de modelos de ML no Amazon SageMaker usando Triton: modelos XGBoost, LightGBM e Treelite

Republicado por Platão

seguidores: 0

Um dos modelos mais populares disponíveis hoje é o XGBoost. Com a capacidade de resolver vários problemas, como classificação e regressão, o XGBoost tornou-se uma opção popular que também se enquadra na categoria de modelos baseados em árvore. Neste post, mergulhamos fundo para ver como Amazon Sage Maker pode atender a esses modelos usando Servidor de inferência NVIDIA Triton. Cargas de trabalho de inferência em tempo real podem ter níveis variados de requisitos e acordos de nível de serviço (SLAs) em termos de latência e taxa de transferência, e podem ser atendidas usando terminais em tempo real do SageMaker.

SageMaker fornece endpoints de modelo único, que permitem implantar um único modelo de aprendizado de máquina (ML) em um ponto de extremidade lógico. Para outros casos de uso, você pode optar por gerenciar custo e desempenho usando endpoints multi-modelo, que permitem especificar vários modelos para hospedar atrás de um endpoint lógico. Independentemente da opção que você escolher, os terminais SageMaker permitem um mecanismo escalável até mesmo para os clientes corporativos mais exigentes, ao mesmo tempo em que fornecem valor em uma infinidade de recursos, incluindo variantes de sombra, dimensionamento automáticoe integração nativa com Amazon CloudWatch (para mais informações, consulte Métricas do CloudWatch para implantações de endpoint de vários modelos).

O Triton oferece suporte a vários back-ends como mecanismos para dar suporte à execução e à exibição de vários modelos de ML para inferência. Para qualquer implantação do Triton, é crucial saber como o comportamento do back-end afeta suas cargas de trabalho e o que esperar para que você seja bem-sucedido. Neste post, ajudamos você a entender o Biblioteca de inferência florestal (FIL) back-end, que é suportado pelo Triton no SageMaker, para que você possa tomar uma decisão informada para suas cargas de trabalho e obter o melhor desempenho e otimização de custo possível.

Mergulhe profundamente no back-end do FIL

Tritão apoia o FIL back-end para servir modelos de árvore, como XGBoostName, LuzGBM, scikit-learn Floresta Aleatória, Floresta Aleatória RAPIDS cuML, e qualquer outro modelo suportado por Treelite. Esses modelos há muito são usados para resolver problemas como classificação ou regressão. Embora esses tipos de modelos sejam tradicionalmente executados em CPUs, a popularidade desses modelos e as demandas de inferência levaram a várias técnicas para aumentar o desempenho da inferência. O back-end FIL utiliza muitas dessas técnicas usando construções cuML e é construído em C++ e na biblioteca principal CUDA para otimizar o desempenho de inferência em aceleradores de GPU.

O back-end FIL usa bibliotecas cuML para usar núcleos de CPU ou GPU para acelerar o aprendizado. Para usar esses processadores, os dados são referenciados da memória do host (por exemplo, arrays NumPy) ou arrays GPU (uDF, Numba, cuPY ou qualquer biblioteca que suporte o __cuda_array_interface__) API. Depois que os dados são preparados na memória, o back-end FIL pode executar o processamento em todos os núcleos de CPU ou GPU disponíveis.

Os threads de back-end do FIL podem se comunicar entre si sem utilizar a memória compartilhada do host, mas em cargas de trabalho de conjunto, a memória do host deve ser considerada. O diagrama a seguir mostra uma arquitetura de tempo de execução do agendador de conjunto onde você tem a capacidade de ajustar as áreas de memória, incluindo a memória compartilhada endereçável da CPU que é usada para comunicação entre processos entre Triton (C++) e o processo Python (back-end Python) para troca tensores (entrada/saída) com o back-end FIL.

Hospedagem de modelos de ML no Amazon SageMaker usando Triton: modelos XGBoost, LightGBM e Treelite PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O Triton Inference Server fornece opções configuráveis para que os desenvolvedores ajustem suas cargas de trabalho e otimizem o desempenho do modelo. a configuração dynamic_batching permite que o Triton mantenha as solicitações do lado do cliente e as agrupe no lado do servidor para usar com eficiência a computação paralela do FIL para inferir todo o lote. A opção max_queue_delay_microseconds oferece um controle à prova de falhas de quanto tempo o Triton espera para formar um lote.

Há uma série de outras aplicações específicas de FIL opções disponíveis que afetam o desempenho e o comportamento. Sugerimos começar com storage_type. Ao executar o back-end na GPU, o FIL cria uma nova estrutura de memória/dados que é uma representação da árvore para a qual o FIL pode afetar o desempenho e a pegada. Isso é configurável por meio do parâmetro de ambiente storage_type, que tem as opções densa, esparsa e automática. Escolher a opção densa consumirá mais memória da GPU e nem sempre resulta em melhor desempenho, então é melhor verificar. Por outro lado, a opção esparsa consumirá menos memória da GPU e possivelmente terá um desempenho tão bom ou melhor que o denso. Escolher auto fará com que o modelo seja padronizado como denso, a menos que isso consuma significativamente mais memória da GPU do que esparsa.

Quando se trata de desempenho do modelo, você pode considerar enfatizar o threads_per_tree opção. Uma coisa que você pode exagerar em cenários do mundo real é que threads_per_tree pode ter um impacto maior na taxa de transferência do que qualquer outro parâmetro. Defini-lo para qualquer potência de 2 de 1 a 32 é legítimo. O valor ideal é difícil de prever para esse parâmetro, mas quando se espera que o servidor lide com uma carga maior ou processe tamanhos de lote maiores, ele tende a se beneficiar de um valor maior do que quando está processando algumas linhas por vez.

Outro parâmetro a ter em atenção é algo, que também está disponível se você estiver executando em GPU. Esse parâmetro determina o algoritmo usado para processar as solicitações de inferência. As opções suportadas para isso são ALGO_AUTO, NAIVE, TREE_REORG e BATCH_TREE_REORG. Essas opções determinam como os nós dentro de uma árvore são organizados e também podem resultar em ganhos de desempenho. O ALGO_AUTO opção padrão para NAIVE para armazenamento esparso e BATCH_TREE_REORG para armazenamento denso.

Por fim, o FIL vem com o explicador Shapley, que pode ser ativado usando o treeshap_output parâmetro. No entanto, você deve ter em mente que as saídas Shapley prejudicam o desempenho devido ao seu tamanho de saída.

Formato do modelo

Atualmente, não há um formato de arquivo padrão para armazenar modelos baseados em floresta; cada framework tende a definir seu próprio formato. Para suportar vários formatos de arquivo de entrada, o FIL importa dados usando o código aberto Treelite biblioteca. Isso permite que o FIL suporte modelos treinados em estruturas populares, como XGBoostName e Light GBM. Observe que o formato do modelo que você está fornecendo deve ser definido no model_type valor de configuração especificado no config.pbtxt arquivo.

config.pbtxt

Cada modelo em um repositório modelo deve incluir uma configuração de modelo que forneça as informações necessárias e opcionais sobre o modelo. Normalmente, essa configuração é fornecida em um config.pbtxt arquivo especificado como Protocolo ModelConfig. Para saber mais sobre as definições de configuração, consulte Configuração do modelo. A seguir estão alguns dos parâmetros de configuração do modelo:

max_batch_size – Isso determina o tamanho máximo do lote que pode ser passado para esse modelo. Em geral, o único limite no tamanho dos lotes passados para um back-end FIL é a memória disponível para processá-los. Para execuções de GPU, a memória disponível é determinada pelo tamanho do pool de memória CUDA do Triton, que pode ser definido por meio de um argumento de linha de comando ao iniciar o servidor.
entrada – As opções nesta seção informam ao Triton o número de recursos a serem esperados para cada amostra de entrada.
saída – As opções nesta seção informam ao Triton quantos valores de saída haverá para cada amostra. Se o predict_proba opção for definida como verdadeira, um valor de probabilidade será retornado para cada classe. Caso contrário, um único valor será retornado, indicando a classe prevista para a amostra dada.
grupo_de_instância – Isso determina quantas instâncias deste modelo serão criadas e se elas usarão GPU ou CPU.
tipo de modelo – Esta string indica em qual formato o modelo está (xgboost_json neste exemplo, mas xgboost, lightgbm e tl_checkpoint também são formatos válidos).
previsão_proba – Se definido como true, os valores de probabilidade serão retornados para cada classe em vez de apenas uma previsão de classe.
classe_saída – Isso é definido como verdadeiro para modelos de classificação e falso para modelos de regressão.
limiar – Este é um limite de pontuação para determinar a classificação. Quando output_class for definido como verdadeiro, isso deve ser fornecido, embora não seja usado se predict_proba também é definido como verdadeiro.
Tipo de armazenamento – Em geral, usar AUTO para esta configuração deve atender à maioria dos casos de uso. Se o armazenamento AUTO for selecionado, o FIL carregará o modelo usando uma representação esparsa ou densa com base no tamanho aproximado do modelo. Em alguns casos, você pode querer definir isso explicitamente como SPARSE para reduzir o consumo de memória de modelos grandes.

Servidor de inferência Triton no SageMaker

SageMaker permite você implemente endpoints de modelo único e multimodelo com o NVIDIA Triton Inference Server. A figura a seguir mostra a arquitetura de alto nível do Triton Inference Server. O repositório modelo é um repositório baseado em sistema de arquivos dos modelos que o Triton disponibilizará para inferência. As solicitações de inferência chegam ao servidor e são roteadas para o planejador apropriado por modelo. implementos Triton vários algoritmos de agendamento e lotes que podem ser configurados modelo a modelo. O escalonador de cada modelo opcionalmente realiza lotes de solicitações de inferência e, em seguida, passa as solicitações para o backend correspondente ao tipo de modelo. O back-end realiza inferência usando as entradas fornecidas nas solicitações em lote para produzir as saídas solicitadas. As saídas são então retornadas.

Ao configurar seus grupos de dimensionamento automático para endpoints SageMaker, você pode querer considerar SageMakerVariantInvocationsPerInstance como o critério principal para determinar as características de escalabilidade do seu grupo de escalabilidade automática. Além disso, dependendo se seus modelos estão sendo executados em GPU ou CPU, você também pode considerar o uso de CPUUtilization ou GPUUtilization como critérios adicionais. Observe que, para endpoints de modelo único, como os modelos implantados são todos iguais, é bastante simples definir as políticas adequadas para atender aos seus SLAs. Para endpoints de vários modelos, recomendamos implantar modelos semelhantes atrás de um determinado endpoint para ter um desempenho previsível mais estável. Em casos de uso em que modelos de tamanhos e requisitos variados são usados, convém separar essas cargas de trabalho em vários endpoints de vários modelos ou passar algum tempo ajustando sua política de grupo de dimensionamento automático para obter o melhor equilíbrio de custo e desempenho.

Hospedagem de modelos de ML no Amazon SageMaker usando Triton: modelos XGBoost, LightGBM e Treelite PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Para obter uma lista de NVIDIA Triton Deep Learning Containers (DLCs) compatíveis com a inferência do SageMaker, consulte Imagens de recipientes de aprendizagem profunda disponíveis.

Passo a passo do notebook SageMaker

Os aplicativos de ML são complexos e geralmente podem exigir pré-processamento de dados. Neste notebook, nos aprofundamos em como implantar um modelo de ML baseado em árvore como XGBoost usando o back-end FIL em Triton em um endpoint multimodelo SageMaker. Também abordamos como implementar um pipeline de inferência de pré-processamento de dados baseado em Python para seu modelo usando o recurso de conjunto no Triton. Isso nos permitirá enviar os dados brutos do lado do cliente e fazer com que o pré-processamento de dados e a inferência de modelo ocorram em um ponto de extremidade Triton SageMaker para desempenho de inferência ideal.

Recurso de conjunto de modelos Triton

O Triton Inference Server simplifica muito a implantação de modelos de IA em escala na produção. O Triton Inference Server vem com uma solução conveniente que simplifica a criação de pipelines de pré-processamento e pós-processamento. A plataforma Triton Inference Server fornece o agendador de conjunto, que é responsável por modelar os modelos que participam do processo de inferência, garantindo eficiência e otimizando a taxa de transferência. O uso de modelos de conjunto pode evitar a sobrecarga de transferência de tensores intermediários e minimizar o número de solicitações que devem ser enviadas ao Triton.

Hospedagem de modelos de ML no Amazon SageMaker usando Triton: modelos XGBoost, LightGBM e Treelite PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Neste notebook, mostramos como usar o recurso de conjunto para criar um pipeline de pré-processamento de dados com inferência de modelo XGBoost, e você pode extrapolar a partir dele para adicionar pós-processamento personalizado ao pipeline.

Configure o ambiente

Começamos configurando o ambiente necessário. Instalamos as dependências necessárias para empacotar nosso pipeline de modelo e executamos inferências usando o Triton Inference Server. Também definimos o Gerenciamento de acesso e identidade da AWS (IAM) que dará ao SageMaker acesso aos artefatos do modelo e ao NVIDIA Triton Registro do Amazon Elastic Container (Amazon ECR). Veja o seguinte código:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

Crie um ambiente Conda para dependências de pré-processamento

O back-end do Python no Triton exige que usemos um Conda ambiente para quaisquer dependências adicionais. Nesse caso, usamos o back-end do Python para pré-processar os dados brutos antes de alimentá-los no modelo XGBoost que está sendo executado no back-end do FIL. Embora originalmente tenhamos usado RAPIDS cuDF e cuML para fazer o pré-processamento de dados, aqui usamos Pandas e scikit-learn como dependências de pré-processamento durante a inferência. Fazemos isso por três motivos:

Mostramos como criar um ambiente Conda para suas dependências e como empacotá-lo no formato esperado pelo backend Python da Triton.
Ao mostrar o modelo de pré-processamento em execução no back-end do Python na CPU enquanto o XGBoost é executado na GPU no back-end do FIL, ilustramos como cada modelo no pipeline do Triton pode ser executado em um back-end de estrutura diferente, bem como em diferentes configurações de hardware.
Ele destaca como as bibliotecas RAPIDS (cuDF, cuML) são compatíveis com suas contrapartes de CPU (Pandas, scikit-learn). Por exemplo, podemos mostrar como LabelEncoders criado em cuML pode ser usado em scikit-learn e vice-versa.

Seguimos as instruções do Documentação do Triton para empacotar dependências de pré-processamento (scikit-learn e Pandas) a serem usadas no back-end do Python como um arquivo TAR do ambiente Conda. o script bash create_prep_env.sh cria o arquivo TAR do ambiente Conda e, em seguida, o movemos para o diretório do modelo de pré-processamento. Veja o seguinte código:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

Depois de executarmos o script anterior, ele gera preprocessing_env.tar.gz, que copiamos para o diretório de pré-processamento:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Configure o pré-processamento com o back-end Triton Python

Para o pré-processamento, usamos o Triton's back-end Python para executar o pré-processamento de dados tabulares (codificação categórica) durante a inferência para solicitações de dados brutos que chegam ao servidor. Para obter mais informações sobre o pré-processamento feito durante o treinamento, consulte o caderno de treinamento.

O back-end do Python permite que o pré-processamento, o pós-processamento e qualquer outra lógica personalizada sejam implementados no Python e servidos com o Triton. O uso do Triton no SageMaker requer que primeiro configuremos uma pasta de repositório de modelo contendo os modelos que queremos servir. Já configuramos um modelo para pré-processamento de dados Python chamado pré-processamento em cpu_model_repository e gpu_model_repository.

Hospedagem de modelos de ML no Amazon SageMaker usando Triton: modelos XGBoost, LightGBM e Treelite PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O Triton possui requisitos específicos para o layout do repositório de modelos. Dentro do diretório de repositório de modelo de nível superior, cada modelo possui seu próprio subdiretório contendo as informações para o modelo correspondente. Cada diretório de modelo no Triton deve ter pelo menos um subdiretório numérico representando uma versão do modelo. O valor 1 representa a versão 1 do nosso modelo de pré-processamento do Python. Cada modelo é executado por um backend específico, portanto, dentro de cada subdiretório de versão deve haver o artefato de modelo exigido por esse backend. Para este exemplo, usamos o back-end Python, que requer que o arquivo Python que você está servindo seja chamado model.py, e o arquivo precisa implementar certas funções. Se estivéssemos usando um back-end PyTorch, um arquivo model.pt seria necessário e assim por diante. Para obter mais detalhes sobre convenções de nomenclatura para arquivos de modelo, consulte Arquivos de modelo.

A modelo.py O arquivo Python que usamos aqui implementa toda a lógica de pré-processamento de dados tabulares para converter dados brutos em recursos que podem ser alimentados em nosso modelo XGBoost.

Cada modelo Triton também deve fornecer um config.pbtxt arquivo que descreve a configuração do modelo. Para saber mais sobre as definições de configuração, consulte Configuração do modelo. Nossos agentes de config.pbtxt file especifica o back-end como python e todas as colunas de entrada para dados brutos junto com a saída pré-processada, que consiste em 15 recursos. Também especificamos que queremos executar esse modelo de pré-processamento do Python na CPU. Veja o seguinte código:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

Configure um modelo de ML baseado em árvore para o back-end FIL

Em seguida, configuramos o diretório do modelo para um modelo de ML baseado em árvore como o XGBoost, que usará o back-end FIL.

O layout esperado para cpu_memory_repository e gpu_memory_repository são semelhantes ao que mostramos anteriormente.

Hospedagem de modelos de ML no Amazon SageMaker usando Triton: modelos XGBoost, LightGBM e Treelite PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Aqui, FIL é o nome do modelo. Podemos dar um nome diferente como xgboost se quisermos. 1 é o subdiretório da versão, que contém o artefato de modelo. Neste caso, é o xgboost.json modelo que salvamos. Vamos criar este layout esperado:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

Precisamos ter o arquivo de configuração config.pbtxt descrevendo a configuração do modelo para o modelo de ML baseado em árvore, para que o back-end FIL no Triton possa entender como atendê-lo. Para obter mais informações, consulte a versão genérica mais recente Opções de configuração do Triton e as opções de configuração específicas para o FIL back-end. Nós nos concentramos em apenas algumas das opções mais comuns e relevantes neste exemplo.

Crie config.pbtxt para model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Da mesma forma, configure config.pbtxt para model_gpu_repository (note que a diferença é USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Configure um pipeline de inferência do back-end Python de pré-processamento de dados e do back-end FIL usando conjuntos

Agora estamos prontos para configurar o pipeline de inferência para pré-processamento de dados e inferência de modelo baseado em árvore usando um modelo de conjunto. Um modelo de conjunto representa um pipeline de um ou mais modelos e a conexão de tensores de entrada e saída entre esses modelos. Aqui, usamos o modelo de conjunto para criar um pipeline de pré-processamento de dados no back-end do Python, seguido por XGBoost no back-end do FIL.

O layout esperado para o ensemble O diretório do modelo é semelhante aos que mostramos anteriormente:

Hospedagem de modelos de ML no Amazon SageMaker usando Triton: modelos XGBoost, LightGBM e Treelite PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

Criamos o modelo de conjunto config.pbtxt seguindo as orientações de Modelos de conjunto. Importante, precisamos configurar o agendador de conjunto em config.pbtxt, que especifica o fluxo de dados entre os modelos dentro do conjunto. O escalonador de conjunto coleta os tensores de saída em cada etapa e os fornece como tensores de entrada para outras etapas de acordo com a especificação.

Empacote o repositório do modelo e carregue no Amazon S3

Por fim, terminamos com a seguinte estrutura de diretório de repositório de modelo, contendo um modelo de pré-processamento Python e suas dependências junto com o modelo XGBoost FIL e o conjunto de modelos.

Hospedagem de modelos de ML no Amazon SageMaker usando Triton: modelos XGBoost, LightGBM e Treelite PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Empacotamos o diretório e seu conteúdo como model.tar.gz para carregar para Serviço de armazenamento simples da Amazon (Amazônia S3). Temos duas opções neste exemplo: usar uma instância baseada em CPU ou uma instância baseada em GPU. Uma instância baseada em GPU é mais adequada quando você precisa de maior capacidade de processamento e deseja usar núcleos CUDA.

Crie e faça upload do pacote de modelo para uma instância baseada em CPU (otimizada para CPU) com o seguinte código:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Crie e carregue o pacote de modelo para uma instância baseada em GPU (otimizada para GPU) com o seguinte código:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Crie um endpoint SageMaker

Agora temos os artefatos do modelo armazenados em um bucket do S3. Nesta etapa, também podemos fornecer a variável de ambiente adicional SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, que especifica o nome do modelo a ser carregado pelo Triton. O valor dessa chave deve corresponder ao nome da pasta no pacote de modelo carregado no Amazon S3. Esta variável é opcional no caso de um único modelo. No caso de modelos ensemble, esta chave deve ser especificada para que o Triton inicie no SageMaker.

Além disso, você pode definir SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT e SAGEMAKER_TRITON_THREAD_COUNT para otimizar a contagem de threads.

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Usamos o modelo anterior para criar uma configuração de endpoint onde podemos especificar o tipo e o número de instâncias que queremos no endpoint

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

Usamos essa configuração de endpoint para criar um endpoint SageMaker e aguardar a conclusão da implantação. Com os MMEs do SageMaker, temos a opção de hospedar vários modelos de conjunto repetindo esse processo, mas mantemos uma implantação para este exemplo:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

O estado mudará para InService quando a implantação for bem-sucedida.

Invoque seu modelo hospedado no terminal SageMaker

Depois que o endpoint estiver em execução, podemos usar alguns dados brutos de amostra para realizar a inferência usando JSON como formato de carga útil. Para o formato de solicitação de inferência, o Triton usa o KFServing padrão da comunidade protocolos de inferência. Veja o seguinte código:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

O caderno referido no blog pode ser encontrado no Repositório GitHub.

Melhores práticas

Além das opções para ajustar as configurações do back-end do FIL mencionadas anteriormente, os cientistas de dados também podem garantir que os dados de entrada do back-end sejam otimizados para processamento pelo mecanismo. Sempre que possível, insira dados no formato de linha principal na matriz da GPU. Outros formatos exigirão conversão interna e ciclos de ocupação, diminuindo o desempenho.

Devido à forma como as estruturas de dados do FIL são mantidas na memória da GPU, fique atento à profundidade da árvore. Quanto mais profunda a profundidade da árvore, maior será o consumo de memória da GPU.

Use o instance_group_count parâmetro para adicionar processos de trabalho e aumentar a taxa de transferência do back-end FIL, o que resultará em maior consumo de memória de CPU e GPU. Além disso, considere as variáveis específicas do SageMaker que estão disponíveis para aumentar a taxa de transferência, como encadeamentos HTTP, tamanho do buffer HTTP, tamanho do lote e atraso máximo.

Conclusão

Nesta postagem, nos aprofundamos no back-end FIL compatível com o Triton Inference Server no SageMaker. Esse back-end fornece aceleração de CPU e GPU de seus modelos baseados em árvore, como o popular algoritmo XGBoost. Há muitas opções a serem consideradas para obter o melhor desempenho para inferência, como tamanhos de lote, formatos de entrada de dados e outros fatores que podem ser ajustados para atender às suas necessidades. O SageMaker permite que você use esse recurso com endpoints de modelo único e multimodelo para equilibrar desempenho e economia de custos.

Incentivamos você a pegar as informações deste post e ver se o SageMaker pode atender às suas necessidades de hospedagem para atender a modelos baseados em árvore, atendendo aos seus requisitos de redução de custos e desempenho da carga de trabalho.

O notebook referenciado nesta postagem pode ser encontrado nos exemplos do SageMaker Repositório GitHub. Além disso, você pode encontrar a documentação mais recente sobre o back-end FIL em GitHub.

Sobre os autores

Hospedagem de modelos de ML no Amazon SageMaker usando Triton: modelos XGBoost, LightGBM e Treelite PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Raghu Ramesha é arquiteto sênior de soluções de ML da equipe do Amazon SageMaker Service. Ele se concentra em ajudar os clientes a criar, implantar e migrar cargas de trabalho de produção de ML para o SageMaker em escala. Ele é especialista em domínios de aprendizado de máquina, IA e visão computacional e possui mestrado em Ciência da Computação pela UT Dallas. Nas horas vagas gosta de viajar e fotografar.

James Park é Arquiteto de Soluções na Amazon Web Services. Ele trabalha com a Amazon.com para projetar, criar e implantar soluções de tecnologia na AWS e tem um interesse particular em IA e aprendizado de máquina. Em seu tempo livre, gosta de buscar novas culturas, novas experiências e manter-se atualizado com as últimas tendências tecnológicas.

Dhawal Patel é Arquiteto Principal de Machine Learning na AWS. Ele trabalhou com organizações que vão de grandes empresas a startups de médio porte em problemas relacionados à computação distribuída e inteligência artificial. Ele se concentra em aprendizado profundo, incluindo domínios de PNL e visão computacional. Ele ajuda os clientes a obter inferência de modelo de alto desempenho no Amazon SageMaker.

Jiahong Liu é arquiteto de soluções na equipe de provedores de serviços de nuvem da NVIDIA. Ele auxilia os clientes na adoção de soluções de aprendizado de máquina e IA que aproveitam a computação acelerada da NVIDIA para enfrentar seus desafios de treinamento e inferência. Em seu tempo de lazer, ele gosta de origami, projetos de bricolage e jogar basquete.

Kshitiz Gupta é arquiteto de soluções da NVIDIA. Ele gosta de educar os clientes de nuvem sobre as tecnologias de IA de GPU que a NVIDIA tem a oferecer e ajudá-los a acelerar seus aplicativos de aprendizado de máquina e aprendizado profundo. Fora do trabalho, ele gosta de correr, fazer caminhadas e observar a vida selvagem.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoAiStream. Inteligência de Dados Web3. Conhecimento Amplificado. Acesse aqui.
Cunhando o Futuro com Adryenn Ashley. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

Carimbo de hora: 2 de maio de 2023

Carimbo de hora: 30 de abril, 2024

Transferir aprendizado para modelos de detecção de objetos do TensorFlow no Amazon SageMaker

Grupo de origem:

Aprendizado de máquina da AWS

Nó Fonte: 1736165

Carimbo de hora: 4 Novembro, 2022

Republicado por Platão

Como a Sophos treina um detector de malware de PDF poderoso e leve em ultraescala com o Amazon SageMaker

Obtenha melhores insights de avaliações usando o Amazon Comprehend

Crie uma solução de verificação de vacinação usando o recurso Consultas no Amazon Textract | Amazon Web Services

Anunciando o conector Salesforce atualizado (V2) para Amazon Kendra

O Amazon SageMaker Autopilot é até oito vezes mais rápido com o novo modo de treinamento ensemble desenvolvido com AutoGluon

Como a Yara está usando os recursos MLOps do Amazon SageMaker para dimensionar a otimização de energia em suas fábricas de amônia

Transferir aprendizado para modelos de detecção de objetos do TensorFlow no Amazon SageMaker

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta