Presentamos el kit de herramientas de evaluación comparativa de inferencia sin servidor de Amazon SageMaker

Reeditado por Platón

seguidores: 0

Inferencia sin servidor de Amazon SageMaker es una opción de inferencia especialmente diseñada que le facilita implementar y escalar modelos de aprendizaje automático (ML). Proporciona un modelo de pago por uso, que es ideal para servicios donde las invocaciones de puntos finales son poco frecuentes e impredecibles. A diferencia de un punto final de alojamiento en tiempo real, que está respaldado por una instancia de ejecución prolongada, los recursos informáticos para los puntos finales sin servidor se aprovisionan a pedido, lo que elimina la necesidad de elegir tipos de instancias o administrar políticas de escalado.

La siguiente arquitectura de alto nivel ilustra cómo funciona un punto final sin servidor. Un cliente invoca un punto de enlace, que está respaldado por una infraestructura administrada por AWS.

Sin embargo, los puntos finales sin servidor son propensos a inicios en frío del orden de segundos y, por lo tanto, son más adecuados para cargas de trabajo intermitentes o impredecibles.

Para ayudar a determinar si un punto final sin servidor es la opción de implementación correcta desde una perspectiva de costo y rendimiento, hemos desarrollado el Kit de herramientas de evaluación comparativa de inferencia sin servidor de SageMaker, que prueba diferentes configuraciones de puntos finales y compara la más óptima con una instancia de alojamiento en tiempo real comparable.

En esta publicación, presentamos el kit de herramientas y brindamos una descripción general de su configuración y resultados.

Resumen de la solución

Puede descargar el kit de herramientas e instalarlo desde el Repositorio GitHub. Comenzar es fácil: simplemente instale la biblioteca, cree un modelo de SageMakery proporciona el nombre de tu modelo junto con un archivo con formato de líneas JSON que contiene un conjunto de muestra de parámetros de invocación, incluido el cuerpo de la carga útil y el tipo de contenido. Se proporciona una función conveniente para convertir una lista de argumentos de invocación de muestra en un archivo de líneas JSON o un archivo pickle para cargas binarias como imágenes, video o audio.

Instalar el juego de herramientas

Primero instale la biblioteca de evaluación comparativa en su entorno de Python usando pip:

pip install sm-serverless-benchmarking

Puede ejecutar el siguiente código desde un Estudio Amazon SageMaker ejemplo, Instancia de cuaderno de SageMaker, o cualquier instancia con acceso programático a AWS y el apropiado Gestión de identidades y accesos de AWS (IAM) permisos. Los permisos de IAM necesarios se documentan en el Repositorio GitHub. Para obtener orientación adicional y políticas de ejemplo para IAM, consulte Cómo funciona Amazon SageMaker con IAM. Este código ejecuta un punto de referencia con un conjunto predeterminado de parámetros en un modelo que espera una entrada CSV con dos registros de ejemplo. Es una buena práctica proporcionar un conjunto representativo de ejemplos para analizar cómo funciona el punto final con diferentes cargas útiles de entrada.

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

Además, puede ejecutar el punto de referencia como un trabajo de procesamiento de SageMaker, que puede ser una opción más confiable para puntos de referencia de ejecución más larga con una gran cantidad de invocaciones. Ver el siguiente código:

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

Tenga en cuenta que esto generará un costo adicional por ejecutar una instancia de procesamiento de SageMaker ml.m5.large durante la duración de la evaluación comparativa.

Ambos métodos aceptan una serie de parámetros para configurar, como una lista de configuraciones de memoria para comparar y la cantidad de veces que se invocará cada configuración. En la mayoría de los casos, las opciones predeterminadas deberían ser suficientes como punto de partida, pero consulte la Repositorio GitHub para obtener una lista completa y descripciones de cada parámetro.

Configuración de evaluación comparativa

Antes de profundizar en lo que hace el punto de referencia y qué resultados produce, es importante comprender algunos conceptos clave cuando se trata de configurar puntos finales sin servidor.

Existen dos opciones de configuración clave: MemorySizeInMB y MaxConcurrency. MemorySizeInMB configura la cantidad de memoria que se asigna a la instancia y puede ser 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB o 6144 MB. La cantidad de vCPU también se escala proporcionalmente a la cantidad de memoria asignada. los MaxConcurrency El parámetro ajusta cuántas solicitudes simultáneas puede atender un punto final. Con un MaxConcurrency de 1, un punto final sin servidor solo puede procesar una única solicitud a la vez.

Para resumir, el MemorySizeInMB El parámetro proporciona un mecanismo para la escalabilidad vertical, lo que le permite ajustar la memoria y los recursos informáticos para servir modelos más grandes, mientras que MaxConcurrency proporciona un mecanismo para la escalabilidad horizontal, lo que permite que su terminal procese más solicitudes simultáneas.

El costo de operar un punto final está determinado en gran medida por el tamaño de la memoria y no hay ningún costo asociado con el aumento de la simultaneidad máxima. Sin embargo, existe un límite de cuenta por región para la simultaneidad máxima en todos los puntos finales. Referirse a Puntos finales y cuotas de SageMaker para los últimos límites.

Resultados de evaluación comparativa

Teniendo esto en cuenta, el objetivo de evaluar comparativamente un extremo sin servidor es determinar la configuración de tamaño de memoria más rentable y confiable, y la simultaneidad máxima mínima que puede manejar sus patrones de tráfico esperados.

De forma predeterminada, la herramienta ejecuta dos puntos de referencia. El primero es un punto de referencia de estabilidad, que implementa un punto final para cada una de las configuraciones de memoria especificadas e invoca cada punto final con las cargas útiles de muestra proporcionadas. El objetivo de este punto de referencia es determinar la configuración de MemorySizeInMB más efectiva y estable. El punto de referencia captura las latencias de invocación y calcula el costo esperado por invocación para cada punto final. Luego compara el costo con una instancia de alojamiento en tiempo real similar.

Cuando se completa la evaluación comparativa, la herramienta genera varios resultados en el especificado result_save_path directorio con la siguiente estructura de directorios:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

El benchmarking_report El directorio contiene un informe consolidado con todos los resultados resumidos que describimos en esta publicación. Los directorios adicionales contienen resultados brutos e intermedios que puede utilizar para análisis adicionales. Referirse a Repositorio GitHub para obtener una descripción más detallada de cada artefacto de salida.

Examinemos algunos resultados de evaluación comparativa reales para un punto final que sirve un modelo TensorFlow MobileNetV2 de visión por computadora. Si desea reproducir este ejemplo, consulte el ejemplo cuadernos directorio en el repositorio de GitHub.

El primer resultado dentro del informe consolidado es una tabla de resumen que proporciona las métricas de latencia mínima, media, media y máxima para cada MemorySizeInMB configuración exitosa del tamaño de la memoria. Como se muestra en la siguiente tabla, la latencia de invocación promedio (invocation_latency_mean) continuó mejorando a medida que la configuración de la memoria se incrementó a 3072 MB, pero dejó de mejorar a partir de entonces.