Analice el gasto de Amazon SageMaker y determine las oportunidades de optimización de costos según el uso, Parte 5: Alojamiento

Reeditado por Platón

seguidores: 0

En 2021, lanzamos Servicios proactivos de AWS Support como parte de la Soporte empresarial de AWS plan. Desde su introducción, hemos ayudado a cientos de clientes a optimizar sus cargas de trabajo, establecer barreras de seguridad y mejorar la visibilidad del costo y el uso de sus cargas de trabajo de aprendizaje automático (ML).

En esta serie de publicaciones, compartimos lecciones aprendidas sobre la optimización de costos en Amazon SageMaker. En Parte 1, mostramos cómo comenzar a usar Explorador de costos de AWS para identificar oportunidades de optimización de costos en SageMaker. En esta publicación, nos centramos en los entornos de inferencia de SageMaker: inferencia en tiempo real, transformación por lotes, inferencia asíncrona e inferencia sin servidor.

SageMaker ofrece múltiples opciones de inferencia para que usted elija según los requisitos de su carga de trabajo:

Inferencia en tiempo real para requisitos en línea, de baja latencia o de alto rendimiento
Transformación por lotes para procesamiento programado fuera de línea y cuando no necesita un punto final persistente
inferencia asíncrona para cuando tiene grandes cargas útiles con tiempos de procesamiento prolongados y desea poner en cola las solicitudes
Inferencia sin servidor para cuando tiene patrones de tráfico intermitentes o impredecibles y puede tolerar arranques en frío

En las siguientes secciones, analizamos cada opción de inferencia con más detalle.

Inferencia en tiempo real de SageMaker

Cuando crea un punto final, SageMaker adjunta un Tienda de bloques elásticos de Amazon (Amazon EBS) al volumen de almacenamiento Nube informática elástica de Amazon (Amazon EC2) instancia que aloja el punto final. Esto es válido para todos los tipos de instancias que no vienen con almacenamiento SSD. Debido a que los tipos de instancias d* vienen con un almacenamiento SSD NVMe, SageMaker no adjunta un volumen de almacenamiento EBS a estas instancias informáticas de ML. Referirse a Volúmenes de almacenamiento de instancias de host para el tamaño de los volúmenes de almacenamiento que SageMaker adjunta para cada tipo de instancia para un punto final único y para un punto final multimodelo.

El costo de los puntos finales en tiempo real de SageMaker se basa en la hora de instancia consumida para cada instancia mientras el punto final está en ejecución, el costo de GB-mes de almacenamiento aprovisionado (volumen de EBS), así como los GB de datos procesados dentro y fuera. de la instancia del punto final, como se describe en Precios de Amazon SageMaker. En Cost Explorer, puede ver los costos de los terminales en tiempo real aplicando un filtro según el tipo de uso. Los nombres de estos tipos de uso se estructuran de la siguiente manera:

REGION-Host:instanceType (por ejemplo, USE1-Host:ml.c5.9xlarge)
REGION-Host:VolumeUsage.gp2 (por ejemplo, USE1-Host:VolumeUsage.gp2)
REGION-Hst:Data-Bytes-Out (por ejemplo, USE2-Hst:Data-Bytes-In)
REGION-Hst:Data-Bytes-Out (por ejemplo, USW2-Hst:Data-Bytes-Out)

Como se muestra en la siguiente captura de pantalla, filtrando por tipo de uso Host: mostrará una lista de tipos de uso de alojamiento en tiempo real en una cuenta.

Puede seleccionar tipos de uso específicos o seleccionar Seleccionar todo y elige Aplicá para mostrar el desglose de costos del uso de alojamiento en tiempo real de SageMaker. Para ver el desglose del costo y el uso por horas de instancia, debe anular la selección de todas las REGION-Host:VolumeUsage.gp2 tipos de uso antes de aplicar el filtro de tipo de uso. También puede aplicar filtros adicionales como número de cuenta, tipo de instancia EC2, etiqueta de asignación de costos, región y más, . La siguiente captura de pantalla muestra gráficos de costo y uso para los tipos de uso de hosting seleccionados.

Además, puede explorar el costo asociado con una o más instancias de alojamiento utilizando el Tipo de instancia filtrar. La siguiente captura de pantalla muestra el desglose del costo y el uso de la instancia de hosting ml.p2.xlarge.

De manera similar, el costo de los datos de GB procesados y procesados se puede mostrar seleccionando los tipos de uso asociados como un filtro aplicado, como se muestra en la siguiente captura de pantalla.

Una vez que haya logrado los resultados deseados con filtros y agrupaciones, puede descargar sus resultados eligiendo Descargar como CSV o guarde el informe eligiendo Guardar en la biblioteca de informes. Para obtener orientación general sobre el uso de Cost Explorer, consulte Nueva apariencia y casos de uso comunes de AWS Cost Explorer.

Opcionalmente, puede habilitar Informes de uso y costo de AWS (AWS CUR) para obtener información sobre los datos de costos y uso de sus cuentas. AWS CUR contiene detalles de consumo de AWS por hora. Esta almacenado en Servicio de almacenamiento simple de Amazon (Amazon S3) en la cuenta del pagador, que consolida los datos de todas las cuentas vinculadas. Puede ejecutar consultas para analizar tendencias en su uso y tomar las medidas adecuadas para optimizar los costos. Atenea amazónica es un servicio de consulta sin servidor que puede utilizar para analizar los datos de AWS CUR en Amazon S3 utilizando SQL estándar. Puede encontrar más información y consultas de ejemplo en Biblioteca de consultas de AWS CUR.

También puede introducir datos de AWS CUR en Amazon QuickSight, donde puede dividirlo como desee para fines de generación de informes o visualización. Para obtener instrucciones, consulte ¿Cómo ingiero y visualizo el informe de uso y costo de AWS (CUR) en Amazon QuickSight?.

Puede obtener información a nivel de recursos, como ARN de punto final, tipos de instancias de puntos finales, tasa de instancias por hora, horas de uso diarias y más, de AWS CUR. También puede incluir etiquetas de asignación de costos en su consulta para obtener un nivel adicional de granularidad. La siguiente consulta de ejemplo devuelve el uso de recursos de alojamiento en tiempo real durante los últimos 3 meses para la cuenta de pago determinada:

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%Host%' AND line_item_operation = 'RunInstance' AND bill_payer_account_id = 'xxxxxxxxxxxx' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

La siguiente captura de pantalla muestra los resultados obtenidos al ejecutar la consulta utilizando Athena. Para obtener más información, consulte Consulta de informes de costos y uso con Amazon Athena.

El resultado de la consulta muestra que el punto final mme-xgboost-housing con la instancia ml.x4.xlarge informa 24 horas de tiempo de ejecución durante varios días consecutivos. La tarifa de la instancia es de $0.24/hora y el costo diario de ejecución durante 24 horas es de $5.76.

Los resultados de AWS CUR pueden ayudarle a identificar patrones de puntos finales que se ejecutan durante días consecutivos en cada una de las cuentas vinculadas, así como puntos finales con el costo mensual más alto. Esto también puede ayudarle a decidir si los puntos finales de las cuentas que no son de producción se pueden eliminar para ahorrar costos.

Optimice los costos para puntos finales en tiempo real

Desde una perspectiva de gestión de costos, es importante identificar instancias subutilizadas (o de gran tamaño) y alinear el tamaño y el recuento de las instancias, si es necesario, con los requisitos de la carga de trabajo. Las métricas comunes del sistema, como la utilización de CPU/GPU y la utilización de memoria, se escriben en Reloj en la nube de Amazon para todas las instancias de hosting. Para puntos finales en tiempo real, SageMaker pone a disposición varias métricas adicionales en CloudWatch. Algunas de las métricas comúnmente monitoreadas incluyen recuentos de invocaciones y errores de invocación 4xx/5xx. Para obtener una lista completa de métricas, consulte Monitoree Amazon SageMaker con Amazon CloudWatch.

la métrica CPUUtilization proporciona la suma de la utilización de cada núcleo de CPU individual. La utilización de CPU de cada rango de núcleos es de 0 a 100. Por ejemplo, si hay cuatro CPU, la CPUUtilization El rango es 0–400%. la métrica MemoryUtilization es el porcentaje de memoria que utilizan los contenedores en una instancia. Este rango de valores es 0–100%. La siguiente captura de pantalla muestra un ejemplo de métricas de CloudWatch. CPUUtilization y MemoryUtilization para una instancia de punto final ml.m4.10xlarge que viene con 40 vCPU y 160 GiB de memoria.

Estos gráficos de métricas muestran una utilización máxima de CPU de aproximadamente 3,000 %, lo que equivale a 30 vCPU. Esto significa que este punto final no utiliza más de 30 vCPU de la capacidad total de 40 vCPU. De manera similar, la utilización de la memoria está por debajo del 6%. Con esta información, posiblemente pueda experimentar con una instancia más pequeña que pueda satisfacer esta necesidad de recursos. Además, el CPUUtilization La métrica muestra un patrón clásico de demanda alta y baja periódica de CPU, lo que hace que este punto final sea un buen candidato para el escalado automático. Puede comenzar con una instancia más pequeña y ampliarla primero a medida que cambie su demanda informática. Para obtener información, consulte Escale automáticamente modelos de Amazon SageMaker.

SageMaker es excelente para probar nuevos modelos porque puede implementarlos fácilmente en un entorno de prueba A/B usando variantes de producción, y solo pagas por lo que usas. Cada variante de producción se ejecuta en su propia instancia informática y se le cobra por hora de instancia consumida para cada instancia mientras se ejecuta la variante.

SageMaker también admite variantes de sombra, que tienen los mismos componentes que una variante de producción y se ejecutan en su propia instancia informática. Con las variantes ocultas, SageMaker implementa automáticamente el modelo en un entorno de prueba, enruta una copia de las solicitudes de inferencia recibidas por el modelo de producción al modelo de prueba en tiempo real y recopila métricas de rendimiento como la latencia y el rendimiento. Esto le permite validar cualquier componente candidato nuevo de su pila de entrega de modelos antes de promocionarlo a producción.

Cuando haya terminado con sus pruebas y ya no utilice mucho el punto final o las variantes, debe eliminarlo para ahorrar costos. Como el modelo está almacenado en Amazon S3, puede recrearlo según sea necesario. Puede detectar automáticamente estos puntos finales y tomar acciones correctivas (como eliminarlos) usando Eventos de Amazon CloudWatch y AWS Lambda funciones. Por ejemplo, puedes utilizar el Invocations métrica para obtener el número total de solicitudes enviadas a un punto final modelo y luego detectar si los puntos finales han estado inactivos durante las últimas horas (sin invocaciones durante un período determinado, como 24 horas).

Si tiene varias instancias de puntos finales infrautilizadas, considere opciones de alojamiento como puntos finales de varios modelos (MMEs), puntos finales de varios contenedores (MCE), y tuberías de inferencia en serie para consolidar el uso en menos instancias de endpoints.

Para la implementación de modelos de inferencia asincrónica y en tiempo real, puede optimizar el costo y el rendimiento implementando modelos en SageMaker usando Gravitón de AWS. AWS Graviton es una familia de procesadores diseñados por AWS que ofrecen el mejor precio, rendimiento y son más eficientes energéticamente que sus homólogos x86. Para obtener orientación sobre la implementación de un modelo de aprendizaje automático en instancias basadas en AWS Graviton y detalles sobre el beneficio de precio y rendimiento, consulte Ejecute cargas de trabajo de inferencia de aprendizaje automático en instancias basadas en Graviton de AWS con Amazon SageMaker. SageMaker también admite Inferencia de AWS aceleradores a través del ml.inf2 familia de instancias para implementar modelos de ML para inferencia asincrónica y en tiempo real. Puede utilizar estas instancias en SageMaker para lograr un alto rendimiento a bajo costo para modelos de inteligencia artificial (IA) generativa, incluidos modelos de lenguaje grande (LLM) y transformadores de visión.

Además, puedes usar Recomendador de inferencia de Amazon SageMaker para ejecutar pruebas de carga y evaluar los beneficios de precio y rendimiento de implementar su modelo en estas instancias. Para obtener orientación adicional sobre la detección automática de puntos finales de SageMaker inactivos, así como el tamaño correcto de instancia y el escalado automático para puntos finales de SageMaker, consulte Garantice recursos informáticos eficientes en Amazon SageMaker.

Transformación por lotes de SageMaker

Inferencia por lotes, o inferencia fuera de línea, es el proceso de generar predicciones sobre un lote de observaciones. Las predicciones sin conexión son adecuadas para conjuntos de datos más grandes y en los casos en los que puede permitirse esperar varios minutos u horas para obtener una respuesta.

El costo de la transformación por lotes de SageMaker se basa en la hora por instancia consumida para cada instancia mientras se ejecuta el trabajo de transformación por lotes, como se describe en Precios de Amazon SageMaker. En Cost Explorer, puede explorar los costos de transformación por lotes aplicando un filtro al tipo de uso. El nombre de este tipo de uso está estructurado como REGION-Tsform:instanceType (por ejemplo, USE1-Tsform:ml.c5.9xlarge).

Como se muestra en la siguiente captura de pantalla, filtrar por tipo de uso Tsform: mostrará una lista de los tipos de uso de transformación por lotes de SageMaker en una cuenta.

Analice el gasto de Amazon SageMaker y determine las oportunidades de optimización de costos según el uso, Parte 5: Alojamiento | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Puede seleccionar tipos de uso específicos o seleccionar Seleccionar todo y elige Aplicá para mostrar el desglose de costos del uso de instancias de transformación por lotes para los tipos seleccionados. Como se mencionó anteriormente, también puede aplicar filtros adicionales. La siguiente captura de pantalla muestra gráficos de costo y uso para los tipos de uso de transformación por lotes seleccionados.

Optimice los costos de la transformación por lotes

La transformación por lotes de SageMaker solo le cobra por las instancias utilizadas mientras se ejecutan sus trabajos. Si sus datos ya están en Amazon S3, no hay ningún costo por leer los datos de entrada de Amazon S3 y escribir los datos de salida en Amazon S3. Se intenta cargar todos los objetos de salida en Amazon S3. Si todo tiene éxito, el trabajo de transformación por lotes se marca como completo. Si uno o más objetos fallan, el trabajo de transformación por lotes se marca como fallido.

Se aplican cargos por trabajos de transformación por lotes en los siguientes escenarios:

El trabajo es exitoso
Fallo debido a ClientError y el contenedor modelo es SageMaker o un marco administrado por SageMaker
Fallo debido a AlgorithmError or ClientError y el contenedor modelo es su propio contenedor personalizado (BYOC)

Las siguientes son algunas de las mejores prácticas para optimizar un trabajo de transformación por lotes de SageMaker. Estas recomendaciones pueden reducir el tiempo de ejecución total de su trabajo de transformación por lotes, reduciendo así los costos:

Set Estrategia por lotes a MultiRecord y SplitType a Line si necesita el trabajo de transformación por lotes para hacer mini lotes a partir del archivo de entrada. Si no puede dividir automáticamente el conjunto de datos en mini lotes, puede dividirlo en mini lotes colocando cada lote en un archivo de entrada separado, ubicado en el depósito S3 de la fuente de datos.
Asegúrese de que el tamaño del lote se ajuste a la memoria. SageMaker generalmente maneja esto automáticamente; sin embargo, al dividir lotes manualmente, esto debe ajustarse en función de la memoria.
La transformación por lotes divide los objetos S3 en la entrada por clave y asigna esos objetos a instancias. Cuando tiene varios archivos, una instancia puede procesar input1.csv, y otra instancia podría procesar input2.csv. Si tiene un archivo de entrada pero inicializa varias instancias informáticas, solo una instancia procesa el archivo de entrada y el resto de las instancias están inactivas. Asegúrese de que la cantidad de archivos sea igual o mayor que la cantidad de instancias.
Si tiene una gran cantidad de archivos pequeños, puede resultar beneficioso combinar varios archivos en una pequeña cantidad de archivos más grandes para reducir el tiempo de interacción de Amazon S3.
Si estás usando el CrearTransformaciónTrabajo API, puede reducir el tiempo que lleva completar los trabajos de transformación por lotes utilizando valores óptimos para parámetros como Carga máxima en MB, MaxConcurrentTransformsMaxConcurrentTransformso Estrategia por lotes:
- MaxConcurrentTransforms indica el número máximo de solicitudes paralelas que se pueden enviar a cada instancia en un trabajo de transformación. El valor ideal para MaxConcurrentTransforms es igual a la cantidad de núcleos de vCPU en una instancia.
- MaxPayloadInMB es el tamaño máximo permitido de la carga útil, en MB. El valor en MaxPayloadInMB debe ser mayor o igual al tamaño de un solo registro. Para estimar el tamaño de un registro en MB, divida el tamaño de su conjunto de datos por la cantidad de registros. Para garantizar que los registros se ajusten al tamaño máximo de carga útil, recomendamos utilizar un valor ligeramente mayor. El valor predeterminado es 6 MB.
- MaxPayloadInMB no debe ser mayor a 100 MB. Si especifica el opcional MaxConcurrentTransforms parámetro, entonces el valor de (MaxConcurrentTransforms * MaxPayloadInMB) tampoco debe exceder los 100 MB.
- Para los casos en los que la carga útil puede ser arbitrariamente grande y se transmite mediante codificación fragmentada HTTP, establezca el valor MaxPayloadInMB en 0. Esta característica solo funciona en algoritmos compatibles. Actualmente, los algoritmos integrados de SageMaker no admiten la codificación fragmentada HTTP.
Las tareas de inferencia por lotes suelen ser buenas candidatas para el escalado horizontal. Cada trabajador dentro de un clúster puede operar con un subconjunto diferente de datos sin la necesidad de intercambiar información con otros trabajadores. AWS ofrece múltiples opciones de almacenamiento y computación que permiten el escalamiento horizontal. Si una sola instancia no es suficiente para cumplir con sus requisitos de rendimiento, considere usar varias instancias en paralelo para distribuir la carga de trabajo. Para consideraciones clave al diseñar trabajos de transformación por lotes, consulte Inferencia por lotes a escala con Amazon SageMaker.
Supervise continuamente las métricas de rendimiento de sus trabajos de transformación por lotes de SageMaker mediante CloudWatch. Busque cuellos de botella, como una alta utilización de CPU o GPU, uso de memoria o rendimiento de la red, para determinar si necesita ajustar los tamaños o las configuraciones de las instancias.
SageMaker utiliza Amazon S3 API de carga multiparte para cargar resultados de un trabajo de transformación por lotes en Amazon S3. Si se produce un error, los resultados cargados se eliminan de Amazon S3. En algunos casos, como cuando se produce una interrupción de la red, es posible que quede una carga multiparte incompleta en Amazon S3. Para evitar incurrir en cargos de almacenamiento, le recomendamos que agregue el Política de depósitos de S3 a las reglas del ciclo de vida del depósito de S3. Esta política elimina cargas de varias partes incompletas que podrían estar almacenadas en el depósito de S3. Para más información, ver Gestión del ciclo de vida del almacenamiento.

Inferencia asíncrona de SageMaker

La inferencia asincrónica es una excelente opción para cargas de trabajo sensibles a los costos con grandes cargas útiles y tráfico en ráfagas. Las solicitudes pueden tardar hasta 1 hora en procesarse y tener tamaños de carga de hasta 1 GB, por lo que es más adecuado para cargas de trabajo que tienen requisitos de latencia relajados.

La invocación de puntos finales asíncronos difiere de la invocación de puntos finales en tiempo real. En lugar de pasar una carga útil de solicitud de forma sincrónica con la solicitud, usted carga la carga útil en Amazon S3 y pasa un URI de S3 como parte de la solicitud. Internamente, SageMaker mantiene una cola con estas solicitudes y las procesa. Durante la creación del punto final, opcionalmente puede especificar un Servicio de notificación simple de Amazon (Amazon SNS) para recibir notificaciones de éxito o error. Cuando reciba la notificación de que su solicitud de inferencia se procesó correctamente, podrá acceder al resultado en la ubicación de salida de Amazon S3.

El costo de la inferencia asincrónica se basa en la hora de instancia consumida para cada instancia mientras el punto final está en ejecución, el costo de GB-mes de almacenamiento aprovisionado, así como los datos GB procesados dentro y fuera de la instancia del punto final, como se describe en Precios de Amazon SageMaker. En Cost Explorer, puede filtrar los costos de inferencia asincrónica aplicando un filtro por tipo de uso. El nombre de este tipo de uso está estructurado como REGION-AsyncInf:instanceType (por ejemplo, USE1-AsyncInf:ml.c5.9xlarge). Tenga en cuenta que los tipos de uso procesados de volumen de GB y datos de GB son los mismos que los puntos finales en tiempo real, como se mencionó anteriormente en esta publicación.

Como se muestra en la siguiente captura de pantalla, filtrando por tipo de uso AsyncInf: en Cost Explorer muestra un desglose de costos por tipos de uso de terminales asincrónicos.

Para ver el desglose del costo y el uso por horas de instancia, debe anular la selección de todas las REGION-Host:VolumeUsage.gp2 tipos de uso antes de aplicar el filtro de tipo de uso. También puede aplicar filtros adicionales. La información a nivel de recursos, como el ARN del punto final, los tipos de instancias de los puntos finales, la tasa de instancias por hora y las horas de uso diarias, se puede obtener de AWS CUR. El siguiente es un ejemplo de una consulta AWS CUR para obtener el uso de recursos de alojamiento asíncrono durante los últimos 3 meses:

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%AsyncInf%' AND line_item_operation = 'RunInstance' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

La siguiente captura de pantalla muestra los resultados obtenidos al ejecutar la consulta AWS CUR con Athena.

El resultado de la consulta muestra que el punto final sagemaker-abc-model-5 con la instancia ml.m5.xlarge informa 24 horas de tiempo de ejecución durante varios días consecutivos. La tarifa de la instancia es de $0.23/hora y el costo diario de ejecución durante 24 horas es de $5.52.

Como se mencionó anteriormente, los resultados de AWS CUR pueden ayudarlo a identificar patrones de puntos finales que se ejecutan durante días consecutivos, así como puntos finales con el costo mensual más alto. Esto también puede ayudarle a decidir si los puntos finales de las cuentas que no son de producción se pueden eliminar para ahorrar costos.

Optimice los costos para la inferencia asincrónica

Al igual que los puntos finales en tiempo real, el costo de los puntos finales asíncronos se basa en el uso del tipo de instancia. Por lo tanto, es importante identificar las instancias infrautilizadas y cambiar su tamaño según los requisitos de la carga de trabajo. Para monitorear puntos finales asincrónicos, SageMaker hace varias métricas como ApproximateBacklogSize, HasBacklogWithoutCapacityy más disponibles en CloudWatch. Estas métricas pueden mostrar solicitudes en la cola para una instancia y pueden usarse para escalar automáticamente un punto final. La inferencia asincrónica de SageMaker también incluye métricas a nivel de host. Para obtener información sobre métricas a nivel de host, consulte Trabajos de SageMaker y métricas de terminales. Estas métricas pueden mostrar la utilización de recursos que pueden ayudarle a ajustar el tamaño de la instancia.

SageMaker admite escalado automático para puntos finales asincrónicos. A diferencia de los puntos finales alojados en tiempo real, los puntos finales de inferencia asincrónica admiten la reducción de instancias a cero estableciendo la capacidad mínima en cero. Para puntos finales asincrónicos, SageMaker recomienda encarecidamente crear una configuración de política para el escalado de seguimiento de objetivos para un modelo implementado (variante). Debe definir la política de escalamiento que se escaló en el ApproximateBacklogPerInstance métrica personalizada y establecer el MinCapacity valor a cero.

La inferencia asincrónica le permite ahorrar costos al escalar automáticamente el recuento de instancias a cero cuando no hay solicitudes para procesar, de modo que solo paga cuando su punto final está procesando solicitudes. Las solicitudes que se reciben cuando no hay instancias se ponen en cola para su procesamiento después de que el punto final se amplía. Por lo tanto, para los casos de uso que pueden tolerar una penalización de inicio en frío de unos minutos, opcionalmente puede reducir el recuento de instancias de punto final a cero cuando no hay solicitudes pendientes y aumentarlo a medida que llegan nuevas solicitudes. El tiempo de inicio en frío depende del tiempo necesario para iniciar un nuevo punto final desde cero. Además, si el modelo en sí es grande, el tiempo puede ser mayor. Si se espera que su trabajo demore más de 1 hora de procesamiento, es posible que desee considerar la transformación por lotes de SageMaker.

Además, también puede considerar el tiempo en cola de su solicitud combinado con el tiempo de procesamiento para elegir el tipo de instancia. Por ejemplo, si su caso de uso puede tolerar horas de espera, puede elegir una instancia más pequeña para ahorrar costos.

Para obtener orientación adicional sobre el tamaño correcto de la instancia y el escalado automático para los puntos finales de SageMaker, consulte Garantice recursos informáticos eficientes en Amazon SageMaker.

Inferencia sin servidor

La inferencia sin servidor le permite implementar modelos de aprendizaje automático para la inferencia sin tener que configurar o administrar la infraestructura subyacente. Según el volumen de solicitudes de inferencia que recibe su modelo, la inferencia sin servidor de SageMaker aprovisiona, escala y desactiva automáticamente la capacidad informática. Como resultado, usted paga sólo por el tiempo de cálculo para ejecutar su código de inferencia y la cantidad de datos procesados, no por el tiempo de inactividad. Para puntos finales sin servidor, no es necesario el aprovisionamiento de instancias. Necesitas proporcionar el tamaño de memoria y concurrencia máxima. Debido a que los puntos finales sin servidor aprovisionan recursos informáticos a pedido, su punto final puede experimentar unos segundos adicionales de latencia (arranque en frío) para la primera invocación después de un período de inactividad. Usted paga por la capacidad informática utilizada para procesar solicitudes de inferencia, facturada por milisegundo, GB-mes de almacenamiento aprovisionado y la cantidad de datos procesados. El cargo de cómputo depende de la configuración de memoria que elija.

En Cost Explorer, puede filtrar los costos de los puntos finales sin servidor aplicando un filtro según el tipo de uso. El nombre de este tipo de uso está estructurado como REGION-ServerlessInf:Mem-MemorySize (por ejemplo, USE2-ServerlessInf:Mem-4GB). Tenga en cuenta que los tipos de uso procesados de volumen de GB y datos de GB son los mismos que los de los puntos finales en tiempo real.

Puede ver el desglose de costos aplicando filtros adicionales como número de cuenta, tipo de instancia, región y más. La siguiente captura de pantalla muestra el desglose de costos aplicando filtros para el tipo de uso de inferencia sin servidor.

Optimice el costo para la inferencia sin servidor

Al configurar su punto final sin servidor, puede especificar el tamaño de la memoria y la cantidad máxima de invocaciones simultáneas. La inferencia sin servidor de SageMaker asigna automáticamente recursos informáticos proporcionales a la memoria que seleccione. Si elige un tamaño de memoria mayor, su contenedor tendrá acceso a más vCPU. Con la inferencia sin servidor, solo paga por la capacidad informática utilizada para procesar las solicitudes de inferencia, facturada por milisegundo, y la cantidad de datos procesados. El cargo de cómputo depende de la configuración de memoria que elija. Los tamaños de memoria que puede elegir son 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB y 6144 MB. El precio aumenta con los incrementos del tamaño de la memoria, como se explica en Precios de Amazon SageMaker, por lo que es importante seleccionar el tamaño de memoria correcto. Como regla general, el tamaño de la memoria debe ser al menos tan grande como el tamaño de su modelo. Sin embargo, es una buena práctica hacer referencia a la utilización de la memoria al decidir el tamaño de la memoria del endpoint, además del tamaño del modelo en sí.

Mejores prácticas generales para optimizar los costos de inferencia de SageMaker

La optimización de los costos de hosting no es un evento de una sola vez. Es un proceso continuo de monitoreo de la infraestructura implementada, los patrones de uso y el rendimiento, y también de estar atento a las nuevas soluciones innovadoras que lanza AWS y que podrían afectar los costos. Considere las siguientes mejores prácticas:

Elija un tipo de instancia apropiado – SageMaker admite múltiples tipos de instancias, cada una con diferentes combinaciones de capacidades de CPU, GPU, memoria y almacenamiento. Según los requisitos de recursos de su modelo, elija un tipo de instancia que proporcione los recursos necesarios sin sobreaprovisionamiento. Para obtener información sobre los tipos de instancias de SageMaker disponibles, sus especificaciones y orientación sobre cómo seleccionar la instancia correcta, consulte Garantice recursos informáticos eficientes en Amazon SageMaker.
Prueba usando el modo local – Para detectar fallas y depurar más rápido, se recomienda probar el código y el contenedor (en el caso de BYOC) en modo local antes de ejecutar la carga de trabajo de inferencia en la instancia remota de SageMaker. El modo local es una excelente manera de probar sus scripts antes de ejecutarlos en un entorno de alojamiento administrado por SageMaker.
Optimice los modelos para que tengan más rendimiento – Los modelos no optimizados pueden generar tiempos de ejecución más prolongados y utilizar más recursos. Puede optar por utilizar más instancias o más grandes para mejorar el rendimiento; sin embargo, esto conlleva mayores costos. Al optimizar sus modelos para que tengan mayor rendimiento, es posible que pueda reducir los costos utilizando menos instancias o más pequeñas mientras mantiene las mismas o mejores características de rendimiento. Puedes usar Amazon SageMaker Neo con inferencia de SageMaker para optimizar modelos automáticamente. Para obtener más detalles y ejemplos, consulte Optimice el rendimiento del modelo usando Neo.
Utilice etiquetas y herramientas de gestión de costos – Para mantener la visibilidad de sus cargas de trabajo de inferencia, se recomienda utilizar etiquetas, así como herramientas de administración de costos de AWS, como Presupuestos de AWS, el Consola de facturación de AWSy la función de previsión de Cost Explorer. También puede explorar los planes de ahorro de SageMaker como modelo de precios flexible. Para obtener más información sobre estas opciones, consulte Parte 1 de esta serie

Conclusión

En esta publicación, brindamos orientación sobre el análisis de costos y las mejores prácticas al utilizar las opciones de inferencia de SageMaker. A medida que el aprendizaje automático se establece como una herramienta poderosa en todas las industrias, entrenar y ejecutar modelos de aprendizaje automático debe seguir siendo rentable. SageMaker ofrece un conjunto amplio y profundo de funciones para facilitar cada paso en el proceso de aprendizaje automático y brinda oportunidades de optimización de costos sin afectar el rendimiento o la agilidad. Comuníquese con su equipo de AWS para obtener orientación sobre los costos de sus cargas de trabajo de SageMaker.

Acerca de los autores

Deepali Rajale es especialista sénior en inteligencia artificial y aprendizaje automático en AWS. Trabaja con clientes empresariales brindando orientación técnica con las mejores prácticas para implementar y mantener soluciones de IA/ML en el ecosistema de AWS. Ha trabajado con una amplia gama de organizaciones en varios casos de uso de aprendizaje profundo que involucran NLP y visión artificial. Le apasiona empoderar a las organizaciones para que aprovechen la IA generativa para mejorar su experiencia de uso. En su tiempo libre, disfruta del cine, la música y la literatura.

uri rosenberg es el director técnico especializado en IA y aprendizaje automático para Europa, Oriente Medio y África. Con sede en Israel, Uri trabaja para capacitar a los clientes empresariales en todo lo relacionado con ML para diseñar, construir y operar a escala. En su tiempo libre le gusta andar en bicicleta, hacer senderismo y escalar rocas.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoAiStream. Inteligencia de datos Web3. Conocimiento amplificado. Accede Aquí.
Acuñando el futuro con Adryenn Ashley. Accede Aquí.
Compra y Vende Acciones en Empresas PRE-IPO con PREIPO®. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/machine-learning/part-5-analyze-amazon-sagemaker-spend-and-determine-cost-optimization-opportunities-based-on-usage-part-5-hosting/

Sello de tiempo: 30 de mayo de 2023

Sello de tiempo: 6 de enero de 2023

Reeditado por Platón

Traducir documentos en tiempo real con Amazon Translate | Servicios web de Amazon

Gestión integral de la fuerza laboral de Getir: Amazon Forecast y AWS Step Functions | Servicios web de Amazon

Cómo VMware creó una canalización de MLOps desde cero con GitLab, Amazon MWAA y Amazon SageMaker

La biblioteca paralela de modelos de Amazon SageMaker ahora acelera las cargas de trabajo de PyTorch FSDP hasta en un 20 % | Servicios web de Amazon

Evaluar grandes modelos lingüísticos en cuanto a calidad y responsabilidad | Servicios web de Amazon

Capacitación distribuida con Amazon EKS y Torch Distributed Elastic

Recomendaciones de potencia y búsqueda usando un gráfico de conocimiento de IMDb - Parte 3

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta