Optimice la relación precio-rendimiento de la inferencia LLM en GPU NVIDIA mediante la integración de Amazon SageMaker con los microservicios NIM de NVIDIA | Servicios web de Amazon

Optimice la relación precio-rendimiento de la inferencia LLM en GPU NVIDIA mediante la integración de Amazon SageMaker con los microservicios NIM de NVIDIA | Servicios web de Amazon

NVIDIA NIM mmicroservicios ahora integra con Amazon SageMaker, lo que le permite implementar modelos de lenguaje grande (LLM) líderes en la industria y optimizar el rendimiento y el costo del modelo. Puede implementar LLM de última generación en minutos en lugar de días utilizando tecnologías como TensorRT de NVIDIA, NVIDIA TensorRT-LLMy Servidor de inferencia NVIDIA Triton en instancias aceleradas de NVIDIA alojadas por SageMaker.

NIM, parte del NVIDIA IA empresarial plataforma de software listada en Mercado de AWS, es un conjunto de microservicios de inferencia que aportan el poder de los LLM de última generación a sus aplicaciones, proporcionando procesamiento del lenguaje natural (NLP) y capacidades de comprensión, ya sea que esté desarrollando chatbots, resumiendo documentos o implementando otros NLP. aplicaciones potenciadas. Puede utilizar contenedores NVIDIA prediseñados para alojar LLM populares que están optimizados para GPU NVIDIA específicas para una implementación rápida o utilizar herramientas NIM para crear sus propios contenedores.

En esta publicación, brindamos una introducción de alto nivel a NIM y mostramos cómo puede usarlo con SageMaker.

Una introducción a NVIDIA NIM

NIM proporciona motores optimizados y pregenerados para una variedad de modelos populares de inferencia. Estos microservicios admiten una variedad de LLM, como Llama 2 (7B, 13B y 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona y Code Llama 70B, listos para usar usando pre- Construyó motores NVIDIA TensorRT diseñados para GPU NVIDIA específicas para lograr el máximo rendimiento y utilización. Estos modelos están seleccionados con los hiperparámetros óptimos para el rendimiento del alojamiento de modelos para implementar aplicaciones con facilidad.

Si su modelo no está en el conjunto de modelos seleccionados de NVIDIA, NIM ofrece utilidades esenciales como Model Repo Generator, que facilita la creación de un motor acelerado por TensorRT-LLM y un directorio de modelos en formato NIM a través de un archivo YAML sencillo. Además, un backend comunitario integrado de vLLM brinda soporte para modelos de vanguardia y características emergentes que pueden no haberse integrado perfectamente en la pila optimizada para TensorRT-LLM.

Además de crear LLM optimizados para inferencia, NIM proporciona tecnologías de alojamiento avanzadas, como técnicas de programación optimizadas como procesamiento por lotes en vuelo, que pueden dividir el proceso general de generación de texto para un LLM en múltiples iteraciones en el modelo. Con el procesamiento por lotes en curso, en lugar de esperar a que finalice todo el lote antes de pasar al siguiente conjunto de solicitudes, el tiempo de ejecución de NIM desaloja inmediatamente las secuencias terminadas del lote. Luego, el tiempo de ejecución comienza a ejecutar nuevas solicitudes mientras otras solicitudes aún están en proceso, aprovechando al máximo sus instancias informáticas y GPU.

Implementación de NIM en SageMaker

NIM se integra con SageMaker, lo que le permite alojar sus LLM con optimización de costos y rendimiento mientras se beneficia de las capacidades de SageMaker. Cuando usa NIM en SageMaker, puede usar capacidades como escalar la cantidad de instancias para alojar su modelo, realizar implementaciones azules/verdes y evaluar cargas de trabajo mediante pruebas paralelas, todo con la mejor observabilidad y monitoreo de su clase con Reloj en la nube de Amazon.

Conclusión

Usar NIM para implementar LLM optimizados puede ser una excelente opción tanto en términos de rendimiento como de costo. También ayuda a que la implementación de LLM sea sencilla. En el futuro, NIM también permitirá métodos de personalización de ajuste fino de parámetros eficientes (PEFT), como LoRA y P-tuning. NIM también planea tener soporte LLM al admitir los backends Triton Inference Server, TensorRT-LLM y vLLM.

Le recomendamos que obtenga más información sobre los microservicios de NVIDIA y cómo implementar sus LLM utilizando SageMaker y que pruebe los beneficios disponibles para usted. NIM está disponible como oferta paga como parte de la suscripción al software NVIDIA AI Enterprise disponible en el mercado de AWS.

En un futuro próximo, publicaremos una guía detallada para NIM en SageMaker.


Sobre los autores

Optimice la relación precio-rendimiento de la inferencia LLM en GPU NVIDIA mediante la integración de Amazon SageMaker con los microservicios NIM de NVIDIA | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.James Park es arquitecto de soluciones en Amazon Web Services. Trabaja con Amazon.com para diseñar, crear e implementar soluciones tecnológicas en AWS y tiene un interés particular en la IA y el aprendizaje automático. En su tiempo libre le gusta buscar nuevas culturas, nuevas experiencias y mantenerse al día con las últimas tendencias tecnológicas. Puede encontrarlo en Etiqueta LinkedIn.

Optimice la relación precio-rendimiento de la inferencia LLM en GPU NVIDIA mediante la integración de Amazon SageMaker con los microservicios NIM de NVIDIA | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Saurabh Trikande es gerente sénior de productos para Amazon SageMaker Inference. Le apasiona trabajar con clientes y está motivado por el objetivo de democratizar el aprendizaje automático. Se enfoca en los desafíos principales relacionados con la implementación de aplicaciones de ML complejas, modelos de ML de múltiples inquilinos, optimizaciones de costos y hacer que la implementación de modelos de aprendizaje profundo sea más accesible. En su tiempo libre, a Saurabh le gusta caminar, aprender sobre tecnologías innovadoras, seguir TechCrunch y pasar tiempo con su familia.

Optimice la relación precio-rendimiento de la inferencia LLM en GPU NVIDIA mediante la integración de Amazon SageMaker con los microservicios NIM de NVIDIA | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.qing-lan es ingeniero de desarrollo de software en AWS. Ha estado trabajando en varios productos desafiantes en Amazon, incluidas soluciones de inferencia ML de alto rendimiento y un sistema de registro de alto rendimiento. El equipo de Qing lanzó con éxito el primer modelo de mil millones de parámetros en Amazon Advertising con una latencia muy baja requerida. Qing tiene un conocimiento profundo sobre la optimización de la infraestructura y la aceleración del aprendizaje profundo.

Optimice la relación precio-rendimiento de la inferencia LLM en GPU NVIDIA mediante la integración de Amazon SageMaker con los microservicios NIM de NVIDIA | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Nikhil Kulkarni es un desarrollador de software con AWS Machine Learning, que se enfoca en hacer que las cargas de trabajo de aprendizaje automático tengan un mayor rendimiento en la nube, y es cocreador de AWS Deep Learning Containers para capacitación e inferencia. Le apasionan los sistemas de aprendizaje profundo distribuidos. Fuera del trabajo, le gusta leer libros, tocar la guitarra y hacer pizza.

Optimice la relación precio-rendimiento de la inferencia LLM en GPU NVIDIA mediante la integración de Amazon SageMaker con los microservicios NIM de NVIDIA | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Harish Tummalacherla es ingeniero de software del equipo de rendimiento de aprendizaje profundo en SageMaker. Trabaja en ingeniería de rendimiento para ofrecer modelos de lenguaje grandes de manera eficiente en SageMaker. En su tiempo libre le gusta correr, andar en bicicleta y esquiar de montaña.

Optimice la relación precio-rendimiento de la inferencia LLM en GPU NVIDIA mediante la integración de Amazon SageMaker con los microservicios NIM de NVIDIA | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Eliuth Triana Isaza es gerente de relaciones con desarrolladores en NVIDIA y capacita a los MLOps de IA, DevOps, científicos y expertos técnicos de AWS de Amazon para dominar la pila informática de NVIDIA para acelerar y optimizar los modelos de Generative AI Foundation que abarcan desde la curación de datos, el entrenamiento de GPU, la inferencia de modelos y la implementación de producción en instancias de GPU de AWS. . Además, Eliuth es un apasionado del ciclismo de montaña, esquiador, tenis y jugador de póquer.

Optimice la relación precio-rendimiento de la inferencia LLM en GPU NVIDIA mediante la integración de Amazon SageMaker con los microservicios NIM de NVIDIA | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.jiahong liu es arquitecto de soluciones en el equipo de proveedores de servicios en la nube de NVIDIA. Ayuda a los clientes a adoptar soluciones de inteligencia artificial y aprendizaje automático que aprovechan la computación acelerada de NVIDIA para abordar sus desafíos de capacitación e inferencia. En su tiempo libre, disfruta del origami, proyectos de bricolaje y jugar al baloncesto.

Optimice la relación precio-rendimiento de la inferencia LLM en GPU NVIDIA mediante la integración de Amazon SageMaker con los microservicios NIM de NVIDIA | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Kshitiz Gupta es arquitecto de soluciones en NVIDIA. Le gusta educar a los clientes de la nube sobre las tecnologías GPU AI que NVIDIA tiene para ofrecer y ayudarlos a acelerar sus aplicaciones de aprendizaje automático y aprendizaje profundo. Fuera del trabajo, le gusta correr, caminar y observar la vida silvestre.

Sello de tiempo:

Mas de Aprendizaje automático de AWS