Otimize o desempenho de preço da inferência LLM em GPUs NVIDIA usando a integração do Amazon SageMaker com microsserviços NVIDIA NIM

Republicado por Platão

seguidores: 0

NVIDIA NIM m microsserviços agora integre com Amazon Sage Maker, permitindo que você implante grandes modelos de linguagem (LLMs) líderes do setor e otimize o desempenho e o custo do modelo. Você pode implantar LLMs de última geração em minutos, em vez de dias, usando tecnologias como NVIDIA TensorRT, NVIDIA TensorRT-LLM e Servidor de inferência NVIDIA Triton em instâncias aceleradas da NVIDIA hospedadas pelo SageMaker.

NIM, parte do NVIDIA IA Empresarial plataforma de software listada em Mercado da AWS, é um conjunto de microsserviços de inferência que trazem o poder dos LLMs de última geração para seus aplicativos, fornecendo processamento de linguagem natural (PNL) e recursos de compreensão, esteja você desenvolvendo chatbots, resumindo documentos ou implementando outros PNL- aplicações alimentadas. Você pode usar contêineres NVIDIA pré-construídos para hospedar LLMs populares otimizados para GPUs NVIDIA específicas para implantação rápida ou usar ferramentas NIM para criar seus próprios contêineres.

Nesta postagem, fornecemos uma introdução de alto nível ao NIM e mostramos como você pode usá-lo com o SageMaker.

Uma introdução ao NVIDIA NIM

O NIM fornece mecanismos otimizados e pré-gerados para uma variedade de modelos populares de inferência. Esses microsserviços suportam uma variedade de LLMs, como Llama 2 (7B, 13B e 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona e Code Llama 70B, prontos para uso usando pré- construiu motores NVIDIA TensorRT adaptados para GPUs NVIDIA específicas para máximo desempenho e utilização. Esses modelos são selecionados com hiperparâmetros ideais para desempenho de hospedagem de modelo e implantação de aplicativos com facilidade.

Se o seu modelo não estiver no conjunto de modelos selecionados da NVIDIA, o NIM oferece utilitários essenciais, como o Model Repo Generator, que facilita a criação de um mecanismo acelerado por TensorRT-LLM e um diretório de modelo no formato NIM por meio de um arquivo YAML simples. Além disso, um back-end de comunidade integrado do vLLM fornece suporte para modelos de ponta e recursos emergentes que podem não ter sido perfeitamente integrados à pilha otimizada do TensorRT-LLM.

Além de criar LLMs otimizados para inferência, o NIM fornece tecnologias de hospedagem avançadas, como técnicas de agendamento otimizadas, como processamento em lote em andamento, que pode dividir o processo geral de geração de texto para um LLM em múltiplas iterações no modelo. Com lotes em andamento, em vez de esperar que todo o lote termine antes de passar para o próximo conjunto de solicitações, o tempo de execução do NIM expulsa imediatamente as sequências concluídas do lote. O tempo de execução começa a executar novas solicitações enquanto outras ainda estão em andamento, fazendo o melhor uso de suas instâncias de computação e GPUs.

Implantando NIM no SageMaker

O NIM se integra ao SageMaker, permitindo que você hospede seus LLMs com desempenho e otimização de custos enquanto se beneficia dos recursos do SageMaker. Ao usar o NIM no SageMaker, você pode usar recursos como dimensionar o número de instâncias para hospedar seu modelo, executar implantações azul/verde e avaliar cargas de trabalho usando testes de sombra, tudo com a melhor observabilidade e monitoramento da categoria com Amazon CloudWatch.

Conclusão

Usar o NIM para implantar LLMs otimizados pode ser uma ótima opção tanto em termos de desempenho quanto de custo. Também ajuda a facilitar a implantação de LLMs. No futuro, o NIM também permitirá métodos de personalização de ajuste fino com eficiência de parâmetros (PEFT), como LoRA e ajuste P. A NIM também planeja ter suporte LLM, oferecendo suporte a back-ends Triton Inference Server, TensorRT-LLM e vLLM.

Incentivamos você a aprender mais sobre os microsserviços NVIDIA e como implantar seus LLMs usando o SageMaker e experimentar os benefícios disponíveis para você. O NIM está disponível como uma oferta paga como parte da assinatura do software NVIDIA AI Enterprise disponível no AWS Marketplace.

Em um futuro próximo, publicaremos um guia detalhado para NIM no SageMaker.

Sobre os autores

Otimize o desempenho de preço da inferência LLM em GPUs NVIDIA usando a integração do Amazon SageMaker com microsserviços NVIDIA NIM | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. James Park é arquiteto de soluções na Amazon Web Services. Ele trabalha com a Amazon.com para projetar, criar e implantar soluções de tecnologia na AWS e tem interesse particular em IA e aprendizado de máquina. Em seu tempo livre, ele gosta de conhecer novas culturas, novas experiências e estar atualizado com as últimas tendências tecnológicas. Você pode encontrá-lo em LinkedIn.

Saurabh Trikande é gerente de produto sênior da Amazon SageMaker Inference. Ele é apaixonado por trabalhar com clientes e motivado pelo objetivo de democratizar o aprendizado de máquina. Ele se concentra nos principais desafios relacionados à implantação de aplicativos de ML complexos, modelos de ML multilocatários, otimizações de custo e à implantação de modelos de aprendizado profundo mais acessíveis. Em seu tempo livre, Saurabh gosta de caminhar, aprender sobre tecnologias inovadoras, seguir o TechCrunch e passar tempo com sua família.

Otimize o desempenho de preço da inferência LLM em GPUs NVIDIA usando a integração do Amazon SageMaker com microsserviços NVIDIA NIM | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Qinglan é engenheiro de desenvolvimento de software na AWS. Ele vem trabalhando em vários produtos desafiadores na Amazon, incluindo soluções de inferência de ML de alto desempenho e sistema de registro de alto desempenho. A equipe de Qing lançou com sucesso o primeiro modelo Billion-parameter no Amazon Advertising com latência muito baixa necessária. Qing possui profundo conhecimento sobre otimização de infraestrutura e aceleração de Deep Learning.

Nikhil Kulkarni é desenvolvedor de software da AWS Machine Learning, com foco em aumentar o desempenho das cargas de trabalho de machine learning na nuvem, e é cocriador do AWS Deep Learning Containers para treinamento e inferência. Ele é apaixonado por sistemas distribuídos de Deep Learning. Fora do trabalho, ele gosta de ler livros, tocar violão e fazer pizza.

Otimize o desempenho de preço da inferência LLM em GPUs NVIDIA usando a integração do Amazon SageMaker com microsserviços NVIDIA NIM | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Harish Tummalacherla é engenheiro de software da equipe Deep Learning Performance da SageMaker. Ele trabalha em engenharia de desempenho para servir modelos de linguagem grandes com eficiência no SageMaker. Nas horas vagas, gosta de correr, andar de bicicleta e esquiar montanhismo.

Eliuth Triana Isaza é gerente de relações com desenvolvedores da NVIDIA, capacitando AI MLOps, DevOps, cientistas e especialistas técnicos da AWS da Amazon para dominar a pilha de computação da NVIDIA para acelerar e otimizar modelos Generative AI Foundation que abrangem desde curadoria de dados, treinamento de GPU, inferência de modelo e implantação de produção em instâncias de GPU da AWS . Além disso, Eliuth é um apaixonado ciclista de montanha, esquiador, jogador de tênis e pôquer.

Jiahong Liu é arquiteto de soluções na equipe de provedores de serviços de nuvem da NVIDIA. Ele auxilia os clientes na adoção de soluções de aprendizado de máquina e IA que aproveitam a computação acelerada da NVIDIA para enfrentar seus desafios de treinamento e inferência. Em seu tempo de lazer, ele gosta de origami, projetos de bricolage e jogar basquete.

Kshitiz Gupta é arquiteto de soluções da NVIDIA. Ele gosta de educar os clientes de nuvem sobre as tecnologias de IA de GPU que a NVIDIA tem a oferecer e ajudá-los a acelerar seus aplicativos de aprendizado de máquina e aprendizado profundo. Fora do trabalho, ele gosta de correr, fazer caminhadas e observar a vida selvagem.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

Carimbo de hora: 18 de março de 2024

Carimbo de hora: Junho 15, 2022

Republicado por Platão

Ultrapasse as barreiras linguísticas com o Amazon Transcribe, Amazon Translate e Amazon Polly

Reinventando a experiência de dados: Use IA generativa e arquitetura de dados moderna para revelar insights | Amazon Web Services

Gerenciamento de equipes e usuários com Amazon SageMaker e AWS SSO

Prepare dados mais rapidamente com snippets de código PySpark e Altair no Amazon SageMaker Data Wrangler

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta