Modelos de inferência Llama 2 com streaming de resposta em tempo real usando Amazon SageMaker

Republicado por Platão

seguidores: 0

Com a rápida adoção de aplicações generativas de IA, é necessário que estas aplicações respondam a tempo de reduzir a latência percebida com maior rendimento. Os modelos básicos (FMs) são frequentemente pré-treinados em vastos corpos de dados com parâmetros que variam em escala de milhões a bilhões e além. Modelos de linguagem grande (LLMs) são um tipo de FM que gera texto como resposta à inferência do usuário. A inferência desses modelos com configurações variadas de parâmetros de inferência pode levar a latências inconsistentes. A inconsistência pode ser devido ao número variável de tokens de resposta que você espera do modelo ou ao tipo de acelerador no qual o modelo está implantado.

Em ambos os casos, em vez de esperar pela resposta completa, você pode adotar a abordagem de streaming de resposta para suas inferências, que envia de volta blocos de informações assim que são gerados. Isso cria uma experiência interativa, permitindo que você veja respostas parciais transmitidas em tempo real, em vez de uma resposta completa atrasada.

Com o anúncio oficial de que A inferência em tempo real do Amazon SageMaker agora oferece suporte ao streaming de respostas, agora você pode transmitir continuamente respostas de inferência de volta ao cliente ao usar Amazon Sage Maker inferência em tempo real com streaming de resposta. Esta solução irá ajudá-lo a construir experiências interativas para vários aplicativos generativos de IA, como chatbots, assistentes virtuais e geradores de música. Esta postagem mostra como obter tempos de resposta mais rápidos na forma de Time to First Byte (TTFB) e reduzir a latência geral percebida ao inferir modelos Llama 2.

Para implementar a solução, usamos o SageMaker, um serviço totalmente gerenciado para preparar dados e construir, treinar e implantar modelos de aprendizado de máquina (ML) para qualquer caso de uso com infraestrutura, ferramentas e fluxos de trabalho totalmente gerenciados. Para obter mais informações sobre as diversas opções de implantação fornecidas pelo SageMaker, consulte Perguntas frequentes sobre hospedagem de modelos do Amazon SageMaker. Vamos entender como podemos resolver os problemas de latência usando inferência em tempo real com streaming de resposta.

Visão geral da solução

Como queremos abordar as latências mencionadas acima associadas à inferência em tempo real com LLMs, vamos primeiro entender como podemos usar o suporte de streaming de resposta para inferência em tempo real para Llama 2. No entanto, qualquer LLM pode aproveitar as vantagens do suporte de streaming de resposta com real inferência de tempo.

Llama 2 é uma coleção de modelos de texto generativo pré-treinados e ajustados que variam em escala de 7 bilhões a 70 bilhões de parâmetros. Os modelos Llama 2 são modelos autorregressivos com arquitetura apenas de decodificador. Quando fornecidos com parâmetros de prompt e inferência, os modelos Llama 2 são capazes de gerar respostas de texto. Esses modelos podem ser usados para tradução, resumo, resposta a perguntas e bate-papo.

Para esta postagem, implantamos o modelo Llama 2 Chat meta-llama/Llama-2-13b-chat-hf no SageMaker para inferência em tempo real com streaming de resposta.

Quando se trata de implantar modelos em endpoints SageMaker, você pode conteinerizar os modelos usando Contêiner de aprendizado profundo da AWS (DLC) disponíveis para bibliotecas populares de código aberto. Os modelos Llama 2 são modelos de geração de texto; você pode usar o Abraçando contêineres de inferência Face LLM no SageMaker alimentado por Abraçando o Rosto Inferência de geração de texto (TGI) ou DLCs da AWS para Inferência de modelo grande (LMI).

Nesta postagem, implantamos o modelo Llama 2 13B Chat usando DLCs no SageMaker Hosting para inferência em tempo real com tecnologia de instâncias G5. As instâncias G5 são instâncias baseadas em GPU de alto desempenho para aplicativos com uso intensivo de gráficos e inferência de ML. Você também pode usar os tipos de instância compatíveis p4d, p3, g5 e g4dn com as alterações apropriadas de acordo com a configuração da instância.

Pré-requisitos

Para implementar esta solução, você deve ter o seguinte:

Uma conta da AWS com um Gerenciamento de acesso e identidade da AWS (IAM) com permissões para gerenciar recursos criados como parte da solução.
Se esta é sua primeira vez trabalhando com Estúdio Amazon SageMaker, primeiro você precisa criar um Domínio do SageMaker.
Uma conta Hugging Face. Seja um voluntário com seu e-mail se você ainda não tiver uma conta.
- Para acesso contínuo aos modelos disponíveis no Hugging Face, especialmente modelos fechados como Llama, para fins de ajuste fino e inferência, você deve ter uma conta Hugging Face para obter um token de acesso de leitura. Depois de se inscrever em sua conta Hugging Face, login na sua conta MXNUMX visitar https://huggingface.co/settings/tokens para criar um token de acesso de leitura.
Acesso ao Llama 2, usando o mesmo e-mail que você usou para se inscrever no Hugging Face.
- Os modelos Llama 2 disponíveis via Hugging Face são modelos fechados. O uso do modelo Llama é regido pela licença Meta. Para baixar os pesos do modelo e o tokenizer, solicitar acesso ao Llama e aceite sua licença.
- Depois de obter acesso (normalmente em alguns dias), você receberá um e-mail de confirmação. Para este exemplo, usamos o modelo Llama-2-13b-chat-hf, mas você também poderá acessar outras variantes.

Abordagem 1: Abraçando o Rosto TGI

Nesta seção, mostramos como implantar o meta-llama/Llama-2-13b-chat-hf modelo para um endpoint em tempo real SageMaker com streaming de resposta usando Hugging Face TGI. A tabela a seguir descreve as especificações para esta implantação.

Especificação	Valor
Recipiente	Abraçando o rosto TGI
Nome do modelo	metal-lhama/Llama-2-13b-chat-hf
Instância de ML	ml.g5.12xgrande
Inferência	Tempo real com streaming de resposta

Implantar o modelo

Primeiro, você recupera a imagem base para o LLM ser implantado. Em seguida, você constrói o modelo na imagem base. Por fim, você implanta o modelo na instância de ML do SageMaker Hosting para inferência em tempo real.

Vamos observar como realizar a implantação programaticamente. Para resumir, apenas o código que ajuda nas etapas de implantação é discutido nesta seção. O código-fonte completo para implantação está disponível no notebook llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Recupere o mais recente DLC Hugging Face LLM desenvolvido por TGI via pré-construído DLCs do SageMaker. Você usa esta imagem para implantar o meta-llama/Llama-2-13b-chat-hf modelo no SageMaker. Veja o seguinte código:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Defina o ambiente para o modelo com os parâmetros de configuração definidos a seguir:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

Substituir <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> para o parâmetro de configuração HUGGING_FACE_HUB_TOKEN com o valor do token obtido em seu perfil Hugging Face conforme detalhado na seção de pré-requisitos deste post. Na configuração, você define o número de GPUs usadas por réplica de um modelo como 4 para SM_NUM_GPUS. Então você pode implantar o meta-llama/Llama-2-13b-chat-hf modelo em uma instância ml.g5.12xlarge que vem com 4 GPUs.

Agora você pode construir a instância de HuggingFaceModel com a configuração de ambiente mencionada acima:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Finalmente, implante o modelo fornecendo argumentos para o método de implantação disponível no modelo com vários valores de parâmetros, como endpoint_name, initial_instance_count e instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Realizar inferência

O DLC Hugging Face TGI vem com a capacidade de transmitir respostas sem quaisquer personalizações ou alterações de código no modelo. Você pode usar invocar_endpoint_with_response_stream se você estiver usando Boto3 ou InvokeEndpointWithResponseStream ao programar com o SageMaker Python SDK.

A InvokeEndpointWithResponseStream A API do SageMaker permite que os desenvolvedores transmitam respostas dos modelos do SageMaker, o que pode ajudar a melhorar a satisfação do cliente, reduzindo a latência percebida. Isto é especialmente importante para aplicações construídas com modelos generativos de IA, onde o processamento imediato é mais importante do que esperar pela resposta completa.

Para este exemplo, usamos Boto3 para inferir o modelo e usar a API SageMaker invoke_endpoint_with_response_stream como se segue:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

O argumento CustomAttributes está definido para o valor accept_eula=false. A accept_eula parâmetro deve ser definido como true para obter com sucesso a resposta dos modelos Llama 2. Após a invocação bem-sucedida usando invoke_endpoint_with_response_stream, o método retornará um fluxo de resposta de bytes.

O diagrama a seguir ilustra esse fluxo de trabalho.

Diagrama arquitetônico de streaming HF TGI

Você precisa de um iterador que faça um loop no fluxo de bytes e os analise em texto legível. O LineIterator implementação pode ser encontrada em llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Agora você está pronto para preparar o prompt e as instruções para usá-los como carga útil ao inferir o modelo.

Prepare um prompt e instruções

Nesta etapa, você prepara o prompt e as instruções para o seu LLM. Para solicitar o Llama 2, você deve ter o seguinte modelo de prompt:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Você cria o modelo de prompt definido programaticamente no método build_llama2_prompt, que se alinha com o modelo de prompt mencionado acima. Em seguida, você define as instruções de acordo com o caso de uso. Nesse caso, estamos instruindo o modelo a gerar um e-mail para uma campanha de marketing conforme abordado no get_instructions método. O código para esses métodos está no llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb caderno. Construa a instrução combinada com a tarefa a ser executada conforme detalhado em user_ask_1 como se segue:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Passamos as instruções para construir o prompt de acordo com o modelo de prompt gerado por build_llama2_prompt.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Marcamos os parâmetros de inferência junto com o prompt com a chave stream com o valor True para formar uma carga final. Envie a carga útil para get_realtime_response_stream, que será usado para invocar um endpoint com streaming de resposta:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

O texto gerado do LLM será transmitido para a saída conforme mostrado na animação a seguir.

Streaming de resposta de bate-papo Llama 2 13B - HF TGI

Abordagem 2: LMI com serviço DJL

Nesta seção, demonstramos como implantar o meta-llama/Llama-2-13b-chat-hf modelo para um endpoint em tempo real SageMaker com streaming de resposta usando LMI com DJL Serving. A tabela a seguir descreve as especificações para esta implantação.

Especificação	Valor
Recipiente	Imagem de contêiner LMI com DJL Serving
Nome do modelo	metal-lhama/Llama-2-13b-chat-hf
Instância de ML	ml.g5.12xgrande
Inferência	Tempo real com streaming de resposta

Primeiro você baixa o modelo e o armazena em Serviço de armazenamento simples da Amazon (Amazon S3). Em seguida, você especifica o URI do S3 indicando o prefixo S3 do modelo no arquivo serving.properties arquivo. Em seguida, você recupera a imagem base para o LLM ser implantado. Em seguida, você constrói o modelo na imagem base. Por fim, você implanta o modelo na instância de ML do SageMaker Hosting para inferência em tempo real.

Vamos observar como realizar as etapas de implantação mencionadas de forma programática. Por questões de brevidade, apenas o código que ajuda nas etapas de implantação é detalhado nesta seção. O código-fonte completo desta implantação está disponível no notebook llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Faça download do snapshot do modelo em Hugging Face e carregue os artefatos do modelo no Amazon S3

Com os pré-requisitos mencionados acima, baixe o modelo na instância do notebook SageMaker e, em seguida, carregue-o no bucket S3 para implantação adicional:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Observe que mesmo que você não forneça um token de acesso válido, o modelo será baixado. Mas quando você implanta esse modelo, o serviço do modelo não terá sucesso. Portanto, é recomendado substituir <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> para o argumento token com o valor do token obtido em seu perfil Hugging Face conforme detalhado nos pré-requisitos. Para esta postagem, especificamos o nome do modelo oficial do Llama 2 conforme identificado em Hugging Face com o valor meta-llama/Llama-2-13b-chat-hf. O modelo descompactado será baixado para local_model_path como resultado da execução do código mencionado acima.

Faça upload dos arquivos para o Amazon S3 e obtenha o URI, que será usado posteriormente no serving.properties.

Você estará embalando o meta-llama/Llama-2-13b-chat-hf modelo na imagem do contêiner LMI com DJL Serving usando a configuração especificada via serving.properties. Em seguida, você implanta o modelo junto com os artefatos do modelo empacotados na imagem do contêiner na instância do SageMaker ML ml.g5.12xlarge. Em seguida, você usa esta instância de ML para SageMaker Hosting para inferência em tempo real.

Preparar artefatos de modelo para DJL Serving

Prepare os artefatos do seu modelo criando um serving.properties arquivo de configuração:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

Usamos as seguintes configurações neste arquivo de configuração:

motor – Especifica o mecanismo de tempo de execução a ser usado pelo DJL. Os valores possíveis incluem Python, DeepSpeed, FasterTransformer e MPI. Neste caso, configuramos para MPI. A Paralelização e Inferência de Modelos (MPI) facilita o particionamento do modelo em todas as GPUs disponíveis e, portanto, acelera a inferência.
opção.entryPoint – Esta opção especifica qual manipulador oferecido pelo DJL Serving você gostaria de usar. Os valores possíveis são djl_python.huggingface, djl_python.deepspeed e djl_python.stable-diffusion. Nós usamos djl_python.huggingface para abraçar o rosto acelerar.
opção.tensor_parallel_degree – Esta opção especifica o número de partições paralelas de tensores executadas no modelo. Você pode definir o número de dispositivos GPU nos quais o Accelerate precisa particionar o modelo. Este parâmetro também controla o número de trabalhadores por modelo que serão iniciados quando o serviço DJL for executado. Por exemplo, se tivermos uma máquina com 4 GPUs e estivermos criando quatro partições, teremos um trabalhador por modelo para atender as solicitações.
opção.low_cpu_mem_usage – Isso reduz o uso de memória da CPU ao carregar modelos. Recomendamos que você defina isso como TRUE.
opção.rolling_batch – Isso permite o processamento em lote no nível da iteração usando uma das estratégias suportadas. Os valores incluem auto, scheduler e lmi-dist. Nós usamos lmi-dist para ativar o lote contínuo para o Llama 2.
opção.max_rolling_batch_size – Isso limita o número de solicitações simultâneas no lote contínuo. O valor padrão é 32.
opção.model_id – Você deve substituir {{model_id}} com o ID do modelo de um modelo pré-treinado hospedado dentro de um repositório de modelos no Hugging Face ou caminho S3 para os artefatos do modelo.

Mais opções de configuração podem ser encontradas em Configurações e configurações.

Como o DJL Serving espera que os artefatos do modelo sejam empacotados e formatados em um arquivo .tar, execute o seguinte snippet de código para compactar e fazer upload do arquivo .tar para o Amazon S3:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Recupere a imagem de contêiner LMI mais recente com DJL Serving

Em seguida, você usa os DLCs disponíveis com o SageMaker for LMI para implantar o modelo. Recuperar o URI da imagem do SageMaker para o djl-deepspeed container programaticamente usando o seguinte código:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Você pode usar a imagem mencionada acima para implantar o meta-llama/Llama-2-13b-chat-hf modelo no SageMaker. Agora você pode prosseguir para criar o modelo.

Crie o modelo

Você pode criar o modelo cujo contêiner é construído usando o inference_image_uri e o código de serviço do modelo localizado no URI S3 indicado por s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Agora você pode criar a configuração do modelo com todos os detalhes da configuração do endpoint.

Crie a configuração do modelo

Use o código a seguir para criar uma configuração de modelo para o modelo identificado por model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

A configuração do modelo é definida para o ProductionVariants parâmetro InstanceType para a instância de ML ml.g5.12xlarge. Você também fornece o ModelName usando o mesmo nome usado para criar o modelo na etapa anterior, estabelecendo assim uma relação entre o modelo e a configuração do terminal.

Agora que você definiu o modelo e a configuração do modelo, você pode criar o endpoint SageMaker.

Crie o ponto de extremidade do SageMaker

Crie o endpoint para implantar o modelo usando o seguinte snippet de código:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Você pode visualizar o progresso da implantação usando o seguinte snippet de código:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Depois que a implantação for bem-sucedida, o status do endpoint será InService. Agora que o endpoint está pronto, vamos realizar inferência com streaming de resposta.

Inferência em tempo real com streaming de resposta

Conforme abordamos na abordagem anterior para Hugging Face TGI, você pode usar o mesmo método get_realtime_response_stream para invocar o streaming de resposta do endpoint SageMaker. O código para inferência usando a abordagem LMI está no llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb caderno. O LineIterator implementação está localizada em llama-2-lmi/utils/LineIterator.py. Observe que o LineIterator para o modelo Llama 2 Chat implantado no contêiner LMI é diferente do LineIterator referenciado na seção Hugging Face TGI. O LineIterator faz um loop no fluxo de bytes dos modelos Llama 2 Chat inferenciados com o contêiner LMI com djl-deepspeed versão 0.25.0. A função auxiliar a seguir analisará o fluxo de resposta recebido da solicitação de inferência feita por meio do invoke_endpoint_with_response_stream API:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

O método anterior imprime o fluxo de dados lido pelo LineIterator em um formato legível por humanos.

Vamos explorar como preparar o prompt e as instruções para usá-los como carga útil ao inferir o modelo.

Como você está inferindo o mesmo modelo no Hugging Face TGI e no LMI, o processo de preparação do prompt e das instruções é o mesmo. Portanto, você pode usar os métodos get_instructions e build_llama2_prompt para inferência.

A get_instructions método retorna as instruções. Construa as instruções combinadas com a tarefa a ser executada conforme detalhado em user_ask_2 como se segue:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Passe as instruções para construir o prompt de acordo com o modelo de prompt gerado por build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Nós agrupamos os parâmetros de inferência junto com o prompt para formar uma carga final. Então você envia a carga útil para get_realtime_response_stream, que é usado para invocar um endpoint com streaming de resposta:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

O texto gerado do LLM será transmitido para a saída conforme mostrado na animação a seguir.

Streaming de resposta de bate-papo Llama 2 13B - LMI

limpar

Para evitar cobranças desnecessárias, use o Console de gerenciamento da AWS para excluir os endpoints e seus recursos associados que foram criados durante a execução das abordagens mencionadas na postagem. Para ambas as abordagens de implantação, execute a seguinte rotina de limpeza:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

Substituir <SageMaker_Real-time_Endpoint_Name> para variável endpoint_name com o ponto final real.

Para a segunda abordagem, armazenamos o modelo e os artefatos de código no Amazon S3. Você pode limpar o bucket S3 usando o seguinte código:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Conclusão

Nesta postagem, discutimos como um número variável de tokens de resposta ou um conjunto diferente de parâmetros de inferência podem afetar as latências associadas aos LLMs. Mostramos como resolver o problema com a ajuda do streaming de resposta. Em seguida, identificamos duas abordagens para implantar e inferir modelos de bate-papo do Llama 2 usando DLCs da AWS: LMI e Hugging Face TGI.

Agora você deve compreender a importância da resposta de streaming e como ela pode reduzir a latência percebida. A resposta de streaming pode melhorar a experiência do usuário, o que de outra forma faria você esperar até que o LLM construísse a resposta completa. Além disso, a implantação de modelos Llama 2 Chat com streaming de resposta melhora a experiência do usuário e deixa seus clientes satisfeitos.

Você pode consultar as amostras oficiais do aws amazon-sagemaker-llama2-resposta-streaming-receitas que cobre a implantação de outras variantes do modelo Llama 2.

Referências

Sobre os autores

Pavan Kumar Rao Navule é arquiteto de soluções na Amazon Web Services. Ele trabalha com ISVs na Índia para ajudá-los a inovar na AWS. Ele é o autor publicado do livro “Getting Started with V Programming”. Ele obteve um M.Tech Executivo em Ciência de Dados pelo Instituto Indiano de Tecnologia (IIT), Hyderabad. Ele também obteve um MBA Executivo em especialização em TI pela Escola Indiana de Gestão e Administração de Negócios e possui bacharelado em Engenharia Eletrônica e de Comunicação pelo Instituto Vaagdevi de Tecnologia e Ciência. Pavan é AWS Certified Solutions Architect Professional e possui outras certificações, como AWS Certified Machine Learning Speciality, Microsoft Certified Professional (MCP) e Microsoft Certified Technology Specialist (MCTS). Ele também é um entusiasta de código aberto. Nas horas vagas, ele adora ouvir as grandes vozes mágicas de Sia e Rihanna.

Ódio de Sudhanshu é o principal especialista em IA/ML da AWS e trabalha com clientes para aconselhá-los em suas jornadas de MLOps e IA generativa. Em sua função anterior antes da Amazon, ele conceituou, criou e liderou equipes para construir plataformas de gamificação e IA baseadas em código aberto, e comercializou-as com sucesso com mais de 100 clientes. Sudhanshu tem algumas patentes, escreveu dois livros e vários artigos e blogs, e apresentou seus pontos de vista em vários fóruns técnicos. Ele é um líder inovador e palestrante e está no setor há quase 25 anos. Ele trabalhou com clientes da Fortune 1000 em todo o mundo e, mais recentemente, com clientes nativos digitais na Índia.