Ajuste o Llama 2 usando QLoRA e implante-o no Amazon SageMaker com AWS Inferentia2

Republicado por Platão

seguidores: 0

Nesta postagem, mostramos o ajuste fino de um modelo Llama 2 usando um método de ajuste fino com eficiência de parâmetro (PEFT) e implantamos o modelo ajustado em AWS Inferencia2. Nós usamos o Neurônio AWS kit de desenvolvimento de software (SDK) para acessar o dispositivo AWS Inferentia2 e se beneficiar de seu alto desempenho. Em seguida, usamos um grande contêiner de inferência de modelo alimentado por Biblioteca Java Profunda (DJLServing) como nossa solução de serviço de modelo.

Visão geral da solução

Llama2 de ajuste fino eficiente usando QLoRa

A família Llama 2 de grandes modelos de linguagem (LLMs) é uma coleção de modelos de texto generativos pré-treinados e ajustados que variam em escala de 7 bilhões a 70 bilhões de parâmetros. O Llama 2 foi pré-treinado em 2 trilhões de tokens de dados de fontes disponíveis publicamente. Às vezes, os clientes da AWS optam por ajustar os modelos do Llama 2 usando os próprios dados dos clientes para obter melhor desempenho em tarefas downstream. No entanto, devido ao grande número de parâmetros do modelo Llama 2, o ajuste fino completo pode ser proibitivamente caro e demorado. A abordagem de ajuste fino com eficiência de parâmetros (PEFT) pode resolver esse problema ajustando apenas um pequeno número de parâmetros extras do modelo enquanto congela a maioria dos parâmetros do modelo pré-treinado. Para mais informações sobre PEFT, pode-se ler isto postar. Nesta postagem, usamos QLoRa para ajustar um modelo Llama 2 7B.

Implante um modelo ajustado no Inf2 usando Amazon SageMaker

O AWS Inferentia2 é um acelerador de machine learning (ML) desenvolvido especificamente para cargas de trabalho de inferência e oferece alto desempenho com custo até 40% menor para cargas de trabalho generativas de IA e LLM em relação a outras instâncias otimizadas para inferência na AWS. Nesta postagem, usamos Amazon Elastic Compute Cloud (Amazon EC2) Instância Inf2, apresentando AWS Inferentia2, os aceleradores Inferentia2 de segunda geração, cada um contendo dois NeuronCores-v2. Cada NeuronCore-v2 é uma unidade de computação independente e heterogênea, com quatro motores principais: motores Tensor, Vetorial, Escalar e GPSIMD. Inclui uma memória SRAM gerenciada por software no chip para maximizar a localidade dos dados. Como vários blogs sobre Inf2 foram publicados, o leitor pode consultar este postar e nosso documentação para obter mais informações sobre Inf2.

Para implantar modelos no Inf2, precisamos do AWS Neuron SDK como a camada de software executada no hardware Inf2. AWS Neuron é o SDK usado para executar cargas de trabalho de aprendizagem profunda no AWS Inferentia e Treinamento AWS instâncias baseadas. Ele permite que o ciclo de vida de desenvolvimento de ML de ponta a ponta crie novos modelos, treine e otimize esses modelos e os implante para produção. O AWS Neuron inclui um aprendizado profundo compilador, tempo de execução e ferramentas que são nativamente integrados a estruturas populares como TensorFlow e PyTorch. Neste blog, vamos usar transformers-neuronx, que faz parte do AWS Neuron SDK para fluxos de trabalho de inferência de decodificador de transformador. Isto suporta uma variedade de modelos populares, incluindo Llama 2.

Para implantar modelos em Amazon Sage Maker, geralmente usamos um contêiner que contém as bibliotecas necessárias, como Neuron SDK e transformers-neuronx bem como o componente de serviço de modelo. Amazon SageMaker mantém contêineres de aprendizado profundo (DLCs) com bibliotecas populares de código aberto para hospedar modelos grandes. Nesta postagem, usamos o Contêiner de inferência de modelo grande para Neuron. Este contêiner tem tudo que você precisa para implantar seu modelo Llama 2 no Inf2. Para obter recursos para começar a usar o LMI no Amazon SageMaker, consulte muitas de nossas postagens existentes (Blog 1, Blog 2, Blog 3) neste tópico. Resumindo, você pode executar o contêiner sem escrever nenhum código adicional. Você pode usar o manipulador padrão para uma experiência de usuário perfeita e passe um dos nomes de modelo suportados e quaisquer parâmetros configuráveis de tempo de carregamento. Isso compila e veicula um LLM em uma instância Inf2. Por exemplo, para implantar OpenAssistant/llama2-13b-orca-8k-3319, você pode fornecer a configuração a seguir (como serving.properties arquivo). Em serving.properties, especificamos o tipo de modelo como llama2-13b-orca-8k-3319, o tamanho do lote como 4, o grau paralelo do tensor como 2 e pronto. Para obter a lista completa de parâmetros configuráveis, consulte Todas as opções de configuração DJL.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

Alternativamente, você pode escrever seu próprio arquivo manipulador de modelo conforme mostrado neste exemplo, mas isso requer a implementação dos métodos de carregamento e inferência do modelo para servir como uma ponte entre as APIs DJLServing.

Pré-requisitos

A lista a seguir descreve os pré-requisitos para implantar o modelo descrito nesta postagem do blog. Você pode implementar a partir do Console de gerenciamento da AWS ou usando a versão mais recente do Interface de linha de comando da AWS (AWSCL).

Passo a passo

Na seção a seguir, percorreremos o código em duas partes:

Ajustar um modelo Llama2-7b e fazer upload dos artefatos do modelo para um local especificado do bucket do Amazon S3.
Implante o modelo em um Inferentia2 usando o contêiner de serviço DJL hospedado no Amazon SageMaker.

Os exemplos de código completos com instruções podem ser encontrados neste GitHub repositório.

Parte 1: Ajustar um modelo Llama2-7b usando PEFT

Usaremos o método recentemente introduzido no artigo QLoRA: ajuste de adaptador de baixo nível com reconhecimento de quantização para geração de linguagem por Tim Dettmers et al. QLoRA é uma nova técnica para reduzir o consumo de memória de grandes modelos de linguagem durante o ajuste fino, sem sacrificar o desempenho.

Observação: O ajuste fino do modelo llama2-7b mostrado a seguir foi testado em um Amazon Caderno de estúdio SageMaker com kernel otimizado para GPU Python 2.0 usando um ml.g5.2xgrande tipo de instância. Como prática recomendada, recomendamos o uso de um Estúdio Amazon SageMaker Ambiente de Desenvolvimento Integrado (IDE) lançado em seu próprio país Nuvem virtual privada da Amazon (Amazon VPC). Isso permite que você controle, monitore e inspecione o tráfego de rede dentro e fora do seu VPC usando rede AWS padrão e recursos de segurança. Para mais informações, veja Protegendo a conectividade do Amazon SageMaker Studio usando um VPC privado.

Quantizar o modelo base

Primeiro carregamos um modelo quantizado com quantização de 4 bits usando Transformadores Huggingface biblioteca da seguinte forma:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

Carregar conjunto de dados de treinamento

A seguir, carregamos o conjunto de dados para alimentar o modelo para a etapa de ajuste fino mostrada a seguir:

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

Anexe uma camada adaptadora

Aqui anexamos uma pequena camada adaptadora treinável, configurada como LoraConfig definido no Rosto Abraçado peft biblioteca.

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

Treine uma modelo

Usando a configuração LoRA mostrada acima, ajustaremos o modelo Llama2 junto com os hiperparâmetros. Um trecho de código para treinar o modelo é mostrado a seguir:

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

Mesclar peso do modelo

O modelo ajustado executado acima criou um novo modelo contendo os pesos do adaptador LoRA treinado. No trecho de código a seguir, mesclaremos o adaptador com o modelo base para que possamos usar o modelo ajustado para inferência.

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

Carregar o peso do modelo para o Amazon S3

Na etapa final da parte 1, salvaremos os pesos do modelo mesclado em um local especificado do Amazon S3. O peso do modelo será usado por um contêiner de serviço de modelo no Amazon SageMaker para hospedar o modelo usando uma instância do Inferentia2.

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

Parte 2: Modelo Host QLoRA para inferência com AWS Inf2 usando SageMaker LMI Container

Nesta seção, percorreremos as etapas de implantação de um modelo QLoRA ajustado em um ambiente de hospedagem do Amazon SageMaker. Usaremos um Servindo DJL contêiner do SageMaker DLC, que se integra com o transformadores-neurônio biblioteca para hospedar este modelo. A configuração facilita o carregamento de modelos em aceleradores AWS Inferentia2, paraleliza o modelo em vários NeuronCores e permite o atendimento por meio de endpoints HTTP.

Preparar artefatos de modelo

DJL suporta muitas bibliotecas de otimização de aprendizagem profunda, incluindo Velocidade Profunda, Faster Transformer e mais. Para configurações específicas do modelo, fornecemos um serving.properties com parâmetros-chave, como tensor_parallel_degree e model_id para definir as opções de carregamento do modelo. O model_id pode ser um ID de modelo Hugging Face ou um caminho do Amazon S3 onde os pesos do modelo são armazenados. Em nosso exemplo, fornecemos a localização do Amazon S3 do nosso modelo ajustado. O snippet de código a seguir mostra as propriedades usadas para a veiculação do modelo:

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

Por favor, consulte isso documentação para obter mais informações sobre as opções configuráveis disponíveis via serving.properties. Observe que usamos option.n_position=512 neste blog para uma compilação mais rápida do AWS Neuron. Se você quiser tentar um comprimento de token de entrada maior, recomendamos ao leitor pré-compilar o modelo com antecedência (consulte Modelo de pré-compilação AOT no EC2). Caso contrário, você poderá ocorrer um erro de tempo limite se o tempo de compilação for muito longo.

Após serving.properties arquivo está definido, vamos empacotar o arquivo em um tar.gz formato, como segue:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

Em seguida, faremos upload do tar.gz para um local de bucket do Amazon S3:

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

Crie um endpoint de modelo do Amazon SageMaker

Para usar uma instância Inf2 para servir, usamos um Amazon Contêiner SageMaker LMI com suporte DJL neuronX. Por favor consulte isto postar para obter mais informações sobre como usar um contêiner DJL NeuronX para inferência. O código a seguir mostra como implantar um modelo usando o SDK Python do Amazon SageMaker:

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

Ponto de extremidade do modelo de teste

Depois que o modelo for implantado com sucesso, podemos validar o endpoint enviando uma solicitação de amostra ao preditor:

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

O exemplo de saída é mostrado a seguir:

No contexto da análise de dados, Machine Learning (ML) refere-se a uma técnica estatística capaz de extrair poder preditivo de um conjunto de dados com complexidade e precisão crescentes, estreitando iterativamente o escopo de uma estatística.

O Machine Learning não é uma nova técnica estatística, mas sim uma combinação de técnicas existentes. Além disso, não foi concebido para ser utilizado com um conjunto de dados específico ou para produzir um resultado específico. Em vez disso, foi concebido para ser suficientemente flexível para se adaptar a qualquer conjunto de dados e fazer previsões sobre qualquer resultado.

limpar

Se você decidir que não deseja mais manter o endpoint SageMaker em execução, poderá excluí-lo usando AWS SDK para Python (boto3), AWS CLI ou console Amazon SageMaker. Além disso, você também pode encerrar os recursos do Amazon SageMaker Studio que não são mais necessários.

Conclusão

Neste post, mostramos como ajustar um modelo Llama2-7b usando adaptador LoRA com quantização de 4 bits usando uma única instância de GPU. Em seguida, implantamos o modelo em uma instância Inf2 hospedada no Amazon SageMaker usando um contêiner de serviço DJL. Por fim, validamos o endpoint do modelo Amazon SageMaker com uma previsão de geração de texto usando o SageMaker Python SDK. Vá em frente e experimente, adoramos ouvir seus comentários. Fique atento às atualizações sobre mais recursos e inovações com o AWS Inferentia.

Para obter mais exemplos sobre o AWS Neuron, consulte amostras de neurônios aws.

Sobre os autores

Wei Teh é arquiteto de soluções especialista sênior em IA/ML na AWS. Ele adora ajudar os clientes a avançar em sua jornada na AWS, concentrando-se nos serviços Amazon Machine Learning e nas soluções baseadas em machine learning. Fora do trabalho, ele gosta de atividades ao ar livre, como acampar, pescar e fazer caminhadas com a família.

Ajuste o Llama 2 usando QLoRA e implante-o no Amazon SageMaker com AWS Inferentia2 | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Qingweeu Li é especialista em aprendizado de máquina na Amazon Web Services. Ele recebeu seu Ph.D. em Pesquisa Operacional depois que ele quebrou a conta de bolsa de pesquisa de seu orientador e não entregou o Prêmio Nobel que prometeu. Atualmente, ele ajuda os clientes do setor de seguros e serviços financeiros a criar soluções de aprendizado de máquina na AWS. Nas horas vagas, gosta de ler e ensinar.