Fine-tune Llama 2 Using QLoRA And Deploy It On Amazon SageMaker With AWS Inferentia2

Genudgivet af Platon

Abonnenter: 0

I dette indlæg viser vi finjustering af en Llama 2-model ved hjælp af en Parameter-Efficient Fine-Tuning-metode (PEFT) og implementerer den finjusterede model på AWS Inferentia2. Vi bruger AWS Neuron softwareudviklingskit (SDK) for at få adgang til AWS Inferentia2-enheden og drage fordel af dens høje ydeevne. Vi bruger derefter en stor model inferensbeholder powered by Deep Java Library (DJLServing) som vores modelserveringsløsning.

Løsningsoversigt

Effektiv finjustering af Llama2 ved hjælp af QLoRa

Llama 2-familien af store sprogmodeller (LLM'er) er en samling af fortrænede og finjusterede generative tekstmodeller i en skala fra 7 milliarder til 70 milliarder parametre. Llama 2 blev fortrænet på 2 billioner tokens af data fra offentligt tilgængelige kilder. AWS-kunder vælger nogle gange at finjustere Llama 2-modeller ved hjælp af kundernes egne data for at opnå bedre ydeevne til downstream-opgaver. På grund af Llama 2-modellens store antal parametre kan fuld finjustering dog være uoverkommeligt dyrt og tidskrævende. Parameter-Efficient Fine-Tuning (PEFT) tilgang kan løse dette problem ved kun at finjustere et lille antal ekstra modelparametre, mens de fleste parametre i den forudtrænede model fryses. For mere information om PEFT kan man læse dette indlæg. I dette indlæg bruger vi QLoRa at finjustere en Llama 2 7B-model.

Implementer en finjusteret model på Inf2 ved hjælp af Amazon SageMaker

AWS Inferentia2 er specialbygget maskinlæringsaccelerator (ML) designet til inferensarbejdsbelastninger og leverer høj ydeevne til op til 40 % lavere omkostninger for generative AI- og LLM-arbejdsbelastninger i forhold til andre inferensoptimerede instanser på AWS. I dette indlæg bruger vi Amazon Elastic Compute Cloud (Amazon EC2) Inf2-forekomst, med AWS Inferentia2, anden generation af Inferentia2-acceleratorer, der hver indeholder to NeuronCores-v2. Hver NeuronCore-v2 er en uafhængig, heterogen computerenhed med fire hovedmotorer: Tensor-, Vector-, Scalar- og GPSIMD-motorer. Den inkluderer en on-chip software-administreret SRAM-hukommelse for at maksimere datalokaliteten. Da der er udgivet flere blogs på Inf2, kan læseren henvise til dette indlæg og vores dokumentation for mere information om Inf2.

For at implementere modeller på Inf2 har vi brug for AWS Neuron SDK som softwarelaget, der kører oven på Inf2-hardwaren. AWS Neuron er SDK'et, der bruges til at køre deep learning workloads på AWS Inferentia og AWS Trainium baseret instanser. Det muliggør end-to-end ML-udviklingslivscyklus til at bygge nye modeller, træne og optimere disse modeller og implementere dem til produktion. AWS Neuron inkluderer en dyb læring compiler, runtimeog værktøjer der er integreret med populære rammer som TensorFlow og PyTorch. I denne blog skal vi bruge transformers-neuronx, som er en del af AWS Neuron SDK for transformer dekoder inferens workflows. Det understøtninger en række populære modeller, herunder Llama 2.

Til at implementere modeller på Amazon SageMaker, bruger vi normalt en beholder, der indeholder de nødvendige biblioteker, såsom Neuron SDK og transformers-neuronx samt modelserveringskomponenten. Amazon SageMaker fastholder dybe læringscontainere (DLC'er) med populære open source-biblioteker til hosting af store modeller. I dette indlæg bruger vi Stor model inferensbeholder til neuron. Denne container har alt hvad du behøver for at implementere din Llama 2-model på Inf2. For ressourcer til at komme i gang med LMI på Amazon SageMaker, se mange af vores eksisterende indlæg (blog 1, blog 2, blog 3) om dette emne. Kort sagt kan du køre containeren uden at skrive yderligere kode. Du kan bruge standardhandler for en problemfri brugeroplevelse og videregive et af de understøttede modelnavne og alle parametre, der kan indstilles til indlæsningstid. Dette kompilerer og serverer en LLM på en Inf2-instans. For eksempel at implementere OpenAssistant/llama2-13b-orca-8k-3319, kan du angive følgende konfiguration (som serving.properties fil). I serving.properties, angiver vi modeltypen som llama2-13b-orca-8k-3319, batchstørrelsen som 4, tensor parallelgraden som 2, og det er det. Se den fulde liste over konfigurerbare parametre Alle DJL-konfigurationsmuligheder.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

Alternativt kan du skrive din egen modelbehandlerfil som vist i denne eksempel, men det kræver implementering af modelindlæsnings- og inferensmetoderne for at fungere som en bro mellem DJLServing API'erne.

Forudsætninger

Den følgende liste skitserer forudsætningerne for implementering af modellen beskrevet i dette blogindlæg. Du kan implementere enten fra AWS Management Console eller ved at bruge den nyeste version af AWS kommandolinjegrænseflade (AWS CLI).

Går igennem

I det følgende afsnit gennemgår vi koden i to dele:

Finjustering af en Llama2-7b-model, og upload modelartefakter til en specificeret Amazon S3-spandplacering.
Implementer modellen i en Inferentia2 ved hjælp af DJL-serveringscontainer hostet i Amazon SageMaker.

De komplette kodeeksempler med instruktioner kan findes i denne GitHub repository.

Del 1: Finjuster en Llama2-7b-model ved hjælp af PEFT

Vi vil bruge den nyligt introducerede metode i papiret QLoRA: Kvantiseringsbevidst Low-Rank Adapter Tuning til sproggenerering af Tim Dettmers et al. QLoRA er en ny teknik til at reducere hukommelsesfodaftrykket for store sprogmodeller under finjustering uden at ofre ydeevnen.

Bemærk: Finjusteringen af llama2-7b-modellen vist i det følgende blev testet på en Amazon SageMaker Studio notesbog med Python 2.0 GPU-optimeret kerne ved hjælp af en ml.g5.2xlarge instanstype. Som en bedste praksis anbefaler vi at bruge en Amazon SageMaker Studio Integreret udviklingsmiljø (IDE) lanceret i dit eget Amazon Virtual Private Cloud (Amazon VPC). Dette giver dig mulighed for at kontrollere, overvåge og inspicere netværkstrafik inden for og uden for din VPC ved hjælp af standard AWS-netværks- og sikkerhedsfunktioner. For mere information, se Sikring af Amazon SageMaker Studio-forbindelse ved hjælp af en privat VPC.

Kvantiser basismodellen

Vi indlæser først en kvantiseret model med 4-bit kvantisering vha Huggingface transformere bibliotek som følger:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

Indlæs træningsdatasæt

Dernæst indlæser vi datasættet for at feed modellen til finjusteringstrin vist som følger:

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

Vedhæft et adapterlag

Her vedhæfter vi et lille, trænebart adapterlag, konfigureret som LoraConfig defineret i Hugging Face's peft bibliotek.

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

Træn en model

Ved at bruge LoRA-konfigurationen vist ovenfor, finjusterer vi Llama2-modellen sammen med hyper-parametre. Et kodestykke til træning af modellen er vist i følgende:

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

Kombiner modelvægt

Den finjusterede model udført ovenfor skabte en ny model indeholdende de trænede LoRA adaptervægte. I det følgende kodestykke fusionerer vi adapteren med basismodellen, så vi kan bruge den finjusterede model til slutninger.

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

Upload modelvægt til Amazon S3

I det sidste trin i del 1 gemmer vi de sammenlagte modelvægte til en specificeret Amazon S3-placering. Modelvægten vil blive brugt af en modelbeholder i Amazon SageMaker til at hoste modellen ved hjælp af en Inferentia2-instans.

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

Del 2: Vært vært for QLoRA-model for inferens med AWS Inf2 ved hjælp af SageMaker LMI Container

I dette afsnit gennemgår vi trinene til at implementere en QLoRA finjusteret model i et Amazon SageMaker-hostingmiljø. Vi bruger en DJL servering container fra SageMaker DLC, som integreres med transformatorer-neuronx bibliotek til at være vært for denne model. Opsætningen letter indlæsningen af modeller på AWS Inferentia2-acceleratorer, paralleliserer modellen på tværs af flere NeuronCores og muliggør servering via HTTP-endepunkter.

Forbered modelartefakter

DJL understøtter mange deep learning optimeringsbiblioteker, herunder DeepSpeed, Hurtigere Transformer og mere. For modelspecifikke konfigurationer leverer vi en serving.properties med nøgleparametre, som f.eks tensor_parallel_degree , model_id for at definere modelbelastningsmulighederne. Det model_id kunne være et Hugging Face-model-ID eller en Amazon S3-sti, hvor modelvægtene er gemt. I vores eksempel giver vi Amazon S3-placeringen af vores finjusterede model. Følgende kodestykke viser de egenskaber, der bruges til modelvisningen:

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

Henvis venligst til dette dokumentation for mere information om de konfigurerbare muligheder, der er tilgængelige via serving.properties. Bemærk venligst, at vi bruger option.n_position=512 i denne blog for hurtigere AWS Neuron-kompilering. Hvis du vil prøve en større input token-længde, anbefaler vi læseren at prækompilere modellen på forhånd (se AOT Pre-Compile Model på EC2). Ellers kan du løbe ind i timeout-fejl, hvis kompileringstiden er for lang.

Efter serving.properties fil er defineret, pakker vi filen i en tar.gz format, som følger:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

Derefter uploader vi tar.gz til en Amazon S3-bøtteplacering:

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

Opret et Amazon SageMaker-modelslutpunkt

For at bruge en Inf2-instans til visning bruger vi en Amazon SageMaker LMI container med DJL neuronX-understøttelse. Henvis venligst til dette indlæg for mere information om brug af en DJL NeuronX-beholder til slutninger. Følgende kode viser, hvordan man implementerer en model ved hjælp af Amazon SageMaker Python SDK:

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

Test model slutpunkt

Efter at modellen er implementeret med succes, kan vi validere slutpunktet ved at sende en prøveanmodning til forudsigeren:

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

Eksempeloutputtet vises som følger:

I forbindelse med dataanalyse refererer Machine Learning (ML) til en statistisk teknik, der er i stand til at udtrække forudsigelseskraft fra et datasæt med stigende kompleksitet og nøjagtighed ved iterativt at indsnævre omfanget af en statistik.

Machine Learning er ikke en ny statistisk teknik, men snarere en kombination af eksisterende teknikker. Desuden er det ikke designet til at blive brugt med et specifikt datasæt eller til at producere et specifikt resultat. Det var snarere designet til at være fleksibelt nok til at tilpasse sig ethvert datasæt og til at forudsige ethvert resultat.

Ryd op

Hvis du beslutter, at du ikke længere ønsker at holde SageMaker-slutpunktet kørende, kan du slette det vha AWS SDK til Python (boto3), AWS CLI eller Amazon SageMaker Console. Derudover kan du også lukke Amazon SageMaker Studio-ressourcerne som ikke længere er nødvendige.

Konklusion

I dette indlæg viste vi dig, hvordan du finjusterer en Llama2-7b-model ved hjælp af LoRA-adapter med 4-bit kvantisering ved hjælp af en enkelt GPU-instans. Derefter implementerede vi modellen til en Inf2-instans hostet i Amazon SageMaker ved hjælp af en DJL-serveringscontainer. Endelig validerede vi Amazon SageMaker-modellens slutpunkt med en tekstgenereringsforudsigelse ved hjælp af SageMaker Python SDK. Gå videre og prøv det, vi elsker at høre din feedback. Hold dig opdateret for opdateringer om flere muligheder og nye innovationer med AWS Inferentia.

For flere eksempler om AWS Neuron, se aws-neuron-prøver.

Om forfatterne

Wei Teh er Senior AI/ML Specialist Solutions Architect hos AWS. Han brænder for at hjælpe kunder med at fremme deres AWS-rejse, med fokus på Amazon Machine Learning-tjenester og maskinlæringsbaserede løsninger. Uden for arbejdet nyder han udendørsaktiviteter som camping, fiskeri og vandreture med sin familie.

Fine-tune Llama 2 using QLoRA and Deploy it on Amazon SageMaker with AWS Inferentia2 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Qingwei Li er Machine Learning Specialist hos Amazon Web Services. Han fik sin ph.d. i Operations Research, efter at han brød sin rådgivers forskningsbevillingskonto og undlod at levere den nobelpris, han lovede. I øjeblikket hjælper han kunder i finans- og forsikringsbranchen med at bygge maskinlæringsløsninger på AWS. I sin fritid kan han godt lide at læse og undervise.