Finjustera Llama 2 med QLoRA och distribuera den på Amazon SageMaker med AWS Inferentia2

Återutgiven av Platon

anhängare: 0

I det här inlägget visar vi upp finjustering av en Llama 2-modell med hjälp av en PEFT-metod (Parameter-Efficient Fine-Tuning) och distribuerar den finjusterade modellen på AWS Inferentia2. Vi använder AWS Neuron mjukvaruutvecklingskit (SDK) för att komma åt AWS Inferentia2-enheten och dra nytta av dess höga prestanda. Vi använder sedan en stor modell för slutledningsbehållare som drivs av Djupt Java-bibliotek (DJLServing) som vår modellserveringslösning.

Lösningsöversikt

Effektiv finjustering av Llama2 med QLoRa

Llama 2-familjen av stora språkmodeller (LLM) är en samling förtränade och finjusterade generativa textmodeller som sträcker sig i skala från 7 miljarder till 70 miljarder parametrar. Llama 2 var förtränad på 2 biljoner tokens med data från allmänt tillgängliga källor. AWS-kunder väljer ibland att finjustera Llama 2-modeller med hjälp av kundernas egna data för att uppnå bättre prestanda för nedströmsuppgifter. Men på grund av Llama 2-modellens stora antal parametrar kan full finjustering vara oöverkomligt dyrt och tidskrävande. Parameter-Efficient Fine-Tuning (PEFT)-metoden kan lösa detta problem genom att bara finjustera ett litet antal extra modellparametrar samtidigt som de flesta parametrar i den förtränade modellen fryses. För mer information om PEFT kan man läsa detta inlägg. I det här inlägget använder vi QLoRa för att finjustera en Llama 2 7B-modell.

Distribuera en finjusterad modell på Inf2 med Amazon SageMaker

AWS Inferentia2 är specialbyggd maskininlärningsaccelerator (ML) designad för slutledningsarbetsbelastningar och ger hög prestanda till upp till 40 % lägre kostnad för generativa AI- och LLM-arbetsbelastningar jämfört med andra slutledningsoptimerade instanser på AWS. I det här inlägget använder vi Amazon Elastic Compute Cloud (Amazon EC2) Inf2-instans, med AWS Inferentia2, andra generationens Inferentia2-acceleratorer, som var och en innehåller två NeuronCores-v2. Varje NeuronCore-v2 är en oberoende, heterogen beräkningsenhet, med fyra huvudmotorer: Tensor-, Vector-, Scalar- och GPSIMD-motorer. Den inkluderar ett on-chip mjukvaruhanterat SRAM-minne för att maximera datalokaliteten. Eftersom flera bloggar på Inf2 har publicerats kan läsaren hänvisa till detta inlägg och vårt dokumentation för mer information om Inf2.

För att distribuera modeller på Inf2 behöver vi AWS Neuron SDK som mjukvarulager som körs ovanpå Inf2-hårdvaran. AWS Neuron är SDK som används för att köra djupinlärningsarbetsbelastningar på AWS Inferentia och AWS Trainium baserade instanser. Det möjliggör end-to-end ML-utvecklingslivscykel för att bygga nya modeller, träna och optimera dessa modeller och distribuera dem för produktion. AWS Neuron inkluderar en djup inlärning kompilator, runtimeoch verktyg som är integrerat med populära ramverk som TensorFlow och PyTorch. I den här bloggen kommer vi att använda transformers-neuronx, som är en del av AWS Neuron SDK för arbetsflöden för slutledning av transformatoravkodare. Det stöder en rad populära modeller, inklusive Llama 2.

Att distribuera modeller på Amazon SageMaker, använder vi vanligtvis en behållare som innehåller de nödvändiga biblioteken, såsom Neuron SDK och transformers-neuronx såväl som modellbetjäningskomponenten. Amazon SageMaker upprätthåller behållare för djupinlärning (DLC) med populära bibliotek med öppen källkod för värd för stora modeller. I det här inlägget använder vi Stor modell slutledningsbehållare för neuron. Denna behållare har allt du behöver för att distribuera din Llama 2-modell på Inf2. För resurser för att komma igång med LMI på Amazon SageMaker, se många av våra befintliga inlägg (blogg 1, blogg 2, blogg 3) om detta ämne. Kort sagt, du kan köra behållaren utan att skriva någon ytterligare kod. Du kan använda standardhanterare för en sömlös användarupplevelse och skicka in ett av de modellnamn som stöds och alla konfigurerbara parametrar för laddningstid. Detta kompilerar och serverar en LLM på en Inf2-instans. Till exempel att distribuera OpenAssistant/llama2-13b-orca-8k-3319, kan du tillhandahålla följande konfiguration (som serving.properties fil). I serving.properties, specificerar vi modelltypen som llama2-13b-orca-8k-3319, batchstorleken som 4, tensorparallellgraden som 2, och det är det. För hela listan över konfigurerbara parametrar, se Alla DJL-konfigurationsalternativ.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

Alternativt kan du skriva din egen modellhanterarfil som visas i denna exempel, men det kräver implementering av modellladdnings- och slutledningsmetoderna för att fungera som en brygga mellan DJLServing API:er.

Förutsättningar

Följande lista beskriver förutsättningarna för att implementera modellen som beskrivs i det här blogginlägget. Du kan implementera antingen från AWS Management Console eller använda den senaste versionen av AWS-kommandoradsgränssnitt (AWS CLI).

genomgång

I följande avsnitt kommer vi att gå igenom koden i två delar:

Finjustera en Llama2-7b-modell och ladda upp modellartefakterna till en specificerad Amazon S3-skopplats.
Distribuera modellen i en Inferentia2 med hjälp av DJL-servingsbehållare som är värd i Amazon SageMaker.

De fullständiga kodexemplen med instruktioner finns i denna GitHub förvaret.

Del 1: Finjustera en Llama2-7b-modell med PEFT

Vi kommer att använda den nyligen introducerade metoden i tidningen QLoRA: Kvantiseringsmedveten lågrankad adapterjustering för språkgenerering av Tim Dettmers et al. QLoRA är en ny teknik för att minska minnesavtrycket för stora språkmodeller under finjustering, utan att offra prestanda.

Notera: Finjusteringen av llama2-7b-modellen som visas nedan testades på en Amazon SageMaker Studio Notebook med Python 2.0 GPU-optimerad kärna med en ml.g5.2xlarge instanstyp. Som en bästa praxis rekommenderar vi att du använder en Amazon SageMaker Studio Integrated Development Environment (IDE) lanseras i din egen Amazon Virtual Private Cloud (Amazon VPC). Detta låter dig styra, övervaka och inspektera nätverkstrafik inom och utanför din VPC med standard AWS-nätverks- och säkerhetsfunktioner. För mer information, se Säkrar Amazon SageMaker Studio-anslutning med en privat VPC.

Kvantisera basmodellen

Vi laddar först en kvantiserad modell med 4-bitars kvantisering med hjälp av Huggingface transformatorer bibliotek enligt följande:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

Ladda träningsdatauppsättning

Därefter laddar vi datauppsättningen för att mata modellen för finjusteringssteg som visas enligt följande:

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

Fäst ett adapterlager

Här fäster vi ett litet, träningsbart adapterlager, konfigurerat som LoraConfig definieras i Hugging Face's peft bibliotek.

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

Träna en modell

Med hjälp av LoRA-konfigurationen som visas ovan kommer vi att finjustera Llama2-modellen tillsammans med hyperparametrar. Ett kodavsnitt för att träna modellen visas i följande:

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

Slå ihop modellvikt

Den finjusterade modellen som utfördes ovan skapade en ny modell som innehåller de tränade LoRA-adaptervikterna. I följande kodavsnitt slår vi samman adaptern med basmodellen så att vi kan använda den finjusterade modellen för slutledning.

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

Ladda upp modellvikt till Amazon S3

I det sista steget av del 1 kommer vi att spara de sammanslagna modellvikterna till en specificerad Amazon S3-plats. Modellvikten kommer att användas av en modellbetjäningsbehållare i Amazon SageMaker för att vara värd för modellen med en Inferentia2-instans.

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

Del 2: Värd för QLoRA-modell för slutledning med AWS Inf2 med SageMaker LMI Container

I det här avsnittet går vi igenom stegen för att distribuera en finjusterad QLoRA-modell i en Amazon SageMaker-värdmiljö. Vi använder en DJL servering behållare från SageMaker DLC, som integreras med transformatorer-neuronx bibliotek för denna modell. Installationen underlättar laddningen av modeller på AWS Inferentia2-acceleratorer, parallelliserar modellen över flera NeuronCores och möjliggör servering via HTTP-slutpunkter.

Förbered modellartefakter

DJL stöder många djupinlärningsoptimeringsbibliotek, inklusive DeepSpeed, Snabbare Transformer och mer. För modellspecifika konfigurationer tillhandahåller vi en serving.properties med nyckelparametrar, som t.ex tensor_parallel_degree och model_id för att definiera modellladdningsalternativen. De model_id kan vara ett Hugging Face-modell-ID eller en Amazon S3-bana där modellvikterna lagras. I vårt exempel tillhandahåller vi Amazon S3-platsen för vår finjusterade modell. Följande kodavsnitt visar egenskaperna som används för modellvisningen:

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

Se detta dokumentation för mer information om de konfigurerbara alternativen tillgängliga via serving.properties. Observera att vi använder option.n_position=512 i den här bloggen för snabbare AWS Neuron-kompilering. Om du vill prova en större längd på indatatoken rekommenderar vi läsaren att förkompilera modellen i förväg (se AOT Pre-Compile Model på EC2). Annars kan du stöta på ett timeout-fel om kompileringstiden är för lång.

Efter serving.properties fil är definierad, paketerar vi filen i en tar.gz format enligt följande:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

Sedan laddar vi upp tar.gz till en Amazon S3-hinkplats:

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

Skapa en Amazon SageMaker-modellslutpunkt

För att använda en Inf2-instans för visning använder vi en Amazon SageMaker LMI-behållare med DJL neuronX-stöd. Vänligen hänvisa till detta inlägg för mer information om hur du använder en DJL NeuronX-behållare för slutledning. Följande kod visar hur man distribuerar en modell med Amazon SageMaker Python SDK:

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

Testmodellens slutpunkt

Efter att modellen har implementerats framgångsrikt kan vi validera slutpunkten genom att skicka en exempelförfrågan till prediktorn:

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

Exempelutgången visas som följer:

I samband med dataanalys hänvisar Machine Learning (ML) till en statistisk teknik som kan extrahera prediktiv kraft från en datauppsättning med ökande komplexitet och noggrannhet genom att iterativt begränsa omfattningen av en statistik.

Machine Learning är inte en ny statistisk teknik, utan snarare en kombination av befintliga tekniker. Dessutom har den inte utformats för att användas med en specifik datauppsättning eller för att producera ett specifikt resultat. Snarare designades den för att vara tillräckligt flexibel för att anpassa sig till alla datauppsättningar och för att göra förutsägelser om vilket resultat som helst.

Städa upp

Om du bestämmer dig för att du inte längre vill ha SageMaker-slutpunkten igång kan du ta bort den med hjälp av AWS SDK för Python (boto3), AWS CLI eller Amazon SageMaker Console. Dessutom kan du också stänga av Amazon SageMaker Studio Resources som inte längre behövs.

Slutsats

I det här inlägget visade vi dig hur du finjusterar en Llama2-7b-modell med hjälp av LoRA-adapter med 4-bitars kvantisering med en enda GPU-instans. Sedan distribuerade vi modellen till en Inf2-instans som var värd i Amazon SageMaker med hjälp av en DJL-serveringsbehållare. Slutligen validerade vi Amazon SageMaker-modellens slutpunkt med en textgenereringsförutsägelse med SageMaker Python SDK. Varsågod och prova, vi älskar att höra din feedback. Håll ögonen öppna för uppdateringar om fler funktioner och nya innovationer med AWS Inferentia.

För fler exempel om AWS Neuron, se aws-neuron-prover.

Om författarna

Wei Teh är Senior AI/ML Specialist Solutions Architect på AWS. Han brinner för att hjälpa kunder att avancera sin AWS-resa, med fokus på Amazon Machine Learning-tjänster och maskininlärningsbaserade lösningar. Utanför jobbet tycker han om utomhusaktiviteter som camping, fiske och vandring med sin familj.

Finjustera Llama 2 med QLoRA och distribuera den på Amazon SageMaker med AWS Inferentia2 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Qingwejag Li är maskininlärningsspecialist på Amazon Web Services. Han fick sin doktorsexamen. i Operations Research efter att han bröt sin rådgivares forskningsbidragskonto och misslyckades med att leverera det Nobelpris han lovade. För närvarande hjälper han kunder inom finanssektorn och försäkringsbranschen att bygga maskininlärningslösningar på AWS. På fritiden gillar han att läsa och undervisa.