Täpsustage Llama 2 QLoRA abil ja juurutage see Amazon SageMakeris koos AWS Inferentia2 abil

Taasavaldanud Platon

järgijaid: 0

Selles postituses tutvustame Llama 2 mudeli peenhäälestamist parameetritõhusa peenhäälestuse (PEFT) meetodil ja rakendame peenhäälestatud mudelit AWS Inferentia2. Me kasutame AWS Neuron tarkvaraarenduskomplekti (SDK), et pääseda juurde AWS Inferentia2 seadmele ja kasu saada selle suurest jõudlusest. Seejärel kasutame suurt mudelijärelduskonteinerit, mille toiteallikaks on Sügav Java raamatukogu (DJLServing) kui meie mudelite teenindamise lahendus.

Lahenduse ülevaade

Tõhus Llama2 peenhäälestus QLoRa abil

Suurte keelemudelite (LLM) perekond Llama 2 on eelkoolitatud ja peenhäälestatud generatiivse tekstimudelite kogum, mille skaala ulatub 7 miljardist 70 miljardi parameetrini. Llama 2 koolitati eelnevalt avalikult kättesaadavatest allikatest pärit 2 triljoni andmemärgiga. AWS-i kliendid valivad mõnikord Llama 2 mudelite peenhäälestamise, kasutades klientide enda andmeid, et saavutada paremaid tulemusi järgnevate ülesannete jaoks. Llama 2 mudeli suure hulga parameetrite tõttu võib täielik peenhäälestus olla aga ülemäära kulukas ja aeganõudev. Parameetritõhus peenhäälestus (PEFT) võimaldab seda probleemi lahendada, reguleerides vaid väikest hulka mudeli lisaparameetreid, külmutades samal ajal enamiku eelkoolitatud mudeli parameetritest. PEFT-i kohta lisateabe saamiseks lugege seda pärast. Selles postituses kasutame QLoRa Llama 2 7B mudeli peenhäälestamiseks.

Rakendage Amazon SageMakeri abil Inf2-s peenhäälestatud mudel

AWS Inferentia2 on sihipäraselt ehitatud masinõppe (ML) kiirendi, mis on loodud töökoormuste järeldamiseks ja pakub suure jõudlusega kuni 40% madalamate kuludega generatiivse AI ja LLM-i töökoormust võrreldes teiste AWS-i järelduste jaoks optimeeritud eksemplaridega. Selles postituses kasutame Amazon Elastic Compute Cloudi (Amazon EC2) Inf2 eksemplar, mis sisaldab AWS Inferentia2, teise põlvkonna Inferentia2 kiirendit, millest igaüks sisaldab kahte NeuronCores-v2. Iga NeuronCore-v2 on sõltumatu, heterogeenne arvutusüksus, millel on neli peamist mootorit: Tensor-, Vector-, Scalar- ja GPSIMD-mootorid. See sisaldab kiibil asuvat tarkvaraga hallatavat SRAM-mälu andmete asukoha maksimeerimiseks. Kuna Inf2-s on avaldatud mitmeid blogisid, saab lugeja sellele viidata pärast ja meie dokumentatsioon Inf2 kohta lisateabe saamiseks.

Mudelite juurutamiseks Inf2-s vajame AWS Neuron SDK-d tarkvarakihina, mis töötab Inf2 riistvara peal. AWS Neuron on SDK, mida kasutatakse süvaõppe töökoormuste käitamiseks AWS Inferentia ja AWS Trainium põhinevad juhtumid. See võimaldab täieliku ML-i arenduse elutsükli jooksul luua uusi mudeleid, koolitada ja optimeerida neid mudeleid ning juurutada neid tootmises. AWS Neuron sisaldab sügavat õppimist kompilaator, runtimeja töövahendid mis on integreeritud populaarsete raamistikega, nagu TensorFlow ja PyTorch. Selles ajaveebis kavatseme kasutada transformers-neuronx, mis on osa AWS Neuron SDK-st trafodekoodri järelduste töövoogude jaoks. See toetab hulk populaarseid mudeleid, sealhulgas Llama 2.

Mudelite juurutamiseks Amazon SageMaker, kasutame tavaliselt konteinerit, mis sisaldab vajalikke teeke, näiteks Neuron SDK ja transformers-neuronx samuti mudeli serveerimiskomponent. Amazon SageMaker säilitab süvaõppe konteinerid (DLC-d) populaarsete avatud lähtekoodiga raamatukogudega suurte mudelite majutamiseks. Selles postituses kasutame Suur mudeli järelduste konteiner neuroni jaoks. Selles konteineris on kõik, mida vajate oma Llama 2 mudeli juurutamiseks rakenduses Inf2. LMI-ga Amazon SageMakeris alustamiseks ressursside saamiseks vaadake paljusid meie olemasolevaid postitusi (blogi 1, blogi 2, blogi 3) sellel teemal. Lühidalt, saate konteinerit käivitada ilma täiendavat koodi kirjutamata. Võite kasutada vaikekäitleja Sujuva kasutuskogemuse tagamiseks ja sisestage üks toetatud mudelinimedest ja laadimisaja konfigureeritavad parameetrid. See kompileerib ja teenindab LLM-i Inf2 eksemplaril. Näiteks kasutuselevõtuks OpenAssistant/llama2-13b-orca-8k-3319, saate esitada järgmise konfiguratsiooni (nagu serving.properties fail). sisse serving.properties, määrame mudeli tüübi kui llama2-13b-orca-8k-3319, partii suurus on 4, tensori paralleelaste on 2 ja see on kõik. Konfigureeritavate parameetrite täieliku loendi leiate jaotisest Kõik DJL-i konfiguratsioonivalikud.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

Teise võimalusena võite kirjutada oma mudelikäitleja faili, nagu siin näidatud näide, kuid selleks on vaja rakendada mudeli laadimis- ja järeldusmeetodid, mis toimiksid sillana DJLServing API-de vahel.

Eeldused

Järgmine loend kirjeldab selles ajaveebi postituses kirjeldatud mudeli juurutamise eeltingimusi. Saate rakendada ükskõik kumba AWS-i juhtimiskonsool või kasutades rakenduse uusimat versiooni AWS-i käsurea liides (AWS CLI).

Juhendid

Järgmises jaotises käsitleme koodi kahes osas.

Mudeli Llama2-7b peenhäälestus ja mudeli artefaktid üleslaadimine määratud Amazon S3 ämbri asukohta.
Juurutage mudel Inferentia2-sse, kasutades Amazon SageMakeris hostitud DJL-i teeninduskonteinerit.

Täielikud koodinäidised koos juhistega leiate siit GitHub hoidla.

1. osa: Llama2-7b mudeli peenhäälestus PEFT-i abil

Kasutame selles artiklis hiljuti tutvustatud meetodit QLoRA: Kvantimist arvestav madala taseme adapteri häälestamine keele genereerimiseks autor Tim Dettmers et al. QLoRA on uus tehnika suurte keelemudelite mälumahu vähendamiseks peenhäälestuse ajal, ilma jõudlust ohverdamata.

Märge: Järgnevalt näidatud lama2-7b mudeli peenhäälestust testiti Amazonis SageMaker Studio märkmik Python 2.0 GPU optimeeritud kerneliga, kasutades a ml.g5.2xsuur eksemplari tüüp. Parima tavana soovitame kasutada Amazon SageMaker Studio Integreeritud arenduskeskkond (IDE) käivitati teie enda jaoks Amazoni virtuaalne privaatpilv (Amazon VPC). See võimaldab teil kontrollida, jälgida ja kontrollida võrguliiklust oma VPC-s ja väljaspool seda, kasutades standardseid AWS-i võrgu- ja turbevõimalusi. Lisateabe saamiseks vt Amazon SageMaker Studio ühenduvuse kindlustamine privaatse VPC abil.

Kvantige baasmudel

Esmalt laadime 4-bitise kvantiseerimisega kvantiseeritud mudeli, kasutades Huggingface trafod raamatukogu järgmiselt:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

Laadige treeninguandmed

Järgmisena laadime andmestiku, et toita mudelit peenhäälestuse etapiks, mis on näidatud järgmiselt:

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

Kinnitage adapterkiht

Siia kinnitame väikese treenitava adapterikihi, mis on konfigureeritud järgmiselt LoraConfig defineeritud Hugging Face's peft raamatukogu.

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

Treeni modelli

Kasutades ülaltoodud LoRA konfiguratsiooni, täpsustame Llama2 mudelit koos hüperparameetritega. Mudeli koolitamise koodilõik on näidatud järgmisel:

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

Ühendage mudeli kaal

Ülaltoodud peenhäälestatud mudel lõi uue mudeli, mis sisaldab treenitud LoRA adapteri raskusi. Järgmises koodilõigul liidame adapteri baasmudeliga, et saaksime järelduste tegemiseks kasutada peenhäälestatud mudelit.

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

Laadige mudeli kaal Amazon S3 üles

1. osa viimases etapis salvestame ühendatud mudeli kaalud määratud Amazon S3 asukohta. Mudeli kaalu kasutab Amazon SageMakeri mudeli serveerimismahuti, et majutada mudelit Inferentia2 eksemplari abil.

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

Osa 2: Hosti QLoRA mudel AWS Inf2 järelduste tegemiseks, kasutades SageMaker LMI konteinerit

Selles jaotises käsitleme QLoRA peenhäälestatud mudeli Amazon SageMakeri hostimiskeskkonda juurutamise samme. Me kasutame a DJL serveerimine konteiner firmalt SageMaker DLC, mis integreerub trafod-neuronx raamatukogu selle mudeli majutamiseks. Seadistamine hõlbustab mudelite laadimist AWS Inferentia2 kiirenditesse, paralleeliseerib mudeli mitme NeuronCore'i vahel ja võimaldab teenust HTTP lõpp-punktide kaudu.

Valmistage ette mudeli artefaktid

DJL toetab paljusid süvaõppe optimeerimise teeke, sealhulgas DeepSpeed, Kiirem transformer ja veel. Mudelipõhiste konfiguratsioonide jaoks pakume a serving.properties võtmeparameetritega, nt tensor_parallel_degree ja model_id mudeli laadimisvalikute määratlemiseks. The model_id võib olla Hugging Face mudeli ID või Amazon S3 tee, kuhu mudeli kaalud salvestatakse. Meie näites anname meie peenhäälestatud mudeli Amazon S3 asukoha. Järgmine koodilõik näitab mudeli esitamiseks kasutatud atribuute:

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

Palun vaadake seda dokumentatsioon kaudu saadaolevate konfigureeritavate valikute kohta lisateabe saamiseks serving.properties. Pange tähele, et kasutame option.n_position=512 selles ajaveebis AWS Neuronide kiiremaks koostamiseks. Kui soovite proovida suuremat sisendmärgi pikkust, siis soovitame lugejal mudel aegsasti valmis kompileerida (vt. AOT eelkompileerimise mudel EC2-l). Vastasel juhul võite ilmneda ajalõpu tõrge, kui kompileerimisaeg on liiga pikk.

Pärast serving.properties fail on määratletud, pakendame faili a tar.gz vormingus järgmiselt:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

Seejärel laadime faili tar.gz üles Amazon S3 ämbri asukohta:

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

Looge Amazon SageMakeri mudeli lõpp-punkt

Inf2 eksemplari kasutamiseks teenindamiseks kasutame Amazoni SageMaker LMI konteiner DJL neuronX toega. Palun vaadake seda pärast lisateabe saamiseks DJL NeuronX konteineri kasutamise kohta järelduste tegemiseks. Järgmine kood näitab, kuidas mudelit Amazon SageMaker Python SDK abil juurutada:

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

Katsemudeli lõpp-punkt

Pärast mudeli edukat juurutamist saame lõpp-punkti kinnitada, saates ennustajale näidispäringu:

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

Näidisväljund kuvatakse järgmiselt:

Andmeanalüüsi kontekstis viitab masinõpe (ML) statistilisele tehnikale, mis on võimeline ekstraheerima andmestikku ennustusjõudu järjest keerukamaks ja täpsemaks, kitsendades statistika ulatust iteratiivselt.

Masinõpe ei ole uus statistiline tehnika, vaid pigem olemasolevate tehnikate kombinatsioon. Lisaks ei ole see mõeldud kasutamiseks konkreetse andmekogumiga ega konkreetse tulemuse saamiseks. Pigem oli see loodud piisavalt paindlikuks, et kohaneda mis tahes andmekogumiga ja teha ennustusi mis tahes tulemuse kohta.

Koristage

Kui otsustate, et te ei soovi enam SageMakeri lõpp-punkti töös hoida, saate selle kustutada AWS SDK Pythoni (boto3), AWS CLI või Amazon SageMaker Console jaoks. Lisaks saate ka sulgege Amazon SageMaker Studio Resources mida enam ei nõuta.

Järeldus

Selles postituses näitasime teile, kuidas Llama2-7b mudelit peenhäälestada, kasutades LoRA-adapterit koos 4-bitise kvantiseerimisega, kasutades ühte GPU eksemplari. Seejärel juurutasime mudeli Amazon SageMakeris hostitud Inf2 eksemplari, kasutades DJL-i serveerimiskonteinerit. Lõpuks kinnitasime Amazon SageMakeri mudeli lõpp-punkti teksti genereerimise ennustusega, kasutades SageMaker Python SDK-d. Proovige järele. Meile meeldib teie tagasisidet kuulda. Olge kursis värskendustega AWS Inferentia uute võimaluste ja uuenduste kohta.

Rohkem näiteid AWS Neuroni kohta vt aws-neuroni-proovid.

Autoritest

Wei Teh on AWS-i AI/ML-lahenduste vanemarhitekt. Ta on kirglik aidata klientidel nende AWS-i teekonda edendada, keskendudes Amazoni masinõppe teenustele ja masinõppepõhistele lahendustele. Väljaspool tööd naudib ta väljas tegevusi, nagu telkimine, kalapüük ja perega matkamine.

Täpsustage Llama 2 QLoRA abil ja juurutage see Amazon SageMakeris koos AWS Inferentia2-ga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Qingwemina Li on Amazon Web Servicesi masinõppe spetsialist. Ta sai doktorikraadi. operatsioonide uurimisel pärast seda, kui ta murdis oma nõustaja uurimistoetuse konto ja ei suutnud väljastada lubatud Nobeli preemiat. Praegu aitab ta finantsteenuste ja kindlustussektori klientidel AWS-is masinõppelahendusi luua. Vabal ajal meeldib talle lugeda ja õpetada.