Hienosäädä Llama 2 käyttämällä QLoRAa ja ota se käyttöön Amazon SageMakerissa AWS Inferentia2:n avulla

Julkaissut Platon

seuraajia: 0

Tässä viestissä esittelemme Llama 2 -mallin hienosäätöä parametritehokkaalla hienosäätömenetelmällä (PEFT) ja käytämme hienosäädettyä mallia AWS Inferentia2. Käytämme AWS Neuron ohjelmistokehityspaketti (SDK) päästäksesi AWS Inferentia2 -laitteeseen ja hyötyä sen korkeasta suorituskyvystä. Käytämme sitten suurta mallipäätelmäsäiliötä, jonka virtalähteenä on Syvä Java-kirjasto (DJLServing) mallina palveleva ratkaisumme.

Ratkaisun yleiskatsaus

Tehokas Llama2:n hienosäätö QLoRalla

Llama 2 -perhe suuria kielimalleja (LLM) on kokoelma esikoulutettuja ja hienosäädettyjä generatiivisia tekstimalleja, joiden skaala vaihtelee 7 miljardista 70 miljardiin parametriin. Llama 2 oli esikoulutettu 2 biljoonalla datatunnisteella julkisista lähteistä. AWS-asiakkaat päättävät joskus hienosäätää Llama 2 -malleja asiakkaiden omilla tiedoilla saavuttaakseen paremman suorituskyvyn loppupään tehtäviin. Llama 2 -mallin suuren parametrimäärän vuoksi täydellinen hienosäätö voi kuitenkin olla kohtuuttoman kallista ja aikaa vievää. Parametritehokas hienosäätö (PEFT) voi ratkaista tämän ongelman hienosäätämällä vain pientä määrää ylimääräisiä malliparametreja samalla, kun useimmat esiopetetun mallin parametrit jäädytetään. Lisätietoja PEFT:stä voi lukea tästä posti. Tässä viestissä käytämme QLoRa hienosäätää Llama 2 7B -mallia.

Ota hienosäädetty malli käyttöön Inf2:ssa Amazon SageMakerin avulla

AWS Inferentia2 on tarkoitukseen rakennettu koneoppimisen (ML) kiihdytin, joka on suunniteltu päättelytyökuormille ja tarjoaa korkean suorituskyvyn jopa 40 % pienemmillä kustannuksilla generatiivisissa AI- ja LLM-työkuormissa verrattuna muihin AWS:n päätelmiin optimoituihin instansseihin. Tässä viestissä käytämme Amazon Elastic Compute Cloudia (Amazon EC2) Inf2-instanssi, joka sisältää AWS Inferentia2:n, toisen sukupolven Inferentia2-kiihdytin, joista jokaisessa on kaksi NeuronCores-v2. Jokainen NeuronCore-v2 on itsenäinen, heterogeeninen laskentayksikkö, jossa on neljä pääkonetta: Tensor-, Vector-, Scalar- ja GPSIMD-moottorit. Se sisältää sirulla olevan ohjelmistohallinnan SRAM-muistin, joka maksimoi tiedon paikallisuuden. Koska Inf2:ssa on julkaistu useita blogeja, lukija voi viitata tähän posti ja meidän dokumentointi lisätietoja Inf2:sta.

Mallien käyttöönottamiseksi Inf2:ssa tarvitsemme AWS Neuron SDK:n ohjelmistokerroksena, joka toimii Inf2-laitteiston päällä. AWS Neuron on SDK, jota käytetään suorittamaan syvän oppimisen työkuormia AWS Inferentiassa ja AWS Trainium perustuvia tapauksia. Se mahdollistaa kokonaisvaltaisen ML-kehityksen elinkaaren uusien mallien rakentamisen, näiden mallien kouluttamisen ja optimoinnin sekä niiden käyttöönoton tuotantoon. AWS Neuron sisältää syvän oppimisen kääntäjä, runtimeja työkalut jotka on integroitu natiivisti suosittuihin kehyksiin, kuten TensorFlow ja PyTorch. Tässä blogissa aiomme käyttää transformers-neuronx, joka on osa AWS Neuron SDK:ta muuntajan dekooderin päättelytyönkulkuille. Se tukee valikoima suosittuja malleja, mukaan lukien Llama 2.

Mallien käyttöönotto Amazon Sage Maker, käytämme yleensä säilöä, joka sisältää tarvittavat kirjastot, kuten Neuron SDK ja transformers-neuronx sekä mallin palveleva komponentti. Amazon SageMaker ylläpitää syväoppimissäiliöt (DLC) suosituilla avoimen lähdekoodin kirjastoilla suurten mallien isännöintiin. Tässä viestissä käytämme Suuri mallin päättelysäiliö Neuronille. Tässä säilössä on kaikki mitä tarvitset Llama 2 -mallin käyttöönottoon Inf2:ssa. Katso resurssit LMI:n aloittamiseen Amazon SageMakerissa monista olemassa olevista viesteistämme (blogi 1, blogi 2, blogi 3) tässä aiheessa. Lyhyesti sanottuna voit ajaa säilön kirjoittamatta lisäkoodia. Voit käyttää oletuskäsittelijä saumattoman käyttökokemuksen takaamiseksi ja välitä jokin tuetuista mallien nimistä ja latausajan konfiguroitavista parametreista. Tämä kokoaa ja palvelee LLM:ää Inf2-esiintymässä. Esimerkiksi käyttöönottamiseksi OpenAssistant/llama2-13b-orca-8k-3319, voit antaa seuraavat asetukset (kuten serving.properties tiedosto). Sisään serving.properties, määritämme mallin tyypin muodossa llama2-13b-orca-8k-3319, erän koko on 4, tensorin yhdensuuntaisuusaste 2, ja siinä se. Täydellinen luettelo konfiguroitavista parametreista on kohdassa Kaikki DJL-kokoonpanovaihtoehdot.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

Vaihtoehtoisesti voit kirjoittaa oman mallikäsittelijän tiedoston tässä esitetyllä tavalla esimerkki, mutta tämä edellyttää mallin lataus- ja päättelymenetelmien toteuttamista, jotta ne toimivat siltana DJLServing API:iden välillä.

Edellytykset

Seuraavassa luettelossa esitetään tässä blogikirjoituksessa kuvatun mallin käyttöönoton edellytykset. Voit toteuttaa jommankumman AWS-hallintakonsoli tai käyttämällä uusinta versiota AWS-komentoriviliitäntä (AWS CLI).

Walkthrough

Seuraavassa osiossa käymme läpi koodin kahdessa osassa:

Hienosäädä Llama2-7b-mallia ja lataa mallin artefaktit määritettyyn Amazon S3 -säilöpaikkaan.
Ota malli käyttöön Inferentia2:ssa käyttämällä Amazon SageMakerissa isännöityä DJL-käyttösäiliötä.

Täydelliset koodiesimerkit ohjeineen löytyvät tästä GitHub arkistoon.

Osa 1: Hienosäädä Llama2-7b-malli PEFT:n avulla

Aiomme käyttää äskettäin esiteltyä menetelmää paperissa QLoRA: Kvantisointitietoinen matalan tason sovittimen viritys kielten luomista varten Tim Dettmers et ai. QLoRA on uusi tekniikka, joka pienentää suurten kielimallien muistijalanjälkeä hienosäädön aikana suorituskyvystä tinkimättä.

Huomautus: Seuraavassa näkyvää llama2-7b-mallin hienosäätöä on testattu Amazonilla SageMaker Studio -muistikirja Python 2.0 GPU -optimoidun ytimen kanssa käyttämällä a ml.g5.2xsuuri ilmentymän tyyppi. Parhaana käytäntönä suosittelemme käyttämään Amazon SageMaker Studio Integrated Development Environment (IDE) julkaistiin omassasi Amazonin virtuaalinen yksityinen pilvi (Amazon VPC). Tämän avulla voit hallita, valvoa ja tarkastaa verkkoliikennettä VPC: ssäsi ja sen ulkopuolella käyttämällä AWS: n vakio-verkko- ja suojausominaisuuksia. Katso lisätietoja Amazon SageMaker Studio -yhteyksien suojaaminen yksityisellä VPC: llä.

Kvantoi perusmalli

Lataamme ensin kvantisoidun mallin 4-bittisellä kvantisoinnilla käyttämällä Huggingface muuntajat kirjasto seuraavasti:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

Lataa harjoitustietojoukko

Seuraavaksi lataamme tietojoukon mallin syöttämiseksi hienosäätövaihetta varten seuraavasti:

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

Kiinnitä sovitinkerros

Tähän kiinnitämme pienen, koulutettavan sovitinkerroksen, joka on konfiguroitu LoraConfig määritelty Hugging Face'sissa peft kirjasto.

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

Kouluta malli

Yllä esitettyä LoRA-kokoonpanoa käyttämällä hienosäädämme Llama2-mallia hyperparametrien kanssa. Mallin kouluttamiseen tarkoitettu koodinpätkä näkyy seuraavassa:

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

Yhdistä mallin paino

Yllä suoritettu hienosäädety malli loi uuden mallin, joka sisälsi koulutetut LoRA-sovittimen painot. Seuraavassa koodinpätkässä yhdistämme sovittimen perusmalliin, jotta voimme käyttää hienosäädettyä mallia johtopäätösten tekemiseen.

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

Lataa mallin paino Amazon S3:een

Osan 1 viimeisessä vaiheessa tallennamme yhdistettyjen mallien painot määritettyyn Amazon S3 -sijaintiin. Mallin painoa käyttää Amazon SageMakerin mallinkäyttösäiliö mallin isännöimiseen Inferentia2-esiintymän avulla.

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

Osa 2: Isäntä QLoRA-malli AWS Inf2:n päättelemiseksi SageMaker LMI Containerin avulla

Tässä osiossa käymme läpi vaiheet QLoRA-hienoviritetyn mallin käyttöönottamiseksi Amazon SageMaker -isännöintiympäristöön. Käytämme a DJL-tarjoilu kontti SageMakerilta DLC, joka integroituu muuntajat-neuronx kirjasto tämän mallin isännöimiseksi. Asennus helpottaa mallien lataamista AWS Inferentia2 -kiihdyttimiin, rinnastaa mallin useisiin NeuronCoresiin ja mahdollistaa palvelun HTTP-päätepisteiden kautta.

Valmistele malliesineet

DJL tukee monia syvän oppimisen optimointikirjastoja, mukaan lukien Syvä nopeus, FasterTransformer ja enemmän. Mallikohtaisia kokoonpanoja varten tarjoamme a serving.properties avainparametreilla, kuten tensor_parallel_degree ja model_id määrittääksesi mallin latausasetukset. The model_id voi olla Hugging Face -mallin tunnus tai Amazon S3 -polku, johon mallin painot on tallennettu. Esimerkissämme tarjoamme hienosäädetyn mallimme Amazon S3 -sijainnin. Seuraava koodinpätkä näyttää mallin näyttämiseen käytetyt ominaisuudet:

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

Ole hyvä ja katso tämä dokumentointi saadaksesi lisätietoja konfiguroitavista vaihtoehdoista, jotka ovat käytettävissä osoitteessa serving.properties. Huomaa, että käytämme option.n_position=512 tässä blogissa nopeampaa AWS Neuron -kokoelmaa varten. Jos haluat kokeilla suurempaa syöttötunnisteen pituutta, suosittelemme lukijaa esikääntämään mallin etukäteen (katso AOT Pre-Compile -malli EC2:ssa). Muussa tapauksessa saatat joutua aikakatkaisuvirheeseen, jos käännösaika on liian pitkä.

Jälkeen serving.properties tiedosto on määritetty, pakkaamme tiedoston a tar.gz muodossa seuraavasti:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

Sitten lataamme tar.gz-tiedoston Amazon S3 -säilön sijaintiin:

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

Luo Amazon SageMaker -mallin päätepiste

Käyttääksemme Inf2-instanssia palvelemiseen käytämme Amazonia SageMaker LMI-säiliö DJL neuronX -tuella. Katso tästä posti saadaksesi lisätietoja DJL NeuronX -säiliön käyttämisestä johtopäätösten tekemiseen. Seuraava koodi näyttää, kuinka malli otetaan käyttöön Amazon SageMaker Python SDK:lla:

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

Testimallin päätepiste

Kun malli on otettu käyttöön onnistuneesti, voimme vahvistaa päätepisteen lähettämällä näytepyynnön ennustajalle:

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

Näytetuloste näytetään seuraavasti:

Data-analyysin yhteydessä koneoppiminen (ML) viittaa tilastolliseen tekniikkaan, joka kykenee poimimaan ennustevoimaa tietojoukosta entistä monimutkaisemmalla ja tarkemmalla tavalla kaventamalla iteratiivisesti tilaston laajuutta.

Koneoppiminen ei ole uusi tilastotekniikka, vaan pikemminkin olemassa olevien tekniikoiden yhdistelmä. Sitä ei myöskään ole suunniteltu käytettäväksi tietyn tietojoukon kanssa tai tietyn tuloksen tuottamiseen. Sen sijaan se suunniteltiin riittävän joustavaksi mukautumaan mihin tahansa tietojoukkoon ja tekemään ennusteita kaikista tuloksista.

Puhdistaa

Jos päätät, että et enää halua pitää SageMaker-päätepistettä käynnissä, voit poistaa sen käyttämällä AWS SDK Pythonille (boto3), AWS CLI:lle tai Amazon SageMaker Consolelle. Voit myös sammuta Amazon SageMaker Studio Resources joita ei enää tarvita.

Yhteenveto

Tässä viestissä näytimme sinulle kuinka hienosäätää Llama2-7b-mallia käyttämällä LoRA-sovitinta 4-bittisellä kvantisoinnilla käyttämällä yhtä GPU-esiintymää. Sitten otimme mallin käyttöön Amazon SageMakerissa isännöityyn Inf2-instanssiin käyttämällä DJL-käyttösäiliötä. Lopuksi validoimme Amazon SageMaker -mallin päätepisteen tekstin sukupolven ennusteella käyttämällä SageMaker Python SDK:ta. Kokeile, haluamme kuulla palautettasi. Pysy kuulolla uusista ominaisuuksista ja uusista innovaatioista AWS Inferentialla.

Katso lisää esimerkkejä AWS Neuronista aws-neuroninäytteet.

Tietoja Tekijät

Wei Teh on AWS:n vanhempi AI/ML Specialist Solutions -arkkitehti. Hän on intohimoinen auttaa asiakkaita edistämään AWS-matkaansa keskittyen Amazon Machine Learning -palveluihin ja koneoppimiseen perustuviin ratkaisuihin. Työn ulkopuolella hän harrastaa ulkoilua, kuten telttailua, kalastusta ja patikointia perheen kanssa.

Hienosäädä Llama 2 QLoRA:lla ja ota se käyttöön Amazon SageMakerissa AWS Inferentia2:n avulla | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. Qingweminä Li on koneoppimisen asiantuntija Amazon Web Services -palvelussa. Hän sai tohtorin tutkinnon operatiivisessa tutkimuksessa sen jälkeen, kun hän rikkoi neuvonantajan tutkimusapurahatilin ja ei toimittanut lupaamaansa Nobelin palkintoa. Tällä hetkellä hän auttaa finanssi- ja vakuutusalan asiakkaita rakentamaan koneoppimisratkaisuja AWS: lle. Vapaa-ajallaan hän pitää lukemisesta ja opettamisesta.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/fine-tune-llama-2-using-qlora-and-deploy-it-on-amazon-sagemaker-with-aws-inferentia2/

Aikaleima: Joulukuu 13, 2023

Aikaleima: Voi 2, 2024

Julkaissut Platon

Ajoita muistikirjasi mistä tahansa JupyterLab-ympäristöstä käyttämällä Amazon SageMaker JupyterLab -laajennusta | Amazon Web Services

Hybridi-ML-työnkulkujen käyttöönotto Amazon EKS:ssä ja Amazon SageMakerissa yhdellä napsautuksella Kubeflow AWS-asennuksessa

Esittelyssä Amazon CodeWhisperer, ML-käyttöinen koodauskumppani

Luo mukautettu entiteetin tunnistus PDF-dokumenteille Amazon Comprehendin avulla

Interaktiivinen tietojen valmistelu-widget kannettaville tietokoneille, joka toimii Amazon SageMaker Data Wranglerin avulla

Uusia ominaisuuksia Amazon SageMaker Pipelinesille ja Amazon SageMaker SDK:lle

Aloita Amazon Titan Text Embeddings V2:n kanssa: uusi huippuluokan upotusmalli Amazon Bedrockissa | Amazon Web Services

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili