Finomhangolja a Llama 2-t a QLoRA használatával, és telepítse az Amazon SageMakeren az AWS Inferentia2 segítségével

Újra kiadta Platón

Követő: 0

Ebben a bejegyzésben egy Llama 2 modell finomhangolását mutatjuk be a Parameter-Efficient Fine-Tuning (PEFT) módszerrel, és telepítjük a finomhangolt modellt AWS Inferentia2. Használjuk a AWS Neuron szoftverfejlesztő készlet (SDK) segítségével hozzáférhet az AWS Inferentia2 eszközhöz és élvezheti annak nagy teljesítményét. Ezután egy nagy modell-következtetési tárolót használunk, amelyet a táplál Mély Java könyvtár (DJLServing) mint modellkiszolgáló megoldásunk.

Megoldás áttekintése

A Llama2 hatékony finomhangolása a QLoRa segítségével

A Llama 2 nagy nyelvi modellek (LLM) családja előre betanított és finomhangolt generatív szövegmodellek gyűjteménye, 7 milliárdtól 70 milliárdig terjedő skálán. A Llama 2-t 2 billió tokennyi, nyilvánosan elérhető forrásból származó adatra képezték ki. Az AWS-ügyfelek néha úgy döntenek, hogy az ügyfelek saját adatai alapján finomhangolják a Llama 2 modelleket, hogy jobb teljesítményt érjenek el a downstream feladatoknál. A Llama 2 modell nagyszámú paramétere miatt azonban a teljes finomhangolás rendkívül költséges és időigényes lehet. A paraméter-hatékony finomhangolás (PEFT) megközelítés ezt a problémát úgy kezelheti, hogy csak kis számú extra modellparamétert finomít, miközben lefagyasztja az előre betanított modell legtöbb paraméterét. A PEFT-ről további információkért olvassa el ezt Hozzászólás. Ebben a bejegyzésben használjuk QLoRa a Llama 2 7B modell finomhangolásához.

Telepítsen egy finomhangolt modellt az Inf2-n az Amazon SageMaker segítségével

Az AWS Inferentia2 egy erre a célra épített gépi tanulási (ML) gyorsító, amelyet a következtetési munkaterhelésekhez terveztek, és nagy teljesítményt biztosít akár 40%-kal alacsonyabb költségek mellett a generatív AI és LLM munkaterhelésekhez, mint az AWS többi következtetésre optimalizált példánya. Ebben a bejegyzésben az Amazon Elastic Compute Cloudot használjuk (Amazon EC2) Inf2 példány, az AWS Inferentia2-vel, a második generációs Inferentia2 gyorsítókkal, amelyek mindegyike két-két NeuronCores-v2. Mindegyik NeuronCore-v2 egy független, heterogén számítási egység, négy fő motorral: Tensor, Vector, Scalar és GPSIMD motorokkal. Tartalmaz egy chipen található szoftver által kezelt SRAM memóriát az adatok lokalizációjának maximalizálása érdekében. Mivel az Inf2-n több blog is megjelent, erre hivatkozhat az olvasó Hozzászólás és a mi dokumentáció További információkért az Inf2-ről.

A modellek Inf2 rendszeren történő üzembe helyezéséhez szükségünk van az AWS Neuron SDK-ra, mint az Inf2 hardver tetején futó szoftverrétegre. Az AWS Neuron az az SDK, amelyet mély tanulási munkaterhelések futtatására használnak az AWS Inferentián és AWS Trainium alapú példányok. Lehetővé teszi a teljes körű ML fejlesztési életciklust új modellek építésére, ezeknek a modelleknek a betanítására és optimalizálására, valamint a termelési célú üzembe helyezésére. Az AWS Neuron mély tanulást tartalmaz fordítóprogram, futásidejűés szerszámok amelyek natívan integrálva vannak olyan népszerű keretrendszerekkel, mint a TensorFlow és a PyTorch. Ebben a blogban fogunk használni transformers-neuronx, amely az AWS Neuron SDK része a transzformátor dekóder következtetési munkafolyamataihoz. Azt támogatja számos népszerű modell, köztük a Llama 2.

A modellek telepítéséhez Amazon SageMaker, általában olyan tárolót használunk, amely tartalmazza a szükséges könyvtárakat, mint például a Neuron SDK és transformers-neuronx valamint a modellkiszolgáló komponens. Az Amazon SageMaker fenntartja mély tanulási konténerek (DLC-k) népszerű nyílt forráskódú könyvtárakkal a nagy modellek tárolására. Ebben a bejegyzésben a Nagy modell-következtető tartály a Neuron számára. Ez a tároló mindent tartalmaz, amire szüksége van a Llama 2 modelljének az Inf2 rendszeren történő üzembe helyezéséhez. Az Amazon SageMakeren az LMI használatának megkezdéséhez szükséges forrásokért tekintse meg sok meglévő bejegyzésünket (blog 1, blog 2, blog 3) ebben a témában. Röviden: futtathatja a tárolót további kód írása nélkül. Használhatja a alapértelmezett kezelő a zökkenőmentes felhasználói élmény érdekében, és adja át a támogatott modellnevek egyikét és a betöltési idő alatt konfigurálható paramétereket. Ezzel összeállítja és kiszolgálja az LLM-et egy Inf2 példányon. Például a telepítéshez OpenAssistant/llama2-13b-orca-8k-3319, megadhatja a következő konfigurációt (mint serving.properties fájl). Ban ben serving.properties, megadjuk a modell típusát, mint llama2-13b-orca-8k-3319, a köteg mérete 4, a tenzor párhuzamos foka 2, és ennyi. A konfigurálható paraméterek teljes listáját lásd: Minden DJL konfigurációs lehetőség.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

Alternatív megoldásként megírhatja a saját modellkezelő fájlját az itt látható módon példa, de ehhez meg kell valósítani a modellbetöltési és következtetési metódusokat, hogy hídként szolgáljanak a DJLServing API-k között.

Előfeltételek

Az alábbi lista felvázolja az ebben a blogbejegyzésben leírt modell bevezetésének előfeltételeit. Bármelyiket megvalósíthatja a AWS felügyeleti konzol vagy a legújabb verzióját használja AWS parancssori interfész (AWS CLI).

Végigjátszás

A következő részben a kódot két részből vesszük végig:

Finomhangoljon egy Llama2-7b modellt, és töltse fel a modell műtermékeit egy megadott Amazon S3 vödör helyre.
Telepítse a modellt egy Inferentia2-be az Amazon SageMakerben tárolt DJL-kiszolgálókonténer használatával.

A teljes kódmintákat utasításokkal ebben találja GitHub tárolóból.

1. rész: A Llama2-7b modell finomhangolása PEFT segítségével

A cikkben a nemrégiben bevezetett módszert fogjuk alkalmazni QLoRA: Kvantálás-tudatos, alacsony rangú adapterhangolás a nyelvgeneráláshoz Tim Dettmers et al. A QLoRA egy új technika a nagy nyelvi modellek memóriaigényének csökkentésére a finomhangolás során a teljesítmény feláldozása nélkül.

Jegyzet: A llama2-7b modell alább látható finomhangolását egy Amazonon tesztelték SageMaker Studio notebook Python 2.0 GPU optimalizált kernel segítségével a ml.g5.2xnagy példány típusa. Bevált gyakorlatként azt javasoljuk, hogy használjon egy Amazon SageMaker Studio Az Integrált Fejlesztési Környezet (IDE) elindult a sajátjában Amazon Virtual Private Cloud (Amazon VPC). Ez lehetővé teszi a VPC-n belüli és kívüli hálózati forgalom vezérlését, figyelését és vizsgálatát a szabványos AWS hálózati és biztonsági képességek használatával. További információkért lásd Az Amazon SageMaker Studio csatlakozásának biztosítása privát VPC segítségével.

Kvantizálja az alapmodellt

Először egy kvantált modellt töltünk be 4 bites kvantálással Huggingface transzformátorok könyvtár az alábbiak szerint:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

Töltsön be edzési adatkészletet

Ezután betöltjük az adatkészletet, hogy betápláljuk a modellt a finomhangolási lépéshez, az alábbiak szerint:

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

Csatlakoztasson egy adapterréteget

Itt csatolunk egy kicsi, betanítható adapterréteget, amely a következőképpen van konfigurálva LoraConfig az Ölelőarcban meghatározott peft könyvtár.

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

Taníts modellt

A fent bemutatott LoRA konfiguráció segítségével finomhangoljuk a Llama2 modellt a hiperparaméterekkel együtt. A modell betanítására szolgáló kódrészlet az alábbiakban látható:

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

A modell súlyának egyesítése

A fent végrehajtott finomhangolt modell egy új modellt hozott létre, amely a betanított LoRA adaptersúlyokat tartalmazza. A következő kódrészletben egyesítjük az adaptert az alapmodelltel, hogy a finomhangolt modellből következtessünk.

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

Töltse fel a modell súlyát az Amazon S3-ra

Az 1. rész utolsó lépésében elmentjük az egyesített modellsúlyokat egy megadott Amazon S3 helyre. A modell súlyát az Amazon SageMaker egyik modellkiszolgáló tárolója fogja használni a modell tárolására egy Inferentia2 példány használatával.

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

2. rész: Host QLoRA modell az AWS Inf2-vel való következtetéshez a SageMaker LMI tároló használatával

Ebben a részben végigvezetjük a QLoRA finomhangolt modell Amazon SageMaker tárhelykörnyezetbe történő telepítésének lépéseit. Használjuk a DJL felszolgálás konténer a SageMakertől DLC, amely integrálódik a transzformátorok-neuronx könyvtárat a modell fogadására. A beállítás megkönnyíti a modellek betöltését az AWS Inferentia2 gyorsítókra, párhuzamosítja a modellt több NeuronCore-on keresztül, és lehetővé teszi a HTTP-végpontokon keresztüli kiszolgálást.

Készítse elő a modell műtermékeit

A DJL számos mély tanulási optimalizálási könyvtárat támogat, többek között DeepSpeed, FasterTransformer és több. A modellspecifikus konfigurációkhoz biztosítunk a serving.properties kulcsparaméterekkel, mint pl tensor_parallel_degree és a model_id a modell betöltési opcióinak meghatározásához. A model_id lehet egy Hugging Face modellazonosító, vagy egy Amazon S3 útvonal, ahol a modell súlyait tárolják. Példánkban megadjuk a finomhangolt modellünk Amazon S3 helyét. A következő kódrészlet a modellszolgáltatáshoz használt tulajdonságokat mutatja:

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

Kérjük, olvassa el ezt dokumentáció a következőn keresztül elérhető konfigurálható opciókról további információkért serving.properties. Felhívjuk figyelmét, hogy használjuk option.n_position=512 ebben a blogban az AWS Neuron gyorsabb összeállításához. Ha nagyobb beviteli token hosszt szeretne kipróbálni, akkor azt javasoljuk, hogy az olvasó előre fordítsa le a modellt (ld. AOT előrefordított modell az EC2-n). Ellenkező esetben időtúllépési hibába ütközhet, ha a fordítási idő túl hosszú.

Azután serving.properties fájl van megadva, akkor a fájlt a tar.gz formátumban, az alábbiak szerint:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

Ezután feltöltjük a tar.gz fájlt egy Amazon S3 tárolóhelyre:

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

Hozzon létre egy Amazon SageMaker modell végpontot

Ha Inf2-példányt szeretnénk használni a kiszolgáláshoz, Amazont használunk SageMaker LMI konténer DJL neuronX támogatással. Kérjük, olvassa el ezt Hozzászólás további információkért a DJL NeuronX konténer következtetésekhez való használatáról. A következő kód bemutatja, hogyan telepíthet egy modellt az Amazon SageMaker Python SDK használatával:

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

Tesztmodell végpontja

A modell sikeres üzembe helyezése után ellenőrizhetjük a végpontot úgy, hogy mintakérést küldünk a prediktornak:

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

A minta kimenete a következőképpen jelenik meg:

Az adatelemzés összefüggésében a Machine Learning (ML) olyan statisztikai technikára utal, amely a statisztika hatókörének iteratív leszűkítésével egyre összetettebb és pontosabb prediktív erőt képes kinyerni egy adatkészletből.

A gépi tanulás nem egy új statisztikai technika, hanem a meglévő technikák kombinációja. Ezenkívül nem úgy tervezték, hogy egy adott adatkészlettel együtt használják, vagy hogy konkrét eredményt hozzon létre. Inkább úgy tervezték, hogy elég rugalmas legyen ahhoz, hogy alkalmazkodni tudjon bármilyen adatkészlethez, és előrejelzéseket tudjon készíteni bármilyen eredményről.

Tisztítsuk meg

Ha úgy dönt, hogy nem szeretné tovább futni a SageMaker végpontot, törölheti a használatával AWS SDK Pythonhoz (boto3), AWS CLI-hez vagy Amazon SageMaker Console-hoz. Ezen felül, akkor is állítsa le az Amazon SageMaker Studio erőforrásait amelyekre már nincs szükség.

Következtetés

Ebben a bejegyzésben megmutattuk, hogyan lehet finomhangolni egy Llama2-7b modellt LoRA adapterrel, 4 bites kvantálással, egyetlen GPU-példány használatával. Ezután telepítettük a modellt egy Inf2-példányra, amely az Amazon SageMakerben tárolt DJL-kiszolgálókonténer használatával. Végül érvényesítettük az Amazon SageMaker modell végpontját egy szöveggenerálási előrejelzéssel a SageMaker Python SDK használatával. Próbáld ki, szívesen halljuk visszajelzésedet. Maradjon velünk az AWS Inferentia további képességeiről és újításairól szóló frissítésekről.

További példákért az AWS Neuronról lásd aws-neuron-minták.

A szerzőkről

Wei Teh az AWS vezető AI/ML-megoldások specialistája. Szenvedélyesen segíti ügyfeleit AWS-útjukban, az Amazon Machine Learning szolgáltatásaira és a gépi tanuláson alapuló megoldásokra összpontosítva. A munkán kívül szeret szabadtéri tevékenységeket, például kempingezést, horgászatot és túrázást a családjával.

Fine-tune Llama 2 using QLoRA and Deploy it on Amazon SageMaker with AWS Inferentia2 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Qingweén Li az Amazon Web Services gépi tanulási szakértője. Ph.D fokozatot szerzett. az Operations Researchben, miután feltörte tanácsadója kutatási támogatási számláját, és nem teljesítette az ígért Nobel-díjat. Jelenleg a pénzügyi szolgáltatási és biztosítási ágazatban tevékenykedő ügyfeleknek segít abban, hogy gépi tanulási megoldásokat építsenek az AWS-re. Szabadidejében szeret olvasni és tanítani.