Dostosuj Llamę 2 za pomocą QLoRA i wdróż ją na Amazon SageMaker z AWS Inferentia2

Opublikowane ponownie przez Plato

Obserwuje: 0

W tym poście prezentujemy dostrajanie modelu Lamy 2 przy użyciu metody dostrajania efektywnego pod względem parametrów (PEFT) i wdrażamy dostrojony model na Inferencja AWS2. Używamy Neuron AWS zestaw do tworzenia oprogramowania (SDK), aby uzyskać dostęp do urządzenia AWS Inferentia2 i czerpać korzyści z jego wysokiej wydajności. Następnie używamy dużego kontenera wnioskowania modelu obsługiwanego przez Głęboka biblioteka Java (DJLServing) jako nasze modelowe rozwiązanie do serwowania.

Omówienie rozwiązania

Wydajne dostrajanie Lamy2 przy użyciu QLoRa

Rodzina dużych modeli językowych (LLM) Llama 2 to zbiór wstępnie wyszkolonych i precyzyjnie dostrojonych generatywnych modeli tekstowych o skali od 7 miliardów do 70 miliardów parametrów. Llama 2 została wstępnie przeszkolona na 2 bilionach tokenów danych z publicznie dostępnych źródeł. Klienci AWS czasami decydują się na dostrojenie modeli Llama 2 przy użyciu własnych danych, aby uzyskać lepszą wydajność w dalszych zadaniach. Jednakże ze względu na dużą liczbę parametrów modelu Lamy 2 pełne dostrojenie może być zbyt kosztowne i czasochłonne. Metoda dostrajania efektywnego pod względem parametrów (PEFT) może rozwiązać ten problem, dostrajając jedynie niewielką liczbę dodatkowych parametrów modelu, jednocześnie zamrażając większość parametrów wstępnie wytrenowanego modelu. Aby uzyskać więcej informacji na temat PEFT, można przeczytać to pisać. W tym poście używamy QLoRa aby dostroić model Lamy 2 7B.

Wdróż dopracowany model na Inf2 za pomocą Amazon SageMaker

AWS Inferentia2 to specjalnie zaprojektowany akcelerator uczenia maszynowego (ML) zaprojektowany z myślą o obciążeniach związanych z wnioskowaniem i zapewniający wysoką wydajność przy nawet o 40% niższych kosztach w przypadku generatywnych obciążeń AI i LLM w porównaniu z innymi instancjami zoptymalizowanymi pod kątem wnioskowania w AWS. W tym poście używamy Amazon Elastic Compute Cloud (Amazon EC2) Instancja Inf2 zawierająca AWS Inferentia2, akceleratory Inferentia2 drugiej generacji, każdy zawierający dwa NeuronCores-v2. Każdy NeuronCore-v2 jest niezależną, heterogeniczną jednostką obliczeniową z czterema głównymi silnikami: silnikami Tensor, Vector, Scalar i GPSIMD. Zawiera wbudowaną, zarządzaną programowo pamięć SRAM, która maksymalizuje lokalizację danych. Ponieważ opublikowano kilka blogów na temat Inf2, czytelnik może się do tego odnieść pisać i nasz dokumentacja aby uzyskać więcej informacji na temat Inf2.

Aby wdrożyć modele na Inf2, potrzebujemy AWS Neuron SDK jako warstwy oprogramowania działającej na sprzęcie Inf2. AWS Neuron to pakiet SDK używany do uruchamiania obciążeń związanych z głębokim uczeniem się w AWS Inferentia i Szkolenie AWS oparte na instancjach. Umożliwia kompleksowy cykl rozwoju ML w celu tworzenia nowych modeli, trenowania i optymalizowania tych modeli oraz wdrażania ich do produkcji. AWS Neuron obejmuje głębokie uczenie się kompilator, Czas, narzędzia które są natywnie zintegrowane z popularnymi frameworkami, takimi jak TensorFlow i PyTorch. Na tym blogu będziemy używać transformers-neuronx, który jest częścią pakietu AWS Neuron SDK do przepływów pracy wnioskowania dekodera transformatora. To wspiera szereg popularnych modeli, w tym Llama 2.

Aby wdrożyć modele na Amazon Sage Maker, zwykle używamy kontenera zawierającego wymagane biblioteki, takie jak Neuron SDK i transformers-neuronx jak również komponent obsługujący model. Amazon SageMaker utrzymuje kontenery głębokiego uczenia (DLC) z popularnymi bibliotekami open source do hostowania dużych modeli. W tym poście używamy Duży kontener wnioskowania modelu dla Neuronu. W tym kontenerze znajdziesz wszystko, czego potrzebujesz, aby wdrożyć swój model Lamy 2 na Inf2. Aby zapoznać się z zasobami umożliwiającymi rozpoczęcie korzystania z LMI w Amazon SageMaker, zapoznaj się z wieloma naszymi istniejącymi postami (blog 1, blog 2, blog 3) w tym temacie. Krótko mówiąc, możesz uruchomić kontener bez pisania dodatkowego kodu. Możesz skorzystać z domyślny program obsługi aby zapewnić płynną obsługę użytkownika i przekazać jedną z obsługiwanych nazw modeli oraz dowolne konfigurowalne parametry czasu ładowania. To kompiluje i udostępnia LLM w instancji Inf2. Na przykład wdrożyć OpenAssistant/llama2-13b-orca-8k-3319, możesz podać następującą konfigurację (jako serving.properties plik). W serving.properties, określamy typ modelu jako llama2-13b-orca-8k-3319, wielkość partii jako 4, stopień równoległości tensora jako 2 i to wszystko. Aby zapoznać się z pełną listą konfigurowalnych parametrów, zobacz Wszystkie opcje konfiguracji DJL.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

Alternatywnie możesz napisać własny plik obsługi modelu, jak pokazano w this przykład, ale to wymaga wdrożenia metod ładowania modelu i wnioskowania, które będą służyć jako pomost pomiędzy interfejsami API DJLServing.

Wymagania wstępne

Na poniższej liście przedstawiono wymagania wstępne dotyczące wdrożenia modelu opisanego w tym poście na blogu. Możesz zaimplementować albo z Konsola zarządzania AWS lub użyj najnowszej wersji programu Interfejs wiersza poleceń AWS (interfejs wiersza poleceń AWS).

Opis przejścia

W następnej sekcji omówimy kod w dwóch częściach:

Dostosuj model Llama2-7b i prześlij artefakty modelu do określonej lokalizacji wiadra Amazon S3.
Wdróż model w Inferentia2 przy użyciu kontenera obsługującego DJL hostowanego w Amazon SageMaker.

Kompletne próbki kodu wraz z instrukcjami można znaleźć w this GitHub magazyn.

Część 1: Dostosuj model Lamy2-7b za pomocą PEFT

Zamierzamy zastosować niedawno wprowadzoną w artykule metodę QLoRA: Dostrajanie adapterów niskiego rzędu uwzględniające kwantyzację w celu generowania języka przez Tima Dettmersa i in. QLoRA to nowa technika zmniejszająca zużycie pamięci przez duże modele językowe podczas dostrajania, bez utraty wydajności.

Uwaga: Dostrojenie modelu Lama2-7b pokazane poniżej zostało przetestowane na Amazonie Notatnik studyjny SageMaker z jądrem zoptymalizowanym pod kątem procesora graficznego Python 2.0 przy użyciu pliku ml.g5.2xduży typ instancji. Jako najlepszą praktykę zalecamy użycie pliku Studio Amazon SageMaker Zintegrowane środowisko programistyczne (IDE) uruchomione we własnym zakresie Wirtualna prywatna chmura Amazon (Amazon VPC). Pozwala to kontrolować, monitorować i sprawdzać ruch sieciowy w ramach i poza VPC przy użyciu standardowych funkcji sieciowych i zabezpieczeń AWS. Aby uzyskać więcej informacji, zapoznaj się z sekcją Zabezpieczanie łączności z Amazon SageMaker Studio przy użyciu prywatnego VPC.

Kwantyzacja modelu podstawowego

Najpierw ładujemy skwantowany model za pomocą 4-bitowej kwantyzacji Transformatory z Huggingface bibliotekę w następujący sposób:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

Załaduj zestaw danych szkoleniowych

Następnie ładujemy zbiór danych, aby zasilić model w etapie dostrajania pokazanym poniżej:

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

Zamocuj warstwę adaptera

Tutaj dołączamy małą, możliwą do wyszkolenia warstwę adaptera, skonfigurowaną jako LoraConfig zdefiniowane w Przytulonej Twarzy sprawne biblioteka.

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

Wytrenuj model

Korzystając z konfiguracji LoRA pokazanej powyżej, dopracujemy model Llama2 wraz z hiperparametrami. Fragment kodu do szkolenia modelu pokazano poniżej:

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

Połącz wagę modelu

Dopracowany model wykonany powyżej utworzył nowy model zawierający przeszkolone wagi adapterów LoRA. W poniższym fragmencie kodu połączymy adapter z modelem podstawowym, abyśmy mogli użyć dopracowanego modelu do wnioskowania.

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

Prześlij masę modelu do Amazon S3

W ostatnim kroku części 1 zapiszemy wagi połączonych modeli w określonej lokalizacji Amazon S3. Waga modelu zostanie wykorzystana przez kontener obsługujący model w Amazon SageMaker do hostowania modelu przy użyciu instancji Inferentia2.

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

Część 2: Model hosta QLoRA do wnioskowania z AWS Inf2 przy użyciu kontenera SageMaker LMI

W tej sekcji omówimy etapy wdrażania dopracowanego modelu QLoRA w środowisku hostingowym Amazon SageMaker. Użyjemy A Obsługa DJL pojemnik od SageMaker DLC, który integruje się z transformatory-neuronx biblioteka do hostowania tego modelu. Konfiguracja ułatwia ładowanie modeli do akceleratorów AWS Inferentia2, równoległość modelu w wielu NeuronCores i umożliwia obsługę za pośrednictwem punktów końcowych HTTP.

Przygotuj artefakty modelu

DJL obsługuje wiele bibliotek optymalizacji głębokiego uczenia się, w tym Głęboka prędkość, Szybszy Transformator i więcej. W przypadku konfiguracji specyficznych dla modelu zapewniamy: serving.properties z kluczowymi parametrami, takimi jak tensor_parallel_degree i model_id aby zdefiniować opcje ładowania modelu. The model_id może to być identyfikator modelu Hugging Face lub ścieżka Amazon S3, w której przechowywane są wagi modeli. W naszym przykładzie podajemy lokalizację Amazon S3 naszego dopracowanego modelu. Poniższy fragment kodu przedstawia właściwości używane do obsługi modelu:

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

Proszę odnieść się do tego dokumentacja Aby uzyskać więcej informacji na temat konfigurowalnych opcji dostępnych pod adresem serving.properties. Należy pamiętać, że używamy option.n_position=512 na tym blogu, aby uzyskać szybszą kompilację AWS Neuron. Jeśli chcesz wypróbować większą długość tokena wejściowego, zalecamy czytelnikowi wstępną kompilację modelu z wyprzedzeniem (zobacz Model wstępnej kompilacji AOT na EC2). W przeciwnym razie może wystąpić błąd przekroczenia limitu czasu, jeśli czas kompilacji będzie zbyt długi.

Po serving.properties plik jest zdefiniowany, spakujemy plik w formacie tar.gz formacie w następujący sposób:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

Następnie prześlemy plik tar.gz do lokalizacji segmentu Amazon S3:

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

Utwórz punkt końcowy modelu Amazon SageMaker

Aby użyć instancji Inf2 do obsługi, używamy Amazon Kontener LMI SageMaker z obsługą DJL neuronX. Proszę zapoznać się z tym pisać aby uzyskać więcej informacji na temat używania kontenera DJL NeuronX do wnioskowania. Poniższy kod pokazuje, jak wdrożyć model przy użyciu pakietu Amazon SageMaker Python SDK:

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

Punkt końcowy modelu testowego

Po pomyślnym wdrożeniu modelu możemy zweryfikować punkt końcowy, wysyłając przykładowe żądanie do predyktora:

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

Przykładowe dane wyjściowe są pokazane w następujący sposób:

W kontekście analizy danych uczenie maszynowe (ML) odnosi się do techniki statystycznej zdolnej do wydobywania mocy predykcyjnej ze zbioru danych o rosnącej złożoności i dokładności poprzez iteracyjne zawężanie zakresu statystyki.

Uczenie maszynowe nie jest nową techniką statystyczną, ale raczej połączeniem istniejących technik. Co więcej, nie zaprojektowano go do stosowania z konkretnym zbiorem danych ani do uzyskania określonego wyniku. Zamiast tego został zaprojektowany tak, aby był wystarczająco elastyczny, aby dostosować się do dowolnego zbioru danych i przewidywać dowolny wynik.

Sprzątać

Jeśli zdecydujesz, że nie chcesz już uruchamiać punktu końcowego SageMaker, możesz go usunąć za pomocą AWS SDK dla Pythona (boto3), AWS CLI lub Amazon SageMaker Console. Dodatkowo możesz również wyłącz zasoby Amazon SageMaker Studio które nie są już potrzebne.

Wnioski

W tym poście pokazaliśmy, jak dostroić model Llama2-7b przy użyciu adaptera LoRA z 4-bitową kwantyzacją przy użyciu pojedynczej instancji GPU. Następnie wdrożyliśmy model w instancji Inf2 hostowanej w Amazon SageMaker przy użyciu kontenera obsługującego DJL. Na koniec zweryfikowaliśmy punkt końcowy modelu Amazon SageMaker za pomocą przewidywania generowania tekstu przy użyciu zestawu SDK SageMaker Python. Śmiało, wypróbuj, chętnie wysłuchamy Twojej opinii. Bądź na bieżąco z aktualizacjami dotyczącymi większej liczby możliwości i nowych innowacji w AWS Inferentia.

Więcej przykładów na temat AWS Neuron można znaleźć w artykule próbki neuronów aws.

O autorach

Wei Teh jest starszym architektem rozwiązań specjalistycznych AI/ML w AWS. Jego pasją jest pomaganie klientom w rozwoju ich podróży do AWS, koncentrując się na usługach Amazon Machine Learning i rozwiązaniach opartych na uczeniu maszynowym. Poza pracą lubi zajęcia na świeżym powietrzu, takie jak biwakowanie, wędkarstwo i piesze wędrówki z rodziną.

Dostosuj Llamę 2 za pomocą QLoRA i wdróż ją na Amazon SageMaker z AWS Inferentia2 | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Qingweja Li jest specjalistą ds. uczenia maszynowego w Amazon Web Services. Uzyskał stopień doktora. w badaniach operacyjnych po tym, jak złamał konto grantu naukowego swojego doradcy i nie przekazał obiecanej nagrody Nobla. Obecnie pomaga klientom z branży usług finansowych i ubezpieczeniowych budować rozwiązania machine learning na AWS. W wolnym czasie lubi czytać i uczyć.