Finjuster Falcon 7B og andre LLM'er på Amazon SageMaker med @remote Decorator

Genudgivet af Platon

Abonnenter: 0

I dag dækker generative AI-modeller en række opgaver fra tekstresumé, Q&A og billed- og videogenerering. For at forbedre kvaliteten af output, tilgange som n-short learning, prompt engineering, Retrieval Augmented Generation (RAG) og finjustering anvendes. Finjustering giver dig mulighed for at justere disse generative AI-modeller for at opnå forbedret ydeevne på dine domænespecifikke opgaver.

Med Amazon SageMaker, nu kan du køre et SageMaker-træningsjob blot ved at annotere din Python-kode med @fjerndekoratør. Det SageMaker Python SDK oversætter automatisk dit eksisterende arbejdsmiljø og enhver tilhørende databehandlingskode og datasæt til et SageMaker træningsjob, der kører på træningsplatformen. Dette har fordelen ved at skrive koden på en mere naturlig, objektorienteret måde og bruger stadig SageMaker-funktioner til at køre træningsjob på en fjernklynge med minimale ændringer.

I dette indlæg viser vi, hvordan man finjusterer en Falcon-7B Foundation Models (FM) ved hjælp af @remote decorator fra SageMaker Python SDK. Den bruger også Hugging Faces parametereffektive finjustering (PEFT) bibliotek og kvantiseringsteknikker igennem bitsandbytes for at understøtte finjustering. Koden præsenteret i denne blog kan også bruges til at finjustere andre FM'er, som f.eks Lama-2 13b.

De fulde præcisionsrepræsentationer af denne model kan have udfordringer med at passe ind i hukommelsen på en enkelt eller endda flere Graphic Processing Units (GPU'er) - eller måske endda brug for en større instans. For at finjustere denne model uden at øge omkostningerne bruger vi derfor teknikken kendt som Kvantiserede LLM'er med lavrangsadaptere (QLoRA). QLoRA er en effektiv finjusteringstilgang, der reducerer hukommelsesforbrug af LLM'er, samtidig med at den bevarer en meget god ydeevne.

Fordele ved at bruge @remote decorator

Inden vi går videre, lad os forstå, hvordan remote decorator forbedrer udviklerproduktiviteten, mens vi arbejder med SageMaker:

@remote decorator udløser et træningsjob direkte ved hjælp af indbygget python-kode uden eksplicit påkaldelse af SageMaker Estimators og SageMaker input-kanaler
Lav adgangsbarriere for udviklere, der træner modeller på SageMaker.
Ingen grund til at skifte Integrerede udviklingsmiljøer (IDE'er). Fortsæt med at skrive kode i dit valg af IDE og påberåb SageMaker træningsjob.
Ingen grund til at lære om containere. Fortsæt med at levere afhængigheder i en requirements.txt og lever det til fjerndekoratøren.

Forudsætninger

En AWS-konto er nødvendig med en AWS identitets- og adgangsstyring (AWS IAM) rolle der har tilladelser til at administrere ressourcer, der er oprettet som en del af løsningen. For detaljer henvises til Oprettelse af en AWS-konto.

I dette indlæg bruger vi Amazon SageMaker Studio med Data Science 3.0 billede og en ml.t3.medium hurtig lanceringsinstans. Du kan dog bruge ethvert integreret udviklingsmiljø (IDE) efter eget valg. Du skal bare konfigurere din AWS kommandolinjegrænseflade (AWS CLI) legitimationsoplysninger korrekt. For mere information, se Konfigurer AWS CLI.

Til finjustering, Falcon-7B, en ml.g5.12xlarge instans bruges i dette indlæg. Sørg for tilstrækkelig kapacitet til denne forekomst i AWS-kontoen.

Du skal klone dette Github depot for at replikere den løsning, der er vist i dette indlæg.

Løsningsoversigt

Installer forudsætninger for at finjustere Falcon-7B-modellen
Konfigurer fjerndekorationskonfigurationer
Forbehandle datasættet, der indeholder AWS-services ofte stillede spørgsmål
Finjuster Falcon-7B på AWS-tjenester ofte stillede spørgsmål
Test finjuster modellerne på prøvespørgsmål relateret til AWS-tjenester

1. Installer forudsætninger for finjustering af Falcon-7B-modellen

Start notesbogen falcon-7b-qlora-remote-decorator_qa.ipynb i SageMaker Studio ved at vælge IMage as Data Science , kernel as Python 3. Installer alle de nødvendige biblioteker nævnt i requirements.txt. Få af bibliotekerne skal installeres på selve notebook-forekomsten. Udfør andre handlinger, der er nødvendige for datasætbehandling og udløsning af et SageMaker-træningsjob.

%pip install -r requirements.txt %pip install -q -U transformers==4.31.0
%pip install -q -U datasets==2.13.1
%pip install -q -U peft==0.4.0
%pip install -q -U accelerate==0.21.0
%pip install -q -U bitsandbytes==0.40.2
%pip install -q -U boto3
%pip install -q -U sagemaker==2.154.0
%pip install -q -U scikit-learn

2. Konfigurer fjerndekorationskonfigurationer

Opret en konfigurationsfil, hvor alle konfigurationer relateret til Amazon SageMaker træningsjob er specificeret. Denne fil læses af @remote decorator, mens du kører træningsjobbet. Denne fil indeholder indstillinger som afhængigheder, træningsbillede, instans og den udførelsesrolle, der skal bruges til træningsjob. For en detaljeret reference til alle de indstillinger, der understøttes af konfigurationsfilen, tjek ud Konfiguration og brug af standardindstillinger med SageMaker Python SDK.

SchemaVersion: '1.0'
SageMaker: PythonSDK: Modules: RemoteFunction: Dependencies: ./requirements.txt ImageUri: '{aws_account_id}.dkr.ecr.{region}.amazonaws.com/huggingface-pytorch-training:2.0.0-transformers4.28.1-gpu-py310-cu118-ubuntu20.04' InstanceType: ml.g5.12xlarge RoleArn: arn:aws:iam::111122223333:role/ExampleSageMakerRole

Det er ikke obligatorisk at bruge config.yaml fil for at arbejde med @remote decorator. Dette er blot en renere måde at levere alle konfigurationer til @remote-dekoratøren. Dette holder SageMaker- og AWS-relaterede parametre uden for koden med en engangsindsats for at opsætte den konfigurationsfil, der bruges på tværs af teammedlemmerne. Alle konfigurationer kunne også leveres direkte i dekoratørargumenterne, men det reducerer læsbarheden og vedligeholdelsen af ændringer i det lange løb. Konfigurationsfilen kan også oprettes af en administrator og deles med alle brugere i et miljø.

Forbehandle datasættet, der indeholder AWS-services ofte stillede spørgsmål

Næste trin er at indlæse og forbehandle datasættet for at gøre det klar til træningsjob. Lad os først se på datasættet:

Finjuster Falcon 7B og andre LLM'er på Amazon SageMaker med @remote decorator | Amazon Web Services PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Det viser ofte stillede spørgsmål for en af AWS-tjenesterne. Ud over QLoRA, bitsanbytes bruges til at konvertere til 4-bit præcision for at kvantisere frossen LLM til 4-bit og vedhæfte LoRA adaptere på den.

Opret en promptskabelon for at konvertere hver FAQ-eksempel til et promptformat:

from random import randint # custom instruct prompt start
prompt_template = f"{{question}}n---nAnswer:n{{answer}}{{eos_token}}" # template dataset to add prompt to each sample
def template_dataset(sample): sample["text"] = prompt_template.format(question=sample["question"], answer=sample["answers"], eos_token=tokenizer.eos_token) return sample

Næste trin er at konvertere input (tekst) til token-id'er. Dette gøres af en Hugging Face Transformers Tokenizer.

from transformers import AutoTokenizer model_id = "tiiuae/falcon-7b" tokenizer = AutoTokenizer.from_pretrained(model_id)
# Set the Falcon tokenizer
tokenizer.pad_token = tokenizer.eos_token

Brug nu blot prompt_template funktion til at konvertere alle ofte stillede spørgsmål til promptformat og opsætte tog- og testdatasæt.

Finjuster Falcon 7B og andre LLM'er på Amazon SageMaker med @remote decorator | Amazon Web Services PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

4. Finjuster Falcon-7B på ofte stillede spørgsmål om AWS-tjenester

Nu kan du forberede træningsscriptet og definere træningsfunktionen train_fn og sæt @remote decorator på funktionen.

Træningsfunktionen gør følgende:

tokeniserer og opdeler datasættet
oprettet BitsAndBytesConfig, som specificerer, at modellen skal indlæses i 4-bit, men mens beregningen skal konverteres til bfloat16.
Indlæs modellen
Find målmoduler og opdater de nødvendige matricer ved at bruge hjælpemetoden find_all_linear_names
Opret LoRA konfigurationer, der specificerer rangering af opdateringsmatricer (s), skaleringsfaktor (lora_alpha), modulerne til at anvende LoRA-opdateringsmatricerne (target_modules), sandsynlighed for udfald for Lora-lag(lora_dropout), task_typeOsv
Start træningen og evalueringen

import bitsandbytes as bnb def find_all_linear_names(hf_model): lora_module_names = set() for name, module in hf_model.named_modules(): if isinstance(module, bnb.nn.Linear4bit): names = name.split(".") lora_module_names.add(names[0] if len(names) == 1 else names[-1]) if "lm_head" in lora_module_names: lora_module_names.remove("lm_head") return list(lora_module_names)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from sagemaker.remote_function import remote
import torch
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
import transformers # Start training
@remote(volume_size=50)
def train_fn( model_name, train_ds, test_ds, lora_r=8, lora_alpha=32, lora_dropout=0.05, per_device_train_batch_size=8, per_device_eval_batch_size=8, learning_rate=2e-4, num_train_epochs=1
): # tokenize and chunk dataset lm_train_dataset = train_ds.map( lambda sample: tokenizer(sample["text"]), batched=True, batch_size=24, remove_columns=list(train_dataset.features) ) lm_test_dataset = test_ds.map( lambda sample: tokenizer(sample["text"]), batched=True, remove_columns=list(test_dataset.features) ) # Print total number of samples print(f"Total number of train samples: {len(lm_train_dataset)}") bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_use_double_quant=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16 ) # Falcon requires you to allow remote code execution. This is because the model uses a new architecture that is not part of transformers yet. # The code is provided by the model authors in the repo. model = AutoModelForCausalLM.from_pretrained( model_name, trust_remote_code=True, quantization_config=bnb_config, device_map="auto") model.gradient_checkpointing_enable() model = prepare_model_for_kbit_training(model, use_gradient_checkpointing=True) # get lora target modules modules = find_all_linear_names(model) print(f"Found {len(modules)} modules to quantize: {modules}") config = LoraConfig( r=lora_r, lora_alpha=lora_alpha, target_modules=modules, lora_dropout=lora_dropout, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(model, config) print_trainable_parameters(model) trainer = transformers.Trainer( model=model, train_dataset=lm_train_dataset, eval_dataset=lm_test_dataset, args=transformers.TrainingArguments( per_device_train_batch_size=per_device_train_batch_size, per_device_eval_batch_size=per_device_eval_batch_size, logging_steps=2, num_train_epochs=num_train_epochs, learning_rate=learning_rate, bf16=True, save_strategy="no", output_dir="outputs" ), data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False), ) model.config.use_cache = False trainer.train() trainer.evaluate() model.save_pretrained("/opt/ml/model")

Og påberåbe sig train_fn()

train_fn(model_id, train_dataset, test_dataset)

Tuning-opgaven ville køre på Amazon SageMaker-uddannelsesklyngen. Vent på, at tuning-jobbet er afsluttet.

5. Test finjusteringsmodellerne på prøvespørgsmål relateret til AWS-tjenester

Nu er det tid til at køre nogle test på modellen. Lad os først indlæse modellen:

from peft import PeftModel, PeftConfig
import torch
from transformers import AutoModelForCausalLM device = 'cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu' config = PeftConfig.from_pretrained("./model")
model = AutoModelForCausalLM.from_pretrained(config.base_model_name_or_path, trust_remote_code=True)
model = PeftModel.from_pretrained(model, "./model")
model.to(device)

Indlæs nu et eksempelspørgsmål fra træningsdatasættet for at se det originale svar, og stil derefter det samme spørgsmål fra den indstillede model for at se svaret i sammenligning.

Her er et eksempel på et spørgsmål fra træningssættet og det originale svar:

Finjuster Falcon 7B og andre LLM'er på Amazon SageMaker med @remote decorator | Amazon Web Services PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Nu bliver det samme spørgsmål stillet til den indstillede Falcon-7B-model:

Finjuster Falcon 7B og andre LLM'er på Amazon SageMaker med @remote decorator | Amazon Web Services PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Dette afslutter implementeringen af finjustering af Falcon-7B på AWS-tjenesters FAQ-datasæt ved hjælp af @remote decorator fra Amazon SageMaker Python SDK.

Gøre rent

Udfør følgende trin for at rydde op i dine ressourcer:

Luk Amazon SageMaker Studio-forekomsterne ned for at undgå at pådrage sig ekstra omkostninger.
Ryd op i dit Amazon Elastic File System (Amazon EFS) bibliotek ved at rydde Hugging Face-cache-mappen:
```
rm -R ~/.cache/huggingface/hub
```

Konklusion

I dette indlæg viste vi dig, hvordan du effektivt bruger @remote-dekoratørens muligheder til at finjustere Falcon-7B-modellen ved hjælp af QLoRA, Hugging Face PEFT med bitsandbtyes uden at anvende væsentlige ændringer i træningsnotesbogen, og brugte Amazon SageMaker-funktioner til at køre træningsjob på en fjernklynge.

Al koden vist som en del af dette indlæg for at finjustere Falcon-7B er tilgængelig i GitHub repository. Depotet indeholder også en notesbog, der viser, hvordan man finjusterer Llama-13B.

Som et næste skridt opfordrer vi dig til at tjekke @remote decorator funktionalitet , Python SDK API og brug det i dit valg af miljø og IDE. Yderligere eksempler er tilgængelige i amazon-sagemaker-eksempler repository for at komme hurtigt i gang. Du kan også tjekke følgende indlæg:

Om forfatterne

Bruno Pistone er en AI/ML Specialist Solutions Architect for AWS baseret i Milano. Han arbejder med store kunder, der hjælper dem til dybt at forstå deres tekniske behov og designe AI- og Machine Learning-løsninger, der gør den bedste brug af AWS Cloud og Amazon Machine Learning-stakken. Hans ekspertise omfatter: Machine Learning end to end, Machine Learning Industrialization og Generative AI. Han nyder at tilbringe tid med sine venner og udforske nye steder, såvel som at rejse til nye destinationer.

Vikesh Pandey er en Machine Learning Specialist Solutions Architect hos AWS, der hjælper kunder fra finansielle industrier med at designe og bygge løsninger på generativ AI og ML. Uden for arbejdet nyder Vikesh at prøve forskellige køkkener og dyrke udendørs sport.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Automotive/elbiler, Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
ChartPrime. Løft dit handelsspil med ChartPrime. Adgang her.
BlockOffsets. Modernisering af miljømæssig offset-ejerskab. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/fine-tune-falcon-7b-and-other-llms-on-amazon-sagemaker-with-remote-decorator/

Tidsstempel: September 14, 2023

Tidsstempel: Juni 3, 2022

Genudgivet af Platon

Konfigurer en tilpasset Amazon S3-forespørgselsoutputplacering og dataopbevaringspolitik for Amazon Athena-datakilder i Amazon SageMaker Data Wrangler

Reducer madspild for at forbedre bæredygtighed og økonomiske resultater i detailhandlen med Amazon Forecast

Byg datasæt, der er klar til maskinlæring fra Amazon SageMaker offline Feature Store ved hjælp af Amazon SageMaker Python SDK | Amazon Web Services

Opret en HCLS dokumentopsummeringsapplikation med Falcon ved hjælp af Amazon SageMaker JumpStart | Amazon Web Services

Lav batch-forudsigelser med Amazon SageMaker Autopilot

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto