כוונן את Llama 2 באמצעות QLoRA ופריסה ב-Amazon SageMaker עם AWS Inferentia2

הועלה מחדש על ידי אפלטון

עוקב: 0

בפוסט זה, אנו מציגים כוונון עדין של דגם Llama 2 בשיטת פרמטר יעיל (PEFT) ופורסים את המודל המכוונן על AWS Inferentia2. אנו משתמשים ב- AWS נוירון ערכת פיתוח תוכנה (SDK) כדי לגשת למכשיר AWS Inferentia2 ולהפיק תועלת מהביצועים הגבוהים שלו. לאחר מכן אנו משתמשים במיכל מסקנות מדגם גדול המופעל על ידי ספריית ג'אווה עמוקה (DJLServing) כפתרון הגשה למודל שלנו.

סקירת פתרונות

כוונון עדין יעיל של Llama2 באמצעות QLoRa

משפחת Llama 2 של מודלים של שפה גדולה (LLMs) היא אוסף של מודלים של טקסט יצירתי מאומנים מראש, בקנה מידה של 7 מיליארד עד 70 מיליארד פרמטרים. לאמה 2 הוכשרה מראש על 2 טריליון אסימונים של נתונים ממקורות זמינים לציבור. לקוחות AWS בוחרים לפעמים לכוונן דגמי Llama 2 תוך שימוש בנתונים של הלקוחות עצמם כדי להשיג ביצועים טובים יותר עבור משימות במורד הזרם. עם זאת, בשל מספר הפרמטרים הרב של דגם Llama 2, כוונון עדין מלא עשוי להיות יקר וגוזל זמן רב. גישת כוונון עדין יעיל של פרמטרים (PEFT) יכולה לטפל בבעיה זו על ידי כוונון עדין בלבד של מספר קטן של פרמטרים נוספים של דגם תוך הקפאת רוב הפרמטרים של המודל שהוכשר מראש. למידע נוסף על PEFT, אפשר לקרוא את זה פוסט. בפוסט זה, אנו משתמשים QLoRa לכוונון עדין של דגם Llama 2 7B.

פרוס דגם מכוון ב-Inf2 באמצעות Amazon SageMaker

AWS Inferentia2 הוא מאיץ למידת מכונה (ML) בנוי למטרות המיועד לעומסי עבודה של הסקת מסקנות ומספק ביצועים גבוהים בעלות נמוכה של עד 40% עבור עומסי עבודה של AI ו-LLM מחוללים בהשוואה למופעים אחרים המותאמים להסקה ב-AWS. בפוסט זה, אנו משתמשים ב- Amazon Elastic Compute Cloud (אמזון) מופע Inf2, הכולל את AWS Inferentia2, מאיצי הדור השני של Inferentia2, כל אחד מכיל שניים NeuronCores-v2. כל NeuronCore-v2 הוא יחידת מחשוב עצמאית, הטרוגנית, עם ארבעה מנועים עיקריים: מנועי Tensor, Vector, Scalar ומנועי GPSIMD. הוא כולל זיכרון SRAM על-שבב מנוהל על-ידי תוכנה למקסום מקומיות נתונים. מכיוון שהתפרסמו מספר בלוגים ב-Inf2, הקורא יכול להתייחס לכך פוסט ו שלנו תיעוד למידע נוסף על Inf2.

כדי לפרוס מודלים ב-Inf2, אנו זקוקים ל-AWS Neuron SDK כשכבת התוכנה הפועלת על גבי החומרה של Inf2. AWS Neuron הוא ה-SDK המשמש להפעלת עומסי עבודה של למידה עמוקה ב-AWS Inferentia ו AWS Trainium מקרים מבוססים. זה מאפשר מחזור חיים של פיתוח ML מקצה לקצה כדי לבנות דגמים חדשים, לאמן ולבצע אופטימיזציה של מודלים אלה, ולפרוס אותם לייצור. AWS Neuron כולל למידה עמוקה מַהְדֵר, זמן ריצה, ו כלים המשולבים באופן מקורי עם מסגרות פופולריות כמו TensorFlow ו- PyTorch. בבלוג זה, אנו הולכים להשתמש transformers-neuronx, המהווה חלק מה-AWS Neuron SDK עבור זרימות עבודה של מפענח שנאים. זה תומך מגוון דגמים פופולריים, כולל Llama 2.

לפרוס דגמים על אמזון SageMaker, בדרך כלל אנו משתמשים במיכל המכיל את הספריות הנדרשות, כגון Neuron SDK ו transformers-neuronx כמו גם רכיב הגשת הדגם. אמזון SageMaker מתחזק מיכלי למידה עמוקים (DLCs) עם ספריות קוד פתוח פופולריות לאירוח דגמים גדולים. בפוסט זה אנו משתמשים ב- מיכל מסקנות דגם גדול לנוירון. מיכל זה כולל את כל מה שאתה צריך כדי לפרוס את דגם ה-Llama 2 שלך ב-Inf2. למשאבים לתחילת העבודה עם LMI באמזון SageMaker, עיין ברבים מהפוסטים הקיימים שלנו (הבלוג 1, הבלוג 2, הבלוג 3) בנושא זה. בקיצור, אתה יכול להפעיל את הקונטיינר מבלי לכתוב קוד נוסף. אתה יכול להשתמש ב מטפל ברירת מחדל לחוויית משתמש חלקה ולהעביר את אחד משמות הדגמים הנתמכים וכל פרמטר שניתן להגדיר בזמן טעינה. זה מרכיב ומגיש LLM במופע Inf2. למשל, לפרוס OpenAssistant/llama2-13b-orca-8k-3319, אתה יכול לספק את תצורת המעקב (כמו serving.properties קוֹבֶץ). ב serving.properties, אנו מציינים את סוג הדגם בתור llama2-13b-orca-8k-3319, גודל האצווה כ-4, דרגת הטנזור המקבילה כ-2, וזהו. לרשימה המלאה של פרמטרים הניתנים להגדרה, עיין ב כל אפשרויות התצורה של DJL.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

לחלופין, אתה יכול לכתוב קובץ מטפל משלך במודל כפי שמוצג כאן דוגמה, אבל זה דורש יישום שיטות טעינת המודל וההסקה כדי לשמש גשר בין ה-API של DJLServing.

תנאים מוקדמים

הרשימה הבאה מתארת את התנאים המוקדמים לפריסת המודל המתואר בפוסט זה בבלוג. אתה יכול ליישם כל אחד מה- קונסולת הניהול של AWS או באמצעות הגרסה העדכנית ביותר של ממשק שורת הפקודה של AWS (AWS CLI).

Walkthrough

בסעיף הבא, נעבור על הקוד בשני חלקים:

כוונון עדין של דגם Llama2-7b, והעלה את חפצי הדגם למיקום דלי מסוים של Amazon S3.
פרוס את המודל לתוך Inferentia2 באמצעות מיכל הגשה של DJL המתארח באמזון SageMaker.

ניתן למצוא כאן את דוגמאות הקוד המלאות עם ההוראות GitHub מאגר.

חלק 1: כוונון עדין של דגם Llama2-7b באמצעות PEFT

אנו הולכים להשתמש בשיטה שהוצגה לאחרונה במאמר QLoRA: כוונון מתאם בדרגה נמוכה המודע לכיוונט ליצירת שפה מאת Tim Dettmers et al. QLoRA היא טכניקה חדשה לצמצום טביעת הרגל של הזיכרון של דגמי שפות גדולים במהלך כוונון עדין, מבלי להקריב את הביצועים.

הערה: הכוונון העדין של מודל llama2-7b המוצג להלן נבדק על אמזון מחברת SageMaker Studio עם Python 2.0 GPU Optimized Kernel באמצעות א ml.g5.2xlarge סוג מופע. כתרגול מומלץ, אנו ממליצים להשתמש ב- סטודיו SageMaker של אמזון סביבת פיתוח משולבת (IDE) הושקה בעצמך ענן וירטואלי פרטי של אמזון (Amazon VPC). זה מאפשר לך לשלוט, לפקח ולבדוק את תעבורת הרשת בתוך ומחוץ ל-VPC שלך באמצעות יכולות רשת ואבטחה סטנדרטיות של AWS. למידע נוסף, ראה אבטחת קישוריות ל- Amazon SageMaker Studio באמצעות VPC פרטי.

לכמת את מודל הבסיס

ראשית, אנו טוענים מודל כמותי עם קוונטיזציה של 4 סיביות באמצעות שנאים של Huggingface הספרייה כדלקמן:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

טען מערך אימון

לאחר מכן, אנו טוענים את מערך הנתונים כדי להזין את המודל לשלב כוונון עדין המוצג כדלקמן:

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

חבר שכבת מתאם

כאן אנו מצרפים שכבת מתאם קטנה ניתנת לאימון, המוגדרת כ LoraConfig מוגדר ב-Handging Face's peft סִפְרִיָה.

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

לאמן מודל

באמצעות תצורת ה-LoRA המוצגת למעלה, נכוון את דגם ה-Llama2 יחד עם הפרמטרים היפר. קטע קוד לאימון המודל מוצג בקטע הבא:

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

מיזוג משקל דגם

הדגם המכוונן שהופעל לעיל יצר דגם חדש המכיל את משקולות מתאם LoRA המאומנות. בקטע הקוד הבא, נמזג את המתאם עם דגם הבסיס כדי שנוכל להשתמש במודל המכוונן להסקת מסקנות.

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

העלה משקל דגם לאמזון S3

בשלב האחרון של חלק 1, נשמור את משקלי הדגם הממוזגים במיקום מסוים של Amazon S3. משקל הדגם ישמש את מיכל הגשה של דגם באמזון SageMaker כדי לארח את הדגם באמצעות מופע Inferentia2.

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

חלק 2: מארח מודל QLoRA להסקה עם AWS Inf2 באמצעות SageMaker LMI Container

בחלק זה, נעבור על השלבים של פריסת מודל QLoRA מכוונן עדין בסביבת אירוח של Amazon SageMaker. נשתמש ב- a הגשת DJL מיכל מבית SageMaker DLC, אשר משתלב עם שנאים-נוירון ספרייה לארח דגם זה. ההגדרה מקלה על טעינת מודלים על מאיצי AWS Inferentia2, מקבילה את המודל על פני NeuronCores מרובות ומאפשרת הגשה באמצעות נקודות קצה HTTP.

הכן חפצי מודל

DJL תומך בספריות רבות של מיטוב למידה עמוקה, כולל DeepSpeed, FasterTransformer ועוד. עבור תצורות ספציפיות לדגם, אנו מספקים א serving.properties עם פרמטרים מרכזיים, כגון tensor_parallel_degree ו model_id כדי להגדיר את אפשרויות טעינת הדגם. ה model_id יכול להיות מזהה דגם Hugging Face, או נתיב Amazon S3 שבו מאוחסנים משקלי הדגם. בדוגמה שלנו, אנו מספקים את מיקום Amazon S3 של הדגם המכוונן שלנו. קטע הקוד הבא מציג את המאפיינים המשמשים להגשת המודל:

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

אנא עיין בזה תיעוד למידע נוסף על האפשרויות הניתנות להגדרה הזמינות דרך serving.properties. שימו לב שאנו משתמשים option.n_position=512 בבלוג זה להידור מהיר יותר של AWS Neuron. אם ברצונך לנסות אורך אסימון קלט גדול יותר, אנו ממליצים לקורא להרכיב מראש את המודל מבעוד מועד (ראה AOT Pre-Compile Model ב-EC2). אחרת, אתה עלול להיתקל בשגיאת פסק זמן אם זמן ההידור ארוך מדי.

לאחר serving.properties הקובץ מוגדר, נארוז את הקובץ ל-a tar.gz פורמט, כדלקמן:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

לאחר מכן, נעלה את ה-tar.gz למיקום דלי של אמזון S3:

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

צור נקודת קצה של דגם אמזון SageMaker

כדי להשתמש במופע Inf2 להגשה, אנו משתמשים באמזון מיכל SageMaker LMI עם תמיכת DJL neuronX. נא להתייחס לזה פוסט למידע נוסף על שימוש במיכל של DJL NeuronX להסקת מסקנות. הקוד הבא מראה כיצד לפרוס מודל באמצעות Amazon SageMaker Python SDK:

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

נקודת קצה של מודל בדיקה

לאחר פריסת המודל בהצלחה, נוכל לאמת את נקודת הקצה על ידי שליחת בקשה לדוגמה למנבא:

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

הפלט לדוגמה מוצג כדלקמן:

בהקשר של ניתוח נתונים, Machine Learning (ML) מתייחס לטכניקה סטטיסטית המסוגלת לחלץ כוח חיזוי ממערך נתונים עם מורכבות ודיוק הולכים וגדלים על ידי צמצום איטרטיבי של היקף הנתון.

למידת מכונה אינה טכניקה סטטיסטית חדשה, אלא שילוב של טכניקות קיימות. יתר על כן, הוא לא תוכנן לשימוש עם מערך נתונים ספציפי או כדי לייצר תוצאה ספציפית. במקום זאת, הוא תוכנן להיות גמיש מספיק כדי להתאים לכל מערך נתונים וליצור תחזיות לגבי כל תוצאה.

לנקות את

אם תחליט שאתה כבר לא רוצה להשאיר את נקודת הקצה של SageMaker פועלת, תוכל למחוק אותה באמצעות AWS SDK עבור Python (boto3), AWS CLI או Amazon SageMaker Console. בנוסף, אתה יכול גם כיבוי משאבי Amazon SageMaker Studio שכבר לא נדרשים.

סיכום

בפוסט זה, הראינו לכם כיצד לכוונן דגם Llama2-7b באמצעות מתאם LoRA עם קוונטיזציה של 4 סיביות באמצעות מופע GPU יחיד. לאחר מכן פרסנו את המודל למופע Inf2 המתארח באמזון SageMaker באמצעות מיכל הגשה של DJL. לבסוף, אימתנו את נקודת הקצה של מודל אמזון SageMaker עם חיזוי יצירת טקסט באמצעות SageMaker Python SDK. קדימה, נסה את זה, אנחנו אוהבים לשמוע את המשוב שלך. הישאר מעודכן לקבלת עדכונים על יכולות נוספות וחידושים חדשים עם AWS Inferentia.

לדוגמאות נוספות על AWS Neuron, ראה aws-נוירון-דגימות.

על הכותבים

ווי טה הוא ארכיטקט פתרונות מומחה בינה מלאכותית/ML בכיר ב-AWS. הוא נלהב לעזור ללקוחות לקדם את מסע ה-AWS שלהם, תוך התמקדות בשירותי למידת מכונה של אמזון ובפתרונות מבוססי למידת מכונה. מחוץ לעבודה, הוא נהנה מפעילויות חוצות כמו קמפינג, דיג וטיולים עם משפחתו.

כוונן את Llama 2 באמצעות QLoRA ופריסה ב-Amazon SageMaker עם AWS Inferentia2 | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. צ'ינגווהאני לי הוא מומחה למידת מכונה בשירותי האינטרנט של אמזון. הוא קיבל את הדוקטורט. במחקר מבצעים לאחר ששבר את חשבון מענקי המחקר של יועצו ולא הצליח להעניק את פרס נובל שהבטיח. נכון לעכשיו הוא מסייע ללקוחות בענף השירותים הפיננסיים וביטוח לבנות פתרונות למידת מכונה ב- AWS. בזמנו הפנוי הוא אוהב לקרוא ולהוריד.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/fine-tune-llama-2-using-qlora-and-deploy-it-on-amazon-sagemaker-with-aws-inferentia2/

בול זמן: דצמבר 13, 2023

בול זמן: יולי 7, 2022

הועלה מחדש על ידי אפלטון

עיצוב פונקציות מודולריות עבור מערכות סיוע לנהג מתקדמות (ADAS) ב-AWS

הכשרה מבוזרת ושינוי קנה מידה יעיל עם הספריות המקבילות והדאטות המקבילות של מודל Amazon SageMaker | שירותי האינטרנט של אמזון

כיצד Sportradar השתמש בספריית Java Deep כדי לבנות פלטפורמות ML בקנה מידה ייצור להגברת הביצועים והיעילות

בניית צינור ניתוח סנטימנטים של MLOps באמצעות Amazon SageMaker Ground Truth ו-Databricks MLflow

לוקליזציה של AWS משתמשת ב-Amazon Translate כדי להרחיב את הלוקליזציה

הטמע המלצות מותאמות אישית בזמן אמת באמצעות Amazon Personalize | שירותי האינטרנט של אמזון

התאם אישית את ההגיות באמצעות אמזון פולי

הנדסת תכונות בקנה מידה גדול עבור בריאות ומדעי החיים עם Amazon SageMaker Data Wrangler

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן