QLoRA کا استعمال کرتے ہوئے Llama 2 کو ٹھیک کریں اور اسے AWS Inferentia2 کے ساتھ Amazon SageMaker پر تعینات کریں۔ ایمیزون ویب سروسز

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

اس پوسٹ میں، ہم پیرامیٹر-ایفشینٹ فائن-ٹیوننگ (PEFT) طریقہ استعمال کرتے ہوئے Llama 2 ماڈل کو ٹھیک کرنے کی نمائش کرتے ہیں اور اس پر فائن ٹیونڈ ماڈل کو تعینات کرتے ہیں۔ AWS Inferentia2. ہم استعمال کرتے ہیں AWS نیوران سافٹ ویئر ڈویلپمنٹ کٹ (SDK) AWS Inferentia2 ڈیوائس تک رسائی حاصل کرنے اور اس کی اعلی کارکردگی سے فائدہ اٹھانے کے لیے۔ اس کے بعد ہم ایک بڑے ماڈل انفرنس کنٹینر کا استعمال کرتے ہیں۔ گہری جاوا لائبریری (DJLServing) ہمارے ماڈل سرونگ سلوشن کے طور پر۔

حل جائزہ

QLoRa کا استعمال کرتے ہوئے موثر فائن ٹیوننگ Llama2

لاما 2 فیملی آف لارج لینگوئج ماڈلز (LLMs) 7 بلین سے 70 بلین پیرامیٹرز کے پیمانے پر پہلے سے تربیت یافتہ اور ٹھیک ٹیونڈ جنریٹو ٹیکسٹ ماڈلز کا مجموعہ ہے۔ لاما 2 کو عوامی طور پر دستیاب ذرائع سے ڈیٹا کے 2 ٹریلین ٹوکنز پر پہلے سے تربیت دی گئی تھی۔ AWS صارفین بعض اوقات ڈاون اسٹریم کاموں کے لیے بہتر کارکردگی حاصل کرنے کے لیے صارفین کے اپنے ڈیٹا کا استعمال کرتے ہوئے Llama 2 ماڈلز کو ٹھیک کرنے کا انتخاب کرتے ہیں۔ تاہم، Llama 2 ماڈل کے پیرامیٹرز کی بڑی تعداد کی وجہ سے، مکمل فائن ٹیوننگ ممنوعہ طور پر مہنگی اور وقت طلب ہو سکتی ہے۔ پیرامیٹر ایفیشینٹ فائن ٹیوننگ (پی ای ایف ٹی) اپروچ اس مسئلے کو صرف چند اضافی ماڈل پیرامیٹرز کو ٹھیک کر کے حل کر سکتا ہے جبکہ پہلے سے تربیت یافتہ ماڈل کے زیادہ تر پیرامیٹرز کو منجمد کر کے۔ PEFT کے بارے میں مزید معلومات کے لیے، کوئی اسے پڑھ سکتا ہے۔ پوسٹ. اس پوسٹ میں، ہم استعمال کرتے ہیں QLoRa Llama 2 7B ماڈل کو ٹھیک کرنے کے لیے۔

Amazon SageMaker کا استعمال کرتے ہوئے Inf2 پر ایک عمدہ ماڈل تعینات کریں۔

AWS Inferentia2 مقصد سے بنایا ہوا مشین لرننگ (ML) ایکسلریٹر ہے جو اندازہ کام کے بوجھ کے لیے ڈیزائن کیا گیا ہے اور AWS پر دیگر قیاس آرائیوں سے بہتر مثالوں کے مقابلے جنریٹو AI اور LLM ورک بوجھ کے لیے 40% تک کم قیمت پر اعلیٰ کارکردگی فراہم کرتا ہے۔ اس پوسٹ میں، ہم Amazon Elastic Compute Cloud (ایمیزون EC2) Inf2 مثال، جس میں AWS Inferentia2، دوسری نسل کے Inferentia2 ایکسلریٹر شامل ہیں، ہر ایک میں دو NeuronCores-v2. ہر NeuronCore-v2 ایک آزاد، متفاوت کمپیوٹ یونٹ ہے، جس میں چار اہم انجن ہیں: Tensor، Vector، Scalar، اور GPSIMD انجن۔ اس میں ڈیٹا لوکلٹی کو زیادہ سے زیادہ کرنے کے لیے ایک آن چپ سافٹ ویئر کے زیر انتظام SRAM میموری شامل ہے۔ چونکہ Inf2 پر کئی بلاگز شائع ہو چکے ہیں، قاری اس کا حوالہ دے سکتے ہیں۔ پوسٹ اور ہماری دستاویزات Inf2 پر مزید معلومات کے لیے۔

Inf2 پر ماڈلز کی تعیناتی کے لیے، ہمیں AWS Neuron SDK کی ضرورت ہے جیسا کہ Inf2 ہارڈ ویئر کے اوپر چلنے والی سافٹ ویئر لیئر۔ AWS نیوران SDK ہے جو AWS Inferentia پر گہری سیکھنے کے کام کے بوجھ کو چلانے کے لیے استعمال ہوتا ہے اور AWS ٹرینیم بنیاد پر مثالیں. یہ اینڈ ٹو اینڈ ایم ایل ڈیولپمنٹ لائف سائیکل کو نئے ماڈلز بنانے، ان ماڈلز کو تربیت دینے اور بہتر بنانے اور پیداوار کے لیے تعینات کرنے کے قابل بناتا ہے۔ AWS نیوران میں ایک گہری تعلیم شامل ہے۔ سنکلک, رن ٹائم، اور اوزار جو مقامی طور پر مشہور فریم ورک جیسے TensorFlow اور PyTorch کے ساتھ مربوط ہیں۔ اس بلاگ میں، ہم استعمال کرنے جا رہے ہیں۔ transformers-neuronx، جو ٹرانسفارمر ڈیکوڈر انفرنس ورک فلو کے لیے AWS نیورون SDK کا حصہ ہے۔ یہ کی حمایت کرتا ہے مشہور ماڈلز کی ایک رینج، بشمول Llama 2۔

پر ماڈلز کو تعینات کرنے کے لیے ایمیزون سیج میکر، ہم عام طور پر ایک کنٹینر استعمال کرتے ہیں جس میں مطلوبہ لائبریریاں ہوتی ہیں، جیسے نیوران SDK اور transformers-neuronx اس کے ساتھ ساتھ ماڈل سرونگ جزو۔ ایمیزون سیج میکر برقرار رکھتا ہے۔ گہری سیکھنے کے کنٹینرز (DLCs) بڑے ماڈلز کی میزبانی کے لیے مقبول اوپن سورس لائبریریوں کے ساتھ۔ اس پوسٹ میں، ہم استعمال کرتے ہیں نیوران کے لیے بڑا ماڈل انفرنس کنٹینر. اس کنٹینر میں وہ سب کچھ ہے جس کی آپ کو اپنے Llama 2 ماڈل کو Inf2 پر تعینات کرنے کی ضرورت ہے۔ ایمیزون سیج میکر پر ایل ایم آئی کے ساتھ شروع کرنے کے لیے وسائل کے لیے، براہ کرم ہماری بہت سی موجودہ پوسٹس کا حوالہ دیں (1 بلاگ, 2 بلاگ, 3 بلاگ) اس موضوع پر۔ مختصر میں، آپ بغیر کوئی اضافی کوڈ لکھے کنٹینر چلا سکتے ہیں۔ آپ استعمال کر سکتے ہیں۔ پہلے سے طے شدہ ہینڈلر ہموار صارف کے تجربے کے لیے اور معاون ماڈل کے ناموں اور کسی بھی لوڈ ٹائم کنفیگریبل پیرامیٹرز میں سے ایک میں پاس کریں۔ یہ ایک Inf2 مثال پر LLM کو مرتب اور پیش کرتا ہے۔ مثال کے طور پر تعینات کرنا OpenAssistant/llama2-13b-orca-8k-3319، آپ فالو کنفیگریشن فراہم کر سکتے ہیں (جیسے serving.properties فائل)۔ میں serving.properties، ہم ماڈل کی قسم کی وضاحت کرتے ہیں۔ llama2-13b-orca-8k-3319، بیچ کا سائز 4، ٹینسر کی متوازی ڈگری 2، اور بس۔ قابل ترتیب پیرامیٹرز کی مکمل فہرست کے لیے، رجوع کریں۔ DJL کنفیگریشن کے تمام اختیارات.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

متبادل طور پر، آپ اپنی ماڈل ہینڈلر فائل لکھ سکتے ہیں جیسا کہ اس میں دکھایا گیا ہے۔ مثال کے طور پر، لیکن اس کے لیے ماڈل لوڈنگ اور انفرنس کے طریقوں کو نافذ کرنے کی ضرورت ہوتی ہے تاکہ DJLServing APIs کے درمیان ایک پل کا کام کیا جا سکے۔

شرائط

مندرجہ ذیل فہرست اس بلاگ پوسٹ میں بیان کردہ ماڈل کی تعیناتی کے لیے ضروری شرائط بیان کرتی ہے۔ آپ یا تو سے لاگو کرسکتے ہیں۔ AWS مینجمنٹ کنسول یا کا تازہ ترین ورژن استعمال کرنا AWS کمانڈ لائن انٹرفیس (AWS CLI)۔

واک تھرو

درج ذیل سیکشن میں، ہم کوڈ کو دو حصوں میں واک تھرو کریں گے:

ایک Llama2-7b ماڈل کو ٹھیک کریں، اور ماڈل کے نمونے ایک مخصوص Amazon S3 بالٹی مقام پر اپ لوڈ کریں۔
Amazon SageMaker میں میزبان DJL سرونگ کنٹینر کا استعمال کرتے ہوئے ماڈل کو Inferentia2 میں تعینات کریں۔

ہدایات کے ساتھ مکمل کوڈ کے نمونے اس میں مل سکتے ہیں۔ GitHub کے ذخیرہ.

حصہ 1: PEFT کا استعمال کرتے ہوئے Llama2-7b ماڈل کو ٹھیک کریں۔

ہم کاغذ میں حال ہی میں متعارف کرایا گیا طریقہ استعمال کرنے جا رہے ہیں۔ QLoRA: زبان کی تخلیق کے لیے کوانٹائزیشن سے آگاہ لو رینک اڈاپٹر ٹیوننگ بذریعہ Tim Dettmers et al. QLoRA ایک نئی تکنیک ہے جس کی کارکردگی کو قربان کیے بغیر، فائن ٹیوننگ کے دوران بڑے لینگویج ماڈلز کے میموری فوٹ پرنٹ کو کم کیا جا سکتا ہے۔

نوٹ: مندرجہ ذیل میں دکھائے گئے llama2-7b ماڈل کی فائن ٹیوننگ کا تجربہ ایمیزون پر کیا گیا۔ سیج میکر اسٹوڈیو نوٹ بک Python 2.0 GPU آپٹمائزڈ کرنل کے ساتھ a کا استعمال کرتے ہوئے ml.g5.2xlarge مثال کی قسم. ایک بہترین عمل کے طور پر، ہم ایک استعمال کرنے کی تجویز کرتے ہیں۔ ایمیزون سیج میکر اسٹوڈیو انٹیگریٹڈ ڈیولپمنٹ انوائرنمنٹ (IDE) آپ کے اپنے طور پر شروع کیا گیا۔ ایمیزون ورچوئل پرائیویٹ کلاؤڈ (ایمیزون وی پی سی)۔ یہ آپ کو معیاری AWS نیٹ ورکنگ اور حفاظتی صلاحیتوں کا استعمال کرتے ہوئے اپنے VPC کے اندر اور باہر نیٹ ورک ٹریفک کو کنٹرول کرنے، مانیٹر کرنے اور ان کا معائنہ کرنے کی اجازت دیتا ہے۔ مزید معلومات کے لیے دیکھیں نجی وی پی سی کا استعمال کرتے ہوئے ایمیزون سیج میکر اسٹوڈیو کنیکٹیویٹی کو محفوظ بنانا.

بیس ماڈل کوانٹائز کریں۔

ہم سب سے پہلے 4 بٹ کوانٹائزیشن کا استعمال کرتے ہوئے ایک کوانٹائزڈ ماڈل لوڈ کرتے ہیں۔ گلے لگانے والے چہرے کے ٹرانسفارمرز لائبریری مندرجہ ذیل ہے:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

ٹریننگ ڈیٹاسیٹ لوڈ کریں۔

اگلا، ہم ماڈل کو فیڈ کرنے کے لیے ڈیٹاسیٹ کو لوڈ کرتے ہیں فائن ٹیوننگ قدم کے لیے مندرجہ ذیل دکھایا گیا ہے:

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

اڈاپٹر پرت منسلک کریں۔

یہاں ہم ایک چھوٹی، قابل تربیت اڈاپٹر پرت کو منسلک کرتے ہیں، جیسا کہ ترتیب دیا گیا ہے۔ LoraConfig گلے ملنے والے چہرے میں بیان کیا گیا ہے۔ peft لائبریری.

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

ایک ماڈل کو تربیت دیں۔

اوپر دکھائے گئے LoRA کنفیگریشن کا استعمال کرتے ہوئے، ہم Llama2 ماڈل کو ہائپر پیرامیٹرز کے ساتھ ٹھیک کریں گے۔ ماڈل کی تربیت کے لیے ایک کوڈ کا ٹکڑا درج ذیل میں دکھایا گیا ہے:

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

ماڈل کا وزن ضم کریں۔

اوپر دیے گئے فائن ٹیون ماڈل نے ایک نیا ماڈل بنایا جس میں تربیت یافتہ LoRA اڈاپٹر کے وزن شامل تھے۔ مندرجہ ذیل کوڈ کے ٹکڑوں میں، ہم اڈاپٹر کو بیس ماڈل کے ساتھ ملا دیں گے تاکہ ہم اندازہ لگانے کے لیے ٹھیک ٹیونڈ ماڈل کا استعمال کر سکیں۔

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

ایمیزون S3 پر ماڈل کا وزن اپ لوڈ کریں۔

حصہ 1 کے آخری مرحلے میں، ہم ضم شدہ ماڈل کے وزن کو ایک مخصوص Amazon S3 مقام پر محفوظ کریں گے۔ ماڈل کا وزن Amazon SageMaker میں ایک ماڈل سرونگ کنٹینر کے ذریعہ استعمال کیا جائے گا تاکہ ماڈل کی میزبانی Inferentia2 مثال کے طور پر کی جائے۔

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

حصہ 2: SageMaker LMI کنٹینر کا استعمال کرتے ہوئے AWS Inf2 کے ساتھ اندازہ لگانے کے لیے QLoRA ماڈل کی میزبانی کریں

اس سیکشن میں، ہم QLoRA فائن ٹیونڈ ماڈل کو Amazon SageMaker ہوسٹنگ ماحول میں تعینات کرنے کے مراحل سے گزریں گے۔ ہم استعمال کریں گے a DJL پیش کر رہا ہے۔ سیج میکر سے کنٹینر DLC، جو کے ساتھ ضم ہوتا ہے۔ ٹرانسفارمرز - نیورونکس اس ماڈل کی میزبانی کے لیے لائبریری۔ سیٹ اپ ماڈلز کو AWS Inferentia2 ایکسلریٹرز پر لوڈ کرنے میں سہولت فراہم کرتا ہے، ماڈل کو متعدد نیورون کورز پر متوازی بناتا ہے، اور HTTP اینڈ پوائنٹس کے ذریعے خدمت کو قابل بناتا ہے۔

نمونے کے نمونے تیار کریں۔

DJL بہت سی گہری سیکھنے کی اصلاح کی لائبریریوں کو سپورٹ کرتا ہے، بشمول ڈیپ اسپیڈ, تیز ٹرانسفارمر اور مزید. ماڈل مخصوص کنفیگریشنز کے لیے، ہم فراہم کرتے ہیں a serving.properties کلیدی پیرامیٹرز کے ساتھ، جیسے tensor_parallel_degree اور model_id ماڈل لوڈنگ کے اختیارات کی وضاحت کرنے کے لیے۔ دی model_id ایک Hugging Face ماڈل ID، یا Amazon S3 پاتھ ہو سکتا ہے جہاں ماڈل کے وزن کو محفوظ کیا جاتا ہے۔ ہماری مثال میں، ہم اپنے عمدہ ماڈل کا Amazon S3 مقام فراہم کرتے ہیں۔ درج ذیل کوڈ کا ٹکڑا ماڈل پیش کرنے کے لیے استعمال ہونے والی خصوصیات کو ظاہر کرتا ہے:

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

براہ کرم اس کا حوالہ دیں۔ دستاویزات کے ذریعے دستیاب قابل ترتیب اختیارات کے بارے میں مزید معلومات کے لیے serving.properties. براہ کرم نوٹ کریں کہ ہم استعمال کرتے ہیں۔ option.n_position=512 AWS نیوران کی تیز تر تالیف کے لیے اس بلاگ میں۔ اگر آپ بڑے ان پٹ ٹوکن کی لمبائی کو آزمانا چاہتے ہیں، تو ہم قاری کو تجویز کرتے ہیں کہ وہ ماڈل کو وقت سے پہلے پہلے سے مرتب کریں (دیکھیں EC2 پر AOT پری کمپائل ماڈل)۔ دوسری صورت میں، اگر تالیف کا وقت بہت زیادہ ہے تو آپ کو ٹائم آؤٹ کی غلطی کا سامنا کرنا پڑ سکتا ہے۔

کے بعد serving.properties فائل کی وضاحت کی گئی ہے، ہم فائل کو ایک میں پیک کریں گے۔ tar.gz فارمیٹ، مندرجہ ذیل:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

پھر، ہم tar.gz کو Amazon S3 بالٹی والے مقام پر اپ لوڈ کریں گے:

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

ایمیزون سیج میکر ماڈل اینڈ پوائنٹ بنائیں

خدمت کرنے کے لیے ایک Inf2 مثال استعمال کرنے کے لیے، ہم Amazon استعمال کرتے ہیں۔ سیج میکر ایل ایم آئی کنٹینر DJL نیورون ایکس سپورٹ کے ساتھ۔ براہ کرم اس کا حوالہ دیں۔ پوسٹ اندازہ کے لیے DJL NeuronX کنٹینر استعمال کرنے کے بارے میں مزید معلومات کے لیے۔ درج ذیل کوڈ سے پتہ چلتا ہے کہ Amazon SageMaker Python SDK کا استعمال کرتے ہوئے ماڈل کو کیسے تعینات کیا جائے:

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

ٹیسٹ ماڈل اینڈ پوائنٹ

ماڈل کے کامیابی کے ساتھ تعینات ہونے کے بعد، ہم پیشین گوئی کرنے والے کو نمونہ کی درخواست بھیج کر اختتامی نقطہ کی توثیق کر سکتے ہیں:

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

نمونہ آؤٹ پٹ مندرجہ ذیل کے طور پر دکھایا گیا ہے:

اعداد و شمار کے تجزیے کے تناظر میں، مشین لرننگ (ML) ایک شماریاتی تکنیک سے مراد ہے جو اعدادوشمار کے دائرہ کار کو تکراری طور پر کم کرتے ہوئے ایک بڑھتی ہوئی پیچیدگی اور درستگی کے ساتھ ڈیٹاسیٹ سے پیشین گوئی کی طاقت نکالنے کی صلاحیت رکھتی ہے۔

مشین لرننگ کوئی نئی شماریاتی تکنیک نہیں ہے، بلکہ موجودہ تکنیکوں کا مجموعہ ہے۔ مزید برآں، اسے کسی مخصوص ڈیٹاسیٹ کے ساتھ استعمال کرنے یا مخصوص نتیجہ پیدا کرنے کے لیے ڈیزائن نہیں کیا گیا ہے۔ بلکہ، اسے کسی بھی ڈیٹاسیٹ کے مطابق ڈھالنے اور کسی بھی نتائج کے بارے میں پیشین گوئیاں کرنے کے لیے کافی لچکدار ہونے کے لیے ڈیزائن کیا گیا تھا۔

صاف کرو

اگر آپ فیصلہ کرتے ہیں کہ آپ SageMaker اینڈ پوائنٹ کو مزید چلانا نہیں چاہتے ہیں، تو آپ اسے استعمال کرکے حذف کر سکتے ہیں۔ AWS SDK برائے Python (boto3)، AWS CLI یا Amazon SageMaker Console۔ اضافی طور پر ، آپ یہ بھی کر سکتے ہیں ایمیزون سیج میکر اسٹوڈیو وسائل کو بند کریں۔ جن کی مزید ضرورت نہیں ہے۔

نتیجہ

اس پوسٹ میں، ہم نے آپ کو دکھایا کہ Llama2-7b ماڈل کو 4 بٹ کوانٹائزیشن کے ساتھ LoRA اڈاپٹر کا استعمال کرتے ہوئے ایک GPU مثال کے ذریعے کیسے ٹھیک کیا جائے۔ پھر ہم نے ڈی جے ایل سرونگ کنٹینر کا استعمال کرتے ہوئے ایمیزون سیج میکر میں ہوسٹ کردہ ایک Inf2 مثال میں ماڈل کو تعینات کیا۔ آخر میں، ہم نے SageMaker Python SDK کا استعمال کرتے ہوئے ٹیکسٹ جنریشن کی پیشین گوئی کے ساتھ ایمیزون سیج میکر ماڈل اینڈ پوائنٹ کی توثیق کی۔ آگے بڑھیں اور اسے آزمائیں، ہمیں آپ کی رائے سننا پسند ہے۔ AWS Inferentia کے ساتھ مزید صلاحیتوں اور نئی ایجادات کے بارے میں اپ ڈیٹس کے لیے دیکھتے رہیں۔

AWS نیوران کے بارے میں مزید مثالوں کے لیے، دیکھیں aws-نیوران کے نمونے.

مصنفین کے بارے میں

وی تیہ AWS میں ایک سینئر AI/ML ماہر حل آرکیٹیکٹ ہے۔ وہ ایمیزون مشین لرننگ سروسز اور مشین لرننگ پر مبنی حل پر توجہ مرکوز کرتے ہوئے صارفین کو AWS کے سفر کو آگے بڑھانے میں مدد کرنے کا پرجوش ہے۔ کام سے باہر، وہ اپنے خاندان کے ساتھ کیمپنگ، ماہی گیری، اور پیدل سفر جیسی بیرونی سرگرمیوں سے لطف اندوز ہوتا ہے۔

Fine-tune Llama 2 using QLoRA and Deploy it on Amazon SageMaker with AWS Inferentia2 | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. چنگ وےمیں لی ایمیزون ویب سروسز میں مشین لرننگ کا ماہر ہے۔ انہوں نے پی ایچ ڈی کی ڈگری حاصل کی۔ آپریشنز ریسرچ میں جب اس نے اپنے مشیر کے ریسرچ گرانٹ اکاؤنٹ کو توڑا اور نوبل انعام دینے میں ناکام رہے جس کا اس نے وعدہ کیا تھا۔ فی الحال وہ مالیاتی خدمات اور انشورنس انڈسٹری میں صارفین کو AWS پر مشین لرننگ سلوشنز بنانے میں مدد کرتا ہے۔ اپنے فارغ وقت میں وہ پڑھنا اور پڑھانا پسند کرتے ہیں۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/fine-tune-llama-2-using-qlora-and-deploy-it-on-amazon-sagemaker-with-aws-inferentia2/

ٹائم اسٹیمپ: دسمبر 13، 2023

ٹائم اسٹیمپ: جون 28، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

AWS AI خدمات کے ساتھ ذہین دستاویز پروسیسنگ: حصہ 1

ایمیزون سیج میکر ماڈل متوازی اور ڈیٹا متوازی لائبریریوں کے ساتھ تقسیم شدہ تربیت اور موثر اسکیلنگ | ایمیزون ویب سروسز

AWS پر خودکار، توسیع پذیر، اور سرمایہ کاری مؤثر ML: ہوائی کے جنگلات میں ناگوار آسٹریلوی درختوں کے فرنز کا پتہ لگانا

ایمیزون کیندر کے لیے نئے ویب کرالر کا استعمال کرتے ہوئے اپنے ویب کرال کیے گئے مواد کی فہرست بنائیں ایمیزون ویب سروسز

AWS Inferentia اور AWS Trainium کے ساتھ Amazon SageMaker جمپ سٹارٹ میں لاما 2 ماڈلز کو فائن ٹیون اور لاگت سے لاگو کریں۔ ایمیزون ویب سروسز

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ