Llama2 اور Amazon SageMaker کا استعمال کرتے ہوئے LoRA فائن ٹیونڈ ماڈلز کے لیے ماڈل مینجمنٹ

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

بڑے ڈیٹا اور AI کے دور میں، کمپنیاں مسلسل مسابقتی برتری حاصل کرنے کے لیے ان ٹیکنالوجیز کو استعمال کرنے کے طریقے تلاش کر رہی ہیں۔ اس وقت AI میں سب سے زیادہ گرم علاقوں میں سے ایک جنریٹو AI ہے، اور اچھی وجہ سے۔ جنریٹو اے آئی طاقتور حل پیش کرتا ہے جو تخلیقی صلاحیتوں اور اختراعات کے لحاظ سے ممکنہ حدوں کو آگے بڑھاتا ہے۔ ان جدید حلوں کے مرکز میں ایک فاؤنڈیشن ماڈل (FM) ہے، جو ایک انتہائی جدید مشین لرننگ ماڈل ہے جو کہ ڈیٹا کی وسیع مقدار پر پہلے سے تربیت یافتہ ہے۔ ان میں سے بہت سے فاؤنڈیشن ماڈلز نے انسان نما متن کو سمجھنے اور تخلیق کرنے میں قابل ذکر صلاحیت کا مظاہرہ کیا ہے، جس سے وہ مواد کی تخلیق سے لے کر کسٹمر سپورٹ آٹومیشن تک مختلف قسم کی ایپلی کیشنز کے لیے ایک قابل قدر ٹول بنتے ہیں۔

تاہم، یہ ماڈل ان کے چیلنجوں کے بغیر نہیں ہیں. وہ غیر معمولی طور پر بڑے ہیں اور تربیت کے لیے بڑی مقدار میں ڈیٹا اور کمپیوٹیشنل وسائل کی ضرورت ہوتی ہے۔ مزید برآں، تربیتی عمل کو بہتر بنانا اور پیرامیٹرز کو کیلیبریٹ کرنا ایک پیچیدہ اور تکراری عمل ہوسکتا ہے، جس میں مہارت اور محتاط تجربہ کی ضرورت ہوتی ہے۔ یہ بہت سی تنظیموں کے لیے رکاوٹیں ہو سکتی ہیں جو اپنے فاؤنڈیشن ماڈل بنانا چاہتے ہیں۔ اس چیلنج پر قابو پانے کے لیے، بہت سے صارفین موجودہ فاؤنڈیشن ماڈلز کو ٹھیک کرنے پر غور کر رہے ہیں۔ یہ مخصوص ایپلی کیشنز کے لیے ماڈل پیرامیٹرز کے ایک چھوٹے سے حصے کو ایڈجسٹ کرنے کے لیے ایک مشہور تکنیک ہے جب کہ ماڈل میں پہلے سے انکوڈ شدہ علم کو محفوظ رکھتے ہوئے یہ تنظیموں کو ان ماڈلز کی طاقت کو استعمال کرنے کی اجازت دیتا ہے جبکہ کسی مخصوص ڈومین یا کام کو اپنی مرضی کے مطابق بنانے کے لیے درکار وسائل کو کم کرتا ہے۔

فائن ٹیوننگ فاؤنڈیشن ماڈلز کے لیے دو بنیادی طریقے ہیں: روایتی فائن ٹیوننگ اور پیرامیٹر سے موثر فائن ٹیوننگ۔ روایتی فائن ٹیوننگ میں ایک مخصوص بہاو کام کے لیے پہلے سے تربیت یافتہ ماڈل کے تمام پیرامیٹرز کو اپ ڈیٹ کرنا شامل ہے۔ دوسری طرف، پیرامیٹر سے موثر فائن ٹیوننگ میں متعدد تکنیکیں شامل ہیں جو ماڈل کے تمام اصل پیرامیٹرز کو اپ ڈیٹ کیے بغیر اپنی مرضی کے مطابق کرنے کی اجازت دیتی ہیں۔ ایسی ہی ایک تکنیک کو لو رینک اڈاپٹیشن (LoRA) کہا جاتا ہے۔ اس میں پہلے سے تربیت یافتہ ماڈل میں چھوٹے، کام کے لیے مخصوص ماڈیولز شامل کرنا اور باقی پیرامیٹرز کو طے کرتے ہوئے ان کی تربیت کرنا شامل ہے جیسا کہ درج ذیل تصویر میں دکھایا گیا ہے۔

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ماخذ: AWS پر جنریٹو AI (O'Reilly, 2023)

LoRA نے حال ہی میں کئی وجوہات کی بنا پر مقبولیت حاصل کی ہے۔ یہ تیز تر تربیت، یادداشت کے تقاضوں میں کمی، اور متعدد بہاوی کاموں کے لیے پہلے سے تربیت یافتہ ماڈلز کو دوبارہ استعمال کرنے کی صلاحیت پیش کرتا ہے۔ مزید اہم بات یہ ہے کہ بیس ماڈل اور اڈاپٹر کو الگ الگ ذخیرہ کیا جا سکتا ہے اور کسی بھی وقت یکجا کیا جا سکتا ہے، جس سے فائن ٹیونڈ ورژن کو ذخیرہ کرنا، تقسیم کرنا اور شیئر کرنا آسان ہو جاتا ہے۔ تاہم، یہ ایک نیا چیلنج پیش کرتا ہے: ان نئی اقسام کے فائن ٹیونڈ ماڈلز کا صحیح طریقے سے انتظام کیسے کریں۔ کیا آپ کو بیس ماڈل اور اڈاپٹر کو یکجا کرنا چاہئے یا انہیں الگ رکھنا چاہئے؟ اس پوسٹ میں، ہم LoRA فائن ٹیونڈ ماڈلز کے نظم و نسق کے لیے بہترین طریقوں سے گزرتے ہیں۔ ایمیزون سیج میکر اس ابھرتے ہوئے سوال کو حل کرنے کے لیے۔

سیج میکر ماڈل رجسٹری پر ایف ایم کے ساتھ کام کرنا

اس پوسٹ میں، ہم QLoRA طریقہ استعمال کرتے ہوئے Llama2 لارج لینگویج ماڈل (LLM) کو فائن ٹیون کرنے کی ایک اینڈ ٹو اینڈ مثال کے ذریعے چلتے ہیں۔ QLoRA پیرامیٹر کی موثر فائن ٹیوننگ کے فوائد کو 4-bit/8-bit کوانٹائزیشن کے ساتھ جوڑتا ہے تاکہ FM کو کسی خاص کام یا استعمال کے معاملے میں ٹھیک کرنے کے لیے درکار وسائل کو مزید کم کیا جا سکے۔ اس کے لیے، ہم پہلے سے تربیت یافتہ 7 بلین پیرامیٹر Llama2 ماڈل استعمال کریں گے اور اسے databricks-dolly-15k ڈیٹاسیٹ پر ٹھیک کریں گے۔ Llama2 جیسے LLMs میں اربوں پیرامیٹرز ہوتے ہیں اور بڑے پیمانے پر ٹیکسٹ ڈیٹا سیٹس پر پہلے سے تربیت یافتہ ہوتے ہیں۔ فائن ٹیوننگ ایک چھوٹے ڈیٹاسیٹ کا استعمال کرتے ہوئے LLM کو نیچے دھارے کے کام میں ڈھال لیتی ہے۔ تاہم، بڑے ماڈلز کو فائن ٹیوننگ کمپیوٹیشنل طور پر مہنگا ہے۔ یہی وجہ ہے کہ ہم اس حسابی لاگت کو کم کرنے کے لیے فائن ٹیوننگ کے دوران وزن کو کوانٹائز کرنے کے لیے QLoRA طریقہ استعمال کریں گے۔

ہماری مثالوں میں، آپ کو دو نوٹ بک ملیں گی (llm-finetune-combined-with-registry.ipynb اور llm-finetune-separate-with-registry.ipynb)۔ ہر ایک LoRA فائن ٹیونڈ ماڈلز کو ہینڈل کرنے کے لیے مختلف طریقے سے کام کرتا ہے جیسا کہ مندرجہ ذیل خاکہ میں دکھایا گیا ہے۔

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

سب سے پہلے، ہم SageMaker Studio Notebooks کا استعمال کرتے ہوئے 2 بلین پیرامیٹرز کے ساتھ پہلے سے تربیت یافتہ Llama7 ماڈل ڈاؤن لوڈ کرتے ہیں۔ LLMs، جیسے Llama2، نے قدرتی لینگویج پروسیسنگ (NLP) کے کاموں پر جدید ترین کارکردگی دکھائی ہے جب ڈومین کے مخصوص ڈیٹا کو ٹھیک بنایا گیا ہے۔
اس کے بعد، ہم QLoRA طریقہ استعمال کرتے ہوئے ڈیٹابرکس-ڈولی-2k ڈیٹاسیٹ پر Llama15 کو ٹھیک بناتے ہیں۔ QLoRA ماڈل وزن کی مقدار کو کم کر کے فائن ٹیوننگ کی کمپیوٹیشنل لاگت کو کم کرتا ہے۔
فائن ٹیوننگ کے دوران، ہم SageMaker Experiments Plus کو Transformers API کے ساتھ مربوط کرتے ہیں تاکہ گریڈینٹ، نقصان وغیرہ جیسے میٹرکس کو خودکار طور پر لاگ کیا جا سکے۔
اس کے بعد ہم دو طریقوں کا استعمال کرتے ہوئے سیج میکر ماڈل رجسٹری میں فائن ٹیونڈ لاما 2 ماڈل کا ورژن بناتے ہیں:
1. مکمل ماڈل کو ذخیرہ کرنا
2. اڈاپٹر اور بیس ماڈل کو الگ الگ ذخیرہ کرنا۔
آخر میں، ہم سیج میکر ریئل ٹائم اینڈ پوائنٹ پر ڈیپ جاوا لائبریری (DJL) سرونگ کا استعمال کرتے ہوئے فائن ٹیونڈ Llama2 ماڈلز کی میزبانی کرتے ہیں۔

مندرجہ ذیل حصوں میں، ہم مختلف LLM ورک فلو کے لیے SageMaker کی لچک کو ظاہر کرنے کے لیے ان میں سے ہر ایک مرحلے میں گہرائی میں جائیں گے اور یہ کہ یہ خصوصیات آپ کے ماڈلز کے کام کو بہتر بنانے میں کس طرح مدد کر سکتی ہیں۔

شرائط

کوڈ کے ساتھ تجربہ شروع کرنے کے لیے درج ذیل شرائط کو مکمل کریں۔

ایک تخلیق کریں سیج میکر اسٹوڈیو ڈومین: ایمیزون سیج میکر اسٹوڈیو، خاص طور پر اسٹوڈیو نوٹ بکس، کو Llama2 فائن ٹیوننگ کے کام کو شروع کرنے کے لیے استعمال کیا جاتا ہے اور پھر اندراج اور ماڈلز کو دیکھنے کے لیے سیج میکر ماڈل رجسٹری. سیج میکر کے تجربات Llama2 فائن ٹیوننگ جاب لاگ (ٹریننگ نقصان/ٹیسٹ نقصان/وغیرہ) کو دیکھنے اور موازنہ کرنے کے لیے بھی استعمال کیا جاتا ہے۔
ایک Amazon Simple Storage Service (S3) بالٹی بنائیں: تربیتی نمونے اور ماڈل وزن کو ذخیرہ کرنے کے لیے S3 بالٹی تک رسائی درکار ہے۔ ہدایات کے لیے، رجوع کریں۔ ایک بالٹی بنانا. اس پوسٹ کے لیے استعمال کردہ نمونہ کوڈ SageMaker ڈیفالٹ S3 بالٹی استعمال کرے گا لیکن آپ اسے کسی بھی متعلقہ S3 بالٹی کو استعمال کرنے کے لیے اپنی مرضی کے مطابق بنا سکتے ہیں۔
ماڈل کلیکشنز (IAM پرمیشنز) مرتب کریں: اپنے سیج میکر ایگزیکیوشن رول کو اپ ڈیٹ کریں جیسا کہ ذیل میں درج ہے ریسورس گروپس کی اجازت کے ساتھ ماڈل رجسٹری کلیکشن ڈیولپر گائیڈ ماڈل کلیکشنز کا استعمال کرتے ہوئے ماڈل رجسٹری گروپنگ کو لاگو کرنے کے لیے۔
Llama2 کے لیے شرائط و ضوابط قبول کریں: آپ کو Llama2 فاؤنڈیشن ماڈل استعمال کرنے کے لیے اختتامی صارف کے لائسنس کے معاہدے اور قابل قبول استعمال کی پالیسی کو قبول کرنے کی ضرورت ہوگی۔

مثالیں میں دستیاب ہیں۔ GitHub ذخیرہ. PyTorch 2.0.0 Python 3.10 GPU آپٹمائزڈ کرنل اور ml.g4dn.xlarge مثال کی قسم پر چلنے والی سٹوڈیو نوٹ بک کا استعمال کرتے ہوئے نوٹ بک فائلوں کی جانچ کی جاتی ہے۔

تجربات کے علاوہ کال بیک انضمام

ایمیزون سیج میکر کے تجربات آپ کو SageMaker Python SDK یا boto3 کا استعمال کرتے ہوئے، کسی بھی مربوط ترقیاتی ماحول (IDE) سے مشین لرننگ (ML) تجربات اور ماڈل ورژنز کو منظم، ٹریک، موازنہ اور جائزہ لینے دیتا ہے۔ یہ آپ کے ماڈل میٹرکس، پیرامیٹرز، فائلز، آرٹفیکٹس، مختلف میٹرکس سے پلاٹ چارٹس کو لاگ کرنے، مختلف میٹا ڈیٹا کیپچر کرنے، ان کے ذریعے تلاش کرنے اور ماڈل کی تولیدی صلاحیت کو سپورٹ کرنے کی لچک فراہم کرتا ہے۔ ڈیٹا سائنسدان بصری چارٹس اور ٹیبلز کے ذریعے ماڈل کی تشخیص کے لیے کارکردگی اور ہائپر پیرامیٹر کا تیزی سے موازنہ کر سکتے ہیں۔ وہ بنائے گئے چارٹس کو ڈاؤن لوڈ کرنے اور ماڈل کی تشخیص کو اپنے اسٹیک ہولڈرز کے ساتھ شیئر کرنے کے لیے SageMaker Experiments کا استعمال بھی کر سکتے ہیں۔

ایل ایل ایم کی تربیت ایک سست، مہنگا اور تکراری عمل ہو سکتا ہے۔ ماڈل ٹیوننگ کے متضاد تجربے کو روکنے کے لیے صارف کے لیے ایل ایل ایم کے تجربات کو پیمانے پر ٹریک کرنا بہت ضروری ہے۔ HuggingFace Transformer APIs صارفین کو تربیتی کاموں کے دوران میٹرکس کو ٹریک کرنے کی اجازت دیتا ہے۔ کال بیکس. کال بیکس "صرف پڑھنے والے" کوڈ کے ٹکڑے ہوتے ہیں جو PyTorch ٹرینر میں ٹریننگ لوپ کے رویے کو اپنی مرضی کے مطابق بنا سکتے ہیں جو پروگریس رپورٹنگ کے لیے ٹریننگ لوپ کی حالت کا معائنہ کر سکتے ہیں، TensorBoard یا SageMaker Experiments Plus پر کسٹم لاجک کے ذریعے لاگ ان کر سکتے ہیں (جو ایک حصے کے طور پر شامل ہے۔ اس کوڈ بیس کا)۔

آپ اس پوسٹ کے کوڈ ریپوزٹری میں شامل SageMaker Experiments کال بیک کوڈ کو درآمد کر سکتے ہیں جیسا کہ درج ذیل کوڈ بلاک میں دکھایا گیا ہے۔

# imports a custom implementation of Experiments Callback
from smexperiments_callback import SageMakerExperimentsCallback
...
...
# Create Trainer instance with SageMaker experiments callback
trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=validation_dataset, data_collator=default_data_collator, callbacks=[SageMakerExperimentsCallback] # Add our Experiments Plus Callback function
)

یہ کال بیک ٹریننگ رن کے ایک حصے کے طور پر درج ذیل معلومات کو SageMaker Experiments میں خود بخود لاگ کر دے گا۔

تربیتی پیرامیٹرز اور ہائپر پیرامیٹرز
مرحلہ، عہد اور فائنل میں ماڈل ٹریننگ اور توثیق کا نقصان
ماڈل ان پٹ اور آؤٹ پٹ نمونے (ٹریننگ ڈیٹاسیٹ، توثیق ڈیٹاسیٹ، ماڈل آؤٹ پٹ لوکیشن، ٹریننگ ڈیبگر اور مزید)

مندرجہ ذیل گراف ان چارٹس کی مثالیں دکھاتا ہے جو آپ اس معلومات کو استعمال کرکے دکھا سکتے ہیں۔

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

یہ آپ کو SageMaker Experiments کی Analyze خصوصیت کا استعمال کرتے ہوئے آسانی سے متعدد رنز کا موازنہ کرنے کی اجازت دیتا ہے۔ آپ ان تجرباتی رنز کو منتخب کر سکتے ہیں جن کا آپ موازنہ کرنا چاہتے ہیں، اور وہ خود بخود موازنہ گراف کو آباد کر دیں گے۔

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ماڈل رجسٹری کلیکشنز میں ٹھیک ٹیونڈ ماڈلز رجسٹر کریں۔

ماڈل رجسٹری کے مجموعے۔ کی ایک خصوصیت ہے سیج میکر ماڈل رجسٹری جو آپ کو ان رجسٹرڈ ماڈلز کو گروپ کرنے کی اجازت دیتا ہے جو ایک دوسرے سے متعلق ہیں اور انہیں درجہ بندی میں ترتیب دیتے ہیں تاکہ پیمانے پر ماڈل کی دریافت کو بہتر بنایا جا سکے۔ ہم ماڈل رجسٹری کلیکشنز کا استعمال بیس ماڈل اور فائن ٹیونڈ ویریئنٹس پر نظر رکھنے کے لیے کریں گے۔

مکمل ماڈل کاپی طریقہ

پہلا طریقہ بیس ماڈل اور LoRA اڈاپٹر کو یکجا کرتا ہے اور مکمل فائن ٹیونڈ ماڈل کو محفوظ کرتا ہے۔ مندرجہ ذیل کوڈ ماڈل کے انضمام کے عمل کی وضاحت کرتا ہے اور استعمال کرتے ہوئے مشترکہ ماڈل کو بچاتا ہے۔ model.save_pretrained().

if args.merge_weights: trainer.model.save_pretrained(temp_dir, safe_serialization=False) # clear memory del model del trainer torch.cuda.empty_cache() from peft import AutoPeftModelForCausalLM # load PEFT model in fp16 model = AutoPeftModelForCausalLM.from_pretrained( temp_dir, low_cpu_mem_usage=True, torch_dtype=torch.float16, ) # Merge LoRA and base model and save model = model.merge_and_unload() model.save_pretrained( args.sm_model_dir, safe_serialization=True, max_shard_size="2GB" )

فائن ٹیوننگ کے بعد LoRA اڈاپٹر اور بیس ماڈل کو سنگل ماڈل آرٹفیکٹ میں ملانے کے فوائد اور نقصانات ہیں۔ مشترکہ ماڈل خود ساختہ ہے اور اسے اصل بیس ماڈل کی ضرورت کے بغیر آزادانہ طور پر منظم اور تعینات کیا جا سکتا ہے۔ ماڈل کو اس کی اپنی ہستی کے طور پر ٹریک کیا جا سکتا ہے جس کے ورژن کے نام سے بیس ماڈل اور فائن ٹیوننگ ڈیٹا کی عکاسی ہوتی ہے۔ ہم استعمال کرتے ہوئے ایک نام اپنا سکتے ہیں۔ base_model_name + ٹھیک ٹیونڈ dataset_name ماڈل گروپس کو منظم کرنا۔ اختیاری طور پر، ماڈل کے مجموعے اصل اور عمدہ ماڈلز کو جوڑ سکتے ہیں، لیکن یہ ضروری نہیں ہو سکتا کیونکہ مشترکہ ماڈل آزاد ہے۔ درج ذیل کوڈ کا ٹکڑا آپ کو دکھاتا ہے کہ فائن ٹیونڈ ماڈل کو کیسے رجسٹر کیا جائے۔

# Model Package Group Vars
ft_package_group_name = f"{model_id.replace('/', '--')}-{dataset_name}"
ft_package_group_desc = "QLoRA for model Mikael110/llama-2-7b-{dataset_name}-fp16"
...
...
...
model_package_group_input_dict = { "ModelPackageGroupName" : ft_package_group_name, "ModelPackageGroupDescription" : ft_package_group_desc, "Tags": ft_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
)

آپ ماڈل کو ماڈل رجسٹری میں رجسٹر کرنے کے لیے تربیتی تخمینہ لگانے والے کا استعمال کر سکتے ہیں۔

inference_image_uri = sagemaker.image_uris.retrieve( "djl-deepspeed", region=region, version="0.23.0"
)
print(f"Image going to be used is ---- > {inference_image_uri}") model_package = huggingface_estimator.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ...
...
... ], image_uri = inference_image_uri, customer_metadata_properties = {"training-image-uri": huggingface_estimator.training_image_uri()}, #Store the training image url model_package_group_name=ft_model_pkg_group_name, approval_status="Approved"
) model_package_arn = model_package.model_package_arn
print("Model Package ARN : ", model_package_arn)

ماڈل رجسٹری سے، آپ ماڈل پیکیج کو بازیافت کر سکتے ہیں اور اس ماڈل کو براہ راست تعینات کر سکتے ہیں۔

endpoint_name = f"{name_from_base(model_group_for_base)}-endpoint" model_package.deploy( initial_instance_count=1, instance_type="ml.g5.12xlarge", endpoint_name=endpoint_name
)

تاہم، اس نقطہ نظر میں خرابیاں ہیں. ماڈلز کو یکجا کرنے سے اسٹوریج کی ناکامی اور فالتو پن کا باعث بنتا ہے کیونکہ بیس ماڈل کو ہر فائن ٹیونڈ ورژن میں ڈپلیکیٹ کیا جاتا ہے۔ جیسا کہ ماڈل کا سائز اور عمدہ ماڈلز کی تعداد میں اضافہ ہوتا ہے، یہ اسٹوریج کی ضروریات کو تیزی سے بڑھاتا ہے۔ مثال کے طور پر llama2 7b ماڈل کو لے کر، بیس ماڈل تقریباً 13 GB ہے اور فائن ٹیونڈ ماڈل 13.6 GB ہے۔ ہر باریک ٹیوننگ کے بعد 96 فیصد ماڈل کو ڈپلیکیٹ کرنے کی ضرورت ہے۔ مزید برآں، بہت بڑی ماڈل فائلوں کو تقسیم کرنا اور ان کا اشتراک کرنا بھی مشکل ہو جاتا ہے اور آپریشنل چیلنجز پیش کرتا ہے کیونکہ فائل ٹرانسفر اور مینجمنٹ لاگت بڑھتی ہوئی ماڈل سائز اور فائن ٹیون جابز کے ساتھ بڑھ جاتی ہے۔

الگ اڈاپٹر اور بنیاد طریقہ

دوسرا طریقہ بنیادی وزن اور اڈاپٹر کے وزن کو الگ الگ ماڈل کے اجزاء کے طور پر محفوظ کرکے اور رن ٹائم پر ترتیب وار لوڈ کرنے پر توجہ مرکوز کرتا ہے۔

 .. .. .. else: # save finetuned LoRA model and then the tokenizer for inference trainer.model.save_pretrained( args.sm_model_dir, safe_serialization=True ) tokenizer.save_pretrained( args.sm_model_dir )

بیس اور اڈاپٹر کے وزن کو بچانے کے فوائد اور نقصانات ہیں، مکمل ماڈل کاپی طریقہ کی طرح۔ ایک فائدہ یہ ہے کہ یہ اسٹوریج کی جگہ بچا سکتا ہے۔ بیس وزن، جو کہ ایک عمدہ ماڈل کا سب سے بڑا جزو ہے، صرف ایک بار محفوظ کیا جاتا ہے اور دوسرے اڈاپٹر وزنوں کے ساتھ دوبارہ استعمال کیا جا سکتا ہے جو مختلف کاموں کے لیے بنائے جاتے ہیں۔ مثال کے طور پر، Llama2-7B کا بنیادی وزن تقریباً 13 GB ہے، لیکن ہر فائن ٹیوننگ ٹاسک کے لیے صرف 0.6 GB اڈاپٹر کے وزن کو ذخیرہ کرنے کی ضرورت ہے، جو کہ 95% خلائی بچت ہے۔ ایک اور فائدہ یہ ہے کہ بیس وزن کو اڈاپٹر کے وزن سے الگ کرکے صرف ماڈل رجسٹری کا استعمال کرتے ہوئے منظم کیا جاسکتا ہے۔ یہ SageMaker ڈومینز کے لیے مفید ہو سکتا ہے جو انٹرنیٹ گیٹ وے کے بغیر صرف VPC موڈ میں چل رہے ہیں، کیونکہ بنیادی وزن تک انٹرنیٹ کے ذریعے جانے کے بغیر رسائی حاصل کی جا سکتی ہے۔

بیس وزن کے لیے ماڈل پیکیج گروپ بنائیں

### Create Model Package Group
base_package_group_name = model_id.replace('/', '--')
base_package_group_desc = "Source: https://huggingface.co/Mikael110/llama-2-7b-guanaco-fp16"
...
...
...
model_package_group_input_dict = { "ModelPackageGroupName" : base_package_group_name, "ModelPackageGroupDescription" : base_package_group_desc, "Tags": base_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
) >>>
Created ModelPackageGroup Arn : arn:aws:sagemaker:us-west-2:376678947624:model-package-group/Mikael110--llama-2-7b-guanaco-fp16
...
...
... ### Register Base Model Weights
from sagemaker.huggingface import HuggingFaceModel # create Hugging Face Model Class
huggingface_model = HuggingFaceModel( transformers_version='4.28', pytorch_version='2.0', py_version='py310', model_data=model_data_uri, # this is an S3 path to your base weights as *.tar.gz role=role,
) _response = huggingface_model.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ... ], transform_instances=[ "ml.p2.16xlarge", ... ], model_package_group_name=base_model_pkg_group_name, approval_status="Approved" )

QLoRA وزن کے لیے ماڈل پیکیج گروپ بنائیں

مندرجہ ذیل کوڈ دکھاتا ہے کہ QLoRA وزن کو ڈیٹاسیٹ/ٹاسک کی قسم کے ساتھ کیسے ٹیگ کیا جائے اور فائن ٹیونڈ ڈیلٹا ویٹ کو علیحدہ ماڈل رجسٹری میں رجسٹر کریں اور ڈیلٹا ویٹ کو الگ سے ٹریک کریں۔

### Create Model Package Group for delta weights
ft_package_group_name = f"{model_id.replace('/', '--')}-finetuned-sql"
ft_package_group_desc = "QLoRA for model Mikael110/llama-2-7b-guanaco-fp16"
ft_tags = [ { "Key": "modelType", "Value": "QLoRAModel" }, { "Key": "fineTuned", "Value": "True" }, { "Key": "sourceDataset", "Value": f"{dataset_name}" }
]
model_package_group_input_dict = { "ModelPackageGroupName" : ft_package_group_name, "ModelPackageGroupDescription" : ft_package_group_desc, "Tags": ft_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
)
print(f'Created ModelPackageGroup Arn : {create_model_pacakge_group_response["ModelPackageGroupArn"]}')
ft_model_pkg_group_name = create_model_pacakge_group_response["ModelPackageGroupArn"] >>> Created ModelPackageGroup Arn : arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql ...
...
... ### Register Delta Weights QLoRA Model Weights
huggingface_model = HuggingFaceModel( transformers_version='4.28', pytorch_version='2.0', py_version='py310', model_data="s3://sagemaker-us-east-1-811828458885/huggingface-qlora-2308180454/output/model.tar.gz", OR #huggingface_estimator.model_data role=role,
) _response = huggingface_model.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ... ], transform_instances=[ "ml.p2.16xlarge", ... ], model_package_group_name=ft_model_pkg_group_name, approval_status="Approved"
) >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql'], 'failure': []}

مندرجہ ذیل ٹکڑا ماڈل رجسٹری کا ایک منظر دکھاتا ہے جہاں ماڈلز کو بیس اور عمدہ وزن میں تقسیم کیا گیا ہے۔

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ہائپر پرسنلائزڈ LLMs کے لیے ماڈلز، ڈیٹا سیٹس، اور کاموں کا نظم کرنا تیزی سے زبردست ہو سکتا ہے۔ سیج میکر ماڈل رجسٹری کے مجموعے۔ آپ کو متعلقہ ماڈلز کو ایک ساتھ گروپ کرنے اور ماڈل کی دریافت کو بہتر بنانے کے لیے درجہ بندی میں ترتیب دینے میں مدد کر سکتا ہے۔ یہ بنیادی وزن، اڈاپٹر وزن، اور فائن ٹیوننگ ٹاسک ڈیٹاسیٹس کے درمیان تعلقات کو ٹریک کرنا آسان بناتا ہے۔ آپ ماڈلز کے درمیان پیچیدہ تعلقات اور روابط بھی بنا سکتے ہیں۔

ایک نیا مجموعہ بنائیں اور اس مجموعہ میں اپنے بنیادی ماڈل کے وزن شامل کریں۔

# create model collection
base_collection = model_collector.create( collection_name=model_group_for_base # ex: "Website_Customer_QnA_Bot_Model"
) # Add the base weights at first level of model collections as all future models # are going to be tuned from the base weights
_response = model_collector.add_model_groups( collection_name=base_collection["Arn"], model_groups=[base_model_pkg_group_name]
)
print(f"Model collection creation status: {_response}") >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-west-2:376678947624:model-package-group/Mikael110--llama-2-7b-guanaco-fp16'], 'failure': []}

اپنے تمام فائن ٹیونڈ LoRA اڈاپٹر ڈیلٹا وزن کو ٹاسک اور/یا ڈیٹاسیٹ کے ذریعے اس مجموعہ سے لنک کریں

# create model collection for finetuned and link it back to the base
finetuned_collection = model_collector.create( collection_name=model_group_for_finetune, parent_collection_name=model_group_for_base
) # add finetuned model package group to the new finetuned collection
_response = model_collector.add_model_groups( collection_name=model_group_for_finetune, model_groups=[ft_model_pkg_group_name]
)
print(f"Model collection creation status: {_response}") >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql'], 'failure': []}

اس کے نتیجے میں مجموعہ کا درجہ بندی ہو گی جو ماڈل/ٹاسک کی قسم اور بیس ماڈل کو ٹھیک کرنے کے لیے استعمال ہونے والے ڈیٹاسیٹ سے منسلک ہے۔

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

بیس اور اڈاپٹر ماڈل کو الگ کرنے کے اس طریقے میں کچھ خرابیاں ہیں۔ ایک خرابی ماڈل کی تعیناتی میں پیچیدگی ہے۔ چونکہ ماڈل کے دو الگ الگ نمونے ہیں، آپ کو ماڈل رجسٹری سے براہ راست تعینات کرنے کے بجائے ماڈل کو دوبارہ پیک کرنے کے لیے اضافی اقدامات کی ضرورت ہے۔ درج ذیل کوڈ کی مثال میں، پہلے بیس ماڈل کے تازہ ترین ورژن کو ڈاؤن لوڈ اور دوبارہ پیک کریں۔

!aws s3 cp {base_model_package.model_data} . !tar -xvf {model_tar_filename} -C ./deepspeed/ !mv ./deepspeed/{model_id} ./deepspeed/base !rm -rf ./deepspeed/{model_id}

پھر تازہ ترین فائن ٹیونڈ LoRA اڈاپٹر کے وزن کو ڈاؤن لوڈ اور دوبارہ پیک کریں۔

!aws s3 cp {LoRA_package.model_data} . !mkdir -p ./deepspeed/lora/ !tar -xzf model.tar.gz -C ./deepspeed/lora/

چونکہ آپ ماڈل کی میزبانی کے لیے ڈیپ اسپیڈ کے ساتھ ڈی جے ایل سرونگ کا استعمال کریں گے، اس لیے آپ کی انفرنس ڈائرکٹری کو درج ذیل کی طرح نظر آنا چاہیے۔

deepspeed |-serving.properties |-requirements.txt |-model.py |-base/ |-... |-lora/ |-...

آخر میں، کسٹم انفرنس کوڈ، بیس ماڈل، اور LoRA اڈاپٹر کو ایک ہی .tar.gz فائل میں تعیناتی کے لیے پیک کریں۔

!rm -f model.tar.gz
!tar czvf model.tar.gz -C deepspeed .
s3_code_artifact_deepspeed = sagemaker_session.upload_data("model.tar.gz", default_bucket, f"{s3_key_prefix}/inference")
print(f"S3 Code or Model tar for deepspeed uploaded to --- > {s3_code_artifact_deepspeed}")

صاف کرو

نوٹ بک کے کلین اپ سیکشن میں دی گئی ہدایات پر عمل کرکے اپنے وسائل کو صاف کریں۔ کا حوالہ دیتے ہیں ایمیزون سیج میکر قیمتوں کا تعین قیاس کی مثالوں کی قیمت کے بارے میں تفصیلات کے لیے۔

نتیجہ

اس پوسٹ نے آپ کو ایمیزون سیج میکر پر LoRA فائن ٹیونڈ ماڈلز کے انتظام کے بہترین طریقوں سے آگاہ کیا۔ ہم نے دو اہم طریقوں کا احاطہ کیا: بیس اور اڈاپٹر کے وزن کو ایک خود ساختہ ماڈل میں ملانا، اور بیس اور اڈاپٹر کے وزن کو الگ کرنا۔ دونوں طریقوں میں تجارت ہے، لیکن وزن کو الگ کرنے سے اسٹوریج کو بہتر بنانے میں مدد ملتی ہے اور SageMaker ماڈل رجسٹری کلیکشن جیسی جدید ماڈل مینجمنٹ تکنیکوں کو قابل بناتا ہے۔ یہ آپ کو تنظیم اور دریافت کو بہتر بنانے کے لیے ماڈلز کے درمیان درجہ بندی اور تعلقات استوار کرنے کی اجازت دیتا ہے۔ ہم آپ کو نمونہ کوڈ پر آزمانے کی ترغیب دیتے ہیں۔ GitHub ذخیرہ خود ان طریقوں کے ساتھ تجربہ کرنے کے لئے. جیسا کہ جنریٹو AI تیزی سے ترقی کرتا ہے، ماڈل مینجمنٹ کے بہترین طریقوں کی پیروی کرنے سے آپ کو تجربات کو ٹریک کرنے، اپنے کام کے لیے صحیح ماڈل تلاش کرنے، اور مخصوص LLMs کو بڑے پیمانے پر موثر طریقے سے منظم کرنے میں مدد ملے گی۔

حوالہ جات

مصنفین کے بارے میں

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. جیمز وو AWS میں ایک سینئر AI/ML ماہر حل آرکیٹیکٹ ہے۔ AI/ML سلوشنز کو ڈیزائن اور بنانے میں صارفین کی مدد کرنا۔ جیمز کا کام ایم ایل کے استعمال کے کیسز کی ایک وسیع رینج پر محیط ہے، جس میں کمپیوٹر ویژن، گہری سیکھنے، اور پورے انٹرپرائز میں ایم ایل کی پیمائش میں بنیادی دلچسپی ہے۔ AWS میں شامل ہونے سے پہلے، جیمز 10 سال سے زائد عرصے تک ایک معمار، ڈویلپر، اور ٹیکنالوجی لیڈر تھے، جس میں 6 سال انجینئرنگ اور 4 سال مارکیٹنگ اور اشتہاری صنعتوں میں شامل تھے۔

پرناو مورتی AWS میں ایک AI/ML ماہر حل آرکیٹیکٹ ہے۔ وہ صارفین کو مشین لرننگ (ML) کام کے بوجھ کو SageMaker پر بنانے، تربیت دینے، تعینات کرنے اور منتقل کرنے میں مدد کرنے پر توجہ مرکوز کرتا ہے۔ اس نے پہلے سیمی کنڈکٹر انڈسٹری میں کام کیا جو سیمی کنڈکٹر کے عمل کو بہتر بنانے کے لیے بڑے کمپیوٹر وژن (CV) اور قدرتی زبان کی پروسیسنگ (NLP) ماڈل تیار کرتا ہے۔ اپنے فارغ وقت میں وہ شطرنج کھیلنا اور سفر کرنا پسند کرتا ہے۔

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. میکٹ گنگور AWS میں ایک AI/ML سپیشلسٹ سولیوشن آرکیٹیکٹ ہے جو صارفین کو پیمانے پر AI/ML سلوشنز کو ڈیزائن اور بنانے میں مدد کرتا ہے۔ وہ ٹیلی کمیونیکیشن صارفین کے لیے AI/ML کے استعمال کے کیسز کی ایک وسیع رینج کا احاطہ کرتا ہے اور فی الحال جنریٹو AI، LLMs، اور ٹریننگ اور انفرنس آپٹیمائزیشن پر توجہ مرکوز کرتا ہے۔ وہ اکثر جنگل میں پیدل سفر کرتے ہوئے یا اپنے فارغ وقت میں اپنے دوستوں کے ساتھ بورڈ گیمز کھیلتے ہوئے پایا جا سکتا ہے۔

شیلبی ایگن بروڈ ایمیزون ویب سروسز (AWS) میں ایک پرنسپل AI اور مشین لرننگ اسپیشلسٹ سولیوشن آرکیٹیکٹ ہیں۔ وہ متعدد صنعتوں، ٹیکنالوجیز اور کرداروں پر محیط 24 سالوں سے ٹیکنالوجی میں ہے۔ وہ فی الحال اپنے DevOps اور ML پس منظر کو MLOps کے ڈومین میں یکجا کرنے پر توجہ مرکوز کر رہی ہے تاکہ صارفین کو ML ورک بوجھ کو پیمانے پر ڈیلیور کرنے اور ان کا نظم کرنے میں مدد مل سکے۔ مختلف ٹکنالوجی ڈومینز میں 35 سے زیادہ پیٹنٹس کی منظوری کے ساتھ، وہ مسلسل جدت طرازی اور کاروباری نتائج کو آگے بڑھانے کے لیے ڈیٹا کے استعمال کا جنون رکھتی ہے۔ Shelbee Coursera پر پریکٹیکل ڈیٹا سائنس کی تخصص کی شریک تخلیق کار اور انسٹرکٹر ہے۔ وہ بگ ڈیٹا (WiBD)، ڈینور چیپٹر میں خواتین کی کو-ڈائریکٹر بھی ہیں۔ اپنے فارغ وقت میں، وہ اپنے خاندان، دوستوں اور زیادہ فعال کتوں کے ساتھ وقت گزارنا پسند کرتی ہے۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/model-management-for-lora-fine-tuned-models-using-llama2-and-amazon-sagemaker/

ٹائم اسٹیمپ: نومبر 14، 2023

ٹائم اسٹیمپ: 4 فرمائے، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

اپنے Amazon Recognition Custom Labels ماڈل کو بہتر بنانے کے لیے تجاویز

ڈیٹا ورژن کنٹرول اور Amazon SageMaker تجربات کے ساتھ اپنے ML تجربات کو آخر سے آخر تک ٹریک کریں۔

AWS اور Amazon SageMaker پر Kubeflow کا استعمال کرتے ہوئے لچکدار اور توسیع پذیر تقسیم شدہ تربیتی فن تعمیرات بنائیں

Amazon Forecast کے ساتھ پیشن گوئی کرنے کے لیے مخصوص اوقات کا انتخاب کریں۔

تخلیقی AI صلاحیتوں کے ساتھ Amazon Connect اور Lex کو بہتر بنائیں | ایمیزون ویب سروسز

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ