Llama2 और Amazon SageMaker का उपयोग करके LoRA फाइन-ट्यून मॉडल के लिए मॉडल प्रबंधन

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

बड़े डेटा और एआई के युग में, कंपनियां प्रतिस्पर्धात्मक बढ़त हासिल करने के लिए लगातार इन प्रौद्योगिकियों का उपयोग करने के तरीके तलाश रही हैं। एआई में इस समय सबसे लोकप्रिय क्षेत्रों में से एक जेनरेटिव एआई है, और अच्छे कारण से। जेनरेटिव एआई शक्तिशाली समाधान प्रदान करता है जो रचनात्मकता और नवीनता के मामले में जो संभव है उसकी सीमाओं को आगे बढ़ाता है। इन अत्याधुनिक समाधानों के मूल में एक फाउंडेशन मॉडल (एफएम) निहित है, जो एक अत्यधिक उन्नत मशीन लर्निंग मॉडल है जो विशाल मात्रा में डेटा पर पूर्व-प्रशिक्षित है। इनमें से कई फाउंडेशन मॉडल ने मानव-जैसे पाठ को समझने और उत्पन्न करने में उल्लेखनीय क्षमता दिखाई है, जिससे वे सामग्री निर्माण से लेकर ग्राहक सहायता स्वचालन तक विभिन्न अनुप्रयोगों के लिए एक मूल्यवान उपकरण बन गए हैं।

हालाँकि, ये मॉडल अपनी चुनौतियों से रहित नहीं हैं। वे असाधारण रूप से बड़े हैं और उन्हें प्रशिक्षित करने के लिए बड़ी मात्रा में डेटा और कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। इसके अतिरिक्त, प्रशिक्षण प्रक्रिया को अनुकूलित करना और मापदंडों को कैलिब्रेट करना एक जटिल और पुनरावृत्तीय प्रक्रिया हो सकती है, जिसके लिए विशेषज्ञता और सावधानीपूर्वक प्रयोग की आवश्यकता होती है। ये अपने स्वयं के फाउंडेशन मॉडल बनाने की चाहत रखने वाले कई संगठनों के लिए बाधाएं हो सकते हैं। इस चुनौती से निपटने के लिए, कई ग्राहक मौजूदा फाउंडेशन मॉडल को बेहतर बनाने पर विचार कर रहे हैं। यह मॉडल में पहले से एन्कोड किए गए ज्ञान को संरक्षित करते हुए विशिष्ट अनुप्रयोगों के लिए मॉडल मापदंडों के एक छोटे से हिस्से को समायोजित करने की एक लोकप्रिय तकनीक है। यह संगठनों को किसी विशिष्ट डोमेन या कार्य को अनुकूलित करने के लिए आवश्यक संसाधनों को कम करते हुए इन मॉडलों की शक्ति का उपयोग करने की अनुमति देता है।

फाउंडेशन मॉडल को फाइन-ट्यूनिंग करने के दो प्राथमिक दृष्टिकोण हैं: पारंपरिक फाइन-ट्यूनिंग और पैरामीटर-कुशल फाइन-ट्यूनिंग। पारंपरिक फाइन-ट्यूनिंग में एक विशिष्ट डाउनस्ट्रीम कार्य के लिए पूर्व-प्रशिक्षित मॉडल के सभी मापदंडों को अपडेट करना शामिल है। दूसरी ओर, पैरामीटर-कुशल फ़ाइन-ट्यूनिंग में विभिन्न प्रकार की तकनीकें शामिल होती हैं जो सभी मूल मॉडल मापदंडों को अपडेट किए बिना किसी मॉडल के अनुकूलन की अनुमति देती हैं। ऐसी ही एक तकनीक को लो-रैंक एडेप्टेशन (LoRA) कहा जाता है। इसमें पूर्व-प्रशिक्षित मॉडल में छोटे, कार्य-विशिष्ट मॉड्यूल जोड़ना और बाकी मापदंडों को स्थिर रखते हुए उन्हें प्रशिक्षित करना शामिल है जैसा कि निम्नलिखित छवि में दिखाया गया है।

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

स्रोत: AWS पर जेनरेटिव AI (ओ'रेली, 2023)

लोरा ने हाल ही में कई कारणों से लोकप्रियता हासिल की है। यह तेज़ प्रशिक्षण, कम मेमोरी आवश्यकताएं और कई डाउनस्ट्रीम कार्यों के लिए पूर्व-प्रशिक्षित मॉडल का पुन: उपयोग करने की क्षमता प्रदान करता है। इससे भी महत्वपूर्ण बात यह है कि बेस मॉडल और एडॉप्टर को अलग-अलग संग्रहीत किया जा सकता है और किसी भी समय संयोजित किया जा सकता है, जिससे फाइन-ट्यून किए गए संस्करणों को संग्रहीत करना, वितरित करना और साझा करना आसान हो जाता है। हालाँकि, यह एक नई चुनौती पेश करता है: इन नए प्रकार के परिष्कृत मॉडलों को ठीक से कैसे प्रबंधित किया जाए। क्या आपको बेस मॉडल और एडाप्टर को संयोजित करना चाहिए या उन्हें अलग रखना चाहिए? इस पोस्ट में, हम LoRA फाइन-ट्यून मॉडल के प्रबंधन के लिए सर्वोत्तम प्रथाओं के बारे में बात करेंगे अमेज़न SageMaker इस उभरते प्रश्न का समाधान करने के लिए।

सेजमेकर मॉडल रजिस्ट्री पर एफएम के साथ काम करना

इस पोस्ट में, हम QLoRA विधि का उपयोग करके Llama2 बड़े भाषा मॉडल (LLM) को ठीक करने के एक एंड-टू-एंड उदाहरण के माध्यम से चलते हैं। QLoRA किसी विशिष्ट कार्य या उपयोग के मामले में एफएम को ठीक करने के लिए आवश्यक संसाधनों को और कम करने के लिए 4-बिट/8-बिट परिमाणीकरण के साथ पैरामीटर कुशल फाइन-ट्यूनिंग के लाभों को जोड़ता है। इसके लिए, हम पूर्व-प्रशिक्षित 7 बिलियन पैरामीटर Llama2 मॉडल का उपयोग करेंगे और इसे डेटाब्रिक्स-डॉली-15k डेटासेट पर फाइन-ट्यून करेंगे। Llama2 जैसे LLM में अरबों पैरामीटर होते हैं और इन्हें बड़े पैमाने पर टेक्स्ट डेटासेट पर पूर्व-प्रशिक्षित किया जाता है। फ़ाइन-ट्यूनिंग एक छोटे डेटासेट का उपयोग करके एलएलएम को डाउनस्ट्रीम कार्य में अनुकूलित करती है। हालाँकि, बड़े मॉडलों को फाइन-ट्यूनिंग कम्प्यूटेशनल रूप से महंगा है। यही कारण है कि हम इस गणना लागत को कम करने के लिए फाइनट्यूनिंग के दौरान वजन को मापने के लिए QLoRA विधि का उपयोग करेंगे।

हमारे उदाहरणों में, आपको दो नोटबुक मिलेंगी (llm-finetune-combined-with-registry.ipynb और llm-finetune-separate-with-registry.ipynb). प्रत्येक लोआरए फाइन-ट्यून मॉडल को संभालने के लिए एक अलग तरीके से काम करता है जैसा कि निम्नलिखित चित्र में दिखाया गया है:

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

सबसे पहले, हम सेजमेकर स्टूडियो नोटबुक का उपयोग करके 2 बिलियन मापदंडों के साथ पूर्व-प्रशिक्षित Llama7 मॉडल डाउनलोड करते हैं। Llama2 जैसे एलएलएम ने डोमेन-विशिष्ट डेटा को ठीक करने पर प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्यों पर अत्याधुनिक प्रदर्शन दिखाया है।
इसके बाद, हम QLoRA विधि का उपयोग करके डेटाब्रिक्स-डॉली-2k डेटासेट पर Llama15 को फाइन-ट्यून करते हैं। QLoRA मॉडल भार को परिमाणित करके फाइन-ट्यूनिंग की कम्प्यूटेशनल लागत को कम करता है।
फाइन-ट्यूनिंग के दौरान, हम ग्रेडिएंट, लॉस आदि जैसे मेट्रिक्स को स्वचालित रूप से लॉग करने के लिए ट्रांसफॉर्मर्स एपीआई के साथ सेजमेकर एक्सपेरिमेंट्स प्लस को एकीकृत करते हैं।
फिर हम दो तरीकों का उपयोग करके सेजमेकर मॉडल रजिस्ट्री में फाइन-ट्यून किए गए Llama2 मॉडल का संस्करण बनाते हैं:
1. पूर्ण मॉडल का भंडारण
2. एडॉप्टर और बेस मॉडल को अलग-अलग संग्रहीत करना।
अंत में, हम सेजमेकर रीयल-टाइम एंडपॉइंट पर डीप जावा लाइब्रेरी (डीजेएल) सर्विंग का उपयोग करके फाइन-ट्यून किए गए Llama2 मॉडल की मेजबानी करते हैं।

निम्नलिखित अनुभागों में, हम विभिन्न एलएलएम वर्कफ़्लो के लिए सेजमेकर के लचीलेपन को प्रदर्शित करने के लिए इनमें से प्रत्येक चरण पर गहराई से विचार करेंगे और ये सुविधाएँ आपके मॉडलों के संचालन को बेहतर बनाने में कैसे मदद कर सकती हैं।

.. पूर्वापेक्षाएँ

कोड के साथ प्रयोग शुरू करने के लिए निम्नलिखित आवश्यक शर्तें पूरी करें।

बनाओ SageMaker स्टूडियो डोमेन: अमेज़ॅन सेजमेकर स्टूडियो, विशेष रूप से स्टूडियो नोटबुक, का उपयोग लामा2 फाइन-ट्यूनिंग कार्य को शुरू करने और फिर रजिस्टर करने और मॉडल देखने के लिए किया जाता है। SageMaker मॉडल रजिस्ट्री. SageMaker प्रयोग इसका उपयोग Llama2 फ़ाइन-ट्यूनिंग जॉब लॉग (प्रशिक्षण हानि/परीक्षण हानि/आदि) को देखने और तुलना करने के लिए भी किया जाता है।
अमेज़ॅन सिंपल स्टोरेज सर्विस (S3) बकेट बनाएं: प्रशिक्षण कलाकृतियों और मॉडल भार को संग्रहीत करने के लिए S3 बाल्टी तक पहुंच आवश्यक है। निर्देशों के लिए, देखें एक बाल्टी बनाना. इस पोस्ट के लिए उपयोग किया गया नमूना कोड सेजमेकर डिफ़ॉल्ट S3 बकेट का उपयोग करेगा लेकिन आप इसे किसी भी प्रासंगिक S3 बकेट का उपयोग करने के लिए अनुकूलित कर सकते हैं।
मॉडल संग्रह (आईएएम अनुमतियाँ) सेट करें: नीचे सूचीबद्ध संसाधन-समूहों की अनुमतियों के साथ अपनी सेजमेकर निष्पादन भूमिका को अपडेट करें मॉडल रजिस्ट्री संग्रह डेवलपर गाइड मॉडल संग्रह का उपयोग करके मॉडल रजिस्ट्री ग्रुपिंग को लागू करना।
Llama2 के लिए नियम और शर्तें स्वीकार करें: आपको Llama2 फाउंडेशन मॉडल का उपयोग करने के लिए अंतिम-उपयोगकर्ता लाइसेंस समझौते और स्वीकार्य उपयोग नीति को स्वीकार करना होगा।

उदाहरण इसमें उपलब्ध हैं गिटहब भंडार. नोटबुक फ़ाइलों का परीक्षण PyTorch 2.0.0 Python 3.10 GPU अनुकूलित कर्नेल और ml.g4dn.xlarge इंस्टेंस प्रकार पर चलने वाले स्टूडियो नोटबुक का उपयोग करके किया जाता है।

प्रयोग प्लस कॉलबैक एकीकरण

अमेज़न SageMaker प्रयोग आपको सेजमेकर पायथन एसडीके या बोटो3 का उपयोग करके स्थानीय ज्यूपिटर नोटबुक सहित किसी भी एकीकृत विकास वातावरण (आईडीई) से मशीन लर्निंग (एमएल) प्रयोगों और मॉडल संस्करणों को व्यवस्थित, ट्रैक, तुलना और मूल्यांकन करने की सुविधा देता है। यह आपके मॉडल मेट्रिक्स, पैरामीटर, फ़ाइलों, कलाकृतियों, प्लॉट चार्ट को विभिन्न मेट्रिक्स से लॉग करने, विभिन्न मेटाडेटा को कैप्चर करने, उनके माध्यम से खोजने और मॉडल प्रतिलिपि प्रस्तुत करने योग्यता का समर्थन करने की सुविधा प्रदान करता है। डेटा वैज्ञानिक विज़ुअल चार्ट और तालिकाओं के माध्यम से मॉडल मूल्यांकन के लिए प्रदर्शन और हाइपरपैरामीटर की तुरंत तुलना कर सकते हैं। वे बनाए गए चार्ट को डाउनलोड करने और अपने हितधारकों के साथ मॉडल मूल्यांकन साझा करने के लिए सेजमेकर प्रयोगों का भी उपयोग कर सकते हैं।

एलएलएम का प्रशिक्षण एक धीमी, महंगी और पुनरावृत्तीय प्रक्रिया हो सकती है। असंगत मॉडल ट्यूनिंग अनुभव को रोकने के लिए उपयोगकर्ता के लिए बड़े पैमाने पर एलएलएम प्रयोग को ट्रैक करना बहुत महत्वपूर्ण है। हगिंगफेस ट्रांसफार्मर एपीआई उपयोगकर्ताओं को प्रशिक्षण कार्यों के दौरान मेट्रिक्स को ट्रैक करने की अनुमति दें कॉलबैक. कॉलबैक "केवल पढ़ने के लिए" कोड के टुकड़े हैं जो PyTorch ट्रेनर में प्रशिक्षण लूप के व्यवहार को अनुकूलित कर सकते हैं जो प्रगति रिपोर्टिंग के लिए प्रशिक्षण लूप स्थिति का निरीक्षण कर सकते हैं, कस्टम लॉजिक के माध्यम से TensorBoard या SageMaker एक्सपेरिमेंट प्लस पर लॉग इन कर सकते हैं (जो एक भाग के रूप में शामिल है) इस कोडबेस का)।

आप इस पोस्ट के कोड रिपॉजिटरी में शामिल सेजमेकर एक्सपेरिमेंट्स कॉलबैक कोड को आयात कर सकते हैं जैसा कि निम्नलिखित कोड ब्लॉक में दिखाया गया है:

# imports a custom implementation of Experiments Callback
from smexperiments_callback import SageMakerExperimentsCallback
...
...
# Create Trainer instance with SageMaker experiments callback
trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=validation_dataset, data_collator=default_data_collator, callbacks=[SageMakerExperimentsCallback] # Add our Experiments Plus Callback function
)

यह कॉलबैक प्रशिक्षण रन के एक भाग के रूप में स्वचालित रूप से निम्नलिखित जानकारी को सेजमेकर प्रयोगों में लॉग करेगा:

प्रशिक्षण पैरामीटर्स और हाइपर-पैरामीटर्स
चरण, युग और अंतिम पर मॉडल प्रशिक्षण और सत्यापन हानि
मॉडल इनपुट और आउटपुट कलाकृतियाँ (प्रशिक्षण डेटासेट, सत्यापन डेटासेट, मॉडल आउटपुट स्थान, प्रशिक्षण डिबगर और बहुत कुछ)

निम्नलिखित ग्राफ़ उन चार्टों के उदाहरण दिखाता है जिन्हें आप उस जानकारी का उपयोग करके प्रदर्शित कर सकते हैं।

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

यह आपको सेजमेकर प्रयोगों की विश्लेषण सुविधा का उपयोग करके आसानी से कई रनों की तुलना करने की अनुमति देता है। आप उन प्रयोगों का चयन कर सकते हैं जिनकी आप तुलना करना चाहते हैं, और वे स्वचालित रूप से तुलना ग्राफ़ भर देंगे।

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

मॉडल रजिस्ट्री संग्रह में परिष्कृत मॉडल पंजीकृत करें

मॉडल रजिस्ट्री संग्रह की एक विशेषता है SageMaker मॉडल रजिस्ट्री यह आपको पंजीकृत मॉडलों को समूहीकृत करने की अनुमति देता है जो एक-दूसरे से संबंधित हैं और उन्हें बड़े पैमाने पर मॉडल खोज योग्यता में सुधार करने के लिए पदानुक्रम में व्यवस्थित करते हैं। बेस मॉडल और फाइन-ट्यून किए गए वेरिएंट पर नज़र रखने के लिए हम मॉडल रजिस्ट्री कलेक्शंस का उपयोग करेंगे।

पूर्ण मॉडल प्रतिलिपि विधि

पहली विधि बेस मॉडल और LoRA एडाप्टर को जोड़ती है और पूर्ण फाइन-ट्यून मॉडल को सहेजती है। निम्नलिखित कोड मॉडल विलय प्रक्रिया को दिखाता है और संयुक्त मॉडल का उपयोग करके सहेजता है model.save_pretrained().

if args.merge_weights: trainer.model.save_pretrained(temp_dir, safe_serialization=False) # clear memory del model del trainer torch.cuda.empty_cache() from peft import AutoPeftModelForCausalLM # load PEFT model in fp16 model = AutoPeftModelForCausalLM.from_pretrained( temp_dir, low_cpu_mem_usage=True, torch_dtype=torch.float16, ) # Merge LoRA and base model and save model = model.merge_and_unload() model.save_pretrained( args.sm_model_dir, safe_serialization=True, max_shard_size="2GB" )

फ़ाइन-ट्यूनिंग के बाद LoRA एडाप्टर और बेस मॉडल को एक एकल मॉडल आर्टिफैक्ट में संयोजित करने के फायदे और नुकसान हैं। संयुक्त मॉडल स्व-निहित है और इसे मूल आधार मॉडल की आवश्यकता के बिना स्वतंत्र रूप से प्रबंधित और तैनात किया जा सकता है। मॉडल को बेस मॉडल और फाइन-ट्यूनिंग डेटा को प्रतिबिंबित करने वाले संस्करण नाम के साथ अपनी इकाई के रूप में ट्रैक किया जा सकता है। हम इसका उपयोग करके एक नामकरण अपना सकते हैं base_model_name + सुव्यवस्थित dataset_name मॉडल समूहों को व्यवस्थित करना। वैकल्पिक रूप से, मॉडल संग्रह मूल और सुव्यवस्थित मॉडल को संबद्ध कर सकते हैं, लेकिन यह आवश्यक नहीं हो सकता है क्योंकि संयुक्त मॉडल स्वतंत्र है। निम्नलिखित कोड स्निपेट आपको दिखाता है कि फाइन-ट्यून किए गए मॉडल को कैसे पंजीकृत किया जाए।

# Model Package Group Vars
ft_package_group_name = f"{model_id.replace('/', '--')}-{dataset_name}"
ft_package_group_desc = "QLoRA for model Mikael110/llama-2-7b-{dataset_name}-fp16"
...
...
...
model_package_group_input_dict = { "ModelPackageGroupName" : ft_package_group_name, "ModelPackageGroupDescription" : ft_package_group_desc, "Tags": ft_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
)

आप मॉडल को मॉडल रजिस्ट्री में पंजीकृत करने के लिए प्रशिक्षण अनुमानक का उपयोग कर सकते हैं।

inference_image_uri = sagemaker.image_uris.retrieve( "djl-deepspeed", region=region, version="0.23.0"
)
print(f"Image going to be used is ---- > {inference_image_uri}") model_package = huggingface_estimator.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ...
...
... ], image_uri = inference_image_uri, customer_metadata_properties = {"training-image-uri": huggingface_estimator.training_image_uri()}, #Store the training image url model_package_group_name=ft_model_pkg_group_name, approval_status="Approved"
) model_package_arn = model_package.model_package_arn
print("Model Package ARN : ", model_package_arn)

मॉडल रजिस्ट्री से, आप मॉडल पैकेज पुनर्प्राप्त कर सकते हैं और उस मॉडल को सीधे तैनात कर सकते हैं।

endpoint_name = f"{name_from_base(model_group_for_base)}-endpoint" model_package.deploy( initial_instance_count=1, instance_type="ml.g5.12xlarge", endpoint_name=endpoint_name
)

हालाँकि, इस दृष्टिकोण में कमियाँ हैं। मॉडलों के संयोजन से भंडारण अक्षमता और अतिरेक होता है क्योंकि आधार मॉडल प्रत्येक फाइन-ट्यून किए गए संस्करण में दोहराया जाता है। जैसे-जैसे मॉडल का आकार और फाइन-ट्यून किए गए मॉडल की संख्या बढ़ती है, इससे भंडारण की जरूरतें तेजी से बढ़ती हैं। उदाहरण के तौर पर llama2 7b मॉडल को लेते हुए, बेस मॉडल लगभग 13 जीबी है और फाइन-ट्यून मॉडल 13.6 जीबी है। प्रत्येक फाइन ट्यूनिंग के बाद 96% प्रतिशत मॉडल को डुप्लिकेट करने की आवश्यकता होती है। इसके अतिरिक्त, बहुत बड़ी मॉडल फ़ाइलों को वितरित करना और साझा करना भी अधिक कठिन हो जाता है और परिचालन संबंधी चुनौतियाँ प्रस्तुत करता है क्योंकि बढ़ते मॉडल आकार और फाइन-ट्यून नौकरियों के साथ फ़ाइल स्थानांतरण और प्रबंधन लागत बढ़ जाती है।

एडॉप्टर और आधार विधि को अलग करें

दूसरी विधि बेस वेट और एडॉप्टर वेट को अलग-अलग मॉडल घटकों के रूप में सहेजकर और उन्हें रनटाइम पर क्रमिक रूप से लोड करके अलग करने पर केंद्रित है।

 .. .. .. else: # save finetuned LoRA model and then the tokenizer for inference trainer.model.save_pretrained( args.sm_model_dir, safe_serialization=True ) tokenizer.save_pretrained( args.sm_model_dir )

फुल मॉडल कॉपी विधि के समान, बेस और एडॉप्टर वज़न को सहेजने के फायदे और नुकसान हैं। एक फायदा यह है कि यह भंडारण स्थान बचा सकता है। बेस वेट, जो एक फाइन-ट्यून मॉडल का सबसे बड़ा घटक है, केवल एक बार सहेजा जाता है और अन्य एडाप्टर वेट के साथ पुन: उपयोग किया जा सकता है जो विभिन्न कार्यों के लिए ट्यून किए जाते हैं। उदाहरण के लिए, Llama2-7B का बेस वजन लगभग 13 जीबी है, लेकिन प्रत्येक फाइन-ट्यूनिंग कार्य के लिए केवल 0.6 जीबी एडॉप्टर वजन स्टोर करने की आवश्यकता होती है, जो 95% स्थान की बचत है। एक अन्य लाभ यह है कि बेस वेट को केवल बेस वेट मॉडल रजिस्ट्री का उपयोग करके एडॉप्टर वेट से अलग से प्रबंधित किया जा सकता है। यह सेजमेकर डोमेन के लिए उपयोगी हो सकता है जो इंटरनेट गेटवे के बिना केवल वीपीसी मोड में चल रहे हैं, क्योंकि बेस वेट को इंटरनेट से गुजरे बिना एक्सेस किया जा सकता है।

आधार भार के लिए मॉडल पैकेज समूह बनाएं

### Create Model Package Group
base_package_group_name = model_id.replace('/', '--')
base_package_group_desc = "Source: https://huggingface.co/Mikael110/llama-2-7b-guanaco-fp16"
...
...
...
model_package_group_input_dict = { "ModelPackageGroupName" : base_package_group_name, "ModelPackageGroupDescription" : base_package_group_desc, "Tags": base_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
) >>>
Created ModelPackageGroup Arn : arn:aws:sagemaker:us-west-2:376678947624:model-package-group/Mikael110--llama-2-7b-guanaco-fp16
...
...
... ### Register Base Model Weights
from sagemaker.huggingface import HuggingFaceModel # create Hugging Face Model Class
huggingface_model = HuggingFaceModel( transformers_version='4.28', pytorch_version='2.0', py_version='py310', model_data=model_data_uri, # this is an S3 path to your base weights as *.tar.gz role=role,
) _response = huggingface_model.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ... ], transform_instances=[ "ml.p2.16xlarge", ... ], model_package_group_name=base_model_pkg_group_name, approval_status="Approved" )

QLoRA भार के लिए मॉडल पैकेज समूह बनाएं

निम्नलिखित कोड दिखाता है कि QLoRA वेट को डेटासेट/कार्य प्रकार के साथ कैसे टैग किया जाए और एक अलग मॉडल रजिस्ट्री में फाइन-ट्यून किए गए डेल्टा वेट को पंजीकृत किया जाए और डेल्टा वेट को अलग से ट्रैक किया जाए।

### Create Model Package Group for delta weights
ft_package_group_name = f"{model_id.replace('/', '--')}-finetuned-sql"
ft_package_group_desc = "QLoRA for model Mikael110/llama-2-7b-guanaco-fp16"
ft_tags = [ { "Key": "modelType", "Value": "QLoRAModel" }, { "Key": "fineTuned", "Value": "True" }, { "Key": "sourceDataset", "Value": f"{dataset_name}" }
]
model_package_group_input_dict = { "ModelPackageGroupName" : ft_package_group_name, "ModelPackageGroupDescription" : ft_package_group_desc, "Tags": ft_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
)
print(f'Created ModelPackageGroup Arn : {create_model_pacakge_group_response["ModelPackageGroupArn"]}')
ft_model_pkg_group_name = create_model_pacakge_group_response["ModelPackageGroupArn"] >>> Created ModelPackageGroup Arn : arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql ...
...
... ### Register Delta Weights QLoRA Model Weights
huggingface_model = HuggingFaceModel( transformers_version='4.28', pytorch_version='2.0', py_version='py310', model_data="s3://sagemaker-us-east-1-811828458885/huggingface-qlora-2308180454/output/model.tar.gz", OR #huggingface_estimator.model_data role=role,
) _response = huggingface_model.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ... ], transform_instances=[ "ml.p2.16xlarge", ... ], model_package_group_name=ft_model_pkg_group_name, approval_status="Approved"
) >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql'], 'failure': []}

निम्नलिखित स्निपेट मॉडल रजिस्ट्री का एक दृश्य दिखाता है जहां मॉडल को आधार और ठीक-ठीक वजन में विभाजित किया गया है।

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

हाइपर-वैयक्तिकृत एलएलएम के लिए मॉडल, डेटासेट और कार्यों को प्रबंधित करना जल्दी ही भारी पड़ सकता है। सेजमेकर मॉडल रजिस्ट्री संग्रह मॉडल खोज योग्यता में सुधार के लिए आपको संबंधित मॉडलों को एक साथ समूहित करने और उन्हें एक पदानुक्रम में व्यवस्थित करने में मदद मिल सकती है। इससे बेस वेट, एडॉप्टर वेट और फाइन-ट्यूनिंग कार्य डेटासेट के बीच संबंधों को ट्रैक करना आसान हो जाता है। आप मॉडलों के बीच जटिल संबंध और संबंध भी बना सकते हैं।

एक नया संग्रह बनाएं और इस संग्रह में अपना बेस मॉडल वजन जोड़ें

# create model collection
base_collection = model_collector.create( collection_name=model_group_for_base # ex: "Website_Customer_QnA_Bot_Model"
) # Add the base weights at first level of model collections as all future models # are going to be tuned from the base weights
_response = model_collector.add_model_groups( collection_name=base_collection["Arn"], model_groups=[base_model_pkg_group_name]
)
print(f"Model collection creation status: {_response}") >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-west-2:376678947624:model-package-group/Mikael110--llama-2-7b-guanaco-fp16'], 'failure': []}

कार्य और/या डेटासेट द्वारा अपने सभी फाइन-ट्यून्ड लोरा एडाप्टर डेल्टा वेट को इस संग्रह से लिंक करें

# create model collection for finetuned and link it back to the base
finetuned_collection = model_collector.create( collection_name=model_group_for_finetune, parent_collection_name=model_group_for_base
) # add finetuned model package group to the new finetuned collection
_response = model_collector.add_model_groups( collection_name=model_group_for_finetune, model_groups=[ft_model_pkg_group_name]
)
print(f"Model collection creation status: {_response}") >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql'], 'failure': []}

इसका परिणाम एक संग्रह पदानुक्रम होगा जो मॉडल/कार्य प्रकार और बेस मॉडल को ठीक करने के लिए उपयोग किए जाने वाले डेटासेट से जुड़ा हुआ है।

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

बेस और एडॉप्टर मॉडल को अलग करने की इस विधि में कुछ कमियां हैं। एक कमी मॉडल को तैनात करने में जटिलता है। चूँकि दो अलग-अलग मॉडल कलाकृतियाँ हैं, इसलिए आपको सीधे मॉडल रजिस्ट्री से तैनात करने के बजाय मॉडल को दोबारा पैकेज करने के लिए अतिरिक्त चरणों की आवश्यकता है। निम्नलिखित कोड उदाहरण में, पहले बेस मॉडल का नवीनतम संस्करण डाउनलोड करें और दोबारा पैक करें।

!aws s3 cp {base_model_package.model_data} . !tar -xvf {model_tar_filename} -C ./deepspeed/ !mv ./deepspeed/{model_id} ./deepspeed/base !rm -rf ./deepspeed/{model_id}

फिर नवीनतम फाइन-ट्यून किए गए LoRA एडाप्टर वेट को डाउनलोड करें और दोबारा पैक करें।

!aws s3 cp {LoRA_package.model_data} . !mkdir -p ./deepspeed/lora/ !tar -xzf model.tar.gz -C ./deepspeed/lora/

चूंकि आप मॉडल को होस्ट करने के लिए डीपस्पीड के साथ डीजेएल सर्विंग का उपयोग करेंगे, इसलिए आपकी अनुमान निर्देशिका निम्नलिखित की तरह दिखनी चाहिए।

deepspeed |-serving.properties |-requirements.txt |-model.py |-base/ |-... |-lora/ |-...

अंत में, परिनियोजन के लिए कस्टम अनुमान कोड, बेस मॉडल और LoRA एडाप्टर को एक .tar.gz फ़ाइल में पैकेज करें।

!rm -f model.tar.gz
!tar czvf model.tar.gz -C deepspeed .
s3_code_artifact_deepspeed = sagemaker_session.upload_data("model.tar.gz", default_bucket, f"{s3_key_prefix}/inference")
print(f"S3 Code or Model tar for deepspeed uploaded to --- > {s3_code_artifact_deepspeed}")

क्लीन अप

नोटबुक के सफ़ाई अनुभाग में दिए गए निर्देशों का पालन करके अपने संसाधनों को साफ़ करें। को देखें अमेज़न SageMaker मूल्य निर्धारण अनुमान उदाहरणों की लागत के विवरण के लिए।

निष्कर्ष

इस पोस्ट ने आपको अमेज़ॅन सेजमेकर पर लोरा फाइन-ट्यून मॉडल के प्रबंधन के लिए सर्वोत्तम प्रथाओं के बारे में बताया। हमने दो मुख्य तरीकों को कवर किया: बेस और एडॉप्टर वज़न को एक स्व-निहित मॉडल में संयोजित करना, और बेस और एडॉप्टर वज़न को अलग करना। दोनों दृष्टिकोणों में ट्रेडऑफ़ हैं, लेकिन वज़न को अलग करने से भंडारण को अनुकूलित करने में मदद मिलती है और सेजमेकर मॉडल रजिस्ट्री कलेक्शन जैसी उन्नत मॉडल प्रबंधन तकनीकों को सक्षम किया जा सकता है। यह आपको संगठन और खोज योग्यता में सुधार के लिए मॉडलों के बीच पदानुक्रम और संबंध बनाने की अनुमति देता है। हम आपको नमूना कोड आज़माने के लिए प्रोत्साहित करते हैं गिटहब भंडार इन विधियों का स्वयं प्रयोग करें। जैसे-जैसे जेनरेटिव एआई तेजी से प्रगति कर रहा है, मॉडल प्रबंधन की सर्वोत्तम प्रथाओं का पालन करने से आपको प्रयोगों को ट्रैक करने, अपने कार्य के लिए सही मॉडल ढूंढने और बड़े पैमाने पर विशेष एलएलएम को कुशलतापूर्वक प्रबंधित करने में मदद मिलेगी।

संदर्भ

लेखक के बारे में

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. जेम्स वू एडब्ल्यूएस में वरिष्ठ एआई/एमएल विशेषज्ञ समाधान वास्तुकार हैं। ग्राहकों को एआई/एमएल समाधान डिजाइन और निर्माण में मदद करना। जेम्स के काम में एमएल उपयोग के मामलों की एक विस्तृत श्रृंखला शामिल है, जिसमें प्राथमिक रुचि कंप्यूटर विज़न, डीप लर्निंग और पूरे उद्यम में एमएल स्केलिंग है। एडब्ल्यूएस में शामिल होने से पहले, जेम्स इंजीनियरिंग में 10 साल और मार्केटिंग और विज्ञापन उद्योगों में 6 साल सहित 4 से अधिक वर्षों के लिए एक वास्तुकार, डेवलपर और प्रौद्योगिकी नेता थे।

प्रणव मूर्ति AWS में AI/ML स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। वह ग्राहकों को मशीन लर्निंग (एमएल) वर्कलोड को सेजमेकर में बनाने, प्रशिक्षित करने, तैनात करने और स्थानांतरित करने में मदद करने पर ध्यान केंद्रित करता है। उन्होंने पहले सेमीकंडक्टर उद्योग में सेमीकंडक्टर प्रक्रियाओं को बेहतर बनाने के लिए बड़े कंप्यूटर विज़न (सीवी) और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) मॉडल विकसित करने में काम किया था। अपने खाली समय में वह शतरंज खेलना और यात्रा करना पसंद करते हैं।

Model management for LoRA fine-tuned models using Llama2 and Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. मेकित गुनगोर AWS में एक AI/ML स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है, जो ग्राहकों को बड़े पैमाने पर AI/ML सॉल्यूशंस डिजाइन और बनाने में मदद करता है। वह दूरसंचार ग्राहकों के लिए एआई/एमएल उपयोग के मामलों की एक विस्तृत श्रृंखला को कवर करता है और वर्तमान में जेनरेटिव एआई, एलएलएम और प्रशिक्षण और अनुमान अनुकूलन पर ध्यान केंद्रित करता है। उसे अक्सर जंगल में लंबी पैदल यात्रा करते या अपने खाली समय में अपने दोस्तों के साथ बोर्ड गेम खेलते हुए देखा जा सकता है।

शेल्बी आइजेनब्रोड Amazon Web Services (AWS) में प्रिंसिपल AI और मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। वह कई उद्योगों, प्रौद्योगिकियों और भूमिकाओं में फैले 24 वर्षों से प्रौद्योगिकी में है। वह वर्तमान में अपने DevOps और ML पृष्ठभूमि को MLOps के डोमेन में संयोजित करने पर ध्यान केंद्रित कर रही है ताकि ग्राहकों को बड़े पैमाने पर ML वर्कलोड वितरित करने और प्रबंधित करने में मदद मिल सके। विभिन्न प्रौद्योगिकी डोमेन में 35 से अधिक पेटेंट दिए जाने के साथ, उन्हें निरंतर नवाचार और व्यावसायिक परिणामों को चलाने के लिए डेटा का उपयोग करने का जुनून है। शेल्बी कौरसेरा पर प्रैक्टिकल डेटा साइंस विशेषज्ञता के सह-निर्माता और प्रशिक्षक हैं। वह डेनवर चैप्टर में वीमेन इन बिग डेटा (वाईबीडी) की सह-निदेशक भी हैं। अपने खाली समय में, वह अपने परिवार, दोस्तों और अति सक्रिय कुत्तों के साथ समय बिताना पसंद करती है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/model-management-for-lora-fine-tuned-models-using-llama2-and-amazon-sagemaker/

समय टिकट: नवम्बर 14/2023

समय टिकट: मार्च 1, 2024

प्लेटो द्वारा पुनर्प्रकाशित

AWS मीडिया इंटेलिजेंस और हगिंग फेस का उपयोग करके टैक्सोनॉमी-आधारित प्रासंगिक लक्ष्यीकरण बनाएं BERT

AWS Inferentia का उपयोग करके विलंबता को कम करते हुए और थ्रूपुट को बढ़ाते हुए बाइटडांस अनुमान लागत पर 60% तक की बचत करता है

अमेज़ॅन कॉम्प्रिहेंशन के लिए पीडीएफ प्री-लेबलिंग को स्वचालित करें | अमेज़न वेब सेवाएँ

हगिंग फेस और अमेज़ॅन सेजमेकर एसिंक्रोनस इंट्रेंस एंडपॉइंट्स के साथ उच्च-मूल्य वाले अनुसंधान में सुधार करें

C6i Intel-आधारित Amazon EC2 उदाहरणों के साथ Amazon SageMaker के अनुमान को गति दें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा