कस्टम डेटा पर ओपन सोर्स एलएलएम मॉडल को फाइन-ट्यूनिंग करने के लिए गाइड

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

परिचय

मुझे यकीन है कि आपमें से अधिकांश ने ChatGPT के बारे में सुना होगा और अपने प्रश्नों के उत्तर देने के लिए इसे आज़माया होगा! क्या आपने कभी सोचा है कि हुड के नीचे क्या होता है? यह ओपन एआई द्वारा विकसित एक बड़े भाषा मॉडल जीपीटी-3 द्वारा संचालित है। इन बड़े भाषा मॉडल, जिन्हें अक्सर एलएलएम कहा जाता है, ने कई संभावनाओं को खोल दिया है प्राकृतिक भाषा संसाधन.

बड़े भाषा मॉडल क्या हैं?

एलएलएम मॉडल को भारी मात्रा में टेक्स्ट डेटा पर प्रशिक्षित किया जाता है, जो उन्हें मानव भाषा को अर्थ और संदर्भ के साथ समझने में सक्षम बनाता है। पहले, अधिकांश मॉडलों को पर्यवेक्षित दृष्टिकोण का उपयोग करके प्रशिक्षित किया गया था, जहां हम इनपुट सुविधाओं और संबंधित लेबलों को फीड करते हैं। इसके विपरीत, एलएलएम को बिना पर्यवेक्षित शिक्षण के माध्यम से प्रशिक्षित किया जाता है, जहां उन्हें बिना किसी लेबल और निर्देश के भारी मात्रा में टेक्स्ट डेटा खिलाया जाता है। इसलिए, एलएलएम किसी भाषा के शब्दों के बीच के अर्थ और संबंधों को कुशलतापूर्वक सीखते हैं। उनका उपयोग विभिन्न प्रकार के कार्यों के लिए किया जा सकता है जैसे पाठ निर्माण, प्रश्न उत्तर देना, एक भाषा से दूसरी भाषा में अनुवाद करना और भी बहुत कुछ।

शीर्ष पर एक चेरी के रूप में, इन बड़े भाषा मॉडल को डोमेन-विशिष्ट कार्यों के लिए आपके कस्टम डेटासेट पर ठीक किया जा सकता है। इस लेख में, मैं फाइन-ट्यूनिंग की आवश्यकता, उपलब्ध विभिन्न एलएलएम के बारे में बात करूंगा और एक उदाहरण भी दिखाऊंगा।

एलएलएम फाइन-ट्यूनिंग को समझना

मान लीजिए कि आप एक मधुमेह सहायता समुदाय चलाते हैं और सवालों के जवाब देने के लिए एक ऑनलाइन हेल्पलाइन स्थापित करना चाहते हैं। एक पूर्व-प्रशिक्षित एलएलएम अधिक सामान्यतः प्रशिक्षित होता है और वह डोमेन विशिष्ट प्रश्नों के सर्वोत्तम उत्तर प्रदान करने और चिकित्सा शर्तों और संक्षिप्ताक्षरों को समझने में सक्षम नहीं होगा। इसे फाइन-ट्यूनिंग द्वारा हल किया जा सकता है।

फ़ाइन-ट्यूनिंग से हमारा क्या तात्पर्य है? संक्षेप में कहूँ तो, हस्तांतरण
सीख रहा हूँ! बड़े भाषा मॉडल को भारी संसाधनों का उपयोग करके विशाल डेटासेट पर प्रशिक्षित किया जाता है और इसमें लाखों पैरामीटर होते हैं। पूर्व-प्रशिक्षण के दौरान एलएलएम द्वारा सीखे गए अभ्यावेदन और भाषा पैटर्न को आपके वर्तमान कार्य में स्थानांतरित कर दिया जाता है। तकनीकी शब्दों में, हम पूर्व-प्रशिक्षित भार के साथ एक मॉडल को आरंभ करते हैं, और फिर मापदंडों के लिए अधिक कार्य-अनुकूलित भार तक पहुंचने के लिए इसे अपने कार्य-विशिष्ट डेटा पर प्रशिक्षित करते हैं। आप मॉडल के आर्किटेक्चर में बदलाव भी कर सकते हैं, और अपनी आवश्यकता के अनुसार परतों को संशोधित कर सकते हैं।

आपको मॉडलों को फाइन-ट्यून क्यों करना चाहिए?

समय और संसाधन बचाएं: फ़ाइन-ट्यूनिंग आपको शुरुआत से प्रशिक्षण की तुलना में आवश्यक प्रशिक्षण समय और संसाधनों को कम करने में मदद कर सकती है।
कम डेटा आवश्यकताएँ: यदि आप किसी मॉडल को शुरू से प्रशिक्षित करना चाहते हैं, तो आपको बड़ी मात्रा में लेबल किए गए डेटा की आवश्यकता होगी जो अक्सर व्यक्तियों और छोटे व्यवसायों के लिए उपलब्ध नहीं है। फ़ाइन-ट्यूनिंग आपको कम मात्रा में डेटा के साथ भी अच्छा प्रदर्शन प्राप्त करने में मदद कर सकती है।
अपनी आवश्यकताओं के अनुसार अनुकूलित करें: पूर्व-प्रशिक्षित एलएलएम आपके डोमेन-विशिष्ट शब्दावली और संक्षिप्ताक्षरों को नहीं समझ सकता है। उदाहरण के लिए, एक सामान्य एलएलएम यह नहीं पहचान पाएगा कि "टाइप 1" और "टाइप 2" मधुमेह के प्रकारों को दर्शाते हैं, जबकि एक अच्छा एलएलएम ऐसा कर सकता है।
निरंतर सीखने को सक्षम करें: मान लीजिए कि हमने मधुमेह सूचना डेटा पर अपने मॉडल को ठीक किया और इसे तैनात किया। यदि कोई नई आहार योजना या उपचार उपलब्ध है जिसे आप शामिल करना चाहते हैं तो क्या होगा? आप अपने पहले से सुव्यवस्थित मॉडल के वजन का उपयोग कर सकते हैं और इसे अपने नए डेटा को शामिल करने के लिए समायोजित कर सकते हैं। इससे संगठनों को अपने मॉडलों को कुशल तरीके से अद्यतन रखने में मदद मिल सकती है।

एक ओपन-सोर्स एलएलएम मॉडल चुनना

अगला कदम आपके कार्य के लिए एक बड़ा भाषा मॉडल चुनना होगा। आपके पास क्या विकल्प हैं? वर्तमान में उपलब्ध अत्याधुनिक बड़े भाषा मॉडल में GPT-3, ब्लूम, BERT, T5 और XLNet शामिल हैं। इनमें से GPT-3 (जेनरेटिव प्रीट्रेंड ट्रांसफॉर्मर्स) ने सबसे अच्छा प्रदर्शन दिखाया है, क्योंकि यह 175 बिलियन मापदंडों पर प्रशिक्षित है और विविध एनएलयू कार्यों को संभाल सकता है। लेकिन, GPT-3 फ़ाइन-ट्यूनिंग को केवल सशुल्क सदस्यता के माध्यम से ही एक्सेस किया जा सकता है और यह अन्य विकल्पों की तुलना में अपेक्षाकृत अधिक महंगा है।

दूसरी ओर, BERT एक ओपन-सोर्स बड़ा भाषा मॉडल है और इसे मुफ्त में ठीक किया जा सकता है। बर्ट द्वि-दिशात्मक एनकोडर डिकोडर ट्रांसफार्मर के लिए खड़ा है। BERT प्रासंगिक शब्द प्रतिनिधित्व को समझने का उत्कृष्ट कार्य करता है।

आप कैसे चुनते हैं?

यदि आपका कार्य टेक्स्ट जेनरेशन की ओर अधिक उन्मुख है, तो GPT-3 (भुगतान) या GPT-2 (ओपन सोर्स) मॉडल बेहतर विकल्प होंगे। यदि आपका कार्य पाठ वर्गीकरण, प्रश्न उत्तर, या इकाई पहचान के अंतर्गत आता है, तो आप BERT के साथ जा सकते हैं। मधुमेह पर प्रश्नों के उत्तर देने के मेरे मामले में, मैं बीईआरटी मॉडल के साथ आगे बढ़ूंगा।

अपना डेटासेट तैयार करना और प्री-प्रोसेस करना

यह फाइन-ट्यूनिंग का सबसे महत्वपूर्ण कदम है, क्योंकि डेटा का प्रारूप मॉडल और कार्य के आधार पर भिन्न होता है। इस मामले के लिए, मैंने मधुमेह पर जानकारी के साथ एक नमूना पाठ दस्तावेज़ बनाया है जिसे मैंने राष्ट्रीय स्वास्थ्य संस्थान से प्राप्त किया है वेबसाइट . आप अपना स्वयं का डेटा उपयोग कर सकते हैं.

BERT को प्रश्न-उत्तर देने के कार्य को बेहतर बनाने के लिए, आपके डेटा को SQuAD प्रारूप में परिवर्तित करने की अनुशंसा की जाती है। SQuAD स्टैनफोर्ड प्रश्न उत्तर डेटासेट है और प्रश्न उत्तर कार्यों के लिए एनएलपी मॉडल के प्रशिक्षण के लिए इस प्रारूप को व्यापक रूप से अपनाया जाता है। डेटा JSON प्रारूप में होना चाहिए, जहां प्रत्येक फ़ील्ड में निम्न शामिल हैं:

context: पाठ वाला वाक्य या पैराग्राफ जिसके आधार पर मॉडल प्रश्न का उत्तर खोजेगा
question: जिस प्रश्न का हम BERT से उत्तर चाहते हैं। आपको इन प्रश्नों को इस आधार पर तैयार करना होगा कि अंतिम उपयोगकर्ता QA मॉडल के साथ कैसे इंटरैक्ट करेगा।
answers: आपको इस फ़ील्ड के अंतर्गत वांछित उत्तर प्रदान करना होगा। इसके अंतर्गत दो उप-घटक हैं, text और answer_start। text उत्तर स्ट्रिंग होगी. जबकि, answer_startसूचकांक को दर्शाता है, जहां से संदर्भ पैराग्राफ में उत्तर शुरू होता है।

जैसा कि आप कल्पना कर सकते हैं, यदि आप इसे मैन्युअल रूप से करते तो आपके दस्तावेज़ के लिए यह डेटा बनाने में बहुत समय लगेगा। चिंता न करें, मैं आपको दिखाऊंगा कि हेस्टैक एनोटेशन टूल के साथ इसे आसानी से कैसे किया जाए।

हेस्टैक के साथ SQuAD फॉर्मेट में डेटा कैसे बनाएं?

हेस्टैक एनोटेशन टूल का उपयोग करके, आप प्रश्न-उत्तर कार्यों के लिए शीघ्रता से एक लेबल वाला डेटासेट बना सकते हैं। आप उन पर एक खाता बनाकर टूल तक पहुंच सकते हैं साइट. एक नया प्रोजेक्ट बनाएं और अपना दस्तावेज़ अपलोड करें। आप इसे "दस्तावेज़" टैब के अंतर्गत देख सकते हैं, "क्रियाएँ" पर जा सकते हैं और आप अपने प्रश्न बनाने का विकल्प देख सकते हैं। आप अपना प्रश्न लिख सकते हैं और दस्तावेज़ में उत्तर को हाइलाइट कर सकते हैं, हेस्टैक स्वचालित रूप से इसका प्रारंभिक सूचकांक ढूंढ लेगा। मैंने नीचे दी गई छवि में दिखाया है कि मैंने इसे अपने दस्तावेज़ पर कैसे किया।

कस्टम डेटा प्लेटोब्लॉकचेन डेटा इंटेलिजेंस पर ओपन सोर्स एलएलएम मॉडल को फाइन-ट्यूनिंग करने के लिए गाइड। लंबवत खोज. ऐ.
चित्र 1: हेस्टैक के साथ प्रश्न-उत्तर के लिए लेबल किया गया डेटासेट बनाना

जब आप फ़ाइन-ट्यूनिंग के लिए पर्याप्त प्रश्न-उत्तर युग्म बनाना समाप्त कर लें, तो आपको उनका सारांश देखने में सक्षम होना चाहिए जैसा कि नीचे दिखाया गया है। "निर्यात लेबल" टैब के अंतर्गत, आप उस प्रारूप के लिए कई विकल्प पा सकते हैं जिसमें आप निर्यात करना चाहते हैं। हम अपने मामले के लिए स्क्वाड प्रारूप चुनते हैं। यदि आपको टूल का उपयोग करने में अधिक सहायता की आवश्यकता है, तो आप उनकी जांच कर सकते हैं दस्तावेज़ीकरण. अब हमारे पास हमारी JSON फ़ाइल है जिसमें फ़ाइन-ट्यूनिंग के लिए QA जोड़े हैं।

कस्टम डेटा प्लेटोब्लॉकचेन डेटा इंटेलिजेंस पर ओपन सोर्स एलएलएम मॉडल को फाइन-ट्यूनिंग करने के लिए गाइड। लंबवत खोज. ऐ.

फ़ाइन-ट्यून कैसे करें?

पायथन कई ओपन-सोर्स पैकेज प्रदान करता है जिनका उपयोग आप फाइन-ट्यूनिंग के लिए कर सकते हैं। मैंने अपने मामले के लिए पाइटोरच और ट्रांसफॉर्मर्स पैकेज का उपयोग किया। पाइप, पैकेज मैनेजर का उपयोग करके पैकेज मॉड्यूल आयात करके प्रारंभ करें। transformers पुस्तकालय प्रदान करता है BERTTokenizer, जो विशेष रूप से BERT मॉडल में इनपुट को टोकनाइज़ करने के लिए है।


!pip install torch
!pip install transformers import json
import torch
from transformers import BertTokenizer, BertForQuestionAnswering
from torch.utils.data import DataLoader, Dataset

लोडिंग और प्री-प्रोसेसिंग के लिए कस्टम डेटासेट को परिभाषित करना

अगला चरण डेटा को लोड और प्री-प्रोसेस करना है। आप इसका उपयोग कर सकते हैं Dataset पाइटोरच से कक्षा utils.data आपके डेटासेट के लिए एक कस्टम क्लास परिभाषित करने के लिए मॉड्यूल। मैंने एक कस्टम डेटासेट क्लास बनाया है diabetes जैसा कि आप नीचे दिए गए कोड स्निपेट में देख सकते हैं। init वेरिएबल्स को प्रारंभ करने के लिए जिम्मेदार है। file_path एक तर्क है जो आपके JSON प्रशिक्षण फ़ाइल के पथ को इनपुट करेगा और आरंभ करने के लिए उपयोग किया जाएगा data. हम आरंभ करते हैं BertTokenizer यहाँ पर भी।

आगे, हम परिभाषित करते हैं a load_data() समारोह। यह फ़ंक्शन JSON फ़ाइल को JSON डेटा ऑब्जेक्ट में पढ़ेगा और उसमें से संदर्भ, प्रश्न, उत्तर और उनके सूचकांक को निकालेगा। यह निकाले गए फ़ील्ड को एक सूची में जोड़ता है और उसे वापस कर देता है।

RSI getitem प्रश्न और संदर्भ को इनपुट टेंसर में एन्कोड करने के लिए BERT टोकननाइज़र का उपयोग करता है input_ids और attention_mask। encode_plus पाठ को टोकनाइज़ करेगा, और विशेष टोकन जोड़ेगा (जैसे कि [सीएलएस] और [एसईपी])। ध्यान दें कि हम इसका उपयोग करते हैं squeeze() BERT में इनपुट करने से पहले किसी भी सिंगलटन आयाम को हटाने की विधि। अंत में, यह संसाधित इनपुट टेंसर लौटाता है।

class diabetes(Dataset): def __init__(self, file_path): self.data = self.load_data(file_path) self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') def load_data(self, file_path): with open(file_path, 'r') as f: data = json.load(f) paragraphs = data['data'][0]['paragraphs'] extracted_data = [] for paragraph in paragraphs: context = paragraph['context'] for qa in paragraph['qas']: question = qa['question'] answer = qa['answers'][0]['text'] start_pos = qa['answers'][0]['answer_start'] extracted_data.append({ 'context': context, 'question': question, 'answer': answer, 'start_pos': start_pos, }) return extracted_data def __len__(self): return len(self.data) def __getitem__(self, index): example = self.data[index] question = example['question'] context = example['context'] answer = example['answer'] inputs = self.tokenizer.encode_plus(question, context, add_special_tokens=True, padding='max_length', max_length=512, truncation=True, return_tensors='pt') input_ids = inputs['input_ids'].squeeze() attention_mask = inputs['attention_mask'].squeeze() start_pos = torch.tensor(example['start_pos']) return input_ids, attention_mask, start_pos, end_pos

एक बार जब आप इसे परिभाषित कर लेते हैं, तो आप आगे बढ़ सकते हैं और पास करके इस वर्ग का एक उदाहरण बना सकते हैं file_path इसके लिए तर्क.


file_path = 'diabetes.json'
dataset = diabetes(file_path)

मॉडल को प्रशिक्षित करना

मैं इसका उपयोग करूँगा BertForQuestionAnswering मॉडल क्योंकि यह QA कार्यों के लिए सबसे उपयुक्त है। आप के पूर्व-प्रशिक्षित वजन आरंभ कर सकते हैं bert-base-uncased कॉल करके मॉडल बनाएं from_pretrained मॉडल पर कार्य करें। आपको मूल्यांकन हानि फ़ंक्शन और ऑप्टिमाइज़र भी चुनना चाहिए जिसका उपयोग आप प्रशिक्षण के लिए करेंगे।

सर्वोत्तम प्रथाओं, उद्योग-स्वीकृत मानकों और शामिल चीट शीट के साथ, Git सीखने के लिए व्यावहारिक मार्गदर्शिका देखें। Googling Git कमांड को रोकें और वास्तव में सीखना यह!

मैं एडम ऑप्टिमाइज़र और क्रॉस एन्ट्रॉपी लॉस फ़ंक्शन का उपयोग कर रहा हूं। आप पाइटोरच क्लास का उपयोग कर सकते हैं DataLoader विभिन्न बैचों में डेटा लोड करना और किसी भी पूर्वाग्रह से बचने के लिए उनमें फेरबदल करना।


device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = BertForQuestionAnswering.from_pretrained('bert-base-uncased')
model.to(device) optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5)
loss_fn = torch.nn.CrossEntropyLoss()
batch_size = 8
num_epochs = 50 data_loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

एक बार, डेटा लोडर परिभाषित हो जाने पर आप आगे बढ़ सकते हैं और अंतिम प्रशिक्षण लूप लिख सकते हैं। प्रत्येक पुनरावृत्ति के दौरान, प्रत्येक बैच से प्राप्त किया गया data_loader शामिल हैं batch_size उदाहरणों की संख्या, जिन पर आगे और पीछे का प्रसार किया जाता है। कोड मापदंडों के लिए वजन का सबसे अच्छा सेट खोजने का प्रयास करता है, जिस पर नुकसान न्यूनतम होगा।

for epoch in range(num_epochs): model.train() total_loss = 0 for batch in data_loader: input_ids = batch[0].to(device) attention_mask = batch[1].to(device) start_positions = batch[2].to(device) optimizer.zero_grad() outputs = model(input_ids, attention_mask=attention_mask, start_positions=start_positions) loss = outputs.loss loss.backward() optimizer.step() total_loss += loss.item() avg_loss = total_loss / len(data_loader) print(f"Epoch {epoch+1}/{num_epochs} - Average Loss: {avg_loss:.4f}")

यह आपकी फाइन-ट्यूनिंग पूरी करता है! आप इसे सेट करके मॉडल का परीक्षण कर सकते हैं model.eval(). आप अपने डेटा पर सर्वोत्तम परिणाम प्राप्त करने के लिए सीखने की दर और युगों के मापदंडों की संख्या को ठीक करने का भी उपयोग कर सकते हैं।

सर्वोत्तम युक्तियाँ और अभ्यास

कस्टम डेटा पर किसी भी बड़े भाषा मॉडल को ठीक करते समय ध्यान देने योग्य कुछ बातें यहां दी गई हैं:

आपके डेटासेट को उस लक्ष्य डोमेन या कार्य का प्रतिनिधित्व करने की आवश्यकता है जिसमें आप चाहते हैं कि भाषा मॉडल उत्कृष्टता प्राप्त करे। स्वच्छ और अच्छी तरह से संरचित डेटा आवश्यक है।
सुनिश्चित करें कि मॉडल के पैटर्न सीखने के लिए आपके डेटा में पर्याप्त प्रशिक्षण उदाहरण हैं। अन्यथा, मॉडल उदाहरणों को याद कर सकता है और क्षमता के बिना ओवरफिट कर सकता है सामान्यीकरण अनदेखे उदाहरणों के लिए.
एक पूर्व-प्रशिक्षित मॉडल चुनें जिसे एक कॉर्पस पर प्रशिक्षित किया गया है जो आपके कार्य के लिए प्रासंगिक है। प्रश्न उत्तर के लिए, हम एक पूर्व-प्रशिक्षित मॉडल चुनते हैं जो स्टैनफोर्ड प्रश्न उत्तर डेटासेट पर प्रशिक्षित होता है। इसके समान, भावना विश्लेषण, पाठ निर्माण, सारांश, पाठ वर्गीकरण, और बहुत कुछ जैसे कार्यों के लिए अलग-अलग मॉडल उपलब्ध हैं।
Thử ढाल संचय यदि आपके पास सीमित GPU मेमोरी है। इस पद्धति में, प्रत्येक बैच के बाद मॉडल के वजन को अपडेट करने के बजाय, अपडेट करने से पहले ग्रेडिएंट्स को कई मिनी-बैचों में जमा किया जाता है।
यदि आप फाइन-ट्यूनिंग के दौरान ओवरफिटिंग की समस्या का सामना करते हैं, तो उपयोग करें नियमितीकरण तकनीकें। आमतौर पर उपयोग की जाने वाली कुछ विधियों में मॉडल आर्किटेक्चर में ड्रॉपआउट परतें जोड़ना, वजन घटाने और परत सामान्यीकरण को लागू करना शामिल है।

निष्कर्ष

बड़े भाषा मॉडल आपको कई कार्यों को त्वरित और कुशल तरीके से स्वचालित करने में मदद कर सकते हैं। फाइन-ट्यूनिंग एलएलएम आपको ट्रांसफर लर्निंग की शक्ति का लाभ उठाने और इसे आपके विशेष डोमेन में अनुकूलित करने में मदद करते हैं। यदि आपका डेटासेट चिकित्सा, तकनीकी क्षेत्र, वित्तीय डेटासेट और अन्य जैसे डोमेन में है तो फाइन-ट्यूनिंग आवश्यक हो सकती है।

इस लेख में हमने BERT का उपयोग किया क्योंकि यह खुला स्रोत है और व्यक्तिगत उपयोग के लिए अच्छा काम करता है। यदि आप बड़े पैमाने पर प्रोजेक्ट पर काम कर रहे हैं, तो आप अधिक शक्तिशाली एलएलएम, जैसे जीपीटी3, या अन्य ओपन सोर्स विकल्प चुन सकते हैं। याद रखें, बड़े भाषा मॉडल को ठीक करना कम्प्यूटेशनल रूप से महंगा और समय लेने वाला हो सकता है। सुनिश्चित करें कि आपके पास पैमाने के आधार पर जीपीयू या टीपीयू सहित पर्याप्त कम्प्यूटेशनल संसाधन हैं।