Leitfaden zur Feinabstimmung von Open-Source-LLM-Modellen für benutzerdefinierte Daten

Neuauflage von Plato

Verfolger: 0

Einleitung

Ich bin mir sicher, dass die meisten von Ihnen von ChatGPT gehört und es ausprobiert haben, um Ihre Fragen zu beantworten! Haben Sie sich jemals gefragt, was unter der Haube passiert? Es basiert auf einem von Open AI entwickelten Large Language Model GPT-3. Diese großen Sprachmodelle, oft als LLMs bezeichnet, haben viele Möglichkeiten eröffnet Verarbeitung natürlicher Sprache.

Was sind große Sprachmodelle?

Die LLM-Modelle werden auf riesigen Mengen an Textdaten trainiert, sodass sie menschliche Sprache mit Bedeutung und Kontext verstehen können. Zuvor wurden die meisten Modelle mithilfe des überwachten Ansatzes trainiert, bei dem wir Eingabemerkmale und entsprechende Beschriftungen einspeisen. Im Gegensatz dazu werden LLMs durch unüberwachtes Lernen trainiert, wobei ihnen riesige Mengen an Textdaten ohne Beschriftungen und Anweisungen zugeführt werden. Daher lernen LLMs effizient die Bedeutung und Beziehungen zwischen Wörtern einer Sprache. Sie können für eine Vielzahl von Aufgaben wie Texterstellung, Beantwortung von Fragen, Übersetzung von einer Sprache in eine andere und vieles mehr verwendet werden.

Als Sahnehäubchen können diese großen Sprachmodelle in Ihrem benutzerdefinierten Datensatz für domänenspezifische Aufgaben verfeinert werden. In diesem Artikel werde ich über die Notwendigkeit einer Feinabstimmung und die verschiedenen verfügbaren LLMs sprechen und auch ein Beispiel zeigen.

LLM-Feinabstimmung verstehen

Nehmen wir an, Sie betreiben eine Diabetes-Support-Community und möchten eine Online-Helpline zur Beantwortung von Fragen einrichten. Ein vorab geschulter LLM ist allgemeiner geschult und wäre nicht in der Lage, die besten Antworten auf domänenspezifische Fragen zu geben und die medizinischen Fachbegriffe und Akronyme zu verstehen. Dies kann durch Feinabstimmung gelöst werden.

Was meinen wir mit Feinabstimmung? Um es kurz zu sagen: Art des
lernen! Die großen Sprachmodelle werden mit großen Ressourcen auf riesigen Datensätzen trainiert und verfügen über Millionen von Parametern. Die von LLM im Vortraining erlernten Darstellungen und Sprachmuster werden auf Ihre aktuelle Aufgabenstellung übertragen. Technisch gesehen initialisieren wir ein Modell mit den vorab trainierten Gewichten und trainieren es dann anhand unserer aufgabenspezifischen Daten, um aufgabenoptimiertere Gewichte für Parameter zu erreichen. Sie können auch Änderungen an der Architektur des Modells vornehmen und die Ebenen entsprechend Ihren Anforderungen anpassen.

Warum sollten Sie Modelle verfeinern?

Sparen Sie Zeit und Ressourcen: Eine Feinabstimmung kann Ihnen dabei helfen, die erforderliche Schulungszeit und die benötigten Ressourcen zu reduzieren, verglichen mit einer Schulung von Grund auf.
Reduzierte Datenanforderungen: Wenn Sie ein Modell von Grund auf trainieren möchten, benötigen Sie große Mengen an gekennzeichneten Daten, die Einzelpersonen und kleinen Unternehmen oft nicht zur Verfügung stehen. Durch Feinabstimmung können Sie auch bei kleineren Datenmengen eine gute Leistung erzielen.
Passen Sie es an Ihre Bedürfnisse an: Das vorab trainierte LLM erfasst möglicherweise nicht Ihre domänenspezifische Terminologie und Abkürzungen. Ein normaler LLM würde beispielsweise nicht erkennen, dass „Typ 1“ und „Typ 2“ die Diabetestypen bezeichnen, während ein fein abgestimmter LLM dies kann.
Ermöglichen Sie kontinuierliches Lernen: Nehmen wir an, wir haben unser Modell anhand von Diabetes-Informationsdaten verfeinert und implementiert. Was ist, wenn ein neuer Diätplan oder eine neue Behandlung verfügbar ist, die Sie einbeziehen möchten? Sie können die Gewichtungen Ihres zuvor fein abgestimmten Modells verwenden und es an Ihre neuen Daten anpassen. Dies kann Unternehmen dabei helfen, ihre Modelle auf effiziente Weise auf dem neuesten Stand zu halten.

Auswahl eines Open-Source-LLM-Modells

Der nächste Schritt wäre die Auswahl eines großen Sprachmodells für Ihre Aufgabe. Welche Möglichkeiten haben Sie? Zu den hochmodernen großen Sprachmodellen, die derzeit verfügbar sind, gehören GPT-3, Bloom, BERT, T5 und XLNet. Unter diesen hat GPT-3 (Generative Pretrained Transformers) die beste Leistung gezeigt, da es auf 175 Milliarden Parameter trainiert wird und verschiedene NLU-Aufgaben bewältigen kann. Auf die GPT-3-Feinabstimmung kann jedoch nur über ein kostenpflichtiges Abonnement zugegriffen werden, und sie ist relativ teurer als andere Optionen.

Andererseits ist BERT ein Open-Source-Modell für große Sprachen und kann kostenlos verfeinert werden. BERT steht für Bidirektionale Encoder-Decoder-Transformatoren. BERT leistet hervorragende Arbeit beim Verstehen kontextueller Wortdarstellungen.

Wie wählen Sie?

Wenn Ihre Aufgabe eher auf die Textgenerierung ausgerichtet ist, wären die Modelle GPT-3 (kostenpflichtig) oder GPT-2 (Open Source) die bessere Wahl. Wenn Ihre Aufgabe unter Textklassifizierung, Fragebeantwortung oder Entitätserkennung fällt, können Sie sich für BERT entscheiden. Für meinen Fall der Beantwortung von Fragen zu Diabetes würde ich mit dem BERT-Modell fortfahren.

Vorbereiten und Vorverarbeiten Ihres Datensatzes

Dies ist der wichtigste Schritt der Feinabstimmung, da das Datenformat je nach Modell und Aufgabe variiert. Für diesen Fall habe ich ein Beispieltextdokument mit Informationen zu Diabetes erstellt, das ich vom National Institute of Health beschafft habe Website . Sie können Ihre eigenen Daten verwenden.

Um BERT für die Frage-Antwort-Aufgabe zu optimieren, wird die Konvertierung Ihrer Daten in das SQuAD-Format empfohlen. SQuAD ist ein Stanford-Frage-Antwort-Datensatz und dieses Format wird häufig für das Training von NLP-Modellen für Frage-Antwort-Aufgaben verwendet. Die Daten müssen im JSON-Format vorliegen, wobei jedes Feld aus Folgendem besteht:

context: Der Satz oder Absatz mit Text, auf dessen Grundlage das Modell nach der Antwort auf die Frage sucht
question: Die Frage, die das BERT beantworten soll. Sie müssten diese Fragen basierend darauf formulieren, wie der Endbenutzer mit dem QS-Modell interagieren würde.
answers: In diesem Feld müssen Sie die gewünschte Antwort eingeben. Darunter gibt es zwei Unterkomponenten: text und answer_startdem „Vermischten Geschmack“. Seine text wird die Antwortzeichenfolge haben. Wohingegen, answer_startbezeichnet den Index, ab dem die Antwort im Kontextabsatz beginnt.

Wie Sie sich vorstellen können, würde die Erstellung dieser Daten für Ihr Dokument viel Zeit in Anspruch nehmen, wenn Sie dies manuell tun würden. Keine Sorge, ich zeige Ihnen, wie das ganz einfach mit dem Haystack-Annotationstool geht.

Wie erstelle ich mit Haystack Daten im SQuAD-Format?

Mit dem Haystack-Annotationstool können Sie schnell einen beschrifteten Datensatz für Frage-Antwort-Aufgaben erstellen. Sie können auf das Tool zugreifen, indem Sie dort ein Konto erstellen am Standort. Erstellen Sie ein neues Projekt und laden Sie Ihr Dokument hoch. Sie können es auf der Registerkarte „Dokumente“ anzeigen, auf „Aktionen“ gehen und die Option zum Erstellen Ihrer Fragen sehen. Sie können Ihre Frage schreiben und die Antwort im Dokument markieren. Haystack findet dann automatisch den Startindex dafür. Ich habe im folgenden Bild gezeigt, wie ich es in meinem Dokument gemacht habe.

Leitfaden zur Feinabstimmung von Open-Source-LLM-Modellen auf benutzerdefinierten Daten PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
Abb. 1: Erstellen eines beschrifteten Datensatzes für die Frage-Antwort-Funktion mit Haystack

Wenn Sie mit der Erstellung genügender Frage-Antwort-Paare für die Feinabstimmung fertig sind, sollten Sie eine Zusammenfassung davon sehen können, wie unten gezeigt. Unter der Registerkarte „Exportlabels“ finden Sie mehrere Optionen für das Format, in das Sie exportieren möchten. Für unseren Fall wählen wir das Squad-Format. Wenn Sie weitere Hilfe bei der Verwendung des Tools benötigen, können Sie dort nachsehen Dokumentation. Wir haben jetzt unsere JSON-Datei mit den QA-Paaren zur Feinabstimmung.

Leitfaden zur Feinabstimmung von Open-Source-LLM-Modellen auf benutzerdefinierten Daten PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wie erfolgt die Feinabstimmung?

Python bietet viele Open-Source-Pakete, die Sie zur Feinabstimmung verwenden können. Ich habe für meinen Fall das Pytorch- und Transformers-Paket verwendet. Beginnen Sie mit dem Importieren der Paketmodule mit pip, dem Paketmanager. Der transformers Bibliothek bietet eine BERTTokenizer, das speziell für die Tokenisierung von Eingaben in das BERT-Modell dient.


!pip install torch
!pip install transformers import json
import torch
from transformers import BertTokenizer, BertForQuestionAnswering
from torch.utils.data import DataLoader, Dataset

Definieren eines benutzerdefinierten Datensatzes zum Laden und Vorverarbeiten

Der nächste Schritt besteht darin, die Daten zu laden und vorzuverarbeiten. Du kannst den ... benutzen Dataset Klasse von Pytorch utils.data Modul zum Definieren einer benutzerdefinierten Klasse für Ihren Datensatz. Ich habe eine benutzerdefinierte Datensatzklasse erstellt diabetes wie Sie im folgenden Codeausschnitt sehen können. Der init ist für die Initialisierung der Variablen verantwortlich. Der file_path ist ein Argument, das den Pfad Ihrer JSON-Trainingsdatei eingibt und zur Initialisierung verwendet wird data. Wir initialisieren die BertTokenizer auch hier.

Als nächstes definieren wir a load_data() Funktion. Diese Funktion liest die JSON-Datei in ein JSON-Datenobjekt und extrahiert daraus den Kontext, die Frage, die Antworten und ihren Index. Es hängt die extrahierten Felder an eine Liste an und gibt sie zurück.

Das getitem verwendet den BERT-Tokenizer, um die Frage und den Kontext in Eingabetensoren zu kodieren input_ids und attention_maskdem „Vermischten Geschmack“. Seine encode_plus tokenisiert den Text und fügt spezielle Token hinzu (z. B. [CLS] und [SEP]). Beachten Sie, dass wir das verwenden squeeze() Methode zum Entfernen aller Singleton-Dimensionen vor der Eingabe in BERT. Schließlich werden die verarbeiteten Eingabetensoren zurückgegeben.

class diabetes(Dataset): def __init__(self, file_path): self.data = self.load_data(file_path) self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') def load_data(self, file_path): with open(file_path, 'r') as f: data = json.load(f) paragraphs = data['data'][0]['paragraphs'] extracted_data = [] for paragraph in paragraphs: context = paragraph['context'] for qa in paragraph['qas']: question = qa['question'] answer = qa['answers'][0]['text'] start_pos = qa['answers'][0]['answer_start'] extracted_data.append({ 'context': context, 'question': question, 'answer': answer, 'start_pos': start_pos, }) return extracted_data def __len__(self): return len(self.data) def __getitem__(self, index): example = self.data[index] question = example['question'] context = example['context'] answer = example['answer'] inputs = self.tokenizer.encode_plus(question, context, add_special_tokens=True, padding='max_length', max_length=512, truncation=True, return_tensors='pt') input_ids = inputs['input_ids'].squeeze() attention_mask = inputs['attention_mask'].squeeze() start_pos = torch.tensor(example['start_pos']) return input_ids, attention_mask, start_pos, end_pos

Sobald Sie sie definiert haben, können Sie eine Instanz dieser Klasse erstellen, indem Sie die übergeben file_path Argument dazu.


file_path = 'diabetes.json'
dataset = diabetes(file_path)

Das Modell trainieren

Ich werde die verwenden BertForQuestionAnswering Modell, da es für QS-Aufgaben am besten geeignet ist. Sie können die vorab trainierten Gewichte des initialisieren bert-base-uncased Modell durch Aufrufen des from_pretrained Funktion am Modell. Sie sollten auch die Bewertungsverlustfunktion und den Optimierer auswählen, die Sie für das Training verwenden möchten.

Sehen Sie sich unseren praxisnahen, praktischen Leitfaden zum Erlernen von Git an, mit Best Practices, branchenweit akzeptierten Standards und einem mitgelieferten Spickzettel. Hören Sie auf, Git-Befehle zu googeln und tatsächlich in Verbindung, um es!

Ich verwende einen Adam-Optimierer und eine Cross-Entropy-Loss-Funktion. Sie können die Pytorch-Klasse verwenden DataLoader um Daten in verschiedenen Stapeln zu laden und sie auch zu mischen, um Verzerrungen zu vermeiden.


device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = BertForQuestionAnswering.from_pretrained('bert-base-uncased')
model.to(device) optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5)
loss_fn = torch.nn.CrossEntropyLoss()
batch_size = 8
num_epochs = 50 data_loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

Sobald der Datenlader definiert ist, können Sie mit dem Schreiben der letzten Trainingsschleife fortfahren. Während jeder Iteration wird jede Charge aus dem erhalten data_loader enthält batch_size Anzahl von Beispielen, an denen Vorwärts- und Rückwärtsausbreitung durchgeführt wird. Der Code versucht, die besten Gewichtungen für Parameter zu finden, bei denen der Verlust minimal wäre.

for epoch in range(num_epochs): model.train() total_loss = 0 for batch in data_loader: input_ids = batch[0].to(device) attention_mask = batch[1].to(device) start_positions = batch[2].to(device) optimizer.zero_grad() outputs = model(input_ids, attention_mask=attention_mask, start_positions=start_positions) loss = outputs.loss loss.backward() optimizer.step() total_loss += loss.item() avg_loss = total_loss / len(data_loader) print(f"Epoch {epoch+1}/{num_epochs} - Average Loss: {avg_loss:.4f}")

Damit ist Ihre Feinabstimmung abgeschlossen! Sie können das Modell testen, indem Sie es auf einstellen model.eval(). Sie können auch die Lernrate und die Parameter „Anzahl der Epochen“ feinabstimmen, um die besten Ergebnisse für Ihre Daten zu erzielen.

Beste Tipps und Praktiken

Hier sind einige Punkte, die Sie bei der Feinabstimmung großer Sprachmodelle für benutzerdefinierte Daten beachten sollten:

Ihr Datensatz muss die Zieldomäne oder Aufgabe darstellen, bei der das Sprachmodell hervorragende Leistungen erbringen soll. Clean und gut strukturierte Daten sind unerlässlich.
Stellen Sie sicher, dass Ihre Daten genügend Trainingsbeispiele enthalten, damit das Modell Muster lernen kann. Andernfalls könnte sich das Modell die Beispiele merken und überpassen, ohne dazu in der Lage zu sein verallgemeinern zu unsichtbaren Beispielen.
Wählen Sie ein vorab trainiertes Modell, das auf einem Korpus trainiert wurde, der für Ihre jeweilige Aufgabe relevant ist. Für die Beantwortung von Fragen wählen wir ein vorab trainiertes Modell, das auf dem Stanford Question Answering-Datensatz trainiert wurde. Ebenso stehen verschiedene Modelle für Aufgaben wie Stimmungsanalyse, Textgenerierung, Zusammenfassung, Textklassifizierung und mehr zur Verfügung.
MIT DER INTELLIGENTEN SCHADENKALKULATION VON Gradientenakkumulation wenn Sie nur über begrenzten GPU-Speicher verfügen. Bei dieser Methode werden die Gewichtungen des Modells nicht nach jedem Stapel aktualisiert, sondern die Gradienten werden über mehrere Mini-Batches akkumuliert, bevor eine Aktualisierung durchgeführt wird.
Wenn Sie bei der Feinabstimmung auf das Problem einer Überanpassung stoßen, verwenden Sie Regulierung Techniken. Zu den häufig verwendeten Methoden gehören das Hinzufügen von Dropout-Ebenen zur Modellarchitektur, die Implementierung von Gewichtsabnahme und Ebenennormalisierung.

Zusammenfassung

Große Sprachmodelle können Ihnen dabei helfen, viele Aufgaben schnell und effizient zu automatisieren. Durch die Feinabstimmung von LLMs können Sie die Leistungsfähigkeit des Transferlernens nutzen und es an Ihren speziellen Bereich anpassen. Eine Feinabstimmung kann von entscheidender Bedeutung sein, wenn sich Ihr Datensatz in Bereichen wie Medizin, einer technischen Nische, Finanzdatensätzen und mehr befindet.

In diesem Artikel haben wir BERT verwendet, da es Open Source ist und sich gut für den persönlichen Gebrauch eignet. Wenn Sie an einem Großprojekt arbeiten, können Sie sich für leistungsfähigere LLMs wie GPT3 oder andere Open-Source-Alternativen entscheiden. Denken Sie daran, dass die Feinabstimmung großer Sprachmodelle rechenintensiv und zeitaufwändig sein kann. Stellen Sie sicher, dass Sie über ausreichende Rechenressourcen verfügen, einschließlich GPUs oder TPUs je nach Skalierung.