Instruction Fine-tuning For FLAN T5 XL With Amazon SageMaker Jumpstart

Republicat de Platon

Urmaritori: 0

Inteligența artificială generativă se află în mijlocul unei perioade de creștere uimitoare. Modelele de fundație din ce în ce mai capabile sunt lansate în mod continuu, modelele de limbaj mari (LLM) fiind una dintre cele mai vizibile clase de modele. LLM-urile sunt modele compuse din miliarde de parametri antrenați pe corpuri extinse de text, până la sute de miliarde sau chiar un trilion de jetoane. Aceste modele s-au dovedit extrem de eficiente pentru o gamă largă de sarcini bazate pe text, de la răspunsul la întrebări până la analiza sentimentelor.

Puterea LLM-urilor vine din capacitatea lor de a învăța și de a generaliza din date extinse și diverse de formare. Pregătirea inițială a acestor modele se realizează cu o varietate de obiective, supravegheate, nesupravegheate sau hibride. Completarea sau imputarea textului este unul dintre cele mai frecvente obiective nesupravegheate: având în vedere o bucată de text, modelul învață să prezică cu precizie ceea ce urmează (de exemplu, să prezică următoarea propoziție). Modelele pot fi, de asemenea, instruite în mod supravegheat, folosind date etichetate pentru a îndeplini un set de sarcini (de exemplu, această recenzie a filmului este pozitivă, negativă sau neutră). Indiferent dacă modelul este antrenat pentru completarea textului sau pentru o altă sarcină, deseori nu este sarcina pentru care clienții doresc să folosească modelul.

Pentru a îmbunătăți performanța unui LLM pre-instruit pe o anumită sarcină, putem ajusta modelul folosind exemple ale sarcinii țintă într-un proces cunoscut sub numele de reglajul fin al instrucțiunii. Reglarea fină a instrucțiunilor folosește un set de exemple etichetate sub formă de perechi {prompt, response} pentru a antrena în continuare modelul pre-antrenat în a prezice în mod adecvat răspunsul dat prompt. Acest proces modifică ponderile modelului.

Această postare descrie cum să efectuați reglarea fină a instrucțiunilor unui LLM, și anume FLAN T5 XL, folosind Amazon SageMaker Jumpstart. Demonstrăm cum să realizați acest lucru folosind atât interfața de utilizare Jumpstart, cât și un notebook în Amazon SageMaker Studio. Puteți găsi caiet de însoțire în amazon-sagemaker-exemple Depozitul GitHub.

Prezentare generală a soluțiilor

Sarcina țintă din această postare este de a returna întrebări care au legătură cu textul, dar care nu pot primi răspuns pe baza informațiilor pe care le conține, având în vedere o bucată de text în prompt. Aceasta este o sarcină utilă pentru a identifica informațiile lipsă dintr-o descriere sau pentru a identifica dacă o interogare are nevoie de mai multe informații pentru a primi răspuns.

Modelele FLAN T5 sunt pregătite cu instrucțiuni pentru o gamă largă de sarcini pentru a crește performanța zero-shot a acestor modele în multe sarcini comune[1]. Reglarea fină a instrucțiunilor suplimentare pentru o anumită sarcină a clientului poate crește și mai mult precizia acestor modele, mai ales dacă sarcina țintă nu a fost folosită anterior pentru a antrena un model FLAN T5, așa cum este cazul sarcinii noastre.

În sarcina noastră exemplu, suntem interesați să generăm întrebări relevante, dar fără răspuns. În acest scop, folosim un subset al versiunii 2 a setului de date Stanford Question Answering (SQuAD2.0)[2] pentru a regla fin modelul. Acest set de date conține întrebări puse de adnotatorii umani pe un set de articole Wikipedia. Pe lângă întrebările cu răspunsuri, SQuAD2.0 conține aproximativ 50,000 de întrebări fără răspuns. Astfel de întrebări sunt plauzibile, dar nu pot primi răspuns direct din conținutul articolelor. Folosim doar întrebările fără răspuns. Datele noastre sunt structurate ca un fișier JSON Lines, fiecare linie conținând un context și o întrebare.

Captură de ecran cu câteva intrări ale setului de date SQuADv2.

Cerințe preliminare

Pentru a începe, tot ce aveți nevoie este un cont AWS în care puteți utiliza Studio. Va trebui să creați un profil de utilizator pentru Studio dacă nu aveți deja unul.

Reglați fin FLAN-T5 cu Jumpstart UI

Pentru a regla fin modelul cu Jumpstart UI, parcurgeți următorii pași:

Pe consola SageMaker, deschideți Studio.
În SageMaker Jumpstart în panoul de navigare, alegeți Modele, caiete, solutii.

Veți vedea o listă de modele de fundație, inclusiv FLAN T5 XL, care este marcat ca reglabil fin.

Alege Vezi modelul.

Interfața de utilizare JumpStart cu FLAN-T5 XL.

În Sursă de date, puteți furniza calea către datele dvs. de antrenament. Sursa datelor utilizate în această postare este furnizată implicit.
Puteți păstra valoarea implicită pentru configurația de implementare (inclusiv tipul instanței), securitatea și hiperparametrii, dar ar trebui să creșteți numărul de epoci la cel puțin trei pentru a obține rezultate bune.
Alege Tren pentru a antrena modelul.

Interfața de utilizare a trenului JumpStart pentru modelul FLAN-T5 XL.

Puteți urmări starea jobului de formare în UI.

Jumpstart UI pentru antrenamentul în curs.

Când antrenamentul este complet (după aproximativ 53 de minute în cazul nostru), alegeți Lansa pentru a implementa modelul reglat fin.

Antrenamentul JumpStart UI finalizat.

După ce punctul final este creat (câteva minute), puteți deschide un blocnotes și puteți începe să utilizați modelul reglat fin.

Reglați fin FLAN-T5 folosind un notebook Python

Exemplul nostru de notebook arată cum să utilizați Jumpstart și SageMaker pentru a regla fin și a implementa un model FLAN T5 XL. Poate fi rulat în Studio sau local.

În această secțiune, vom parcurge mai întâi unele configurații generale. Apoi reglați fin modelul folosind seturile de date SQuADv2. Apoi, implementați versiunea pre-antrenată a modelului în spatele unui punct final SageMaker și faceți același lucru cu modelul reglat fin. În cele din urmă, puteți interoga punctele finale și puteți compara calitatea rezultatelor modelului pre-antrenat și reglat fin. Veți descoperi că rezultatul modelului reglat fin este de o calitate mult mai bună.

Configurați cerințele preliminare

Începeți prin instalarea și actualizarea pachetelor necesare. Reporniți nucleul după ce rulați următorul cod:

!pip install nest-asyncio==1.5.5 --quiet
!pip install ipywidgets==8.0.4 --quiet
!pip install --upgrade sagemaker --quiet

Apoi, obțineți rolul de execuție asociat cu instanța curentă de notebook:

import boto3
import sagemaker
# Get current region, role, and default bucket
aws_region = boto3.Session().region_name
aws_role = sagemaker.session.Session().get_caller_identity_arn()
output_bucket = sagemaker.Session().default_bucket()
# This will be useful for printing
newline, bold, unbold = "n", "33[1m", "33[0m"
print(f"{bold}aws_region:{unbold} {aws_region}")
print(f"{bold}aws_role:{unbold} {aws_role}")
print(f"{bold}output_bucket:{unbold} {output_bucket}"

Puteți defini un meniu derulant convenabil care va enumera dimensiunile modelului disponibile pentru reglare fină:

import IPython
from ipywidgets import Dropdown
from sagemaker.jumpstart.filters import And
from sagemaker.jumpstart.notebook_utils import list_jumpstart_models
# Default model choice
model_id = "huggingface-text2text-flan-t5-xl"
# Identify FLAN T5 models that support fine-tuning
filter_value = And( "task == text2text", "framework == huggingface", "training_supported == true"
)
model_list = [m for m in list_jumpstart_models(filter=filter_value) if "flan-t5" in m]
# Display the model IDs in a dropdown, for user to select
dropdown = Dropdown(
value=model_id,
options=model_list,
description="FLAN T5 models available for fine-tuning:",
style={"description_width": "initial"},
layout={"width": "max-content"},
)
display(IPython.display.Markdown("### Select a pre-trained model from the dropdown below"))
display(dropdown)

Jumpstart preia automat tipurile de instanțe de instruire și inferență adecvate pentru modelul pe care l-ați ales:

from sagemaker.instance_types import retrieve_default
model_id, model_version = dropdown.value, "*"
# Instance types for training and inference
training_instance_type = retrieve_default(
model_id=model_id, model_version=model_version, scope="training"
)
inference_instance_type = retrieve_default(
model_id=model_id, model_version=model_version, scope="inference"
)
print(f"{bold}model_id:{unbold} {model_id}")
print(f"{bold}training_instance_type:{unbold} {training_instance_type}")
print(f"{bold}inference_instance_type:{unbold} {inference_instance_type}") If you have chosen the FLAN T5 XL, you will see the following output: model_id: huggingface-text2text-flan-t5-xl training_instance_type: ml.p3.16xlarge inference_instance_type: ml.g5.2xlarge

Acum sunteți gata să începeți reglarea fină.

Reantrenați modelul pe setul de date de reglare fină

După finalizarea instalării, parcurgeți următorii pași:

Utilizați următorul cod pentru a prelua URI-ul pentru artefactele necesare:

from sagemaker import image_uris, model_uris, script_uris
# Training instance will use this image
train_image_uri = image_uris.retrieve(
region=aws_region,
framework=None,  # automatically inferred from model_id
model_id=model_id,
model_version=model_version,
image_scope="training",
instance_type=training_instance_type,
)
# Pre-trained model
train_model_uri = model_uris.retrieve(
model_id=model_id, model_version=model_version, model_scope="training"
)
# Script to execute on the training instance
train_script_uri = script_uris.retrieve(
model_id=model_id, model_version=model_version, script_scope="training"
)
print(f"{bold}image uri:{unbold} {train_image_uri}")
print(f"{bold}model uri:{unbold} {train_model_uri}")
print(f"{bold}script uri:{unbold} {train_script_uri}")

Datele de antrenament se află într-un spațiu public Serviciul Amazon de stocare simplă Găleată (Amazon S3)

Utilizați următorul cod pentru a indica locația datelor și configurați locația de ieșire într-o găleată din contul dvs.:

from sagemaker.s3 import S3Downloader # We will use the train split of SQuAD2.0
original_data_file = "train-v2.0.json" # The data was mirrored in the following bucket
original_data_location = f"s3://sagemaker-sample-files/datasets/text/squad2.0/{original_data_file}"
S3Downloader.download(original_data_location, ".")

Datele originale nu sunt într-un format care să corespundă sarcinii pentru care reglați fin modelul, astfel încât să îl puteți reformata:

import json local_data_file = "task-data.jsonl"  # any name with .jsonl extension with open(original_data_file) as f:
data = json.load(f) with open(local_data_file, "w") as f:
for article in data["data"]:
for paragraph in article["paragraphs"]:
# iterate over questions for a given paragraph
for qas in paragraph["qas"]:
if qas["is_impossible"]:
# the question is relevant, but cannot be answered
example = {"context": paragraph["context"], "question": qas["question"]}
json.dump(example, f)
f.write("n") template = { "prompt": "Ask a question which is related to the following text, but cannot be answered based on the text. Text: {context}", "completion": "{question}",
}
with open("template.json", "w") as f:
json.dump(template, f) from sagemaker.s3 import S3Uploader train_data_location = f"s3://{output_bucket}/train_data"
S3Uploader.upload(local_data_file, train_data_location)
S3Uploader.upload("template.json", train_data_location)
print(f"{bold}training data:{unbold} {train_data_location}")

Acum puteți defini câțiva hiperparametri pentru antrenament:

from sagemaker import hyperparameters # Retrieve the default hyper-parameters for fine-tuning the model
hyperparameters = hyperparameters.retrieve_default(model_id=model_id, model_version=model_version) # We will override some default hyperparameters with custom values
hyperparameters["epochs"] = "3"
# TODO
# hyperparameters["max_input_length"] = "300"  # data inputs will be truncated at this length
# hyperparameters["max_output_length"] = "40"  # data outputs will be truncated at this length
# hyperparameters["generation_max_length"] = "40"  # max length of generated output
print(hyperparameters)

Acum sunteți gata să lansați jobul de formare:

from sagemaker.estimator import Estimator
from sagemaker.utils import name_from_base model_name = "-".join(model_id.split("-")[2:])  # get the most informative part of ID
training_job_name = name_from_base(f"js-demo-{model_name}-{hyperparameters['epochs']}")
print(f"{bold}job name:{unbold} {training_job_name}") training_metric_definitions = [
{"Name": "val_loss", "Regex": "'eval_loss': ([0-9.]+)"},
{"Name": "train_loss", "Regex": "'loss': ([0-9.]+)"},
{"Name": "epoch", "Regex": "'epoch': ([0-9.]+)"},
] # Create SageMaker Estimator instance
sm_estimator = Estimator(
role=aws_role,
image_uri=train_image_uri,
model_uri=train_model_uri,
source_dir=train_script_uri,
entry_point="transfer_learning.py",
instance_count=1,
instance_type=training_instance_type,
volume_size=300,
max_run=360000,
hyperparameters=hyperparameters,
output_path=output_location,
metric_definitions=training_metric_definitions,
) # Launch a SageMaker training job over data located in the given S3 path
# Training jobs can take hours, it is recommended to set wait=False,
# and monitor job status through SageMaker console
sm_estimator.fit({"training": train_data_location}, job_name=training_job_name, wait=False)

În funcție de dimensiunea datelor de reglare fină și a modelului ales, reglarea fină poate dura până la câteva ore.

Puteți monitoriza valorile de performanță, cum ar fi formarea și pierderea de validare folosind Amazon CloudWatch în timpul antrenamentului. În mod convenabil, puteți prelua și cel mai recent instantaneu al valorilor rulând următorul cod:

from sagemaker import TrainingJobAnalytics # This can be called while the job is still running
df = TrainingJobAnalytics(training_job_name=training_job_name).dataframe()
df.head(10) model uri: s3://sagemaker-us-west-2-802376408542/avkan/training-huggingface-text2text-huggingface-text2text-flan-t5-xl-repack.tar.gz
job name: jumpstart-demo-xl-3-2023-04-06-08-16-42-738
INFO:sagemaker:Creating training-job with name: jumpstart-demo-xl-3-2023-04-06-08-16-42-738

Când antrenamentul este complet, aveți un model ajustat la model_uri. Să-l folosim!

Puteți crea două puncte finale de inferență: unul pentru modelul original pre-antrenat și unul pentru modelul reglat fin. Acest lucru vă permite să comparați rezultatul ambelor versiuni ale modelului. În pasul următor, implementați un punct final de inferență pentru modelul pre-antrenat. Apoi implementați un punct final pentru modelul dvs. reglat fin.

Implementați modelul pre-antrenat

Să începem prin a implementa modelul pre-antrenat pentru a prelua URI-ul imaginii Docker de inferență. Aceasta este imaginea de bază a containerului Hugging Face. Utilizați următorul cod:

from sagemaker import image_uris # Retrieve the inference docker image URI. This is the base HuggingFace container image
deploy_image_uri = image_uris.retrieve(
region=None,
framework=None,  # automatically inferred from model_id
model_id=model_id,
model_version=model_version,
image_scope="inference",
instance_type=inference_instance_type,
)

Acum puteți crea punctul final și implementa modelul pre-antrenat. Rețineți că trebuie să treceți clasa Predictor atunci când implementați modelul prin clasa Model pentru a putea rula inferența prin API-ul SageMaker. Vezi următorul cod:

from sagemaker import model_uris, script_uris
from sagemaker.model import Model
from sagemaker.predictor import Predictor
from sagemaker.utils import name_from_base # Retrieve the URI of the pre-trained model
pre_trained_model_uri = model_uris.retrieve(
model_id=model_id, model_version=model_version, model_scope="inference"
) pre_trained_name = name_from_base(f"jumpstart-demo-pre-trained-{model_id}") # Create the SageMaker model instance of the pre-trained model
if ("small" in model_id) or ("base" in model_id):
deploy_source_uri = script_uris.retrieve(
model_id=model_id, model_version=model_version, script_scope="inference"
)
pre_trained_model = Model(
image_uri=deploy_image_uri,
source_dir=deploy_source_uri,
entry_point="inference.py",
model_data=pre_trained_model_uri,
role=aws_role,
predictor_cls=Predictor,
name=pre_trained_name,
)
else:
# For those large models, we already repack the inference script and model
# artifacts for you, so the `source_dir` argument to Model is not required.
pre_trained_model = Model(
image_uri=deploy_image_uri,
model_data=pre_trained_model_uri,
role=aws_role,
predictor_cls=Predictor,
name=pre_trained_name,
) print(f"{bold}image URI:{unbold}{newline} {deploy_image_uri}")
print(f"{bold}model URI:{unbold}{newline} {pre_trained_model_uri}")
print("Deploying an endpoint ...") # Deploy the pre-trained model. Note that we need to pass Predictor class when we deploy model
# through Model class, for being able to run inference through the SageMaker API
pre_trained_predictor = pre_trained_model.deploy(
initial_instance_count=1,
instance_type=inference_instance_type,
predictor_cls=Predictor,
endpoint_name=pre_trained_name,
)
print(f"{newline}Deployed an endpoint {pre_trained_name}")

Crearea punctului final și implementarea modelului pot dura câteva minute, apoi punctul final este gata să primească apeluri de inferență.

Implementați modelul reglat fin

Să implementăm modelul ajustat la propriul punct final. Procesul este aproape identic cu cel pe care l-am folosit mai devreme pentru modelul pre-antrenat. Singura diferență este că folosim numele și URI-ul modelului ajustate:

from sagemaker.model import Model
from sagemaker.predictor import Predictor
from sagemaker.utils import name_from_base fine_tuned_name = name_from_base(f"jumpstart-demo-fine-tuned-{model_id}")
fine_tuned_model_uri = f"{output_location}{training_job_name}/output/model.tar.gz" # Create the SageMaker model instance of the fine-tuned model
fine_tuned_model = Model(
image_uri=deploy_image_uri,
model_data=fine_tuned_model_uri,
role=aws_role,
predictor_cls=Predictor,
name=fine_tuned_name,
) print(f"{bold}image URI:{unbold}{newline} {deploy_image_uri}")
print(f"{bold}model URI:{unbold}{newline} {fine_tuned_model_uri}")
print("Deploying an endpoint ...") # Deploy the fine-tuned model.
fine_tuned_predictor = fine_tuned_model.deploy(
initial_instance_count=1,
instance_type=inference_instance_type,
predictor_cls=Predictor,
endpoint_name=fine_tuned_name,
)
print(f"{newline}Deployed an endpoint {fine_tuned_name}")

Când acest proces este finalizat, atât modelele pre-antrenate, cât și cele reglate fin sunt implementate în spatele propriilor puncte finale. Să comparăm rezultatele lor.

Generați rezultate și comparați rezultatele

Definiți câteva funcții utilitare pentru a interoga punctul final și a analiza răspunsul:

import boto3
import json # Parameters of (output) text generation. A great introduction to generation
# parameters can be found at https://huggingface.co/blog/how-to-generate
parameters = { "max_length": 40,  # restrict the length of the generated text "num_return_sequences": 5,  # we will inspect several model outputs "num_beams": 10,  # use beam search
} # Helper functions for running inference queries
def query_endpoint_with_json_payload(payload, endpoint_name):
encoded_json = json.dumps(payload).encode("utf-8")
client = boto3.client("runtime.sagemaker")
response = client.invoke_endpoint(
EndpointName=endpoint_name, ContentType="application/json", Body=encoded_json
)
return response def parse_response_multiple_texts(query_response):
model_predictions = json.loads(query_response["Body"].read())
generated_text = model_predictions["generated_texts"]
return generated_text def generate_questions(endpoint_name, text):
expanded_prompt = prompt.replace("{context}", text)
payload = {"text_inputs": expanded_prompt, **parameters}
query_response = query_endpoint_with_json_payload(payload, endpoint_name=endpoint_name)
generated_texts = parse_response_multiple_texts(query_response)
for i, generated_text in enumerate(generated_texts):
print(f"Response {i}: {generated_text}{newline}")

În următorul fragment de cod, definim promptul și datele de testare. Descrie sarcina noastră țintă, care este de a genera întrebări care sunt legate de textul furnizat, dar care nu pot primi răspuns pe baza acestuia.

Datele de testare constau din trei paragrafe diferite, unul despre orașul australian Adelaide din primele două paragrafe ale paginii Wikipedia, unul referitor la Magazin Amazon Elastic Block (Amazon EBS) de la Documentația Amazon EBS, și unul dintre Amazon Comprehend de la Documentația Amazon Comprehend. Ne așteptăm ca modelul să identifice întrebări legate de aceste paragrafe, dar la care nu se poate răspunde cu informațiile furnizate în acestea.

prompt = "Ask a question which is related to the following text, but cannot be answered based on the text. Text: {context}" test_paragraphs = [ """
Adelaide is the capital city of South Australia, the state's largest city and the fifth-most populous city in Australia. "Adelaide" may refer to either Greater Adelaide (including the Adelaide Hills) or the Adelaide city centre.
The demonym Adelaidean is used to denote the city and the residents of Adelaide. The Traditional Owners of the Adelaide
region are the Kaurna people. The area of the city centre and surrounding parklands is called Tarndanya in the Kaurna language. Adelaide is situated on the Adelaide Plains north of the Fleurieu Peninsula, between the Gulf St Vincent in the west and
the Mount Lofty Ranges in the east. Its metropolitan area extends 20 km (12 mi) from the coast to the foothills of
the Mount Lofty Ranges, and stretches 96 km (60 mi) from Gawler in the north to Sellicks Beach in the south. """, """
Amazon Elastic Block Store (Amazon EBS) provides block level storage volumes for use with EC2 instances. EBS volumes behave like raw, unformatted block devices. You can mount these volumes as devices on your instances. EBS volumes that are attached to an instance are exposed as storage volumes that persist independently from the life of the instance. You can create a file system on top of these volumes, or use them in any way you would use a block device (such as a hard drive). You can dynamically change the configuration of a volume attached to an instance. We recommend Amazon EBS for data that must be quickly accessible and requires long-term persistence. EBS volumes are particularly well-suited for use as the primary storage for file systems, databases, or for any applications that require fine granular updates and access to raw, unformatted, block-level storage. Amazon EBS is well suited to both database-style applications that rely on random reads and writes, and to throughput-intensive applications that perform long, continuous reads and writes. """, """
Amazon Comprehend uses natural language processing (NLP) to extract insights about the content of documents. It develops insights by recognizing the entities, key phrases, language, sentiments, and other common elements in a document. Use Amazon Comprehend to create new products based on understanding the structure of documents. For example, using Amazon Comprehend you can search social networking feeds for mentions of products or scan an entire document repository for key phrases. You can access Amazon Comprehend document analysis capabilities using the Amazon Comprehend console or using the Amazon Comprehend APIs. You can run real-time analysis for small workloads or you can start asynchronous analysis jobs for large document sets. You can use the pre-trained models that Amazon Comprehend provides, or you can train your own custom models for classification and entity recognition. All of the Amazon Comprehend features accept UTF-8 text documents as the input. In addition, custom classification and custom entity recognition accept image files, PDF files, and Word files as input. Amazon Comprehend can examine and analyze documents in a variety of languages, depending on the specific feature. For more information, see Languages supported in Amazon Comprehend. Amazon Comprehend's Dominant language capability can examine documents and determine the dominant language for a far wider selection of languages. """
]

Acum puteți testa punctele finale folosind articolele exemplu

print(f"{bold}Prompt:{unbold} {repr(prompt)}")
for paragraph in test_paragraphs:
print("-" * 80)
print(paragraph)
print("-" * 80)
print(f"{bold}pre-trained{unbold}")
generate_questions(pre_trained_name, paragraph)
print(f"{bold}fine-tuned{unbold}")
generate_questions(fine_tuned_name, paragraph)

Date de testare: Adelaide

Folosim următorul context:

delaide is the capital city of South Australia, the state's largest city and the fifth-most populous city in Australia. "Adelaide" may refer to either Greater Adelaide (including the Adelaide Hills) or the Adelaide city centre.
The demonym Adelaidean is used to denote the city and the residents of Adelaide. The Traditional Owners of the Adelaide
region are the Kaurna people. The area of the city centre and surrounding parklands is called Tarndanya in the Kaurna language. Adelaide is situated on the Adelaide Plains north of the Fleurieu Peninsula, between the Gulf St Vincent in the west and
the Mount Lofty Ranges in the east. Its metropolitan area extends 20 km (12 mi) from the coast to the foothills of
the Mount Lofty Ranges, and stretches 96 km (60 mi) from Gawler in the north to Sellicks Beach in the south.

Răspunsul modelului pre-antrenat este următorul:

Response 0: What is the area of the city centre and surrounding parklands called in the Kaurna language?
Response 1: What is the area of the city centre and surrounding parklands is called Tarndanya in the Kaurna language?
Response 2: What is the area of the city centre and surrounding parklands called in Kaurna?
Response 3: What is the capital city of South Australia?
Response 4: What is the area of the city centre and surrounding parklands known as in the Kaurna language?

Răspunsurile ajustate ale modelului sunt după cum urmează:

Response 0: What is the second most populous city in Australia?
Response 1: What is the fourth most populous city in Australia?
Response 2: What is the population of Gawler?
Response 3: What is the largest city in Australia?
Response 4: What is the fifth most populous city in the world?

Date de testare: Amazon EBS

Folosim următorul context:

Amazon Elastic Block Store (Amazon EBS) provides block level storage volumes for use with EC2 instances. EBS volumes behave like raw, unformatted block devices. You can mount these volumes as devices on your instances. EBS volumes that are attached to an instance are exposed as storage volumes that persist independently from the life of the instance. You can create a file system on top of these volumes, or use them in any way you would use a block device (such as a hard drive). You can dynamically change the configuration of a volume attached to an instance. We recommend Amazon EBS for data that must be quickly accessible and requires long-term persistence. EBS volumes are particularly well-suited for use as the primary storage for file systems, databases, or for any applications that require fine granular updates and access to raw, unformatted, block-level storage. Amazon EBS is well suited to both database-style applications that rely on random reads and writes, and to throughput-intensive applications that perform long, continuous reads and writes.

Răspunsurile modelului pre-antrenat sunt după cum urmează:

esponse 0: What is the difference between Amazon EBS and Amazon Elastic Block Store (Amazon EBS)?
Response 1: What is the difference between Amazon EBS and Amazon Elastic Block Store?
Response 2: What is the difference between Amazon EBS and Amazon Simple Storage Service (Amazon S3)?
Response 3: What is Amazon Elastic Block Store (Amazon EBS)?
Response 4: What is the difference between Amazon EBS and a hard drive?

Răspunsurile ajustate ale modelului sunt după cum urmează:

Response 0: What type of applications are not well suited to Amazon EBS?
Response 1: What behaves like formatted block devices?
Response 2: What type of applications are not suited to Amazon EBS?
Response 3: What type of applications are not well suited for Amazon EBS?
Response 4: What type of applications are not suited for Amazon EBS?

Date de testare: Amazon Comprehend

Folosim următorul context:

Amazon Comprehend uses natural language processing (NLP) to extract insights about the content of documents. It develops insights by recognizing the entities, key phrases, language, sentiments, and other common elements in a document. Use Amazon Comprehend to create new products based on understanding the structure of documents. For example, using Amazon Comprehend you can search social networking feeds for mentions of products or scan an entire document repository for key phrases. You can access Amazon Comprehend document analysis capabilities using the Amazon Comprehend console or using the Amazon Comprehend APIs. You can run real-time analysis for small workloads or you can start asynchronous analysis jobs for large document sets. You can use the pre-trained models that Amazon Comprehend provides, or you can train your own custom models for classification and entity recognition. All of the Amazon Comprehend features accept UTF-8 text documents as the input. In addition, custom classification and custom entity recognition accept image files, PDF files, and Word files as input. Amazon Comprehend can examine and analyze documents in a variety of languages, depending on the specific feature. For more information, see Languages supported in Amazon Comprehend. Amazon Comprehend's Dominant language capability can examine documents and determine the dominant language for a far wider selection of languages.

Răspunsurile modelului pre-antrenat sunt după cum urmează:

Response 0: What does Amazon Comprehend use to extract insights about the content of documents?
Response 1: How does Amazon Comprehend extract insights about the content of documents?
Response 2: What does Amazon Comprehend use to develop insights about the content of documents?
Response 3: How does Amazon Comprehend develop insights about the content of documents?
Response 4: What does Amazon Comprehend use to extract insights about the content of a document?

Răspunsurile ajustate ale modelului sunt după cum urmează:

Response 0: What does Amazon Comprehend use to extract insights about the structure of documents?
Response 1: How does Amazon Comprehend recognize sentiments in a document?
Response 2: What does Amazon Comprehend use to extract insights about the content of social networking feeds?
Response 3: What does Amazon Comprehend use to extract insights about the content of documents?
Response 4: What type of files does Amazon Comprehend reject as input?

Diferența de calitate a ieșirii dintre modelul pre-antrenat și modelul reglat fin este puternică. Întrebările oferite de modelul ajustat ating o gamă mai largă de subiecte. Sunt întrebări semnificative în mod sistematic, ceea ce nu este întotdeauna cazul pentru modelul pre-antrenat, așa cum este ilustrat cu exemplul Amazon EBS.

Deși aceasta nu constituie o evaluare formală și sistematică, este clar că procesul de reglare fină a îmbunătățit calitatea răspunsurilor modelului la această sarcină.

A curăța

În cele din urmă, nu uitați să curățați și să ștergeți punctele finale:

# Delete resources
pre_trained_predictor.delete_model()
pre_trained_predictor.delete_endpoint()
fine_tuned_predictor.delete_model()
fine_tuned_predictor.delete_endpoint()

Concluzie

În această postare, am arătat cum să utilizați reglarea fină a instrucțiunilor cu modelele FLAN T5 utilizând interfața de utilizare Jumpstart sau un notebook Jupyter care rulează în Studio. Am furnizat cod care explică cum să reantrenați modelul folosind date pentru sarcina țintă și să implementăm modelul reglat fin în spatele unui punct final. Sarcina țintă din această postare a fost să identifice întrebările care se referă la o bucată de text furnizată în intrare, dar la care nu se poate răspunde pe baza informațiilor furnizate în textul respectiv. Am demonstrat că un model reglat fin pentru această sarcină specifică oferă rezultate mai bune decât un model pre-antrenat.

Acum că știți cum să reglați fin un model cu Jumpstart, puteți crea modele puternice personalizate pentru aplicația dvs. Adunați câteva date pentru cazul dvs. de utilizare, le-ați încărcat pe Amazon S3 și utilizați fie interfața de utilizare Studio, fie notebook-ul pentru a regla un model FLAN T5!

Referinte

[1] Chung, Hyung Won, et al. „Scalarea modelelor de limbaj ajustate pentru instrucțiuni.” arXiv preprint arXiv:2210.11416 (2022).

[2] Rajpurkar, Pranav, Robin Jia și Percy Liang. „Știți ce nu știți: întrebări fără răspuns pentru SQuAD.” Actele celei de-a 56-a reuniuni anuale a Asociației pentru Lingvistică Computațională (Volumul 2: Lucrări scurte). 2018.

Despre autori

Laurent Callot este om de știință aplicat principal și manager la AWS AI Labs, care a lucrat la o varietate de probleme de învățare automată, de la modele fundamentale și AI generativă până la prognoză, detectarea anomaliilor, cauzalitate și operațiuni AI.

Andrei Kan este cercetător senior aplicat la AWS AI Labs, cu interese și experiență în diferite domenii ale învățării automate. Acestea includ cercetări asupra modelelor de fundație, precum și aplicații ML pentru grafice și serii de timp.

Dr. Ashish Khetan este un om de știință senior aplicat cu algoritmi încorporați Amazon SageMaker și ajută la dezvoltarea algoritmilor de învățare automată. Și-a luat doctoratul la Universitatea din Illinois Urbana Champaign. Este un cercetător activ în învățarea automată și inferența statistică și a publicat multe lucrări în conferințele NeurIPS, ICML, ICLR, JMLR, ACL și EMNLP.

Baris Kurt este un om de știință aplicat la AWS AI Labs. Interesele sale sunt în detectarea anomaliilor în serie de timp și modelele de fundare. Îi place să dezvolte sisteme ML ușor de utilizat.

Jonas Kübler este un om de știință aplicat la AWS AI Labs. El lucrează la modele de fundație cu scopul de a facilita aplicațiile specifice cazurilor de utilizare.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoAiStream. Web3 Data Intelligence. Cunoștințe amplificate. Accesați Aici.
Mintând viitorul cu Adryenn Ashley. Accesați Aici.
Cumpărați și vindeți acțiuni în companii PRE-IPO cu PREIPO®. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/instruction-fine-tuning-for-flan-t5-xl-with-amazon-sagemaker-jumpstart/

Timestamp-ul: 22 Mai, 2023

Timestamp-ul: Iunie 20, 2023

Republicat de Platon

Detectați intrările adverse folosind Amazon SageMaker Model Monitor și Amazon SageMaker Debugger

Generare îmbunătățită prin recuperare cu LangChain, Amazon SageMaker JumpStart și căutare semantică MongoDB Atlas | Amazon Web Services

Creați aplicații AI generative pregătite pentru producție pentru căutarea întreprinderilor folosind conducte Haystack și Amazon SageMaker JumpStart cu LLM-uri | Amazon Web Services

Reconstrucție imagistică medicală bazată pe cloud folosind rețele neuronale profunde

Vă prezentăm noile vizualizări încorporate ale Amazon SageMaker Data Wrangler

InformedIQ automatizează verificările pentru împrumuturile automate de la Origence folosind învățarea automată

Reduceți consumul de energie al sarcinilor de lucru de învățare automată cu până la 90% cu acceleratoarele AWS special create | Amazon Web Services

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont