Instruction Fine-tuning For FLAN T5 XL With Amazon SageMaker Jumpstart

Ponovno objavil Platon

Spremljevalci: 0

Generative AI je sredi obdobja osupljive rasti. Nenehno se objavljajo vse bolj zmogljivi osnovni modeli, pri čemer so veliki jezikovni modeli (LLM) eden najbolj vidnih razredov modelov. LLM so modeli, sestavljeni iz milijard parametrov, usposobljenih na obsežnih korpusih besedila, do več sto milijard ali celo bilijona žetonov. Ti modeli so se izkazali za izjemno učinkovite za širok nabor besedilnih nalog, od odgovorov na vprašanja do analize razpoloženja.

Moč LLM izvira iz njihove sposobnosti učenja in posploševanja iz obsežnih in raznolikih podatkov o usposabljanju. Začetno usposabljanje teh modelov se izvaja z različnimi cilji, nadzorovanimi, nenadzorovanimi ali hibridnimi. Dokončanje besedila ali imputacija je eden najpogostejših nenadzorovanih ciljev: glede na kos besedila se model nauči natančno napovedati, kaj sledi (na primer predvideti naslednji stavek). Modele je mogoče uriti tudi na nadzorovan način z uporabo označenih podatkov za izvedbo niza nalog (na primer, ali je ta filmska ocena pozitivna, negativna ali nevtralna). Ne glede na to, ali je model usposobljen za dokončanje besedila ali kakšno drugo nalogo, to pogosto ni naloga, za katero stranke želijo uporabiti model.

Za izboljšanje uspešnosti predhodno usposobljenega LLM na določeni nalogi lahko prilagodimo model z uporabo primerov ciljne naloge v procesu, znanem kot natančna nastavitev navodil. Natančno uravnavanje navodil uporablja nabor označenih primerov v obliki parov {poziv, odgovor} za nadaljnje usposabljanje vnaprej usposobljenega modela za ustrezno napovedovanje odziva, ki ga prejme poziv. Ta postopek spremeni uteži modela.

Ta objava opisuje, kako izvesti natančno nastavitev navodil LLM, in sicer FLAN T5 XL, z uporabo Amazon SageMaker Jumpstart. Prikazali smo, kako to doseči z uporabo uporabniškega vmesnika Jumpstart in zvezka v Amazon SageMaker Studio. Lahko najdete spremljajoči zvezek v amazon-sagemaker-primeri Repozitorij GitHub.

Pregled rešitev

Ciljna naloga v tej objavi je glede na del besedila v pozivu vrniti vprašanja, ki so povezana z besedilom, vendar nanje ni mogoče odgovoriti na podlagi informacij, ki jih vsebuje. To je uporabna naloga za prepoznavanje manjkajočih informacij v opisu ali ugotavljanje, ali poizvedba potrebuje več informacij za odgovor.

Modeli FLAN T5 so navodila, ki so natančno prilagojena za širok nabor nalog, da bi povečali zmogljivost teh modelov z ničelnim strelom pri mnogih pogostih nalogah [1]. Dodatno natančno prilagajanje navodil za določeno nalogo stranke lahko dodatno poveča natančnost teh modelov, zlasti če ciljna naloga ni bila predhodno uporabljena za usposabljanje modela FLAN T5, kot je to v primeru naše naloge.

V naši vzorčni nalogi nas zanima ustvarjanje ustreznih, a neodgovorjenih vprašanj. V ta namen uporabljamo podmnožico različice 2 nabora podatkov Stanford Question Answering Dataset (SQuAD2.0) [2] za natančno nastavitev modela. Ta nabor podatkov vsebuje vprašanja, ki so jih postavili človeški označevalci niza člankov v Wikipediji. Poleg vprašanj z odgovori SQuAD2.0 vsebuje približno 50,000 neodgovorljivih vprašanj. Takšna vprašanja so verjetna, vendar nanje ni mogoče neposredno odgovoriti iz vsebine člankov. Uporabljamo samo vprašanja, na katera ni odgovora. Naši podatki so strukturirani kot datoteka vrstic JSON, pri čemer vsaka vrstica vsebuje kontekst in vprašanje.

Posnetek zaslona nekaj vnosov nabora podatkov SQuADv2.

Predpogoji

Za začetek potrebujete le račun AWS, v katerem lahko uporabljate Studio. Ustvariti boste morali uporabniški profil za Studio, če ga še nimate.

Natančno nastavite FLAN-T5 z uporabniškim vmesnikom Jumpstart

Za natančno nastavitev modela z uporabniškim vmesnikom Jumpstart izvedite naslednje korake:

Na konzoli SageMaker odprite Studio.
Pod SageMaker Jumpstart v podoknu za krmarjenje izberite Modeli, zvezki, rešitve.

Videli boste seznam temeljnih modelov, vključno s FLAN T5 XL, ki je označen kot fino nastavljiv.

Izberite Ogled modela.

Uporabniški vmesnik JumpStart s FLAN-T5 XL.

Pod Vir podatkov, lahko zagotovite pot do svojih podatkov o vadbi. Vir podatkov, uporabljenih v tej objavi, je privzeto naveden.
Lahko obdržite privzeto vrednost za konfiguracijo razmestitve (vključno z vrsto primerka), varnost in hiperparametre, vendar morate povečati število epoh na vsaj tri, da dobite dobre rezultate.
Izberite Vlak za usposabljanje modela.

Uporabniški vmesnik vlaka JumpStart za model FLAN-T5 XL.

Statusu usposabljanja lahko sledite v uporabniškem vmesniku.

Uporabniški vmesnik Jumpstart za usposabljanje v teku.

Ko je trening končan (po približno 53 minutah v našem primeru), izberite uvajanje za uvedbo natančno nastavljenega modela.

Usposabljanje uporabniškega vmesnika JumpStart končano.

Ko je končna točka ustvarjena (nekaj minut), lahko odprete zvezek in začnete uporabljati svoj natančno nastavljen model.

Natančno nastavite FLAN-T5 z uporabo prenosnega računalnika Python

Naš primer prenosnega računalnika prikazuje, kako uporabiti Jumpstart in SageMaker za programsko natančno nastavitev in uvajanje modela FLAN T5 XL. Lahko se izvaja v Studiu ali lokalno.

V tem razdelku si najprej ogledamo nekatere splošne nastavitve. Nato natančno prilagodite model z uporabo naborov podatkov SQuADv2. Nato uvedete vnaprej usposobljeno različico modela za končno točko SageMaker in storite enako z natančno nastavljenim modelom. Končno lahko povprašate po končnih točkah in primerjate kakovost izhoda vnaprej usposobljenega in natančno nastavljenega modela. Ugotovili boste, da je rezultat natančno nastavljenega modela veliko višje kakovosti.

Nastavite predpogoje

Začnite z namestitvijo in nadgradnjo potrebnih paketov. Ponovno zaženite jedro, potem ko zaženete naslednjo kodo:

!pip install nest-asyncio==1.5.5 --quiet
!pip install ipywidgets==8.0.4 --quiet
!pip install --upgrade sagemaker --quiet

Nato pridobite izvršilno vlogo, povezano s trenutnim primerkom prenosnika:

import boto3
import sagemaker
# Get current region, role, and default bucket
aws_region = boto3.Session().region_name
aws_role = sagemaker.session.Session().get_caller_identity_arn()
output_bucket = sagemaker.Session().default_bucket()
# This will be useful for printing
newline, bold, unbold = "n", "33[1m", "33[0m"
print(f"{bold}aws_region:{unbold} {aws_region}")
print(f"{bold}aws_role:{unbold} {aws_role}")
print(f"{bold}output_bucket:{unbold} {output_bucket}"

Določite lahko priročen spustni meni, ki bo navedel velikosti modelov, ki so na voljo za natančno nastavitev:

import IPython
from ipywidgets import Dropdown
from sagemaker.jumpstart.filters import And
from sagemaker.jumpstart.notebook_utils import list_jumpstart_models
# Default model choice
model_id = "huggingface-text2text-flan-t5-xl"
# Identify FLAN T5 models that support fine-tuning
filter_value = And( "task == text2text", "framework == huggingface", "training_supported == true"
)
model_list = [m for m in list_jumpstart_models(filter=filter_value) if "flan-t5" in m]
# Display the model IDs in a dropdown, for user to select
dropdown = Dropdown(
value=model_id,
options=model_list,
description="FLAN T5 models available for fine-tuning:",
style={"description_width": "initial"},
layout={"width": "max-content"},
)
display(IPython.display.Markdown("### Select a pre-trained model from the dropdown below"))
display(dropdown)

Jumpstart samodejno pridobi ustrezne vrste instanc usposabljanja in sklepanja za model, ki ste ga izbrali:

from sagemaker.instance_types import retrieve_default
model_id, model_version = dropdown.value, "*"
# Instance types for training and inference
training_instance_type = retrieve_default(
model_id=model_id, model_version=model_version, scope="training"
)
inference_instance_type = retrieve_default(
model_id=model_id, model_version=model_version, scope="inference"
)
print(f"{bold}model_id:{unbold} {model_id}")
print(f"{bold}training_instance_type:{unbold} {training_instance_type}")
print(f"{bold}inference_instance_type:{unbold} {inference_instance_type}") If you have chosen the FLAN T5 XL, you will see the following output: model_id: huggingface-text2text-flan-t5-xl training_instance_type: ml.p3.16xlarge inference_instance_type: ml.g5.2xlarge

Zdaj ste pripravljeni na začetek natančnega prilagajanja.

Ponovno usposobite model na naboru podatkov za natančno uravnavanje

Ko je nastavitev končana, izvedite naslednje korake:

Uporabite naslednjo kodo, da pridobite URI za potrebne artefakte:

from sagemaker import image_uris, model_uris, script_uris
# Training instance will use this image
train_image_uri = image_uris.retrieve(
region=aws_region,
framework=None,  # automatically inferred from model_id
model_id=model_id,
model_version=model_version,
image_scope="training",
instance_type=training_instance_type,
)
# Pre-trained model
train_model_uri = model_uris.retrieve(
model_id=model_id, model_version=model_version, model_scope="training"
)
# Script to execute on the training instance
train_script_uri = script_uris.retrieve(
model_id=model_id, model_version=model_version, script_scope="training"
)
print(f"{bold}image uri:{unbold} {train_image_uri}")
print(f"{bold}model uri:{unbold} {train_model_uri}")
print(f"{bold}script uri:{unbold} {train_script_uri}")

Podatki o usposabljanju so v javnosti Preprosta storitev shranjevanja Amazon (Amazon S3) vedro.

Uporabite naslednjo kodo, da pokažete na lokacijo podatkov in nastavite izhodno lokacijo v vedru v svojem računu:

from sagemaker.s3 import S3Downloader # We will use the train split of SQuAD2.0
original_data_file = "train-v2.0.json" # The data was mirrored in the following bucket
original_data_location = f"s3://sagemaker-sample-files/datasets/text/squad2.0/{original_data_file}"
S3Downloader.download(original_data_location, ".")

Izvirni podatki niso v obliki, ki ustreza nalogi, za katero natančno prilagajate model, zato jih lahko preoblikujete:

import json local_data_file = "task-data.jsonl"  # any name with .jsonl extension with open(original_data_file) as f:
data = json.load(f) with open(local_data_file, "w") as f:
for article in data["data"]:
for paragraph in article["paragraphs"]:
# iterate over questions for a given paragraph
for qas in paragraph["qas"]:
if qas["is_impossible"]:
# the question is relevant, but cannot be answered
example = {"context": paragraph["context"], "question": qas["question"]}
json.dump(example, f)
f.write("n") template = { "prompt": "Ask a question which is related to the following text, but cannot be answered based on the text. Text: {context}", "completion": "{question}",
}
with open("template.json", "w") as f:
json.dump(template, f) from sagemaker.s3 import S3Uploader train_data_location = f"s3://{output_bucket}/train_data"
S3Uploader.upload(local_data_file, train_data_location)
S3Uploader.upload("template.json", train_data_location)
print(f"{bold}training data:{unbold} {train_data_location}")

Zdaj lahko določite nekaj hiperparametrov za usposabljanje:

from sagemaker import hyperparameters # Retrieve the default hyper-parameters for fine-tuning the model
hyperparameters = hyperparameters.retrieve_default(model_id=model_id, model_version=model_version) # We will override some default hyperparameters with custom values
hyperparameters["epochs"] = "3"
# TODO
# hyperparameters["max_input_length"] = "300"  # data inputs will be truncated at this length
# hyperparameters["max_output_length"] = "40"  # data outputs will be truncated at this length
# hyperparameters["generation_max_length"] = "40"  # max length of generated output
print(hyperparameters)

Zdaj ste pripravljeni na začetek usposabljanja:

from sagemaker.estimator import Estimator
from sagemaker.utils import name_from_base model_name = "-".join(model_id.split("-")[2:])  # get the most informative part of ID
training_job_name = name_from_base(f"js-demo-{model_name}-{hyperparameters['epochs']}")
print(f"{bold}job name:{unbold} {training_job_name}") training_metric_definitions = [
{"Name": "val_loss", "Regex": "'eval_loss': ([0-9.]+)"},
{"Name": "train_loss", "Regex": "'loss': ([0-9.]+)"},
{"Name": "epoch", "Regex": "'epoch': ([0-9.]+)"},
] # Create SageMaker Estimator instance
sm_estimator = Estimator(
role=aws_role,
image_uri=train_image_uri,
model_uri=train_model_uri,
source_dir=train_script_uri,
entry_point="transfer_learning.py",
instance_count=1,
instance_type=training_instance_type,
volume_size=300,
max_run=360000,
hyperparameters=hyperparameters,
output_path=output_location,
metric_definitions=training_metric_definitions,
) # Launch a SageMaker training job over data located in the given S3 path
# Training jobs can take hours, it is recommended to set wait=False,
# and monitor job status through SageMaker console
sm_estimator.fit({"training": train_data_location}, job_name=training_job_name, wait=False)

Odvisno od velikosti podatkov za natančno nastavitev in izbranega modela lahko natančna nastavitev traja do nekaj ur.

Z uporabo lahko spremljate meritve uspešnosti, kot sta izguba usposabljanja in validacije amazoncloudwatch med treningom. Prav tako lahko pridobite najnovejši posnetek meritev, tako da zaženete naslednjo kodo:

from sagemaker import TrainingJobAnalytics # This can be called while the job is still running
df = TrainingJobAnalytics(training_job_name=training_job_name).dataframe()
df.head(10) model uri: s3://sagemaker-us-west-2-802376408542/avkan/training-huggingface-text2text-huggingface-text2text-flan-t5-xl-repack.tar.gz
job name: jumpstart-demo-xl-3-2023-04-06-08-16-42-738
INFO:sagemaker:Creating training-job with name: jumpstart-demo-xl-3-2023-04-06-08-16-42-738

Ko je usposabljanje končano, imate na voljo natančno nastavljen model model_uri. Uporabimo ga!

Ustvarite lahko dve končni točki sklepanja: eno za izvirni vnaprej usposobljeni model in eno za natančno nastavljen model. To vam omogoča primerjavo rezultatov obeh različic modela. V naslednjem koraku uvedete končno točko sklepanja za predhodno usposobljen model. Nato uvedete končno točko za svoj natančno nastavljen model.

Razmestite vnaprej usposobljeni model

Začnimo z uvedbo vnaprej usposobljenega modela za pridobitev URI-ja sklepne slike Docker. To je osnovna slika vsebnika Hugging Face. Uporabite naslednjo kodo:

from sagemaker import image_uris # Retrieve the inference docker image URI. This is the base HuggingFace container image
deploy_image_uri = image_uris.retrieve(
region=None,
framework=None,  # automatically inferred from model_id
model_id=model_id,
model_version=model_version,
image_scope="inference",
instance_type=inference_instance_type,
)

Zdaj lahko ustvarite končno točko in uvedete vnaprej usposobljeni model. Upoštevajte, da morate posredovati razred Predictor pri uvajanju modela prek razreda Model, da lahko izvajate sklepanje prek API-ja SageMaker. Oglejte si naslednjo kodo:

from sagemaker import model_uris, script_uris
from sagemaker.model import Model
from sagemaker.predictor import Predictor
from sagemaker.utils import name_from_base # Retrieve the URI of the pre-trained model
pre_trained_model_uri = model_uris.retrieve(
model_id=model_id, model_version=model_version, model_scope="inference"
) pre_trained_name = name_from_base(f"jumpstart-demo-pre-trained-{model_id}") # Create the SageMaker model instance of the pre-trained model
if ("small" in model_id) or ("base" in model_id):
deploy_source_uri = script_uris.retrieve(
model_id=model_id, model_version=model_version, script_scope="inference"
)
pre_trained_model = Model(
image_uri=deploy_image_uri,
source_dir=deploy_source_uri,
entry_point="inference.py",
model_data=pre_trained_model_uri,
role=aws_role,
predictor_cls=Predictor,
name=pre_trained_name,
)
else:
# For those large models, we already repack the inference script and model
# artifacts for you, so the `source_dir` argument to Model is not required.
pre_trained_model = Model(
image_uri=deploy_image_uri,
model_data=pre_trained_model_uri,
role=aws_role,
predictor_cls=Predictor,
name=pre_trained_name,
) print(f"{bold}image URI:{unbold}{newline} {deploy_image_uri}")
print(f"{bold}model URI:{unbold}{newline} {pre_trained_model_uri}")
print("Deploying an endpoint ...") # Deploy the pre-trained model. Note that we need to pass Predictor class when we deploy model
# through Model class, for being able to run inference through the SageMaker API
pre_trained_predictor = pre_trained_model.deploy(
initial_instance_count=1,
instance_type=inference_instance_type,
predictor_cls=Predictor,
endpoint_name=pre_trained_name,
)
print(f"{newline}Deployed an endpoint {pre_trained_name}")

Ustvarjanje končne točke in uvedba modela lahko traja nekaj minut, nato pa je vaša končna točka pripravljena na sprejemanje sklepnih klicev.

Razmestite natančno nastavljen model

Razmestimo natančno nastavljen model na lastno končno točko. Postopek je skoraj enak tistemu, ki smo ga uporabili prej za predhodno usposobljen model. Edina razlika je v tem, da uporabljamo natančno nastavljeno ime modela in URI:

from sagemaker.model import Model
from sagemaker.predictor import Predictor
from sagemaker.utils import name_from_base fine_tuned_name = name_from_base(f"jumpstart-demo-fine-tuned-{model_id}")
fine_tuned_model_uri = f"{output_location}{training_job_name}/output/model.tar.gz" # Create the SageMaker model instance of the fine-tuned model
fine_tuned_model = Model(
image_uri=deploy_image_uri,
model_data=fine_tuned_model_uri,
role=aws_role,
predictor_cls=Predictor,
name=fine_tuned_name,
) print(f"{bold}image URI:{unbold}{newline} {deploy_image_uri}")
print(f"{bold}model URI:{unbold}{newline} {fine_tuned_model_uri}")
print("Deploying an endpoint ...") # Deploy the fine-tuned model.
fine_tuned_predictor = fine_tuned_model.deploy(
initial_instance_count=1,
instance_type=inference_instance_type,
predictor_cls=Predictor,
endpoint_name=fine_tuned_name,
)
print(f"{newline}Deployed an endpoint {fine_tuned_name}")

Ko je ta postopek končan, se vnaprej usposobljeni in natančno nastavljeni modeli razmestijo za lastne končne točke. Primerjajmo njihove rezultate.

Ustvarite rezultate in primerjajte rezultate

Definirajte nekaj pomožnih funkcij za poizvedovanje končne točke in razčlenitev odgovora:

import boto3
import json # Parameters of (output) text generation. A great introduction to generation
# parameters can be found at https://huggingface.co/blog/how-to-generate
parameters = { "max_length": 40,  # restrict the length of the generated text "num_return_sequences": 5,  # we will inspect several model outputs "num_beams": 10,  # use beam search
} # Helper functions for running inference queries
def query_endpoint_with_json_payload(payload, endpoint_name):
encoded_json = json.dumps(payload).encode("utf-8")
client = boto3.client("runtime.sagemaker")
response = client.invoke_endpoint(
EndpointName=endpoint_name, ContentType="application/json", Body=encoded_json
)
return response def parse_response_multiple_texts(query_response):
model_predictions = json.loads(query_response["Body"].read())
generated_text = model_predictions["generated_texts"]
return generated_text def generate_questions(endpoint_name, text):
expanded_prompt = prompt.replace("{context}", text)
payload = {"text_inputs": expanded_prompt, **parameters}
query_response = query_endpoint_with_json_payload(payload, endpoint_name=endpoint_name)
generated_texts = parse_response_multiple_texts(query_response)
for i, generated_text in enumerate(generated_texts):
print(f"Response {i}: {generated_text}{newline}")

V naslednjem delčku kode definiramo poziv in testne podatke. Opisuje našo ciljno nalogo, to je ustvarjanje vprašanj, ki so povezana s podanim besedilom, vendar nanje ni mogoče odgovoriti na podlagi njega.

Testni podatki so sestavljeni iz treh različnih odstavkov, enega o avstralskem mestu Adelaide iz prva dva odstavka strani Wikipedije, ena glede Trgovina z elastičnimi bloki Amazon (Amazon EBS) od Dokumentacija Amazon EBS, in eno od Amazonsko razumevanje Iz Dokumentacija Amazon Comprehend. Pričakujemo, da bo model identificiral vprašanja, povezana s temi odstavki, vendar nanje ni mogoče odgovoriti z informacijami, ki so v njih navedene.

prompt = "Ask a question which is related to the following text, but cannot be answered based on the text. Text: {context}" test_paragraphs = [ """
Adelaide is the capital city of South Australia, the state's largest city and the fifth-most populous city in Australia. "Adelaide" may refer to either Greater Adelaide (including the Adelaide Hills) or the Adelaide city centre.
The demonym Adelaidean is used to denote the city and the residents of Adelaide. The Traditional Owners of the Adelaide
region are the Kaurna people. The area of the city centre and surrounding parklands is called Tarndanya in the Kaurna language. Adelaide is situated on the Adelaide Plains north of the Fleurieu Peninsula, between the Gulf St Vincent in the west and
the Mount Lofty Ranges in the east. Its metropolitan area extends 20 km (12 mi) from the coast to the foothills of
the Mount Lofty Ranges, and stretches 96 km (60 mi) from Gawler in the north to Sellicks Beach in the south. """, """
Amazon Elastic Block Store (Amazon EBS) provides block level storage volumes for use with EC2 instances. EBS volumes behave like raw, unformatted block devices. You can mount these volumes as devices on your instances. EBS volumes that are attached to an instance are exposed as storage volumes that persist independently from the life of the instance. You can create a file system on top of these volumes, or use them in any way you would use a block device (such as a hard drive). You can dynamically change the configuration of a volume attached to an instance. We recommend Amazon EBS for data that must be quickly accessible and requires long-term persistence. EBS volumes are particularly well-suited for use as the primary storage for file systems, databases, or for any applications that require fine granular updates and access to raw, unformatted, block-level storage. Amazon EBS is well suited to both database-style applications that rely on random reads and writes, and to throughput-intensive applications that perform long, continuous reads and writes. """, """
Amazon Comprehend uses natural language processing (NLP) to extract insights about the content of documents. It develops insights by recognizing the entities, key phrases, language, sentiments, and other common elements in a document. Use Amazon Comprehend to create new products based on understanding the structure of documents. For example, using Amazon Comprehend you can search social networking feeds for mentions of products or scan an entire document repository for key phrases. You can access Amazon Comprehend document analysis capabilities using the Amazon Comprehend console or using the Amazon Comprehend APIs. You can run real-time analysis for small workloads or you can start asynchronous analysis jobs for large document sets. You can use the pre-trained models that Amazon Comprehend provides, or you can train your own custom models for classification and entity recognition. All of the Amazon Comprehend features accept UTF-8 text documents as the input. In addition, custom classification and custom entity recognition accept image files, PDF files, and Word files as input. Amazon Comprehend can examine and analyze documents in a variety of languages, depending on the specific feature. For more information, see Languages supported in Amazon Comprehend. Amazon Comprehend's Dominant language capability can examine documents and determine the dominant language for a far wider selection of languages. """
]

Zdaj lahko preizkusite končne točke z uporabo primerov člankov

print(f"{bold}Prompt:{unbold} {repr(prompt)}")
for paragraph in test_paragraphs:
print("-" * 80)
print(paragraph)
print("-" * 80)
print(f"{bold}pre-trained{unbold}")
generate_questions(pre_trained_name, paragraph)
print(f"{bold}fine-tuned{unbold}")
generate_questions(fine_tuned_name, paragraph)

Testni podatki: Adelaide

Uporabljamo naslednji kontekst:

delaide is the capital city of South Australia, the state's largest city and the fifth-most populous city in Australia. "Adelaide" may refer to either Greater Adelaide (including the Adelaide Hills) or the Adelaide city centre.
The demonym Adelaidean is used to denote the city and the residents of Adelaide. The Traditional Owners of the Adelaide
region are the Kaurna people. The area of the city centre and surrounding parklands is called Tarndanya in the Kaurna language. Adelaide is situated on the Adelaide Plains north of the Fleurieu Peninsula, between the Gulf St Vincent in the west and
the Mount Lofty Ranges in the east. Its metropolitan area extends 20 km (12 mi) from the coast to the foothills of
the Mount Lofty Ranges, and stretches 96 km (60 mi) from Gawler in the north to Sellicks Beach in the south.

Odziv vnaprej usposobljenega modela je naslednji:

Response 0: What is the area of the city centre and surrounding parklands called in the Kaurna language?
Response 1: What is the area of the city centre and surrounding parklands is called Tarndanya in the Kaurna language?
Response 2: What is the area of the city centre and surrounding parklands called in Kaurna?
Response 3: What is the capital city of South Australia?
Response 4: What is the area of the city centre and surrounding parklands known as in the Kaurna language?

Natančno nastavljeni odzivi modela so naslednji:

Response 0: What is the second most populous city in Australia?
Response 1: What is the fourth most populous city in Australia?
Response 2: What is the population of Gawler?
Response 3: What is the largest city in Australia?
Response 4: What is the fifth most populous city in the world?

Testni podatki: Amazon EBS

Uporabljamo naslednji kontekst:

Amazon Elastic Block Store (Amazon EBS) provides block level storage volumes for use with EC2 instances. EBS volumes behave like raw, unformatted block devices. You can mount these volumes as devices on your instances. EBS volumes that are attached to an instance are exposed as storage volumes that persist independently from the life of the instance. You can create a file system on top of these volumes, or use them in any way you would use a block device (such as a hard drive). You can dynamically change the configuration of a volume attached to an instance. We recommend Amazon EBS for data that must be quickly accessible and requires long-term persistence. EBS volumes are particularly well-suited for use as the primary storage for file systems, databases, or for any applications that require fine granular updates and access to raw, unformatted, block-level storage. Amazon EBS is well suited to both database-style applications that rely on random reads and writes, and to throughput-intensive applications that perform long, continuous reads and writes.

Vnaprej usposobljeni odgovori modela so naslednji:

esponse 0: What is the difference between Amazon EBS and Amazon Elastic Block Store (Amazon EBS)?
Response 1: What is the difference between Amazon EBS and Amazon Elastic Block Store?
Response 2: What is the difference between Amazon EBS and Amazon Simple Storage Service (Amazon S3)?
Response 3: What is Amazon Elastic Block Store (Amazon EBS)?
Response 4: What is the difference between Amazon EBS and a hard drive?

Natančno nastavljeni odzivi modela so naslednji:

Response 0: What type of applications are not well suited to Amazon EBS?
Response 1: What behaves like formatted block devices?
Response 2: What type of applications are not suited to Amazon EBS?
Response 3: What type of applications are not well suited for Amazon EBS?
Response 4: What type of applications are not suited for Amazon EBS?

Testni podatki: Amazon Comprehend

Uporabljamo naslednji kontekst:

Amazon Comprehend uses natural language processing (NLP) to extract insights about the content of documents. It develops insights by recognizing the entities, key phrases, language, sentiments, and other common elements in a document. Use Amazon Comprehend to create new products based on understanding the structure of documents. For example, using Amazon Comprehend you can search social networking feeds for mentions of products or scan an entire document repository for key phrases. You can access Amazon Comprehend document analysis capabilities using the Amazon Comprehend console or using the Amazon Comprehend APIs. You can run real-time analysis for small workloads or you can start asynchronous analysis jobs for large document sets. You can use the pre-trained models that Amazon Comprehend provides, or you can train your own custom models for classification and entity recognition. All of the Amazon Comprehend features accept UTF-8 text documents as the input. In addition, custom classification and custom entity recognition accept image files, PDF files, and Word files as input. Amazon Comprehend can examine and analyze documents in a variety of languages, depending on the specific feature. For more information, see Languages supported in Amazon Comprehend. Amazon Comprehend's Dominant language capability can examine documents and determine the dominant language for a far wider selection of languages.

Vnaprej usposobljeni odgovori modela so naslednji:

Response 0: What does Amazon Comprehend use to extract insights about the content of documents?
Response 1: How does Amazon Comprehend extract insights about the content of documents?
Response 2: What does Amazon Comprehend use to develop insights about the content of documents?
Response 3: How does Amazon Comprehend develop insights about the content of documents?
Response 4: What does Amazon Comprehend use to extract insights about the content of a document?

Natančno nastavljeni odzivi modela so naslednji:

Response 0: What does Amazon Comprehend use to extract insights about the structure of documents?
Response 1: How does Amazon Comprehend recognize sentiments in a document?
Response 2: What does Amazon Comprehend use to extract insights about the content of social networking feeds?
Response 3: What does Amazon Comprehend use to extract insights about the content of documents?
Response 4: What type of files does Amazon Comprehend reject as input?

Razlika v kakovosti izhoda med predhodno usposobljenim modelom in natančno nastavljenim modelom je očitna. Vprašanja, ki jih ponuja natančno nastavljen model, se dotikajo širšega spektra tem. Gre za sistematično pomembna vprašanja, kar ne velja vedno za vnaprej usposobljen model, kot je prikazano na primeru Amazon EBS.

Čeprav to ne predstavlja formalne in sistematične ocene, je jasno, da je postopek natančnega prilagajanja izboljšal kakovost odzivov modela na to nalogo.

Čiščenje

Na koncu ne pozabite počistiti in izbrisati končnih točk:

# Delete resources
pre_trained_predictor.delete_model()
pre_trained_predictor.delete_endpoint()
fine_tuned_predictor.delete_model()
fine_tuned_predictor.delete_endpoint()

zaključek

V tej objavi smo pokazali, kako uporabljati natančno nastavitev navodil z modeli FLAN T5 z uporabniškim vmesnikom Jumpstart ali prenosnim računalnikom Jupyter, ki se izvaja v programu Studio. Zagotovili smo kodo, ki pojasnjuje, kako ponovno usposobiti model z uporabo podatkov za ciljno nalogo in uvesti natančno nastavljen model za končno točko. Ciljna naloga v tej objavi je bila identificirati vprašanja, ki se nanašajo na del besedila v vnosu, vendar nanje ni mogoče odgovoriti na podlagi informacij v tem besedilu. Dokazali smo, da model, natančno nastavljen za to posebno nalogo, vrača boljše rezultate kot vnaprej usposobljen model.

Zdaj, ko veste, kako z navodili natančno prilagoditi model z Jumpstartom, lahko ustvarite zmogljive modele, prilagojene vaši aplikaciji. Zberite nekaj podatkov za svoj primer uporabe, jih naložite v Amazon S3 in uporabite uporabniški vmesnik Studio ali prenosni računalnik za nastavitev modela FLAN T5!

Reference

[1] Chung, Hyung Won, et al. "Skaliranje natančno nastavljenih jezikovnih modelov z navodili." prednatis arXiv arXiv:2210.11416 (2022).

[2] Rajpurkar, Pranav, Robin Jia in Percy Liang. »Veš, česa ne veš: Neodgovorljiva vprašanja za SQUAD.« Zbornik 56. letnega zborovanja Društva za računalniško jezikoslovje (2. zvezek: Kratki prispevki). 2018.

O avtorjih

Laurent Callot je glavni aplikativni znanstvenik in vodja pri AWS AI Labs, ki je delal na različnih problemih strojnega učenja, od temeljnih modelov in generativnega umetne inteligence do napovedovanja, odkrivanja anomalij, vzročnosti in operacij umetne inteligence.

Andrej Kan je višji aplikativni znanstvenik pri AWS AI Labs v okviru zanimanj in izkušenj na različnih področjih strojnega učenja. Ti vključujejo raziskave temeljnih modelov ter aplikacije ML za grafe in časovne vrste.

Dr. Ashish Khetan je višji aplikativni znanstvenik z vgrajenimi algoritmi Amazon SageMaker in pomaga pri razvoju algoritmov strojnega učenja. Doktoriral je na Univerzi Illinois Urbana Champaign. Je aktiven raziskovalec strojnega učenja in statističnega sklepanja ter je objavil veliko člankov na konferencah NeurIPS, ICML, ICLR, JMLR, ACL in EMNLP.

Baris Kurt je uporabni znanstvenik pri AWS AI Labs. Zanima ga odkrivanje anomalij časovnih vrst in modeli temeljev. Rad razvija uporabniku prijazne sisteme ML.

Jonas Kübler je uporabni znanstvenik pri AWS AI Labs. Dela na temeljnih modelih s ciljem olajšati aplikacije, specifične za primere uporabe.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoAiStream. Podatkovna inteligenca Web3. Razširjeno znanje. Dostopite tukaj.
Kovanje prihodnosti z Adryenn Ashley. Dostopite tukaj.
Kupujte in prodajajte delnice podjetij pred IPO s PREIPO®. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/machine-learning/instruction-fine-tuning-for-flan-t5-xl-with-amazon-sagemaker-jumpstart/

Časovni žig: Maj 22, 2023

Časovni žig: Junij 20, 2023

Ponovno objavil Platon

Zaznajte kontradiktorne vnose z uporabo Amazon SageMaker Model Monitor in Amazon SageMaker Debugger

Generiranje z obogatenim iskanjem s semantičnim iskanjem LangChain, Amazon SageMaker JumpStart in MongoDB Atlas | Spletne storitve Amazon

Izdelajte generativne aplikacije umetne inteligence, pripravljene za proizvodnjo, za iskanje v podjetjih z uporabo cevovodov Haystack in Amazon SageMaker JumpStart z LLM | Spletne storitve Amazon

Rekonstrukcija medicinskih slik v oblaku z uporabo globokih nevronskih mrež

Predstavljamo nove vdelane vizualizacije Amazon SageMaker Data Wrangler

InformedIQ avtomatizira preverjanja za samodejno posojanje podjetja Origence s pomočjo strojnega učenja

Zmanjšajte porabo energije pri delovnih obremenitvah strojnega učenja do 90 % z namensko izdelanimi pospeševalniki AWS | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun