Identificer omskrevet tekst med et kramende ansigt på Amazon SageMaker

Genudgivet af Platon

Abonnenter: 0

At identificere omskrevet tekst har forretningsværdi i mange tilfælde. For eksempel, ved at identificere sætningsomskrivninger, kunne et tekstresumésystem fjerne overflødig information. En anden applikation er at identificere plagierede dokumenter. I dette indlæg finjusterer vi a Knusende ansigt transformer på Amazon SageMaker at identificere parafraserede sætningspar i nogle få trin.

En virkelig robust model kan identificere parafraseret tekst, når det anvendte sprog kan være helt anderledes, og også identificere forskelle, når det anvendte sprog har høj leksikalsk overlapning. I dette indlæg fokuserer vi på det sidste aspekt. Konkret ser vi på, om vi kan træne en model, der kan identificere forskellen mellem to sætninger, der har højt leksikalsk overlap og meget forskellige eller modsatte betydninger. For eksempel har følgende sætninger nøjagtig de samme ord, men modsatte betydninger:

Jeg tog et fly fra New York til Paris
Jeg tog et fly fra Paris til New York

Løsningsoversigt

Vi leder dig gennem følgende trin på højt niveau:

Indstil miljøet.
Forbered dataene.
Tokeniser datasættet.
Finjuster modellen.
Implementer modellen og udfør inferens.
Evaluer modellens ydeevne.

Hvis du vil springe over opsætningen af miljøet, kan du bruge følgende notesbog på GitHub og kør koden i SageMaker.

Hugging Face og AWS annoncerede et partnerskab tidligere i 2022, der gør det endnu nemmere at træne Hugging Face-modeller på SageMaker. Denne funktionalitet er tilgængelig gennem udviklingen af Hugging Face AWS Deep Learning Containers (DLC'er). Disse beholdere omfatter Hugging Face Transformers, Tokenizers og Dataset-biblioteket, som giver os mulighed for at bruge disse ressourcer til træning og inferensjobs. For en liste over tilgængelige DLC-billeder, se Tilgængelige Deep Learning Containers-billeder. De vedligeholdes og opdateres regelmæssigt med sikkerhedsrettelser. Du kan finde mange eksempler på, hvordan du træner Hugging Face-modeller med disse DLC'er og Hugging Face Python SDK i det følgende GitHub repo.

PAWS-datasættet

Ved at indse manglen på effektive sætningspar-datasæt, der udviser høj leksikalsk overlapning uden at være omskrivninger, PAWS Datasæt udgivet i 2019 havde til formål at give NLP-fællesskabet (natural language processing) en ny ressource til træning og evaluering af parafrasedetektionsmodeller. PAWS sætningspar genereres i to trin vha Wikipedia og Quora-spørgsmålspar (QQP) datasæt. En sprogmodel bytter først ord i et sætningspar med den samme Bag of Words (BOW) for at generere et sætningspar. Et tilbageoversættelsestrin genererer derefter parafraser med høj BOW-overlap, men ved hjælp af en anden ordrækkefølge. Det endelige PAWS-datasæt indeholder i alt 108,000 menneskemærkede og 656,000 støjende mærkede par.

I dette indlæg bruger vi PAWS-Wiki-mærket (endelig) datasæt fra Hugging Face. Hugging Face har allerede udført dataopdelingen for os, hvilket resulterer i 49,000 sætningspar i træningsdatasættet og 8,000 sætningspar hver til validerings- og testdatasættene. To sætningspareksempler fra træningsdatasættet er vist i det følgende eksempel. Et mærke på 1 indikerer, at de to sætninger er omskrivninger af hinanden.

sætning 1	sætning 2	etiket
Selvom de kan udskiftes, er karrosseristykkerne på de 2 biler ikke ens.	Selvom de ligner hinanden, er karrosseridelene ikke udskiftelige på de 2 biler.	0
Katz blev født i Sverige i 1947 og flyttede til New York City i en alder af 1.	Katz blev født i 1947 i Sverige og flyttede til New York som etårig.	1

Forudsætninger

Du skal opfylde følgende forudsætninger:

Tilmeld dig en AWS-konto, hvis du ikke har en. For mere information, se Konfigurer Amazon SageMaker-forudsætninger.
Kom i gang med at bruge SageMaker notebook-forekomster.
Sæt højre op AWS identitets- og adgangsstyring (IAM) tilladelser. For mere information, se SageMaker roller.

Indstil miljøet

Før vi begynder at undersøge og forberede vores data til modelfinjustering, skal vi konfigurere vores miljø. Lad os starte med at lave en SageMaker notebook-instans. Vælg en AWS-region på din AWS-konto, og følg instruktionerne for at oprette en SageMaker notebook-instans. Notebook-forekomsten kan tage et par minutter at dreje op.

Når notebook-forekomsten kører, skal du vælge conda_pytorch_p38 som din kernetype. For at bruge datasættet Hugging Face skal vi først installere og importere Hugging Face-biblioteket:

!pip --quiet install "sagemaker" "transformers==4.17.0" "datasets==1.18.4" --upgrade
!pip --quiet install sentence-transformers import sagemaker.huggingface
import sagemaker
from datasets import load_dataset

Lad os derefter etablere en SageMaker-session. Vi bruger standarden Amazon Simple Storage Service (Amazon S3)-spand tilknyttet SageMaker-sessionen til lagring af PAWS-datasættet og modelartefakter:

sess = sagemaker.Session()
role = sagemaker.get_execution_role()
bucket = sess.default_bucket()

Forbered dataene

Vi kan indlæse Hugging Face-versionen af PAWS-datasættet med dens load_dataset() kommando. Dette kald downloader og importerer PAWS Python-behandlingsscriptet fra Hugging Face GitHub-lageret, som derefter downloader PAWS-datasættet fra den originale URL, der er gemt i scriptet, og cacher dataene som en piletabel på drevet. Se følgende kode:

dataset_train, dataset_val, dataset_test = load_dataset("paws", "labeled_final", split=['train', 'validation', 'test'])

Før vi begynder at finjustere vores fortrænede BERT-model, lad os se på vores målklassefordeling. Til vores brugssag har PAWS-datasættet binære etiketter (0 angiver, at sætningsparret ikke er en parafrase, og 1 angiver, at det er det). Lad os oprette et søjlediagram for at se klassefordelingen, som vist i følgende kode. Vi ser, at der er et lille problem med klasseubalance i vores træningssæt (56 % negative prøver vs. 44 % positive prøver). Ubalancen er dog lille nok til at undgå at bruge teknikker til afhjælpning af klasseubalance.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns df = dataset_train.to_pandas() ax = sns.countplot(x="label", data=df)
ax.set_title('Label Count for PAWS Dataset', fontsize=15)
for p in ax.patches: ax.annotate(f'n{p.get_height()}', (p.get_x()+0.4, p.get_height()), ha='center', va='top', color='white', size=13)

Tokeniser datasættet

Før vi kan begynde at finjustere, skal vi tokenisere vores datasæt. Lad os som udgangspunkt sige, at vi ønsker at finjustere og evaluere roberta-base transformer. Vi valgte roberta-base fordi det er en generel transformer, der er blevet fortrænet på et stort korpus af engelske data og ofte har vist høj ydeevne på en række NLP-opgaver. Modellen blev oprindeligt introduceret i avisen ROBERTa: En robust optimeret BERT-fortræningstilgang.

Vi udfører tokenisering på sætningerne med en roberta-base tokenizer fra Hugging Face, som bruger Byte Pair Encoding på byteniveau til at opdele dokumentet i tokens. For flere detaljer om RobERTa tokenizer, se RobertaTokenizer. Fordi vores input er sætningspar, skal vi tokenisere begge sætninger samtidigt. Fordi de fleste BERT-modeller kræver, at inputtet har en fast tokeniseret inputlængde, indstiller vi følgende parametre: max_len=128 , truncation=True. Se følgende kode:

from transformers import AutoTokenizer
tokenizer_and_model_name = 'roberta-base' # Download tokenizer
tokenizer = AutoTokenizer.from_pretrained(tokenizer_and_model_name) # Tokenizer helper function
def tokenize(batch, max_len=128): return tokenizer(batch['sentence1'], batch['sentence2'], max_length=max_len, truncation=True) dataset_train_tokenized = dataset_train.map(tokenize, batched=True, batch_size=len(dataset_train))
dataset_val_tokenized = dataset_val.map(tokenize, batched=True, batch_size=len(dataset_val))

Det sidste forbehandlingstrin til finjustering af vores BERT-model er at konvertere de tokeniserede tog- og valideringsdatasæt til PyTorch-tensorer og uploade dem til vores S3-spand:

import botocore
from datasets.filesystems import S3FileSystem s3 = S3FileSystem()
s3_prefix = 'sts-sbert-paws/sts-paws-datasets' # convert and save train_dataset to s3
training_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/train'
dataset_train_tokenized = dataset_train_tokenized.rename_column("label", "labels")
dataset_train_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_train_tokenized.save_to_disk(training_input_path,fs=s3) # convert and save val_dataset to s3
val_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/val'
dataset_val_tokenized = dataset_val_tokenized.rename_column("label", "labels")
dataset_val_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_val_tokenized.save_to_disk(val_input_path,fs=s3)

Finjuster modellen

Nu hvor vi er færdige med dataforberedelse, er vi klar til at finjustere vores fortrænede roberta-base model på parafrase-identifikationsopgaven. Vi kan bruge SageMaker Hugging Face Estimator-klassen til at starte finjusteringsprocessen i to trin. Det første trin er at specificere træningshyperparametrene og metriske definitioner. Variablen med metriske definitioner fortæller Hugging Face Estimator, hvilke typer metrics, der skal udtrækkes fra modellens træningslogfiler. Her er vi primært interesserede i at udtrække valideringssæt-metrikker for hver træningsepoke.

# Step 1: specify training hyperparameters and metric definitions
hyperparameters = {'epochs': 4, 'train_batch_size': 16, 'model_name': tokenizer_and_model_name} metric_definitions=[ {'Name': 'loss', 'Regex': "'loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_loss', 'Regex': "'eval_loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_accuracy', 'Regex': "'eval_accuracy': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_f1', 'Regex': "'eval_f1': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_precision', 'Regex': "'eval_precision': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_recall', 'Regex': "'eval_recall': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'epoch', 'Regex': "'epoch': ([0-9]+(.|e-)[0-9]+),?"}
]

Det andet trin er at instansiere Hugging Face Estimator og starte finjusteringsprocessen med .fit() metode:

# Step 2: instantiate estimator and begin fine-tuning
from sagemaker.huggingface import HuggingFace huggingface_estimator = HuggingFace( entry_point='train.py', source_dir='./scripts', output_path=f's3://{sess.default_bucket()}', base_job_name='huggingface-sdk-extension', instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, transformers_version='4.17.0', pytorch_version='1.10.2', py_version='py38', role=role, hyperparameters=hyperparameters, metric_definitions=metric_definitions ) huggingface_estimator.fit({'train': training_input_path, 'test': val_input_path}, wait=True, job_name='sm-sts-blog-{}'.format(int(time.time())))

Finjusteringsprocessen tager cirka 30 minutter ved at bruge de angivne hyperparametre.

Implementer modellen og udfør inferens

SageMaker tilbyder flere implementeringsmuligheder afhængigt af din brugssituation. For vedvarende, real-time slutpunkter, der laver én forudsigelse ad gangen, anbefaler vi at bruge SageMaker real-time hosting-tjenester. Hvis du har arbejdsbelastninger, der har inaktive perioder mellem trafikken og kan tolerere koldstart, anbefaler vi at bruge Serverløs slutning. Serverløse slutpunkter starter automatisk computerressourcer og skalerer dem ind og ud afhængigt af trafik, hvilket eliminerer behovet for at vælge instanstyper eller administrere skaleringspolitikker. Vi demonstrerer, hvordan man implementerer vores finjusterede Hugging Face-model til både et slutpunkt i realtid og et serverløst slutpunkt.

Implementer til et slutpunkt i realtid

Du kan implementere et træningsobjekt på real-time inferenshosting i SageMaker ved hjælp af .deploy() metode. Se en komplet liste over de accepterede parametre Krammede ansigtsmodel. Lad os for at starte med at implementere modellen til én instans ved at indsætte følgende parametre: initial_instance_count, instance_typeog endpoint_name. Se følgende kode:

rt_predictor = huggingface_estimator.deploy(initial_instance_count=1,
instance_type="ml.g4dn.xlarge",
endpoint_name="sts-sbert-paws")

Modellen tager et par minutter at implementere. Efter at modellen er implementeret, kan vi indsende prøveregistreringer fra det usete testdatasæt til slutpunktet til slutning.

Implementer til et serverløst slutpunkt

For at implementere vores træningsobjekt på et serverløst slutpunkt skal vi først angive en serverløs konfigurationsfil med memory_size_in_mb , max_concurrency argumenter:

from sagemaker.serverless.serverless_inference_config import ServerlessInferenceConfig serverless_config = ServerlessInferenceConfig( memory_size_in_mb=6144, max_concurrency=1,
)

memory_size_in_mb definerer den samlede RAM-størrelse for dit serverløse slutpunkt; den minimale RAM-størrelse er 1024 MB (1 GB), og den kan skaleres op til 6144 MB (6 GB). Generelt bør du tilstræbe at vælge en hukommelsesstørrelse, der er mindst lige så stor som din modelstørrelse. max_concurrency definerer kvoten for, hvor mange samtidige opkald, der kan behandles på samme tid (op til 50 samtidige opkald) for et enkelt slutpunkt.

Vi skal også levere Hugging Face inference image URI, som du kan hente ved hjælp af følgende kode:

image_uri = sagemaker.image_uris.retrieve( framework="huggingface", base_framework_version="pytorch1.10", region=sess.boto_region_name, version="4.17", py_version="py38", instance_type="ml.m5.large", image_scope="inference",
)

Nu hvor vi har den serverløse konfigurationsfil, kan vi oprette et serverløst slutpunkt på samme måde som vores realtids-slutpunkt ved hjælp af .deploy() metode:

sl_predictor = huggingface_estimator.deploy( serverless_inference_config=serverless_config, image_uri=image_uri
)

Slutpunktet bør oprettes om et par minutter.

Udfør modelslutning

For at lave forudsigelser skal vi oprette sætningsparret ved at tilføje [CLS] , [SEP] specielle tokens og efterfølgende indsende input til modellens endepunkter. Syntaksen for inferens i realtid og serverløs inferens er den samme:

import random rand = random.randrange(0, 8000) true_label = dataset_test[rand]['label']
sent_1 = dataset_test[rand]['sentence1']
sent_2 = dataset_test[rand]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} # real-time inference print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', rt_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', rt_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', rt_predictor.predict({"inputs": sentence_pair})[0]['score']) # serverless inference
print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', sl_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', sl_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', sl_predictor.predict({"inputs": sentence_pair})[0]['score'])

I de følgende eksempler kan vi se, at modellen er i stand til korrekt at klassificere, om inputsætningsparret indeholder parafraserede sætninger.

Det følgende er et eksempel på en realtidsslutning.

Følgende er et eksempel på serverløs inferens.

Evaluer modellens ydeevne

For at evaluere modellen, lad os udvide den foregående kode og indsende alle 8,000 usete testposter til realtidsslutpunktet:

from tqdm import tqdm preds = []
labels = [] # Inference takes ~5 minutes for all test records using a fine-tuned roberta-base and ml.g4dn.xlarge instance for i in tqdm(range(len(dataset_test))): true_label = dataset_test[i]['label'] sent_1 = dataset_test[i]['sentence1'] sent_2 = dataset_test[i]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} pred = rt_predictor.predict(sentence_pair) labels.append(true_label) preds.append(int(pred[0]['label'].split('_')[1]))

Dernæst kan vi oprette en klassifikationsrapport ved hjælp af de udtrukne forudsigelser:

from sklearn.metrics import classification_report print('Endpoint Name:', rt_predictor.endpoint_name)
class_names = ['paraphase', 'not paraphrase']
print(classification_report(labels, preds, target_names=class_names))

Vi får følgende testresultater.

Det kan vi observere roberta-base har en kombineret makrogennemsnitlig F1-score på 92 % og klarer sig lidt bedre til at opdage sætninger, der er omskrivninger. Det roberta-base modellen fungerer godt, men det er god praksis at beregne modellens ydeevne ved hjælp af mindst én anden model.

Den følgende tabel sammenligner roberta-base ydelsesresultater på det samme testsæt mod en anden finjusteret transformer kaldet paraphrase-mpnet-base-v2, en sætningstransformer, der er foruddannet specifikt til parafrase-identifikationsopgaven. Begge modeller blev trænet på en ml.p3.8xlarge instans.

Det viser resultaterne roberta-base har en 1 % højere F1-score med meget ens trænings- og slutningstider ved brug af slutningshosting i realtid på SageMaker. Ydelsesforskellen mellem modellerne er dog relativt lille, roberta-base er i sidste ende vinderen, da den har marginalt bedre præstationsmålinger og næsten identiske trænings- og slutningstider.

Precision

Recall

F1-score

Træningstid (fakturerbar)

Inferenstid (fuldt testsæt)

roberta-base

0.92

0.93

0.92

18 minutter

2 minutter

parafrase-mpnet-

base-v2

0.92

0.91

17 minutter

2 minutter

Ryd op

Når du er færdig med at bruge modellens slutpunkter, kan du slette dem for at undgå fremtidige gebyrer:

rt_predictor.delete_endpoint()
sl_predictor.delete_endpoint()

Konklusion

I dette indlæg diskuterede vi, hvordan man hurtigt opbygger en parafrase-identifikationsmodel ved hjælp af Hugging Face-transformere på SageMaker. Vi finjusterede to fortrænede transformere, roberta-base , paraphrase-mpnet-base-v2, ved hjælp af PAWS-datasættet (som indeholder sætningspar med høj leksikalsk overlapning). Vi demonstrerede og diskuterede fordelene ved realtidsinferens vs. Serverless Inference-implementering, hvor sidstnævnte er en ny funktion, der er målrettet mod spidse arbejdsbelastninger og eliminerer behovet for at administrere skaleringspolitikker. På et uset testsæt med 8,000 rekorder viste vi, at begge modeller opnåede en F1-score på mere end 90 %.

For at udvide denne løsning skal du overveje følgende:

Prøv at finjustere med dit eget brugerdefinerede datasæt. Hvis du ikke har tilstrækkelige træningsetiketter, kan du evaluere ydeevnen af en finjusteret model som den, der er demonstreret i dette indlæg på et brugerdefineret testdatasæt.
Integrer denne finjusterede model i en downstream-applikation, der kræver information om, hvorvidt to sætninger (eller tekstblokke) er omskrivninger af hinanden.

Glad bygning!

Om forfatterne

Bala Krishnamoorthy er dataforsker hos AWS Professional Services, hvor han nyder at anvende maskinlæring til at løse kunders forretningsproblemer. Han har specialiseret sig i brugscases til behandling af naturligt sprog og har arbejdet med kunder i brancher som software, økonomi og sundhedsvæsen. I sin fritid nyder han at prøve ny mad, se komedier og dokumentarfilm, træne på Orange Theory og være ude på vandet (paddle-boarding, snorkling og forhåbentlig snart dykning).

Ivan Cui er Data Scientist hos AWS Professional Services, hvor han hjælper kunder med at bygge og implementere løsninger ved hjælp af machine learning på AWS. Han har arbejdet med kunder på tværs af forskellige brancher, herunder software, økonomi, medicinalindustrien og sundhedspleje. I sin fritid nyder han at læse, tilbringe tid med sin familie og maksimere sin aktieportefølje.