Tuvastage Amazon SageMakeris parafraseeritud tekst kallistava näoga

Taasavaldanud Platon

järgijaid: 0

Parafraseeritud teksti tuvastamisel on paljudel kasutusjuhtudel äriline väärtus. Näiteks lauseparafraaside tuvastamisega võib teksti kokkuvõttesüsteem eemaldada üleliigse teabe. Teine rakendus on plagieeritud dokumentide tuvastamine. Selles postituses täpsustame a Kallistav nägu trafo sisse Amazon SageMaker parafraseeritud lausepaaride tuvastamiseks mõne sammuga.

Tõeliselt jõuline mudel suudab tuvastada parafraseeritud teksti, kui kasutatav keel võib olla täiesti erinev, ja tuvastada ka erinevusi, kui kasutataval keelel on suur leksikaalne kattuvus. Selles postituses keskendume viimasele aspektile. Täpsemalt uurime, kas saame treenida mudelit, mis suudab tuvastada erinevuse kahe suure leksikaalse kattuvuse ja väga erineva või vastupidise tähendusega lause vahel. Näiteks järgmistel lausetel on täpselt samad sõnad, kuid vastupidine tähendus:

Lennutasin New Yorgist Pariisi
Lennutasin Pariisist New Yorki

Lahenduse ülevaade

Juhendame teid läbi järgmiste kõrgetasemeliste sammude:

Seadistage keskkond.
Valmistage andmed ette.
Tokeniseerige andmestik.
Täpsustage mudelit.
Rakendage mudel ja tehke järeldused.
Hinnake mudeli jõudlust.

Kui soovite keskkonna seadistamise vahele jätta, võite kasutada järgmist märkmikku GitHub ja käivitage kood SageMakeris.

Hugging Face ja AWS teatasid 2022. aasta alguses partnerlusest, mis muudab Hugging Face mudelite treenimise SageMakeris veelgi lihtsamaks. See funktsioon on saadaval Hugging Face arenduse kaudu AWS-i süvaõppekonteinerid (DLC-d). Nende konteinerite hulka kuuluvad Hugging Face Transformers, Tokenizerid ja andmekogumite teek, mis võimaldab meil neid ressursse kasutada koolituste ja järelduste tegemiseks. Saadaolevate DLC-piltide loendi vaatamiseks vt Saadaolevad süvaõppekonteinerite pildid. Neid hooldatakse ja uuendatakse regulaarselt turvapaikadega. Leiate palju näiteid selle kohta, kuidas treenida Hugging Face mudeleid nende DLC-de ja Kallistava näo Python SDK järgnevalt GitHub repo.

PAWS-i andmestik

Mõistes tõhusate lausepaaride andmekogude puudumist, millel on suur leksikaalne kattuvus, ilma et need oleksid parafraasid, PAWS 2019. aastal välja antud andmestiku eesmärk oli pakkuda loomuliku keele töötlemise (NLP) kogukonnale uut ressurssi parafraaside tuvastamise mudelite koolitamiseks ja hindamiseks. PAWS-i lausepaarid genereeritakse kahes etapis kasutades Wikipedia ja Quora küsimustepaarid (QQP) andmestik. Keelemudel vahetab kõigepealt lausepaari sõnad sama sõnapaari (BOW) vahel, et luua lausepaar. Tagasitõlke samm genereerib seejärel parafraasid, millel on suur BOW kattuvus, kuid kasutatakse erinevat sõnajärjestust. Lõplik PAWS-i andmestik sisaldab kokku 108,000 656,000 inimese märgistatud ja XNUMX XNUMX mürarikkalt märgistatud paari.

Selles postituses kasutame PAWS-Wiki märgistatud (lõplik) Hugging Face'i andmestik. Hugging Face on meie jaoks andmejaotuse juba teostanud, mille tulemuseks on 49,000 8,000 lausepaari treeningu andmekogus ja 1 lausepaari valideerimis- ja testandmekogumite jaoks. Järgmises näites on näidatud kaks treeningandmestiku lausepaari näidet. Silt XNUMX näitab, et need kaks lauset on teineteise parafraasid.

1. lause	2. lause	silt
Ehkki vahetatavad, ei ole kahe auto keredetailid sarnased.	Kuigi kereosad on sarnased, ei ole need kahel autol omavahel vahetatavad.	0
Katz sündis 1947. aastal Rootsis ja kolis 1-aastaselt New Yorki.	Katz sündis 1947. aastal Rootsis ja kolis aastasena New Yorki.	1

Eeldused

Peate täitma järgmised eeltingimused:

Registreerige AWS-i konto, kui teil seda pole. Lisateabe saamiseks vt Seadistage Amazon SageMakeri eeltingimused.
Alustage kasutamist SageMakeri märkmiku eksemplarid.
Seadistage parempoolne AWS-i identiteedi- ja juurdepääsuhaldus (IAM) load. Lisateabe saamiseks vt SageMakeri rollid.

Seadistage keskkond

Enne kui hakkame oma andmeid mudeli peenhäälestamiseks uurima ja ette valmistama, peame seadistama oma keskkonna. Alustame SageMakeri märkmiku eksemplari üleskeeramisega. Valige oma AWS-i kontol AWS-i piirkond ja järgige juhiseid looge SageMakeri märkmiku eksemplar. Märkmiku eksemplari üleskeeramiseks võib kuluda mõni minut.

Kui sülearvuti eksemplar töötab, valige conda_pytorch_p38 nagu teie kerneli tüüp. Hugging Face andmestiku kasutamiseks peame esmalt installima ja importima Hugging Face teegi:

!pip --quiet install "sagemaker" "transformers==4.17.0" "datasets==1.18.4" --upgrade
!pip --quiet install sentence-transformers import sagemaker.huggingface
import sagemaker
from datasets import load_dataset

Järgmisena loome SageMakeri seansi. Kasutame vaikimisi Amazoni lihtne salvestusteenus (Amazon S3) ämber, mis on seotud SageMakeri seansiga PAWS-i andmestiku ja mudeli artefaktide salvestamiseks:

sess = sagemaker.Session()
role = sagemaker.get_execution_role()
bucket = sess.default_bucket()

Valmistage andmed ette

Saame laadida PAWS-i andmestiku Hugging Face versiooni koos sellega load_dataset() käsk. See kõne laadib alla ja impordib PAWS Pythoni töötlemisskripti Hugging Face GitHubi hoidlast, mis seejärel laadib PAWS-i andmestiku alla skripti salvestatud algsest URL-ist ja salvestab andmed draivi nooletabelina. Vaadake järgmist koodi:

dataset_train, dataset_val, dataset_test = load_dataset("paws", "labeled_final", split=['train', 'validation', 'test'])

Enne kui alustame oma eelkoolitatud BERT-mudeli peenhäälestamist, vaatame oma sihtklasside jaotust. Meie kasutusjuhtumi puhul on PAWS-i andmestikul binaarsed sildid (0 näitab, et lausepaar ei ole parafraas ja 1 näitab, et see on). Loome klassijaotuse vaatamiseks veergdiagrammi, nagu on näidatud järgmises koodis. Näeme, et meie koolituskomplektis on klasside tasakaalustamatuse probleem (56% negatiivseid proove vs. 44% positiivseid proove). Tasakaalustamatus on siiski piisavalt väike, et vältida klassi tasakaalustamatuse leevendamise tehnikate kasutamist.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns df = dataset_train.to_pandas() ax = sns.countplot(x="label", data=df)
ax.set_title('Label Count for PAWS Dataset', fontsize=15)
for p in ax.patches: ax.annotate(f'n{p.get_height()}', (p.get_x()+0.4, p.get_height()), ha='center', va='top', color='white', size=13)

Tokeniseerige andmestik

Enne peenhäälestamise alustamist peame oma andmestiku märgistama. Oletame alustuseks, et tahame täpsustada ja hinnata roberta-base trafo. Valisime roberta-base sest see on üldotstarbeline trafo, mis on eelnevalt koolitatud suurel hulgal ingliskeelsetest andmetest ja mis on sageli näidanud head jõudlust mitmesuguste NLP-ülesannete täitmisel. Mudelit tutvustati algselt paberil RoBERTa: Tugevalt optimeeritud BERT eelkoolitus.

Tokeniseerimise teostame lausetel a-ga roberta-base Hugging Face'i tokeniseerija, mis kasutab dokumendi märkideks jagamiseks baiditaseme baitpaari kodeeringut. Lisateavet RoBERTa tokenisaatori kohta leiate aadressilt RobertaTokenizer. Kuna meie sisendid on lausepaarid, peame mõlemad laused samaaegselt märgistama. Kuna enamik BERT-i mudeleid nõuab, et sisendil oleks fikseeritud tokeniseeritud sisendi pikkus, määrame järgmised parameetrid. max_len=128 ja truncation=True. Vaadake järgmist koodi:

from transformers import AutoTokenizer
tokenizer_and_model_name = 'roberta-base' # Download tokenizer
tokenizer = AutoTokenizer.from_pretrained(tokenizer_and_model_name) # Tokenizer helper function
def tokenize(batch, max_len=128): return tokenizer(batch['sentence1'], batch['sentence2'], max_length=max_len, truncation=True) dataset_train_tokenized = dataset_train.map(tokenize, batched=True, batch_size=len(dataset_train))
dataset_val_tokenized = dataset_val.map(tokenize, batched=True, batch_size=len(dataset_val))

Viimane eeltöötlusetapp meie BERT-mudeli peenhäälestamiseks on teisendada tokeniseeritud rongi- ja valideerimisandmed PyTorchi tensoriteks ja laadida need üles meie S3 ämbrisse:

import botocore
from datasets.filesystems import S3FileSystem s3 = S3FileSystem()
s3_prefix = 'sts-sbert-paws/sts-paws-datasets' # convert and save train_dataset to s3
training_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/train'
dataset_train_tokenized = dataset_train_tokenized.rename_column("label", "labels")
dataset_train_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_train_tokenized.save_to_disk(training_input_path,fs=s3) # convert and save val_dataset to s3
val_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/val'
dataset_val_tokenized = dataset_val_tokenized.rename_column("label", "labels")
dataset_val_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_val_tokenized.save_to_disk(val_input_path,fs=s3)

Täpsustage mudelit

Nüüd, kui oleme andmete ettevalmistamise lõpetanud, oleme valmis oma eelkoolitatud teavet viimistlema roberta-base parafraasi tuvastamise ülesande mudel. Saame kasutada klassi SageMaker Hugging Face Estimator, et algatada peenhäälestusprotsess kahes etapis. Esimene samm on treeningu hüperparameetrite ja mõõdikute määratluste täpsustamine. Mõõdikute definitsioonide muutuja ütleb Kallistava näo prognoosijale, millist tüüpi mõõdikuid mudeli treeninglogidest välja võtta. Siin oleme peamiselt huvitatud valideerimiskomplekti mõõdikute eraldamisest igal koolitusperioodil.

# Step 1: specify training hyperparameters and metric definitions
hyperparameters = {'epochs': 4, 'train_batch_size': 16, 'model_name': tokenizer_and_model_name} metric_definitions=[ {'Name': 'loss', 'Regex': "'loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_loss', 'Regex': "'eval_loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_accuracy', 'Regex': "'eval_accuracy': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_f1', 'Regex': "'eval_f1': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_precision', 'Regex': "'eval_precision': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_recall', 'Regex': "'eval_recall': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'epoch', 'Regex': "'epoch': ([0-9]+(.|e-)[0-9]+),?"}
]

Teine samm on Hugging Face Estimatori käivitamine ja peenhäälestusprotsessi alustamine .fit() meetod:

# Step 2: instantiate estimator and begin fine-tuning
from sagemaker.huggingface import HuggingFace huggingface_estimator = HuggingFace( entry_point='train.py', source_dir='./scripts', output_path=f's3://{sess.default_bucket()}', base_job_name='huggingface-sdk-extension', instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, transformers_version='4.17.0', pytorch_version='1.10.2', py_version='py38', role=role, hyperparameters=hyperparameters, metric_definitions=metric_definitions ) huggingface_estimator.fit({'train': training_input_path, 'test': val_input_path}, wait=True, job_name='sm-sts-blog-{}'.format(int(time.time())))

Peenhäälestusprotsess võtab määratud hüperparameetreid kasutades umbes 30 minutit.

Rakendage mudel ja tehke järeldused

SageMaker pakub sõltuvalt teie kasutusjuhtumist mitut juurutamisvalikut. Püsivate reaalajas lõpp-punktide jaoks, mis teevad ühe ennustuse korraga, soovitame kasutada SageMakeri reaalajas hostimisteenused. Kui teil on töökoormusi, mille vahel esineb jõudeperioode ja talute külmkäivitust, soovitame kasutada Serverita järeldus. Serverita lõpp-punktid käivitavad automaatselt arvutusressursid ja skaleerivad neid sõltuvalt liiklusest sisse ja välja, välistades vajaduse valida eksemplaritüüpe või hallata skaleerimispoliitikaid. Näitame, kuidas rakendada meie peenhäälestatud Hugging Face mudelit nii reaalajas järelduse lõpp-punktis kui ka serverita järelduse lõpp-punktis.

Juurutage reaalajas järelduse lõpp-punkti

Saate juurutada koolitusobjekti SageMakeris reaalajas järelduste hostimisse, kasutades .deploy() meetod. Aktsepteeritud parameetrite täieliku loendi leiate jaotisest Kallistav näomudel. Alustuseks juurutame mudeli ühele eksemplarile, edastades järgmised parameetrid: initial_instance_count, instance_typeja endpoint_name. Vaadake järgmist koodi:

rt_predictor = huggingface_estimator.deploy(initial_instance_count=1,
instance_type="ml.g4dn.xlarge",
endpoint_name="sts-sbert-paws")

Mudeli kasutuselevõtt võtab paar minutit. Pärast mudeli kasutuselevõttu saame esitada näidiskirjed nähtamatu testandmestikust lõpp-punkti järelduste tegemiseks.

Juurutage serverita järelduse lõpp-punkti

Oma koolitusobjekti juurutamiseks serverita lõpp-punktis peame esmalt määrama serverita konfiguratsioonifaili memory_size_in_mb ja max_concurrency argumendid:

from sagemaker.serverless.serverless_inference_config import ServerlessInferenceConfig serverless_config = ServerlessInferenceConfig( memory_size_in_mb=6144, max_concurrency=1,
)

memory_size_in_mb määrab teie serverita lõpp-punkti RAM-i kogumahu; minimaalne RAM-i maht on 1024 MB (1 GB) ja see võib ulatuda kuni 6144 MB (6 GB). Üldiselt peaksite püüdma valida mälumahu, mis on vähemalt sama suur kui teie mudeli suurus. max_concurrency määrab kvoodi, mitu samaaegset kutset saab ühe lõpp-punkti jaoks korraga töödelda (kuni 50 samaaegset kutset).

Peame esitama ka Hugging Face järelduskujutise URI, mille saate hankida järgmise koodi abil:

image_uri = sagemaker.image_uris.retrieve( framework="huggingface", base_framework_version="pytorch1.10", region=sess.boto_region_name, version="4.17", py_version="py38", instance_type="ml.m5.large", image_scope="inference",
)

Nüüd, kui meil on serverita konfiguratsioonifail, saame luua serverita lõpp-punkti samamoodi nagu meie reaalajas järelduse lõpp-punkt, kasutades .deploy() meetod:

sl_predictor = huggingface_estimator.deploy( serverless_inference_config=serverless_config, image_uri=image_uri
)

Lõpp-punkt tuleks luua mõne minutiga.

Tehke mudeli järeldus

Ennustuste tegemiseks peame looma lausepaari, lisades [CLS] ja [SEP] spetsiaalsed märgid ja seejärel sisestage sisend mudeli lõpp-punktidesse. Reaalajas järelduste ja serverita järelduste süntaks on sama:

import random rand = random.randrange(0, 8000) true_label = dataset_test[rand]['label']
sent_1 = dataset_test[rand]['sentence1']
sent_2 = dataset_test[rand]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} # real-time inference print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', rt_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', rt_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', rt_predictor.predict({"inputs": sentence_pair})[0]['score']) # serverless inference
print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', sl_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', sl_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', sl_predictor.predict({"inputs": sentence_pair})[0]['score'])

Järgmistes näidetes näeme, et mudel suudab õigesti klassifitseerida, kas sisendlausepaar sisaldab parafraseeritud lauseid.

Järgmine on reaalajas järelduste näide.

Järgmine on serverita järelduse näide.

Hinnake mudeli jõudlust

Mudeli hindamiseks laiendame eelmist koodi ja esitame kõik 8,000 nähtamatut testikirjet reaalajas lõpp-punkti:

from tqdm import tqdm preds = []
labels = [] # Inference takes ~5 minutes for all test records using a fine-tuned roberta-base and ml.g4dn.xlarge instance for i in tqdm(range(len(dataset_test))): true_label = dataset_test[i]['label'] sent_1 = dataset_test[i]['sentence1'] sent_2 = dataset_test[i]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} pred = rt_predictor.predict(sentence_pair) labels.append(true_label) preds.append(int(pred[0]['label'].split('_')[1]))

Järgmisena saame ekstraheeritud ennustuste abil luua klassifitseerimisaruande:

from sklearn.metrics import classification_report print('Endpoint Name:', rt_predictor.endpoint_name)
class_names = ['paraphase', 'not paraphrase']
print(classification_report(labels, preds, target_names=class_names))

Saame järgmised testitulemused.

Me võime seda jälgida roberta-base selle kombineeritud makrokeskmine F1 skoor on 92% ja see suudab parafraasideks olevate lausete tuvastamisel veidi paremini. The roberta-base mudel toimib hästi, kuid hea tava on mudeli jõudlust arvutada vähemalt ühe teise mudeli abil.

Järgmises tabelis võrreldakse roberta-base sama katsekomplekti jõudlustulemused teise peenhäälestatud trafo suhtes paraphrase-mpnet-base-v2, spetsiaalselt parafraaside tuvastamise ülesande jaoks ettevalmistatud lausemuundur. Mõlemat mudelit õpetati ml.p3.8xlarge eksemplaril.

Tulemused näitavad seda roberta-base on 1% kõrgem F1 skoor väga sarnaste treeningute ja järeldusaegadega, kasutades SageMakeris reaalajas järelduste hostimist. Mudelite jõudluse erinevus on siiski suhteliselt väike, roberta-base on lõppkokkuvõttes võitja, kuna sellel on veidi paremad jõudlusnäitajad ning peaaegu identsed treeningu- ja järeldusajad.

Täpsus

Tagasikutsumine

F1-skoor

Treeningu aeg (arveldatav)

Järeldusaeg (täielik testikomplekt)

roberta-alus

0.92

0.93

0.92

18 minuti

2 minuti

parafraas-mpnet-

baas-v2

0.92

0.91

17 minuti

2 minuti

Koristage

Kui olete mudeli lõpp-punktide kasutamise lõpetanud, saate need tulevaste tasude vältimiseks kustutada.

rt_predictor.delete_endpoint()
sl_predictor.delete_endpoint()

Järeldus

Selles postituses arutasime, kuidas kiiresti luua parafraaside tuvastamise mudel, kasutades SageMakeri Hugging Face trafosid. Täpsustasime kahte eelkoolitatud trafot, roberta-base ja paraphrase-mpnet-base-v2, kasutades PAWS-i andmestikku (mis sisaldab suure leksikaalse kattumisega lausepaare). Demonstreerisime ja arutasime reaalajas järelduste ja serverita järelduste juurutamise eeliseid. Viimane on uus funktsioon, mis sihib teravaid töökoormusi ja kõrvaldab vajaduse hallata skaleerimispoliitikaid. 8,000 rekordiga ennenägematul testikomplektil näitasime, et mõlemad mudelid saavutasid F1 skoori üle 90%.

Selle lahenduse laiendamiseks kaaluge järgmist.

Proovige oma kohandatud andmekogumiga peenhäälestada. Kui teil pole piisavalt koolitussilte, saate kohandatud testiandmestikul hinnata sellise peenhäälestatud mudeli toimivust, nagu selles postituses näidatud.
Integreerige see peenhäälestatud mudel allavoolurakendusse, mis nõuab teavet selle kohta, kas kaks lauset (või tekstiplokki) on teineteise parafraasid.

Õnnelik hoone!

Autoritest

Bala Krishnamoorthy on AWS Professional Services andmeteadlane, kus talle meeldib masinõppe rakendamine klientide äriprobleemide lahendamiseks. Ta on spetsialiseerunud loomuliku keele töötlemise kasutusjuhtudele ja on töötanud klientidega sellistes tööstusharudes nagu tarkvara, rahandus ja tervishoid. Vabal ajal meeldib talle proovida uusi toite, vaadata komöödiaid ja dokumentaalfilme, treenida Apelsiniteoorias ja vee peal olla (aerulauaga sõitmine, snorgeldamine ja loodetavasti peagi ka sukeldumine).

Ivan Cui on AWS-i professionaalsete teenuste andmeteadlane, kes aitab klientidel luua ja juurutada lahendusi, kasutades AWS-is masinõpet. Ta on töötanud klientidega erinevates tööstusharudes, sealhulgas tarkvara, rahanduse, farmaatsia ja tervishoiu valdkonnas. Vabal ajal meeldib talle lugeda, perega aega veeta ja aktsiaportfelli maksimeerida.