Tunnista parfrasoitu teksti halaavilla kasvoilla Amazon SageMakerissa

Julkaissut Platon

seuraajia: 0

Parafraasoidun tekstin tunnistamisella on liikearvoa monissa käyttötapauksissa. Esimerkiksi tunnistamalla lauseparafraaseja tekstin yhteenvetojärjestelmä voi poistaa tarpeettoman tiedon. Toinen sovellus on tunnistaa plagioituja asiakirjoja. Tässä viestissä hienosäädämme a Halaaminen kasvot muuntaja päälle Amazon Sage Maker tunnistaa parafrasoidut lauseparit muutamassa vaiheessa.

Todella vankka malli pystyy tunnistamaan parafrasoidun tekstin, kun käytetty kieli voi olla täysin erilainen, ja tunnistaa myös erot, kun käytetyllä kielellä on suuri leksikaalinen päällekkäisyys. Tässä viestissä keskitymme jälkimmäiseen näkökohtaan. Tarkastelemme erityisesti, voimmeko kouluttaa mallin, joka tunnistaa eron kahden lauseen välillä, joilla on suuri leksikaalinen päällekkäisyys ja hyvin erilaiset tai vastakkaiset merkitykset. Esimerkiksi seuraavilla lauseilla on täsmälleen samat sanat, mutta päinvastaiset merkitykset:

Lensin New Yorkista Pariisiin
Lensin Pariisista New Yorkiin

Ratkaisun yleiskatsaus

Opastamme sinut seuraavien korkean tason vaiheiden läpi:

Järjestä ympäristö.
Valmistele tiedot.
Tokenisoi tietojoukko.
Hienosäädä mallia.
Ota malli käyttöön ja tee johtopäätös.
Arvioi mallin suorituskykyä.

Jos haluat ohittaa ympäristön määrittämisen, voit käyttää seuraavaa muistikirjaa GitHub ja suorita koodi SageMakerissa.

Hugging Face ja AWS ilmoittivat kumppanuudesta aiemmin vuonna 2022, mikä tekee Hugging Face -mallien kouluttamisesta entistäkin helpompaa SageMakerilla. Tämä toiminto on saatavilla Hugging Facen kehityksen kautta AWS Deep Learning Containers (DLC:t). Näihin säilöihin kuuluvat Hugging Face Transformers, Tokenizerit ja Datasets-kirjasto, jonka avulla voimme käyttää näitä resursseja koulutukseen ja päättelytyöhön. Katso luettelo käytettävissä olevista DLC-kuvista kohdasta Käytettävissä olevat Deep Learning Containers -kuvat. Niitä ylläpidetään ja päivitetään säännöllisesti tietoturvakorjauksilla. Löydät monia esimerkkejä Hugging Face -mallien kouluttamisesta näillä lisäosilla ja Hugging Face Python SDK seuraavassa GitHub repo.

PAWS-tietojoukko

Ymmärrettyään tehokkaiden lauseparien puuttumisen, jotka osoittavat suurta leksikaalista päällekkäisyyttä ilman parafraaseja, alkuperäinen PAWS Vuonna 2019 julkaistun tietojoukon tarkoituksena oli tarjota luonnollisen kielen käsittely (NLP) -yhteisölle uusi resurssi parafraasien havaitsemismallien koulutukseen ja arviointiin. PAWS-lauseparit luodaan kahdessa vaiheessa käyttämällä wikipedia ja Quoran kysymysparit (QQP) tietojoukko. Kielimalli vaihtaa ensin lauseparin sanat saman Bag of Words (BOW) kanssa lauseparin muodostamiseksi. Taaksepäin käännösvaihe luo sitten parafraaseja, joissa on suuri BOW-päällekkäisyys, mutta joissa käytetään eri sanajärjestystä. Lopullinen PAWS-tietojoukko sisältää yhteensä 108,000 656,000 ihmisleimattua ja XNUMX XNUMX äänekkäästi merkittyä paria.

Tässä viestissä käytämme PAWS-Wiki-merkitty (lopullinen) Hugging Facen tietojoukko. Hugging Face on jo suorittanut meille datan jakamisen, jonka tuloksena on 49,000 8,000 lauseparia harjoitustietojoukossa ja 1 XNUMX lauseparia kumpikin validointi- ja testitietojoukoissa. Seuraavassa esimerkissä esitetään kaksi lausepari esimerkkiä harjoitustietojoukosta. Merkintä XNUMX osoittaa, että nämä kaksi lausetta ovat toistensa parafraaseja.

Lause 1	Lause 2	Merkki
Vaikka kahden auton koriosat ovat vaihdettavissa, ne eivät ole samanlaisia.	Vaikka korin osat ovat samankaltaisia, ne eivät ole vaihdettavissa kahdessa autossa.	0
Katz syntyi Ruotsissa vuonna 1947 ja muutti New Yorkiin 1-vuotiaana.	Katz syntyi vuonna 1947 Ruotsissa ja muutti New Yorkiin vuoden ikäisenä.	1

Edellytykset

Sinun on täytettävä seuraavat edellytykset:

Luo AWS-tili, jos sinulla ei ole sellaista. Katso lisätietoja Määritä Amazon SageMakerin edellytykset.
Aloita käyttö SageMaker-muistikirjan esiintymät.
Aseta oikea AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) käyttöoikeudet. Katso lisätietoja SageMakerin roolit.

Määritä ympäristö

Ennen kuin alamme tutkia ja valmistella tietojamme mallin hienosäätöä varten, meidän on määritettävä ympäristömme. Aloitetaan pyörittämällä SageMaker-muistikirjan ilmentymä. Valitse AWS-alue AWS-tilistäsi ja seuraa ohjeita luo SageMaker-muistikirjaesiintymä. Muistikirjan ilmentymä voi kestää muutaman minuutin.

Kun muistikirjan ilmentymä on käynnissä, valitse conda_pytorch_p38 kuten ytimen tyyppi. Hugging Face -tietojoukon käyttämiseksi meidän on ensin asennettava ja tuotava Hugging Face -kirjasto:

!pip --quiet install "sagemaker" "transformers==4.17.0" "datasets==1.18.4" --upgrade
!pip --quiet install sentence-transformers import sagemaker.huggingface
import sagemaker
from datasets import load_dataset

Perustetaan seuraavaksi SageMaker-istunto. Käytämme oletusarvoa Amazonin yksinkertainen tallennuspalvelu (Amazon S3) -ämpäri, joka liittyy SageMaker-istuntoon PAWS-tietojoukon ja mallin artefaktien tallentamiseen:

sess = sagemaker.Session()
role = sagemaker.get_execution_role()
bucket = sess.default_bucket()

Valmistele tiedot

Voimme ladata PAWS-tietojoukon Hugging Face -version sen kanssa load_dataset() komento. Tämä puhelu lataa ja tuo PAWS Python -prosessointikomentosarjan Hugging Face GitHub -arkistosta, joka sitten lataa PAWS-tietojoukon skriptiin tallennetusta alkuperäisestä URL-osoitteesta ja tallentaa tiedot välimuistiin levyn nuolitaulukona. Katso seuraava koodi:

dataset_train, dataset_val, dataset_test = load_dataset("paws", "labeled_final", split=['train', 'validation', 'test'])

Ennen kuin aloitamme esikoulutetun BERT-mallimme hienosäädön, katsotaanpa kohdeluokkajakaumaamme. Meidän käyttötapauksessamme PAWS-tietojoukossa on binääritunnisteet (0 tarkoittaa, että lausepari ei ole parafraasi, ja 1 tarkoittaa, että se on). Luodaan sarakekaavio nähdäksesi luokkajakauman seuraavan koodin mukaisesti. Näemme, että harjoitussarjassamme on pieni luokkaepätasapainoongelma (56 % negatiivisia näytteitä vs. 44 % positiivisia näytteitä). Epätasapaino on kuitenkin riittävän pieni, jotta vältetään luokkaepätasapainon lieventämistekniikoiden käyttäminen.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns df = dataset_train.to_pandas() ax = sns.countplot(x="label", data=df)
ax.set_title('Label Count for PAWS Dataset', fontsize=15)
for p in ax.patches: ax.annotate(f'n{p.get_height()}', (p.get_x()+0.4, p.get_height()), ha='center', va='top', color='white', size=13)

Tokenisoi tietojoukko

Ennen kuin voimme aloittaa hienosäädön, meidän on tokenisoitava tietojoukkomme. Aloituskohtana sanotaan, että haluamme hienosäätää ja arvioida roberta-base muuntaja. Valitsimme roberta-base koska se on yleiskäyttöinen muuntaja, joka on esikoulutettu suurelle englanninkieliselle datalle ja joka on usein osoittanut korkeaa suorituskykyä erilaisissa NLP-tehtävissä. Malli esiteltiin alun perin lehdessä RoBERTa: Voimakkaasti optimoitu BERT-esikäsittelymenetelmä.

Suoritamme tokenisoinnin lauseille a:lla roberta-base Hugging Facen tokenizer, joka käyttää tavutason tavuparikoodausta asiakirjan jakamiseen tunnuksiksi. Lisätietoja RoBERTa-tokenizeristä on kohdassa RobertaTokenizer. Koska syötteemme ovat lausepareja, meidän on tokenisoitava molemmat lauseet samanaikaisesti. Koska useimmat BERT-mallit edellyttävät, että syötteellä on kiinteä tokenoitu tulopituus, asetamme seuraavat parametrit: max_len=128 ja truncation=True. Katso seuraava koodi:

from transformers import AutoTokenizer
tokenizer_and_model_name = 'roberta-base' # Download tokenizer
tokenizer = AutoTokenizer.from_pretrained(tokenizer_and_model_name) # Tokenizer helper function
def tokenize(batch, max_len=128): return tokenizer(batch['sentence1'], batch['sentence2'], max_length=max_len, truncation=True) dataset_train_tokenized = dataset_train.map(tokenize, batched=True, batch_size=len(dataset_train))
dataset_val_tokenized = dataset_val.map(tokenize, batched=True, batch_size=len(dataset_val))

Viimeinen esikäsittelyvaihe BERT-mallimme hienosäädössä on muuntaa tokenoidut juna- ja validointitietojoukot PyTorch-tensoreiksi ja ladata ne S3-säihösimme:

import botocore
from datasets.filesystems import S3FileSystem s3 = S3FileSystem()
s3_prefix = 'sts-sbert-paws/sts-paws-datasets' # convert and save train_dataset to s3
training_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/train'
dataset_train_tokenized = dataset_train_tokenized.rename_column("label", "labels")
dataset_train_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_train_tokenized.save_to_disk(training_input_path,fs=s3) # convert and save val_dataset to s3
val_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/val'
dataset_val_tokenized = dataset_val_tokenized.rename_column("label", "labels")
dataset_val_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_val_tokenized.save_to_disk(val_input_path,fs=s3)

Hienosäädä mallia

Nyt kun tietojen valmistelu on valmis, olemme valmiita hienosäätämään esikoulutettujamme roberta-base malli parafraasin tunnistustehtävästä. Voimme käyttää SageMaker Hugging Face Estimator -luokkaa aloittaaksesi hienosäätöprosessin kahdessa vaiheessa. Ensimmäinen vaihe on määrittää koulutuksen hyperparametrit ja metriikan määritelmät. Mittarin määrittelymuuttuja kertoo Hugging Face Estimatorille, minkä tyyppisiä mittareita mallin harjoituslokeista poimitaan. Tässä olemme ensisijaisesti kiinnostuneita validointijoukon mittareiden poimimisesta kullakin koulutusjaksolla.

# Step 1: specify training hyperparameters and metric definitions
hyperparameters = {'epochs': 4, 'train_batch_size': 16, 'model_name': tokenizer_and_model_name} metric_definitions=[ {'Name': 'loss', 'Regex': "'loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_loss', 'Regex': "'eval_loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_accuracy', 'Regex': "'eval_accuracy': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_f1', 'Regex': "'eval_f1': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_precision', 'Regex': "'eval_precision': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_recall', 'Regex': "'eval_recall': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'epoch', 'Regex': "'epoch': ([0-9]+(.|e-)[0-9]+),?"}
]

Toinen vaihe on Hugging Face Estimatorin instantoiminen ja hienosäätöprosessin aloittaminen .fit() menetelmä:

# Step 2: instantiate estimator and begin fine-tuning
from sagemaker.huggingface import HuggingFace huggingface_estimator = HuggingFace( entry_point='train.py', source_dir='./scripts', output_path=f's3://{sess.default_bucket()}', base_job_name='huggingface-sdk-extension', instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, transformers_version='4.17.0', pytorch_version='1.10.2', py_version='py38', role=role, hyperparameters=hyperparameters, metric_definitions=metric_definitions ) huggingface_estimator.fit({'train': training_input_path, 'test': val_input_path}, wait=True, job_name='sm-sts-blog-{}'.format(int(time.time())))

Hienosäätöprosessi kestää noin 30 minuuttia määritettyjä hyperparametreja käyttäen.

Ota malli käyttöön ja tee johtopäätös

SageMaker tarjoaa useita käyttöönottovaihtoehtoja käyttötapauksestasi riippuen. Suosittelemme käyttämään pysyviä, reaaliaikaisia päätepisteitä, jotka tekevät yhden ennusteen kerrallaan SageMakerin reaaliaikaiset isännöintipalvelut. Jos sinulla on työkuormia, joissa on joutojaksoja liikenneruuhkien välillä ja jotka sietävät kylmäkäynnistystä, suosittelemme Palvelimeton päätelmä. Palvelimettomat päätepisteet käynnistävät automaattisesti laskentaresurssit ja skaalaavat niitä sisään ja ulos liikenteestä riippuen, jolloin ei tarvitse valita ilmentymätyyppejä tai hallita skaalauskäytäntöjä. Esittelemme, kuinka hienosäädettyä Hugging Face -malliamme voidaan ottaa käyttöön sekä reaaliaikaisessa päättelypäätepisteessä että palvelimettomassa päätepisteessä.

Ota käyttöön reaaliaikaiseen päättelypäätepisteeseen

Voit ottaa harjoitusobjektin käyttöön SageMakerin reaaliaikaisessa päättelypalvelussa käyttämällä .deploy() menetelmä. Katso täydellinen luettelo hyväksytyistä parametreista kohdasta Halaava kasvomalli. Aloita ottamalla malli käyttöön yhteen esiintymään välittämällä seuraavat parametrit: initial_instance_count, instance_typeja endpoint_name. Katso seuraava koodi:

rt_predictor = huggingface_estimator.deploy(initial_instance_count=1,
instance_type="ml.g4dn.xlarge",
endpoint_name="sts-sbert-paws")

Mallin käyttöönotto kestää muutaman minuutin. Kun malli on otettu käyttöön, voimme lähettää näytetietueita näkymättömästä testidatajoukosta päätepisteeseen päätelmiä varten.

Ota käyttöön palvelimettomaan päätepisteeseen

Jotta harjoitusobjektimme voidaan ottaa käyttöön palvelimettomaan päätepisteeseen, meidän on ensin määritettävä palvelimeton konfiguraatiotiedosto memory_size_in_mb ja max_concurrency argumentit:

from sagemaker.serverless.serverless_inference_config import ServerlessInferenceConfig serverless_config = ServerlessInferenceConfig( memory_size_in_mb=6144, max_concurrency=1,
)

memory_size_in_mb määrittää palvelimettoman päätepisteesi RAM-muistin kokonaiskoon; RAM-muistin vähimmäiskoko on 1024 Mt (1 Gt) ja se voi skaalata jopa 6144 Mt (6 Gt). Yleensä sinun tulee pyrkiä valitsemaan muistin koko, joka on vähintään yhtä suuri kuin mallisi koko. max_concurrency määrittää kiintiön, kuinka monta samanaikaista kutsua voidaan käsitellä samanaikaisesti (enintään 50 samanaikaista kutsua) yhdelle päätepisteelle.

Meidän on myös toimitettava Hugging Face -päätelmäkuvan URI, jonka voit noutaa käyttämällä seuraavaa koodia:

image_uri = sagemaker.image_uris.retrieve( framework="huggingface", base_framework_version="pytorch1.10", region=sess.boto_region_name, version="4.17", py_version="py38", instance_type="ml.m5.large", image_scope="inference",
)

Nyt kun meillä on palvelimeton konfigurointitiedosto, voimme luoda palvelimettoman päätepisteen samalla tavalla kuin reaaliaikainen päätelmäpäätepistemme käyttämällä .deploy() menetelmä:

sl_predictor = huggingface_estimator.deploy( serverless_inference_config=serverless_config, image_uri=image_uri
)

Päätepisteen pitäisi luoda muutamassa minuutissa.

Suorita mallin päättely

Ennusteita varten meidän on luotava lausepari lisäämällä [CLS] ja [SEP] erityisiä tokeneita ja lähettää sitten syöte mallin päätepisteisiin. Reaaliaikaisen ja palvelimettoman päättelyn syntaksi on sama:

import random rand = random.randrange(0, 8000) true_label = dataset_test[rand]['label']
sent_1 = dataset_test[rand]['sentence1']
sent_2 = dataset_test[rand]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} # real-time inference print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', rt_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', rt_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', rt_predictor.predict({"inputs": sentence_pair})[0]['score']) # serverless inference
print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', sl_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', sl_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', sl_predictor.predict({"inputs": sentence_pair})[0]['score'])

Seuraavissa esimerkeissä voimme nähdä, että malli pystyy luokittelemaan oikein, sisältääkö syöttölausepari parafrasoituja lauseita.

Seuraava on esimerkki reaaliaikaisesta päättelystä.

Seuraava on esimerkki palvelimettomasta päätelmästä.

Arvioi mallin suorituskykyä

Mallin arvioimiseksi laajenna edellinen koodi ja lähetä kaikki 8,000 XNUMX näkymätöntä testitietuetta reaaliaikaiseen päätepisteeseen:

from tqdm import tqdm preds = []
labels = [] # Inference takes ~5 minutes for all test records using a fine-tuned roberta-base and ml.g4dn.xlarge instance for i in tqdm(range(len(dataset_test))): true_label = dataset_test[i]['label'] sent_1 = dataset_test[i]['sentence1'] sent_2 = dataset_test[i]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} pred = rt_predictor.predict(sentence_pair) labels.append(true_label) preds.append(int(pred[0]['label'].split('_')[1]))

Seuraavaksi voimme luoda luokitteluraportin käyttämällä poimittuja ennusteita:

from sklearn.metrics import classification_report print('Endpoint Name:', rt_predictor.endpoint_name)
class_names = ['paraphase', 'not paraphrase']
print(classification_report(labels, preds, target_names=class_names))

Saamme seuraavat testitulokset.

Voimme tarkkailla sitä roberta-base sen yhdistetty makrokeskiarvo F1-pistemäärä on 92 %, ja se pystyy havaitsemaan hieman paremmin parafraaseja. The roberta-base malli toimii hyvin, mutta on hyvä käytäntö laskea mallin suorituskyky käyttämällä ainakin yhtä muuta mallia.

Seuraava taulukko vertaa roberta-base suorituskykytuloksia samassa testisarjassa toista hienosäädettyä muuntajaa vastaan paraphrase-mpnet-base-v2, lausemuuntaja, joka on esikoulutettu erityisesti parafraasien tunnistustehtävää varten. Molemmat mallit koulutettiin ml.p3.8xlarge-instanssilla.

Tulokset osoittavat sen roberta-base on 1 % korkeampi F1-pistemäärä hyvin samankaltaisilla harjoittelu- ja päättelyajoilla käyttämällä SageMakerin reaaliaikaista päättelypalvelua. Suorituskykyero mallien välillä on kuitenkin suhteellisen pieni, roberta-base on viime kädessä voittaja, koska sillä on hieman paremmat suorituskykymittarit ja lähes identtiset harjoitus- ja päättelyajat.

Tarkkuus

Palauttaa mieleen

F1-pisteet

Harjoitusaika (laskutettava)

Päätelmäaika (koko testisarja)

roberta-pohja

0.92

0.93

0.92

18 minuuttia

2 minuuttia

parafraasi-mpnet-

base-v2

0.92

0.91

17 minuuttia

2 minuuttia

Puhdistaa

Kun olet lopettanut mallipäätepisteiden käytön, voit poistaa ne välttääksesi tulevia maksuja:

rt_predictor.delete_endpoint()
sl_predictor.delete_endpoint()

Yhteenveto

Tässä viestissä keskustelimme siitä, kuinka nopeasti rakennetaan parafraasien tunnistusmalli käyttämällä Hugging Face -muuntajia SageMakerissa. Hienosäädimme kaksi esikoulutettua muuntajaa, roberta-base ja paraphrase-mpnet-base-v2, käyttämällä PAWS-tietoaineistoa (joka sisältää lausepareja, joilla on suuri leksikaalinen päällekkäisyys). Esittelimme ja keskustelimme reaaliaikaisen päättelyn ja palvelimettoman päättelyn käyttöönoton eduista. Jälkimmäinen on uusi ominaisuus, joka kohdistuu piikkisiin työkuormiin ja poistaa tarpeen hallita skaalauskäytäntöjä. Näkymättömällä 8,000 1 ennätyksen testisarjalla osoitimme, että molemmat mallit saavuttivat F90-pisteet yli XNUMX %.

Jos haluat laajentaa tätä ratkaisua, harkitse seuraavaa:

Kokeile hienosäätöä omalla mukautetulla tietojoukollasi. Jos sinulla ei ole riittävästi koulutusmerkintöjä, voit arvioida tässä viestissä esitetyn kaltaisen hienosäädetyn mallin suorituskykyä mukautetussa testitietojoukossa.
Integroi tämä hienosäädetty malli alavirran sovellukseen, joka vaatii tietoa siitä, ovatko kaksi lausetta (tai tekstilohkoa) toistensa parafraaseja.

Hyvää rakennusta!

Tietoja Tekijät

Bala Krishnamoorthy on tietotutkija AWS Professional Services -palvelussa, jossa hän nauttii koneoppimisen soveltamisesta asiakkaiden liiketoimintaongelmien ratkaisemiseen. Hän on erikoistunut luonnollisen kielen käsittelyyn ja työskennellyt asiakkaiden kanssa muun muassa ohjelmisto-, talous- ja terveydenhuollon aloilla. Vapaa-ajallaan hän nauttii uusien ruokien kokeilemisesta, komedia- ja dokumenttielokuvien katselusta, Orange Theoryssa treenaamisesta ja vedestä (meloamisesta, snorklausta ja toivottavasti pian sukellusta).

Ivan Cui on tietotutkija AWS Professional Services -palvelussa, jossa hän auttaa asiakkaita rakentamaan ja ottamaan käyttöön ratkaisuja koneoppimisen avulla AWS:ssä. Hän on työskennellyt asiakkaiden kanssa eri toimialoilla, mukaan lukien ohjelmisto-, rahoitus-, lääke- ja terveydenhuoltoala. Vapaa-ajallaan hän nauttii lukemisesta, perheen kanssa viettämisestä ja osakesalkkunsa maksimoinnista.