Bygg et tilpasset spørsmål og svar-datasett ved å bruke Amazon SageMaker Ground Truth for å trene et klemt ansikt Q&A NLU-modell

Publisert av Platon

Følgere: 0

De siste årene har naturlig språkforståelse (NLU) i økende grad funnet forretningsverdi, drevet av modellforbedringer samt skalerbarheten og kostnadseffektiviteten til skybasert infrastruktur. Nærmere bestemt Transformator dyp læringsarkitektur, ofte implementert i form av BERTI modeller, har vært svært vellykket, men trening, finjustering og optimalisering av disse modellene har vist seg å være et utfordrende problem. Takk til AWS og Hugging Face-samarbeid, er det nå enklere å trene og optimalisere NLU-modeller på Amazon SageMaker bruker SageMaker Python SDK, men det er fortsatt vanskelig og tidkrevende å hente merkede data for disse modellene.

Et NLU-problem av spesiell forretningsinteresse er oppgaven med å besvare spørsmål. I dette innlegget viser vi hvordan du bygger et tilpasset spørsmålssvarsdatasett ved å bruke Amazon SageMaker Ground Truth å trene et Hugging Face-spørsmål som svarer på NLU-modellen.

Spørsmål besvare utfordringer

Spørsmålsbesvarelse innebærer at en modell automatisk produserer et svar på en spørring gitt en del tekst som kanskje inneholder svaret eller ikke. For eksempel gitt følgende spørsmål: "Hvilke arbeidsflyter støtter SageMaker Ground Truth?" en modell skal kunne identifisere segmentet "kommentarkonsolidering og revisjon" i følgende avsnitt:

SageMaker Ground Truth bidrar til å forbedre kvaliteten på etiketter gjennom merknadskonsolidering og revisjonsarbeidsflyter. Merknadskonsolidering er prosessen med å samle inn etikettinndata fra to eller flere datamerkere og kombinere dem for å lage en enkelt dataetikett for maskinlæringsmodellen din. Med innebygde arbeidsflyter for revisjon og gjennomgang kan arbeidere utføre etikettverifisering og gjøre justeringer for å forbedre nøyaktigheten.

Dette problemet er utfordrende fordi det krever en modell for å forstå betydningen av et spørsmål, i stedet for bare å utføre søkeord. Nøyaktige modeller på dette området kan redusere kundestøttekostnadene gjennom å drive intelligente chatbots, levere høykvalitets taleassistentprodukter og øke nettbutikkinntektene gjennom personlig svar på produktspørsmål. Et stort datasett i dette området er Stanford Question Answering Dataset (SQuAD), et mangfoldig spørsmålssvarsdatasett som presenterer en modell med korte tekstpassasjer og krever at modellen forutsi plasseringen av svartekstspennet i passasjen. SQuAD er et leseforståelsesdatasett, bestående av spørsmål stilt av publikumsarbeidere på et sett med Wikipedia-artikler, der svaret på hvert spørsmål enten er et spenn av tekst fra den tilsvarende passasjen, eller på annen måte merket som umulig å svare på.

En utfordring med å tilpasse SQuAD for forretningsbruk er å generere domenespesifikke tilpassede datasett. Denne prosessen med å lage nye spørsmål og svar-datasett krever et spesialisert brukergrensesnitt som lar kommentatorer fremheve spenn og legge til spørsmål til disse spennene. Den må også kunne støtte tillegg av umulige spørsmål for å støtte SQuAD 2.0-formatet, som inkluderer spørsmål som ikke kan besvares. Disse umulige spørsmålene hjelper modeller med å få ytterligere forståelse for hvilke spørsmål som ikke kan besvares ved å bruke den gitte passasjen. De tilpassede arbeidermaler i Ground Truth forenkle genereringen av disse datasettene ved å gi arbeidere en skreddersydd kommentaropplevelse for å lage spørsmål og svar-datasett.

Løsningsoversikt

Denne løsningen oppretter og administrerer Ground Truth-merkejobber for å merke et domenespesifikt tilpasset spørsmål-svar-datasett ved hjelp av et tilpasset merknadsbrukergrensesnitt. Vi bruker SageMaker til å trene, finjustere, optimalisere og distribuere en Hugging Face BERT-modell bygget med PyTorch på et tilpasset datasett for svar på spørsmål.

Du kan implementere løsningen ved å distribuere den medfølgende AWS skyformasjon mal i AWS-kontoen din. AWS CloudFormation håndterer distribusjon av AWS Lambda funksjoner som støtter pre-annotering og merknadskonsolidering for merknadsbrukergrensesnittet. Det skaper også en Amazon enkel lagringstjeneste (Amazon S3) bøtte og AWS identitets- og tilgangsadministrasjon (IAM)-roller som skal brukes når du oppretter en merkejobb.

Dette innlegget leder deg gjennom hvordan du gjør følgende:

Lag ditt eget datasett med svar på spørsmål, eller forsterk et eksisterende ved å bruke Ground Truth
Bruk Hugging Face-datasett for å kombinere og tokenisere tekst
Finjuster en BERT-modell på spørsmålssvarsdataene dine ved å bruke SageMaker-trening
Distribuer modellen din til et SageMaker-endepunkt og visualiser resultatene dine

Brukergrensesnitt for merknader

Vi bruker en ny tilpasset arbeidsoppgavemal med Ground Truth for å legge til nye merknader til det eksisterende SQuAD-datasettet. Denne løsningen tilbyr en arbeidsoppgavemal samt en lambda-funksjon før merknader (som håndterer å legge data inn i brukergrensesnittet) og lambda-funksjon etter merknad (som trekker ut resultater fra brukergrensesnittet etter at merkingen er fullført).

Denne egendefinerte arbeidsoppgavemalen gir deg muligheten til å markere tekst i høyre rute, og deretter legge til et tilsvarende spørsmål i venstre rute som er relatert til den uthevede teksten. Uthevet tekst i høyre rute kan også legges til alle tidligere opprettede spørsmål. Dessuten kan du legge til umulige spørsmål iht SquaAD 2.0 format. Umulige spørsmål lar modeller redusere antallet upålitelige falske positive gjetninger når passasjen ikke er i stand til å svare på et spørsmål.

Dette brukergrensesnittet bruker det samme JSON-skjemaet som SQuAD 2.0-datasettet, noe som betyr at det kan fungere over flere artikler og avsnitt, og vise ett avsnitt om gangen ved å bruke Tidligere og neste knapper. Brukergrensesnittet gjør det enkelt å overvåke og bestemme merkearbeidet hver annotator må fullføre under innsendingstrinnet.

Fordi merknadsgrensesnittet er inneholdt i en enkelt Flytende HTML-fil, kan du tilpasse merkeopplevelsen med kunnskap om grunnleggende JavaScript. Du kan også endre Flytende tagger for å sende tilleggsinformasjon til merkegrensesnittet, og du kan endre selve malen for å inkludere mer detaljerte arbeidsinstruksjoner.

Anslåtte kostnader

Implementering av denne løsningen kan medføre en maksimal kostnad på rundt $20, uten å ta hensyn til kostnadene for menneskelig merking. Amazon S3, Lambda, SageMaker og Ground Truth tilbyr alle AWS gratis nivå, med kostnader for ekstra bruk. For mer informasjon, se følgende prissider:

Amazon S3-priser
AWS Lambda Priser
Amazon SageMaker-priser
Priser for Amazon SageMaker-datamerking – Denne avgiften avhenger av hvilken type arbeidsstyrke du bruker. Hvis du er en ny bruker av Ground Truth, foreslår vi at du bruker en privat arbeidsstyrke og inkluderer deg selv som arbeider for å teste konfigurasjonen av merkejobben.

Forutsetninger

For å implementere denne løsningen må du ha følgende forutsetninger:

An AWS-konto.
Kjennskap til Ground Truth. For mer informasjon, se Bruk Amazon SageMaker Ground Truth til å merke data.
Kjennskap til AWS CloudFormation. For mer informasjon, se AWS CloudFormation brukerveiledning.
En SageMaker arbeidsstyrke. Til denne demonstrasjonen bruker vi privat arbeidsstyrke. Du kan opprette en arbeidsstyrke på SageMaker-konsollen.

Følgende GIF viser hvordan du oppretter en privat arbeidsstyrke. For instruksjoner, se Opprett en Amazon Cognito Workforce ved hjelp av siden Labelling Workforces.

Bygg et tilpasset Q&A-datasett ved å bruke Amazon SageMaker Ground Truth for å trene en Hugging Face Q&A NLU-modell PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Start CloudFormation Stack

Nå som du har sett strukturen til løsningen, distribuerer du den på kontoen din slik at du kan kjøre et eksempel på en arbeidsflyt. Alle distribusjonstrinnene knyttet til merkingspipelinen administreres av AWS CloudFormation. Dette betyr at AWS CloudFormation lager dine lambda-funksjoner for pre-annotering og merknadskonsolidering, samt en S3-bøtte for å lagre inn- og utdata.

Du kan starte stabelen i AWS-regionen us-east-1 på AWS CloudFormation-konsollen ved å bruke Start Stack knapp. For å starte stabelen i en annen region, bruk instruksjonene i README i GitHub repository.

Betjen den bærbare datamaskinen

Etter at løsningen er distribuert til kontoen din, heter en notatbokforekomst gt-hf-squad-notebook er tilgjengelig på kontoen din. For å begynne å bruke den bærbare datamaskinen, fullfør følgende trinn:

På Amazon SageMaker-konsollen, naviger til forekomstsiden for den bærbare datamaskinen.
Velg Åpne JupyterLab for å åpne forekomsten.
Inne i forekomsten, bla til depotet hf-gt-custom-qa og åpne notisboken hf_squad_finetuning.ipynb.
Velg conda_pytorch_p38 som kjernen din.

Nå som du har opprettet en notatbokforekomst og åpnet notatboken, kan du kjøre celler i notatboken for å betjene løsningen. Resten av dette innlegget gir ytterligere detaljer til hver seksjon i notatboken etter hvert.

Last ned og inspiser dataene

De SQuAD datasett inneholder et opplæringsdatasett samt test- og utviklingsdatasett. Notatboken laster ned SQuAD2.0-datasettet for deg, men du kan velge hvilken versjon av SQuAD som skal brukes ved å endre notatbokcellen under Last ned og inspiser dataene.

SQuAD ble opprettet av Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev og Percy Liang. For mer informasjon, se originalpapir og datasett. SQuAD har blitt lisensiert av forfatterne under Creative Commons Attribution-ShareAlike 4.0 International Public License.

La oss se på et eksempel på spørsmål og svar-par fra SQuAD:

Avsnittstittel: Immunsystem

Immunsystemet er et system av mange biologiske strukturer og prosesser i en organisme som beskytter mot sykdom. For å fungere ordentlig må et immunsystem oppdage en lang rekke midler, kjent som patogener, fra virus til parasittiske ormer, og skille dem fra organismens eget friske vev. Hos mange arter kan immunsystemet klassifiseres i undersystemer, slik som det medfødte immunsystemet versus det adaptive immunsystemet, eller humoral immunitet versus cellemediert immunitet. Hos mennesker skiller blod-hjerne-barrieren, blod-cerebrospinalvæske-barrieren og lignende væske-hjerne-barrierer det perifere immunsystemet fra det nevroimmune systemet som beskytter hjernen.

Spørsmål: Hva beskytter immunsystemet organismer mot?

Svar: sykdom

Last modell

Nå som du har sett et eksempel på spørsmål og svar-par i SQuAD, kan du laste ned en modell som du kan finjustere for svar på spørsmål. Hugging Face lar deg enkelt laste ned en basismodell som har gjennomgått storskala forhåndstrening og reinitialisere den for en annen nedstrømsoppgave. I dette tilfellet laster du ned distilbert-base-uncased modell og gjenbruk den for spørsmålssvar ved å bruke AutoModelForQuestionAnswering klasse fra Hugging Face. Du bruker også AutoTokenizer klasse for å hente modellens ferdigtrente tokenizer. Vi dykker dypere ned i modellen vi bruker senere i innlegget.

Se BERT-inndata

BERT krever at du transformerer tekstdata til en numerisk representasjon kjent som poletter. Det finnes en rekke tokenizers tilgjengelig; følgende tokens ble opprettet av en tokenizer spesielt designet for BERT som du instansierer med et bestemt vokabular. Hvert token tilordnes et ord i vokabularet. La oss se på spørsmålet om det transformerte immunsystemet og konteksten du gir BERT for slutning.

{'input_ids': tensor([[ 0, 133, 9161, 467, 15899, 28340, 136, 99, 116, 2, 2, 133, 9161, 467, 16, 10, 467, 9, 171, 12243, 6609, 8, 5588, 624, 41, 33993, 14, 15899, 136, 2199, 4, 598, 5043, 5083, 6, 41, 9161, 467, 531, 10933, 10, 1810, 3143, 9, 3525, 6, 684, 25, 35904, 6, 31, 21717, 7, 43108, 31483, 6, 8, 22929, 106, 31, 5, 33993, 18, 308, 2245, 11576, 4, 96, 171, 4707, 6, 5, 9161, 467, 64, 28, 8967, 88, 44890, 29, 6, 215, 25, 5, 36154, 9161, 467, 4411, 5, 28760, 9161, 467, 6, 50, 10080, 15010, 17381, 4411, 3551, 12, 43728, 17381, 4, 96, 5868, 6, 5, 1925, 2383, 36436, 9639, 6, 1925, 2383, 1755, 241, 7450, 4182, 6204, 12293, 9639, 6, 8, 1122, 12293, 2383, 36436, 7926, 2559, 5, 27727, 9161, 467, 31, 5, 14913, 42866, 467, 61, 15899, 5, 2900, 4, 2]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

Modellslutning

Nå som du har sett hva BERT tar som input, la oss se på hvordan du kan få slutningsresultater fra modellen. Følgende kode demonstrerer hvordan du bruker de tidligere genererte tokeniserte inndataene og returnerer slutningsresultater fra modellen. I likhet med hvordan BERT ikke kan akseptere råtekst som input, genererer den heller ikke råtekst som utdata. Du oversetter BERTs utdata ved å identifisere start- og sluttpunktene i avsnittet som BERT identifiserte som svaret. Deretter tilordner du utdataene til våre tokens og tilbake til engelsk tekst.

outputs = model(**inputs, start_positions=start_positions, end_positions=end_positions) answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits
answer_start = torch.argmax(
answer_start_scores
) # Get the most likely beginning of answer with the argmax of the score
answer_end = torch.argmax(answer_end_scores) + 1 # Get the most likely end of answer with the argmax of the score
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))
print(f"Question: {sq['paragraphs'][0]['qas'][0]['question']}")
print(f"Answer: {answer}")

De oversatte resultatene er som følger:

Spørsmål: Hva beskytter immunsystemet organismer mot?

Svar: sykdom

Øk SQuAD

For å få ytterligere merkede data bruker vi deretter en tilpasset arbeidsoppgavemal i Ground Truth. Vi kan først lage en ny artikkel i SQuAD-format. Notatboken kopierer denne filen fra repoen til Amazon S3, men gjør gjerne eventuelle endringer før du kjører Øk SQuAD celle. Formatet til SQuAD vises i følgende kode. Hver SQuAD JSON-fil inneholder flere artikler lagret i data nøkkel. Hver artikkel har en title felt og ett eller flere avsnitt. Disse avsnittene inneholder tekstsegmenter kalt context og eventuelle tilknyttede spørsmål i qas liste. Fordi vi kommenterer fra bunnen av, kan vi forlate qas liste tom og bare gi kontekst. Brukergrensesnittet er i stand til å gå på tvers av både avsnitt og artikler, slik at du kan gjøre hver arbeidsoppgave så stor eller liten som ønsket.

s3://<my-bucket-name>/custom_squad.json: { "version": "v2.0", "data": [ { "title": "Ground Truth Marketing", "paragraphs": [ { "qas": [], "context": "SageMaker Ground Truth helps improve the quality of labels through annotation consolidation and audit workflows. Annotation consolidation is the process of collecting label inputs from two or more data labelers and combining them to create a single data label for your machine learning model. With built-in audit and review workflows, workers can perform label verification and make adjustments to improve accuracy." }, { "qas": [], "context": "SageMaker Ground Truth provides automated labeling features such as ‘auto-segment’, ‘automatic 3D cuboid snapping’, and ‘sensor fusion with 2D video frames’ through an intuitive user interface in order to reduce the time needed for data labeling tasks while also improving quality. For semantic segmentation, workers must label objects in an image. Using the auto-segment feature, workers can capture the object with 4 clicks vs. hundreds." }, { "qas": [], "context": "SageMaker Ground Truth offers automatic data labeling. Using an active learning model, data is labeled and only routed to humans if the model cannot confidently label it. The human-labeled data is then used to train the machine learning model to improve its' accuracy. As a result, less data is then sent to humans in the next round of labeling which lowers data labeling costs by up to 70%." }, { "qas": [], "context": "SageMaker Ground Truth provides options to work with labelers inside and outside of your organization. Using SageMaker Ground Truth, you can easily send labeling jobs to your own labelers or you can access a workforce of over 500,000 independent contractors who are already performing machine learning related tasks through Amazon Mechanical Turk. If your data requires confidentiality or special skills, you can use vendors pre-screened by AWS for quality and security procedures, including iVision, CapeStart Inc., Cogito, and iMerit." } ] } ]
}

Etter at vi har generert en eksempel SQuAD-datafil, må vi lage en Ground Truth utvidet manifestfil som refererer til våre inndata. Vi gjør dette ved å generere en JSON-linjeformatert fil med en "source”-tasten som tilsvarer plasseringen i Amazon S3 der vi lagret SQuAD-dataene våre:

s3://<my-bucket-name>/input.manifest {"source": "s3://<my-bucket-name>/custom_squad.json"}
{"source": "s3://<my-bucket-name>/custom_squad_2.json"}
{"source": "s3://<my-bucket-name>/custom_squad_3.json"}

Få tilgang til merkeportalen

Etter at du har sendt jobben til Ground Truth, kan du se den genererte merkejobben på Ground Truth-konsollen.

For å utføre merking, må du logge inn på arbeiderportalkontoen du opprettet som en del av forutsetningstrinnene. Jobben din er tilgjengelig i arbeiderportalen etter noen minutter med forhåndsbehandling. Etter å ha åpnet oppgaven, får du den tilpassede arbeidermalen for spørsmål og svar-kommentarer. Du kan legge til spørsmål ved å markere deler av teksten i konteksten og deretter velge Legg til spørsmål.

Sjekk status for merkejobben

Etter innsending kan du kjøre Sjekk status for merkejobben celle for å se om merkejobben er fullført. Vent på fullføring før du fortsetter til flere celler.

Last inn merkede data

Etter merking inneholder utdatamanifestet en oppføring med navnet på etikettattributtet (i dette tilfellet squad-1626282229) som inneholder en S3 URI til SQuAD-formatert data som du kan bruke under trening. Se følgende utdatamanifestinnhold:

{ "source": "s3://<my-bucket-name>/custom_squad.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_2.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_3.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}

Hver linje i manifestet tilsvarer en enkelt arbeidsoppgave.

Last SQuAD togsett

Hugging Face har en datasettpakke som gir deg muligheten til å laste ned og forhåndsbehandle SQuAD, men for å legge til våre tilpassede spørsmål og svar, må vi gjøre litt prosessering. SQuAD er strukturert rundt sett med emner. Hvert emne har en rekke forskjellige kontekstutsagn, og hver kontekstsetning har spørsmål og svarpar. Fordi vi ønsker å lage våre egne spørsmål for trening, må vi kombinere spørsmålene våre med SQuAD. Heldigvis for oss er merknadene våre allerede i SQuAD-format, så vi kan ta eksempeletikettene våre og legge dem til som et nytt emne til de eksisterende SQuAD-dataene.

Lag et Hugging Face Dataset-objekt

For å få dataene våre inn i Hugging Faces datasettformat, har vi flere alternativer. Vi kan bruke last_datasett alternativet, i så fall kan vi levere en CSV-, JSON- eller tekstfil som lastes inn som et datasettobjekt. Du kan også levere load_dataset med et behandlingsskript for å konvertere filen til ønsket format. For dette innlegget bruker vi i stedet Dataset.from_dict() metode, som lar oss levere en in-memory ordbok for å lage et datasettobjekt. Vi definerer også datasettfunksjonene våre. Vi kan se funksjonene ved å bruke Hugging Faces datasettviser, som vist på følgende skjermbilde.

Våre funksjoner er som følger:

ID – ID-en til teksten
tittel – Den tilknyttede tittelen for emnet
kontekst – Kontekstsetningen modellen må søke etter for å finne et svar
spørsmål – Spørsmålet modellen blir stilt
besvare – Den aksepterte svarteksten og plassering i konteksterklæringen

Et sett med å klemme ansikt lar oss enkelt definere dette skjemaet:

squad_dataset = Dataset.from_dict(dataset_dict,
features=datasets.Features( { "id": datasets.Value("string"), "title": datasets.Value("string"), "context": datasets.Value("string"), "question": datasets.Value("string"), "answers": datasets.features.Sequence( { "text": datasets.Value("string"), "answer_start": datasets.Value("int32"), } ), # These are the features of your dataset like images, labels ... }
))

Etter at vi har opprettet datasettobjektet vårt, må vi symbolisere teksten. Fordi modeller ikke kan akseptere rå tekst som input, må vi konvertere teksten vår til en numerisk input som den kan forstå, ellers kjent som tokenization. Tokenisering er modellspesifikk, så la oss forstå modellen vi skal finjustere. Vi bruker en distilbert-base-uforet modell. Det ser veldig ut som BERT: det bruker input embeddings, multi-head oppmerksomhet (for mer informasjon om denne operasjonen, se Den illustrerte transformatoren), og feed forward-lag, men har halvparten av parameterne til den opprinnelige BERT-basismodellen. Se følgende innledende modelllag:

La oss bryte ned hver komponent i modellens tittel. Navnet distilbert angir det faktum at dette er en destillert versjon av BERT-basismodellen, som oppnås gjennom en prosess som kalles kunnskapsdestillasjon. Kunnskapsdestillasjon lar oss trene en mindre elevmodell på ikke bare opplæringsdataene, men også svarene på det samme opplæringssettet fra en større forhåndsutdannet lærermodell. base refererer til størrelsen på modellen, i dette tilfellet ble modellen destillert fra en BERT basismodell (i motsetning til en BERT stor modell). uncased refererer til teksten den ble trent på. I dette tilfellet tok ikke teksten hensyn til sak; all teksten den ble trent på var små bokstaver. De uncased aspekt påvirker direkte måten vi tokeniserer teksten vår på. Heldigvis, i tillegg til å gi enkel tilgang til å laste ned transformatormodeller, gir Hugging Face også modellens medfølgende tokenizer. Vi lastet også ned en tilpasset tokenizer for vår distilbert-base-uncased model som vi nå bruker til å transformere teksten vår:

# loadbase_model_prefix model_name = "distilbert-base-uncased" # Load model & tokenizer
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# set model to evaluation mode
evl = model.eval()

En annen funksjon i datasettklassen er at den lar oss kjøre forbehandling og tokenisering parallelt med kartfunksjonen. Vi definerer en prosesseringsfunksjon og sender den deretter til kartmetoden.

For å svare på spørsmål trenger Hugging Face flere komponenter (som også er definert i ordliste):

oppmerksomhetsmaske – En maske som indikerer til modellen hvilke tokens du bør være oppmerksom på, brukt primært for å skille mellom faktisk tekst og polstringssymboler
startposisjoner – Startposisjonen til svaret i teksten
endeposisjoner – Sluttposisjonen til svaret i teksten
input_ids – Token-indeksene kartlegger tokens til ordforrådet

Tokenizeren vår vil tokenisere teksten, men vi må eksplisitt fange opp start- og sluttposisjonene til svaret vårt, og det er grunnen til at vi har definert en tilpasset forbehandlingsfunksjon. Nå som vi har våre innspill klare, la oss begynne å trene!

Start treningsjobb

Vi kan kjøre opplæring i notatboken vår, men typene instanser vi trenger for å trene vår Q&A-modell på rimelig tid, p3- og p4-instanser, er ganske kraftige. Disse tilfellene har en tendens til å være overkill for å kjøre en bærbar PC eller som en vedvarende Amazon Elastic Compute Cloud (Amazon EC2) forekomst. Det er her SageMaker-trening kommer inn. SageMaker-trening lar deg starte en treningsjobb på en spesifisert instans eller instanser som kun er oppe i løpet av treningsjobben. Dette lar oss kjøre på større forekomster som p4d.24xlarge, med 8 NVIDIA A100 GPUer, men uten å bekymre oss for å kjøre opp en stor regning i tilfelle vi glemmer å slå den av. Det gir oss også enkel tilgang til andre SageMaker-funksjoner, som SageMaker eksperimenter for å spore dine ML treningsløp og SageMaker Debugger for å forstå og profilere treningsjobbene dine.

Lokal trening

La oss starte med å forstå hvordan trening av en modell i Hugging Face fungerer lokalt, og deretter gå gjennom justeringene vi gjør for å kjøre den i SageMaker.

Hugging Face gjør treningen enkel ved å bruke trenerklassen deres. Trenerklassen lar oss sende inn modellen vår, tog- og valideringsdatasettene våre, hyperparametrene våre og til og med tokenizeren vår. Fordi vi allerede har vår modell så vel som våre trenings- og valideringssett, trenger vi bare å definere hyperparametrene våre. Vi kan gjøre dette gjennom TrainingArguments klasse. Dette lar oss spesifisere ting som læringshastighet, batchstørrelse, antall epoker og mer dyptgående parametere som vektreduksjon eller en planleggingsstrategi for læringshastighet. Etter at vi har definert vår TrainingArguments, kan vi sende inn vår modell, treningssett, valideringssett og argumenter for å instansiere trenerklassen vår. Da kan vi bare ringe trainer.train() å begynne å trene modellen vår. Følgende kodeblokk viser hvordan du kjører lokal trening:

doc_stride=128
max_length=512
tokenized_train = squad_dataset.map(prepare_train_features, batched=True, remove_columns=squad_dataset.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride})
tokenized_test = squad_test.map(prepare_train_features, batched=True, remove_columns=squad_test.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride}) hf_args = TrainingArguments( 'test_local', evaluation_strategy = "epoch", learning_rate=5e-5, per_device_train_batch_size=16, per_device_eval_batch_size=16, num_train_epochs=1, weight_decay=0.0001,
) trainer = Trainer( model, hf_args, train_dataset=tokenized_train, eval_dataset=tokenized_test, data_collator=default_data_collator, tokenizer=tokenizer,
) trainer.train()

Send data til S3

Å gjøre det samme i SageMaker-trening er enkelt. Det første trinnet er å legge dataene våre i Amazon S3 slik at modellen vår kan få tilgang til dem. SageMaker-opplæring lar deg spesifisere en datakilde; du kan bruke kilder som Amazon S3, Amazon elastisk filsystem (Amazon EFS), eller Amazon FSx for Luster for datainntak med høy ytelse. I vårt tilfelle er ikke vårt utvidede SQuAD-datasett spesielt stort, så Amazon S3 er et godt valg. Vi laster opp treningsdataene våre til en mappe i Amazon S3, og når SageMaker spinner opp treningsforekomsten vår, laster den ned dataene fra vår angitte plassering.

Instantier modellen

For å starte treningsjobben vår kan vi bruke den innebygde Hugging Face-estimatoren i SageMaker SDK. SageMaker bruker estimatorklassen til å definere parametrene for en treningsjobb samt antall og type forekomster som skal brukes til trening. SageMaker-opplæring er bygget rundt bruken av Docker-containere. Du kan bruke standardbeholderne i SageMaker eller levere din egen tilpassede beholder for opplæring. Når det gjelder Hugging Face-modeller, har SageMaker innebygde Hugging Face-beholdere med alle avhengighetene du trenger for å kjøre Hugging Face-treningsjobber. Alt vi trenger å gjøre er å definere treningsskriptet vårt, som vår Hugging Face-beholder bruker som inngangspunkt.

I dette treningsskriptet definerer vi argumentene våre, som vi sender til inngangspunktet vårt i form av et sett med hyperparametre, samt treningskoden vår. Treningskoden vår er den samme som om vi kjørte den lokalt; vi kan ganske enkelt bruke TrainingArguments og send dem deretter til et trenerobjekt. Den eneste forskjellen er at vi må spesifisere utgangsstedet for modellen vår /opt/ml/model slik at SageMaker-trening kan ta den, pakke den og sende den til Amazon S3. Følgende kodeblokk viser hvordan du instansierer vår Hugging Face-estimator:

# hyperparameters, which are passed into the training job
hyperparameters={ 'model_name': model_name, 'dataset_name':'squad', 'do_train': True, 'do_eval': True, 'fp16': True, 'train_batch_size': 32, 'eval_batch_size': 32, 'weight_decay':0.01, 'warmup_steps':500, 'learning_rate':5e-5, 'epochs': 2, 'max_length': 384, 'max_steps': 100, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model'
} # estimator
huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='container_training', metric_definitions=metric_definitions, instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, role=role, transformers_version='4.4.2', pytorch_version='1.6.0', py_version='py36', hyperparameters = hyperparameters)

Finjuster modellen

For vår spesifikke treningsjobb bruker vi en p3.8xlarge instans bestående av 4 V100 GPUer. Trenerklassen støtter automatisk trening på multi-GPU-forekomster, så vi trenger ikke noe ekstra oppsett for å ta hensyn til dette. Vi trener modellen vår for to epoker, med en batchstørrelse på 16, og en læringsrate på 4e5. Vi muliggjør også blandet presisjonstrening, som bruker blandet presisjon i områder der vi kan redusere numerisk presisjon uten å påvirke modellens nøyaktighet. Dette øker vårt tilgjengelige minne og treningshastigheter. For å lansere treningsjobben kaller vi fit metode fra vår huggingface_estimator klasse.

huggingface_estimator.fit(data_channels, wait=False, job_name=f'hf-distilbert-squad-{int(time.time())}')

Når modellen vår er ferdig trent, kan vi laste ned modellen lokalt og laste den inn i notatbokens minne for å teste den, noe som vises i notatboken. Vi vil fokusere på et annet alternativ, og distribuere det som et SageMaker-endepunkt!

Distribuer opplært modell

I tillegg til å tilby verktøy for opplæring, kan SageMaker også la dataforskere og ML-ingeniører enkelt distribuere REST-endepunkter for sine trente modeller. Du kan distribuere modeller som er trent i eller utenfor SageMaker. For mer informasjon, se Distribuer en modell i Amazon SageMaker.

Fordi modellen vår ble opplært i SageMaker, er den allerede i riktig format for å distribuere som et endepunkt. I likhet med opplæring, definerer vi en SageMaker-modellklasse som definerer modellen, serveringskoden og antallet og typen forekomster vi ønsker å distribuere som endepunkter. I likhet med trening er servering basert på Docker-beholdere, og vi kan bruke en av de innebygde SageMaker-beholderne eller levere våre egne. For dette innlegget bruker vi en innebygd PyTorch-serveringsbeholder, så vi trenger ganske enkelt å definere noen få ting for å få endepunktet vårt i gang. Vår serveringskode trenger fire funksjoner:

modell_fn – Definerer hvordan endepunktet laster modellen (det gjør dette bare én gang, og deretter holder det i minnet for påfølgende spådommer)
input_fn – Definerer hvordan inndata deserialiseres og behandles
forutsi_fn – Definerer hvordan modellen vår gir spådommer om våre innspill
output_fn – Definerer hvordan endepunktet formaterer og sender utdataene tilbake til klienten som sender forespørselen

Etter at vi har definert disse funksjonene, kan vi distribuere endepunktet vårt og sende det kontekstutsagn og spørsmål og returnere det anslåtte svaret:

endpoint_name = 'hf-distilbert-QA-string-endpoint4-185'
model_data = f"{huggingface_estimator.output_path}{huggingface_estimator.jobs[0].job_name}/output/model.tar.gz" # We are going to use a SageMaker serving container
torch_model = PyTorchModel(model_data=model_data, source_dir = 'container_serving', role=role, entry_point='transform_script.py', framework_version='1.8.1', py_version='py3', predictor_cls = StringPredictor)
bert_end = torch_model.deploy(instance_type='ml.m5.2xlarge', initial_instance_count=1, #'ml.g4dn.xlarge' endpoint_name=endpoint_name)

Visualiser modellresultater

Fordi vi implementerte et SageMaker-endepunkt som lar oss sende kontekstutsagn og motta svar, kan vi gå tilbake og visualisere de resulterende slutningene i den originale SQuAD-visningen for å bedre visualisere hva modellen vår fant i passasjekonteksten. Vi gjør dette ved å formatere resultatene av inferens tilbake til SQuAD-format, og deretter erstatte Liquid-taggene i arbeidermalen med den SQuAD-formaterte JSON. Vi kan deretter iframe det resulterende brukergrensesnittet i arbeidermalen vår for å iterativt gjennomgå resultatene innenfor konteksten av en enkelt notatbok, som vist i følgende skjermbilde. Hvert spørsmål til venstre kan klikkes for å markere tekstspennene til høyre som samsvarer med søket. Når ingen spørsmål er valgt, er alle tekstspenn uthevet til høyre som vist nedenfor.

Rydd opp

For å unngå å pådra seg fremtidige kostnader, kjør Rydd opp delen av notatboken for å slette alle ressursene, inkludert SageMaker-endepunkter, S3-objekter som inneholder det rå og behandlede datasettet, og CloudFormation-stakken. Når slettingen er fullført, sørg for å stoppe og slette notatbokforekomsten som er vert for gjeldende notatbokskript.

konklusjonen

I dette innlegget lærte du hvordan du lager ditt eget spørsmålssvarsdatasett ved å bruke Ground Truth og kombinerer det med SQuAD for å trene og distribuere din egen spørsmålsvarsmodell ved hjelp av SageMaker. Etter at du har fullført notatblokken, har du et utplassert SageMaker-endepunkt som ble opplært på det tilpassede Q&A-datasettet ditt. Dette endepunktet er klart for integrering i produksjons-NLU-arbeidsflytene dine, fordi SageMaker-endepunkter er tilgjengelige gjennom standard REST APIer. Du har også et annotert tilpasset datasett i SQuAD 2.0-format, som lar deg trene din eksisterende modell på nytt eller prøve å trene andre modellarkitekturer for spørsmålsbesvarelse. Til slutt har du en mekanisme for raskt å visualisere resultatene fra slutningen din ved å laste inn arbeidermalen i din lokale notatbok.

Prøve notatboken, forsterk den med dine egne spørsmål, og tren opp og distribuer din egen tilpassede svarmodell for spørsmål for dine NLU-brukstilfeller!

Glad bygning!

Om forfatterne

Jeremy Feltracco er en programvareutviklingsingeniør med Amazon ML Solutions Lab hos Amazon Web Services. Han bruker sin bakgrunn innen datasyn, robotteknologi og maskinlæring for å hjelpe AWS-kunder med å få fart på AI-adopsjonen.

Vidya Sagar Ravipati er leder i Amazon ML Solutions Lab, der han utnytter sin store erfaring innen store distribuerte systemer og sin lidenskap for maskinlæring for å hjelpe AWS-kunder på tvers av forskjellige bransjevirksomheter, få fart på AI og sky-adopsjon. Tidligere var han maskinlæringsingeniør i Connectivity Services hos Amazon som bidro til å bygge personaliserings- og prediktive vedlikeholdsplattformer.

Isaac Privitera er senior dataforsker ved Amazon Machine Learning Solutions Lab, hvor han utvikler skreddersydde maskinlærings- og dyplæringsløsninger for å løse kundenes forretningsproblemer. Han jobber primært innen datasynsområdet, med fokus på å gi AWS-kunder distribuert opplæring og aktiv læring.

Tidstempel: Kan 6, 2022

Tidstempel: Juli 26, 2023