Koostage kohandatud küsimuste ja vastuste andmekogu, kasutades Amazon SageMaker Ground Truthi, et treenida kallistava näo küsimuste ja vastuste NLU mudel

Taasavaldanud Platon

järgijaid: 0

Viimastel aastatel on loomuliku keele mõistmine (NLU) leidnud üha enam ärilist väärtust, mida soodustavad mudeli täiustused ning pilvepõhise infrastruktuuri mastaapsus ja kuluefektiivsus. Täpsemalt, Transformer süvaõppe arhitektuur, mida sageli rakendatakse kujul BERT mudelid, on olnud väga edukas, kuid nende mudelite koolitamine, peenhäälestus ja optimeerimine on osutunud keeruliseks probleemiks. Tänu sellele, AWS ja Hugging Face koostöö, on nüüd NLU mudelite treenimine ja optimeerimine lihtsam Amazon SageMaker kasutades SageMaker Python SDK-d, kuid nende mudelite märgistatud andmete hankimine on endiselt keeruline ja aeganõudev.

Üks ärihuvi pakkuv NLU probleem on küsimustele vastamise ülesanne. Selles postituses näitame, kuidas luua kohandatud küsimustele vastamise andmestik Amazon SageMaker Ground Truth et treenida Kallistava näo küsimusele vastamist NLU mudelile.

Küsimustele vastamine väljakutsetele

Küsimusele vastamine hõlmab mudelit, mis loob automaatselt vastuse päringule, kui antakse tekstiosa, mis võib vastust sisaldada või mitte. Näiteks kui võtta arvesse järgmist küsimust: "Milliseid töövooge SageMaker Ground Truth toetab?" mudel peaks suutma tuvastada segmendi „märkuste konsolideerimine ja audit” järgmises lõigus:

SageMaker Ground Truth aitab parandada siltide kvaliteeti annotatsioonide konsolideerimise ja auditi töövoogude kaudu. Märkuste konsolideerimine on protsess, mille käigus kogutakse sildi sisendeid kahelt või enamalt andmesildistajalt ja kombineeritakse need, et luua teie masinõppemudeli jaoks üks andmesilt. Sisseehitatud auditi ja ülevaatuse töövoogude abil saavad töötajad täpsuse parandamiseks silte kontrollida ja muudatusi teha.

See probleem on keeruline, kuna selle jaoks on vaja mudelit, mis mõistaks küsimuse tähendust, selle asemel et teha lihtsalt märksõnaotsingut. Selle valdkonna täpsed mudelid võivad vähendada klienditoe kulusid intelligentsete vestlusrobotite toite, kvaliteetsete kõneabitoodete pakkumise ja veebipoe tulu suurendamise kaudu isikupärastatud tooteküsimustele vastamise kaudu. Üks suur andmestik selles valdkonnas on Stanfordi küsimustele vastamise andmestik (SQuAD), mitmekesine küsimustele vastamise andmestik, mis esitab mudeli lühikeste tekstilõikudega ja nõuab, et mudel ennustaks vastuse teksti ulatuse asukohta lõigus. SQuAD on lugemise mõistmise andmestik, mis koosneb Vikipeedia artiklite komplektis rahvahulga töötajate esitatud küsimustest, kus iga küsimuse vastus on kas vastava lõigu tekstivahemik või muul viisil võimatu vastata.

Üks väljakutse SQuAD-i kohandamisel ärilisteks kasutusjuhtudeks on domeenispetsiifiliste kohandatud andmekogumite genereerimine. See uute küsimuste ja vastuste andmekogumite loomise protsess nõuab spetsiaalset kasutajaliidest, mis võimaldab annotaatoritel vahemikke esile tõsta ja neile küsimusi lisada. Samuti peab see toetama võimatute küsimuste lisamist, et toetada vormingut SQuAD 2.0, mis sisaldab vastuseta küsimusi. Need võimatud küsimused aitavad mudelitel paremini mõista, millistele päringutele antud lõigu abil vastata ei saa. The kohandatud töötaja mallid Ground Truthis lihtsustage nende andmekogumite loomist, pakkudes töötajatele kohandatud annotatsioonikogemust küsimuste ja vastuste andmekogumite loomiseks.

Lahenduse ülevaade

See lahendus loob ja haldab Ground Truthi märgistustöid, et märgistada domeenispetsiifilist kohandatud küsimuste-vastuste andmestikku, kasutades kohandatud annotatsiooni kasutajaliidest. Kasutame SageMakerit a koolitamiseks, peenhäälestamiseks, optimeerimiseks ja juurutamiseks Hugging Face PyTorchiga loodud BERT-mudel, mis põhineb kohandatud küsimustele vastamise andmestikul.

Lahenduse saate rakendada, juurutades pakutud AWS CloudFormation malli oma AWS-i kontol. AWS CloudFormation tegeleb selle juurutamisega AWS Lambda funktsioonid, mis toetavad annotatsiooni kasutajaliidese eelmärkimist ja märkuste konsolideerimist. Samuti loob see an Amazoni lihtne salvestusteenus (Amazon S3) kopp ja AWS-i identiteedi- ja juurdepääsuhaldus (IAM) rollid, mida kasutada sildistamistöö loomisel.

See postitus juhendab teid, kuidas teha järgmist.

Looge oma küsimustele vastamise andmestik või täiendage olemasolevat, kasutades Ground Truthi
Kasutage teksti kombineerimiseks ja märgistamiseks kallistava näo andmekogumeid
Täpsustage oma küsimusele vastamise andmetele BERT-i mudelit, kasutades SageMakeri koolitust
Juurutage oma mudel SageMakeri lõpp-punkti ja visualiseerige oma tulemused

Annotatsiooni kasutajaliides

Kasutame uut kohandatud töötaja ülesande mall Ground Truthiga, et lisada olemasolevale SQuAD-andmestikule uusi märkusi. See lahendus pakub nii töötaja ülesande malli kui ka annotatsioonieelset Lambda funktsiooni (mis tegeleb andmete kasutajaliidesesse sisestamisega) ja annotatsioonijärgset Lambda funktsiooni (mis võtab pärast märgistamise lõpetamist kasutajaliidesest tulemused välja).

See kohandatud töötaja ülesandemall annab teile võimaluse tõsta paremal paanil tekst esile ja seejärel lisada vasakpoolsele paanile vastav küsimus, mis on seotud esiletõstetud tekstiga. Parempoolsel paanil esiletõstetud teksti saab lisada ka mis tahes varem loodud küsimusele. Lisaks saate lisada võimatuid küsimusi vastavalt SQUAD 2.0 vormingus. Võimatud küsimused võimaldavad mudelitel vähendada ebausaldusväärsete valepositiivsete oletuste arvu, kui lõik ei suuda päringule vastata.

See kasutajaliides kasutab sama JSON-skeemi nagu SQuAD 2.0 andmestik, mis tähendab, et see võib töötada mitme artikli ja lõiguga, kuvades ühe lõigu korraga, kasutades eelmine ja järgmine nupud. Kasutajaliidese abil on lihtne jälgida ja määrata märgistamistööd, mida iga annotaator peab ülesande esitamise etapis tegema.

Kuna annotatsiooni kasutajaliides sisaldub ühes Vedelik HTML-faili abil saate kohandada sildistamiskogemust põhiliste JavaScripti teadmistega. Saate ka muuta Vedelad sildid lisateabe edastamiseks sildistamise kasutajaliidesesse ja saate malli ennast muuta, et lisada üksikasjalikumad töötaja juhised.

Hinnangulised kulud

Selle lahenduse kasutuselevõtt võib maksta maksimaalselt umbes 20 dollarit, arvestamata inimeste märgistamise kulusid. Amazon S3, Lambda, SageMaker ja Ground Truth pakuvad kõik seda AWSi tasuta tasand, lisakasutuse eest tuleb tasuda. Lisateabe saamiseks vaadake järgmisi hinnakujunduse lehti:

Amazon S3 hinnakujundus
AWS lambda hinnakujundus
Amazon SageMakeri hinnakujundus
Amazon SageMakeri andmete märgistamise hinnakujundus – See tasu sõltub teie kasutatava tööjõu tüübist. Kui olete Ground Truthi uus kasutaja, soovitame oma sildistamistöö konfiguratsiooni testimiseks kasutada eratööjõudu ja kaasata end töötajana.

Eeldused

Selle lahenduse rakendamiseks peaksid teil olema järgmised eeltingimused:

An AWS-i konto.
Põhitõe tundmine. Lisateabe saamiseks vaadake Kasutage andmete märgistamiseks Amazon SageMaker Ground Truthi.
AWS CloudFormationi tundmine. Lisateabe saamiseks vaadake AWS CloudFormationi kasutusjuhend.
SageMaker tööjõud. Selle demonstratsiooni jaoks kasutame eratööjõudu. Tööjõudu saate luua SageMakeri konsoolil.

Järgmine GIF näitab, kuidas luua eratööjõudu. Juhiseid vt Looge Amazon Cognito tööjõud, kasutades tööjõu märgistamise lehte.

Looge kohandatud küsimuste ja vastuste andmestik, kasutades Amazon SageMaker Ground Truthi, et treenida kallistava näo Q&A NLU mudelit PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Käivitage CloudFormation Stack

Nüüd, kui olete lahenduse struktuuri näinud, juurutage see oma kontole, et saaksite käitada näidistöövoo. Kõiki märgistamiskonveieriga seotud juurutamisetappe haldab AWS CloudFormation. See tähendab, et AWS CloudFormation loob teie eelmärkuste ja annotatsioonide konsolideerimise Lambda funktsioonid ning S3 ämbri sisend- ja väljundandmete salvestamiseks.

Saate virna käivitada AWS-i piirkonnas us-east-1 AWS CloudFormationi konsoolil, kasutades Käivitage Stack nuppu. Viru käivitamiseks teises piirkonnas järgige juhiseid, mis leiate jaotisest README GitHubi hoidla.

Kasutage sülearvutit

Kui lahendus on teie kontole juurutatud, antakse märkmiku eksemplar nimega gt-hf-squad-notebook on teie kontol saadaval. Sülearvuti kasutamise alustamiseks toimige järgmiselt.

Navigeerige Amazon SageMakeri konsoolis märkmiku eksemplari lehele.
Vali Avage JupyterLab eksemplari avamiseks.
Sirvige eksemplaris hoidlasse hf-gt-custom-qa ja avage märkmik hf_squad_finetuning.ipynb.
Vali conda_pytorch_p38 kui teie kernel.

Nüüd, kui olete loonud märkmiku eksemplari ja avanud märkmiku, saate lahenduse kasutamiseks käitada märkmikus lahtreid. Selle postituse ülejäänud osa sisaldab märkmiku iga jaotise kohta täiendavaid üksikasju.

Laadige alla ja kontrollige andmeid

. SQuAD andmestik sisaldab koolituse andmestikku ning katse- ja arendusandmekogumeid. Sülearvuti laadib teie eest alla SQuAD2.0 andmestiku, kuid saate valida, millist SQuAD-i versiooni kasutada, muutes märkmiku lahtrit jaotises Laadige alla ja kontrollige andmeid.

SQuADi lõid Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev ja Percy Liang. Lisateabe saamiseks vaadake originaalpaber ja andmestik. SQuAD on autorite poolt litsentsitud Creative Commonsi Attribution-ShareAlike 4.0 rahvusvaheline avalik litsents.

Vaatame näidisküsimuste ja vastuste paari SQuADist:

Lõigu pealkiri: Immuunsüsteem

Immuunsüsteem on paljude bioloogiliste struktuuride ja protsesside süsteem organismis, mis kaitseb haiguste eest. Õigeks toimimiseks peab immuunsüsteem tuvastama mitmesuguseid aineid, mida nimetatakse patogeenideks, alates viirustest kuni parasiitide ussideni, ja eristama neid organismi enda tervetest kudedest. Paljude liikide puhul võib immuunsüsteemi liigitada alamsüsteemideks, näiteks kaasasündinud immuunsüsteem versus adaptiivne immuunsüsteem või humoraalne immuunsus versus raku vahendatud immuunsus. Inimestel eraldavad hematoentsefaalbarjäär, vere-ajuvedeliku barjäär ja sarnased vedeliku-aju barjäärid perifeerset immuunsüsteemi aju kaitsvast neuroimmuunsüsteemist.

Küsimus: mille eest immuunsüsteem organisme kaitseb?

Vastus: haigus

Koormusmudel

Nüüd, kui olete SQuADis vaadanud näidisküsimuste ja vastuste paari, saate alla laadida mudeli, mida saate küsimustele vastamiseks täpsustada. Hugging Face võimaldab teil hõlpsasti alla laadida baasmudeli, mis on läbinud suuremahulise eelkoolituse, ja lähtestada see mõne teise järgneva ülesande jaoks. Sel juhul laadite alla distilbert-base-uncased mudelit ja taaskasutage see küsimustele vastamiseks, kasutades nuppu AutoModelForQuestionAnswering klassist Hugging Face'ist. Samuti kasutate AutoTokenizer klassis, et hankida modelli eelkoolitatud tokenisaator. Sukeldume hiljem postituses kasutatavasse mudelisse sügavamale.

Vaadake BERT-i sisendit

BERT nõuab tekstiandmete teisendamist numbriliseks esituseks, mida nimetatakse märkide. Saadaval on mitmesuguseid tokenisereid; järgmised märgid on loodud spetsiaalselt BERT-i jaoks loodud märgiseadja abil, mille loote määratud sõnavaraga. Iga märk vastab sõnavaras olevale sõnale. Vaatame teisendatud immuunsüsteemi küsimust ja konteksti, mille BERT-ile järelduste tegemiseks esitate.

{'input_ids': tensor([[ 0, 133, 9161, 467, 15899, 28340, 136, 99, 116, 2, 2, 133, 9161, 467, 16, 10, 467, 9, 171, 12243, 6609, 8, 5588, 624, 41, 33993, 14, 15899, 136, 2199, 4, 598, 5043, 5083, 6, 41, 9161, 467, 531, 10933, 10, 1810, 3143, 9, 3525, 6, 684, 25, 35904, 6, 31, 21717, 7, 43108, 31483, 6, 8, 22929, 106, 31, 5, 33993, 18, 308, 2245, 11576, 4, 96, 171, 4707, 6, 5, 9161, 467, 64, 28, 8967, 88, 44890, 29, 6, 215, 25, 5, 36154, 9161, 467, 4411, 5, 28760, 9161, 467, 6, 50, 10080, 15010, 17381, 4411, 3551, 12, 43728, 17381, 4, 96, 5868, 6, 5, 1925, 2383, 36436, 9639, 6, 1925, 2383, 1755, 241, 7450, 4182, 6204, 12293, 9639, 6, 8, 1122, 12293, 2383, 36436, 7926, 2559, 5, 27727, 9161, 467, 31, 5, 14913, 42866, 467, 61, 15899, 5, 2900, 4, 2]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

Mudeli järeldus

Nüüd, kui olete näinud, mida BERT kasutab sisendiks, vaatame, kuidas saate mudelist järeldusi teha. Järgmine kood näitab, kuidas kasutada mudelist varem loodud märgistatud sisendit ja tagastada järeldustulemused. Sarnaselt sellele, kuidas BERT ei saa toorteksti sisendiks aktsepteerida, ei genereeri see ka toorteksti väljundina. Tõlkite BERTi väljundi, tuvastades lõigu algus- ja lõpp-punkti, mille BERT vastusena määratles. Seejärel vastendate selle väljundi meie žetoonidega ja tagasi ingliskeelse tekstiga.

outputs = model(**inputs, start_positions=start_positions, end_positions=end_positions) answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits
answer_start = torch.argmax(
answer_start_scores
) # Get the most likely beginning of answer with the argmax of the score
answer_end = torch.argmax(answer_end_scores) + 1 # Get the most likely end of answer with the argmax of the score
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))
print(f"Question: {sq['paragraphs'][0]['qas'][0]['question']}")
print(f"Answer: {answer}")

Tõlgitud tulemused on järgmised:

Küsimus: mille eest immuunsüsteem organisme kaitseb?

Vastus: haigus

Täiendage SQuAD-i

Järgmisena kasutame täiendavate märgistatud andmete saamiseks a kohandatud töötaja ülesande mall aastal Ground Truth. Esmalt saame luua uue artikli SQuAD-vormingus. Märkmik kopeerib selle faili repost Amazon S3-sse, kuid tehke enne rakenduse käivitamist muudatusi. Täiendage SQuAD-i kamber. SQuAD-i vorming on näidatud järgmises koodis. Iga SQuAD JSON-fail sisaldab mitut artiklit, mis on talletatud data võti. Igas artiklis on a title välja ja üks või mitu lõiku. Need lõigud sisaldavad tekstilõike nimega context ja kõik seotud küsimused qas nimekirja. Kuna me teeme märkmeid nullist, võime lahkuda qas loend tühi ja esitage lihtsalt kontekst. Kasutajaliides suudab liikuda nii lõikude kui artiklite vahel, võimaldades teil muuta iga töötaja ülesande nii suureks või väikeseks, kui soovite.

s3://<my-bucket-name>/custom_squad.json: { "version": "v2.0", "data": [ { "title": "Ground Truth Marketing", "paragraphs": [ { "qas": [], "context": "SageMaker Ground Truth helps improve the quality of labels through annotation consolidation and audit workflows. Annotation consolidation is the process of collecting label inputs from two or more data labelers and combining them to create a single data label for your machine learning model. With built-in audit and review workflows, workers can perform label verification and make adjustments to improve accuracy." }, { "qas": [], "context": "SageMaker Ground Truth provides automated labeling features such as ‘auto-segment’, ‘automatic 3D cuboid snapping’, and ‘sensor fusion with 2D video frames’ through an intuitive user interface in order to reduce the time needed for data labeling tasks while also improving quality. For semantic segmentation, workers must label objects in an image. Using the auto-segment feature, workers can capture the object with 4 clicks vs. hundreds." }, { "qas": [], "context": "SageMaker Ground Truth offers automatic data labeling. Using an active learning model, data is labeled and only routed to humans if the model cannot confidently label it. The human-labeled data is then used to train the machine learning model to improve its' accuracy. As a result, less data is then sent to humans in the next round of labeling which lowers data labeling costs by up to 70%." }, { "qas": [], "context": "SageMaker Ground Truth provides options to work with labelers inside and outside of your organization. Using SageMaker Ground Truth, you can easily send labeling jobs to your own labelers or you can access a workforce of over 500,000 independent contractors who are already performing machine learning related tasks through Amazon Mechanical Turk. If your data requires confidentiality or special skills, you can use vendors pre-screened by AWS for quality and security procedures, including iVision, CapeStart Inc., Cogito, and iMerit." } ] } ]
}

Pärast SQuAD-i näidisandmefaili loomist peame looma Ground Truthi laiendatud manifesti fail mis viitab meie sisendandmetele. Selleks genereerime JSON-ridavormingus faili, millel on "source” võti, mis vastab Amazon S3 asukohale, kus me oma sisend SQuAD-andmed salvestasime:

s3://<my-bucket-name>/input.manifest {"source": "s3://<my-bucket-name>/custom_squad.json"}
{"source": "s3://<my-bucket-name>/custom_squad_2.json"}
{"source": "s3://<my-bucket-name>/custom_squad_3.json"}

Juurdepääs märgistamisportaalile

Pärast töö Ground Truthile saatmist saate vaadata Ground Truthi konsoolis loodud sildistamistööd.

Sildistamise teostamiseks peate eeltingimustoimingute osana loodud töötajaportaali kontole sisse logima. Teie töö on pärast mõneminutilist eeltöötlust töötajaportaalis saadaval. Pärast ülesande avamist kuvatakse teile küsimuste ja vastuste märkuse jaoks kohandatud töötaja mall. Küsimusi saate lisada, tõstes kontekstis esile tekstiosad ja seejärel valides Lisa küsimus.

Kontrollige märgistamise töö olekut

Pärast esitamist saate käivitada Kontrollige märgistamise töö olekut lahtrit, et näha, kas sildistamistöö on lõpetatud. Enne järgmiste lahtrite juurde asumist oodake lõpetamist.

Laadige märgistatud andmed

Pärast märgistamist sisaldab väljundmanifest kirje teie sildi atribuudi nimega (antud juhul squad-1626282229), mis sisaldab SQuAD-vormingus S3 URI-d, mida saate treeningu ajal kasutada. Vaadake järgmist väljundmanifesti sisu:

{ "source": "s3://<my-bucket-name>/custom_squad.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_2.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_3.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}

Iga manifesti rida vastab ühele töötaja ülesandele.

Laadige SQuAD rongikomplekt

Kallistaval näol on a andmestiku pakett mis annab teile võimaluse SQuAD alla laadida ja eeltöödelda, kuid kohandatud küsimuste ja vastuste lisamiseks peame veidi töötlema. SQuAD on üles ehitatud teemakomplektide ümber. Igal teemal on palju erinevaid kontekstiväiteid ja igal kontekstiavaldusel on küsimuste ja vastuste paarid. Kuna tahame koolituse jaoks ise küsimusi luua, peame oma küsimused kombineerima SQuADiga. Meie õnneks on meie annotatsioonid juba SQuAD-vormingus, nii et saame võtta oma näidissildid ja lisada need olemasolevatele SQuAD-andmetele uue teemana.

Looge kallistava näo andmestiku objekt

Andmete Hugging Face'i andmekogumi vormingusse viimiseks on meil mitu võimalust. Saame kasutada load_dataset suvandit, sel juhul saame esitada CSV-, JSON- või tekstifaili, mis laaditakse andmestikuobjektina. Samuti saate tarnida load_dataset töötlemisskriptiga, et teisendada fail soovitud vormingusse. Selle postituse jaoks kasutame selle asemel Dataset.from_dict() meetod, mis võimaldab meil andmestikuobjekti loomiseks anda mälus oleva sõnastiku. Samuti määratleme oma andmestiku funktsioonid. Funktsioone saame vaadata kasutades Kallistava näo andmekogumi vaataja, nagu on näidatud järgmisel ekraanipildil.

Meie funktsioonid on järgmised:

ID – teksti ID
pealkiri – teemaga seotud pealkiri
kontekst – kontekstilause, mille mudel peab vastuse leidmiseks otsima
küsimus – Modellilt küsitav küsimus
vastus – aktsepteeritud vastuse tekst ja asukoht kontekstiavalduses

Kallistava näo andmestikud võimaldavad meil hõlpsasti määratleda selle skeemi:

squad_dataset = Dataset.from_dict(dataset_dict,
features=datasets.Features( { "id": datasets.Value("string"), "title": datasets.Value("string"), "context": datasets.Value("string"), "question": datasets.Value("string"), "answers": datasets.features.Sequence( { "text": datasets.Value("string"), "answer_start": datasets.Value("int32"), } ), # These are the features of your dataset like images, labels ... }
))

Pärast andmestikuobjekti loomist peame seda tegema märkima teksti. Kuna mudelid ei saa toorteksti sisendina aktsepteerida, peame teisendama oma teksti numbriliseks sisendiks, millest see aru saab, ehk teisiti tuntud kui tokeniseerimine. Tokeniseerimine on mudelispetsiifiline, nii et mõistame mudelit, mida kavatseme täpsustada. Me kasutame a destilbert-alus-korpuseta mudel. See näeb välja väga sarnane BERT-iga: see kasutab sisendi manustamist, mitme peaga tähelepanu (selle toimingu kohta lisateabe saamiseks vaadake Illustreeritud transformer) ja suunab edasi kihte, kuid selle parameetrid on poole väiksemad kui BERT-i algmudelil. Vaadake järgmisi esialgseid mudelikihte:

Jaotame mudeli pealkirja iga komponendi. Nimi distilbert tähistab tõsiasja, et tegemist on BERTi baasmudeli destilleeritud versiooniga, mis saadakse protsessi nn. teadmiste destilleerimine. Teadmiste destilleerimine võimaldab meil koolitada väiksemat õpilasmudelit mitte ainult koolitusandmete, vaid ka suurema eelkoolitatud õpetajamudeli sama koolituskomplekti vastuste põhjal. base viitab mudeli suurusele, antud juhul oli mudel destilleeritud BERTi baasmudelist (erinevalt BERTi suurest mudelist). uncased viitab tekstile, mille järgi seda koolitati. Sel juhul ei arvestatud tekstis tähte; kogu tekst, mida seda õpetati, oli väiketähtedega. The uncased aspekt mõjutab otseselt seda, kuidas me oma teksti märgistame. Õnneks pakub Hugging Face peale lihtsa juurdepääsu trafomudelite allalaadimisele ka mudeliga kaasasoleva märgise. Laadisime alla ka meie jaoks kohandatud tokenisaatori distilbert-base-uncased model mida me nüüd teksti muutmiseks kasutame:

# loadbase_model_prefix model_name = "distilbert-base-uncased" # Load model & tokenizer
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# set model to evaluation mode
evl = model.eval()

Andmestikuklassi teine omadus on see, et see võimaldab meil paralleelselt selle kaardifunktsiooniga käivitada eeltöötlust ja märgistamist. Määratleme töötlemisfunktsiooni ja edastame selle seejärel kaardimeetodile.

Küsimustele vastamiseks vajab Hugging Face mitut komponenti (mis on samuti määratletud sõnastik):

tähelepanu mask – mask, mis näitab mudelile, millistele märkidele tähelepanu pöörata, kasutatakse peamiselt tegeliku teksti ja täidismärkide eristamiseks
alguspositsioonid – vastuse alguspositsioon tekstis
lõpp_positsioonid – vastuse lõpppositsioon tekstis
sisend_id – märgiindeksid, mis vastavad märgid sõnavarale

Meie tokenisaator märgistab teksti, kuid me peame selgelt jäädvustama oma vastuse algus- ja lõpppositsioonid, mistõttu oleme määratlenud kohandatud eeltöötlusfunktsiooni. Nüüd, kui meil on sisendid valmis, alustame treeningutega!

Koolitustöö käivitamine

Saame oma märkmikus koolitusi läbi viia, kuid eksemplarid, mida vajame oma Q&A mudeli mõistliku aja jooksul koolitamiseks, p3 ja p4 eksemplarid, on üsna võimsad. Need juhtumid kipuvad olema sülearvuti käitamiseks või püsivaks kasutamiseks üle jõu käivad Amazon Elastic Compute Cloud (Amazon EC2) näide. Siin tuleb appi SageMakeri koolitus. SageMakeri koolitus võimaldab teil käivitada koolitustöö teatud eksemplaridel või eksemplaridel, mis on saadaval ainult koolitustöö kestuse jooksul. See võimaldab meil töötada suurematel eksemplaridel, nagu p4d.24xlarge, 8 NVIDIA A100 GPU-ga, kuid ei pea muretsema tohutu arve pärast, kui unustame selle välja lülitada. See annab meile hõlpsa juurdepääsu ka teistele SageMakeri funktsioonidele, nagu SageMakeri katsed ML treeningjooksude jälgimiseks ja SageMakeri silur koolitustööde mõistmiseks ja profileerimiseks.

Kohalik koolitus

Alustuseks mõistame, kuidas Hugging Face'is mudeli treenimine kohapeal töötab, ja seejärel vaadake üle muudatused, mida me selle SageMakeris käitamiseks teeme.

Hugging Face muudab treenimise nende treeneriklassi kasutamise kaudu lihtsaks. Treeneriklass võimaldab meil sisestada oma mudelit, koolitus- ja valideerimisandmekogumeid, hüperparameetreid ja isegi tokenisaatorit. Kuna meil on juba nii oma mudel kui ka koolitus- ja valideerimiskomplektid, peame määratlema ainult oma hüperparameetrid. Saame seda teha läbi TrainingArguments klass. See võimaldab meil määrata selliseid asju nagu õppimiskiirus, partii suurus, ajastute arv ja põhjalikumad parameetrid, nagu kaalu vähenemine või õppimiskiiruse ajastamise strateegia. Pärast seda, kui oleme määratlenud oma TrainingArguments, saame sisestada oma mudeli, koolituskomplekti, valideerimiskomplekti ja argumendid, et luua meie koolitaja klass. Siis saame lihtsalt helistada trainer.train() et alustada meie mudeli treenimist. Järgmine koodiplokk näitab, kuidas kohalikku koolitust läbi viia:

doc_stride=128
max_length=512
tokenized_train = squad_dataset.map(prepare_train_features, batched=True, remove_columns=squad_dataset.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride})
tokenized_test = squad_test.map(prepare_train_features, batched=True, remove_columns=squad_test.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride}) hf_args = TrainingArguments( 'test_local', evaluation_strategy = "epoch", learning_rate=5e-5, per_device_train_batch_size=16, per_device_eval_batch_size=16, num_train_epochs=1, weight_decay=0.0001,
) trainer = Trainer( model, hf_args, train_dataset=tokenized_train, eval_dataset=tokenized_test, data_collator=default_data_collator, tokenizer=tokenizer,
) trainer.train()

Saada andmed S3-le

Sama asja tegemine SageMakeri koolitusel on lihtne. Esimene samm on meie andmete paigutamine Amazon S3-sse, et meie mudel saaks neile juurde pääseda. SageMakeri koolitus võimaldab määrata andmeallika; saate kasutada selliseid allikaid nagu Amazon S3, Amazon elastne failisüsteem (Amazon EFS) või Amazon FSx Lusteri jaoks suure jõudlusega andmete allaneelamiseks. Meie puhul pole meie laiendatud SQuAD-andmekogum eriti suur, seega on Amazon S3 hea valik. Laadime oma treeningandmed üles Amazon S3 kausta ja kui SageMaker meie treeningeksemplari üles keerutab, laadib see andmed alla meie määratud asukohast.

Esitage mudel

Koolitustöö käivitamiseks saame kasutada sisseehitatud Hugging Face hindajat SageMaker SDK. SageMaker kasutab hindajaklassi, et määratleda koolitustöö parameetrid, samuti koolituseks kasutatavate eksemplaride arv ja tüüp. SageMakeri koolitus on üles ehitatud Dockeri konteinerite kasutamisele. Saate kasutada SageMakeri vaikekonteinereid või pakkuda koolituseks oma kohandatud konteinerit. Hugging Face mudelite puhul on SageMakeril sisseehitatud Hugging Face konteinerid kõigi sõltuvustega, mida vajate Hugging Face koolitustööde tegemiseks. Peame vaid määratlema oma treeningskripti, mida meie Hugging Face konteiner kasutab oma sisenemispunktina.

Selles koolitusskriptis määratleme oma argumendid, mille edastame hüperparameetrite komplektina oma sisenemispunkti, ja ka koolituskoodi. Meie koolituskood on sama, nagu kasutaksime seda kohapeal; saame lihtsalt kasutada TrainingArguments ja seejärel andke need treeneriobjektile. Ainus erinevus on see, et peame määrama oma mudeli väljundi asukoha /opt/ml/model et SageMakeri koolitus saaks selle võtta, pakkida ja Amazon S3-le saata. Järgmine koodiplokk näitab, kuidas luua meie kallistava näo hinnangut:

# hyperparameters, which are passed into the training job
hyperparameters={ 'model_name': model_name, 'dataset_name':'squad', 'do_train': True, 'do_eval': True, 'fp16': True, 'train_batch_size': 32, 'eval_batch_size': 32, 'weight_decay':0.01, 'warmup_steps':500, 'learning_rate':5e-5, 'epochs': 2, 'max_length': 384, 'max_steps': 100, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model'
} # estimator
huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='container_training', metric_definitions=metric_definitions, instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, role=role, transformers_version='4.4.2', pytorch_version='1.6.0', py_version='py36', hyperparameters = hyperparameters)

Täpsustage mudelit

Oma konkreetse koolitustöö jaoks kasutame p3.8xlarge eksemplari, mis koosneb 4 V100 GPU-st. Treeneriklass toetab automaatselt koolitust mitme GPU-ga eksemplaridel, nii et me ei vaja selle arvessevõtmiseks täiendavaid seadistusi. Koolitame oma mudelit kahe epohhi jaoks, partii suurus on 16 ja õppimiskiirus 4e5. Võimaldame ka segatäpsusega koolitust, mis kasutab segatäpsust valdkondades, kus saame arvulist täpsust vähendada, ilma et see mõjutaks meie mudeli täpsust. See suurendab meie olemasolevat mälu ja treeningkiirust. Koolitustöö käivitamiseks helistame fit meetod meie poolt huggingface_estimator klass.

huggingface_estimator.fit(data_channels, wait=False, job_name=f'hf-distilbert-squad-{int(time.time())}')

Kui meie mudel on koolituse läbinud, saame mudeli kohapeal alla laadida ja selle testimiseks sülearvuti mällu laadida, mida sülearvutis näidatakse. Keskendume teisele võimalusele, juurutades selle SageMakeri lõpp-punktina!

Rakendage koolitatud mudel

Lisaks koolituse jaoks mõeldud utiliitide pakkumisele võib SageMaker võimaldada ka andmeteadlastel ja ML-i inseneridel hõlpsasti juurutada REST-i lõpp-punkte oma koolitatud mudelite jaoks. Saate juurutada SageMakeris või väljaspool seda koolitatud mudeleid. Lisateabe saamiseks vaadake Juurutage mudel Amazon SageMakeris.

Kuna meie mudelit õpetati SageMakeris, on see lõpp-punktina juurutamiseks juba õiges vormingus. Sarnaselt koolitusega määratleme SageMakeri mudeliklassi, mis määratleb mudeli, teeninduskoodi ning eksemplaride arvu ja tüübi, mida soovime lõpp-punktidena juurutada. Sarnaselt koolitusele põhineb serveerimine Dockeri konteineritel ja saame kasutada kas sisseehitatud SageMakeri konteinereid või tarnida oma. Selle postituse jaoks kasutame sisseehitatud PyTorchi serveerimismahutit, nii et lõpp-punkti käivitamiseks peame lihtsalt määratlema mõned asjad. Meie teeninduskood vajab nelja funktsiooni:

mudel_fn – Määrab, kuidas lõpp-punkt mudeli laadib (see teeb seda ainult üks kord ja säilitab selle siis mällu järgmiste prognooside jaoks)
sisend_fn – Määrab, kuidas sisend deserialiseeritakse ja töödeldakse
ennustada_fn – Määrab, kuidas meie mudel meie sisendit prognoosib
väljund_fn – Määrab, kuidas lõpp-punkt vormindab ja saadab väljundandmed päringu esitavale kliendile tagasi

Pärast nende funktsioonide määratlemist saame oma lõpp-punkti juurutada ja edastada sellele kontekstilaused ja küsimused ning tagastada selle ennustatud vastuse:

endpoint_name = 'hf-distilbert-QA-string-endpoint4-185'
model_data = f"{huggingface_estimator.output_path}{huggingface_estimator.jobs[0].job_name}/output/model.tar.gz" # We are going to use a SageMaker serving container
torch_model = PyTorchModel(model_data=model_data, source_dir = 'container_serving', role=role, entry_point='transform_script.py', framework_version='1.8.1', py_version='py3', predictor_cls = StringPredictor)
bert_end = torch_model.deploy(instance_type='ml.m5.2xlarge', initial_instance_count=1, #'ml.g4dn.xlarge' endpoint_name=endpoint_name)

Visualiseerige mudeli tulemusi

Kuna juurutasime SageMakeri lõpp-punkti, mis võimaldab meil saata konteksti avaldusi ja saada vastuseid, saame tagasi minna ja sellest tulenevaid järeldusi esialgses SQuAD-vaaturis visualiseerida, et paremini visualiseerida, mida meie mudel lõigu kontekstis leidis. Selleks vormindame järelduste tulemused uuesti SQuAD-vormingusse, seejärel asendame töötaja mallis olevad Liquid-sildid SQuAD-vormingus JSON-iga. Seejärel saame tulemuseks oleva kasutajaliidese oma töötaja mallis iframida, et tulemused ühe märkmiku kontekstis iteratiivselt üle vaadata, nagu on näidatud järgmisel ekraanipildil. Igal vasakpoolsel küsimusel saab klõpsata, et tõsta esile päringule vastavad parempoolsed tekstiulatused. Kui küsimust pole valitud, tõstetakse kõik tekstivahemikud paremal esile, nagu allpool näidatud.

Koristage

Edaspidiste tasude vältimiseks käivitage Koristage märkmiku jaotises, et kustutada kõik ressursid, sealhulgas SageMakeri lõpp-punktid, toor- ja töödeldud andmekomplekti sisaldavad S3-objektid ning CloudFormationi virn. Kui kustutamine on lõpetatud, peatage ja kustutage kindlasti sülearvuti eksemplar, mis majutab praegust märkmiku skripti.

Järeldus

Selles postituses õppisite, kuidas luua Ground Truthi abil oma küsimustele vastamise andmestik ja ühendada see SQuAD-iga, et koolitada ja juurutada oma küsimustele vastamise mudel, kasutades SageMakerit. Pärast märkmiku valmimist on teil juurutatud SageMakeri lõpp-punkt, mis on koolitatud teie kohandatud küsimuste ja vastuste andmestiku kohta. See lõpp-punkt on teie tootmis-NLU töövoogudesse integreerimiseks valmis, kuna SageMakeri lõpp-punktid on saadaval standardsete REST API-de kaudu. Teil on ka kommenteeritud kohandatud andmestik SQuAD 2.0 vormingus, mis võimaldab teil olemasolevat mudelit ümber õpetada või proovida koolitada muid küsimustele vastamise mudeliarhitektuure. Lõpuks on teil mehhanism oma järelduste tulemuste kiireks visualiseerimiseks, laadides töötaja malli oma kohalikku märkmikku.

Proovi järgi märkmik, täiendage seda oma küsimustega ning koolitage ja juurutage oma kohandatud küsimustele vastamise mudel oma NLU kasutusjuhtude jaoks!

Õnnelik hoone!

Autoritest

Jeremy Feltracco on Amazon Web Services'i Amazon ML Solutions Labi tarkvaraarenduse insener. Ta kasutab oma arvutinägemise, robootika ja masinõppe tausta, et aidata AWS-i klientidel AI kasutuselevõttu kiirendada.

Vidya Sagar Ravipati on juhataja ettevõttes Amazon ML Solutions Lab, kus ta kasutab oma tohutut kogemust suuremahuliste hajutatud süsteemide vallas ja kirge masinõppe vastu, et aidata AWS-i klientidel erinevates tööstusharudes kiirendada nende tehisintellekti ja pilve kasutuselevõttu. Varem oli ta Amazoni ühenduvusteenuste masinõppeinsener, kes aitas luua isikupärastamise ja ennustava hoolduse platvorme.

Isaac Privitera on vanemandmeteadlane Amazoni masinõppelahenduste laboris, kus ta arendab klientide äriprobleemide lahendamiseks kohandatud masinõppe- ja süvaõppelahendusi. Ta töötab peamiselt arvutinägemise ruumis, keskendudes AWS-i klientidele hajutatud koolituse ja aktiivõppe võimaldamisele.