Amazon Comprehend Announces Lower Annotation Limits For Custom Entity Recognition

Ponovno objavil Platon

Spremljevalci: 0

Amazonsko razumevanje je storitev obdelave naravnega jezika (NLP), ki jo lahko uporabite za samodejno ekstrahiranje entitet, ključnih fraz, jezika, čustev in drugih vpogledov iz dokumentov. Takoj lahko na primer začnete zaznavati entitete, kot so ljudje, kraji, komercialni predmeti, datumi in količine prek Konzola Amazon Comprehend, Vmesnik ukazne vrstice AWSali Vmesniki API-jev Amazon. Poleg tega, če morate ekstrahirati entitete, ki niso del Vgrajene vrste entitet Amazon Comprehend, lahko ustvarite model za prepoznavanje entitet po meri (znan tudi kot entiteta po meri prepoznavalec), da izvlečete izraze, ki so pomembnejši za vaš poseben primer uporabe, kot so imena elementov iz kataloga izdelkov, identifikatorji, specifični za domeno, itd. Samostojno ustvarjanje natančnega prepoznavalnika entitet z uporabo knjižnic in ogrodij za strojno učenje je lahko zapleten in dolgotrajen postopek. Amazon Comprehend znatno poenostavi vaše delo pri usposabljanju modelov. Vse kar morate storiti je, da naložite svoj nabor podatkov dokumentov in opomb ter uporabite konzolo Amazon Comprehend, AWS CLI ali API-je za ustvarjanje modela.

Za usposabljanje prepoznavalnika entitet po meri lahko Amazonu Comprehend posredujete podatke o usposabljanju kot opombe ali sezname entitet. V prvem primeru zagotovite zbirko dokumentov in datoteko z opombami, ki določajo lokacijo, kjer se entitete pojavljajo znotraj nabora dokumentov. Druga možnost je, da s seznami entitet zagotovite seznam entitet z njihovo ustrezno oznako tipa entitete in niz dokumentov brez opomb, v katerih pričakujete, da bodo vaše entitete prisotne. Oba pristopa je mogoče uporabiti za usposabljanje uspešnega modela za prepoznavanje entitet po meri; vendar obstajajo situacije, v katerih je lahko ena metoda boljša izbira. Na primer, kadar je lahko pomen določenih entitet dvoumen in odvisen od konteksta, je priporočljivo, da zagotovite opombe, ker vam lahko to pomaga ustvariti model Amazon Comprehend, ki lahko bolje uporablja kontekst pri ekstrahiranju entitet.

Označevanje dokumentov lahko zahteva precej truda in časa, še posebej, če upoštevate, da tako kakovost kot količina opomb vplivata na nastali model prepoznavanja entitet. Nenatančne ali premajhne opombe lahko povzročijo slabe rezultate. Da bi vam pomagali vzpostaviti postopek za pridobivanje opomb, nudimo orodja, kot so Amazon SageMaker Ground Truth, ki ga lahko uporabite za hitrejše komentiranje vaših dokumentov in ustvarjanje razširjena datoteka z opombami manifesta. Toda tudi če uporabljate Ground Truth, se morate še vedno prepričati, da je vaš nabor podatkov o usposabljanju dovolj velik za uspešno izgradnjo vašega prepoznavalnika entitet.

Do danes ste morali za začetek usposabljanja prepoznavalnika entitet po meri Amazon Comprehend zagotoviti zbirko najmanj 250 dokumentov in najmanj 100 opomb na vrsto entitete. Danes oznanjamo, da smo zaradi nedavnih izboljšav v modelih, na katerih temelji Amazon Comprehend, zmanjšali minimalne zahteve za usposabljanje prepoznavalnika z datotekami opomb CSV z navadnim besedilom. Zdaj lahko zgradite model za prepoznavanje entitete po meri s samo tremi dokumenti in 25 opombami na vrsto entitete. Dodatne podrobnosti o novih omejitvah storitev najdete v Smernice in kvote.

Da bi prikazali, kako vam lahko to zmanjšanje pomaga pri začetku ustvarjanja prepoznavalnika entitet po meri, smo izvedli nekaj testov na nekaj odprtokodnih naborih podatkov in zbrali meritve uspešnosti. V tej objavi vas vodimo skozi postopek primerjalne analize in rezultate, ki smo jih pridobili med delom na podvzorčenih naborih podatkov.

Priprava nabora podatkov

V tej objavi pojasnjujemo, kako smo usposobili prepoznavanje entitet po meri Amazon Comprehend z uporabo označenih dokumentov. Na splošno se opombe lahko zagotovijo kot a Datoteka CSV, razširjena manifestna datoteka, ki jo je ustvaril Ground TruthAli Datoteka PDF. Naš poudarek je na opombah CSV z navadnim besedilom, ker je to vrsta opomb, na katero vplivajo nove minimalne zahteve. Datoteke CSV morajo imeti naslednjo strukturo:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

Ustrezna polja so naslednja:

file – Ime datoteke, ki vsebuje dokumente
vrstica – Številka vrstice, ki vsebuje entiteto, začenši z vrstico 0
Začnite Odmik – Odmik znaka v vhodnem besedilu (glede na začetek vrstice), ki kaže, kje se začne entiteta, glede na to, da je prvi znak na položaju 0
Končni odmik – Odmik znaka v vhodnem besedilu, ki prikazuje, kje se konča entiteta
tip – Ime vrste entitete, ki jo želite definirati

Poleg tega morate pri uporabi tega pristopa zagotoviti zbirko dokumentov za usposabljanje kot datoteke .txt z enim dokumentom na vrstico ali enim dokumentom na datoteko.

Za naše teste smo uporabili Merilo razumevanja naravnega jezika SNIPS, nabor podatkov množičnih izjav, porazdeljenih med sedem namenov uporabnikov (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). Nabor podatkov je bil objavljen leta 2018 v okviru prispevka Snips Voice Platform: vdelan sistem za razumevanje govorjenega jezika za zasebne glasovne vmesnike po zasnovi od Coucke, et al.

Nabor podatkov SNIPS je sestavljen iz zbirke datotek JSON, ki zgoščajo opombe in neobdelane besedilne datoteke. Sledi delček iz nabora podatkov:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

Pred ustvarjanjem našega prepoznavalnika entitet smo preoblikovali opombe SNIPS in neobdelane besedilne datoteke v datoteko z opombami CSV in datoteko dokumentov .txt.

Sledi odlomek iz našega annotations.csv datoteka:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

Sledi odlomek iz našega documents.txt datoteka:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

Konfiguracija vzorčenja in postopek primerjalne analize

Za naše poskuse smo se osredotočili na podnabor vrst entitet iz nabora podatkov SNIPS:

BookRestaurant – Vrste entitet: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
GetWeather – Vrste entitet: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
Predvajaj glasbo – Vrste entitet: track, artist, music_item, service, genre, sort, playlist, album, year

Poleg tega smo podvzorčili vsak nabor podatkov, da smo pridobili različne konfiguracije v smislu števila dokumentov, vzorčenih za usposabljanje, in števila opomb na entiteto (znano tudi kot posnetkov). To je bilo storjeno z uporabo skripta po meri, zasnovanega za ustvarjanje podvzorčenih naborov podatkov, v katerih se vsaka vrsta entitete pojavi vsaj k krat, v najmanj n dokumenti.

Vsak model je bil usposobljen z uporabo posebnega podvzorca podatkovnih nizov za usposabljanje; devet konfiguracij modela je prikazanih v naslednji tabeli.

Ime podvzorčenega nabora podatkov	Število dokumentov, vzorčenih za usposabljanje	Število dokumentov, vzorčenih za testiranje	Povprečno število pripisov na vrsto entitete (posnetki)
`snips-BookRestaurant-subsample-A`	132	17	33
`snips-BookRestaurant-subsample-B`	257	33	64
`snips-BookRestaurant-subsample-C`	508	64	128
`snips-GetWeather-subsample-A`	91	12	25
`snips-GetWeather-subsample-B`	185	24	49
`snips-GetWeather-subsample-C`	361	46	95
`snips-PlayMusic-subsample-A`	130	17	30
`snips-PlayMusic-subsample-B`	254	32	60
`snips-PlayMusic-subsample-C`	505	64	119

Za merjenje natančnosti naših modelov smo zbrali metrike vrednotenja, ki jih Amazon Comprehend samodejno izračuna pri usposabljanju prepoznavalca entitet:

Precision – To označuje delež entitet, ki jih je zaznal prepoznavalec in so pravilno identificirani in označeni. Z drugega zornega kota lahko natančnost definiramo kot tp / (tp + fp), Kjer tp je število resničnih pozitivnih rezultatov (pravilne identifikacije) in fp je število lažno pozitivnih rezultatov (napačne identifikacije).
Recall – To označuje del entitet, prisotnih v dokumentih, ki so pravilno identificirani in označeni. Izračuna se kot tp / (tp + fn), Kjer tp je število resničnih pozitivnih in fn je število lažno negativnih (zgrešenih identifikacij).
Ocena F1 – To je kombinacija metrike natančnosti in priklica, ki meri celotno natančnost modela. Rezultat F1 je harmonična sredina meritev natančnosti in priklica in se izračuna kot 2 * Natančnost * Priklic / (Natančnost + Priklic).

Za primerjavo uspešnosti naših prepoznavalcev entitet se osredotočamo na rezultate F1.

Glede na to, da glede na nabor podatkov in velikost podvzorca (v smislu števila dokumentov in posnetkov) lahko ustvarite različne podvzorce, smo ustvarili 10 podvzorcev za vsako od devetih konfiguracij, usposobili modele za prepoznavanje entitet, zbrali meritve uspešnosti in jih je povprečil z mikropovprečenjem. To nam je omogočilo, da smo dobili bolj stabilne rezultate, zlasti za nekaj podvzorcev.

Rezultati

Naslednja tabela prikazuje mikropovprečne rezultate F1, izračunane na podlagi meritev uspešnosti, ki jih vrne Amazon Comprehend po usposabljanju vsakega prepoznavalca entitet.

Ime podvzorčenega nabora podatkov	Mikropovprečna ocena F1 za prepoznavanje entitet (%)
`snips-BookRestaurant-subsample-A`	86.89
`snips-BookRestaurant-subsample-B`	90.18
`snips-BookRestaurant-subsample-C`	92.84
`snips-GetWeather-subsample-A`	84.73
`snips-GetWeather-subsample-B`	93.27
`snips-GetWeather-subsample-C`	93.43
`snips-PlayMusic-subsample-A`	80.61
`snips-PlayMusic-subsample-B`	81.80
`snips-PlayMusic-subsample-C`	85.04

Naslednji stolpčni grafikon prikazuje porazdelitev rezultatov F1 za devet konfiguracij, ki smo jih trenirali, kot je opisano v prejšnjem razdelku.

Opazimo lahko, da nam je uspelo uspešno usposobiti modele za prepoznavanje entitet po meri tudi s samo 25 opombami na vrsto entitete. Če se osredotočimo na tri najmanjše podvzorčene nize podatkov (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-Ain snips-PlayMusic-subsample-A), vidimo, da nam je v povprečju uspelo doseči oceno F1 84 %, kar je precej dober rezultat glede na omejeno število dokumentov in opomb, ki smo jih uporabili. Če želimo izboljšati delovanje našega modela, lahko zberemo dodatne dokumente in opombe ter usposobimo nov model z več podatki. Na primer pri srednje velikih podvzorcih (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-Bin snips-PlayMusic-subsample-B), ki vsebujejo dvakrat več dokumentov in opomb, smo v povprečju dobili oceno F1 88 % (5 % izboljšanje glede na subsample-A nabori podatkov). Končno, večji podvzorčeni nabori podatkov (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-Cin snips-PlayMusic-subsample-C), ki vsebujejo še več opomb z opombami (približno štirikratno število dokumentov in opomb, uporabljenih za subsample-A naborov podatkov), je zagotovil nadaljnjih 2 % izboljšav, s čimer se je povprečni rezultat F1 dvignil na 90 %.

zaključek

V tej objavi smo napovedali znižanje minimalnih zahtev za usposabljanje prepoznavalnika entitet po meri z Amazon Comprehend in izvedli nekaj primerjalnih preizkusov na odprtokodnih naborih podatkov, da pokažemo, kako vam lahko to zmanjšanje pomaga pri začetku. Od danes naprej lahko ustvarite model za prepoznavanje entitet z le 25 opombami na vrsto entitete (namesto 100) in vsaj tremi dokumenti (namesto 250). S to objavo znižujemo vstopno oviro za uporabnike, ki jih zanima uporaba tehnologije za prepoznavanje entitet po meri Amazon Comprehend. Zdaj lahko začnete izvajati svoje poskuse z zelo majhno zbirko dokumentov z opombami, analizirate predhodne rezultate in ponovite z vključitvijo dodatnih opomb in dokumentov, če potrebujete natančnejši model prepoznavanja entitet za vaš primer uporabe.

Če želite izvedeti več in začeti uporabljati prepoznavalnik entitet po meri, glejte Prepoznavanje entitete po meri.

Posebna zahvala kolegoma Jyoti Bansal in Jie Ma za njuno dragoceno pomoč pri pripravi podatkov in primerjalni analizi.

O avtorju

Luca Guida je arhitekt rešitev pri AWS; ima sedež v Milanu in podpira italijanske ISV-je pri njihovem potovanju v oblak. Z akademskim ozadjem iz računalništva in inženiringa je svojo strast do AI/ML začel razvijati na univerzi. Kot član skupnosti za obdelavo naravnega jezika (NLP) znotraj AWS Luca pomaga strankam, da so uspešne pri sprejemanju storitev AI/ML.

Časovni žig: Avgust 3, 2022Avgust 3, 2022

Časovni žig: Julij 29, 2022

Amazon Comprehend napoveduje nižje omejitve pripisov za prepoznavanje entitet po meri

Ponovno objavil Platon

Priprava nabora podatkov

Konfiguracija vzorčenja in postopek primerjalne analize

Rezultati

zaključek

O avtorju

Več od Strojno učenje AWS

Predstavljamo nalaganje množičnih dokumentov Amazon Texttract za izboljšano vrednotenje in analizo | Spletne storitve Amazon

Zgradite rešitev za odkrivanje goljufij v realnem času, ki temelji na GNN, z uporabo Amazon SageMaker, Amazon Neptune in Deep Graph Library

Implementirajte enotno iskanje po besedilu in slikah z modelom CLIP z uporabo Amazon SageMaker in Amazon OpenSearch Service

Zaženite sklepanje v merilu za OpenFold, model ML za zvijanje beljakovin, ki temelji na PyTorchu, z uporabo Amazon EKS

Samodejno prepoznavanje jezikov v večjezičnem zvoku z uporabo Amazon Transcribe

Kako Amazon Search doseže sklepanje T5 z nizko zakasnitvijo in visoko zmogljivostjo z NVIDIA Triton na AWS

Zaznajte goljufive transakcije s pomočjo strojnega učenja z Amazon SageMaker

Identificirajte lokacijo anomalij z uporabo Amazon Lookout for Vision na robu brez uporabe GPE

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun