Amazon Comprehend kuulutab välja kohandatud olemi tuvastamise madalamad märkuste piirangud

Taasavaldanud Platon

järgijaid: 0

Amazoni mõistmine on loomuliku keele töötlemise (NLP) teenus, mida saate kasutada dokumentidest olemite, võtmefraaside, keele, tunnete ja muu ülevaate automaatseks eraldamiseks. Näiteks saate kohe hakata tuvastama üksusi, nagu inimesed, kohad, kaubaartiklid, kuupäevad ja kogused Amazon Comprehend konsool, AWS-i käsurea liidesvõi Amazon Comprehend API-d. Lisaks, kui teil on vaja ekstraktida üksused, mis ei ole osa Amazon Comprehend sisseehitatud olemitüübid, saate luua kohandatud olemituvastusmudeli (tuntud ka kui kohandatud üksus äratundja). Täpse olemituvastaja ise loomine masinõppe teekide ja raamistike abil võib olla keeruline ja aeganõudev protsess. Amazon Comprehend lihtsustab teie mudelikoolitustööd oluliselt. Kõik, mida pead tegema, on laadida oma dokumentide ja annotatsioonide andmekogum ning kasutada mudeli loomiseks Amazon Comprehendi konsooli, AWS CLI-d või API-sid.

Kohandatud olemi tuvastaja koolitamiseks saate esitada koolitusandmed Amazon Comprehend as-ile märkused või olemiloendid. Esimesel juhul esitate dokumentide kogumi ja faili koos märkustega, mis määravad dokumendikomplekti olemite asukoha. Alternatiivina saate olemiloendite puhul esitada olemite loendi koos vastava olemitüübi sildiga ja märkusteta dokumentide komplekti, milles eeldate, et teie olemid on olemas. Mõlemat lähenemisviisi saab kasutada eduka kohandatud olemi tuvastamise mudeli koolitamiseks; Siiski on olukordi, kus üks meetod võib olla parem valik. Näiteks kui konkreetsete olemite tähendus võib olla mitmetähenduslik ja kontekstist sõltuv, on soovitatav lisada märkusi, kuna see võib aidata teil luua Amazon Comprehendi mudeli, mis suudab olemite eraldamisel konteksti paremini kasutada.

Dokumentide märkuste tegemine võib nõuda üsna palju vaeva ja aega, eriti kui arvestada, et nii märkuste kvaliteet kui ka kvantiteet mõjutavad saadavat olemituvastusmudelit. Ebatäpsed või liiga vähesed märkused võivad põhjustada halbu tulemusi. Märkuste hankimise protsessi seadistamiseks pakume selliseid tööriistu nagu Amazon SageMaker Ground Truth, mida saate kasutada dokumentide kiiremaks märkuste tegemiseks ja dokumendi genereerimiseks laiendatud manifesti annotatsioonide fail. Isegi kui kasutate Ground Truthi, peate siiski veenduma, et teie treeninguandmekogum on olemituvastaja edukaks loomiseks piisavalt suur.

Kuni tänaseni pidite Amazon Comprehendi kohandatud olemituvastaja koolitamise alustamiseks esitama vähemalt 250 dokumendist koosneva kogu ja vähemalt 100 märkust olemi tüübi kohta. Täna teatame, et tänu Amazon Comprehendi aluseks olevate mudelite hiljutistele täiustustele oleme vähendanud lihtteksti CSV annotatsioonifailidega tuvastaja koolitamise miinimumnõudeid. Nüüd saate luua kohandatud olemituvastusmudeli, mis sisaldab vaid kolme dokumenti ja 25 märkust olemitüübi kohta. Lisateavet uute teenusepiirangute kohta leiate aadressilt Suunised ja kvoodid.

Näitamaks, kuidas see vähendamine võib aidata teil kohandatud olemituvastaja loomisega algust teha, viisime läbi mõned testid mõne avatud lähtekoodiga andmekogumiga ja kogusime toimivusmõõdikuid. Selles postituses tutvustame teile võrdlusuuringu protsessi ja tulemusi, mille saime alamvalimiga andmekogumitega töötades.

Andmestiku ettevalmistamine

Selles postituses selgitame, kuidas koolitasime Amazon Comprehendi kohandatud olemi tuvastajat, kasutades märkustega dokumente. Üldiselt saab märkusi esitada a CSV-fail, Ground Truthi loodud täiendatud manifesti failVõi PDF-fail. Keskendume CSV lihtteksti märkustele, sest seda tüüpi märkusi mõjutavad uued miinimumnõuded. CSV-failidel peaks olema järgmine struktuur:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

Vastavad väljad on järgmised:

fail – dokumente sisaldava faili nimi
joon – olemit sisaldava rea number, mis algab reaga 0
Algama Tasakaalustama – märginihe sisendtekstis (rea alguse suhtes), mis näitab, kust olem algab, arvestades, et esimene märk on positsioonil 0
Lõpunihe – märginihe sisendtekstis, mis näitab, kus olem lõpeb
KASUTUSALA – olemitüübi nimi, mida soovite määratleda

Lisaks peate selle lähenemisviisi kasutamisel esitama koolitusdokumentide kogumi .txt-failidena ühe dokumendiga rea kohta või ühe dokumendi faili kohta.

Testide jaoks kasutasime SNIPSi loomuliku keele mõistmise etalon, rahvahulga kaudu hangitud ütluste andmekogum, mis on jagatud seitsme kasutaja kavatsuse vahel (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). Andmekogum avaldati 2018. aastal artikli kontekstis Snipsi häälplatvorm: sisseehitatud kõnekeele mõistmise süsteem privaatsete hääleliideste jaoks Coucke et al.

SNIPS-i andmestik koosneb JSON-failide kogumist, mis koondab nii märkusi kui ka toortekstifaile. Järgmine on väljavõte andmekogumist:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

Enne olemituvastaja loomist muutsime SNIPS-i annotatsioonid ja toortekstifailid CSV-märkuste failiks ja .txt-dokumentide failiks.

Järgnev on väljavõte meie annotations.csv faili:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

Järgnev on väljavõte meie documents.txt faili:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

Valimi konfigureerimine ja võrdlusuuringu protsess

Oma katsetes keskendusime SNIPS-i andmestiku olemitüüpide alamhulgale:

Raamaturestoran – olemitüübid: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
GetWeather – olemitüübid: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
Muusikat mängima – olemitüübid: track, artist, music_item, service, genre, sort, playlist, album, year

Lisaks tegime iga andmestiku alamvalimi, et saada erinevad konfiguratsioonid koolituseks võetud dokumentide arvu ja märkuste arvu osas üksuse kohta (tuntud ka kui kaadrid). Seda tehti kohandatud skripti abil, mis on loodud alamvalimiga andmekogumite loomiseks, milles iga olemitüüp esineb vähemalt k korda, minimaalselt n dokumendid.

Iga mudelit koolitati, kasutades koolitusandmekogumite konkreetset alamvalimi; üheksa mudeli konfiguratsiooni on illustreeritud järgmises tabelis.

Alamvalimiga andmestiku nimi	Koolituseks võetud dokumentide arv	Testimiseks võetud dokumentide arv	Keskmine märkuste arv olemitüübi kohta (kaadrid)
`snips-BookRestaurant-subsample-A`	132	17	33
`snips-BookRestaurant-subsample-B`	257	33	64
`snips-BookRestaurant-subsample-C`	508	64	128
`snips-GetWeather-subsample-A`	91	12	25
`snips-GetWeather-subsample-B`	185	24	49
`snips-GetWeather-subsample-C`	361	46	95
`snips-PlayMusic-subsample-A`	130	17	30
`snips-PlayMusic-subsample-B`	254	32	60
`snips-PlayMusic-subsample-C`	505	64	119

Oma mudelite täpsuse mõõtmiseks kogusime hindamismõõdikud, mille Amazon Comprehend olemi tuvastaja koolitamisel automaatselt arvutab:

Täpsus – See näitab tuvastaja tuvastatud olemite osa, mis on õigesti tuvastatud ja märgistatud. Erinevast vaatenurgast võib täpsust määratleda kui tp / (tp + fp), Kus tp on tõeliste positiivsete (õigete tuvastamiste) arv ja fp on valepositiivsete (valed tuvastamised) arv.
Tagasikutsumine – See näitab dokumentides olevate üksuste osa, mis on õigesti identifitseeritud ja märgistatud. See arvutatakse järgmiselt tp / (tp + fn), Kus tp on tõeliste positiivsete arv ja fn on valenegatiivsete (vastamata tuvastamiste) arv.
F1 skoor – See on täpsus- ja meeldetuletusmõõdikute kombinatsioon, mis mõõdab mudeli üldist täpsust. F1 skoor on täpsus- ja meeldetuletusmõõdikute harmooniline keskmine ning see arvutatakse järgmiselt 2 * Täpsus * tagasikutsumine / (täpsus + tagasikutsumine).

Oma olemituvastajate toimivuse võrdlemiseks keskendume F1 tulemustele.

Arvestades, et andmestikku ja alamvalimi suurust (dokumentide ja kaadrite arvu osas) arvestades saate luua erinevaid alamvalimi, genereerisime iga üheksa konfiguratsiooni jaoks 10 alamvalimi, koolitasime olemituvastusmudeleid, kogusime toimivusmõõdikuid ja keskmistas need mikrokeskmistamise abil. See võimaldas meil saada stabiilsemaid tulemusi, eriti väheste alamproovide puhul.

Tulemused

Järgmises tabelis on näidatud mikrokeskmised F1 skoorid, mis on arvutatud Amazon Comprehendi poolt pärast iga olemi tuvastaja koolitamist tagastatud jõudlusmõõdikute põhjal.

Alamvalimiga andmestiku nimi	Olemituvastaja mikrokeskmine F1 skoor (%)
`snips-BookRestaurant-subsample-A`	86.89
`snips-BookRestaurant-subsample-B`	90.18
`snips-BookRestaurant-subsample-C`	92.84
`snips-GetWeather-subsample-A`	84.73
`snips-GetWeather-subsample-B`	93.27
`snips-GetWeather-subsample-C`	93.43
`snips-PlayMusic-subsample-A`	80.61
`snips-PlayMusic-subsample-B`	81.80
`snips-PlayMusic-subsample-C`	85.04

Järgmine veergude diagramm näitab F1 skooride jaotust üheksa konfiguratsiooni jaoks, mida me eelmises jaotises kirjeldatud viisil koolitasime.

Võime täheldada, et suutsime edukalt koolitada kohandatud olemituvastusmudeleid isegi 25 märkusega olemitüübi kohta. Kui keskendume kolmele väikseimale alamvalimiga andmekogumile (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-Aja snips-PlayMusic-subsample-A), näeme, et keskmiselt suutsime saavutada F1 skoori 84%, mis on meie kasutatud dokumentide ja annotatsioonide piiratud arvu arvestades päris hea tulemus. Kui tahame oma mudeli toimivust parandada, saame koguda täiendavaid dokumente ja märkusi ning koolitada uut mudelit rohkemate andmetega. Näiteks keskmise suurusega alamproovidega (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-Bja snips-PlayMusic-subsample-B), mis sisaldavad kaks korda rohkem dokumente ja märkusi, saime keskmiselt 1% F88 skoori (5% paranemine võrreldes subsample-A andmestikud). Lõpuks suuremad alamvalimiga andmekogumid (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-Cja snips-PlayMusic-subsample-C), mis sisaldavad veelgi rohkem kommenteeritud andmeid (ligikaudu neli korda rohkem dokumentide ja märkuste arvu, mida kasutatakse subsample-A andmestikud), andis täiendava 2% paranemise, tõstes keskmise F1 skoori 90%ni.

Järeldus

Selles postituses teatasime kohandatud olemi tuvastaja koolituse miinimumnõuete vähendamisest Amazon Comprehendiga ja viisime läbi avatud lähtekoodiga andmekogumite võrdlusuuringud, et näidata, kuidas see vähendamine aitab teil alustada. Alates tänasest saate luua olemituvastusmudeli, millel on iga olemitüübi kohta vaid 25 märkust (100 asemel) ja vähemalt kolm dokumenti (250 asemel). Selle teadaandega alandame sisenemisbarjääri kasutajatele, kes on huvitatud Amazon Comprehendi kohandatud olemituvastustehnoloogia kasutamisest. Nüüd saate alustada katsete käitamist väga väikese kommentaaridega dokumentide kogumiga, analüüsida esialgseid tulemusi ja itereerida lisamärkusi ja -dokumente, kui vajate oma kasutusjuhtumi jaoks täpsemat olemituvastusmudelit.

Lisateabe saamiseks ja kohandatud olemi tuvastajaga alustamiseks vaadake Kohandatud olemi tuvastamine.

Eriline tänu oma kolleegidele Jyoti Bansalile ja Jie Male väärtusliku abi eest andmete ettevalmistamisel ja võrdlusuuringutel.

Andmeid autor

Luca Guida on AWS-i lahenduste arhitekt; ta asub Milanos ja toetab Itaalia ISV-sid nende pilvereisil. Akadeemilise arvutiteaduse ja inseneri taustaga hakkas ta ülikoolis arendama oma AI/ML kirge. AWS-i loomuliku keele töötlemise (NLP) kogukonna liikmena aitab Luca klientidel olla edukas AI/ML-teenuste kasutuselevõtul.

Ajatempel: August 3, 2022August 3, 2022

Ajatempel: Juuli 29, 2022

Amazon Comprehend teatab kohandatud olemi tuvastamise madalamatest märkuste piirangutest

Taasavaldanud Platon

Andmestiku ettevalmistamine

Valimi konfigureerimine ja võrdlusuuringu protsess

Tulemused

Järeldus

Andmeid autor

Veel alates AWS-i masinõpe

Tutvustame Amazon Textracti hulgidokumentide üleslaadijat täiustatud hindamiseks ja analüüsiks | Amazoni veebiteenused

Looge GNN-põhine reaalajas pettuste tuvastamise lahendus Amazon SageMakeri, Amazon Neptune'i ja Deep Graph Library abil

Rakendage ühtset teksti- ja pildiotsingut CLIP-mudeliga, kasutades Amazon SageMakeri ja Amazon OpenSearch Service

Käivitage mastaabis järeldus OpenFoldi jaoks, PyTorchil põhineva valgu voltimise ML-mudeli jaoks, kasutades Amazon EKS-i

Tuvastage mitmekeelses helis olevad keeled automaatselt Amazon Transcribe'i abil

Kuidas Amazon Search saavutab madala latentsusaja ja suure läbilaskevõimega T5 järelduse NVIDIA Tritoniga AWS-is

Tuvastage petturlikud tehingud, kasutades Amazon SageMakeri masinõpet

Tuvastage kõrvalekallete asukoht, kasutades Amazon Lookout for Visioni servas ilma GPU-d kasutamata

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto