Amazon Comprehend teatab kohandatud olemi tuvastamise madalamatest annotatsioonipiirangutest PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Amazon Comprehend teatab kohandatud olemi tuvastamise madalamatest märkuste piirangutest

Amazoni mõistmine on loomuliku keele töötlemise (NLP) teenus, mida saate kasutada dokumentidest olemite, võtmefraaside, keele, tunnete ja muu ülevaate automaatseks eraldamiseks. Näiteks saate kohe hakata tuvastama üksusi, nagu inimesed, kohad, kaubaartiklid, kuupäevad ja kogused Amazon Comprehend konsool, AWS-i käsurea liidesvõi Amazon Comprehend API-d. Lisaks, kui teil on vaja ekstraktida üksused, mis ei ole osa Amazon Comprehend sisseehitatud olemitüübid, saate luua kohandatud olemituvastusmudeli (tuntud ka kui kohandatud üksus äratundja). Täpse olemituvastaja ise loomine masinõppe teekide ja raamistike abil võib olla keeruline ja aeganõudev protsess. Amazon Comprehend lihtsustab teie mudelikoolitustööd oluliselt. Kõik, mida pead tegema, on laadida oma dokumentide ja annotatsioonide andmekogum ning kasutada mudeli loomiseks Amazon Comprehendi konsooli, AWS CLI-d või API-sid.

Kohandatud olemi tuvastaja koolitamiseks saate esitada koolitusandmed Amazon Comprehend as-ile märkused või olemiloendid. Esimesel juhul esitate dokumentide kogumi ja faili koos märkustega, mis määravad dokumendikomplekti olemite asukoha. Alternatiivina saate olemiloendite puhul esitada olemite loendi koos vastava olemitüübi sildiga ja märkusteta dokumentide komplekti, milles eeldate, et teie olemid on olemas. Mõlemat lähenemisviisi saab kasutada eduka kohandatud olemi tuvastamise mudeli koolitamiseks; Siiski on olukordi, kus üks meetod võib olla parem valik. Näiteks kui konkreetsete olemite tähendus võib olla mitmetähenduslik ja kontekstist sõltuv, on soovitatav lisada märkusi, kuna see võib aidata teil luua Amazon Comprehendi mudeli, mis suudab olemite eraldamisel konteksti paremini kasutada.

Dokumentide märkuste tegemine võib nõuda üsna palju vaeva ja aega, eriti kui arvestada, et nii märkuste kvaliteet kui ka kvantiteet mõjutavad saadavat olemituvastusmudelit. Ebatäpsed või liiga vähesed märkused võivad põhjustada halbu tulemusi. Märkuste hankimise protsessi seadistamiseks pakume selliseid tööriistu nagu Amazon SageMaker Ground Truth, mida saate kasutada dokumentide kiiremaks märkuste tegemiseks ja dokumendi genereerimiseks laiendatud manifesti annotatsioonide fail. Isegi kui kasutate Ground Truthi, peate siiski veenduma, et teie treeninguandmekogum on olemituvastaja edukaks loomiseks piisavalt suur.

Kuni tänaseni pidite Amazon Comprehendi kohandatud olemituvastaja koolitamise alustamiseks esitama vähemalt 250 dokumendist koosneva kogu ja vähemalt 100 märkust olemi tüübi kohta. Täna teatame, et tänu Amazon Comprehendi aluseks olevate mudelite hiljutistele täiustustele oleme vähendanud lihtteksti CSV annotatsioonifailidega tuvastaja koolitamise miinimumnõudeid. Nüüd saate luua kohandatud olemituvastusmudeli, mis sisaldab vaid kolme dokumenti ja 25 märkust olemitüübi kohta. Lisateavet uute teenusepiirangute kohta leiate aadressilt Suunised ja kvoodid.

Näitamaks, kuidas see vähendamine võib aidata teil kohandatud olemituvastaja loomisega algust teha, viisime läbi mõned testid mõne avatud lähtekoodiga andmekogumiga ja kogusime toimivusmõõdikuid. Selles postituses tutvustame teile võrdlusuuringu protsessi ja tulemusi, mille saime alamvalimiga andmekogumitega töötades.

Andmestiku ettevalmistamine

Selles postituses selgitame, kuidas koolitasime Amazon Comprehendi kohandatud olemi tuvastajat, kasutades märkustega dokumente. Üldiselt saab märkusi esitada a CSV-fail, Ground Truthi loodud täiendatud manifesti failVõi PDF-fail. Keskendume CSV lihtteksti märkustele, sest seda tüüpi märkusi mõjutavad uued miinimumnõuded. CSV-failidel peaks olema järgmine struktuur:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

Vastavad väljad on järgmised:

  • fail – dokumente sisaldava faili nimi
  • joon – olemit sisaldava rea ​​number, mis algab reaga 0
  • Algama Tasakaalustama – märginihe sisendtekstis (rea alguse suhtes), mis näitab, kust olem algab, arvestades, et esimene märk on positsioonil 0
  • Lõpunihe – märginihe sisendtekstis, mis näitab, kus olem lõpeb
  • KASUTUSALA – olemitüübi nimi, mida soovite määratleda

Lisaks peate selle lähenemisviisi kasutamisel esitama koolitusdokumentide kogumi .txt-failidena ühe dokumendiga rea ​​kohta või ühe dokumendi faili kohta.

Testide jaoks kasutasime SNIPSi loomuliku keele mõistmise etalon, rahvahulga kaudu hangitud ütluste andmekogum, mis on jagatud seitsme kasutaja kavatsuse vahel (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). Andmekogum avaldati 2018. aastal artikli kontekstis Snipsi häälplatvorm: sisseehitatud kõnekeele mõistmise süsteem privaatsete hääleliideste jaoks Coucke et al.

SNIPS-i andmestik koosneb JSON-failide kogumist, mis koondab nii märkusi kui ka toortekstifaile. Järgmine on väljavõte andmekogumist:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

Enne olemituvastaja loomist muutsime SNIPS-i annotatsioonid ja toortekstifailid CSV-märkuste failiks ja .txt-dokumentide failiks.

Järgnev on väljavõte meie annotations.csv faili:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

Järgnev on väljavõte meie documents.txt faili:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

Valimi konfigureerimine ja võrdlusuuringu protsess

Oma katsetes keskendusime SNIPS-i andmestiku olemitüüpide alamhulgale:

  • Raamaturestoran – olemitüübid: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
  • GetWeather – olemitüübid: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
  • Muusikat mängima – olemitüübid: track, artist, music_item, service, genre, sort, playlist, album, year

Lisaks tegime iga andmestiku alamvalimi, et saada erinevad konfiguratsioonid koolituseks võetud dokumentide arvu ja märkuste arvu osas üksuse kohta (tuntud ka kui kaadrid). Seda tehti kohandatud skripti abil, mis on loodud alamvalimiga andmekogumite loomiseks, milles iga olemitüüp esineb vähemalt k korda, minimaalselt n dokumendid.

Iga mudelit koolitati, kasutades koolitusandmekogumite konkreetset alamvalimi; üheksa mudeli konfiguratsiooni on illustreeritud järgmises tabelis.

Alamvalimiga andmestiku nimi Koolituseks võetud dokumentide arv Testimiseks võetud dokumentide arv Keskmine märkuste arv olemitüübi kohta (kaadrid)
snips-BookRestaurant-subsample-A 132 17 33
snips-BookRestaurant-subsample-B 257 33 64
snips-BookRestaurant-subsample-C 508 64 128
snips-GetWeather-subsample-A 91 12 25
snips-GetWeather-subsample-B 185 24 49
snips-GetWeather-subsample-C 361 46 95
snips-PlayMusic-subsample-A 130 17 30
snips-PlayMusic-subsample-B 254 32 60
snips-PlayMusic-subsample-C 505 64 119

Oma mudelite täpsuse mõõtmiseks kogusime hindamismõõdikud, mille Amazon Comprehend olemi tuvastaja koolitamisel automaatselt arvutab:

  • Täpsus – See näitab tuvastaja tuvastatud olemite osa, mis on õigesti tuvastatud ja märgistatud. Erinevast vaatenurgast võib täpsust määratleda kui tp / (tp + fp), Kus tp on tõeliste positiivsete (õigete tuvastamiste) arv ja fp on valepositiivsete (valed tuvastamised) arv.
  • Tagasikutsumine – See näitab dokumentides olevate üksuste osa, mis on õigesti identifitseeritud ja märgistatud. See arvutatakse järgmiselt tp / (tp + fn), Kus tp on tõeliste positiivsete arv ja fn on valenegatiivsete (vastamata tuvastamiste) arv.
  • F1 skoor – See on täpsus- ja meeldetuletusmõõdikute kombinatsioon, mis mõõdab mudeli üldist täpsust. F1 skoor on täpsus- ja meeldetuletusmõõdikute harmooniline keskmine ning see arvutatakse järgmiselt 2 * Täpsus * tagasikutsumine / (täpsus + tagasikutsumine).

Oma olemituvastajate toimivuse võrdlemiseks keskendume F1 tulemustele.

Arvestades, et andmestikku ja alamvalimi suurust (dokumentide ja kaadrite arvu osas) arvestades saate luua erinevaid alamvalimi, genereerisime iga üheksa konfiguratsiooni jaoks 10 alamvalimi, koolitasime olemituvastusmudeleid, kogusime toimivusmõõdikuid ja keskmistas need mikrokeskmistamise abil. See võimaldas meil saada stabiilsemaid tulemusi, eriti väheste alamproovide puhul.

Tulemused

Järgmises tabelis on näidatud mikrokeskmised F1 skoorid, mis on arvutatud Amazon Comprehendi poolt pärast iga olemi tuvastaja koolitamist tagastatud jõudlusmõõdikute põhjal.

Alamvalimiga andmestiku nimi Olemituvastaja mikrokeskmine F1 skoor (%)
snips-BookRestaurant-subsample-A 86.89
snips-BookRestaurant-subsample-B 90.18
snips-BookRestaurant-subsample-C 92.84
snips-GetWeather-subsample-A 84.73
snips-GetWeather-subsample-B 93.27
snips-GetWeather-subsample-C 93.43
snips-PlayMusic-subsample-A 80.61
snips-PlayMusic-subsample-B 81.80
snips-PlayMusic-subsample-C 85.04

Järgmine veergude diagramm näitab F1 skooride jaotust üheksa konfiguratsiooni jaoks, mida me eelmises jaotises kirjeldatud viisil koolitasime.

Võime täheldada, et suutsime edukalt koolitada kohandatud olemituvastusmudeleid isegi 25 märkusega olemitüübi kohta. Kui keskendume kolmele väikseimale alamvalimiga andmekogumile (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-Aja snips-PlayMusic-subsample-A), näeme, et keskmiselt suutsime saavutada F1 skoori 84%, mis on meie kasutatud dokumentide ja annotatsioonide piiratud arvu arvestades päris hea tulemus. Kui tahame oma mudeli toimivust parandada, saame koguda täiendavaid dokumente ja märkusi ning koolitada uut mudelit rohkemate andmetega. Näiteks keskmise suurusega alamproovidega (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-Bja snips-PlayMusic-subsample-B), mis sisaldavad kaks korda rohkem dokumente ja märkusi, saime keskmiselt 1% F88 skoori (5% paranemine võrreldes subsample-A andmestikud). Lõpuks suuremad alamvalimiga andmekogumid (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-Cja snips-PlayMusic-subsample-C), mis sisaldavad veelgi rohkem kommenteeritud andmeid (ligikaudu neli korda rohkem dokumentide ja märkuste arvu, mida kasutatakse subsample-A andmestikud), andis täiendava 2% paranemise, tõstes keskmise F1 skoori 90%ni.

Järeldus

Selles postituses teatasime kohandatud olemi tuvastaja koolituse miinimumnõuete vähendamisest Amazon Comprehendiga ja viisime läbi avatud lähtekoodiga andmekogumite võrdlusuuringud, et näidata, kuidas see vähendamine aitab teil alustada. Alates tänasest saate luua olemituvastusmudeli, millel on iga olemitüübi kohta vaid 25 märkust (100 asemel) ja vähemalt kolm dokumenti (250 asemel). Selle teadaandega alandame sisenemisbarjääri kasutajatele, kes on huvitatud Amazon Comprehendi kohandatud olemituvastustehnoloogia kasutamisest. Nüüd saate alustada katsete käitamist väga väikese kommentaaridega dokumentide kogumiga, analüüsida esialgseid tulemusi ja itereerida lisamärkusi ja -dokumente, kui vajate oma kasutusjuhtumi jaoks täpsemat olemituvastusmudelit.

Lisateabe saamiseks ja kohandatud olemi tuvastajaga alustamiseks vaadake Kohandatud olemi tuvastamine.

Eriline tänu oma kolleegidele Jyoti Bansalile ja Jie Male väärtusliku abi eest andmete ettevalmistamisel ja võrdlusuuringutel.


Andmeid autor

Amazon Comprehend teatab kohandatud olemi tuvastamise madalamatest annotatsioonipiirangutest PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Luca Guida on AWS-i lahenduste arhitekt; ta asub Milanos ja toetab Itaalia ISV-sid nende pilvereisil. Akadeemilise arvutiteaduse ja inseneri taustaga hakkas ta ülikoolis arendama oma AI/ML kirge. AWS-i loomuliku keele töötlemise (NLP) kogukonna liikmena aitab Luca klientidel olla edukas AI/ML-teenuste kasutuselevõtul.

Ajatempel:

Veel alates AWS-i masinõpe