Amazon Comprehend ilmoittaa alemmat huomautusrajat mukautetun kokonaisuuden tunnistukseen

Julkaissut Platon

seuraajia: 0

Amazonin käsitys on luonnollisen kielen käsittelypalvelu (NLP), jonka avulla voit automaattisesti poimia asiakirjoista entiteettejä, avainlauseita, kielen, tunteita ja muita oivalluksia. Voit esimerkiksi alkaa välittömästi havaita kohteita, kuten ihmisiä, paikkoja, kaupallisia kohteita, päivämääriä ja määriä Amazon Comprehend -konsoli, AWS-komentoriviliitäntätai Amazon Comprehend -sovellusliittymät. Lisäksi, jos sinun on purettava entiteettejä, jotka eivät ole osa Amazon Comprehend sisäänrakennetut entiteettityypit, voit luoda mukautetun entiteetin tunnistusmallin (tunnetaan myös nimellä mukautettu kokonaisuus tunnistaja). Tarkan kokonaisuudentunnistimen luominen itse koneoppimiskirjastojen ja -kehysten avulla voi olla monimutkainen ja aikaa vievä prosessi. Amazon Comprehend yksinkertaistaa mallikoulutustyötäsi merkittävästi. Sinun tarvitsee vain ladata asiakirjoja ja huomautuksia sisältävä tietojoukko ja luoda malli Amazon Comprehend -konsolin, AWS CLI:n tai API:n avulla.

Voit kouluttaa mukautetun entiteetin tunnistimen antamalla koulutustiedot Amazon Comprehend asille huomautuksia tai entiteettiluetteloita. Ensimmäisessä tapauksessa annat kokoelman asiakirjoja ja tiedoston, jossa on huomautuksia, jotka määrittävät sijainnin, jossa entiteetit esiintyvät asiakirjajoukossa. Vaihtoehtoisesti entiteettiluetteloissa voit tarjota luettelon entiteeteistä ja niitä vastaavan entiteettityypin tunnisteen sekä joukon huomautuksia sisältämättömiä asiakirjoja, joissa oletat entiteettisi olevan läsnä. Molempia lähestymistapoja voidaan käyttää onnistuneen mukautetun kokonaisuuden tunnistusmallin kouluttamiseen; On kuitenkin tilanteita, joissa yksi menetelmä voi olla parempi valinta. Esimerkiksi kun tiettyjen entiteettien merkitys voi olla moniselitteinen ja asiayhteydestä riippuvainen, merkintöjen lisääminen on suositeltavaa, koska tämä saattaa auttaa sinua luomaan Amazon Comprehend -mallin, joka pystyy paremmin käyttämään kontekstia entiteettejä poimittaessa.

Asiakirjojen merkitseminen voi vaatia melko paljon vaivaa ja aikaa, varsinkin jos ottaa huomioon, että sekä huomautusten laatu että määrä vaikuttavat tuloksena olevaan kokonaisuuden tunnistusmalliin. Epätarkat tai liian harvat huomautukset voivat johtaa huonoihin tuloksiin. Auttaaksemme sinua määrittämään merkintöjen hankintaprosessin tarjoamme työkaluja, kuten Amazon SageMaker Ground Totuus, jonka avulla voit merkitä asiakirjoihin nopeammin ja luoda lisätty luettelomerkintätiedosto. Vaikka käytät Ground Truthia, sinun on silti varmistettava, että harjoitustietojoukkosi on riittävän suuri kokonaisuudentunnistimen rakentamiseen.

Tähän päivään asti, jotta voit aloittaa mukautetun Amazon Comprehend -kokonaisuuden tunnistimen koulutuksen, sinun oli toimitettava vähintään 250 asiakirjan kokoelma ja vähintään 100 huomautusta entiteettityyppiä kohti. Tänään ilmoitamme, että Amazon Comprehendin taustalla oleviin malleihin tehtyjen äskettäisten parannusten ansiosta olemme alentaneet tunnistimen koulutuksen vähimmäisvaatimuksia pelkillä CSV-merkintätiedostoilla. Voit nyt rakentaa mukautetun entiteetin tunnistusmallin, jossa on vain kolme asiakirjaa ja 25 huomautusta entiteettityyppiä kohden. Lisätietoja uusista palvelurajoituksista löydät osoitteesta Ohjeet ja kiintiöt.

Esittelemme, kuinka tämä vähennys voi auttaa sinua pääsemään alkuun mukautetun entiteettitunnistimen luomisessa, suoritimme joitain testejä muutamille avoimen lähdekoodin tietojoukoille ja keräsimme suorituskykymittareita. Tässä viestissä opastamme sinut vertailuanalyysiprosessin ja tulosten läpi, jotka saimme työskennellessämme aliotostietojoukkojen parissa.

Tietojoukon valmistelu

Tässä viestissä selitämme, kuinka koulutimme Amazon Comprehend mukautetun entiteetin tunnistimen käyttämällä selitettyjä asiakirjoja. Yleensä huomautukset voidaan tarjota a CSV-tiedosto, Ground Truthin luoma lisätty manifestitiedosto, Tai Pdf-tiedosto. Keskitymme vain CSV-tekstimerkintöihin, koska uudet vähimmäisvaatimukset vaikuttavat tähän merkintöihin. CSV-tiedostoilla tulee olla seuraava rakenne:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

Asiaankuuluvat kentät ovat seuraavat:

filee – Asiakirjat sisältävän tiedoston nimi
linja – entiteetin sisältävän rivin numero, joka alkaa rivillä 0
Alkaa Offset – Syöttötekstin merkkisiirtymä (suhteessa rivin alkuun), joka näyttää, mistä entiteetti alkaa, kun otetaan huomioon, että ensimmäinen merkki on paikassa 0
Loppusiirtymä – Syöttötekstin merkkipoikkeama, joka näyttää, mihin entiteetti päättyy
Tyyppi – Sen entiteettityypin nimi, jonka haluat määrittää

Lisäksi, kun käytät tätä lähestymistapaa, sinun on toimitettava kokoelma koulutusasiakirjoja .txt-tiedostoina, joissa on yksi asiakirja riviä kohden tai yksi asiakirja tiedostoa kohden.

Testeissämme käytimme SNIPS Natural Language Understanding -vertailu, tietojoukko joukkolähdettävistä lausunnoista, jotka on jaettu seitsemään käyttäjän tarkoitukseen (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). Aineisto julkaistiin vuonna 2018 paperin yhteydessä Snips Voice Platform: sulautettu puhutun kielen ymmärtämisjärjestelmä yksityisille äänirajapinnoille Coucke et ai.

SNIPS-tietojoukko koostuu JSON-tiedostojen kokoelmasta, joka tiivistää sekä huomautuksia että raakatekstitiedostoja. Seuraava on katkelma tietojoukosta:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

Ennen entiteettitunnistimen luomista muutimme SNIPS-merkinnät ja raakatekstitiedostot CSV-merkintätiedostoksi ja .txt-asiakirjatiedostoksi.

Seuraava on ote meidän annotations.csv tiedosto:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

Seuraava on ote meidän documents.txt tiedosto:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

Näytteenottokokoonpano ja benchmarking-prosessi

Kokeissamme keskityimme SNIPS-tietojoukon entiteettityyppien osajoukkoon:

Kirjaravintola – Entiteettityypit: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
GetWeather – Entiteettityypit: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
Soita musiikkia – Entiteettityypit: track, artist, music_item, service, genre, sort, playlist, album, year

Lisäksi otimme jokaisesta tietojoukosta alinäytteen saadaksemme erilaiset konfiguraatiot koulutusta varten otettujen asiakirjojen lukumäärän ja merkintöjen määrän kokonaisuutta kohti (tunnetaan myös nimellä kuvaa). Tämä tehtiin käyttämällä mukautettua komentosarjaa, joka on suunniteltu luomaan aliotoksisia tietojoukkoja, joissa jokainen entiteettityyppi esiintyy vähintään k kertaa, vähintään n asiakirjoja.

Jokainen malli opetettiin käyttämällä erityistä harjoitustietosarjojen osaotosta; yhdeksän mallikokoonpanoa on kuvattu seuraavassa taulukossa.

Alinäytetietojoukon nimi	Koulutusta varten otettujen asiakirjojen lukumäärä	Testaukseen otettujen asiakirjojen lukumäärä	Merkintöjen keskimääräinen määrä entiteettityyppiä kohden (otoksia)
`snips-BookRestaurant-subsample-A`	132	17	33
`snips-BookRestaurant-subsample-B`	257	33	64
`snips-BookRestaurant-subsample-C`	508	64	128
`snips-GetWeather-subsample-A`	91	12	25
`snips-GetWeather-subsample-B`	185	24	49
`snips-GetWeather-subsample-C`	361	46	95
`snips-PlayMusic-subsample-A`	130	17	30
`snips-PlayMusic-subsample-B`	254	32	60
`snips-PlayMusic-subsample-C`	505	64	119

Mittaaksemme malliemme tarkkuutta, olemme keränneet arviointimittareita, jotka Amazon Comprehend laskee automaattisesti koulutettaessa kokonaisuuden tunnistajaa:

Tarkkuus – Tämä osoittaa tunnistimen havaitsemien entiteettien osuuden, jotka on tunnistettu ja merkitty oikein. Toisesta näkökulmasta tarkkuus voidaan määritellä seuraavasti tp / (tp + fp), Jossa tp on todellisten positiivisten (oikeat tunnistukset) lukumäärä ja fp on väärien positiivisten (virheellisten tunnisteiden) määrä.
Palauttaa mieleen – Tämä osoittaa, kuinka suuri osa asiakirjoissa olevista kokonaisuuksista on tunnistettu ja merkitty oikein. Se lasketaan n tp / (tp + fn), Jossa tp on todellisten positiivisten ja fn on väärien negatiivisten tulosten määrä (jääneet tunnistukset).
F1 pisteet – Tämä on yhdistelmä tarkkuus- ja palautusmittareita, jotka mittaavat mallin yleistä tarkkuutta. F1-pistemäärä on tarkkuus- ja palautusmittareiden harmoninen keskiarvo, ja se lasketaan seuraavasti 2 * Tarkkuus * Hae / (Tarkkuus + Recall).

Vertaaksemme entiteettitunnistimiemme suorituskykyä keskitymme F1-pisteisiin.

Ottaen huomioon, että tietojoukon ja osaotoksen koon (asiakirjojen ja otosten lukumäärän) perusteella voit luoda erilaisia osaotoksia, loimme 10 osaotosta jokaiselle yhdeksästä kokoonpanosta, koulutimme kokonaisuuden tunnistusmalleja, keräsimme suorituskykymittareita ja laskenut niiden keskiarvon käyttämällä mikrokeskiarvoa. Tämä antoi meille mahdollisuuden saada vakaampia tuloksia, erityisesti muutaman otoksen osanäytteille.

tulokset

Seuraavassa taulukossa esitetään mikrokeskiarvoiset F1-pisteet, jotka on laskettu Amazon Comprehendin palauttamien suorituskykymittareiden perusteella kunkin entiteetin tunnistajan koulutuksen jälkeen.

Alinäytetietojoukon nimi	Entiteettitunnistajan mikrokeskiarvoinen F1-pistemäärä (%)
`snips-BookRestaurant-subsample-A`	86.89
`snips-BookRestaurant-subsample-B`	90.18
`snips-BookRestaurant-subsample-C`	92.84
`snips-GetWeather-subsample-A`	84.73
`snips-GetWeather-subsample-B`	93.27
`snips-GetWeather-subsample-C`	93.43
`snips-PlayMusic-subsample-A`	80.61
`snips-PlayMusic-subsample-B`	81.80
`snips-PlayMusic-subsample-C`	85.04

Seuraava sarakekaavio näyttää F1-pisteiden jakautumisen yhdeksälle kokoonpanolle, jotka olemme kouluttaneet edellisessä osiossa kuvatulla tavalla.

Voimme havaita, että pystyimme onnistuneesti kouluttamaan mukautettuja entiteetin tunnistusmalleja jopa 25 merkinnällä per entiteettityyppi. Jos keskitymme kolmeen pienimpään osaotosaineistoon (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-Aja snips-PlayMusic-subsample-A), havaitsemme, että pystyimme saavuttamaan keskimäärin 1 % F84-pisteet, mikä on melko hyvä tulos, kun otetaan huomioon käyttämiemme asiakirjojen ja huomautusten rajallinen määrä. Jos haluamme parantaa mallimme suorituskykyä, voimme kerätä lisää asiakirjoja ja huomautuksia ja kouluttaa uuden mallin, jossa on enemmän tietoja. Esimerkiksi keskikokoisilla osanäytteillä (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-Bja snips-PlayMusic-subsample-B), jotka sisältävät kaksi kertaa enemmän asiakirjoja ja huomautuksia, saimme keskimäärin 1 prosentin F88-pisteen (5 prosentin parannus suhteessa subsample-A tietojoukot). Lopuksi suuremmat osaotoksiset tietojoukot (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-Cja snips-PlayMusic-subsample-C), jotka sisältävät vielä enemmän huomautettuja tietoja (noin neljä kertaa enemmän asiakirjoja ja huomautuksia, joita käytetään subsample-A datasets), paransi vielä 2 % ja nosti keskimääräisen F1-pisteen 90 prosenttiin.

Yhteenveto

Tässä viestissä ilmoitimme vähimmäisvaatimusten alentamisesta mukautetun entiteetin tunnistajan koulutukseen Amazon Comprehendillä ja suoritimme joitain avoimen lähdekoodin tietojoukkoja koskevia vertailuarvoja osoittaaksemme, kuinka tämä vähennys voi auttaa sinua pääsemään alkuun. Tästä päivästä alkaen voit luoda kokonaisuuden tunnistusmallin, jossa on vain 25 huomautusta entiteettityyppiä kohden (100 sijaan) ja vähintään kolme asiakirjaa (250 sijaan). Tällä ilmoituksella alennamme markkinoille pääsyn estettä käyttäjille, jotka ovat kiinnostuneita käyttämään mukautettua Amazon Comprehend -kokonaisuuden tunnistusteknologiaa. Voit nyt aloittaa kokeilujen suorittamisen erittäin pienellä kokoelmalla merkittyjä asiakirjoja, analysoida alustavia tuloksia ja iteroida lisäämällä lisämerkintöjä ja asiakirjoja, jos tarvitset tarkemman kokonaisuuden tunnistusmallin käyttötapaukseesi.

Lisätietoja ja mukautetun entiteetin tunnistimen käytön aloittaminen on kohdassa Mukautetun entiteetin tunnistus.

Erityiset kiitokset kollegoilleni Jyoti Bansalille ja Jie Malle arvokkaasta avusta tietojen valmistelussa ja vertailuanalyysissä.

Kirjailijasta

Luca Guida on ratkaisuarkkitehti AWS:ssä; hän sijaitsee Milanossa ja tukee italialaisia ISV:itä heidän pilvimatkallaan. Tietojenkäsittelytieteen ja tekniikan akateemisen taustan ansiosta hän aloitti AI/ML-intohimonsa kehittämisen yliopistossa. AWS:n luonnollisen kielen käsittelyyhteisön (NLP) jäsenenä Luca auttaa asiakkaita menestymään AI/ML-palveluiden käyttöönotossa.

Aikaleima: Elokuu 3, 2022Elokuu 3, 2022

Aikaleima: Heinäkuu 29, 2022

Amazon Comprehend ilmoittaa alemmat huomautusrajat mukautetun entiteetin tunnistamiselle

Julkaissut Platon

Tietojoukon valmistelu

Näytteenottokokoonpano ja benchmarking-prosessi

tulokset

Yhteenveto

Kirjailijasta

Lisää aiheesta AWS-koneoppiminen

Esittelyssä Amazon Textract Bulk Document Uploader parantaa arviointia ja analysointia | Amazon Web Services

Rakenna GNN-pohjainen reaaliaikainen petosten havaitsemisratkaisu Amazon SageMakerin, Amazon Neptunen ja Deep Graph Libraryn avulla

Toteuta yhtenäinen teksti- ja kuvahaku CLIP-mallilla Amazon SageMakerin ja Amazon OpenSearch Servicen avulla

Suorita johtopäätös mittakaavassa OpenFoldille, PyTorch-pohjaiselle proteiinien taitto-ML-mallille, käyttämällä Amazon EKS:ää

Tunnista kielet automaattisesti monikielisessä äänessä Amazon Transcriben avulla

Kuinka Amazon Search saavuttaa alhaisen latenssin ja suuren suorituskyvyn T5-päätelmän NVIDIA Tritonilla AWS:ssä

Tunnista vilpilliset tapahtumat koneoppimisen avulla Amazon SageMakerin avulla

Tunnista poikkeamien sijainti käyttämällä Amazon Lookout for Visionia reunassa ilman GPU:ta

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili