Amazon Comprehend ilmoittaa alemmista huomautusrajoista mukautetun entiteetin tunnistamiselle PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.

Amazon Comprehend ilmoittaa alemmat huomautusrajat mukautetun entiteetin tunnistamiselle

Amazonin käsitys on luonnollisen kielen käsittelypalvelu (NLP), jonka avulla voit automaattisesti poimia asiakirjoista entiteettejä, avainlauseita, kielen, tunteita ja muita oivalluksia. Voit esimerkiksi alkaa välittömästi havaita kohteita, kuten ihmisiä, paikkoja, kaupallisia kohteita, päivämääriä ja määriä Amazon Comprehend -konsoli, AWS-komentoriviliitäntätai Amazon Comprehend -sovellusliittymät. Lisäksi, jos sinun on purettava entiteettejä, jotka eivät ole osa Amazon Comprehend sisäänrakennetut entiteettityypit, voit luoda mukautetun entiteetin tunnistusmallin (tunnetaan myös nimellä mukautettu kokonaisuus tunnistaja). Tarkan kokonaisuudentunnistimen luominen itse koneoppimiskirjastojen ja -kehysten avulla voi olla monimutkainen ja aikaa vievä prosessi. Amazon Comprehend yksinkertaistaa mallikoulutustyötäsi merkittävästi. Sinun tarvitsee vain ladata asiakirjoja ja huomautuksia sisältävä tietojoukko ja luoda malli Amazon Comprehend -konsolin, AWS CLI:n tai API:n avulla.

Voit kouluttaa mukautetun entiteetin tunnistimen antamalla koulutustiedot Amazon Comprehend asille huomautuksia tai entiteettiluetteloita. Ensimmäisessä tapauksessa annat kokoelman asiakirjoja ja tiedoston, jossa on huomautuksia, jotka määrittävät sijainnin, jossa entiteetit esiintyvät asiakirjajoukossa. Vaihtoehtoisesti entiteettiluetteloissa voit tarjota luettelon entiteeteistä ja niitä vastaavan entiteettityypin tunnisteen sekä joukon huomautuksia sisältämättömiä asiakirjoja, joissa oletat entiteettisi olevan läsnä. Molempia lähestymistapoja voidaan käyttää onnistuneen mukautetun kokonaisuuden tunnistusmallin kouluttamiseen; On kuitenkin tilanteita, joissa yksi menetelmä voi olla parempi valinta. Esimerkiksi kun tiettyjen entiteettien merkitys voi olla moniselitteinen ja asiayhteydestä riippuvainen, merkintöjen lisääminen on suositeltavaa, koska tämä saattaa auttaa sinua luomaan Amazon Comprehend -mallin, joka pystyy paremmin käyttämään kontekstia entiteettejä poimittaessa.

Asiakirjojen merkitseminen voi vaatia melko paljon vaivaa ja aikaa, varsinkin jos ottaa huomioon, että sekä huomautusten laatu että määrä vaikuttavat tuloksena olevaan kokonaisuuden tunnistusmalliin. Epätarkat tai liian harvat huomautukset voivat johtaa huonoihin tuloksiin. Auttaaksemme sinua määrittämään merkintöjen hankintaprosessin tarjoamme työkaluja, kuten Amazon SageMaker Ground Totuus, jonka avulla voit merkitä asiakirjoihin nopeammin ja luoda lisätty luettelomerkintätiedosto. Vaikka käytät Ground Truthia, sinun on silti varmistettava, että harjoitustietojoukkosi on riittävän suuri kokonaisuudentunnistimen rakentamiseen.

Tähän päivään asti, jotta voit aloittaa mukautetun Amazon Comprehend -kokonaisuuden tunnistimen koulutuksen, sinun oli toimitettava vähintään 250 asiakirjan kokoelma ja vähintään 100 huomautusta entiteettityyppiä kohti. Tänään ilmoitamme, että Amazon Comprehendin taustalla oleviin malleihin tehtyjen äskettäisten parannusten ansiosta olemme alentaneet tunnistimen koulutuksen vähimmäisvaatimuksia pelkillä CSV-merkintätiedostoilla. Voit nyt rakentaa mukautetun entiteetin tunnistusmallin, jossa on vain kolme asiakirjaa ja 25 huomautusta entiteettityyppiä kohden. Lisätietoja uusista palvelurajoituksista löydät osoitteesta Ohjeet ja kiintiöt.

Esittelemme, kuinka tämä vähennys voi auttaa sinua pääsemään alkuun mukautetun entiteettitunnistimen luomisessa, suoritimme joitain testejä muutamille avoimen lähdekoodin tietojoukoille ja keräsimme suorituskykymittareita. Tässä viestissä opastamme sinut vertailuanalyysiprosessin ja tulosten läpi, jotka saimme työskennellessämme aliotostietojoukkojen parissa.

Tietojoukon valmistelu

Tässä viestissä selitämme, kuinka koulutimme Amazon Comprehend mukautetun entiteetin tunnistimen käyttämällä selitettyjä asiakirjoja. Yleensä huomautukset voidaan tarjota a CSV-tiedosto, Ground Truthin luoma lisätty manifestitiedosto, Tai Pdf-tiedosto. Keskitymme vain CSV-tekstimerkintöihin, koska uudet vähimmäisvaatimukset vaikuttavat tähän merkintöihin. CSV-tiedostoilla tulee olla seuraava rakenne:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

Asiaankuuluvat kentät ovat seuraavat:

  • filee – Asiakirjat sisältävän tiedoston nimi
  • linja – entiteetin sisältävän rivin numero, joka alkaa rivillä 0
  • Alkaa Offset – Syöttötekstin merkkisiirtymä (suhteessa rivin alkuun), joka näyttää, mistä entiteetti alkaa, kun otetaan huomioon, että ensimmäinen merkki on paikassa 0
  • Loppusiirtymä – Syöttötekstin merkkipoikkeama, joka näyttää, mihin entiteetti päättyy
  • Tyyppi – Sen entiteettityypin nimi, jonka haluat määrittää

Lisäksi, kun käytät tätä lähestymistapaa, sinun on toimitettava kokoelma koulutusasiakirjoja .txt-tiedostoina, joissa on yksi asiakirja riviä kohden tai yksi asiakirja tiedostoa kohden.

Testeissämme käytimme SNIPS Natural Language Understanding -vertailu, tietojoukko joukkolähdettävistä lausunnoista, jotka on jaettu seitsemään käyttäjän tarkoitukseen (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). Aineisto julkaistiin vuonna 2018 paperin yhteydessä Snips Voice Platform: sulautettu puhutun kielen ymmärtämisjärjestelmä yksityisille äänirajapinnoille Coucke et ai.

SNIPS-tietojoukko koostuu JSON-tiedostojen kokoelmasta, joka tiivistää sekä huomautuksia että raakatekstitiedostoja. Seuraava on katkelma tietojoukosta:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

Ennen entiteettitunnistimen luomista muutimme SNIPS-merkinnät ja raakatekstitiedostot CSV-merkintätiedostoksi ja .txt-asiakirjatiedostoksi.

Seuraava on ote meidän annotations.csv tiedosto:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

Seuraava on ote meidän documents.txt tiedosto:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

Näytteenottokokoonpano ja benchmarking-prosessi

Kokeissamme keskityimme SNIPS-tietojoukon entiteettityyppien osajoukkoon:

  • Kirjaravintola – Entiteettityypit: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
  • GetWeather – Entiteettityypit: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
  • Soita musiikkia – Entiteettityypit: track, artist, music_item, service, genre, sort, playlist, album, year

Lisäksi otimme jokaisesta tietojoukosta alinäytteen saadaksemme erilaiset konfiguraatiot koulutusta varten otettujen asiakirjojen lukumäärän ja merkintöjen määrän kokonaisuutta kohti (tunnetaan myös nimellä kuvaa). Tämä tehtiin käyttämällä mukautettua komentosarjaa, joka on suunniteltu luomaan aliotoksisia tietojoukkoja, joissa jokainen entiteettityyppi esiintyy vähintään k kertaa, vähintään n asiakirjoja.

Jokainen malli opetettiin käyttämällä erityistä harjoitustietosarjojen osaotosta; yhdeksän mallikokoonpanoa on kuvattu seuraavassa taulukossa.

Alinäytetietojoukon nimi Koulutusta varten otettujen asiakirjojen lukumäärä Testaukseen otettujen asiakirjojen lukumäärä Merkintöjen keskimääräinen määrä entiteettityyppiä kohden (otoksia)
snips-BookRestaurant-subsample-A 132 17 33
snips-BookRestaurant-subsample-B 257 33 64
snips-BookRestaurant-subsample-C 508 64 128
snips-GetWeather-subsample-A 91 12 25
snips-GetWeather-subsample-B 185 24 49
snips-GetWeather-subsample-C 361 46 95
snips-PlayMusic-subsample-A 130 17 30
snips-PlayMusic-subsample-B 254 32 60
snips-PlayMusic-subsample-C 505 64 119

Mittaaksemme malliemme tarkkuutta, olemme keränneet arviointimittareita, jotka Amazon Comprehend laskee automaattisesti koulutettaessa kokonaisuuden tunnistajaa:

  • Tarkkuus – Tämä osoittaa tunnistimen havaitsemien entiteettien osuuden, jotka on tunnistettu ja merkitty oikein. Toisesta näkökulmasta tarkkuus voidaan määritellä seuraavasti tp / (tp + fp), Jossa tp on todellisten positiivisten (oikeat tunnistukset) lukumäärä ja fp on väärien positiivisten (virheellisten tunnisteiden) määrä.
  • Palauttaa mieleen – Tämä osoittaa, kuinka suuri osa asiakirjoissa olevista kokonaisuuksista on tunnistettu ja merkitty oikein. Se lasketaan n tp / (tp + fn), Jossa tp on todellisten positiivisten ja fn on väärien negatiivisten tulosten määrä (jääneet tunnistukset).
  • F1 pisteet – Tämä on yhdistelmä tarkkuus- ja palautusmittareita, jotka mittaavat mallin yleistä tarkkuutta. F1-pistemäärä on tarkkuus- ja palautusmittareiden harmoninen keskiarvo, ja se lasketaan seuraavasti 2 * Tarkkuus * Hae / (Tarkkuus + Recall).

Vertaaksemme entiteettitunnistimiemme suorituskykyä keskitymme F1-pisteisiin.

Ottaen huomioon, että tietojoukon ja osaotoksen koon (asiakirjojen ja otosten lukumäärän) perusteella voit luoda erilaisia ​​osaotoksia, loimme 10 osaotosta jokaiselle yhdeksästä kokoonpanosta, koulutimme kokonaisuuden tunnistusmalleja, keräsimme suorituskykymittareita ja laskenut niiden keskiarvon käyttämällä mikrokeskiarvoa. Tämä antoi meille mahdollisuuden saada vakaampia tuloksia, erityisesti muutaman otoksen osanäytteille.

tulokset

Seuraavassa taulukossa esitetään mikrokeskiarvoiset F1-pisteet, jotka on laskettu Amazon Comprehendin palauttamien suorituskykymittareiden perusteella kunkin entiteetin tunnistajan koulutuksen jälkeen.

Alinäytetietojoukon nimi Entiteettitunnistajan mikrokeskiarvoinen F1-pistemäärä (%)
snips-BookRestaurant-subsample-A 86.89
snips-BookRestaurant-subsample-B 90.18
snips-BookRestaurant-subsample-C 92.84
snips-GetWeather-subsample-A 84.73
snips-GetWeather-subsample-B 93.27
snips-GetWeather-subsample-C 93.43
snips-PlayMusic-subsample-A 80.61
snips-PlayMusic-subsample-B 81.80
snips-PlayMusic-subsample-C 85.04

Seuraava sarakekaavio näyttää F1-pisteiden jakautumisen yhdeksälle kokoonpanolle, jotka olemme kouluttaneet edellisessä osiossa kuvatulla tavalla.

Voimme havaita, että pystyimme onnistuneesti kouluttamaan mukautettuja entiteetin tunnistusmalleja jopa 25 merkinnällä per entiteettityyppi. Jos keskitymme kolmeen pienimpään osaotosaineistoon (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-Aja snips-PlayMusic-subsample-A), havaitsemme, että pystyimme saavuttamaan keskimäärin 1 % F84-pisteet, mikä on melko hyvä tulos, kun otetaan huomioon käyttämiemme asiakirjojen ja huomautusten rajallinen määrä. Jos haluamme parantaa mallimme suorituskykyä, voimme kerätä lisää asiakirjoja ja huomautuksia ja kouluttaa uuden mallin, jossa on enemmän tietoja. Esimerkiksi keskikokoisilla osanäytteillä (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-Bja snips-PlayMusic-subsample-B), jotka sisältävät kaksi kertaa enemmän asiakirjoja ja huomautuksia, saimme keskimäärin 1 prosentin F88-pisteen (5 prosentin parannus suhteessa subsample-A tietojoukot). Lopuksi suuremmat osaotoksiset tietojoukot (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-Cja snips-PlayMusic-subsample-C), jotka sisältävät vielä enemmän huomautettuja tietoja (noin neljä kertaa enemmän asiakirjoja ja huomautuksia, joita käytetään subsample-A datasets), paransi vielä 2 % ja nosti keskimääräisen F1-pisteen 90 prosenttiin.

Yhteenveto

Tässä viestissä ilmoitimme vähimmäisvaatimusten alentamisesta mukautetun entiteetin tunnistajan koulutukseen Amazon Comprehendillä ja suoritimme joitain avoimen lähdekoodin tietojoukkoja koskevia vertailuarvoja osoittaaksemme, kuinka tämä vähennys voi auttaa sinua pääsemään alkuun. Tästä päivästä alkaen voit luoda kokonaisuuden tunnistusmallin, jossa on vain 25 huomautusta entiteettityyppiä kohden (100 sijaan) ja vähintään kolme asiakirjaa (250 sijaan). Tällä ilmoituksella alennamme markkinoille pääsyn estettä käyttäjille, jotka ovat kiinnostuneita käyttämään mukautettua Amazon Comprehend -kokonaisuuden tunnistusteknologiaa. Voit nyt aloittaa kokeilujen suorittamisen erittäin pienellä kokoelmalla merkittyjä asiakirjoja, analysoida alustavia tuloksia ja iteroida lisäämällä lisämerkintöjä ja asiakirjoja, jos tarvitset tarkemman kokonaisuuden tunnistusmallin käyttötapaukseesi.

Lisätietoja ja mukautetun entiteetin tunnistimen käytön aloittaminen on kohdassa Mukautetun entiteetin tunnistus.

Erityiset kiitokset kollegoilleni Jyoti Bansalille ja Jie Malle arvokkaasta avusta tietojen valmistelussa ja vertailuanalyysissä.


Kirjailijasta

Amazon Comprehend ilmoittaa alemmista huomautusrajoista mukautetun entiteetin tunnistamiselle PlatoBlockchain Data Intelligencelle. Pystysuuntainen haku. Ai.Luca Guida on ratkaisuarkkitehti AWS:ssä; hän sijaitsee Milanossa ja tukee italialaisia ​​ISV:itä heidän pilvimatkallaan. Tietojenkäsittelytieteen ja tekniikan akateemisen taustan ansiosta hän aloitti AI/ML-intohimonsa kehittämisen yliopistossa. AWS:n luonnollisen kielen käsittelyyhteisön (NLP) jäsenenä Luca auttaa asiakkaita menestymään AI/ML-palveluiden käyttöönotossa.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen