Amazonin käsitys on luonnollisen kielen käsittelypalvelu (NLP), jonka avulla voit automaattisesti poimia asiakirjoista entiteettejä, avainlauseita, kielen, tunteita ja muita oivalluksia. Voit esimerkiksi alkaa välittömästi havaita kohteita, kuten ihmisiä, paikkoja, kaupallisia kohteita, päivämääriä ja määriä Amazon Comprehend -konsoli, AWS-komentoriviliitäntätai Amazon Comprehend -sovellusliittymät. Lisäksi, jos sinun on purettava entiteettejä, jotka eivät ole osa Amazon Comprehend sisäänrakennetut entiteettityypit, voit luoda mukautetun entiteetin tunnistusmallin (tunnetaan myös nimellä mukautettu kokonaisuus tunnistaja). Tarkan kokonaisuudentunnistimen luominen itse koneoppimiskirjastojen ja -kehysten avulla voi olla monimutkainen ja aikaa vievä prosessi. Amazon Comprehend yksinkertaistaa mallikoulutustyötäsi merkittävästi. Sinun tarvitsee vain ladata asiakirjoja ja huomautuksia sisältävä tietojoukko ja luoda malli Amazon Comprehend -konsolin, AWS CLI:n tai API:n avulla.
Voit kouluttaa mukautetun entiteetin tunnistimen antamalla koulutustiedot Amazon Comprehend asille huomautuksia tai entiteettiluetteloita. Ensimmäisessä tapauksessa annat kokoelman asiakirjoja ja tiedoston, jossa on huomautuksia, jotka määrittävät sijainnin, jossa entiteetit esiintyvät asiakirjajoukossa. Vaihtoehtoisesti entiteettiluetteloissa voit tarjota luettelon entiteeteistä ja niitä vastaavan entiteettityypin tunnisteen sekä joukon huomautuksia sisältämättömiä asiakirjoja, joissa oletat entiteettisi olevan läsnä. Molempia lähestymistapoja voidaan käyttää onnistuneen mukautetun kokonaisuuden tunnistusmallin kouluttamiseen; On kuitenkin tilanteita, joissa yksi menetelmä voi olla parempi valinta. Esimerkiksi kun tiettyjen entiteettien merkitys voi olla moniselitteinen ja asiayhteydestä riippuvainen, merkintöjen lisääminen on suositeltavaa, koska tämä saattaa auttaa sinua luomaan Amazon Comprehend -mallin, joka pystyy paremmin käyttämään kontekstia entiteettejä poimittaessa.
Asiakirjojen merkitseminen voi vaatia melko paljon vaivaa ja aikaa, varsinkin jos ottaa huomioon, että sekä huomautusten laatu että määrä vaikuttavat tuloksena olevaan kokonaisuuden tunnistusmalliin. Epätarkat tai liian harvat huomautukset voivat johtaa huonoihin tuloksiin. Auttaaksemme sinua määrittämään merkintöjen hankintaprosessin tarjoamme työkaluja, kuten Amazon SageMaker Ground Totuus, jonka avulla voit merkitä asiakirjoihin nopeammin ja luoda lisätty luettelomerkintätiedosto. Vaikka käytät Ground Truthia, sinun on silti varmistettava, että harjoitustietojoukkosi on riittävän suuri kokonaisuudentunnistimen rakentamiseen.
Tähän päivään asti, jotta voit aloittaa mukautetun Amazon Comprehend -kokonaisuuden tunnistimen koulutuksen, sinun oli toimitettava vähintään 250 asiakirjan kokoelma ja vähintään 100 huomautusta entiteettityyppiä kohti. Tänään ilmoitamme, että Amazon Comprehendin taustalla oleviin malleihin tehtyjen äskettäisten parannusten ansiosta olemme alentaneet tunnistimen koulutuksen vähimmäisvaatimuksia pelkillä CSV-merkintätiedostoilla. Voit nyt rakentaa mukautetun entiteetin tunnistusmallin, jossa on vain kolme asiakirjaa ja 25 huomautusta entiteettityyppiä kohden. Lisätietoja uusista palvelurajoituksista löydät osoitteesta Ohjeet ja kiintiöt.
Esittelemme, kuinka tämä vähennys voi auttaa sinua pääsemään alkuun mukautetun entiteettitunnistimen luomisessa, suoritimme joitain testejä muutamille avoimen lähdekoodin tietojoukoille ja keräsimme suorituskykymittareita. Tässä viestissä opastamme sinut vertailuanalyysiprosessin ja tulosten läpi, jotka saimme työskennellessämme aliotostietojoukkojen parissa.
Tietojoukon valmistelu
Tässä viestissä selitämme, kuinka koulutimme Amazon Comprehend mukautetun entiteetin tunnistimen käyttämällä selitettyjä asiakirjoja. Yleensä huomautukset voidaan tarjota a CSV-tiedosto, Ground Truthin luoma lisätty manifestitiedosto, Tai Pdf-tiedosto. Keskitymme vain CSV-tekstimerkintöihin, koska uudet vähimmäisvaatimukset vaikuttavat tähän merkintöihin. CSV-tiedostoilla tulee olla seuraava rakenne:
Asiaankuuluvat kentät ovat seuraavat:
- filee – Asiakirjat sisältävän tiedoston nimi
- linja – entiteetin sisältävän rivin numero, joka alkaa rivillä 0
- Alkaa Offset – Syöttötekstin merkkisiirtymä (suhteessa rivin alkuun), joka näyttää, mistä entiteetti alkaa, kun otetaan huomioon, että ensimmäinen merkki on paikassa 0
- Loppusiirtymä – Syöttötekstin merkkipoikkeama, joka näyttää, mihin entiteetti päättyy
- Tyyppi – Sen entiteettityypin nimi, jonka haluat määrittää
Lisäksi, kun käytät tätä lähestymistapaa, sinun on toimitettava kokoelma koulutusasiakirjoja .txt-tiedostoina, joissa on yksi asiakirja riviä kohden tai yksi asiakirja tiedostoa kohden.
Testeissämme käytimme SNIPS Natural Language Understanding -vertailu, tietojoukko joukkolähdettävistä lausunnoista, jotka on jaettu seitsemään käyttäjän tarkoitukseen (AddToPlaylist
, BookRestaurant
, GetWeather
, PlayMusic
, RateBook
, SearchCreativeWork
, SearchScreeningEvent
). Aineisto julkaistiin vuonna 2018 paperin yhteydessä Snips Voice Platform: sulautettu puhutun kielen ymmärtämisjärjestelmä yksityisille äänirajapinnoille Coucke et ai.
SNIPS-tietojoukko koostuu JSON-tiedostojen kokoelmasta, joka tiivistää sekä huomautuksia että raakatekstitiedostoja. Seuraava on katkelma tietojoukosta:
Ennen entiteettitunnistimen luomista muutimme SNIPS-merkinnät ja raakatekstitiedostot CSV-merkintätiedostoksi ja .txt-asiakirjatiedostoksi.
Seuraava on ote meidän annotations.csv
tiedosto:
Seuraava on ote meidän documents.txt
tiedosto:
Näytteenottokokoonpano ja benchmarking-prosessi
Kokeissamme keskityimme SNIPS-tietojoukon entiteettityyppien osajoukkoon:
- Kirjaravintola – Entiteettityypit:
spatial_relation
,poi
,party_size_number
,restaurant_name
,city
,timeRange
,restaurant_type
,served_dish
,party_size_description
,country
,facility
,state
,sort
,cuisine
- GetWeather – Entiteettityypit:
condition_temperature
,current_location
,geographic_poi
,timeRange
,state
,spatial_relation
,condition_description
,city
,country
- Soita musiikkia – Entiteettityypit:
track
,artist
,music_item
,service
,genre
,sort
,playlist
,album
,year
Lisäksi otimme jokaisesta tietojoukosta alinäytteen saadaksemme erilaiset konfiguraatiot koulutusta varten otettujen asiakirjojen lukumäärän ja merkintöjen määrän kokonaisuutta kohti (tunnetaan myös nimellä kuvaa). Tämä tehtiin käyttämällä mukautettua komentosarjaa, joka on suunniteltu luomaan aliotoksisia tietojoukkoja, joissa jokainen entiteettityyppi esiintyy vähintään k kertaa, vähintään n asiakirjoja.
Jokainen malli opetettiin käyttämällä erityistä harjoitustietosarjojen osaotosta; yhdeksän mallikokoonpanoa on kuvattu seuraavassa taulukossa.
Alinäytetietojoukon nimi | Koulutusta varten otettujen asiakirjojen lukumäärä | Testaukseen otettujen asiakirjojen lukumäärä | Merkintöjen keskimääräinen määrä entiteettityyppiä kohden (otoksia) |
snips-BookRestaurant-subsample-A |
132 | 17 | 33 |
snips-BookRestaurant-subsample-B |
257 | 33 | 64 |
snips-BookRestaurant-subsample-C |
508 | 64 | 128 |
snips-GetWeather-subsample-A |
91 | 12 | 25 |
snips-GetWeather-subsample-B |
185 | 24 | 49 |
snips-GetWeather-subsample-C |
361 | 46 | 95 |
snips-PlayMusic-subsample-A |
130 | 17 | 30 |
snips-PlayMusic-subsample-B |
254 | 32 | 60 |
snips-PlayMusic-subsample-C |
505 | 64 | 119 |
Mittaaksemme malliemme tarkkuutta, olemme keränneet arviointimittareita, jotka Amazon Comprehend laskee automaattisesti koulutettaessa kokonaisuuden tunnistajaa:
- Tarkkuus – Tämä osoittaa tunnistimen havaitsemien entiteettien osuuden, jotka on tunnistettu ja merkitty oikein. Toisesta näkökulmasta tarkkuus voidaan määritellä seuraavasti tp / (tp + fp), Jossa tp on todellisten positiivisten (oikeat tunnistukset) lukumäärä ja fp on väärien positiivisten (virheellisten tunnisteiden) määrä.
- Palauttaa mieleen – Tämä osoittaa, kuinka suuri osa asiakirjoissa olevista kokonaisuuksista on tunnistettu ja merkitty oikein. Se lasketaan n tp / (tp + fn), Jossa tp on todellisten positiivisten ja fn on väärien negatiivisten tulosten määrä (jääneet tunnistukset).
- F1 pisteet – Tämä on yhdistelmä tarkkuus- ja palautusmittareita, jotka mittaavat mallin yleistä tarkkuutta. F1-pistemäärä on tarkkuus- ja palautusmittareiden harmoninen keskiarvo, ja se lasketaan seuraavasti 2 * Tarkkuus * Hae / (Tarkkuus + Recall).
Vertaaksemme entiteettitunnistimiemme suorituskykyä keskitymme F1-pisteisiin.
Ottaen huomioon, että tietojoukon ja osaotoksen koon (asiakirjojen ja otosten lukumäärän) perusteella voit luoda erilaisia osaotoksia, loimme 10 osaotosta jokaiselle yhdeksästä kokoonpanosta, koulutimme kokonaisuuden tunnistusmalleja, keräsimme suorituskykymittareita ja laskenut niiden keskiarvon käyttämällä mikrokeskiarvoa. Tämä antoi meille mahdollisuuden saada vakaampia tuloksia, erityisesti muutaman otoksen osanäytteille.
tulokset
Seuraavassa taulukossa esitetään mikrokeskiarvoiset F1-pisteet, jotka on laskettu Amazon Comprehendin palauttamien suorituskykymittareiden perusteella kunkin entiteetin tunnistajan koulutuksen jälkeen.
Alinäytetietojoukon nimi | Entiteettitunnistajan mikrokeskiarvoinen F1-pistemäärä (%) |
snips-BookRestaurant-subsample-A |
86.89 |
snips-BookRestaurant-subsample-B |
90.18 |
snips-BookRestaurant-subsample-C |
92.84 |
snips-GetWeather-subsample-A |
84.73 |
snips-GetWeather-subsample-B |
93.27 |
snips-GetWeather-subsample-C |
93.43 |
snips-PlayMusic-subsample-A |
80.61 |
snips-PlayMusic-subsample-B |
81.80 |
snips-PlayMusic-subsample-C |
85.04 |
Seuraava sarakekaavio näyttää F1-pisteiden jakautumisen yhdeksälle kokoonpanolle, jotka olemme kouluttaneet edellisessä osiossa kuvatulla tavalla.
Voimme havaita, että pystyimme onnistuneesti kouluttamaan mukautettuja entiteetin tunnistusmalleja jopa 25 merkinnällä per entiteettityyppi. Jos keskitymme kolmeen pienimpään osaotosaineistoon (snips-BookRestaurant-subsample-A
, snips-GetWeather-subsample-A
ja snips-PlayMusic-subsample-A
), havaitsemme, että pystyimme saavuttamaan keskimäärin 1 % F84-pisteet, mikä on melko hyvä tulos, kun otetaan huomioon käyttämiemme asiakirjojen ja huomautusten rajallinen määrä. Jos haluamme parantaa mallimme suorituskykyä, voimme kerätä lisää asiakirjoja ja huomautuksia ja kouluttaa uuden mallin, jossa on enemmän tietoja. Esimerkiksi keskikokoisilla osanäytteillä (snips-BookRestaurant-subsample-B
, snips-GetWeather-subsample-B
ja snips-PlayMusic-subsample-B
), jotka sisältävät kaksi kertaa enemmän asiakirjoja ja huomautuksia, saimme keskimäärin 1 prosentin F88-pisteen (5 prosentin parannus suhteessa subsample-A
tietojoukot). Lopuksi suuremmat osaotoksiset tietojoukot (snips-BookRestaurant-subsample-C
, snips-GetWeather-subsample-C
ja snips-PlayMusic-subsample-C
), jotka sisältävät vielä enemmän huomautettuja tietoja (noin neljä kertaa enemmän asiakirjoja ja huomautuksia, joita käytetään subsample-A
datasets), paransi vielä 2 % ja nosti keskimääräisen F1-pisteen 90 prosenttiin.
Yhteenveto
Tässä viestissä ilmoitimme vähimmäisvaatimusten alentamisesta mukautetun entiteetin tunnistajan koulutukseen Amazon Comprehendillä ja suoritimme joitain avoimen lähdekoodin tietojoukkoja koskevia vertailuarvoja osoittaaksemme, kuinka tämä vähennys voi auttaa sinua pääsemään alkuun. Tästä päivästä alkaen voit luoda kokonaisuuden tunnistusmallin, jossa on vain 25 huomautusta entiteettityyppiä kohden (100 sijaan) ja vähintään kolme asiakirjaa (250 sijaan). Tällä ilmoituksella alennamme markkinoille pääsyn estettä käyttäjille, jotka ovat kiinnostuneita käyttämään mukautettua Amazon Comprehend -kokonaisuuden tunnistusteknologiaa. Voit nyt aloittaa kokeilujen suorittamisen erittäin pienellä kokoelmalla merkittyjä asiakirjoja, analysoida alustavia tuloksia ja iteroida lisäämällä lisämerkintöjä ja asiakirjoja, jos tarvitset tarkemman kokonaisuuden tunnistusmallin käyttötapaukseesi.
Lisätietoja ja mukautetun entiteetin tunnistimen käytön aloittaminen on kohdassa Mukautetun entiteetin tunnistus.
Erityiset kiitokset kollegoilleni Jyoti Bansalille ja Jie Malle arvokkaasta avusta tietojen valmistelussa ja vertailuanalyysissä.
Kirjailijasta
Luca Guida on ratkaisuarkkitehti AWS:ssä; hän sijaitsee Milanossa ja tukee italialaisia ISV:itä heidän pilvimatkallaan. Tietojenkäsittelytieteen ja tekniikan akateemisen taustan ansiosta hän aloitti AI/ML-intohimonsa kehittämisen yliopistossa. AWS:n luonnollisen kielen käsittelyyhteisön (NLP) jäsenenä Luca auttaa asiakkaita menestymään AI/ML-palveluiden käyttöönotossa.
- AI
- ai taide
- ai taiteen generaattori
- ai robotti
- Amazonin käsitys
- tekoäly
- tekoälyn sertifiointi
- tekoäly pankkitoiminnassa
- tekoäly robotti
- tekoälyrobotit
- tekoälyohjelmisto
- AWS-koneoppiminen
- blockchain
- blockchain-konferenssi ai
- coingenius
- keskustelullinen tekoäly
- kryptokonferenssi ai
- dall's
- syvä oppiminen
- google ai
- Keskitaso (200)
- koneoppiminen
- Platon
- plato ai
- Platonin tietotieto
- Platon peli
- PlatonData
- platopeliä
- mittakaava ai
- syntaksi
- zephyrnet