Az Amazon Comprehend alacsonyabb kommentárkorlátokat jelent be az egyéni entitásfelismeréshez, a PlatoBlockchain Data Intelligence-hez. Függőleges keresés. Ai.

Az Amazon Comprehend alacsonyabb kommentárkorlátokat jelent be az egyéni entitásfelismeréshez

Amazon Comprehend egy természetes nyelvű feldolgozási (NLP) szolgáltatás, amellyel automatikusan kinyerhet entitásokat, kulcskifejezéseket, nyelvet, érzéseket és egyéb információkat a dokumentumokból. Például azonnal megkezdheti az entitások, például személyek, helyek, kereskedelmi cikkek, dátumok és mennyiségek észlelését a következőn keresztül Amazon Comprehend konzol, AWS parancssori interfészvagy Amazon Comprehend API-k. Ezenkívül, ha olyan entitásokat kell kibontania, amelyek nem részei a Amazon Comprehend beépített entitástípusok, létrehozhat egyéni entitásfelismerési modellt (más néven egyéni entitás felismerő). Egy pontos entitásfelismerő létrehozása gépi tanulási könyvtárak és keretrendszerek segítségével bonyolult és időigényes folyamat lehet. Az Amazon Comprehend jelentősen leegyszerűsíti a modellképzési munkát. Mindössze annyit kell tennie, hogy betölti a dokumentumokból és megjegyzésekből álló adatkészletet, és használja az Amazon Comprehend konzolt, az AWS CLI-t vagy az API-kat a modell létrehozásához.

Egyéni entitásfelismerő betanításához képzési adatokat adhat meg az Amazon Comprehend as számára megjegyzések vagy entitáslisták. Az első esetben egy dokumentumgyűjteményt és egy fájlt biztosít olyan megjegyzésekkel, amelyek meghatározzák az entitások helyét a dokumentumkészleten belül. Alternatív megoldásként az entitáslistáknál megadhat egy listát az entitásokról a megfelelő entitástípus-címkével, valamint egy sor megjegyzés nélküli dokumentumot, amelyben az entitások várhatóan jelen lesznek. Mindkét megközelítés használható sikeres egyéni entitásfelismerési modell betanításához; azonban vannak helyzetek, amikor az egyik módszer jobb választás lehet. Például, ha bizonyos entitások jelentése kétértelmű és kontextusfüggő lehet, annotációk megadása javasolt, mert ez segíthet egy olyan Amazon Comprehend modell létrehozásában, amely jobban tudja használni a kontextust az entitások kinyerésekor.

A dokumentumok annotálása meglehetősen sok erőfeszítést és időt igényelhet, különösen, ha figyelembe vesszük, hogy a megjegyzések minősége és mennyisége egyaránt hatással van az eredményül kapott entitásfelismerési modellre. A pontatlan vagy túl kevés megjegyzés rossz eredményhez vezethet. A megjegyzések beszerzési folyamatának beállításához olyan eszközöket biztosítunk, mint pl Amazon SageMaker Ground Truth, amellyel gyorsabban megjegyzéseket fűzhet a dokumentumokhoz, és létrehozhat egy kibővített jegyzék-annotációs fájl. Azonban még a Ground Truth használata esetén is meg kell győződnie arról, hogy a betanítási adatkészlet elég nagy az entitásfelismerő sikeres felépítéséhez.

A mai napig az Amazon Comprehend egyéni entitásfelismerő képzésének megkezdéséhez legalább 250 dokumentumból és entitástípusonként legalább 100 megjegyzésből álló gyűjteményt kellett biztosítania. Ma bejelentjük, hogy az Amazon Comprehend alapjául szolgáló modellek közelmúltbeli fejlesztéseinek köszönhetően csökkentettük az egyszerű szöveges CSV-annotációs fájlokkal való felismerő képzés minimális követelményeit. Most már létrehozhat egy egyéni entitásfelismerési modellt mindössze három dokumentummal és entitástípusonként 25 megjegyzéssel. Az új szolgáltatási korlátokról további részleteket itt talál Irányelvek és kvóták.

Annak bemutatására, hogyan segíthet ez a csökkentés az egyéni entitásfelismerő létrehozásának megkezdésében, néhány nyílt forráskódú adatkészleten teszteltünk, és teljesítménymutatókat gyűjtöttünk. Ebben a bejegyzésben végigvezetjük a benchmarking folyamaton és azokon az eredményeken, amelyeket a részmintás adatkészleteken végzett munka során kaptunk.

Adatkészlet előkészítése

Ebben a bejegyzésben elmagyarázzuk, hogyan képeztük ki az Amazon Comprehend egyéni entitásfelismerőt megjegyzésekkel ellátott dokumentumok segítségével. Általánosságban elmondható, hogy a megjegyzések a CSV fájl, Egy a Ground Truth által generált kiterjesztett jegyzékfájl, Vagy egy Pdf fájl. Célunk a CSV egyszerű szöveges kommentárja, mivel ez az a kommentártípus, amelyet az új minimumkövetelmények érintenek. A CSV-fájloknak a következő szerkezettel kell rendelkezniük:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

A vonatkozó mezők a következők:

  • filé – A dokumentumokat tartalmazó fájl neve
  • vonal – Az entitást tartalmazó sor száma 0 sorral kezdődően
  • Kezdődik Eltolt – A karaktereltolás a beviteli szövegben (a sor elejéhez képest), amely megmutatja, hol kezdődik az entitás, figyelembe véve, hogy az első karakter a 0 pozícióban van
  • Végeltolás – A beviteli szövegben szereplő karaktereltolás, amely megmutatja, hol végződik az entitás
  • típus – A definiálni kívánt entitástípus neve

Ezen túlmenően, ha ezt a megközelítést használja, képzési dokumentumok gyűjteményét kell biztosítania .txt fájlként, soronként egy dokumentummal vagy fájlonként egy dokumentummal.

Teszteinkhez a SNIPS természetes nyelv megértési benchmark, a tömeges forrásból származó megnyilatkozások adatkészlete hét felhasználói szándék között (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). Az adatkészletet 2018-ban tették közzé a tanulmány keretében Snips Voice Platform: beágyazott beszélt nyelv megértő rendszer a saját tervezésű hangfelületekhez Coucke et al.

A SNIPS-adatkészlet JSON-fájlok gyűjteményéből áll, amelyek mind a megjegyzéseket, mind a nyers szövegfájlokat tömörítik. A következő egy részlet az adatkészletből:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

Az entitásfelismerő létrehozása előtt a SNIPS-jegyzeteket és a nyers szövegfájlokat CSV-jegyzetfájllá és .txt dokumentumfájllá alakítottuk át.

Az alábbiakban egy részlet a mi annotations.csv file:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

Az alábbiakban egy részlet a mi documents.txt file:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

Mintavételi konfiguráció és benchmarking folyamat

Kísérleteink során a SNIPS-adatkészlet entitástípusainak egy részhalmazára összpontosítottunk:

  • BookRestaurant – Entitástípusok: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
  • GetWeather – Entitástípusok: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
  • Zenél – Entitástípusok: track, artist, music_item, service, genre, sort, playlist, album, year

Ezen túlmenően minden adatkészletből almintát vettünk, hogy különböző konfigurációkat kapjunk a betanításhoz mintavételezett dokumentumok száma és az entitásonkénti megjegyzések száma (más néven lövések). Ez egy egyéni szkript használatával történt, amely almintavételezett adatkészleteket hozott létre, amelyekben minden entitástípus legalább megjelenik k alkalommal, minimumon belül n dokumentumokat.

Minden modellt betanítottak a betanítási adatkészletek egy meghatározott almintájával; a kilenc modellkonfigurációt a következő táblázat szemlélteti.

Almintavételezett adatkészlet neve A képzéshez mintavételezett dokumentumok száma A teszteléshez mintavételezett dokumentumok száma A kommentárok átlagos száma entitástípusonként (képek)
snips-BookRestaurant-subsample-A 132 17 33
snips-BookRestaurant-subsample-B 257 33 64
snips-BookRestaurant-subsample-C 508 64 128
snips-GetWeather-subsample-A 91 12 25
snips-GetWeather-subsample-B 185 24 49
snips-GetWeather-subsample-C 361 46 95
snips-PlayMusic-subsample-A 130 17 30
snips-PlayMusic-subsample-B 254 32 60
snips-PlayMusic-subsample-C 505 64 119

Modelljeink pontosságának mérésére összegyűjtöttünk olyan értékelési mutatókat, amelyeket az Amazon Comprehend automatikusan kiszámít az entitásfelismerő betanítása során:

  • Pontosság – Ez a felismerő által észlelt, helyesen azonosított és címkézett entitások hányadát jelzi. Más szemszögből nézve a precizitás úgy definiálható tp / (tp + fp), Ahol tp az igazi pozitívumok (helyes azonosítások) száma és fp a hamis pozitív eredmények (hibás azonosítások) száma.
  • visszahívás – Ez a helyesen azonosított és címkézett entitások hányadát jelzi a dokumentumokban. Úgy van kiszámolva tp / (tp + fn), Ahol tp az igazi pozitívumok száma és fn a hamis negatívok (elmulasztott azonosítások) száma.
  • F1 pontszám – Ez a precíziós és visszahívási metrikák kombinációja, amely a modell általános pontosságát méri. Az F1 pontszám a pontossági és visszahívási metrikák harmonikus átlaga, és a következőképpen számítható ki 2 * Precíziós * Visszahívás / (Precíziós + Visszahívás).

Az entitásfelismerőink teljesítményének összehasonlításához az F1-es pontszámokra összpontosítunk.

Tekintettel arra, hogy adott egy adatkészlet és egy részminta mérete (a dokumentumok és felvételek számát tekintve), különböző részmintákat generálhat, ezért a kilenc konfiguráció mindegyikéhez 10 részmintát generáltunk, betanítottuk az entitásfelismerési modelleket, összegyűjtöttük a teljesítménymutatókat, és mikroátlagolás segítségével átlagolta őket. Ez lehetővé tette számunkra, hogy stabilabb eredményeket kapjunk, különösen néhány lövésű részminták esetében.

Eredmények

A következő táblázat az Amazon Comprehend által az egyes entitásfelismerők betanítása után visszaadott teljesítménymutatók alapján számított mikroátlagolt F1-pontszámokat mutatja be.

Almintavételezett adatkészlet neve Az entitásfelismerő mikroátlagos F1 pontszáma (%)
snips-BookRestaurant-subsample-A 86.89
snips-BookRestaurant-subsample-B 90.18
snips-BookRestaurant-subsample-C 92.84
snips-GetWeather-subsample-A 84.73
snips-GetWeather-subsample-B 93.27
snips-GetWeather-subsample-C 93.43
snips-PlayMusic-subsample-A 80.61
snips-PlayMusic-subsample-B 81.80
snips-PlayMusic-subsample-C 85.04

A következő oszlopdiagram az F1 pontszámok eloszlását mutatja az előző szakaszban leírtak szerint betanított kilenc konfigurációra vonatkozóan.

Megfigyelhetjük, hogy sikeresen tudtuk betanítani az egyéni entitásfelismerési modelleket, akár 25 annotációval is. Ha a három legkisebb almintás adatkészletre koncentrálunk (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-Aés snips-PlayMusic-subsample-A), azt látjuk, hogy átlagosan 1%-os F84-es eredményt tudtunk elérni, ami az általunk használt dokumentumok és megjegyzések korlátozott számát tekintve elég jó eredmény. Ha javítani akarjuk modellünk teljesítményét, további dokumentumokat és megjegyzéseket gyűjthetünk, és több adatot tartalmazó új modellt betaníthatunk. Például közepes méretű részmintákkal (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-Bés snips-PlayMusic-subsample-B), amelyek kétszer annyi dokumentumot és megjegyzést tartalmaznak, átlagosan 1%-os F88-es pontszámot kaptunk (5%-os javulás a subsample-A adatkészletek). Végül nagyobb almintavételezett adatkészletek (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-Cés snips-PlayMusic-subsample-C), amelyek még több megjegyzéssel ellátott adatot tartalmaznak (körülbelül négyszer annyi dokumentumot és megjegyzést, mint subsample-A adatkészletek), további 2%-os javulást eredményezett, 1%-ra emelve az átlagos F90-es pontszámot.

Következtetés

Ebben a bejegyzésben bejelentettük, hogy csökkentjük az egyéni entitásfelismerő képzéséhez szükséges minimális követelményeket az Amazon Comprehend szolgáltatással, és lefuttattunk néhány benchmarkot a nyílt forráskódú adatkészleteken, hogy megmutassuk, hogyan segíthet ez a csökkentés az indulásban. Mától kezdve létrehozhat egy entitásfelismerési modellt, amely entitástípusonként legfeljebb 25 megjegyzést tartalmaz (100 helyett), és legalább három dokumentumot (250 helyett). Ezzel a bejelentéssel csökkentjük az Amazon Comprehend egyedi entitásfelismerő technológia használata iránt érdeklődő felhasználók belépési akadályát. Most már megkezdheti a kísérletek futtatását a megjegyzésekkel ellátott dokumentumok nagyon kis gyűjteményével, elemezheti az előzetes eredményeket, és iterálhat további megjegyzések és dokumentumok hozzáadásával, ha pontosabb entitásfelismerési modellre van szüksége a használati esethez.

További információért és az egyéni entitásfelismerő használatának megkezdéséhez lásd: Egyéni entitás felismerés.

Külön köszönet kollégáimnak, Jyoti Bansalnak és Jie Ma-nak az adat-előkészítésben és a benchmarkingban nyújtott értékes segítségükért.


A szerzőről

Az Amazon Comprehend alacsonyabb kommentárkorlátokat jelent be az egyéni entitásfelismeréshez, a PlatoBlockchain Data Intelligence-hez. Függőleges keresés. Ai.Luca Guida az AWS Solutions Architect-je; Székhelye Milánóban van, és támogatja az olasz független szoftverszállítókat a felhőalapú utazásukban. A számítástechnikai és mérnöki akadémiai háttérrel az AI/ML szenvedélyét az egyetemen kezdte fejleszteni. Az AWS-en belüli természetes nyelvi feldolgozás (NLP) közösség tagjaként a Luca segít ügyfeleinek abban, hogy sikeresek legyenek az AI/ML szolgáltatások elfogadása során.

Időbélyeg:

Még több AWS gépi tanulás