Amazonin käsitys on luonnollisen kielen käsittelypalvelu (NLP), joka tarjoaa valmiiksi koulutettuja ja mukautettuja sovellusliittymiä oivallusten saamiseksi tekstitiedoista. Amazon Comprehend -asiakkaat voivat kouluttaa mukautettuja nimettyjen entiteettien tunnistusmalleja (NER) poimiakseen kiinnostavia kokonaisuuksia, kuten sijainnin, henkilön nimen ja päivämäärän, jotka ovat ainutlaatuisia heidän liiketoimintaansa.
Mukautetun mallin kouluttamiseksi sinun on ensin valmisteltava harjoitustiedot merkitsemällä kokonaisuudet manuaalisesti asiakirjoihin. Tämä voidaan tehdä käyttämällä Ymmärrä puolistrukturoitujen asiakirjojen merkintätyökalu, joka luo an Amazon SageMaker Ground Totuus työ mukautetun mallin avulla, jolloin annotaattorit voivat piirtää rajoituslaatikoita entiteettien ympärille suoraan PDF-dokumentteihin. Yrityksille, joilla on olemassa taulukkokokonaisuuksien tietoja ERP-järjestelmissä, kuten SAP, manuaalinen huomautus voi kuitenkin olla toistuvaa ja aikaa vievää.
Vähentääksemme harjoitustietojen valmistelua, rakensimme esimerkintätyökalun käyttämällä AWS-vaihetoiminnot joka tekee automaattisesti esimerkinnät asiakirjoihin käyttämällä olemassa olevia taulukkokokonaisuuksia. Tämä vähentää merkittävästi manuaalista työtä, jota tarvitaan tarkkojen mukautetun kokonaisuuden tunnistusmallien kouluttamiseen Amazon Comprehendissä.
Tässä viestissä opastamme sinut esimerkintätyökalun käyttöönottovaiheiden läpi ja näytämme esimerkkejä siitä, kuinka se merkitsee automaattisesti julkisia asiakirjoja. aineisto näytetiliotteita PDF-muodossa. Koko koodi on saatavilla osoitteessa GitHub repo.
Ratkaisun yleiskatsaus
Tässä osiossa käsittelemme esimerkintätyökalun tuloja ja lähtöjä ja annamme yleiskatsauksen ratkaisun arkkitehtuurista.
Tulot ja lähdöt
Esimerkintätyökalu ottaa syötteeksi tekstiä sisältäviä PDF-dokumentteja merkinnöillä. Demossa käytämme seuraavan esimerkin kaltaisia simuloituja tiliotteita.
Työkalu ottaa myös luettelotiedoston, joka yhdistää PDF-dokumentit entiteeteihin, jotka haluamme poimia näistä asiakirjoista. Entiteetit koostuu kahdesta asiasta: expected_text
poimia asiakirjasta (esim. AnyCompany Bank
) ja vastaava entity_type
(esimerkiksi, bank_name
). Myöhemmin tässä viestissä näytämme, kuinka tämä luettelotiedosto rakennetaan CSV-asiakirjasta seuraavan esimerkin mukaisesti.
Esimerkintätyökalu käyttää luettelotiedostoa asiakirjoihin automaattisesti merkitsemään niitä vastaavilla entiteeteillä. Voimme sitten käyttää näitä merkintöjä suoraan Amazon Comprehend -mallin kouluttamiseen.
Vaihtoehtoisesti voit luoda SageMaker Ground Truth -merkintätyön ihmisen tarkastettavaksi ja muokkaamiseksi, kuten seuraavassa kuvakaappauksessa näkyy.
Kun tarkistus on valmis, voit käyttää huomautettuja tietoja Amazon Comprehend mukautetun entiteetin tunnistusmallin kouluttamiseen.
arkkitehtuuri
Esimerkintätyökalu koostuu useista AWS Lambda Step Functions -tilakoneen ohjaamia toimintoja. Siinä on kaksi versiota, jotka käyttävät erilaisia tekniikoita esimerkintöjen luomiseen.
Ensimmäinen tekniikka on sumea vastaavuus. Tämä vaatii esiluettelotiedoston, joka sisältää odotetut entiteetit. Työkalu käyttää sumeaa täsmäysalgoritmia luodakseen esimerkintöjä vertaamalla tekstin samankaltaisuutta.
Sumea vastaavuus etsii asiakirjasta merkkijonoja, jotka ovat samanlaisia (mutta eivät välttämättä identtisiä) premanifest-tiedostossa lueteltujen odotettujen entiteettien kanssa. Se laskee ensin tekstin samankaltaisuuspisteet odotetun tekstin ja asiakirjan sanojen välillä, minkä jälkeen se vastaa kaikkiin kynnyksen ylittäviin pareihin. Vaikka tarkkoja vastaavuuksia ei olisikaan, sumea vastaavuus voi löytää muunnelmia, kuten lyhenteitä ja kirjoitusvirheitä. Tämän ansiosta työkalu voi merkitä asiakirjoja valmiiksi ilman, että entiteetit näkyvät sanatarkasti. Esimerkiksi jos 'AnyCompany Bank'
on lueteltu odotetuksi kokonaisuudeksi, Fuzzy Matching merkitsee esiintymät 'Any Companys Bank'
. Tämä tarjoaa enemmän joustavuutta kuin tiukka merkkijonosovitus ja mahdollistaa esimerkintätyökalun automaattisesti merkitsemään useampia kokonaisuuksia.
Seuraava kaavio havainnollistaa tämän Step Functions -tilakoneen arkkitehtuuria.
Toinen tekniikka vaatii a valmiiksi koulutettu Amazon Comprehend -kokonaisuuden tunnistusmalli. Työkalu luo esihuomautukset Amazon Comprehend -mallilla seuraavan kaavion työnkulkua noudattaen.
Seuraava kaavio havainnollistaa koko arkkitehtuuria.
Seuraavissa osioissa käymme läpi vaiheet ratkaisun toteuttamiseksi.
Ota esimerkintätyökalu käyttöön
Kloonaa arkisto paikalliselle koneellesi:
Tämä arkisto on rakennettu Comprehend Semi-Structured Documents Annotation Toolin päälle ja laajentaa sen toimintoja mahdollistamalla SageMaker Ground Truth -merkintätyön aloittamisen esimerkinnöillä, jotka on jo näkyvissä SageMaker Ground Truth -käyttöliittymässä.
Esimerkintätyökalu sisältää sekä Comprehend Semi-Structured Documents Annotation Tool -resurssit että joitain esimerkintätyökaluun liittyviä resursseja. Voit ottaa ratkaisun käyttöön AWS-palvelimeton sovellusmalli (AWS SAM), avoimen lähdekoodin kehys, jota voit käyttää palvelimettoman sovellusinfrastruktuurin koodin määrittämiseen.
Jos olet aiemmin ottanut käyttöön Comprehend Semi-Structured Documents Annotation Toolin, katso UKK-osio Pre_labeling_tool/README.md
saadaksesi ohjeet vain esimerkintätyökalulle ominaisten resurssien käyttöönotosta.
Jos et ole ottanut työkalua käyttöön aiemmin ja aloitat alusta, ota koko ratkaisu käyttöön seuraavasti.
Muuta nykyinen hakemisto merkintätyökalukansioksi:
Rakenna ja ota käyttöön ratkaisu:
Luo esiluettelotiedosto
Ennen kuin voit käyttää esimerkintätyökalua, sinun on valmisteltava tietosi. Pääsyötteet ovat PDF-dokumentit ja esiluettelotiedosto. Esiluettelotiedosto sisältää jokaisen alla olevan PDF-dokumentin sijainnin 'pdf'
ja JSON-tiedoston sijainti, jossa on oletetut entiteetit tunnistettavaksi 'expected_entities'
.
Muistikirja gener_premanifest_file.ipynb näyttää kuinka tämä tiedosto luodaan. Esittelyssä esiluettelotiedosto näyttää seuraavan koodin:
Jokainen esiluettelotiedostossa listattu JSON-tiedosto (alla expected_entities
) sisältää luettelon sanakirjoista, yhden kullekin odotetulle kokonaisuudelle. Sanakirjoissa on seuraavat avaimet:
- 'expected_texts' – Luettelo mahdollisista entiteettiä vastaavista tekstijonoista.
- 'entity_type' – Vastaava entiteettityyppi.
- "ignore_list" (valinnainen) – Luettelo sanoista, jotka tulee jättää huomiotta ottelussa. Näitä parametreja tulee käyttää estämään sumeaa hakua yhdistämästä tiettyjä sanayhdistelmiä, joiden tiedät olevan vääriä. Tästä voi olla hyötyä, jos haluat jättää huomiotta jotkin numerot tai sähköpostiosoitteet nimiä tarkastellessasi.
Esimerkiksi expected_entities
aiemmin näytetystä PDF-tiedostosta näyttää seuraavalta:
Suorita esimerkintätyökalu
Aloita esimerkintätyökalun suorittaminen edellisessä vaiheessa luomallasi esiluettelotiedostolla. Katso lisätietoja muistikirjasta start_step_functions.ipynb.
Aloita esimerkintätyökalu antamalla event
seuraavilla näppäimillä:
- Premanifest – Yhdistää jokaisen PDF-dokumentin siihen
expected_entities
tiedosto. Tämän pitäisi sisältää Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpäri (allebucket
) ja avain (allakey
) tiedostosta. - Etuliite – Käytetään luomaan
execution_id
, joka nimeää S3-kansion tulosteen tallennusta varten ja SageMaker Ground Truth -merkintätyön nimen. - entiteetti_tyypit – Näytetään käyttöliittymässä, jotta merkinnät voivat merkitä. Näiden pitäisi sisältää kaikki entiteettityypit odotetuissa entiteettitiedostoissa.
- työryhmän_nimi (valinnainen) – Käytetään SageMaker Ground Truth -merkintätyön luomiseen. Se vastaa käytettävää yksityistä työvoimaa. Jos sitä ei ole annettu, SageMaker Ground Truth -merkintätyön sijaan luodaan vain luettelotiedosto. Voit käyttää luettelotiedostoa luodaksesi SageMaker Ground Truth -merkintätyön myöhemmin. Huomaa, että tätä kirjoitettaessa et voi tarjota ulkopuolista työvoimaa luodessasi merkintätyötä muistikirjasta. Voit kuitenkin kloonata luodun työn ja määrittää sen ulkopuoliselle työvoimalle SageMaker Ground Truth -konsolissa.
- comprehend_parameters (valinnainen) – Parametrit, joilla voit kouluttaa suoraan Amazon Comprehend mukautetun kokonaisuuden tunnistusmallin. Jos se jätetään pois, tämä vaihe ohitetaan.
Käynnistä tilakone suorittamalla seuraava Python-koodi:
Tämä käynnistää tilakoneen ajon. Voit seurata tilakoneen edistymistä Step Functions -konsolissa. Seuraava kaavio havainnollistaa tilakoneen työnkulkua.
Kun tilakone on valmis, toimi seuraavasti:
- Tarkista seuraavat tiedostoon tallennetut lähdöt
prelabeling/
kansiocomprehend-semi-structured-docs
S3-ämpäri:- Yksittäiset huomautustiedostot jokaiselle asiakirjojen sivulle (yksi sivua kohti asiakirjaa kohti).
temp_individual_manifests/
- Luettelo SageMaker Ground Truth -etikettityöstä
consolidated_manifest/consolidated_manifest.manifest
- Luettelo, jota voidaan käyttää mukautetun Amazon Comprehend -mallin kouluttamiseen
consolidated_manifest/consolidated_manifest_comprehend.manifest
- Yksittäiset huomautustiedostot jokaiselle asiakirjojen sivulle (yksi sivua kohti asiakirjaa kohti).
- Avaa SageMaker-konsolissa SageMaker Ground Truth -merkintätyö, joka luotiin merkintöjen tarkistamista varten.
- Tarkista ja testaa koulutettua mukautettua Amazon Comprehend -mallia
Kuten aiemmin mainittiin, työkalu voi luoda SageMaker Ground Truth -merkintätöitä vain yksityisille työntekijöille. Ulkoistaaksesi inhimillisen merkintätyön voit kloonata merkintätyön SageMaker Ground Truth -konsolissa ja liittää minkä tahansa työvoiman uuteen työhön.
Puhdistaa
Voit välttää lisäkuluja poistamalla luomasi resurssit ja poistamalla pinon, jonka otit käyttöön seuraavalla komennolla:
Yhteenveto
Esimerkintätyökalu tarjoaa yrityksille tehokkaan tavan käyttää olemassa olevia taulukkotietoja nopeuttaakseen mukautettujen entiteettien tunnistusmallien koulutusta Amazon Comprehendissä. Automaattinen esimerkintä PDF-dokumenteille vähentää merkittävästi merkitsemisprosessin vaatimaa manuaalista työtä.
Työkalusta on kaksi versiota: sumea vastaavuus ja Amazon Comprehend -pohjainen, mikä antaa joustavuutta alkuperäisten huomautusten luomiseen. Kun asiakirjat on merkitty valmiiksi, voit tarkistaa ne nopeasti SageMaker Ground Truth -merkintätyössä tai jopa ohittaa tarkistuksen ja kouluttaa suoraan mukautetun Amazon Comprehend -mallin.
Esimerkintätyökalun avulla voit nopeasti avata historiallisten entiteettitietojesi arvon ja käyttää niitä luodessasi mukautettuja malleja, jotka on räätälöity verkkotunnuksellesi. Nopeuttamalla prosessin tyypillisesti työvoimavaltaisinta osaa, se tekee mukautetun kokonaisuuden tunnistamisen Amazon Comprehendin avulla helpommin saavutettavissa kuin koskaan.
Lisätietoja PDF-dokumenttien merkitsemisestä SageMaker Ground Truth -merkintätyön avulla on kohdassa Mukautettu asiakirjamerkintä nimettyjen entiteettien poimimiseen asiakirjoista Amazon Comprehendin avulla ja Käytä Amazon SageMaker Ground Truthia tietojen merkitsemiseen.
Tietoja kirjoittajista
Oskar Schnaack on soveltava tutkija Generatiivisen tekoälyn innovaatiokeskuksessa. Hän on intohimoinen sukeltaa koneoppimisen takana olevaan tieteeseen, jotta se olisi asiakkaiden käytettävissä. Työn ulkopuolella Oskar nauttii pyöräilystä ja tietoteorian trendeistä seuraamisesta.
Romain Besombes on Deep Learning Architect Generative AI Innovation Centerissä. Hän on intohimoinen innovatiivisten arkkitehtuurien rakentamiseen, joka ratkaisee asiakkaiden liiketoimintaongelmia koneoppimisen avulla.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/automate-pdf-pre-labeling-for-amazon-comprehend/
- :on
- :On
- :ei
- $ YLÖS
- 100
- 11
- 150
- 152
- 19
- 400
- 500
- 600
- 7
- 804
- 9
- a
- Meistä
- edellä
- kiihdyttää
- saatavilla
- tarkka
- lisä-
- osoite
- osoitteet
- Jälkeen
- AI
- algoritmi
- Kaikki
- Salliminen
- mahdollistaa
- jo
- Myös
- Amazon
- Amazonin käsitys
- Amazon Sage Maker
- Amazon SageMaker Ground Totuus
- Amazon Web Services
- an
- ja
- Kaikki
- API
- näyttää
- Hakemus
- sovellettu
- arkkitehtuuri
- OVAT
- noin
- AS
- At
- liittää
- automatisoida
- automaattisesti
- saatavissa
- välttää
- AWS
- Pankki
- BE
- ollut
- ennen
- takana
- välillä
- sekä
- laatikot
- Rakentaminen
- rakennettu
- liiketoiminta
- mutta
- by
- laskee
- CAN
- keskus
- maksut
- koodi
- KOM
- yhdistelmät
- Yritykset
- vertaamalla
- täydellinen
- ymmärtää
- muodostuu
- Console
- rakentaa
- sisältää
- sisältää
- vastaava
- vastaa
- luoda
- luotu
- luo
- Luominen
- Nykyinen
- asiakassuhde
- Asiakkaat
- tiedot
- Päivämäärä
- vähenee
- syvä
- syvä oppiminen
- määritellä
- esittely
- sijoittaa
- käyttöön
- ajelehtia
- yksityiskohdat
- eri
- suoraan
- pohtia
- näyttöön
- sukellus
- do
- asiakirja
- asiakirjat
- naarasjänis
- verkkotunnuksen
- tehty
- piirtää
- kukin
- vaivaa
- mahdollistaa
- mahdollistaa
- yksiköt
- kokonaisuus
- ERP
- Jopa
- EVER
- esimerkki
- Esimerkit
- olemassa
- odotettu
- ulottuu
- ulkoinen
- uute
- FAQ
- filee
- Asiakirjat
- Löytää
- Etunimi
- Joustavuus
- jälkeen
- varten
- muoto
- Puitteet
- tuore
- alkaen
- koko
- toiminnallisuudet
- tehtävät
- tuottaa
- synnyttää
- generatiivinen
- Generatiivinen AI
- Antaminen
- Maa
- Olla
- he
- historiallinen
- Miten
- Miten
- Kuitenkin
- HTML
- http
- HTTPS
- ihmisen
- identtinen
- if
- sivuuttaa
- havainnollistaa
- toteuttaa
- in
- sisältää
- sisältää
- tiedot
- Infrastruktuuri
- ensimmäinen
- Innovaatio
- innovatiivinen
- panos
- tuloa
- oivalluksia
- sen sijaan
- ohjeet
- korko
- tulee
- IT
- SEN
- jane
- Job
- Työpaikat
- jpg
- json
- pito
- avain
- avaimet
- Tietää
- Merkki
- merkinnät
- myöhemmin
- oppiminen
- pitää
- Lista
- lueteltu
- paikallinen
- sijainti
- näköinen
- ulkonäkö
- kone
- koneoppiminen
- tärkein
- tehdä
- TEE
- manuaalinen
- ruumiillinen työ
- käsin
- Kartat
- ottelu
- tulitikut
- matching
- mainitsi
- malli
- mallit
- monitori
- lisää
- eniten
- moninkertainen
- nimi
- nimetty
- nimet
- välttämättä
- Tarve
- tarvitaan
- Uusi
- NLP
- Nro
- huomata
- muistikirja
- numerot
- of
- on
- ONE
- vain
- avata
- avoimen lähdekoodin
- or
- orkestroinut
- ulostulo
- lähdöt
- ulkopuolella
- ulkoistaa
- yleiskatsaus
- sivulla
- paria
- parametrit
- osa
- intohimoinen
- varten
- henkilö
- Platon
- Platonin tietotieto
- PlatonData
- mahdollinen
- Kirje
- voimakas
- Valmistella
- valmistelee
- estää
- edellinen
- aiemmin
- yksityinen
- ongelmia
- prosessi
- käsittely
- Edistyminen
- toimittaa
- mikäli
- tarjoaa
- julkinen
- Python
- nopeasti
- tunnustaminen
- vähentää
- vähentää
- katso
- toistuva
- säilytyspaikka
- tarvitaan
- Vaatii
- Esittelymateriaalit
- arviot
- ajaa
- juoksu
- sagemaker
- Sam
- mahla
- tallennettu
- tiede
- Tiedemies
- Toinen
- Osa
- osiot
- nähdä
- serverless
- palvelu
- Palvelut
- asetus
- shouldnt
- näyttää
- esitetty
- Näytä
- merkittävästi
- samankaltainen
- Yksinkertainen
- ratkaisu
- jonkin verran
- lähde
- erityinen
- pino
- Alkaa
- Aloita
- Osavaltio
- lausuntoja
- Vaihe
- Askeleet
- Levytila
- Tiukka
- jono
- niin
- järjestelmät
- Räätälöity
- vie
- tekniikka
- tekniikat
- sapluuna
- testi
- teksti
- teksti-
- kuin
- että
- -
- Valtion
- heidän
- Niitä
- sitten
- teoria
- Siellä.
- siksi
- Nämä
- asiat
- tätä
- kynnys
- Kautta
- aikaavievä
- että
- työkalu
- ylin
- Juna
- koulutus
- Trendit
- Totuus
- kaksi
- tyyppi
- tyypit
- tyypillisesti
- ui
- varten
- unique
- avata
- käyttää
- käytetty
- käyttötarkoituksiin
- käyttämällä
- arvo
- versiot
- kävellä
- haluta
- oli
- Tapa..
- we
- verkko
- verkkopalvelut
- HYVIN
- Mitä
- Mikä on
- kun
- joka
- koko
- wikipedia
- tulee
- with
- ilman
- sanoja
- Referenssit
- työnkulku
- työvoima
- kirjoittaminen
- Väärä
- Voit
- Sinun
- zephyrnet
- Postinumero