Amazoni mõistmine on loomuliku keele töötlemise (NLP) teenus, mis pakub tekstiandmetest ülevaate saamiseks eelkoolitatud ja kohandatud API-sid. Amazon Comprehendi kliendid saavad koolitada kohandatud nimega olemituvastuse (NER) mudeleid, et eraldada huvipakkuvad olemid (nt asukoht, isiku nimi ja kuupäev), mis on nende ettevõtte jaoks ainulaadsed.
Kohandatud mudeli väljaõpetamiseks valmistage esmalt ette koolitusandmed, tehes dokumentidesse olemid käsitsi. Seda saab teha rakendusega Mõistke poolstruktureeritud dokumentide märkuste tööriist, mis loob an Amazon SageMaker Ground Truth kohandatud malliga töö, mis võimaldab annotaatoritel joonistada piirdekastid olemite ümber otse PDF-dokumentidele. Kuid ettevõtete jaoks, kellel on ERP-süsteemides (nt SAP) olemasolevad tabeli olemi andmed, võib käsitsi märkuste tegemine olla korduv ja aeganõudev.
Treeninguandmete ettevalmistamise vaevuste vähendamiseks koostasime eelmärgistamise tööriista AWS-i astmefunktsioonid mis teeb dokumentidele automaatselt eelmärkused, kasutades olemasolevaid tabeli olemi andmeid. See vähendab oluliselt käsitsi tööd, mis on vajalik täpsete kohandatud olemituvastusmudelite koolitamiseks Amazon Comprehendis.
Selles postituses tutvustame teile eelmärgistamise tööriista seadistamise samme ja näitame näiteid selle kohta, kuidas see automaatselt avalike dokumentide märkmeid teeb. andmestik pangaväljavõtte näidistest PDF-vormingus. Täielik kood on saadaval aadressil GitHub repo.
Lahenduse ülevaade
Selles jaotises käsitleme eelmärgistamise tööriista sisendeid ja väljundeid ning anname ülevaate lahenduse arhitektuurist.
Sisendid ja väljundid
Sisendina võtab eelsildistamise tööriist annoteeritavat teksti sisaldavad PDF-dokumendid. Demo jaoks kasutame simuleeritud pangaväljavõtteid nagu järgmine näide.
Tööriist võtab ka manifestifaili, mis vastendab PDF-dokumendid olemitega, mida soovime neist dokumentidest eraldada. Üksused koosnevad kahest asjast: expected_text
dokumendist väljavõtmiseks (näiteks AnyCompany Bank
) ja vastavad entity_type
(näiteks, bank_name
). Hiljem selles postituses näitame, kuidas koostada see manifesti fail CSV-dokumendist, nagu järgmine näide.
Eelsildistamise tööriist kasutab manifestifaili, et lisada dokumentidele automaatselt vastavad olemid märkused. Seejärel saame neid märkusi kasutada otse Amazon Comprehendi mudeli koolitamiseks.
Teise võimalusena saate luua SageMaker Ground Truthi sildistamise töö, mida inimene kontrollib ja redigeerib, nagu on näidatud järgmisel ekraanipildil.
Kui ülevaatus on lõppenud, saate kommenteeritud andmeid kasutada Amazon Comprehendi kohandatud olemituvastusmudeli koolitamiseks.
Arhitektuur
Eelmärgistamise tööriist koosneb mitmest AWS Lambda Step Functions olekumasina poolt korraldatud funktsioonid. Sellel on kaks versiooni, mis kasutavad eelmärkuste loomiseks erinevaid tehnikaid.
Esimene tehnika on hägune sobitamine. Selleks on vaja manifesti-eelset faili eeldatavate olemitega. Tööriist kasutab teksti sarnasuse võrdlemise teel eelmärkuste loomiseks hägusat sobitamisalgoritmi.
Hägune sobitamine otsib dokumendist stringe, mis on sarnased (kuid mitte tingimata identsed) manifesti-eelses failis loetletud eeldatavate olemitega. Esmalt arvutab see välja teksti sarnasuse hinded eeldatava teksti ja dokumendis olevate sõnade vahel, seejärel sobitab see kõik paarid, mis ületavad läve. Seega, isegi kui täpseid vasteid pole, võib hägune sobitamine leida selliseid variante nagu lühendid ja õigekirjavead. See võimaldab tööriistal dokumente eelsildistada, ilma et olemid peaksid sõna-sõnalt ilmuma. Näiteks kui 'AnyCompany Bank'
on loetletud oodatava üksusena, märgib Fuzzy Matching esinemised 'Any Companys Bank'
. See pakub rohkem paindlikkust kui range stringide sobitamine ja võimaldab eelsildistamise tööriistal automaatselt märgistada rohkem üksusi.
Järgmine diagramm illustreerib selle astmefunktsioonide olekumasina arhitektuuri.
Teine tehnika nõuab a eelkoolitatud Amazon Comprehendi olemituvastusmudel. Tööriist loob eelmärkused Amazon Comprehendi mudeli abil, järgides järgmisel diagrammil näidatud töövoogu.
Järgmine diagramm illustreerib kogu arhitektuuri.
Järgmistes jaotistes käsitleme lahenduse rakendamise etappe.
Rakendage eelmärgistamise tööriist
Kloonige hoidla kohalikku masinasse:
See hoidla on üles ehitatud poolstruktureeritud dokumentide märkuste tööriistale Comprehend Semi-Structured Documents Annotation Tool ja laiendab selle funktsioone, võimaldades teil alustada SageMaker Ground Truthi sildistamistööd, mille eelmärkused on juba SageMaker Ground Truthi kasutajaliideses kuvatud.
Eelmärgistamise tööriist sisaldab nii poolstruktureeritud dokumentide märkuste tööriista ressursse kui ka mõningaid eelmärgistustööriista spetsiifilisi ressursse. Saate lahenduse juurutada koos AWS-i serverita rakendusmudel (AWS SAM), avatud lähtekoodiga raamistik, mida saate kasutada serverita rakenduste infrastruktuuri koodi määratlemiseks.
Kui olete varem juurutanud poolstruktureeritud dokumentide märkuste tööriista, vaadake jaotist KKK jaotises Pre_labeling_tool/README.md
juhised selle kohta, kuidas juurutada ainult eelmärgistamise tööriistale omaseid ressursse.
Kui te pole tööriista varem juurutanud ja alustate uuesti, tehke kogu lahenduse juurutamiseks järgmist.
Muutke praegune kataloog märkuste tööriista kaustaks:
Ehitage ja juurutage lahendus:
Looge manifesti-eelne fail
Enne eelmärgistamise tööriista kasutamist peate oma andmed ette valmistama. Peamised sisendid on PDF-dokumendid ja manifesti-eelne fail. Manifestieelne fail sisaldab iga alloleva PDF-dokumendi asukohta 'pdf'
ja JSON-faili asukoht koos eeldatavate üksustega, mille all sildistada 'expected_entities'
.
Märkmik gener_premanifest_file.ipynb näitab, kuidas seda faili luua. Demos näitab manifestieelne fail järgmist koodi:
Iga manifesti-eelses failis loetletud JSON-fail (all expected_entities
) sisaldab sõnastike loendit, üks iga eeldatava olemi kohta. Sõnaraamatutel on järgmised võtmed:
- 'oodatavad_tekstid' – olemile sobivate võimalike tekstistringide loend.
- 'olemi_tüüp' – vastav olemi tüüp.
- „ignore_list” (valikuline) - sõnade loend, mida tuleks matšis ignoreerida. Neid parameetreid tuleks kasutada selleks, et vältida ähmaste vastete sobitamist teatud sõnade kombinatsioonidele, mille kohta teate, et need on valed. See võib olla kasulik, kui soovite mõnda numbrit või e-posti aadressi nimede vaatamisel ignoreerida.
Näiteks expected_entities
varem näidatud PDF-failist näeb välja järgmine:
Käivitage eelmärgistamise tööriist
Käivitage eelmises etapis loodud manifesti-eelse failiga eelmärgistamise tööriist. Täpsema teabe saamiseks vaadake märkmikku start_step_functions.ipynb.
Eelmärgistamise tööriista käivitamiseks esitage event
järgmiste klahvidega:
- Premanifest – Kaardistab iga PDF-dokumendi omaga
expected_entities
faili. See peaks sisaldama Amazoni lihtne salvestusteenus (Amazon S3) kopp (allbucket
) ja võti (allkey
) failist. - eesliide - kasutatakse loomiseks
execution_id
, mis nimetab S3 kausta väljundsalvestuseks ja SageMaker Ground Truthi märgistustöö nime. - olemi_tüübid – Kuvatakse kasutajaliideses annotaatoritele märgistamiseks. Need peaksid hõlmama kõiki olemitüüpe eeldatavates olemifailides.
- töörühma_nimi (valikuline) – Kasutatakse märgistustöö SageMaker Ground Truth loomiseks. See vastab kasutatavale eratööjõule. Kui seda ei pakuta, luuakse SageMaker Ground Truthi märgistustöö asemel ainult manifesti fail. Manifestifaili abil saate hiljem luua SageMaker Ground Truthi märgistustöö. Pange tähele, et selle kirjutamise seisuga ei saa te märkmikus märgistamistöö loomisel välist tööjõudu pakkuda. Siiski saate loodud töö kloonida ja määrata selle välisele tööjõule SageMaker Ground Truthi konsoolis.
- mõistma_parameetrid (valikuline) – Parameetrid kohandatud olemituvastusmudeli Amazon Comprehend otse koolitamiseks. Kui see ära jäetakse, jäetakse see samm vahele.
Olekumasina käivitamiseks käivitage järgmine Pythoni kood:
See käivitab olekumasina töö. Olekumasina edenemist saate jälgida sammufunktsioonide konsoolil. Järgmine diagramm illustreerib olekumasina töövoogu.
Kui olekumasin on valmis, tehke järgmist.
- Kontrollige järgmisi jaotisesse salvestatud väljundeid
prelabeling/
kaustcomprehend-semi-structured-docs
S3 ämber:- Üksikud märkuste failid iga dokumendi lehekülje kohta (üks lehekülje kohta dokumendi kohta).
temp_individual_manifests/
- Manifest SageMaker Ground Truthi märgistamise töö kohta
consolidated_manifest/consolidated_manifest.manifest
- Manifest, mida saab kasutada kohandatud Amazon Comprehendi mudeli treenimiseks
consolidated_manifest/consolidated_manifest_comprehend.manifest
- Üksikud märkuste failid iga dokumendi lehekülje kohta (üks lehekülje kohta dokumendi kohta).
- Avage SageMakeri konsoolis SageMaker Ground Truthi märgistustöö, mis loodi annotatsioonide ülevaatamiseks
- Kontrollige ja testige koolitatud kohandatud Amazon Comprehendi mudelit
Nagu varem mainitud, saab tööriist luua SageMaker Ground Truthi märgistustöid ainult eratööjõu jaoks. Inimeste sildistamistöö sisseostmiseks saate kloonida märgistamistöö SageMaker Ground Truthi konsoolil ja ühendada uue tööga kõik töötajad.
Koristage
Lisatasude vältimiseks kustutage loodud ressursid ja järgmise käsuga juurutatud virn:
Järeldus
Eelmärgistamise tööriist pakub ettevõtetele võimsa viisi olemasolevate tabeliandmete kasutamiseks, et kiirendada kohandatud olemituvastusmudelite väljaõpet Amazon Comprehendis. PDF-dokumentide automaatse eelmärkuste lisamisega vähendab see oluliselt märgistamisprotsessis vajalikku käsitsitööd.
Tööriistal on kaks versiooni: hägune sobitamine ja Amazon Comprehend-põhine, mis annab paindlikkuse esialgsete märkuste loomisel. Pärast dokumentide eelsildistamist saate need kiiresti üle vaadata SageMaker Ground Truthi märgistamistöös või isegi ülevaatuse vahele jätta ja Amazon Comprehendi kohandatud mudelit otse välja õpetada.
Eelmärgistamise tööriist võimaldab teil kiiresti avada oma ajalooliste olemiandmete väärtuse ja kasutada neid teie konkreetse domeeni jaoks kohandatud mudelite loomisel. Kiirendades protsessi tavaliselt kõige töömahukamat osa, muudab see kohandatud olemi tuvastamise Amazon Comprehendiga ligipääsetavamaks kui kunagi varem.
Lisateavet selle kohta, kuidas PDF-dokumente märgistada SageMaker Ground Truthi märgistustöö abil, vt Kohandatud dokumendimärkus nimeliste üksuste ekstraktimiseks dokumentidest Amazon Comprehendi abil ja Kasutage andmete märgistamiseks Amazon SageMaker Ground Truthi.
Autoritest
Oskar Schnaack on generatiivse tehisintellekti innovatsioonikeskuse rakendusteadlane. Ta on kirglik sukelduda masinõppe taga olevatesse teadustesse, et muuta see klientidele kättesaadavaks. Töövälisel ajal meeldib Oskarile jalgrattaga sõita ja infoteooria trendidega kursis olla.
Romain Besombes on süvaõppe arhitekt Generative AI Innovation Centeris. Ta on kirglik uuenduslike arhitektuuride loomise vastu, et lahendada masinõppega seotud klientide äriprobleeme.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/automate-pdf-pre-labeling-for-amazon-comprehend/
- :on
- :on
- :mitte
- $ UP
- 100
- 11
- 150
- 152
- 19
- 400
- 500
- 600
- 7
- 804
- 9
- a
- MEIST
- üle
- kiirendama
- juurdepääsetav
- täpne
- Täiendavad lisad
- aadress
- aadressid
- pärast
- AI
- algoritm
- Materjal: BPA ja flataatide vaba plastik
- Lubades
- võimaldab
- juba
- Ka
- Amazon
- Amazoni mõistmine
- Amazon SageMaker
- Amazon SageMaker Ground Truth
- Amazon Web Services
- an
- ja
- mistahes
- API-liidesed
- ilmuma
- taotlus
- rakendatud
- arhitektuur
- OLEME
- ümber
- AS
- At
- kinnitage
- automatiseerima
- automaatselt
- saadaval
- vältima
- AWS
- Pank
- BE
- olnud
- enne
- taga
- vahel
- mõlemad
- karbid
- Ehitus
- ehitatud
- äri
- kuid
- by
- arvutab
- CAN
- keskus
- koormuste
- kood
- COM
- kombinatsioonid
- Ettevõtted
- võrrelda
- täitma
- mõista
- koosneb
- konsool
- ehitama
- sisaldama
- sisaldab
- Vastav
- vastab
- looma
- loodud
- loob
- loomine
- Praegune
- tava
- Kliendid
- andmed
- kuupäev
- väheneb
- sügav
- sügav õpe
- määratlema
- demo
- juurutada
- lähetatud
- kõrvalekalle
- detailid
- erinev
- otse
- arutama
- kuvatakse
- sukeldumine
- do
- dokument
- dokumendid
- nastik
- domeen
- tehtud
- juhtida
- iga
- jõupingutusi
- võimaldab
- võimaldades
- üksuste
- üksus
- ERP
- Isegi
- KUNAGI
- näide
- näited
- olemasolevate
- oodatav
- laieneb
- väline
- väljavõte
- FAQ
- fail
- Faile
- leidma
- esimene
- Paindlikkus
- Järel
- eest
- formaat
- Raamistik
- värske
- Alates
- täis
- funktsionaalsused
- funktsioonid
- tekitama
- genereerib
- generatiivne
- Generatiivne AI
- andmine
- Maa
- Olema
- he
- ajalooline
- Kuidas
- Kuidas
- aga
- HTML
- http
- HTTPS
- inim-
- identiques
- if
- ignoreerima
- illustreerib
- rakendada
- in
- sisaldama
- hõlmab
- info
- Infrastruktuur
- esialgne
- Innovatsioon
- uuenduslik
- sisend
- sisendite
- teadmisi
- selle asemel
- juhised
- huvi
- sisse
- IT
- ITS
- jane
- töö
- Tööturg
- jpg
- Json
- pidamine
- Võti
- võtmed
- Teadma
- silt
- märgistamine
- pärast
- õppimine
- nagu
- nimekiri
- Loetletud
- kohalik
- liising
- otsin
- välimus
- masin
- masinõpe
- põhiline
- tegema
- TEEB
- käsiraamat
- käsitöö
- käsitsi
- kaardid
- Vastama
- tikud
- sobitamine
- mainitud
- mudel
- mudelid
- Jälgida
- rohkem
- kõige
- mitmekordne
- nimi
- Nimega
- nimed
- tingimata
- Vajadus
- vaja
- Uus
- nlp
- ei
- meeles
- märkmik
- numbrid
- of
- on
- ONE
- ainult
- avatud
- avatud lähtekoodiga
- or
- korraldatud
- väljund
- väljundid
- väljaspool
- tellida
- ülevaade
- lehekülg
- paari
- parameetrid
- osa
- kirglik
- kohta
- inimene
- Platon
- Platoni andmete intelligentsus
- PlatoData
- võimalik
- post
- võimas
- Valmistama
- ettevalmistamisel
- vältida
- eelmine
- varem
- era-
- probleeme
- protsess
- töötlemine
- Edu
- anda
- tingimusel
- annab
- avalik
- Python
- kiiresti
- tunnustamine
- vähendama
- vähendab
- viitama
- korduv
- Hoidla
- nõutav
- Vajab
- Vahendid
- läbi
- jooks
- jooksmine
- salveitegija
- Sam
- mahl
- salvestatud
- teadus
- teadlane
- Teine
- Osa
- lõigud
- vaata
- Serverita
- teenus
- Teenused
- kehtestamine
- peaks
- näitama
- näidatud
- Näitused
- märgatavalt
- sarnane
- lihtne
- lahendus
- mõned
- allikas
- konkreetse
- Kestab
- algus
- Käivitus
- riik
- avaldused
- Samm
- Sammud
- ladustamine
- Range
- nöör
- selline
- süsteemid
- kohandatud
- võtab
- tehnika
- tehnikat
- šabloon
- test
- tekst
- tekstiline
- kui
- et
- .
- Riik
- oma
- Neile
- SIIS
- teooria
- Seal.
- seetõttu
- Need
- asjad
- see
- künnis
- Läbi
- aega võttev
- et
- tööriist
- ülemine
- Rong
- koolitus
- Trends
- Tõde
- kaks
- tüüp
- liigid
- tüüpiliselt
- ui
- all
- ainulaadne
- avamine
- kasutama
- Kasutatud
- kasutusalad
- kasutamine
- väärtus
- versioonid
- kõndima
- tahan
- oli
- Tee..
- we
- web
- veebiteenused
- Hästi
- M
- Mis on
- millal
- mis
- kogu
- Wikipedia
- will
- koos
- ilma
- sõnad
- Töö
- töövoog
- Tööjõud
- kirjutamine
- Vale
- sa
- Sinu
- sephyrnet
- Tõmblukk