Automatiseerige PDF-i eelmärgistamine Amazon Comprehendi jaoks

Taasavaldanud Platon

järgijaid: 0

Amazoni mõistmine on loomuliku keele töötlemise (NLP) teenus, mis pakub tekstiandmetest ülevaate saamiseks eelkoolitatud ja kohandatud API-sid. Amazon Comprehendi kliendid saavad koolitada kohandatud nimega olemituvastuse (NER) mudeleid, et eraldada huvipakkuvad olemid (nt asukoht, isiku nimi ja kuupäev), mis on nende ettevõtte jaoks ainulaadsed.

Kohandatud mudeli väljaõpetamiseks valmistage esmalt ette koolitusandmed, tehes dokumentidesse olemid käsitsi. Seda saab teha rakendusega Mõistke poolstruktureeritud dokumentide märkuste tööriist, mis loob an Amazon SageMaker Ground Truth kohandatud malliga töö, mis võimaldab annotaatoritel joonistada piirdekastid olemite ümber otse PDF-dokumentidele. Kuid ettevõtete jaoks, kellel on ERP-süsteemides (nt SAP) olemasolevad tabeli olemi andmed, võib käsitsi märkuste tegemine olla korduv ja aeganõudev.

Treeninguandmete ettevalmistamise vaevuste vähendamiseks koostasime eelmärgistamise tööriista AWS-i astmefunktsioonid mis teeb dokumentidele automaatselt eelmärkused, kasutades olemasolevaid tabeli olemi andmeid. See vähendab oluliselt käsitsi tööd, mis on vajalik täpsete kohandatud olemituvastusmudelite koolitamiseks Amazon Comprehendis.

Selles postituses tutvustame teile eelmärgistamise tööriista seadistamise samme ja näitame näiteid selle kohta, kuidas see automaatselt avalike dokumentide märkmeid teeb. andmestik pangaväljavõtte näidistest PDF-vormingus. Täielik kood on saadaval aadressil GitHub repo.

Lahenduse ülevaade

Selles jaotises käsitleme eelmärgistamise tööriista sisendeid ja väljundeid ning anname ülevaate lahenduse arhitektuurist.

Sisendid ja väljundid

Sisendina võtab eelsildistamise tööriist annoteeritavat teksti sisaldavad PDF-dokumendid. Demo jaoks kasutame simuleeritud pangaväljavõtteid nagu järgmine näide.

Automatiseerige Amazon Comprehend | jaoks PDF-i eelmärgistamine Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Tööriist võtab ka manifestifaili, mis vastendab PDF-dokumendid olemitega, mida soovime neist dokumentidest eraldada. Üksused koosnevad kahest asjast: expected_text dokumendist väljavõtmiseks (näiteks AnyCompany Bank) ja vastavad entity_type (näiteks, bank_name). Hiljem selles postituses näitame, kuidas koostada see manifesti fail CSV-dokumendist, nagu järgmine näide.

Automatiseerige Amazon Comprehend | jaoks PDF-i eelmärgistamine Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Eelsildistamise tööriist kasutab manifestifaili, et lisada dokumentidele automaatselt vastavad olemid märkused. Seejärel saame neid märkusi kasutada otse Amazon Comprehendi mudeli koolitamiseks.

Teise võimalusena saate luua SageMaker Ground Truthi sildistamise töö, mida inimene kontrollib ja redigeerib, nagu on näidatud järgmisel ekraanipildil.

Automatiseerige Amazon Comprehend | jaoks PDF-i eelmärgistamine Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kui ülevaatus on lõppenud, saate kommenteeritud andmeid kasutada Amazon Comprehendi kohandatud olemituvastusmudeli koolitamiseks.

Arhitektuur

Eelmärgistamise tööriist koosneb mitmest AWS Lambda Step Functions olekumasina poolt korraldatud funktsioonid. Sellel on kaks versiooni, mis kasutavad eelmärkuste loomiseks erinevaid tehnikaid.

Esimene tehnika on hägune sobitamine. Selleks on vaja manifesti-eelset faili eeldatavate olemitega. Tööriist kasutab teksti sarnasuse võrdlemise teel eelmärkuste loomiseks hägusat sobitamisalgoritmi.

Hägune sobitamine otsib dokumendist stringe, mis on sarnased (kuid mitte tingimata identsed) manifesti-eelses failis loetletud eeldatavate olemitega. Esmalt arvutab see välja teksti sarnasuse hinded eeldatava teksti ja dokumendis olevate sõnade vahel, seejärel sobitab see kõik paarid, mis ületavad läve. Seega, isegi kui täpseid vasteid pole, võib hägune sobitamine leida selliseid variante nagu lühendid ja õigekirjavead. See võimaldab tööriistal dokumente eelsildistada, ilma et olemid peaksid sõna-sõnalt ilmuma. Näiteks kui 'AnyCompany Bank' on loetletud oodatava üksusena, märgib Fuzzy Matching esinemised 'Any Companys Bank'. See pakub rohkem paindlikkust kui range stringide sobitamine ja võimaldab eelsildistamise tööriistal automaatselt märgistada rohkem üksusi.

Järgmine diagramm illustreerib selle astmefunktsioonide olekumasina arhitektuuri.

Automatiseerige Amazon Comprehend | jaoks PDF-i eelmärgistamine Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Teine tehnika nõuab a eelkoolitatud Amazon Comprehendi olemituvastusmudel. Tööriist loob eelmärkused Amazon Comprehendi mudeli abil, järgides järgmisel diagrammil näidatud töövoogu.

Automatiseerige Amazon Comprehend | jaoks PDF-i eelmärgistamine Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järgmine diagramm illustreerib kogu arhitektuuri.

Automatiseerige Amazon Comprehend | jaoks PDF-i eelmärgistamine Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järgmistes jaotistes käsitleme lahenduse rakendamise etappe.

Rakendage eelmärgistamise tööriist

Kloonige hoidla kohalikku masinasse:

git clone https://github.com/aws-samples/amazon-comprehend-automated-pdf-prelabeling-tool.git

See hoidla on üles ehitatud poolstruktureeritud dokumentide märkuste tööriistale Comprehend Semi-Structured Documents Annotation Tool ja laiendab selle funktsioone, võimaldades teil alustada SageMaker Ground Truthi sildistamistööd, mille eelmärkused on juba SageMaker Ground Truthi kasutajaliideses kuvatud.

Eelmärgistamise tööriist sisaldab nii poolstruktureeritud dokumentide märkuste tööriista ressursse kui ka mõningaid eelmärgistustööriista spetsiifilisi ressursse. Saate lahenduse juurutada koos AWS-i serverita rakendusmudel (AWS SAM), avatud lähtekoodiga raamistik, mida saate kasutada serverita rakenduste infrastruktuuri koodi määratlemiseks.

Kui olete varem juurutanud poolstruktureeritud dokumentide märkuste tööriista, vaadake jaotist KKK jaotises Pre_labeling_tool/README.md juhised selle kohta, kuidas juurutada ainult eelmärgistamise tööriistale omaseid ressursse.

Kui te pole tööriista varem juurutanud ja alustate uuesti, tehke kogu lahenduse juurutamiseks järgmist.

Muutke praegune kataloog märkuste tööriista kaustaks:

cd amazon-comprehend-semi-structured-documents-annotation-tools

Ehitage ja juurutage lahendus:

make ready-and-deploy-guided

Looge manifesti-eelne fail

Enne eelmärgistamise tööriista kasutamist peate oma andmed ette valmistama. Peamised sisendid on PDF-dokumendid ja manifesti-eelne fail. Manifestieelne fail sisaldab iga alloleva PDF-dokumendi asukohta 'pdf' ja JSON-faili asukoht koos eeldatavate üksustega, mille all sildistada 'expected_entities'.

Märkmik gener_premanifest_file.ipynb näitab, kuidas seda faili luua. Demos näitab manifestieelne fail järgmist koodi:

[ { 'pdf': 's3://<bucket>/data_aws_idp_workshop_data/bank_stmt_0.pdf', 'expected_entities': 's3://<bucket>/prelabeling-inputs/expected-entities/example-demo/fuzzymatching_version/file_bank_stmt_0.json' }, ...
]

Iga manifesti-eelses failis loetletud JSON-fail (all expected_entities) sisaldab sõnastike loendit, üks iga eeldatava olemi kohta. Sõnaraamatutel on järgmised võtmed:

'oodatavad_tekstid' – olemile sobivate võimalike tekstistringide loend.
'olemi_tüüp' – vastav olemi tüüp.
„ignore_list” (valikuline) - sõnade loend, mida tuleks matšis ignoreerida. Neid parameetreid tuleks kasutada selleks, et vältida ähmaste vastete sobitamist teatud sõnade kombinatsioonidele, mille kohta teate, et need on valed. See võib olla kasulik, kui soovite mõnda numbrit või e-posti aadressi nimede vaatamisel ignoreerida.

Näiteks expected_entities varem näidatud PDF-failist näeb välja järgmine:

[ { 'expected_texts': ['AnyCompany Bank'], 'entity_type': 'bank_name', 'ignore_list': [] }, { 'expected_texts': ['JANE DOE'], 'entity_type': 'customer_name', 'ignore_list': ['JANE.DOE@example_mail.com'] }, { 'expected_texts': ['003884257406'], 'entity_type': 'checking_number', 'ignore_list': [] }, ...
]

Käivitage eelmärgistamise tööriist

Käivitage eelmises etapis loodud manifesti-eelse failiga eelmärgistamise tööriist. Täpsema teabe saamiseks vaadake märkmikku start_step_functions.ipynb.

Eelmärgistamise tööriista käivitamiseks esitage event järgmiste klahvidega:

Premanifest – Kaardistab iga PDF-dokumendi omaga expected_entities faili. See peaks sisaldama Amazoni lihtne salvestusteenus (Amazon S3) kopp (all bucket) ja võti (all key) failist.
eesliide - kasutatakse loomiseks execution_id, mis nimetab S3 kausta väljundsalvestuseks ja SageMaker Ground Truthi märgistustöö nime.
olemi_tüübid – Kuvatakse kasutajaliideses annotaatoritele märgistamiseks. Need peaksid hõlmama kõiki olemitüüpe eeldatavates olemifailides.
töörühma_nimi (valikuline) – Kasutatakse märgistustöö SageMaker Ground Truth loomiseks. See vastab kasutatavale eratööjõule. Kui seda ei pakuta, luuakse SageMaker Ground Truthi märgistustöö asemel ainult manifesti fail. Manifestifaili abil saate hiljem luua SageMaker Ground Truthi märgistustöö. Pange tähele, et selle kirjutamise seisuga ei saa te märkmikus märgistamistöö loomisel välist tööjõudu pakkuda. Siiski saate loodud töö kloonida ja määrata selle välisele tööjõule SageMaker Ground Truthi konsoolis.
mõistma_parameetrid (valikuline) – Parameetrid kohandatud olemituvastusmudeli Amazon Comprehend otse koolitamiseks. Kui see ära jäetakse, jäetakse see samm vahele.

Olekumasina käivitamiseks käivitage järgmine Pythoni kood:

import boto3
stepfunctions_client = boto3.client('stepfunctions')

response = stepfunctions_client.start_execution(
stateMachineArn=fuzzymatching_prelabeling_step_functions_arn,
input=json.dumps(<event-dict>)
)

See käivitab olekumasina töö. Olekumasina edenemist saate jälgida sammufunktsioonide konsoolil. Järgmine diagramm illustreerib olekumasina töövoogu.

Automatiseerige Amazon Comprehend | jaoks PDF-i eelmärgistamine Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kui olekumasin on valmis, tehke järgmist.

Kontrollige järgmisi jaotisesse salvestatud väljundeid prelabeling/ kaust comprehend-semi-structured-docs S3 ämber:
- Üksikud märkuste failid iga dokumendi lehekülje kohta (üks lehekülje kohta dokumendi kohta). temp_individual_manifests/
- Manifest SageMaker Ground Truthi märgistamise töö kohta consolidated_manifest/consolidated_manifest.manifest
- Manifest, mida saab kasutada kohandatud Amazon Comprehendi mudeli treenimiseks consolidated_manifest/consolidated_manifest_comprehend.manifest
Avage SageMakeri konsoolis SageMaker Ground Truthi märgistustöö, mis loodi annotatsioonide ülevaatamiseks
Kontrollige ja testige koolitatud kohandatud Amazon Comprehendi mudelit

Nagu varem mainitud, saab tööriist luua SageMaker Ground Truthi märgistustöid ainult eratööjõu jaoks. Inimeste sildistamistöö sisseostmiseks saate kloonida märgistamistöö SageMaker Ground Truthi konsoolil ja ühendada uue tööga kõik töötajad.

Koristage

Lisatasude vältimiseks kustutage loodud ressursid ja järgmise käsuga juurutatud virn:

make delete

Järeldus

Eelmärgistamise tööriist pakub ettevõtetele võimsa viisi olemasolevate tabeliandmete kasutamiseks, et kiirendada kohandatud olemituvastusmudelite väljaõpet Amazon Comprehendis. PDF-dokumentide automaatse eelmärkuste lisamisega vähendab see oluliselt märgistamisprotsessis vajalikku käsitsitööd.

Tööriistal on kaks versiooni: hägune sobitamine ja Amazon Comprehend-põhine, mis annab paindlikkuse esialgsete märkuste loomisel. Pärast dokumentide eelsildistamist saate need kiiresti üle vaadata SageMaker Ground Truthi märgistamistöös või isegi ülevaatuse vahele jätta ja Amazon Comprehendi kohandatud mudelit otse välja õpetada.

Eelmärgistamise tööriist võimaldab teil kiiresti avada oma ajalooliste olemiandmete väärtuse ja kasutada neid teie konkreetse domeeni jaoks kohandatud mudelite loomisel. Kiirendades protsessi tavaliselt kõige töömahukamat osa, muudab see kohandatud olemi tuvastamise Amazon Comprehendiga ligipääsetavamaks kui kunagi varem.

Lisateavet selle kohta, kuidas PDF-dokumente märgistada SageMaker Ground Truthi märgistustöö abil, vt Kohandatud dokumendimärkus nimeliste üksuste ekstraktimiseks dokumentidest Amazon Comprehendi abil ja Kasutage andmete märgistamiseks Amazon SageMaker Ground Truthi.

Autoritest

Oskar Schnaack on generatiivse tehisintellekti innovatsioonikeskuse rakendusteadlane. Ta on kirglik sukelduda masinõppe taga olevatesse teadustesse, et muuta see klientidele kättesaadavaks. Töövälisel ajal meeldib Oskarile jalgrattaga sõita ja infoteooria trendidega kursis olla.

Romain Besombes on süvaõppe arhitekt Generative AI Innovation Centeris. Ta on kirglik uuenduslike arhitektuuride loomise vastu, et lahendada masinõppega seotud klientide äriprobleeme.