Prilagodite poslovna pravila za inteligentno obdelavo dokumentov s človeškim pregledom in BI vizualizacijo PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Prilagodite poslovna pravila za inteligentno obdelavo dokumentov s človeškim pregledom in vizualizacijo BI

Ogromna količina poslovnih dokumentov se dnevno obdela v različnih panogah. Mnogi od teh dokumentov so v papirni obliki, skenirani v vaš sistem kot slike ali v nestrukturirani obliki, kot je PDF. Vsako podjetje lahko pri obdelavi teh dokumentov uporablja edinstvena pravila, povezana z njegovim poslovnim ozadjem. Kako natančno pridobiti informacije in jih prožno obdelati, je izziv, s katerim se srečujejo mnoga podjetja.

Amazon Intelligent Document Processing (IDP) vam omogoča, da izkoristite vodilno tehnologijo strojnega učenja (ML) brez predhodnih izkušenj z ML. Ta objava predstavlja rešitev, vključeno v Amazon IDP delavnica prikazuje, kako obdelati dokumente, da služijo prilagodljivim poslovnim pravilom z uporabo storitev Amazon AI. Uporabite lahko naslednji korak za korakom Jupyterjev zvezek dokončati laboratorij.

Amazonovo besedilo vam pomaga preprosto izvleči besedilo iz različnih dokumentov in Amazon, razširjeni AI (Amazon A2I) vam omogoča izvedbo človeškega pregleda napovedi ML. Privzeta predloga Amazon A2I vam omogoča, da zgradite cevovod človeškega pregleda na podlagi pravil, na primer, ko je ocena zaupanja ekstrakcije nižja od vnaprej določenega praga ali manjkajo zahtevani ključi. Toda v produkcijskem okolju potrebujete cevovod za obdelavo dokumentov, ki podpira prilagodljiva poslovna pravila, kot je preverjanje formata niza, preverjanje tipa in obsega podatkov ter preverjanje polj v dokumentih. Ta objava prikazuje, kako lahko uporabite Amazon Texttract in Amazon A2I za prilagajanje cevovoda za generično obdelavo dokumentov, ki podpira prilagodljiva poslovna pravila.

Pregled rešitev

Za našo vzorčno rešitev uporabljamo Davčni obrazec 990, obrazec ameriške davčne uprave (Internal Revenue Service), ki javnosti posreduje finančne podatke o neprofitni organizaciji. V tem primeru obravnavamo samo logiko ekstrakcije za nekatera polja na prvi strani obrazca. Več vzorcev dokumentov najdete na Spletno mesto IRS.

Naslednji diagram ponazarja cevovod IDP, ki podpira prilagojena poslovna pravila s človeškim pregledom.

Arhitektura je sestavljena iz treh logičnih stopenj:

  • Pridobivanje – Izvlecite podatke iz davčnega obrazca 990 (kot primer uporabljamo stran 1).
  • Potrditev – Uporabite prilagodljiva poslovna pravila s pregledom s strani človeka v zanki.
    • Preverite ekstrahirane podatke v skladu s poslovnimi pravili, kot je preverjanje dolžine polja ID.
    • Pošljite dokument Amazon A2I, da ga oseba pregleda, če katero od poslovnih pravil ne uspe.
    • Pregledovalci uporabljajo uporabniški vmesnik Amazon A2I (prilagodljivo spletno mesto), da preverijo rezultat ekstrakcije.
  • BI vizualizacija - Uporabljamo Amazon QuickSight zgraditi nadzorno ploščo poslovne inteligence (BI), ki prikazuje vpogled v proces.

Prilagodite poslovna pravila

Splošno poslovno pravilo lahko definirate v naslednji obliki JSON. V vzorčni kodi definiramo tri pravila:

  • Prvo pravilo velja za polje ID delodajalca. Pravilo ne velja, če je rezultat zaupanja Amazon Texttract nižji od 99 %. Za to objavo smo postavili visok prag ocene zaupanja, ki bo po zasnovi presežen. Prag lahko prilagodite na razumnejšo vrednost, da zmanjšate nepotreben človeški napor v resničnem okolju, na primer 90 %.
  • Drugo pravilo velja za polje DLN (enolični identifikator davčnega obrazca), ki je potrebno za logiko obdelave na nižji stopnji. To pravilo ne deluje, če polje DLN manjka ali ima prazno vrednost.
  • Tretje pravilo velja tudi za polje DLN, vendar z drugačno vrsto pogoja: LengthCheck. Pravilo se prekine, če dolžina DLN ni 16 znakov.

Naslednja koda prikazuje naša poslovna pravila v formatu JSON:

rules = [
    {
        "description": "Employee Id confidence score should greater than 99",
        "field_name": "d.employer_id",
        "field_name_regex": None, # support Regex: "_confidence$",
        "condition_category": "Confidence",
        "condition_type": "ConfidenceThreshold",
        "condition_setting": "99",
    },
    {
        "description": "dln is required",
        "field_name": "dln",
        "condition_category": "Required",
        "condition_type": "Required",
        "condition_setting": None,
    },
    {
        "description": "dln length should be 16",
        "field_name": "dln",
        "condition_category": "LengthCheck",
        "condition_type": "ValueRegex",
        "condition_setting": "^[0-9a-zA-Z]{16}$",
    }
]

Rešitev lahko razširite tako, da dodate več poslovnih pravil, ki sledijo isti strukturi.

Ekstrahirajte besedilo s poizvedbo Amazon Texttract

V vzorčni rešitvi pokličemo API za analizo_dokumenta Amazon Texttract poizvedba funkcijo za ekstrahiranje polj z zastavljanjem posebnih vprašanj. Ni vam treba poznati strukture podatkov v dokumentu (tabela, obrazec, implicitno polje, ugnezdeni podatki) ali skrbeti za razlike med različicami in oblikami dokumenta. Poizvedbe uporabljajo kombinacijo vizualnih, prostorskih in jezikovnih znakov, da z visoko natančnostjo izluščijo informacije, ki jih iščete.

Če želite izvleči vrednost za polje DLN, lahko pošljete zahtevo z vprašanji v naravnih jezikih, na primer »Kaj je DLN?« Amazon Texttract vrne besedilo, zaupanje in druge metapodatke, če najde ustrezne informacije na sliki ali dokumentu. Sledi primer zahteve poizvedbe Amazon Texttract:

textract.analyze_document(
        Document={'S3Object': {'Bucket': data_bucket, 'Name': s3_key}},
        FeatureTypes=["QUERIES"],
        QueriesConfig={
                'Queries': [
                    {
                        'Text': 'What is the DLN?',
                       'Alias': 'The DLN number - unique identifier of the form'
                    }
               ]
        }
)

Definirajte podatkovni model

Vzorčna rešitev sestavi podatke v strukturirani obliki, ki služi generičnemu vrednotenju poslovnih pravil. Če želite obdržati ekstrahirane vrednosti, lahko definirate podatkovni model za vsako stran dokumenta. Naslednja slika prikazuje, kako se besedilo na strani 1 preslika v polja JSON.Podatkovni model po meri

Vsako polje predstavlja besedilo dokumenta, potrditveno polje ali celico tabele/obrazca na strani. Objekt JSON izgleda kot naslednja koda:

{
    "dln": {
        "value": "93493319020929",
        "confidence": 0.9765, 
        "block": {} 
    },
    "omb_no": {
        "value": "1545-0047",
        "confidence": 0.9435,
        "block": {}
    },
    ...
}

Podrobno definicijo strukture JSON najdete v GitHub repo.

Ocenite podatke glede na pravila poslovanja

Vzorčna rešitev je opremljena z razredom pogojev – generičnim mehanizmom za pravila, ki vzame ekstrahirane podatke (kot je definirano v podatkovnem modelu) in pravila (kot je definirano v prilagojenih poslovnih pravilih). Vrne dva seznama z neuspešnimi in izpolnjenimi pogoji. Rezultat lahko uporabimo za odločitev, ali naj dokument pošljemo Amazon A2I v človeški pregled.

Izvorna koda razreda Condition je v vzorcu GitHub repo. Podpira osnovno logiko preverjanja, kot je preverjanje dolžine niza, obsega vrednosti in praga ocene zaupanja. Kodo lahko spremenite tako, da podpira več vrst pogojev in zapleteno logiko preverjanja.

Ustvarite prilagojen spletni uporabniški vmesnik Amazon A2I

Amazon A2I vam omogoča, da prilagodite ocenjevalčev spletni uporabniški vmesnik tako, da definirate a predloga delovne naloge. Predloga je statična spletna stran v HTML in JavaScript. Podatke lahko posredujete prilagojeni strani pregledovalca z uporabo Tekočina sintaksa.

V vzorčni raztopini je predloga uporabniškega vmesnika Amazon A2I po meri prikaže stran na levi in ​​pogoje napake na desni. Pregledovalci ga lahko uporabijo za popravljanje ekstrakcijske vrednosti in dodajanje svojih komentarjev.

Naslednji posnetek zaslona prikazuje naš prilagojen uporabniški vmesnik Amazon A2I. Prikazuje izvirni slikovni dokument na levi in ​​naslednje neuspele pogoje na desni:

  • Številke DLN naj bodo dolge 16 znakov. Dejanski DLN ima 15 znakov.
  • Ocena zaupanja za employer_id je nižja od 99 %. Dejanski rezultat zaupanja je okoli 98 %.

Pregledovalci lahko ročno preverijo te rezultate in dodajo komentarje v SPREMEMBA RAZLOGA besedilna polja.Prilagojen uporabniški vmesnik za pregled A2I

Za več informacij o integraciji Amazon A2I v kateri koli potek dela ML po meri glejte več kot 60 vnaprej pripravljene delovne predloge na repo GitHub in Uporabite razširjeno umetno inteligenco Amazon z vrstami opravil po meri.

Obdelajte izhod Amazon A2I

Potem ko pregledovalec s prilagojenim uporabniškim vmesnikom Amazon A2I preveri rezultat in izbere Prijave se, Amazon A2I shrani datoteko JSON v mapo vedra S3. Datoteka JSON vključuje naslednje informacije na korenski ravni:

  • ARN definicije toka Amazon A2I in ime človeške zanke
  • Človeški odgovori (recenzentov vnos, zbran s prilagojenim uporabniškim vmesnikom Amazon A2I)
  • Vhodna vsebina (izvirni podatki, poslani Amazon A2I ob zagonu opravila človeške zanke)

Sledi vzorec JSON, ki ga ustvari Amazon A2I:

{
  "flowDefinitionArn": "arn:aws:sagemaker:us-east-1:711334203977:flow-definition/a2i-custom-ui-demo-workflow",
  "humanAnswers": [
    {
      "acceptanceTime": "2022-08-23T15:23:53.488Z",
      "answerContent": {
        "Change Reason 1": "Missing X at the end.",
        "True Value 1": "93493319020929X",
        "True Value 2": "04-3018996"
      },
      "submissionTime": "2022-08-23T15:24:47.991Z",
      "timeSpentInSeconds": 54.503,
      "workerId": "94de99f1bc6324b8",
      "workerMetadata": {
        "identityData": {
          "identityProviderType": "Cognito",
          "issuer": "https://cognito-idp.us-east-1.amazonaws.com/us-east-1_URd6f6sie",
          "sub": "cef8d484-c640-44ea-8369-570cdc132d2d"
        }
      }
    }
  ],
  "humanLoopName": "custom-loop-9b4e67ff-2c9f-40f9-aae5-0e26316c905c",
  "inputContent": {...} # the original input send to A2I when starting the human review task
}

Lahko implementirate logiko ekstrahiranja, preoblikovanja in nalaganja (ETL), da razčlenite informacije iz izhoda Amazon A2I JSON in jih shranite v datoteko ali bazo podatkov. Vzorčna raztopina je priložena Datoteka CSV z obdelanimi podatki. Uporabite ga lahko za izdelavo nadzorne plošče BI, tako da sledite navodilom v naslednjem razdelku.

Ustvarite nadzorno ploščo v Amazon QuickSight

Vzorčna rešitev vključuje stopnjo poročanja z nadzorno ploščo za vizualizacijo, ki jo streže Amazon QuickSight. Nadzorna plošča BI prikazuje ključne meritve, kot je število samodejno ali ročno obdelanih dokumentov, najbolj priljubljena polja, ki so zahtevala človeški pregled, in druge vpoglede. Ta nadzorna plošča vam lahko pomaga pridobiti pregled nad cevovodom za obdelavo dokumentov in analizirati pogoste razloge, ki povzročajo človeški pregled. Potek dela lahko optimizirate tako, da dodatno zmanjšate človeški vložek.

Vzorčna nadzorna plošča vključuje osnovne meritve. Rešitev lahko razširite z uporabo Amazon QuickSight, da prikažete več vpogledov v podatke.Nadzorna plošča BI

Razširite rešitev za podporo več dokumentov in poslovnih pravil

Če želite razširiti rešitev za podporo več strani dokumentov z ustreznimi poslovnimi pravili, morate narediti naslednje spremembe:

  • Ustvarite podatkovni model za novo stran v strukturi JSON, ki predstavlja vse vrednosti, ki jih želite izvleči iz strani. Glejte na Definirajte podatkovni model razdelek za podrobno obliko.
  • Uporabite Amazon Texttract, da izvlečete besedilo iz dokumenta in vnesete vrednosti v podatkovni model.
  • Dodajte poslovna pravila, ki ustrezajo strani v formatu JSON. Glejte na Prilagodite poslovna pravila razdelek za podrobno obliko.

Uporabniški vmesnik Amazon A2I po meri v rešitvi je splošen in ne zahteva spremembe za podporo novim poslovnim pravilom.

zaključek

Po inteligentni obdelavi dokumentov je veliko povpraševanje in podjetja potrebujejo prilagojen cevovod, ki podpira njihovo edinstveno poslovno logiko. Amazon A2I ponuja tudi vgrajeno predlogo, integrirano z Amazon Texttract, za izvajanje primerov uporabe pri človeškem pregledu. Prav tako vam omogoča, da prilagodite stran pregledovalca, da služi prilagodljivim zahtevam.

Ta objava vas je vodila skozi referenčno rešitev z uporabo Amazon Texttract in Amazon A2I za izgradnjo cevovoda IDP, ki podpira prilagodljiva poslovna pravila. Lahko ga preizkusite z uporabo Jupyterjev zvezek v repo delavnici GitHub IDP.


O avtorjih

Prilagodite poslovna pravila za inteligentno obdelavo dokumentov s človeškim pregledom in BI vizualizacijo PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Lana Zhang je višji arhitekt rešitev pri ekipi AWS WWSO AI Services s strokovnim znanjem in izkušnjami na področju umetne inteligence in strojnega upravljanja za inteligentno obdelavo dokumentov in moderiranje vsebine. Navdušena je nad promocijo storitev umetne inteligence AWS in pomaga strankam pri preoblikovanju njihovih poslovnih rešitev.

Prilagodite poslovna pravila za inteligentno obdelavo dokumentov s človeškim pregledom in BI vizualizacijo PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
Sonali Sahu je vodilna skupina arhitektov rešitev AI/ML za inteligentno obdelavo dokumentov pri Amazon Web Services. Je strastna tehnofilka in uživa v delu s strankami pri reševanju kompleksnih problemov z uporabo inovacij. Njeno osrednje področje je umetna inteligenca in strojno učenje za inteligentno obdelavo dokumentov.

Časovni žig:

Več od Strojno učenje AWS