Mukauta liiketoimintasääntöjä älykkään asiakirjojen käsittelyyn ihmisen tarkastelun ja BI-visualisoinnin avulla PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Mukauta liiketoimintasääntöjä älykkään asiakirjojen käsittelyyn ihmisen tarkastelun ja BI-visualisoinnin avulla

Valtava määrä yritysasiakirjoja käsitellään päivittäin eri toimialoilla. Monet näistä asiakirjoista ovat paperipohjaisia, skannatut järjestelmääsi kuvina tai jäsentelemättömässä muodossa, kuten PDF. Jokainen yritys voi soveltaa yksilöllisiä liiketoimintataustaansa liittyviä sääntöjä käsitellessään näitä asiakirjoja. Tietojen tarkka poimiminen ja joustava käsittely on monien yritysten haaste.

Amazon Intelligent Document Processing (IDP) antaa sinun hyödyntää alan johtavaa koneoppimisteknologiaa (ML) ilman aikaisempaa ML-kokemusta. Tämä viesti esittelee ratkaisun, joka sisältyy Amazon IDP-työpaja esittelee kuinka käsitellä asiakirjoja joustavien liiketoimintasääntöjen noudattamiseksi Amazon AI -palveluiden avulla. Voit käyttää seuraavaa vaihe vaiheelta Jupyter-muistikirja laboratorion suorittamiseen.

Amazonin teksti avulla voit helposti poimia tekstiä eri asiakirjoista ja Amazonin laajennettu AI (Amazon A2I) mahdollistaa ihmisen tarkastelun ML-ennusteista. Amazon A2I -oletusmallin avulla voit rakentaa ihmisen tarkistusputken sääntöjen perusteella, esimerkiksi silloin, kun poiminnan luottamuspiste on ennalta määritettyä kynnysarvoa pienempi tai vaaditut avaimet puuttuvat. Mutta tuotantoympäristössä tarvitset dokumenttien käsittelyprosessin tukemaan joustavia liiketoimintasääntöjä, kuten merkkijonomuodon validointia, tietotyypin ja -alueen tarkistamista sekä asiakirjojen kenttien vahvistamista. Tämä viesti näyttää, kuinka voit käyttää Amazon Textractia ja Amazon A2I:tä mukauttaaksesi yleistä asiakirjankäsittelyprosessia, joka tukee joustavia liiketoimintasääntöjä.

Ratkaisun yleiskatsaus

Esimerkkiratkaisussamme käytämme Verolomake 990, US IRS (Internal Revenue Service) -lomake, joka tarjoaa yleisölle taloudellisia tietoja voittoa tavoittelemattomasta organisaatiosta. Tässä esimerkissä katamme vain joidenkin lomakkeen ensimmäisen sivun kenttien poimintalogiikan. Löydät lisää esimerkkiasiakirjoja osoitteessa IRS-verkkosivusto.

Seuraava kaavio havainnollistaa IDP-putkilinjaa, joka tukee mukautettuja liiketoimintasääntöjä ihmisen tarkastelemalla.

Arkkitehtuuri koostuu kolmesta loogisesta vaiheesta:

  • Poisto – Poimi tiedot 990-verolomakkeesta (käytämme sivua 1 esimerkkinä).
  • Validation – Käytä joustavia liiketoimintasääntöjä in-the-loop-katsauksen avulla.
    • Vahvista poimitut tiedot liiketoimintasääntöihin, kuten ID-kentän pituuden tarkistamiseen.
    • Lähetä asiakirja Amazon A2I:lle ihmisen tarkastettavaksi, jos liiketoimintasäännöt epäonnistuvat.
    • Arvostelijat käyttävät Amazon A2I -käyttöliittymää (muokattava verkkosivusto) poimintatuloksen tarkistamiseen.
  • BI-visualisointi - Käytämme Amazon QuickSight rakentaa liiketoimintatiedon (BI) hallintapaneeli, joka näyttää prosessitietoja.

Mukauta liiketoimintasääntöjä

Voit määrittää yleisen liiketoimintasäännön seuraavassa JSON-muodossa. Esimerkkikoodissa määritämme kolme sääntöä:

  • Ensimmäinen sääntö koskee työnantajan tunnus -kenttää. Sääntö epäonnistuu, jos Amazon Textract -luottamuspiste on alle 99%. Asetamme tälle viestille korkean luottamuspisteen kynnyksen, joka rikkoo suunnittelun mukaan. Voit säätää kynnystä järkevämpään arvoon vähentääksesi tarpeetonta ihmisen työtä todellisessa ympäristössä, esimerkiksi 90 %.
  • Toinen sääntö koskee DLN-kenttää (verolomakkeen yksilöllinen tunniste), jota tarvitaan jatkokäsittelylogiikassa. Tämä sääntö epäonnistuu, jos DLN-kenttä puuttuu tai sen arvo on tyhjä.
  • Kolmas sääntö koskee myös DLN-kenttää, mutta sillä on eri ehtotyyppi: LengthCheck. Sääntö rikkoutuu, jos DLN:n pituus ei ole 16 merkkiä.

Seuraava koodi näyttää liiketoimintasääntömme JSON-muodossa:

rules = [
    {
        "description": "Employee Id confidence score should greater than 99",
        "field_name": "d.employer_id",
        "field_name_regex": None, # support Regex: "_confidence$",
        "condition_category": "Confidence",
        "condition_type": "ConfidenceThreshold",
        "condition_setting": "99",
    },
    {
        "description": "dln is required",
        "field_name": "dln",
        "condition_category": "Required",
        "condition_type": "Required",
        "condition_setting": None,
    },
    {
        "description": "dln length should be 16",
        "field_name": "dln",
        "condition_category": "LengthCheck",
        "condition_type": "ValueRegex",
        "condition_setting": "^[0-9a-zA-Z]{16}$",
    }
]

Voit laajentaa ratkaisua lisäämällä liiketoimintasääntöjä saman rakenteen mukaisesti.

Pura tekstiä Amazon Textract -kyselyllä

Esimerkkiratkaisussa kutsumme Amazon Textract analysis_document API:ksi kysymys ominaisuus, jolla voit poimia kenttiä esittämällä erityisiä kysymyksiä. Sinun ei tarvitse tietää asiakirjan tietojen rakennetta (taulukko, lomake, oletettu kenttä, sisäkkäiset tiedot) tai huolehtia asiakirjaversioiden ja -muotojen vaihteluista. Kyselyt käyttävät visuaalisten, tilallisten ja kielen vihjeiden yhdistelmää hakemasi tiedon poimimiseksi suurella tarkkuudella.

Voit poimia DLN-kentän arvon lähettämällä pyynnön, jossa on kysymyksiä luonnollisilla kielillä, kuten "Mikä on DLN?" Amazon Textract palauttaa tekstin, luotettavuuden ja muut metatiedot, jos se löytää vastaavaa tietoa kuvasta tai asiakirjasta. Seuraavassa on esimerkki Amazon Textract -kyselypyynnöstä:

textract.analyze_document(
        Document={'S3Object': {'Bucket': data_bucket, 'Name': s3_key}},
        FeatureTypes=["QUERIES"],
        QueriesConfig={
                'Queries': [
                    {
                        'Text': 'What is the DLN?',
                       'Alias': 'The DLN number - unique identifier of the form'
                    }
               ]
        }
)

Määritä tietomalli

Esimerkkiratkaisu rakentaa tiedot jäsenneltyyn muotoon yleisen liiketoimintasäännön arvioimiseksi. Voit säilyttää poimitut arvot määrittämällä tietomallin jokaiselle asiakirjasivulle. Seuraava kuva näyttää, kuinka sivun 1 teksti liittyy JSON-kenttiin.Mukautettu tietomalli

Jokainen kenttä edustaa asiakirjan tekstiä, valintaruutua tai taulukon/lomakkeen solua sivulla. JSON-objekti näyttää seuraavalta koodilta:

{
    "dln": {
        "value": "93493319020929",
        "confidence": 0.9765, 
        "block": {} 
    },
    "omb_no": {
        "value": "1545-0047",
        "confidence": 0.9435,
        "block": {}
    },
    ...
}

Löydät yksityiskohtaisen JSON-rakenteen määritelmän kohdasta GitHub repo.

Arvioi tiedot liiketoiminnan sääntöjen mukaan

Esimerkkiratkaisussa on ehtoluokka – yleinen sääntömoottori, joka ottaa poimitut tiedot (tietomallissa määritellyt) ja säännöt (muokatuissa liiketoimintasäännöissä määritellyt). Se palauttaa kaksi luetteloa epäonnistuneilla ja täyttyneillä ehdoilla. Voimme käyttää tulosta päättääksemme, pitäisikö meidän lähettää asiakirja Amazon A2I:lle ihmisen tarkastettavaksi.

Kuntoluokan lähdekoodi on näytteessä GitHub repo. Se tukee perusvalidointilogiikkaa, kuten merkkijonon pituuden, arvoalueen ja luottamuspistekynnyksen vahvistamista. Voit muokata koodia tukemaan useampia ehtotyyppejä ja monimutkaista validointilogiikkaa.

Luo mukautettu Amazon A2I -verkkokäyttöliittymä

Amazon A2I:n avulla voit mukauttaa arvioijan verkkokäyttöliittymää määrittämällä a työntekijän tehtävämalli. Malli on staattinen verkkosivu HTML- ja JavaScript-kielellä. Voit välittää tietoja mukautetulle arvioijasivulle käyttämällä Neste syntaksi.

Näyteratkaisussa mukautettu Amazon A2I -käyttöliittymämalli näyttää sivun vasemmalla ja vikaolosuhteet oikealla. Arvioijat voivat käyttää sitä korjatakseen poiminta-arvon ja lisätäkseen kommenttejaan.

Seuraava kuvakaappaus näyttää mukautetun Amazon A2I -käyttöliittymämme. Se näyttää alkuperäisen kuvadokumentin vasemmalla ja seuraavat epäonnistuneet ehdot oikealla:

  • DLN-numeroiden tulee olla 16 merkkiä pitkiä. Varsinaisessa DLN:ssä on 15 merkkiä.
  • Työnantajan_id:n luottamuspiste on alle 99 %. Todellinen luottamuspiste on noin 98 %.

Arvioijat voivat tarkistaa nämä tulokset manuaalisesti ja lisätä kommentteja MUUTA SYY tekstilaatikoita.Mukautettu A2I-arvostelukäyttöliittymä

Lisätietoja Amazon A2I:n integroimisesta mihin tahansa mukautettuun ML-työnkulkuun on artikkelissa yli 60 valmiiksi rakennetut työntekijämallit GitHub-repo- ja Käytä Amazon Augmented AI -sovellusta mukautettujen tehtävätyyppien kanssa.

Käsittele Amazon A2I -tulostus

Kun Amazon A2I:n mukautettua käyttöliittymää käyttävä arvioija tarkistaa tuloksen ja valitsee Lähetä, Amazon A2I tallentaa JSON-tiedoston S3-ämpärikansioon. JSON-tiedosto sisältää seuraavat tiedot juuritasolla:

  • Amazon A2I -virran määritelmä ARN ja ihmissilmukan nimi
  • Ihmisten vastaukset (arvostelijan syöttö, jonka on kerännyt mukautettu Amazon A2I -käyttöliittymä)
  • Syötä sisältö (alkuperäinen data, joka lähetettiin Amazon A2I:lle ihmissilmukkatehtävän alkaessa)

Seuraava on Amazon A2I:n luoma JSON-esimerkki:

{
  "flowDefinitionArn": "arn:aws:sagemaker:us-east-1:711334203977:flow-definition/a2i-custom-ui-demo-workflow",
  "humanAnswers": [
    {
      "acceptanceTime": "2022-08-23T15:23:53.488Z",
      "answerContent": {
        "Change Reason 1": "Missing X at the end.",
        "True Value 1": "93493319020929X",
        "True Value 2": "04-3018996"
      },
      "submissionTime": "2022-08-23T15:24:47.991Z",
      "timeSpentInSeconds": 54.503,
      "workerId": "94de99f1bc6324b8",
      "workerMetadata": {
        "identityData": {
          "identityProviderType": "Cognito",
          "issuer": "https://cognito-idp.us-east-1.amazonaws.com/us-east-1_URd6f6sie",
          "sub": "cef8d484-c640-44ea-8369-570cdc132d2d"
        }
      }
    }
  ],
  "humanLoopName": "custom-loop-9b4e67ff-2c9f-40f9-aae5-0e26316c905c",
  "inputContent": {...} # the original input send to A2I when starting the human review task
}

Voit ottaa käyttöön purkaus-, muunnos- ja latauslogiikan (ETL) jäsentääksesi tietoja Amazon A2I -ulostulon JSONista ja tallentaaksesi ne tiedostoon tai tietokantaan. Näyteliuoksen mukana tulee a CSV-tiedosto käsitellyillä tiedoilla. Voit käyttää sitä BI-hallintapaneelin rakentamiseen seuraamalla seuraavan osan ohjeita.

Luo kojelauta Amazon QuickSightissa

Esimerkkiratkaisu sisältää raportointivaiheen visualisoinnin kojelaudalla, jota palvelee Amazon QuickSight. BI-hallintapaneeli näyttää tärkeimmät tiedot, kuten automaattisesti tai manuaalisesti käsiteltyjen asiakirjojen lukumäärän, suosituimmat kentät, jotka vaativat ihmisen tarkastelua, ja muita oivalluksia. Tämä kojelauta voi auttaa sinua saamaan yleiskuvan asiakirjojen käsittelyprosessista ja analysoimaan yleisiä syitä, jotka aiheuttavat ihmisen tarkastelun. Voit optimoida työnkulkua vähentämällä entisestään ihmisen panosta.

Esimerkkimittaristo sisältää perustiedot. Voit laajentaa ratkaisua Amazon QuickSightin avulla näyttääksesi enemmän tietoa tiedoista.BI -kojelauta

Laajenna ratkaisua tukemaan enemmän asiakirjoja ja liiketoimintasääntöjä

Jos haluat laajentaa ratkaisua tukemaan useampia asiakirjasivuja vastaavilla liiketoimintasäännöillä, sinun on tehtävä seuraavat muutokset:

  • Luo uudelle sivulle JSON-rakenteessa tietomalli, joka edustaa kaikkia arvoja, jotka haluat poimia sivuilta. Viittaavat Määritä tietomalli osiosta yksityiskohtaista muotoa varten.
  • Käytä Amazon Textractia tekstin poimimiseen asiakirjasta ja täytä arvot tietomalliin.
  • Lisää sivua vastaavat liiketoimintasäännöt JSON-muodossa. Viittaavat Mukauta liiketoimintasääntöjä osiosta yksityiskohtaista muotoa varten.

Ratkaisun mukautettu Amazon A2I -käyttöliittymä on yleinen, mikä ei vaadi muutosta tukemaan uusia liiketoimintasääntöjä.

Yhteenveto

Älykkäällä asiakirjojen käsittelyllä on suuri kysyntä, ja yritykset tarvitsevat räätälöidyn putkiston tukemaan ainutlaatuista liiketoimintalogiikkaansa. Amazon A2I tarjoaa myös sisäänrakennetun mallin, joka on integroitu Amazon Textractiin, jotta voit toteuttaa ihmisen tarkastelun käyttötapaukset. Sen avulla voit myös mukauttaa arvioijasivua vastaamaan joustavia vaatimuksia.

Tämä viesti opasti sinut viiteratkaisun läpi käyttämällä Amazon Textractia ja Amazon A2I:tä luodaksesi IDP-putkilinjan, joka tukee joustavia liiketoimintasääntöjä. Voit kokeilla sitä käyttämällä Jupyter-muistikirja GitHub IDP -työpajan repossa.


Tietoja kirjoittajista

Mukauta liiketoimintasääntöjä älykkään asiakirjojen käsittelyyn ihmisen tarkastelun ja BI-visualisoinnin avulla PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Lana Zhang on vanhempi ratkaisuarkkitehti AWS WWSO AI Services -tiimissä, jolla on asiantuntemusta tekoälystä ja ML:stä älykkääseen asiakirjojen käsittelyyn ja sisällön moderointiin. Hän on intohimoinen AWS AI -palveluiden mainostamisesta ja asiakkaiden auttamisesta muuttamaan liiketoimintaratkaisujaan.

Mukauta liiketoimintasääntöjä älykkään asiakirjojen käsittelyyn ihmisen tarkastelun ja BI-visualisoinnin avulla PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
Sonali Sahu on johtava älykkään asiakirjankäsittelyn AI/ML Solutions Architect -tiimi Amazon Web Services -palvelussa. Hän on intohimoinen teknofiili ja nauttii työskentelystä asiakkaiden kanssa monimutkaisten ongelmien ratkaisemiseksi innovaatioiden avulla. Hänen painopistealueensa ovat tekoäly ja älykkään asiakirjojen käsittelyn koneoppiminen.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen