Testreszabhatja az üzleti szabályokat az intelligens dokumentumfeldolgozáshoz emberi ellenőrzéssel és BI-vizualizációval, a PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Testreszabhatja az üzleti szabályokat az intelligens dokumentumfeldolgozáshoz emberi ellenőrzéssel és BI-vizualizációval

Naponta hatalmas mennyiségű üzleti dokumentumot dolgoznak fel az egyes iparágakban. E dokumentumok közül sok papír alapú, képként vagy strukturálatlan formátumban, például PDF-ben szkennelve a rendszerbe. Ezen dokumentumok feldolgozása során minden vállalat egyedi szabályokat alkalmazhat az üzleti hátteréhez kapcsolódóan. Az információk pontos kinyerése és rugalmas feldolgozása kihívást jelent sok vállalat számára.

Az Amazon Intelligent Document Processing (IDP) lehetővé teszi az iparágvezető gépi tanulási (ML) technológia előnyeinek kihasználását korábbi ML-tapasztalat nélkül. Ez a bejegyzés egy olyan megoldást mutat be, amely a Amazon IDP workshop bemutatja, hogyan dolgozzon fel dokumentumokat a rugalmas üzleti szabályok kiszolgálása érdekében az Amazon AI-szolgáltatások segítségével. Használhatja a következő lépésről lépésre Jupyter jegyzetfüzet befejezni a labort.

Amazon szöveg segít könnyen kinyerni szöveget különböző dokumentumokból, és Amazon kiterjesztett AI (Amazon A2I) lehetővé teszi az ML előrejelzések emberi felülvizsgálatának végrehajtását. Az alapértelmezett Amazon A2I sablon lehetővé teszi emberi felülvizsgálati folyamat létrehozását szabályok alapján, például ha a kivonatolási megbízhatósági pontszám alacsonyabb egy előre meghatározott küszöbértéknél, vagy hiányoznak a szükséges kulcsok. Éles környezetben azonban szükség van a dokumentumfeldolgozási folyamatra a rugalmas üzleti szabályok támogatásához, például a karakterlánc-formátum érvényesítéséhez, az adattípus és -tartomány ellenőrzéséhez, valamint a dokumentumokon keresztüli mezők ellenőrzéséhez. Ez a bejegyzés bemutatja, hogyan használhatja az Amazon Textract és az Amazon A2I szolgáltatást a rugalmas üzleti szabályokat támogató általános dokumentumfeldolgozási folyamat testreszabásához.

Megoldás áttekintése

Mintamegoldásunkhoz a 990-es adóűrlap, az Egyesült Államok IRS (Internal Revenue Service) űrlapja, amely pénzügyi információkat nyújt a nyilvánosság számára egy nonprofit szervezetről. Ebben a példában csak az űrlap első oldalán lévő egyes mezők kivonatolási logikájával foglalkozunk. További mintadokumentumokat találhat a IRS webhely.

A következő ábra azt az IDP-folyamatot mutatja be, amely támogatja a személyre szabott üzleti szabályokat emberi ellenőrzéssel.

Az architektúra három logikai szakaszból áll:

  • Kivonat – Adatok kinyerése a 990-es adóűrlapból (példaként az 1. oldalt használjuk).
  • Érvényesítés – Alkalmazzon rugalmas üzleti szabályokat humán áttekintéssel.
    • Érvényesítse a kinyert adatokat az üzleti szabályokkal, például egy azonosítómező hosszának ellenőrzésével.
    • Küldje el a dokumentumot az Amazon A2I-nek, hogy egy ember ellenőrizze, ha valamelyik üzleti szabály meghibásodik.
    • A véleményezők az Amazon A2I felhasználói felületet (egy testreszabható webhelyet) használják a kivonatolás eredményének ellenőrzésére.
  • BI vizualizáció - Mi használjuk Amazon QuickSight üzleti intelligencia (BI) irányítópult felépítéséhez, amely bemutatja a folyamatok betekintését.

Az üzleti szabályok testreszabása

Általános üzleti szabályt a következő JSON-formátumban határozhat meg. A mintakódban három szabályt határozunk meg:

  • Az első szabály a munkáltatói azonosító mezőre vonatkozik. A szabály meghiúsul, ha az Amazon Textract megbízhatósági pontszáma 99%-nál alacsonyabb. Ennél a bejegyzésnél magasra állítottuk a megbízhatósági pontszám küszöbét, amely a tervezéstől fogva megtörik. A küszöböt ésszerűbb értékre állíthatja, hogy valós környezetben csökkentse a szükségtelen emberi erőfeszítést, például 90%-kal.
  • A második szabály a DLN mezőre (az adóűrlap egyedi azonosítójára) vonatkozik, amely a továbbmenő feldolgozási logikához szükséges. Ez a szabály meghiúsul, ha a DLN mező hiányzik vagy üres az értéke.
  • A harmadik szabály szintén a DLN mezőre vonatkozik, de más feltételtípussal: LengthCheck. A szabály megszakad, ha a DLN hossza nem 16 karakter.

A következő kód üzleti szabályainkat mutatja JSON formátumban:

rules = [
    {
        "description": "Employee Id confidence score should greater than 99",
        "field_name": "d.employer_id",
        "field_name_regex": None, # support Regex: "_confidence$",
        "condition_category": "Confidence",
        "condition_type": "ConfidenceThreshold",
        "condition_setting": "99",
    },
    {
        "description": "dln is required",
        "field_name": "dln",
        "condition_category": "Required",
        "condition_type": "Required",
        "condition_setting": None,
    },
    {
        "description": "dln length should be 16",
        "field_name": "dln",
        "condition_category": "LengthCheck",
        "condition_type": "ValueRegex",
        "condition_setting": "^[0-9a-zA-Z]{16}$",
    }
]

Bővítheti a megoldást további üzleti szabályok hozzáadásával, ugyanazt a struktúrát követve.

Szöveg kibontása Amazon Textract lekérdezéssel

A mintamegoldásban az Amazon Textract analysis_document API-t hívjuk kérdés funkció a mezők kibontásához konkrét kérdések feltevésével. Nem kell ismernie a dokumentumban lévő adatok szerkezetét (tábla, űrlap, beleértett mező, beágyazott adatok), és nem kell aggódnia a dokumentumverziók és -formátumok eltérései miatt. A lekérdezések vizuális, térbeli és nyelvi jelzések kombinációját használják a keresett információk nagy pontosságú kinyerésére.

A DLN mező értékének kinyeréséhez kérést küldhet természetes nyelvű kérdésekkel, például „Mi az a DLN?” Az Amazon Textract visszaadja a szöveget, a bizalmat és az egyéb metaadatokat, ha megfelelő információt talál a képen vagy dokumentumon. A következő példa egy Amazon Textract lekérdezési kérésre:

textract.analyze_document(
        Document={'S3Object': {'Bucket': data_bucket, 'Name': s3_key}},
        FeatureTypes=["QUERIES"],
        QueriesConfig={
                'Queries': [
                    {
                        'Text': 'What is the DLN?',
                       'Alias': 'The DLN number - unique identifier of the form'
                    }
               ]
        }
)

Határozza meg az adatmodellt

A mintamegoldás strukturált formátumban állítja össze az adatokat az általános üzleti szabályok kiértékeléséhez. A kivont értékek megtartásához minden dokumentumoldalhoz megadhat egy adatmodellt. A következő képen látható, hogy az 1. oldalon lévő szöveg hogyan illeszkedik a JSON-mezőkre.Egyedi adatmodell

Minden mező egy dokumentum szövegét, jelölőnégyzetét vagy táblázat/űrlap celláját képviseli az oldalon. A JSON-objektum a következő kódhoz hasonlóan néz ki:

{
    "dln": {
        "value": "93493319020929",
        "confidence": 0.9765, 
        "block": {} 
    },
    "omb_no": {
        "value": "1545-0047",
        "confidence": 0.9435,
        "block": {}
    },
    ...
}

A részletes JSON-struktúra definíciót a GitHub repo.

Értékelje az adatokat az üzleti szabályok alapján

A mintamegoldáshoz tartozik egy Feltétel osztály – egy általános szabálymotor, amely veszi a kinyert adatokat (az adatmodellben meghatározottak szerint) és a szabályokat (amint azt a testreszabott üzleti szabályok határozzák meg). Két listát ad vissza sikertelen és teljesített feltételekkel. Az eredmény alapján eldönthetjük, hogy elküldjük-e a dokumentumot az Amazon A2I-nek emberi ellenőrzésre.

A Condition osztály forráskódja a mintában található GitHub repo. Támogatja az alapvető érvényesítési logikát, például a karakterlánc hosszának, értéktartományának és a megbízhatósági pontszám küszöbének érvényesítését. Módosíthatja a kódot, hogy több feltételtípust és összetett érvényesítési logikát támogasson.

Hozzon létre egy személyre szabott Amazon A2I webes felhasználói felületet

Az Amazon A2I lehetővé teszi a véleményező webes felhasználói felületének testreszabását az a munkás feladatsablon. A sablon egy statikus weboldal HTML és JavaScript nyelven. Adatokat továbbíthat a testreszabott értékelő oldalnak a segítségével Folyadék szintaxis.

A mintaoldatban a egyéni Amazon A2I felhasználói felület sablon a bal oldalon az oldalt, a jobb oldalon pedig a meghibásodási feltételeket jeleníti meg. A véleményezők használhatják a kinyerési érték javítására és megjegyzéseik hozzáadására.

A következő képernyőképen testreszabott Amazon A2I felhasználói felületünk látható. A bal oldalon az eredeti képdokumentum, a jobb oldalon pedig a következő sikertelen feltételek láthatók:

  • A DLN-számoknak 16 karakter hosszúnak kell lenniük. A tényleges DLN 15 karakterből áll.
  • A munkáltatói_id bizalmi pontszáma alacsonyabb, mint 99%. A tényleges megbízhatósági pontszám 98% körül van.

A véleményezők manuálisan ellenőrizhetik ezeket az eredményeket, és megjegyzéseket fűzhetnek hozzá OK MÓDOSÍTÁSA szövegdobozok.Testreszabott A2I áttekintési felület

Az Amazon A2I bármely egyéni ML munkafolyamatba történő integrálásával kapcsolatos további információkért tekintse meg a 60 feletti cikket előre elkészített dolgozósablonok a GitHub repón és Használja az Amazon kiterjesztett AI-t egyéni feladattípusokkal.

Az Amazon A2I kimenet feldolgozása

Miután az Amazon A2I testreszabott felhasználói felületet használó értékelő ellenőrzi az eredményt, és választ Küld, az Amazon A2I egy JSON-fájlt tárol az S3 vödör mappájában. A JSON-fájl a következő információkat tartalmazza a gyökérszinten:

  • Az Amazon A2I áramlásdefiníciója ARN és az emberi hurok neve
  • Emberi válaszok (a véleményező által a személyre szabott Amazon A2I UI által gyűjtött bemenet)
  • Beviteli tartalom (az emberi hurokfeladat indításakor az Amazon A2I-nek küldött eredeti adatok)

Az alábbiakban az Amazon A2I által generált JSON-minta látható:

{
  "flowDefinitionArn": "arn:aws:sagemaker:us-east-1:711334203977:flow-definition/a2i-custom-ui-demo-workflow",
  "humanAnswers": [
    {
      "acceptanceTime": "2022-08-23T15:23:53.488Z",
      "answerContent": {
        "Change Reason 1": "Missing X at the end.",
        "True Value 1": "93493319020929X",
        "True Value 2": "04-3018996"
      },
      "submissionTime": "2022-08-23T15:24:47.991Z",
      "timeSpentInSeconds": 54.503,
      "workerId": "94de99f1bc6324b8",
      "workerMetadata": {
        "identityData": {
          "identityProviderType": "Cognito",
          "issuer": "https://cognito-idp.us-east-1.amazonaws.com/us-east-1_URd6f6sie",
          "sub": "cef8d484-c640-44ea-8369-570cdc132d2d"
        }
      }
    }
  ],
  "humanLoopName": "custom-loop-9b4e67ff-2c9f-40f9-aae5-0e26316c905c",
  "inputContent": {...} # the original input send to A2I when starting the human review task
}

Kivonat, átalakítás és betöltés (ETL) logikát implementálhat az Amazon A2I kimeneti JSON-ból származó információk elemzéséhez, és fájlban vagy adatbázisban tárolásához. A mintaoldathoz a CSV fájl feldolgozott adatokkal. Használhatja BI irányítópult létrehozásához a következő részben található utasításokat követve.

Hozzon létre egy irányítópultot az Amazon QuickSightban

A mintamegoldás tartalmaz egy jelentéskészítési szakaszt egy vizualizációs irányítópulttal, amelyet az Amazon QuickSight szolgál ki. A BI irányítópult olyan kulcsfontosságú mutatókat jelenít meg, mint például az automatikusan vagy manuálisan feldolgozott dokumentumok száma, a legnépszerűbb mezők, amelyek emberi ellenőrzést igényeltek, és egyéb információk. Ez az irányítópult segítségével áttekintheti a dokumentumfeldolgozási folyamatot, és elemezheti az emberi felülvizsgálatot okozó gyakori okokat. Az emberi ráfordítás további csökkentésével optimalizálhatja a munkafolyamatot.

A minta-irányítópult alapvető mutatókat tartalmaz. Kibővítheti a megoldást az Amazon QuickSight segítségével, hogy több betekintést nyújtson az adatokba.BI műszerfal

Bővítse ki a megoldást több dokumentum és üzleti szabály támogatására

Ha ki szeretné bővíteni a megoldást több dokumentumoldal támogatására a megfelelő üzleti szabályokkal, a következő módosításokat kell végrehajtania:

  • Hozzon létre egy adatmodellt az új oldalhoz a JSON-struktúrában, amely az oldalakból kivonni kívánt összes értéket képviseli. Utal Határozza meg az adatmodellt részben a részletes formátumért.
  • Az Amazon Textract segítségével kinyerheti a szöveget a dokumentumból, és feltöltheti az értékeket az adatmodellbe.
  • Adja hozzá az oldalnak megfelelő üzleti szabályokat JSON formátumban. Utal Az üzleti szabályok testreszabása részben a részletes formátumért.

A megoldásban található egyedi Amazon A2I felhasználói felület általános, amely nem igényel változtatást az új üzleti szabályok támogatásához.

Következtetés

Az intelligens dokumentumfeldolgozásra nagy az igény, és a vállalatoknak testreszabott folyamatra van szükségük egyedi üzleti logikájuk támogatásához. Az Amazon A2I egy beépített sablont is kínál, amely integrálva van az Amazon Textracttal, hogy megvalósítsa az emberi felülvizsgálati eseteket. Lehetővé teszi továbbá az értékelő oldal testreszabását a rugalmas követelmények kielégítésére.

Ez a bejegyzés végigvezette Önt egy referenciamegoldáson az Amazon Textract és az Amazon A2I segítségével, amellyel rugalmas üzleti szabályokat támogató IDP-folyamatokat hozhat létre. Kipróbálhatja a segítségével Jupyter jegyzetfüzet a GitHub IDP műhelyrepóban.


A szerzőkről

Testreszabhatja az üzleti szabályokat az intelligens dokumentumfeldolgozáshoz emberi ellenőrzéssel és BI-vizualizációval, a PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Lana Zhang az AWS WWSO AI Services csapatának Sr. Solutions Architect, aki az AI és az ML területén jártas az intelligens dokumentumfeldolgozás és tartalommoderálás terén. Szenvedélyesen támogatja az AWS AI-szolgáltatásokat, és segít ügyfeleinek üzleti megoldásaik átalakításában.

Testreszabhatja az üzleti szabályokat az intelligens dokumentumfeldolgozáshoz emberi ellenőrzéssel és BI-vizualizációval, a PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Sonali Sahu az Amazon Web Services Intelligens Dokumentumfeldolgozó AI/ML Solutions Architect csapatának vezetője. Szenvedélyes technofil, és szívesen dolgozik az ügyfelekkel, hogy komplex problémákat oldjon meg az innováció segítségével. Fő tevékenységi köre a mesterséges intelligencia és a gépi tanulás az intelligens dokumentumfeldolgozáshoz.

Időbélyeg:

Még több AWS gépi tanulás