Passen Sie Geschäftsregeln für eine intelligente Dokumentenverarbeitung mit menschlicher Überprüfung und BI-Visualisierung PlatoBlockchain Data Intelligence an. Vertikale Suche. Ai.

Passen Sie Geschäftsregeln für eine intelligente Dokumentenverarbeitung mit menschlicher Überprüfung und BI-Visualisierung an

Branchenübergreifend werden täglich riesige Mengen an Geschäftsdokumenten verarbeitet. Viele dieser Dokumente sind papierbasiert, werden als Bilder in Ihr System eingescannt oder liegen in einem unstrukturierten Format wie PDF vor. Jedes Unternehmen kann bei der Verarbeitung dieser Dokumente einzigartige Regeln anwenden, die mit seinem geschäftlichen Hintergrund verbunden sind. Informationen präzise zu extrahieren und flexibel zu verarbeiten, ist eine Herausforderung für viele Unternehmen.

Mit Amazon Intelligent Document Processing (IDP) können Sie die branchenführende Technologie des maschinellen Lernens (ML) ohne vorherige ML-Erfahrung nutzen. Dieser Beitrag stellt eine Lösung vor, die in der enthalten ist Amazon IDP-Workshop zeigt, wie Dokumente verarbeitet werden, um flexible Geschäftsregeln mit Amazon AI-Diensten zu erfüllen. Sie können die folgende Schritt-für-Schritt-Anleitung verwenden Jupyter Notizbuch um das Labor abzuschließen.

Amazontext hilft Ihnen, Text aus verschiedenen Dokumenten einfach zu extrahieren, und Amazon Augmented AI (Amazon A2I) ermöglicht es Ihnen, eine menschliche Überprüfung von ML-Vorhersagen zu implementieren. Mit der standardmäßigen Amazon A2I-Vorlage können Sie eine Pipeline für die menschliche Überprüfung basierend auf Regeln erstellen, z. B. wenn der Extraktionskonfidenzwert niedriger als ein vordefinierter Schwellenwert ist oder erforderliche Schlüssel fehlen. In einer Produktionsumgebung benötigen Sie jedoch die Dokumentverarbeitungspipeline, um flexible Geschäftsregeln zu unterstützen, z. B. die Überprüfung des Zeichenfolgenformats, die Überprüfung des Datentyps und -bereichs sowie die dokumentenübergreifende Überprüfung von Feldern. Dieser Beitrag zeigt, wie Sie mit Amazon Textract und Amazon A2I eine generische Dokumentenverarbeitungspipeline anpassen können, die flexible Geschäftsregeln unterstützt.

Lösungsüberblick

Für unsere Beispiellösung verwenden wir die Steuerformular 990, ein US-amerikanisches IRS-Formular (Internal Revenue Service), das der Öffentlichkeit Finanzinformationen über eine gemeinnützige Organisation zur Verfügung stellt. In diesem Beispiel behandeln wir nur die Extraktionslogik für einige der Felder auf der ersten Seite des Formulars. Weitere Musterdokumente finden Sie auf der IRS-Website.

Das folgende Diagramm veranschaulicht die IDP-Pipeline, die benutzerdefinierte Geschäftsregeln mit menschlicher Überprüfung unterstützt.

Die Architektur besteht aus drei logischen Stufen:

  • Extrahierung – Extrahieren Sie Daten aus dem Steuerformular 990 (wir verwenden Seite 1 als Beispiel).
    • Rufen Sie ein Beispielbild ab, das in einer gespeichert ist Amazon Simple Storage-Service (Amazon S3) Eimer.
    • Rufen Sie die Amazon Textract analyze_document API mit der Abfragen Funktion zum Extrahieren von Text aus der Seite.
  • Validierung – Wenden Sie flexible Geschäftsregeln mit einer Human-in-the-Loop-Überprüfung an.
    • Validieren Sie die extrahierten Daten anhand von Geschäftsregeln, wie z. B. die Validierung der Länge eines ID-Felds.
    • Senden Sie das Dokument an Amazon A2I, damit ein Mitarbeiter es überprüfen kann, wenn Geschäftsregeln fehlschlagen.
    • Prüfer verwenden die Amazon A2I-Benutzeroberfläche (eine anpassbare Website), um das Extraktionsergebnis zu überprüfen.
  • BI-Visualisierung - Wir gebrauchen Amazon QuickSight um ein Business Intelligence (BI)-Dashboard zu erstellen, das die Prozesseinblicke zeigt.

Passen Sie Geschäftsregeln an

Sie können eine generische Geschäftsregel im folgenden JSON-Format definieren. Im Beispielcode definieren wir drei Regeln:

  • Die erste Regel gilt für das Arbeitgeber-ID-Feld. Die Regel schlägt fehl, wenn der Konfidenzwert von Amazon Textract unter 99 % liegt. Für diesen Beitrag haben wir den Konfidenzwert-Schwellenwert hoch festgelegt, der absichtlich gebrochen wird. Sie können den Schwellenwert auf einen vernünftigeren Wert einstellen, um unnötigen menschlichen Aufwand in einer realen Umgebung zu reduzieren, z. B. 90 %.
  • Die zweite Regel gilt für das DLN-Feld (die eindeutige Kennung des Steuerformulars), das für die nachgelagerte Verarbeitungslogik erforderlich ist. Diese Regel schlägt fehl, wenn das DLN-Feld fehlt oder einen leeren Wert hat.
  • Die dritte Regel gilt ebenfalls für das DLN-Feld, jedoch mit einem anderen Bedingungstyp: LengthCheck. Die Regel bricht, wenn die DLN-Länge nicht 16 Zeichen beträgt.

Der folgende Code zeigt unsere Geschäftsregeln im JSON-Format:

rules = [
    {
        "description": "Employee Id confidence score should greater than 99",
        "field_name": "d.employer_id",
        "field_name_regex": None, # support Regex: "_confidence$",
        "condition_category": "Confidence",
        "condition_type": "ConfidenceThreshold",
        "condition_setting": "99",
    },
    {
        "description": "dln is required",
        "field_name": "dln",
        "condition_category": "Required",
        "condition_type": "Required",
        "condition_setting": None,
    },
    {
        "description": "dln length should be 16",
        "field_name": "dln",
        "condition_category": "LengthCheck",
        "condition_type": "ValueRegex",
        "condition_setting": "^[0-9a-zA-Z]{16}$",
    }
]

Sie können die Lösung erweitern, indem Sie weitere Geschäftsregeln hinzufügen, die der gleichen Struktur folgen.

Extrahieren Sie Text mit einer Amazon Textract-Abfrage

In der Beispiellösung rufen wir die Amazon Textract analyze_document API auf query Funktion zum Extrahieren von Feldern durch Stellen spezifischer Fragen. Sie müssen die Struktur der Daten im Dokument (Tabelle, Formular, implizites Feld, verschachtelte Daten) nicht kennen oder sich über Variationen zwischen Dokumentversionen und -formaten Gedanken machen. Abfragen verwenden eine Kombination aus visuellen, räumlichen und sprachlichen Hinweisen, um die gesuchten Informationen mit hoher Genauigkeit zu extrahieren.

Um den Wert für das DLN-Feld zu extrahieren, können Sie eine Anfrage mit Fragen in natürlichen Sprachen senden, z. B. „Was ist die DLN?“ Amazon Textract gibt den Text, das Vertrauen und andere Metadaten zurück, wenn es entsprechende Informationen zum Bild oder Dokument findet. Das Folgende ist ein Beispiel für eine Amazon Textract-Abfrageanforderung:

textract.analyze_document(
        Document={'S3Object': {'Bucket': data_bucket, 'Name': s3_key}},
        FeatureTypes=["QUERIES"],
        QueriesConfig={
                'Queries': [
                    {
                        'Text': 'What is the DLN?',
                       'Alias': 'The DLN number - unique identifier of the form'
                    }
               ]
        }
)

Definieren Sie das Datenmodell

Die Beispiellösung erstellt die Daten in einem strukturierten Format, um der generischen Geschäftsregelauswertung zu dienen. Um extrahierte Werte beizubehalten, können Sie für jede Dokumentseite ein Datenmodell definieren. Das folgende Bild zeigt, wie der Text auf Seite 1 den JSON-Feldern zugeordnet wird.Benutzerdefiniertes Datenmodell

Jedes Feld repräsentiert den Text eines Dokuments, ein Kontrollkästchen oder eine Tabellen-/Formularzelle auf der Seite. Das JSON-Objekt sieht wie der folgende Code aus:

{
    "dln": {
        "value": "93493319020929",
        "confidence": 0.9765, 
        "block": {} 
    },
    "omb_no": {
        "value": "1545-0047",
        "confidence": 0.9435,
        "block": {}
    },
    ...
}

Die detaillierte Definition der JSON-Struktur finden Sie in der GitHub Repo.

Werten Sie die Daten anhand von Geschäftsregeln aus

Die Beispiellösung enthält eine Condition-Klasse – eine generische Regel-Engine, die die extrahierten Daten (wie im Datenmodell definiert) und die Regeln (wie in den benutzerdefinierten Geschäftsregeln definiert) übernimmt. Es gibt zwei Listen mit fehlgeschlagenen und erfüllten Bedingungen zurück. Wir können das Ergebnis verwenden, um zu entscheiden, ob wir das Dokument zur menschlichen Überprüfung an Amazon A2I senden sollen.

Der Quellcode der Condition-Klasse befindet sich im Beispiel GitHub Repo. Es unterstützt grundlegende Validierungslogik, z. B. die Validierung der Länge, des Wertebereichs und des Konfidenzwert-Schwellenwerts einer Zeichenfolge. Sie können den Code ändern, um mehr Bedingungstypen und komplexe Validierungslogik zu unterstützen.

Erstellen Sie eine benutzerdefinierte Amazon A2I-Web-Benutzeroberfläche

Mit Amazon A2I können Sie die Web-Benutzeroberfläche des Prüfers anpassen, indem Sie eine Vorlage für Arbeitsaufgaben. Die Vorlage ist eine statische Webseite in HTML und JavaScript. Sie können Daten mithilfe von an die angepasste Reviewer-Seite übergeben Flüssigkeit Syntax.

In der Probenlösung ist die benutzerdefinierte Amazon A2I-UI-Vorlage zeigt die Seite links und die Fehlerbedingungen rechts an. Prüfer können damit den Extraktionswert korrigieren und ihre Kommentare hinzufügen.

Der folgende Screenshot zeigt unsere angepasste Amazon A2I-Benutzeroberfläche. Es zeigt das ursprüngliche Bilddokument auf der linken Seite und die folgenden fehlgeschlagenen Bedingungen auf der rechten Seite:

  • Die DLN-Nummern sollten 16 Zeichen lang sein. Die eigentliche DLN hat 15 Zeichen.
  • Der Konfidenzwert von arbeitgeber_id liegt unter 99 %. Der tatsächliche Vertrauenswert liegt bei etwa 98 %.

Die Prüfer können diese Ergebnisse manuell überprüfen und Kommentare hinzufügen ÄNDERUNGSGRUND Textfeld ein.Angepasste Benutzeroberfläche für A2I-Überprüfungen

Weitere Informationen zur Integration von Amazon A2I in einen benutzerdefinierten ML-Workflow finden Sie unter over 60 vorgefertigte Worker-Vorlagen im GitHub-Repository und Verwenden Sie Amazon Augmented AI mit benutzerdefinierten Aufgabentypen.

Verarbeiten Sie die Amazon A2I-Ausgabe

Nachdem der Prüfer mithilfe der angepassten Amazon A2I-Benutzeroberfläche das Ergebnis überprüft und eine Auswahl getroffen hat Absenden, speichert Amazon A2I eine JSON-Datei im S3-Bucket-Ordner. Die JSON-Datei enthält die folgenden Informationen auf Root-Ebene:

  • Der ARN der Amazon A2I-Flussdefinition und der Name der menschlichen Schleife
  • Menschliche Antworten (die von der angepassten Amazon A2I-Benutzeroberfläche gesammelten Eingaben des Prüfers)
  • Eingabeinhalt (die ursprünglichen Daten, die beim Starten der Human-Loop-Aufgabe an Amazon A2I gesendet werden)

Das Folgende ist ein von Amazon A2I generiertes JSON-Beispiel:

{
  "flowDefinitionArn": "arn:aws:sagemaker:us-east-1:711334203977:flow-definition/a2i-custom-ui-demo-workflow",
  "humanAnswers": [
    {
      "acceptanceTime": "2022-08-23T15:23:53.488Z",
      "answerContent": {
        "Change Reason 1": "Missing X at the end.",
        "True Value 1": "93493319020929X",
        "True Value 2": "04-3018996"
      },
      "submissionTime": "2022-08-23T15:24:47.991Z",
      "timeSpentInSeconds": 54.503,
      "workerId": "94de99f1bc6324b8",
      "workerMetadata": {
        "identityData": {
          "identityProviderType": "Cognito",
          "issuer": "https://cognito-idp.us-east-1.amazonaws.com/us-east-1_URd6f6sie",
          "sub": "cef8d484-c640-44ea-8369-570cdc132d2d"
        }
      }
    }
  ],
  "humanLoopName": "custom-loop-9b4e67ff-2c9f-40f9-aae5-0e26316c905c",
  "inputContent": {...} # the original input send to A2I when starting the human review task
}

Sie können eine Extraktions-, Transformations- und Ladelogik (ETL) implementieren, um Informationen aus dem Amazon A2I-Ausgabe-JSON zu parsen und in einer Datei oder Datenbank zu speichern. Die Probenlösung wird mit a CSV-Datei mit verarbeiteten Daten. Sie können damit ein BI-Dashboard erstellen, indem Sie den Anweisungen im nächsten Abschnitt folgen.

Erstellen Sie ein Dashboard in Amazon QuickSight

Die Beispiellösung umfasst eine Berichtsphase mit einem Visualisierungs-Dashboard, das von Amazon QuickSight bereitgestellt wird. Das BI-Dashboard zeigt wichtige Kennzahlen wie die Anzahl der automatisch oder manuell verarbeiteten Dokumente, die beliebtesten Felder, die eine menschliche Überprüfung erforderten, und andere Erkenntnisse. Dieses Dashboard kann Ihnen dabei helfen, einen Überblick über die Dokumentenverarbeitungspipeline zu erhalten und die häufigsten Gründe für die menschliche Überprüfung zu analysieren. Sie können den Arbeitsablauf optimieren, indem Sie die menschliche Eingabe weiter reduzieren.

Das Beispiel-Dashboard enthält grundlegende Metriken. Sie können die Lösung mit Amazon QuickSight erweitern, um mehr Einblicke in die Daten zu erhalten.BI-Dashboard

Erweitern Sie die Lösung, um mehr Dokumente und Geschäftsregeln zu unterstützen

Um die Lösung zu erweitern, um mehr Dokumentseiten mit entsprechenden Geschäftsregeln zu unterstützen, müssen Sie die folgenden Änderungen vornehmen:

  • Erstellen Sie ein Datenmodell für die neue Seite in JSON-Struktur, das alle Werte darstellt, die Sie aus den Seiten extrahieren möchten. Beziehen Sie sich auf die Definieren Sie das Datenmodell Abschnitt für ein detailliertes Format.
  • Verwenden Sie Amazon Textract, um Text aus dem Dokument zu extrahieren und Werte in das Datenmodell einzufügen.
  • Fügen Sie der Seite entsprechende Geschäftsregeln im JSON-Format hinzu. Beziehen Sie sich auf die Passen Sie Geschäftsregeln an Abschnitt für das detaillierte Format.

Die benutzerdefinierte Amazon A2I-Benutzeroberfläche in der Lösung ist generisch und erfordert keine Änderung, um neue Geschäftsregeln zu unterstützen.

Zusammenfassung

Intelligente Dokumentenverarbeitung ist sehr gefragt, und Unternehmen benötigen eine angepasste Pipeline, um ihre einzigartige Geschäftslogik zu unterstützen. Amazon A2I bietet auch eine integrierte Vorlage, die in Amazon Textract integriert ist, um Ihre Anwendungsfälle für die menschliche Überprüfung zu implementieren. Außerdem können Sie die Reviewer-Seite anpassen, um flexible Anforderungen zu erfüllen.

Dieser Beitrag führte Sie durch eine Referenzlösung mit Amazon Textract und Amazon A2I zum Aufbau einer IDP-Pipeline, die flexible Geschäftsregeln unterstützt. Probieren kannst du es mit der Jupyter Notizbuch im GitHub IDP Workshop Repo.


Über die Autoren

Passen Sie Geschäftsregeln für eine intelligente Dokumentenverarbeitung mit menschlicher Überprüfung und BI-Visualisierung PlatoBlockchain Data Intelligence an. Vertikale Suche. Ai.Lana Zhang ist Sr. Solutions Architect im AWS WWSO AI Services Team mit Expertise in KI und ML für intelligente Dokumentenverarbeitung und Inhaltsmoderation. Sie fördert leidenschaftlich AWS AI-Services und hilft Kunden, ihre Geschäftslösungen zu transformieren.

Passen Sie Geschäftsregeln für eine intelligente Dokumentenverarbeitung mit menschlicher Überprüfung und BI-Visualisierung PlatoBlockchain Data Intelligence an. Vertikale Suche. Ai.
Sonali Sahu leitet das Intelligent Document Processing AI/ML Solutions Architect-Team bei Amazon Web Services. Sie ist leidenschaftlich technikbegeistert und arbeitet gerne mit Kunden zusammen, um komplexe Probleme durch Innovation zu lösen. Ihre Schwerpunkte sind Künstliche Intelligenz & Maschinelles Lernen für intelligente Dokumentenverarbeitung.

Zeitstempel:

Mehr von AWS Maschinelles Lernen