Erstellen Sie mit Amazon Textract eine nachverfolgbare, benutzerdefinierte Pipeline zur Analyse von Dokumenten in mehreren Formaten

Neuauflage von Plato

Verfolger: 0

Organisationsformulare dienen branchenübergreifend als primäres Geschäftstool – von Finanzdienstleistungen bis hin zum Gesundheitswesen und mehr. Betrachten Sie zum Beispiel Steuererklärungsformulare in der Steuerverwaltungsbranche, wo jedes Jahr neue Formulare mit weitgehend denselben Informationen herauskommen. AWS-Kunden aus allen Branchen müssen im Rahmen ihrer täglichen Geschäftspraxis Informationen in Formularen verarbeiten und speichern. Diese Formulare dienen oft als primäres Mittel für den Informationsfluss in eine Organisation, in der technologische Mittel zur Datenerfassung unpraktisch sind.

Neben der Verwendung von Formularen zur Erfassung von Informationen im Laufe der Jahre des Angebots Amazontext, haben wir beobachtet, dass AWS-Kunden ihre Organisationsformulare häufig basierend auf vorgenommenen strukturellen Änderungen, hinzugefügten oder geänderten Feldern oder anderen Erwägungen wie einem Wechsel des Jahres oder der Version des Formulars versionieren.

Wenn sich die Struktur oder der Inhalt eines Formulars ändert, kann dies häufig zu Herausforderungen für herkömmliche OCR-Systeme führen oder sich auf nachgelagerte Tools auswirken, die zur Erfassung von Informationen verwendet werden, selbst wenn Sie Jahr für Jahr dieselben Informationen erfassen und die Daten für die Verwendung unabhängig vom Format aggregieren müssen des Dokuments.

Um dieses Problem zu lösen, zeigen wir in diesem Beitrag, wie Sie mit Amazon Textract eine ereignisgesteuerte, serverlose Multiformat-Dokumentparsing-Pipeline erstellen und bereitstellen können.

Lösungsüberblick

Das folgende Diagramm veranschaulicht unsere Lösungsarchitektur:

Erstens bietet die Lösung die Verwendung von Pipeline-Ingest Amazon Simple Storage-Service (Amazon S3), Amazon S3-Ereignisbenachrichtigungen und eine Amazon Simple Queue-Dienst (Amazon SQS)-Warteschlange, sodass die Verarbeitung beginnt, wenn ein Formular in der Amazon S3-Zielpartition landet. Eine Veranstaltung am Amazon EventBridge erstellt und an eine gesendet AWS Lambda Ziel, das einen Amazon Textract-Job auslöst.

Sie können serverlose AWS-Services wie Lambda und verwenden AWS Step-Funktionen um asynchrone Service-Integrationen zwischen AWS-KI-Services und AWS-Analytics- und -Datenbankservices für Lagerhaltung, Analysen sowie KI und maschinelles Lernen (ML) zu erstellen. In diesem Beitrag zeigen wir, wie Step Functions verwendet werden, um den Status von Anforderungen an asynchrone Amazon Textract-APIs asynchron zu steuern und zu verwalten. Dies wird durch die Verwendung einer Zustandsmaschine zum Verwalten von Anrufen und Antworten erreicht. Wir verwenden Lambda innerhalb der Zustandsmaschine, um die paginierten API-Antwortdaten von Amazon Textract in einem einzigen JSON-Objekt zusammenzuführen, das halbstrukturierte Textdaten enthält, die mit OCR extrahiert wurden.

Dann filtern wir mithilfe eines standardisierten Ansatzes über verschiedene Formulare hinweg, um diese OCR-Daten in einem gemeinsamen strukturierten Format zu aggregieren Amazonas Athena und ein SQL Amazon Textract JSON SerDe.

Sie können die durch diese Pipeline ausgeführten Schritte mit serverlosen Step Functions nachverfolgen, um den Verarbeitungsstatus zu verfolgen und die Ausgabe jedes Status aufzubewahren. Dies ist etwas, was Kunden in einigen Branchen bevorzugt tun, wenn sie mit Daten arbeiten, bei denen Sie die Ergebnisse aller Vorhersagen von Diensten wie Amazon Textract aufbewahren müssen, um die Erklärbarkeit Ihrer Pipeline-Ergebnisse langfristig zu fördern.

Schließlich können Sie die extrahierten Daten in Athena-Tabellen abfragen.

In den folgenden Abschnitten führen wir Sie durch die Einrichtung der Pipeline mit AWS CloudFormation, Testen der Pipeline und Hinzufügen neuer Formularversionen. Diese Pipeline bietet eine wartbare Lösung, da jede Komponente (Erfassung, Textextraktion, Textverarbeitung) unabhängig und isoliert ist.

Definieren Sie Standardeingabeparameter für CloudFormation-Stacks

Um die Eingabeparameter für die CloudFormation-Stacks zu definieren, öffnen Sie default.properties unter dem params Ordner und geben Sie den folgenden Code ein:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Stellen Sie die Lösung bereit

Führen Sie die folgenden Schritte aus, um Ihre Pipeline bereitzustellen:

Auswählen Stack starten:
Auswählen Weiter.
Geben Sie die Stapeldetails wie im folgenden Screenshot gezeigt an und wählen Sie aus Weiter.
Im Konfigurieren Sie die Stapeloptionen Abschnitt, fügen Sie optionale Tags, Berechtigungen und andere erweiterte Einstellungen hinzu.
Auswählen Weiter.
Überprüfen Sie die Stapeldetails und wählen Sie aus Ich erkenne an, dass AWS CloudFormation möglicherweise IAM-Ressourcen mit benutzerdefinierten Namen erstellt.
Auswählen Stapel erstellen.

Dadurch wird die Stack-Bereitstellung in Ihrem AWS-Konto initiiert.

Nachdem der Stapel erfolgreich bereitgestellt wurde, können Sie mit dem Testen der Pipeline beginnen, wie im nächsten Abschnitt beschrieben.

Testen Sie die Pipeline

Führen Sie nach einer erfolgreichen Bereitstellung die folgenden Schritte aus, um Ihre Pipeline zu testen:

Laden Sie die Beispieldateien auf Ihren Computer.
Erstellen Sie ein /uploads Ordner (Partition) unter dem neu erstellten S3-Eingabe-Bucket.
Erstellen Sie die separaten Ordner (Partitionen) wie jobapplications für /uploads.
Laden Sie die erste Version der Stellenbewerbung aus dem Ordner mit den Musterdokumenten in die hoch /uploads/jobapplications Partition.

Wenn die Pipeline abgeschlossen ist, finden Sie den extrahierten Schlüsselwert für diese Version des Dokuments in /OuputS3/03-textract-parsed-output/jobapplications auf der Amazon S3-Konsole.

Sie finden es auch in der Athena-Tabelle (applications_data_table) auf der Datenbase Speisekarte (jobapplicationsdatabase).

Laden Sie die zweite Version der Stellenbewerbung aus dem Ordner mit den Musterdokumenten in die hoch /uploads/jobapplications Partition.

Wenn die Pipeline abgeschlossen ist, finden Sie den extrahierten Schlüsselwert für diese Version in /OuputS3/03-textract-parsed-output/jobapplications auf der Amazon S3-Konsole.

Sie finden es auch in der Athena-Tabelle (applications_data_table) auf der Datenbase Speisekarte (jobapplicationsdatabase).

Du bist fertig! Sie haben Ihre Pipeline erfolgreich bereitgestellt.

Fügen Sie neue Formularversionen hinzu

Das Aktualisieren der Lösung für eine neue Formularversion ist unkompliziert – jede Formularversion muss nur aktualisiert werden, indem die Abfragen im Verarbeitungsstapel getestet werden.

Nachdem Sie die Aktualisierungen vorgenommen haben, können Sie die aktualisierte Pipeline mithilfe von AWS CloudFormation-APIs erneut bereitstellen und neue Dokumente verarbeiten, wodurch Sie mit minimaler Unterbrechung und minimalem Entwicklungsaufwand, der für Änderungen an Ihrer Pipeline erforderlich ist, zu denselben Standarddatenpunkten für Ihr Schema gelangen. Diese Flexibilität, die durch die Entkopplung des Analyse- und Extraktionsverhaltens und die Verwendung der JSON-SerDe-Funktionalität in Athena erreicht wird, macht diese Pipeline zu einer wartbaren Lösung für eine beliebige Anzahl von Formularversionen, die Ihre Organisation verarbeiten muss, um Informationen zu sammeln.

Während Sie die Ingest-Lösung ausführen, werden Daten aus eingehenden Formularen automatisch mit Informationen zu den Dateien und den ihnen zugeordneten Eingaben in Athena ausgefüllt. Wenn die Daten in Ihren Formularen von unstrukturierten zu strukturierten Daten wechseln, können sie für nachgelagerte Anwendungen wie Analysen, ML-Modellierung und mehr verwendet werden.

Aufräumen

Um laufende Gebühren zu vermeiden, löschen Sie die Ressourcen, die Sie im Rahmen dieser Lösung erstellt haben, wenn Sie fertig sind.

Löschen Sie auf der Amazon S3-Konsole manuell die Buckets, die Sie als Teil des CloudFormation-Stacks erstellt haben.
Wählen Sie in der AWS CloudFormation-Konsole aus Stacks im Navigationsbereich.
Wählen Sie den Hauptstapel und wählen Sie Löschen.

Dadurch werden die verschachtelten Stapel automatisch gelöscht.

Zusammenfassung

In diesem Beitrag haben wir gezeigt, wie Kunden, die die Dokumentenverarbeitung nachverfolgen und anpassen möchten, mit Amazon Textract eine ereignisgesteuerte, serverlose Multiformat-Dokumentparsing-Pipeline erstellen und bereitstellen können. Diese Pipeline bietet eine wartbare Lösung, da alle Komponenten (Erfassung, Textextraktion, Textverarbeitung) unabhängig und isoliert sind, sodass Unternehmen ihre Lösungen operationalisieren können, um unterschiedliche Verarbeitungsanforderungen zu erfüllen.

Probieren Sie die Lösung noch heute aus und hinterlassen Sie Ihr Feedback im Kommentarbereich.

Über die Autoren

Emily Soward ist Data Scientist bei AWS Professional Services. Sie hat einen Master of Science mit Auszeichnung in Künstlicher Intelligenz von der University of Edinburgh in Schottland, Vereinigtes Königreich mit Schwerpunkt auf Natural Language Processing (NLP). Emily war in angewandten wissenschaftlichen und technischen Funktionen tätig, die sich auf KI-gestützte Produktforschung und -entwicklung, operative Exzellenz und Governance für KI-Workloads konzentrierten, die in Organisationen im öffentlichen und privaten Sektor ausgeführt wurden. Sie trägt als AWS Senior Speaker und kürzlich als Autorin für AWS Well-Architected in the Machine Learning Lens zur Kundenberatung bei.

Sandeep Singh ist Data Scientist bei AWS Professional Services. Er hat einen Master of Science in Information Systems mit Schwerpunkt in AI und Data Science von der San Diego State University (SDSU), Kalifornien. Er ist ein Full-Stack-Datenwissenschaftler mit einem starken Informatikhintergrund und vertrauenswürdiger Berater mit Spezialisierung auf KI-Systeme und Steuerungsdesign. Er ist leidenschaftlich daran interessiert, Kunden dabei zu helfen, ihre wirkungsvollen Projekte in die richtige Richtung zu lenken, sie auf ihrem Weg in die Cloud zu beraten und zu begleiten und hochmoderne KI/ML-fähige Lösungen zu entwickeln.

Zeitstempel: 17. März 2022

Zeitstempel: 4. April 2022

Erstellen Sie mit Amazon Textract eine nachvollziehbare, benutzerdefinierte Pipeline zur Analyse von Dokumenten in mehreren Formaten

Neuauflage von Plato

Lösungsüberblick

Definieren Sie Standardeingabeparameter für CloudFormation-Stacks

Stellen Sie die Lösung bereit

Testen Sie die Pipeline

Fügen Sie neue Formularversionen hinzu

Aufräumen

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Optimieren Sie Code Llama auf Amazon SageMaker JumpStart | Amazon Web Services

Neue erweiterte Datenformatunterstützung in Amazon Kendra

Erstellen Sie Audio für Inhalte in mehreren Sprachen mit derselben TTS-Sprachpersona in Amazon Polly

Wie Sportradar die Deep Java Library nutzte, um ML-Plattformen im Produktionsmaßstab für mehr Leistung und Effizienz zu erstellen

AlexaTM 20B ist jetzt in Amazon SageMaker JumpStart verfügbar

Erstellen Sie ein serverloses Meeting-Zusammenfassungs-Backend mit großen Sprachmodellen auf Amazon SageMaker JumpStart | Amazon Web Services

Erstellen Sie eine MLOps-Stimmungsanalyse-Pipeline mit Amazon SageMaker Ground Truth und Databricks MLflow

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto