Organisationsformulare dienen branchenübergreifend als primäres Geschäftstool – von Finanzdienstleistungen bis hin zum Gesundheitswesen und mehr. Betrachten Sie zum Beispiel Steuererklärungsformulare in der Steuerverwaltungsbranche, wo jedes Jahr neue Formulare mit weitgehend denselben Informationen herauskommen. AWS-Kunden aus allen Branchen müssen im Rahmen ihrer täglichen Geschäftspraxis Informationen in Formularen verarbeiten und speichern. Diese Formulare dienen oft als primäres Mittel für den Informationsfluss in eine Organisation, in der technologische Mittel zur Datenerfassung unpraktisch sind.
Neben der Verwendung von Formularen zur Erfassung von Informationen im Laufe der Jahre des Angebots Amazontext, haben wir beobachtet, dass AWS-Kunden ihre Organisationsformulare häufig basierend auf vorgenommenen strukturellen Änderungen, hinzugefügten oder geänderten Feldern oder anderen Erwägungen wie einem Wechsel des Jahres oder der Version des Formulars versionieren.
Wenn sich die Struktur oder der Inhalt eines Formulars ändert, kann dies häufig zu Herausforderungen für herkömmliche OCR-Systeme führen oder sich auf nachgelagerte Tools auswirken, die zur Erfassung von Informationen verwendet werden, selbst wenn Sie Jahr für Jahr dieselben Informationen erfassen und die Daten für die Verwendung unabhängig vom Format aggregieren müssen des Dokuments.
Um dieses Problem zu lösen, zeigen wir in diesem Beitrag, wie Sie mit Amazon Textract eine ereignisgesteuerte, serverlose Multiformat-Dokumentparsing-Pipeline erstellen und bereitstellen können.
Lösungsüberblick
Das folgende Diagramm veranschaulicht unsere Lösungsarchitektur:
Erstens bietet die Lösung die Verwendung von Pipeline-Ingest Amazon Simple Storage-Service (Amazon S3), Amazon S3-Ereignisbenachrichtigungen und eine Amazon Simple Queue-Dienst (Amazon SQS)-Warteschlange, sodass die Verarbeitung beginnt, wenn ein Formular in der Amazon S3-Zielpartition landet. Eine Veranstaltung am Amazon EventBridge erstellt und an eine gesendet AWS Lambda Ziel, das einen Amazon Textract-Job auslöst.
Sie können serverlose AWS-Services wie Lambda und verwenden AWS Step-Funktionen um asynchrone Service-Integrationen zwischen AWS-KI-Services und AWS-Analytics- und -Datenbankservices für Lagerhaltung, Analysen sowie KI und maschinelles Lernen (ML) zu erstellen. In diesem Beitrag zeigen wir, wie Step Functions verwendet werden, um den Status von Anforderungen an asynchrone Amazon Textract-APIs asynchron zu steuern und zu verwalten. Dies wird durch die Verwendung einer Zustandsmaschine zum Verwalten von Anrufen und Antworten erreicht. Wir verwenden Lambda innerhalb der Zustandsmaschine, um die paginierten API-Antwortdaten von Amazon Textract in einem einzigen JSON-Objekt zusammenzuführen, das halbstrukturierte Textdaten enthält, die mit OCR extrahiert wurden.
Dann filtern wir mithilfe eines standardisierten Ansatzes über verschiedene Formulare hinweg, um diese OCR-Daten in einem gemeinsamen strukturierten Format zu aggregieren Amazonas Athena und ein SQL Amazon Textract JSON SerDe.
Sie können die durch diese Pipeline ausgeführten Schritte mit serverlosen Step Functions nachverfolgen, um den Verarbeitungsstatus zu verfolgen und die Ausgabe jedes Status aufzubewahren. Dies ist etwas, was Kunden in einigen Branchen bevorzugt tun, wenn sie mit Daten arbeiten, bei denen Sie die Ergebnisse aller Vorhersagen von Diensten wie Amazon Textract aufbewahren müssen, um die Erklärbarkeit Ihrer Pipeline-Ergebnisse langfristig zu fördern.
Schließlich können Sie die extrahierten Daten in Athena-Tabellen abfragen.
In den folgenden Abschnitten führen wir Sie durch die Einrichtung der Pipeline mit AWS CloudFormation, Testen der Pipeline und Hinzufügen neuer Formularversionen. Diese Pipeline bietet eine wartbare Lösung, da jede Komponente (Erfassung, Textextraktion, Textverarbeitung) unabhängig und isoliert ist.
Definieren Sie Standardeingabeparameter für CloudFormation-Stacks
Um die Eingabeparameter für die CloudFormation-Stacks zu definieren, öffnen Sie default.properties
unter dem params
Ordner und geben Sie den folgenden Code ein:
Stellen Sie die Lösung bereit
Führen Sie die folgenden Schritte aus, um Ihre Pipeline bereitzustellen:
- Auswählen
Stack starten:
- Auswählen
Weiter.
- Geben Sie die Stapeldetails wie im folgenden Screenshot gezeigt an und wählen Sie aus Weiter.
- Im Konfigurieren Sie die Stapeloptionen Abschnitt, fügen Sie optionale Tags, Berechtigungen und andere erweiterte Einstellungen hinzu.
- Auswählen
Weiter.
- Überprüfen Sie die Stapeldetails und wählen Sie aus Ich erkenne an, dass AWS CloudFormation möglicherweise IAM-Ressourcen mit benutzerdefinierten Namen erstellt.
- Auswählen
Stapel erstellen.
Dadurch wird die Stack-Bereitstellung in Ihrem AWS-Konto initiiert.
Nachdem der Stapel erfolgreich bereitgestellt wurde, können Sie mit dem Testen der Pipeline beginnen, wie im nächsten Abschnitt beschrieben.
Testen Sie die Pipeline
Führen Sie nach einer erfolgreichen Bereitstellung die folgenden Schritte aus, um Ihre Pipeline zu testen:
- Laden Sie die Beispieldateien auf Ihren Computer.
- Erstellen Sie ein
/uploads
Ordner (Partition) unter dem neu erstellten S3-Eingabe-Bucket.
- Erstellen Sie die separaten Ordner (Partitionen) wie
jobapplications
für/uploads
.
- Laden Sie die erste Version der Stellenbewerbung aus dem Ordner mit den Musterdokumenten in die hoch
/uploads/jobapplications
Partition.
Wenn die Pipeline abgeschlossen ist, finden Sie den extrahierten Schlüsselwert für diese Version des Dokuments in /OuputS3/03-textract-parsed-output/jobapplications
auf der Amazon S3-Konsole.
Sie finden es auch in der Athena-Tabelle (applications_data_table
) auf der Datenbase Speisekarte (jobapplicationsdatabase
).
- Laden Sie die zweite Version der Stellenbewerbung aus dem Ordner mit den Musterdokumenten in die hoch
/uploads/jobapplications
Partition.
Wenn die Pipeline abgeschlossen ist, finden Sie den extrahierten Schlüsselwert für diese Version in /OuputS3/03-textract-parsed-output/jobapplications
auf der Amazon S3-Konsole.
Sie finden es auch in der Athena-Tabelle (applications_data_table
) auf der Datenbase Speisekarte (jobapplicationsdatabase
).
Du bist fertig! Sie haben Ihre Pipeline erfolgreich bereitgestellt.
Fügen Sie neue Formularversionen hinzu
Das Aktualisieren der Lösung für eine neue Formularversion ist unkompliziert – jede Formularversion muss nur aktualisiert werden, indem die Abfragen im Verarbeitungsstapel getestet werden.
Nachdem Sie die Aktualisierungen vorgenommen haben, können Sie die aktualisierte Pipeline mithilfe von AWS CloudFormation-APIs erneut bereitstellen und neue Dokumente verarbeiten, wodurch Sie mit minimaler Unterbrechung und minimalem Entwicklungsaufwand, der für Änderungen an Ihrer Pipeline erforderlich ist, zu denselben Standarddatenpunkten für Ihr Schema gelangen. Diese Flexibilität, die durch die Entkopplung des Analyse- und Extraktionsverhaltens und die Verwendung der JSON-SerDe-Funktionalität in Athena erreicht wird, macht diese Pipeline zu einer wartbaren Lösung für eine beliebige Anzahl von Formularversionen, die Ihre Organisation verarbeiten muss, um Informationen zu sammeln.
Während Sie die Ingest-Lösung ausführen, werden Daten aus eingehenden Formularen automatisch mit Informationen zu den Dateien und den ihnen zugeordneten Eingaben in Athena ausgefüllt. Wenn die Daten in Ihren Formularen von unstrukturierten zu strukturierten Daten wechseln, können sie für nachgelagerte Anwendungen wie Analysen, ML-Modellierung und mehr verwendet werden.
Aufräumen
Um laufende Gebühren zu vermeiden, löschen Sie die Ressourcen, die Sie im Rahmen dieser Lösung erstellt haben, wenn Sie fertig sind.
- Löschen Sie auf der Amazon S3-Konsole manuell die Buckets, die Sie als Teil des CloudFormation-Stacks erstellt haben.
- Wählen Sie in der AWS CloudFormation-Konsole aus Stacks im Navigationsbereich.
- Wählen Sie den Hauptstapel und wählen Sie Löschen.
Dadurch werden die verschachtelten Stapel automatisch gelöscht.
Zusammenfassung
In diesem Beitrag haben wir gezeigt, wie Kunden, die die Dokumentenverarbeitung nachverfolgen und anpassen möchten, mit Amazon Textract eine ereignisgesteuerte, serverlose Multiformat-Dokumentparsing-Pipeline erstellen und bereitstellen können. Diese Pipeline bietet eine wartbare Lösung, da alle Komponenten (Erfassung, Textextraktion, Textverarbeitung) unabhängig und isoliert sind, sodass Unternehmen ihre Lösungen operationalisieren können, um unterschiedliche Verarbeitungsanforderungen zu erfüllen.
Probieren Sie die Lösung noch heute aus und hinterlassen Sie Ihr Feedback im Kommentarbereich.
Über die Autoren
Emily Soward ist Data Scientist bei AWS Professional Services. Sie hat einen Master of Science mit Auszeichnung in Künstlicher Intelligenz von der University of Edinburgh in Schottland, Vereinigtes Königreich mit Schwerpunkt auf Natural Language Processing (NLP). Emily war in angewandten wissenschaftlichen und technischen Funktionen tätig, die sich auf KI-gestützte Produktforschung und -entwicklung, operative Exzellenz und Governance für KI-Workloads konzentrierten, die in Organisationen im öffentlichen und privaten Sektor ausgeführt wurden. Sie trägt als AWS Senior Speaker und kürzlich als Autorin für AWS Well-Architected in the Machine Learning Lens zur Kundenberatung bei.
Sandeep Singh ist Data Scientist bei AWS Professional Services. Er hat einen Master of Science in Information Systems mit Schwerpunkt in AI und Data Science von der San Diego State University (SDSU), Kalifornien. Er ist ein Full-Stack-Datenwissenschaftler mit einem starken Informatikhintergrund und vertrauenswürdiger Berater mit Spezialisierung auf KI-Systeme und Steuerungsdesign. Er ist leidenschaftlich daran interessiert, Kunden dabei zu helfen, ihre wirkungsvollen Projekte in die richtige Richtung zu lenken, sie auf ihrem Weg in die Cloud zu beraten und zu begleiten und hochmoderne KI/ML-fähige Lösungen zu entwickeln.
- Coinsmart. Europas beste Bitcoin- und Krypto-Börse.
- Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. DEN FREIEN ZUGANG.
- CryptoHawk. Altcoin-Radar. Kostenlose Testphase.
- Quelle: https://aws.amazon.com/blogs/machine-learning/build-a-traceable-custom-multi-format-document-parsing-pipeline-with-amazon-texttract/
- "
- 100
- Über Uns
- Konto
- erreicht
- über
- Adresse
- advanced
- AI
- KI-Dienste
- Alle
- Zulassen
- Amazon
- Analytik
- Bienen
- APIs
- Anwendung
- Anwendungen
- Ansatz
- Architektur
- künstlich
- künstliche Intelligenz
- AWS
- Hintergrund
- Grenze
- bauen
- Building
- Geschäft
- Kalifornien
- Verursachen
- Herausforderungen
- Übernehmen
- Gebühren
- Cloud
- Code
- Bemerkungen
- gemeinsam
- Komponente
- Computerwissenschaften
- Konzentration
- Konsul (Console)
- Inhalt
- Smartgeräte App
- Kunden
- technische Daten
- Datenwissenschaft
- Datenwissenschaftler
- Datenbase
- Synergie
- einsetzen
- Einsatz
- Design
- Entwicklung
- anders
- Störung
- Unterlagen
- Entwicklung
- Event
- Beispiel
- Feedback
- Felder
- Revolution
- Finanzdienstleistungen
- Vorname
- Flexibilität
- Fluss
- konzentriert
- Folgende
- unten stehende Formular
- Format
- Formen
- voller
- Funktionalität
- Governance
- Gesundheitswesen
- GUTE
- hält
- Ultraschall
- Hilfe
- HTTPS
- Impact der HXNUMXO Observatorien
- Branchen
- Energiegewinnung
- Information
- Integrationen
- Intelligenz
- IT
- Job
- Reich Gottes
- Sprache
- lernen
- Verlassen
- Lang
- Maschine
- Maschinelles Lernen
- halten
- Management
- flächendeckende Gesundheitsprogramme
- manuell
- ML
- Natürliche
- Menü
- Anzahl
- bieten
- Angebote
- XNUMXh geöffnet
- Organisation
- organisatorisch
- Organisationen
- Andere
- Praxis
- Prognosen
- primär
- privat
- Aufgabenstellung:
- Prozessdefinierung
- Produkt
- Professionell
- Projekte
- bietet
- Öffentlichkeit
- Forschungsprojekte
- Forschung und Entwicklung
- Downloads
- Antwort
- Die Ergebnisse
- Führen Sie
- Laufen
- San
- Wissenschaft
- Wissenschaftler
- Bibliotheken
- Sektoren
- auf der Suche nach
- Serverlos
- Lösungen
- kompensieren
- Einstellung
- Einfacher
- So
- Lösung
- Lösungen
- LÖSEN
- etwas
- Speaker
- Stapel
- Anfang
- Bundesstaat
- State-of-the-art
- Lagerung
- speichern
- stark
- erfolgreich
- Erfolgreich
- Systeme und Techniken
- Target
- Steuer
- Test
- Testen
- Durch
- heute
- Werkzeug
- Werkzeuge
- verfolgen sind
- traditionell
- Vereinigt
- Großbritannien
- Universität
- Updates
- -
- Wert
- .
- arbeiten,
- Jahr
- Jahr