Amazontext ist ein Dienst für maschinelles Lernen (ML), der automatisch Text, Handschrift und Daten aus jedem Dokument oder Bild extrahiert. Amazon Textract verfügt über eine Tabellenfunktion Dokument analysieren API, die die Möglichkeit bietet, tabellarische Strukturen automatisch aus jedem Dokument zu extrahieren. In diesem Beitrag besprechen wir die Verbesserungen, die am vorgenommen wurden Tische Funktion und wie sie es einfacher macht, Informationen in Tabellenstrukturen aus einer Vielzahl von Dokumenten zu extrahieren.
Tabellenstrukturen in Dokumenten wie Finanzberichten, Gehaltsabrechnungen und Analysezertifikatsdateien sind oft so formatiert, dass sie eine einfache Interpretation der Informationen ermöglichen. Zur besseren Lesbarkeit und Organisation enthalten sie häufig auch Informationen wie Tabellentitel, Tabellenfußzeile, Abschnittstitel und Zusammenfassungszeilen innerhalb der Tabellenstruktur. Für ein ähnliches Dokument vor dieser Erweiterung ist die Tabellenfunktion darin enthalten AnalyzeDocument
hätte diese Elemente als Zellen identifiziert und Titel und Fußzeilen, die außerhalb der Tabellengrenzen vorhanden sind, nicht extrahiert. In solchen Fällen war eine benutzerdefinierte Nachverarbeitungslogik erforderlich, um solche Informationen zu identifizieren oder sie separat aus der JSON-Ausgabe der API zu extrahieren. Mit dieser Ankündigung von Verbesserungen der Tabellenfunktion wird die Extraktion verschiedener Aspekte von Tabellendaten viel einfacher.
Im April 2023 führte Amazon Textract die Möglichkeit ein, in Dokumenten vorhandene Titel, Fußzeilen, Abschnittstitel und Zusammenfassungszeilen über die Tabellenfunktion automatisch zu erkennen. In diesem Beitrag besprechen wir diese Verbesserungen und geben Beispiele, die Ihnen helfen, sie zu verstehen und in Ihren Dokumentenverarbeitungs-Workflows zu verwenden. Wir zeigen anhand von Codebeispielen, wie Sie diese Verbesserungen nutzen können, um die API zu verwenden und die Antwort mit zu verarbeiten Amazon Textract Textractor-Bibliothek.
Lösungsübersicht
Das folgende Bild zeigt, dass das aktualisierte Modell nicht nur die Tabelle im Dokument identifiziert, sondern alle entsprechenden Tabellenkopf- und -fußzeilen. Dieses Beispieldokument für einen Finanzbericht enthält Tabellentitel, Fußzeile, Abschnittstitel und Zusammenfassungszeilen.
Die Funktionserweiterung „Tabellen“ bietet Unterstützung für vier neue Elemente in der API-Antwort, mit denen Sie jedes dieser Tabellenelemente problemlos extrahieren können, und fügt die Möglichkeit hinzu, den Tabellentyp zu unterscheiden.
Tischelemente
Amazon Textract kann mehrere Komponenten einer Tabelle identifizieren, z. B. Tabellenzellen und verbundene Zellen. Diese Komponenten, bekannt als Block
Objekte kapseln die mit der Komponente verbundenen Details, z. B. die Begrenzungsgeometrie, Beziehungen und den Konfidenzwert. A Block
stellt Elemente dar, die in einem Dokument innerhalb einer Gruppe von Pixeln erkannt werden, die nahe beieinander liegen. Die folgenden sind die neuen Tischblöcke in dieser Erweiterung eingeführt:
- Tabellentitel - Eine neue
Block
Typ namensTABLE_TITLE
Dadurch können Sie den Titel einer bestimmten Tabelle identifizieren. Titel können aus einer oder mehreren Zeilen bestehen, die sich normalerweise über einer Tabelle befinden oder als Zelle in der Tabelle eingebettet sind. - Tabellenfußzeilen - Eine neue
Block
Typ namensTABLE_FOOTER
Dadurch können Sie die mit einer bestimmten Tabelle verknüpften Fußzeilen identifizieren. Fußzeilen können aus einer oder mehreren Zeilen bestehen, die normalerweise unter der Tabelle liegen oder als Zelle in der Tabelle eingebettet sind. - Abschnittsüberschrift - Eine neue
Block
Typ namensTABLE_SECTION_TITLE
Dadurch können Sie erkennen, ob es sich bei der erkannten Zelle um einen Abschnittstitel handelt. - Zusammenfassungszellen - Eine neue
Block
Typ namensTABLE_SUMMARY
Dadurch können Sie erkennen, ob es sich bei der Zelle um eine Zusammenfassungszelle handelt, beispielsweise um eine Zelle für Summen auf einer Gehaltsabrechnung.
Arten von Tabellen
Wenn Amazon Textract eine Tabelle in einem Dokument identifiziert, extrahiert es alle Details der Tabelle in eine oberste Ebene Block
Art der TABLE
. Tische können in verschiedenen Formen und Größen erhältlich sein. Beispielsweise enthalten Dokumente häufig Tabellen, die möglicherweise einen erkennbaren Tabellenkopf haben oder nicht. Um die Unterscheidung dieser Tabellentypen zu erleichtern, haben wir zwei neue Entitätstypen für a hinzugefügt TABLE Block
: SEMI_STRUCTURED_TABLE
und STRUCTURED_TABLE
. Mithilfe dieser Entitätstypen können Sie zwischen einer strukturierten und einer halbstrukturierten Tabelle unterscheiden.
Strukturierte Tabellen sind Tabellen mit klar definierten Spaltenüberschriften. Bei halbstrukturierten Tabellen folgen die Daten jedoch möglicherweise keiner strengen Struktur. Beispielsweise können Daten in einer Tabellenstruktur angezeigt werden, bei der es sich nicht um eine Tabelle mit definierten Überschriften handelt. Die neuen Entitätstypen bieten die Flexibilität, auszuwählen, welche Tabellen während der Nachbearbeitung beibehalten oder entfernt werden sollen. Das folgende Bild zeigt ein Beispiel dafür STRUCTURED_TABLE
und SEMI_STRUCTURED_TABLE
.
Analysieren der API-Ausgabe
In diesem Abschnitt untersuchen wir, wie Sie das verwenden können Amazon Textract Textractor-Bibliothek um die API-Ausgabe von nachzubearbeiten AnalyzeDocument
mit den Erweiterungen der Tabellenfunktion. Dadurch können Sie relevante Informationen aus Tabellen extrahieren.
Textractor ist eine Bibliothek, die für die nahtlose Zusammenarbeit mit Amazon Textract-APIs und -Dienstprogrammen erstellt wurde, um die von den APIs zurückgegebenen JSON-Antworten anschließend in programmierbare Objekte umzuwandeln. Sie können es auch verwenden, um Entitäten im Dokument zu visualisieren und die Daten in Formaten wie CSV-Dateien (Comma-Separated Values) zu exportieren. Es soll Amazon Textract-Kunden beim Einrichten ihrer Nachbearbeitungspipelines helfen.
In unseren Beispielen verwenden wir die folgende Beispielseite aus einem 10-K-SEC-Einreichungsdokument.
Den folgenden Code finden Sie in unserem GitHub-Repository. Um dieses Dokument zu verarbeiten, nutzen wir die Textractor-Bibliothek und importieren sie, damit wir die API-Ausgaben nachbearbeiten und die Daten visualisieren können:
Der erste Schritt besteht darin, Amazon Textract aufzurufen AnalyzeDocument
mit Tabellenfunktion, gekennzeichnet durch das features=[TextractFeatures.TABLES]
Parameter zum Extrahieren der Tabelleninformationen. Beachten Sie, dass diese Methode die Echtzeit- (oder synchrone) Methode aufruft. Dokument analysieren API, die einseitige Dokumente unterstützt. Sie können jedoch die verwenden asynchron StartDocumentAnalysis
API zur Verarbeitung mehrseitiger Dokumente (mit bis zu 3,000 Seiten).
Das document
Das Objekt enthält Metadaten über das Dokument, die überprüft werden können. Beachten Sie, dass eine Tabelle im Dokument zusammen mit anderen Entitäten im Dokument erkannt wird:
Nachdem wir nun über die API-Ausgabe verfügen, die die Tabelleninformationen enthält, visualisieren wir die verschiedenen Elemente der Tabelle mithilfe der zuvor besprochenen Antwortstruktur:
Die Textractor-Bibliothek hebt die verschiedenen Entitäten in der erkannten Tabelle mit einem anderen Farbcode für jedes Tabellenelement hervor. Lassen Sie uns genauer untersuchen, wie wir jedes Element extrahieren können. Der folgende Codeausschnitt demonstriert das Extrahieren des Tabellentitels:
Ebenso können wir den folgenden Code verwenden, um die Fußzeilen der Tabelle zu extrahieren. Beachten Sie, dass es sich bei table_footers um eine Liste handelt, was bedeutet, dass der Tabelle eine oder mehrere Fußzeilen zugeordnet sein können. Wir können diese Liste durchlaufen, um alle vorhandenen Fußzeilen anzuzeigen. Wie im folgenden Codeausschnitt gezeigt, zeigt die Ausgabe drei Fußzeilen an:
Generieren von Daten für die nachgelagerte Aufnahme
Die Textractor-Bibliothek hilft Ihnen außerdem dabei, die Aufnahme von Tabellendaten in nachgelagerte Systeme oder andere Arbeitsabläufe zu vereinfachen. Beispielsweise können Sie die extrahierten Tabellendaten in eine für Menschen lesbare Microsoft Excel-Datei exportieren. Zum Zeitpunkt des Verfassens dieses Artikels ist dies das einzige Format, das zusammengeführte Tabellen unterstützt.
Wir können es auch in a umwandeln Pandas DataFrame. DataFrame ist eine beliebte Wahl für die Datenbearbeitung, -analyse und -visualisierung in Programmiersprachen wie Python und R.
In Python ist DataFrame eine primäre Datenstruktur in der Pandas-Bibliothek. Es ist flexibel und leistungsstark und oft die erste Wahl für Datenanalyseexperten für verschiedene Datenanalyse- und ML-Aufgaben. Der folgende Codeausschnitt zeigt, wie die extrahierten Tabelleninformationen mit einer einzigen Codezeile in einen DataFrame konvertiert werden:
Zuletzt können wir die Tabellendaten in eine CSV-Datei konvertieren. CSV-Dateien werden häufig zur Aufnahme von Daten in relationale Datenbanken oder Data Warehouses verwendet. Siehe den folgenden Code:
Zusammenfassung
Die Einführung dieser neuen Block- und Entitätstypen (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
und TABLE_SUMMARY
) stellt einen bedeutenden Fortschritt bei der Extraktion tabellarischer Strukturen aus Dokumenten mit Amazon Textract dar.
Diese Tools bieten einen differenzierteren und flexibleren Ansatz, der sowohl strukturierte als auch halbstrukturierte Tabellen berücksichtigt und sicherstellt, dass keine wichtigen Daten übersehen werden, unabhängig von ihrer Position in einem Dokument.
Das bedeutet, dass wir nun verschiedene Datentypen und Tabellenstrukturen mit erhöhter Effizienz und Genauigkeit verarbeiten können. Da wir weiterhin die Möglichkeiten der Automatisierung in Dokumentenverarbeitungs-Workflows nutzen, werden diese Verbesserungen zweifellos den Weg für optimierte Workflows, höhere Produktivität und aufschlussreichere Datenanalysen ebnen. Weitere Informationen zu AnalyzeDocument
und die Tabellenfunktion finden Sie unter Dokument analysieren.
Über die Autoren
Raj Pathak ist ein Senior Solutions Architect und Technologe, der sich auf Finanzdienstleistungen (Versicherungen, Banken, Kapitalmärkte) und maschinelles Lernen spezialisiert hat. Er ist spezialisiert auf Natural Language Processing (NLP), Large Language Models (LLM) und Machine Learning Infrastructure and Operations Projects (MLOps).
Anjan Biswas ist Senior AI Services Solutions Architect mit Fokus auf AI/ML und Data Analytics. Anjan ist Teil des weltweiten KI-Serviceteams und arbeitet mit Kunden zusammen, um ihnen zu helfen, Geschäftsprobleme mit KI und ML zu verstehen und Lösungen für diese zu entwickeln. Anjan verfügt über mehr als 14 Jahre Erfahrung in der Arbeit mit globalen Lieferketten-, Fertigungs- und Einzelhandelsorganisationen und hilft Kunden aktiv beim Einstieg und bei der Skalierung von AWS-KI-Services.
Lalita Reddi ist Senior Technical Product Manager im Amazon Textract-Team. Sie konzentriert sich auf die Entwicklung von auf maschinellem Lernen basierenden Diensten für AWS-Kunden. In ihrer Freizeit spielt Lalita gerne Brettspiele und unternimmt Wanderungen.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- EVM-Finanzen. Einheitliche Schnittstelle für dezentrale Finanzen. Hier zugreifen.
- Quantum Media Group. IR/PR verstärkt. Hier zugreifen.
- PlatoAiStream. Web3-Datenintelligenz. Wissen verstärkt. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :hast
- :Ist
- :nicht
- $UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- Fähigkeit
- Über Uns
- oben
- Trading Konten
- Genauigkeit
- aktiv
- hinzugefügt
- Fügt
- Förderung
- Agentur
- AI
- KI-Dienste
- AI / ML
- Hilfe
- Alle
- erlaubt
- entlang
- ebenfalls
- Amazon
- Amazontext
- Amazon Web Services
- Beträge
- an
- Analyse
- Analytik
- und
- Ankündigung
- Ankündigung
- jedem
- Bienen
- APIs
- erscheinen
- Ansatz
- ca.
- April
- SIND
- AS
- Aspekte
- Details
- damit verbundenen
- At
- Im Prinzip so, wie Sie es von Google Maps kennen.
- Automation
- AWS
- Balance
- Bilanzen
- Bankinggg
- Grundlage
- BE
- wird
- unten
- Besser
- zwischen
- Milliarde
- Blockieren
- Tafel
- Brettspiele
- beide
- Building
- Geschäft
- aber
- by
- rufen Sie uns an!
- namens
- CAN
- Hauptstadt
- Kapitalmärkte
- Fälle
- Bargeld
- Die Zellen
- sicher
- Bescheinigung
- Kette
- Wahl
- Auswählen
- klassifizieren
- Auftraggeber
- Menu
- Code
- Sicherheit
- Farbe
- Kolonne
- wie die
- Verbindlichkeiten
- Komponente
- Komponenten
- Vertrauen
- enthalten
- enthält
- fortsetzen
- verkaufen
- Unternehmen
- Dazugehörigen
- Kosten
- erstellt
- Kredit
- Original
- Kunden
- technische Daten
- Datenanalyse
- Datenanalyse
- Datenstruktur
- Datenbanken
- Schulden
- Dezember
- tiefer
- definiert
- zeigt
- Details
- erkannt
- entwickeln
- anders
- Richtung
- Rabatt
- diskutieren
- diskutiert
- Displays
- unterscheiden
- verschieden
- Dokument
- Unterlagen
- zweifeln
- zwei
- im
- jeder
- erleichtern
- einfacher
- Einfache
- Effizienz
- Element
- Elemente
- eingebettet
- umarmen
- ermöglicht
- verbesserte
- Verbesserungen
- Entitäten
- Einheit
- Gerechtigkeit
- Äquivalente
- Sommer
- geschätzt
- Beispiel
- Beispiele
- Excel
- ERFAHRUNGEN
- ERKUNDEN
- exportieren
- Extrakt
- KONZENTRAT
- Messe
- Merkmal
- Reichen Sie das
- Mappen
- Einreichung
- Revolution
- Finanzbericht
- Finanzdienstleistungen
- Vorname
- fixiert
- festes Einkommen
- Flexibilität
- flexibel
- Setzen Sie mit Achtsamkeit
- konzentriert
- folgen
- Folgende
- Aussichten für
- fremd
- Format
- gefunden
- vier
- für
- Mittel
- Gewinnen
- Gewinne
- Games
- bekommen
- GitHub
- ABSICHT
- gegeben
- Global
- Go
- der Regierung
- brutto
- Gruppe an
- hätten
- Griff
- Haben
- he
- Überschriften
- Hilfe
- Unternehmen
- hilft
- hier (auf dänisch)
- Hierarchie
- höher
- Besondere
- Highlights
- Wanderungen
- hält
- Ultraschall
- Hilfe
- aber
- HTML
- HTTPS
- human
- identifiziert
- identifiziert
- identifizieren
- Identitätsschutz
- if
- Image
- importieren
- wichtig
- Verbesserungen
- in
- das
- Einkommen
- Information
- Infrastruktur
- installieren
- Versicherung
- beabsichtigt
- Interpretation
- in
- eingeführt
- Einleitung
- Investition
- ruft auf
- IT
- Artikel
- SEINE
- jpg
- JSON
- Gerichtsbarkeiten
- Behalten
- bekannt
- Mangel
- Sprache
- Sprachen
- grosse
- lernen
- weniger
- Niveau
- Bibliothek
- Gleichen
- Line
- Linien
- Liste
- LLM
- Belastungen
- Standorte
- Logik
- länger
- Verlust
- Verluste
- Maschine
- Maschinelles Lernen
- gemacht
- Dur
- um
- MACHT
- Making
- Manager
- Manipulation
- Herstellung
- Markt
- Märkte
- Kann..
- Mittel
- Metadaten
- Methode
- Microsoft
- könnte
- Million
- Millionen
- ML
- MLOps
- Modell
- für
- ändern
- Geld
- Geldmarkt
- Monat
- mehr
- viel
- Natürliche
- Verarbeitung natürlicher Sprache
- notwendig,
- Netto-
- Neu
- Nlp
- nicht
- Notiz..
- jetzt an
- Objekt
- Objekte
- of
- bieten
- Angebote
- vorgenommen,
- on
- EINEM
- einzige
- Einkauf & Prozesse
- or
- Organisation
- Organisationen
- Andere
- Andernfalls
- UNSERE
- Möglichkeiten für das Ausgangssignal:
- aussen
- übrig
- Seite
- Pandas
- Parameter
- Teil
- pflastern
- Plato
- Datenintelligenz von Plato
- PlatoData
- Play
- Beliebt
- Teil
- Post
- Werkzeuge
- größte treibende
- Gegenwart
- vorher
- in erster Linie
- primär
- Vor
- Probleme
- Prozessdefinierung
- Verarbeitung
- Produkt
- Produkt-Manager
- PRODUKTIVITÄT
- Profis
- Programmierung
- Programmiersprachen
- Projekte
- die
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- Abfragen
- echt
- Immobilien
- Echtzeit
- anerkannt
- erkennt
- aufgezeichnet
- wiederkehrend
- Ungeachtet
- Region
- Regulierungsbehörden
- bezogene
- Beziehungen
- relevant
- entfernen
- berichten
- Meldungen
- representiert
- falls angefordert
- beziehungsweise
- Antwort
- Antworten
- eine Beschränkung
- eingeschränkt
- Einschränkungen
- was zu
- Einzelhandel
- bewertet
- s
- Vertrieb
- Skalieren
- Ergebnis
- nahtlos
- SEK
- SEC-Einreichung
- Abschnitt
- Securities
- Sicherheitdienst
- sehen
- Sellers
- Senior
- September
- Lösungen
- Einstellung
- mehrere
- Formen
- sie
- gezeigt
- Konzerte
- Unterschriften
- signifikant
- ähnlich
- vereinfachen
- Single
- Größen
- Lösungen
- spezialisiert
- spezialisieren
- begonnen
- Schritt
- gestrafft
- Streng
- Struktur
- strukturierte
- Fach
- Anschließend
- so
- ZUSAMMENFASSUNG
- liefern
- Supply Chain
- Support
- Unterstützt
- Systeme und Techniken
- Tabelle
- und Aufgaben
- Team
- Technische
- Technologe
- als
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- ihr
- Sie
- Dort.
- Diese
- vom Nutzer definierten
- basierte Online-to-Offline-Werbezuordnungen von anderen gab.
- fehlen uns die Worte.
- diejenigen
- nach drei
- Durch
- Zeit
- Titel
- Titel
- zu
- Werkzeuge
- Top-Level
- Gesamt
- Handel
- XNUMX
- tippe
- Typen
- typisch
- uns
- US-Regierung
- verstehen
- unrealisierte Verluste
- aktualisiert
- us
- -
- benutzt
- Verwendung von
- Dienstprogramme
- Wert
- Werte
- Vielfalt
- verschiedene
- Gegen
- Visualisierung
- wurde
- Weg..
- we
- Netz
- Web-Services
- welche
- breit
- werden wir
- mit
- .
- Worte
- Arbeiten
- Workflows
- arbeiten,
- Werk
- würde
- Schreiben
- Jahr
- Du
- Ihr
- Zephyrnet