Ankündigung erweiterter Tabellenextraktionen mit Amazon Textract

Neuauflage von Plato

Verfolger: 0

Amazontext ist ein Dienst für maschinelles Lernen (ML), der automatisch Text, Handschrift und Daten aus jedem Dokument oder Bild extrahiert. Amazon Textract verfügt über eine Tabellenfunktion Dokument analysieren API, die die Möglichkeit bietet, tabellarische Strukturen automatisch aus jedem Dokument zu extrahieren. In diesem Beitrag besprechen wir die Verbesserungen, die am vorgenommen wurden Tische Funktion und wie sie es einfacher macht, Informationen in Tabellenstrukturen aus einer Vielzahl von Dokumenten zu extrahieren.

Tabellenstrukturen in Dokumenten wie Finanzberichten, Gehaltsabrechnungen und Analysezertifikatsdateien sind oft so formatiert, dass sie eine einfache Interpretation der Informationen ermöglichen. Zur besseren Lesbarkeit und Organisation enthalten sie häufig auch Informationen wie Tabellentitel, Tabellenfußzeile, Abschnittstitel und Zusammenfassungszeilen innerhalb der Tabellenstruktur. Für ein ähnliches Dokument vor dieser Erweiterung ist die Tabellenfunktion darin enthalten AnalyzeDocument hätte diese Elemente als Zellen identifiziert und Titel und Fußzeilen, die außerhalb der Tabellengrenzen vorhanden sind, nicht extrahiert. In solchen Fällen war eine benutzerdefinierte Nachverarbeitungslogik erforderlich, um solche Informationen zu identifizieren oder sie separat aus der JSON-Ausgabe der API zu extrahieren. Mit dieser Ankündigung von Verbesserungen der Tabellenfunktion wird die Extraktion verschiedener Aspekte von Tabellendaten viel einfacher.

Im April 2023 führte Amazon Textract die Möglichkeit ein, in Dokumenten vorhandene Titel, Fußzeilen, Abschnittstitel und Zusammenfassungszeilen über die Tabellenfunktion automatisch zu erkennen. In diesem Beitrag besprechen wir diese Verbesserungen und geben Beispiele, die Ihnen helfen, sie zu verstehen und in Ihren Dokumentenverarbeitungs-Workflows zu verwenden. Wir zeigen anhand von Codebeispielen, wie Sie diese Verbesserungen nutzen können, um die API zu verwenden und die Antwort mit zu verarbeiten Amazon Textract Textractor-Bibliothek.

Lösungsübersicht

Das folgende Bild zeigt, dass das aktualisierte Modell nicht nur die Tabelle im Dokument identifiziert, sondern alle entsprechenden Tabellenkopf- und -fußzeilen. Dieses Beispieldokument für einen Finanzbericht enthält Tabellentitel, Fußzeile, Abschnittstitel und Zusammenfassungszeilen.

Finanzbericht mit Tabelle

Die Funktionserweiterung „Tabellen“ bietet Unterstützung für vier neue Elemente in der API-Antwort, mit denen Sie jedes dieser Tabellenelemente problemlos extrahieren können, und fügt die Möglichkeit hinzu, den Tabellentyp zu unterscheiden.

Tischelemente

Amazon Textract kann mehrere Komponenten einer Tabelle identifizieren, z. B. Tabellenzellen und verbundene Zellen. Diese Komponenten, bekannt als BlockObjekte kapseln die mit der Komponente verbundenen Details, z. B. die Begrenzungsgeometrie, Beziehungen und den Konfidenzwert. A Block stellt Elemente dar, die in einem Dokument innerhalb einer Gruppe von Pixeln erkannt werden, die nahe beieinander liegen. Die folgenden sind die neuen Tischblöcke in dieser Erweiterung eingeführt:

Tabellentitel - Eine neue Block Typ namens TABLE_TITLE Dadurch können Sie den Titel einer bestimmten Tabelle identifizieren. Titel können aus einer oder mehreren Zeilen bestehen, die sich normalerweise über einer Tabelle befinden oder als Zelle in der Tabelle eingebettet sind.
Tabellenfußzeilen - Eine neue Block Typ namens TABLE_FOOTER Dadurch können Sie die mit einer bestimmten Tabelle verknüpften Fußzeilen identifizieren. Fußzeilen können aus einer oder mehreren Zeilen bestehen, die normalerweise unter der Tabelle liegen oder als Zelle in der Tabelle eingebettet sind.
Abschnittsüberschrift - Eine neue Block Typ namens TABLE_SECTION_TITLE Dadurch können Sie erkennen, ob es sich bei der erkannten Zelle um einen Abschnittstitel handelt.
Zusammenfassungszellen - Eine neue Block Typ namens TABLE_SUMMARY Dadurch können Sie erkennen, ob es sich bei der Zelle um eine Zusammenfassungszelle handelt, beispielsweise um eine Zelle für Summen auf einer Gehaltsabrechnung.

Finanzbericht mit Tabellenelementen

Arten von Tabellen

Wenn Amazon Textract eine Tabelle in einem Dokument identifiziert, extrahiert es alle Details der Tabelle in eine oberste Ebene Block Art der TABLE. Tische können in verschiedenen Formen und Größen erhältlich sein. Beispielsweise enthalten Dokumente häufig Tabellen, die möglicherweise einen erkennbaren Tabellenkopf haben oder nicht. Um die Unterscheidung dieser Tabellentypen zu erleichtern, haben wir zwei neue Entitätstypen für a hinzugefügt TABLE Block: SEMI_STRUCTURED_TABLE und STRUCTURED_TABLE. Mithilfe dieser Entitätstypen können Sie zwischen einer strukturierten und einer halbstrukturierten Tabelle unterscheiden.

Strukturierte Tabellen sind Tabellen mit klar definierten Spaltenüberschriften. Bei halbstrukturierten Tabellen folgen die Daten jedoch möglicherweise keiner strengen Struktur. Beispielsweise können Daten in einer Tabellenstruktur angezeigt werden, bei der es sich nicht um eine Tabelle mit definierten Überschriften handelt. Die neuen Entitätstypen bieten die Flexibilität, auszuwählen, welche Tabellen während der Nachbearbeitung beibehalten oder entfernt werden sollen. Das folgende Bild zeigt ein Beispiel dafür STRUCTURED_TABLE und SEMI_STRUCTURED_TABLE.

Tabellentypen

Analysieren der API-Ausgabe

In diesem Abschnitt untersuchen wir, wie Sie das verwenden können Amazon Textract Textractor-Bibliothek um die API-Ausgabe von nachzubearbeiten AnalyzeDocument mit den Erweiterungen der Tabellenfunktion. Dadurch können Sie relevante Informationen aus Tabellen extrahieren.

Textractor ist eine Bibliothek, die für die nahtlose Zusammenarbeit mit Amazon Textract-APIs und -Dienstprogrammen erstellt wurde, um die von den APIs zurückgegebenen JSON-Antworten anschließend in programmierbare Objekte umzuwandeln. Sie können es auch verwenden, um Entitäten im Dokument zu visualisieren und die Daten in Formaten wie CSV-Dateien (Comma-Separated Values) zu exportieren. Es soll Amazon Textract-Kunden beim Einrichten ihrer Nachbearbeitungspipelines helfen.

In unseren Beispielen verwenden wir die folgende Beispielseite aus einem 10-K-SEC-Einreichungsdokument.

10-K SEC-Einreichungsdokument

Den folgenden Code finden Sie in unserem GitHub-Repository. Um dieses Dokument zu verarbeiten, nutzen wir die Textractor-Bibliothek und importieren sie, damit wir die API-Ausgaben nachbearbeiten und die Daten visualisieren können:

pip install amazon-textract-textractor

Der erste Schritt besteht darin, Amazon Textract aufzurufen AnalyzeDocument mit Tabellenfunktion, gekennzeichnet durch das features=[TextractFeatures.TABLES] Parameter zum Extrahieren der Tabelleninformationen. Beachten Sie, dass diese Methode die Echtzeit- (oder synchrone) Methode aufruft. Dokument analysieren API, die einseitige Dokumente unterstützt. Sie können jedoch die verwenden asynchron StartDocumentAnalysis API zur Verarbeitung mehrseitiger Dokumente (mit bis zu 3,000 Seiten).

from PIL import Image
from textractor import Textractor
from textractor.visualizers.entitylist import EntityList
from textractor.data.constants import TextractFeatures, Direction, DirectionalFinderType
image = Image.open("sec_filing.png") # loads the document image with Pillow
extractor = Textractor(region_name="us-east-1") # Initialize textractor client, modify region if required
document = extractor.analyze_document( file_source=image, features=[TextractFeatures.TABLES], save_image=True
)

Das document Das Objekt enthält Metadaten über das Dokument, die überprüft werden können. Beachten Sie, dass eine Tabelle im Dokument zusammen mit anderen Entitäten im Dokument erkannt wird:

This document holds the following data:
Pages - 1
Words - 658
Lines - 122
Key-values - 0
Checkboxes - 0
Tables - 1
Queries - 0
Signatures - 0
Identity Documents - 0
Expense Documents – 0

Nachdem wir nun über die API-Ausgabe verfügen, die die Tabelleninformationen enthält, visualisieren wir die verschiedenen Elemente der Tabelle mithilfe der zuvor besprochenen Antwortstruktur:

table = EntityList(document.tables[0])
document.tables[0].visualize()

10-K SEC-Einreichungsdokumenttabelle hervorgehoben

Die Textractor-Bibliothek hebt die verschiedenen Entitäten in der erkannten Tabelle mit einem anderen Farbcode für jedes Tabellenelement hervor. Lassen Sie uns genauer untersuchen, wie wir jedes Element extrahieren können. Der folgende Codeausschnitt demonstriert das Extrahieren des Tabellentitels:

table_title = table[0].title.text
table_title 'The following table summarizes, by major security type, our cash, cash equivalents, restricted cash, and marketable securities that are measured at fair value on a recurring basis and are categorized using the fair value hierarchy (in millions):'

Ebenso können wir den folgenden Code verwenden, um die Fußzeilen der Tabelle zu extrahieren. Beachten Sie, dass es sich bei table_footers um eine Liste handelt, was bedeutet, dass der Tabelle eine oder mehrere Fußzeilen zugeordnet sein können. Wir können diese Liste durchlaufen, um alle vorhandenen Fußzeilen anzuzeigen. Wie im folgenden Codeausschnitt gezeigt, zeigt die Ausgabe drei Fußzeilen an:

table_footers = table[0].footers
for footers in table_footers: print (footers.text) (1) The related unrealized gain (loss) recorded in "Other income (expense), net" was $(116) million and $1.0 billion in Q3 2021 and Q3 2022, and $6 million and $(11.3) billion for the nine months ended September 30, 2021 and 2022. (2) We are required to pledge or otherwise restrict a portion of our cash, cash equivalents, and marketable fixed income securities primarily as collateral for real estate, amounts due to third-party sellers in certain jurisdictions, debt, and standby and trade letters of credit. We classify cash, cash equivalents, and marketable fixed income securities with use restrictions of less than twelve months as "Accounts receivable, net and other" and of twelve months or longer as non-current "Other assets" on our consolidated balance sheets. See "Note 4 - Commitments and Contingencies." (3) Our equity investment in Rivian had a fair value of $15.6 billion and $5.2 billion as of December 31, 2021 and September 30, 2022, respectively. The investment was subject to regulatory sales restrictions resulting in a discount for lack of marketability of approximately $800 million as of December 31, 2021, which expired in Q1 2022.

Generieren von Daten für die nachgelagerte Aufnahme

Die Textractor-Bibliothek hilft Ihnen außerdem dabei, die Aufnahme von Tabellendaten in nachgelagerte Systeme oder andere Arbeitsabläufe zu vereinfachen. Beispielsweise können Sie die extrahierten Tabellendaten in eine für Menschen lesbare Microsoft Excel-Datei exportieren. Zum Zeitpunkt des Verfassens dieses Artikels ist dies das einzige Format, das zusammengeführte Tabellen unterstützt.

table[0].to_excel(filepath="sec_filing.xlsx")

Tabelle zu Excel

Wir können es auch in a umwandeln Pandas DataFrame. DataFrame ist eine beliebte Wahl für die Datenbearbeitung, -analyse und -visualisierung in Programmiersprachen wie Python und R.

In Python ist DataFrame eine primäre Datenstruktur in der Pandas-Bibliothek. Es ist flexibel und leistungsstark und oft die erste Wahl für Datenanalyseexperten für verschiedene Datenanalyse- und ML-Aufgaben. Der folgende Codeausschnitt zeigt, wie die extrahierten Tabelleninformationen mit einer einzigen Codezeile in einen DataFrame konvertiert werden:

df=table[0].to_pandas()
df

Tabelle zu DataFrame

Zuletzt können wir die Tabellendaten in eine CSV-Datei konvertieren. CSV-Dateien werden häufig zur Aufnahme von Daten in relationale Datenbanken oder Data Warehouses verwendet. Siehe den folgenden Code:

table[0].to_csv() ',0,1,2,3,4,5n0,,"December 31, 2021",,September,"30, 2022",n1,,Total Estimated Fair Value,Cost or Amortized Cost,Gross Unrealized Gains,Gross Unrealized Losses,Total Estimated Fair Valuen2,Cash,"$ 10,942","$ 10,720",$ -,$ -,"$ 10,720"n3,Level 1 securities:,,,,,n4,Money market funds,"20,312","16,697",-,-,"16,697"n5,Equity securities (1)(3),"1,646",,,,"5,988"n6,Level 2 securities:,,,,,n7,Foreign government and agency securities,181,141,-,(2),139n8,U.S. government and agency securities,"4,300","2,301",-,(169),"2,132"n9,Corporate debt securities,"35,764","20,229",-,(799),"19,430"n10,Asset-backed securities,"6,738","3,578",-,(191),"3,387"n11,Other fixed income securities,686,403,-,(22),381n12,Equity securities (1)(3),"15,740",,,,19n13,,"$ 96,309","$ 54,069",$ -,"$ (1,183)","$ 58,893"n14,"Less: Restricted cash, cash equivalents, and marketable securities (2)",(260),,,,(231)n15,"Total cash, cash equivalents, and marketable securities","$ 96,049",,,,"$ 58,662"n'</p><h2> </h2>

Zusammenfassung

Die Einführung dieser neuen Block- und Entitätstypen (TABLE_TITLE, TABLE_FOOTER, STRUCTURED_TABLE, SEMI_STRUCTURED_TABLE, TABLE_SECTION_TITLE, TABLE_FOOTER und TABLE_SUMMARY) stellt einen bedeutenden Fortschritt bei der Extraktion tabellarischer Strukturen aus Dokumenten mit Amazon Textract dar.

Diese Tools bieten einen differenzierteren und flexibleren Ansatz, der sowohl strukturierte als auch halbstrukturierte Tabellen berücksichtigt und sicherstellt, dass keine wichtigen Daten übersehen werden, unabhängig von ihrer Position in einem Dokument.

Das bedeutet, dass wir nun verschiedene Datentypen und Tabellenstrukturen mit erhöhter Effizienz und Genauigkeit verarbeiten können. Da wir weiterhin die Möglichkeiten der Automatisierung in Dokumentenverarbeitungs-Workflows nutzen, werden diese Verbesserungen zweifellos den Weg für optimierte Workflows, höhere Produktivität und aufschlussreichere Datenanalysen ebnen. Weitere Informationen zu AnalyzeDocument und die Tabellenfunktion finden Sie unter Dokument analysieren.

Über die Autoren

Raj Pathak ist ein Senior Solutions Architect und Technologe, der sich auf Finanzdienstleistungen (Versicherungen, Banken, Kapitalmärkte) und maschinelles Lernen spezialisiert hat. Er ist spezialisiert auf Natural Language Processing (NLP), Large Language Models (LLM) und Machine Learning Infrastructure and Operations Projects (MLOps).

Anjan Biswas ist Senior AI Services Solutions Architect mit Fokus auf AI/ML und Data Analytics. Anjan ist Teil des weltweiten KI-Serviceteams und arbeitet mit Kunden zusammen, um ihnen zu helfen, Geschäftsprobleme mit KI und ML zu verstehen und Lösungen für diese zu entwickeln. Anjan verfügt über mehr als 14 Jahre Erfahrung in der Arbeit mit globalen Lieferketten-, Fertigungs- und Einzelhandelsorganisationen und hilft Kunden aktiv beim Einstieg und bei der Skalierung von AWS-KI-Services.

Lalita Reddi ist Senior Technical Product Manager im Amazon Textract-Team. Sie konzentriert sich auf die Entwicklung von auf maschinellem Lernen basierenden Diensten für AWS-Kunden. In ihrer Freizeit spielt Lalita gerne Brettspiele und unternimmt Wanderungen.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
EVM-Finanzen. Einheitliche Schnittstelle für dezentrale Finanzen. Hier zugreifen.
Quantum Media Group. IR/PR verstärkt. Hier zugreifen.
PlatoAiStream. Web3-Datenintelligenz. Wissen verstärkt. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/

Zeitstempel: 7. Juni 2023

Zeitstempel: 23. Mai 2023

Neuauflage von Plato

Modulares Funktionsdesign für Advanced Driver Assistance Systems (ADAS) auf AWS

Verbinden Sie Amazon EMR und RStudio auf Amazon SageMaker

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto