Aankondiging van verbeterde tabelextracties met Amazon Textract

Heruitgegeven door Plato

volgers: 0

Amazon T-extract is een machine learning (ML)-service die automatisch tekst, handschrift en gegevens uit elk document of elke afbeelding extraheert. Amazon Textract heeft een Tables-functie binnen de AnalyseDocument API die de mogelijkheid biedt om automatisch tabelstructuren uit elk document te extraheren. In dit bericht bespreken we de verbeteringen die zijn aangebracht aan de Tafels functie en hoe het gemakkelijker wordt om informatie in tabelstructuren te extraheren uit een grote verscheidenheid aan documenten.

Tabelstructuren in documenten zoals financiële rapporten, loonstroken en analysecertificatenbestanden zijn vaak zo opgemaakt dat informatie gemakkelijk kan worden geïnterpreteerd. Ze bevatten vaak ook informatie zoals tabeltitel, tabelvoettekst, sectietitel en overzichtsrijen binnen de tabelstructuur voor een betere leesbaarheid en organisatie. Voor een soortgelijk document voorafgaand aan deze verbetering, de functie Tabellen binnen AnalyzeDocument zou die elementen hebben geïdentificeerd als cellen, en het heeft geen titels en voetteksten geëxtraheerd die aanwezig zijn buiten de grenzen van de tabel. In dergelijke gevallen was aangepaste naverwerkingslogica nodig om dergelijke informatie te identificeren of afzonderlijk uit de JSON-uitvoer van de API te extraheren. Met deze aankondiging van verbeteringen aan de tabelfunctie wordt het extraheren van verschillende aspecten van tabelgegevens veel eenvoudiger.

In april 2023 introduceerde Amazon Textract de mogelijkheid om automatisch titels, voetteksten, sectietitels en overzichtsrijen in documenten te detecteren via de functie Tabellen. In dit bericht bespreken we deze verbeteringen en geven we voorbeelden om u te helpen ze te begrijpen en te gebruiken in uw documentverwerkingsworkflows. We laten zien hoe u deze verbeteringen kunt gebruiken aan de hand van codevoorbeelden om de API te gebruiken en het antwoord te verwerken met de Amazon Textract Textractor-bibliotheek.

Overzicht van de oplossing

De volgende afbeelding laat zien dat het bijgewerkte model niet alleen de tabel in het document identificeert, maar ook alle corresponderende tabelkop- en voetteksten. Dit voorbeeld van een financieel rapportdocument bevat tabeltitel, voettekst, sectietitel en overzichtsrijen.

Financieel verslag met tabel

De verbetering van de Tables-functie voegt ondersteuning toe voor vier nieuwe elementen in de API-respons waarmee u elk van deze tabelelementen gemakkelijk kunt extraheren, en voegt de mogelijkheid toe om het type tabel te onderscheiden.

Tabel elementen

Amazon Textract kan verschillende componenten van een tabel identificeren, zoals tabelcellen en samengevoegde cellen. Deze componenten, bekend als Blockobjecten, bevatten de details met betrekking tot de component, zoals de begrenzende geometrie, relaties en betrouwbaarheidsscore. A Block vertegenwoordigt items die worden herkend in een document binnen een groep pixels dicht bij elkaar. De volgende zijn de nieuwe Tabel Blokken geïntroduceerd in deze verbetering:

Tabel titel - Een nieuwe Block type genaamd TABLE_TITLE waarmee u de titel van een bepaalde tabel kunt identificeren. Titels kunnen een of meer regels zijn, die meestal boven een tabel staan of als een cel in de tabel zijn ingesloten.
Tabel voetteksten - Een nieuwe Block type genaamd TABLE_FOOTER waarmee u de voetteksten kunt identificeren die aan een bepaalde tabel zijn gekoppeld. Voetteksten kunnen een of meer regels zijn die doorgaans onder de tabel staan of als een cel in de tabel zijn ingesloten.
Sectietitel - Een nieuwe Block type genaamd TABLE_SECTION_TITLE waarmee u kunt identificeren of de gedetecteerde cel een sectietitel is.
Samenvatting cellen - Een nieuwe Block type genaamd TABLE_SUMMARY waarmee u kunt bepalen of de cel een samenvattingscel is, zoals een cel voor totalen op een loonstrook.

Financieel verslag met tabelelementen

Soorten tafels

Wanneer Amazon Textract een tabel in een document identificeert, extraheert het alle details van de tabel naar een topniveau Block soort van TABLE. Tafels zijn er in verschillende soorten en maten. Documenten bevatten bijvoorbeeld vaak tabellen die al dan niet een herkenbare tabelkop hebben. Om onderscheid te maken tussen deze typen tabellen, hebben we twee nieuwe entiteitstypen toegevoegd voor a TABLE Block: SEMI_STRUCTURED_TABLE en STRUCTURED_TABLE. Deze entiteitstypen helpen u onderscheid te maken tussen een gestructureerde en een semigestructureerde tabel.

Gestructureerde tabellen zijn tabellen met duidelijk gedefinieerde kolomkoppen. Maar met semi-gestructureerde tabellen volgen de gegevens mogelijk geen strikte structuur. Gegevens kunnen bijvoorbeeld worden weergegeven in een tabelstructuur die geen tabel is met gedefinieerde kopteksten. De nieuwe entiteitstypen bieden de flexibiliteit om te kiezen welke tabellen u wilt behouden of verwijderen tijdens de nabewerking. De volgende afbeelding toont een voorbeeld van STRUCTURED_TABLE en SEMI_STRUCTURED_TABLE.

Tabel typen

Analyseren van de API-uitvoer

In deze sectie onderzoeken we hoe u de Amazon Textract Textractor-bibliotheek om de API-uitvoer van te postprocessen AnalyzeDocument met de verbeteringen van de Tables-functie. Hiermee kunt u relevante informatie uit tabellen halen.

Textractor is een bibliotheek die is gemaakt om naadloos samen te werken met Amazon Textract API's en hulpprogramma's om vervolgens de JSON-antwoorden die door de API's worden geretourneerd, om te zetten in programmeerbare objecten. U kunt het ook gebruiken om entiteiten in het document te visualiseren en de gegevens te exporteren in indelingen zoals bestanden met door komma's gescheiden waarden (CSV). Het is bedoeld om klanten van Amazon Textract te helpen bij het opzetten van hun postprocessing-pijplijnen.

In onze voorbeelden gebruiken we de volgende voorbeeldpagina van een 10-K SEC archiveringsdocument.

10-K SEC-archiveringsdocument

De volgende code is te vinden in onze GitHub-repository. Om dit document te verwerken, maken we gebruik van de Textractor-bibliotheek en importeren we deze zodat we de API-uitvoer kunnen nabewerken en de gegevens kunnen visualiseren:

pip install amazon-textract-textractor

De eerste stap is om Amazon Textract te bellen AnalyzeDocument met Tables-functie, aangeduid met de features=[TextractFeatures.TABLES] parameter om de tabelinformatie te extraheren. Merk op dat deze methode de real-time (of synchrone) AnalyseDocument API, die documenten van één pagina ondersteunt. U kunt echter de asynchrone StartDocumentAnalysis API om documenten met meerdere pagina's te verwerken (tot 3,000 pagina's).

from PIL import Image
from textractor import Textractor
from textractor.visualizers.entitylist import EntityList
from textractor.data.constants import TextractFeatures, Direction, DirectionalFinderType
image = Image.open("sec_filing.png") # loads the document image with Pillow
extractor = Textractor(region_name="us-east-1") # Initialize textractor client, modify region if required
document = extractor.analyze_document( file_source=image, features=[TextractFeatures.TABLES], save_image=True
)

De document object bevat metagegevens over het document die kunnen worden beoordeeld. Merk op dat het één tabel in het document herkent samen met andere entiteiten in het document:

This document holds the following data:
Pages - 1
Words - 658
Lines - 122
Key-values - 0
Checkboxes - 0
Tables - 1
Queries - 0
Signatures - 0
Identity Documents - 0
Expense Documents – 0

Nu we de API-uitvoer hebben die de tabelinformatie bevat, visualiseren we de verschillende elementen van de tabel met behulp van de eerder besproken antwoordstructuur:

table = EntityList(document.tables[0])
document.tables[0].visualize()

10-K SEC archivering documenttabel gemarkeerd

De Textractor-bibliotheek markeert de verschillende entiteiten binnen de gedetecteerde tabel met een andere kleurcode voor elk tabelelement. Laten we dieper ingaan op hoe we elk element kunnen extraheren. Het volgende codefragment demonstreert het extraheren van de titel van de tabel:

table_title = table[0].title.text
table_title 'The following table summarizes, by major security type, our cash, cash equivalents, restricted cash, and marketable securities that are measured at fair value on a recurring basis and are categorized using the fair value hierarchy (in millions):'

Op dezelfde manier kunnen we de volgende code gebruiken om de voetteksten van de tabel te extraheren. Merk op dat table_footers een lijst is, wat betekent dat er een of meer footers aan de tabel kunnen zijn gekoppeld. We kunnen deze lijst herhalen om alle aanwezige voetteksten te zien, en zoals te zien is in het volgende codefragment, geeft de uitvoer drie voetteksten weer:

table_footers = table[0].footers
for footers in table_footers: print (footers.text) (1) The related unrealized gain (loss) recorded in "Other income (expense), net" was $(116) million and $1.0 billion in Q3 2021 and Q3 2022, and $6 million and $(11.3) billion for the nine months ended September 30, 2021 and 2022. (2) We are required to pledge or otherwise restrict a portion of our cash, cash equivalents, and marketable fixed income securities primarily as collateral for real estate, amounts due to third-party sellers in certain jurisdictions, debt, and standby and trade letters of credit. We classify cash, cash equivalents, and marketable fixed income securities with use restrictions of less than twelve months as "Accounts receivable, net and other" and of twelve months or longer as non-current "Other assets" on our consolidated balance sheets. See "Note 4 - Commitments and Contingencies." (3) Our equity investment in Rivian had a fair value of $15.6 billion and $5.2 billion as of December 31, 2021 and September 30, 2022, respectively. The investment was subject to regulatory sales restrictions resulting in a discount for lack of marketability of approximately $800 million as of December 31, 2021, which expired in Q1 2022.

Gegevens genereren voor stroomafwaartse opname

De Textractor-bibliotheek helpt u ook om de opname van tabelgegevens in downstream-systemen of andere workflows te vereenvoudigen. U kunt de geëxtraheerde tabelgegevens bijvoorbeeld exporteren naar een voor mensen leesbaar Microsoft Excel-bestand. Op het moment van schrijven is dit het enige formaat dat samengevoegde tabellen ondersteunt.

table[0].to_excel(filepath="sec_filing.xlsx")

Tabel naar Excel

We kunnen het ook omzetten naar een Panda's DataFrame. DataFrame is een populaire keuze voor gegevensmanipulatie, analyse en visualisatie in programmeertalen zoals Python en R.

In Python is DataFrame een primaire gegevensstructuur in de Pandas-bibliotheek. Het is flexibel en krachtig en is vaak de eerste keuze voor data-analyseprofessionals voor verschillende data-analyse en ML-taken. Het volgende codefragment laat zien hoe de geëxtraheerde tabelinformatie kan worden geconverteerd naar een DataFrame met een enkele regel code:

df=table[0].to_pandas()
df

Tabel naar DataFrame

Ten slotte kunnen we de tabelgegevens converteren naar een CSV-bestand. CSV-bestanden worden vaak gebruikt om gegevens op te nemen in relationele databases of datawarehouses. Zie de volgende code:

table[0].to_csv() ',0,1,2,3,4,5n0,,"December 31, 2021",,September,"30, 2022",n1,,Total Estimated Fair Value,Cost or Amortized Cost,Gross Unrealized Gains,Gross Unrealized Losses,Total Estimated Fair Valuen2,Cash,"$ 10,942","$ 10,720",$ -,$ -,"$ 10,720"n3,Level 1 securities:,,,,,n4,Money market funds,"20,312","16,697",-,-,"16,697"n5,Equity securities (1)(3),"1,646",,,,"5,988"n6,Level 2 securities:,,,,,n7,Foreign government and agency securities,181,141,-,(2),139n8,U.S. government and agency securities,"4,300","2,301",-,(169),"2,132"n9,Corporate debt securities,"35,764","20,229",-,(799),"19,430"n10,Asset-backed securities,"6,738","3,578",-,(191),"3,387"n11,Other fixed income securities,686,403,-,(22),381n12,Equity securities (1)(3),"15,740",,,,19n13,,"$ 96,309","$ 54,069",$ -,"$ (1,183)","$ 58,893"n14,"Less: Restricted cash, cash equivalents, and marketable securities (2)",(260),,,,(231)n15,"Total cash, cash equivalents, and marketable securities","$ 96,049",,,,"$ 58,662"n'</p><h2> </h2>

Conclusie

De introductie van deze nieuwe blok- en entiteitstypen (TABLE_TITLE, TABLE_FOOTER, STRUCTURED_TABLE, SEMI_STRUCTURED_TABLE, TABLE_SECTION_TITLE, TABLE_FOOTER en TABLE_SUMMARY) markeert een aanzienlijke vooruitgang in het extraheren van tabelstructuren uit documenten met Amazon Textract.

Deze tools bieden een meer genuanceerde en flexibele benadering, geschikt voor zowel gestructureerde als semigestructureerde tabellen en zorgen ervoor dat er geen belangrijke gegevens over het hoofd worden gezien, ongeacht de locatie in een document.

Dit betekent dat we nu met verbeterde efficiëntie en nauwkeurigheid verschillende gegevenstypen en tabelstructuren kunnen verwerken. Terwijl we de kracht van automatisering in workflows voor documentverwerking blijven omarmen, zullen deze verbeteringen ongetwijfeld de weg vrijmaken voor meer gestroomlijnde workflows, hogere productiviteit en meer inzichtelijke data-analyse. Voor meer informatie over AnalyzeDocument en de Tables-functie, zie AnalyseDocument.

Over de auteurs

Raj Pathak is een Senior Solutions Architect en technoloog, gespecialiseerd in financiële diensten (verzekeringen, banken, kapitaalmarkten) en machine learning. Hij is gespecialiseerd in Natural Language Processing (NLP), Large Language Models (LLM) en Machine Learning Infrastructure and Operations Projects (MLOps).

Anjan Biswas is een Senior AI Services Solutions Architect met focus op AI/ML en Data Analytics. Anjan maakt deel uit van het wereldwijde AI-serviceteam en werkt samen met klanten om hen te helpen bij het begrijpen en ontwikkelen van oplossingen voor zakelijke problemen met AI en ML. Anjan heeft meer dan 14 jaar ervaring in het werken met wereldwijde supply chain-, productie- en retailorganisaties en helpt klanten actief om aan de slag te gaan en op te schalen met AWS AI-services.

Lalita Reddi is een Senior Technical Product Manager bij het Amazon Textract-team. Ze richt zich op het bouwen van op machine learning gebaseerde services voor AWS-klanten. In haar vrije tijd speelt Lalita graag bordspellen en maakt ze graag wandelingen.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
EVM Financiën. Uniforme interface voor gedecentraliseerde financiën. Toegang hier.
Quantum Media Groep. IR/PR versterkt. Toegang hier.
PlatoAiStream. Web3 gegevensintelligentie. Kennis versterkt. Toegang hier.
Bron: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/

Tijdstempel: 7 June 2023

Tijdstempel: Juli 11, 2023

Heruitgegeven door Plato

ByteDance bespaart tot 60% op inferentiekosten terwijl de latentie wordt verminderd en de doorvoer wordt verhoogd met behulp van AWS Inferentia

Maak video-ondertitels met Amazon Transcribe met behulp van deze workflow zonder code

Bongo Learn biedt realtime feedback om de leerresultaten te verbeteren met Amazon Transcribe

Voer wat-als-analyses uit met Amazon Forecast, tot 80% sneller dan voorheen

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account