Amazon T-extract is een machine learning (ML)-service die automatisch tekst, handschrift en gegevens uit elk document of elke afbeelding extraheert. Amazon Textract heeft een Tables-functie binnen de AnalyseDocument API die de mogelijkheid biedt om automatisch tabelstructuren uit elk document te extraheren. In dit bericht bespreken we de verbeteringen die zijn aangebracht aan de Tafels functie en hoe het gemakkelijker wordt om informatie in tabelstructuren te extraheren uit een grote verscheidenheid aan documenten.
Tabelstructuren in documenten zoals financiële rapporten, loonstroken en analysecertificatenbestanden zijn vaak zo opgemaakt dat informatie gemakkelijk kan worden geïnterpreteerd. Ze bevatten vaak ook informatie zoals tabeltitel, tabelvoettekst, sectietitel en overzichtsrijen binnen de tabelstructuur voor een betere leesbaarheid en organisatie. Voor een soortgelijk document voorafgaand aan deze verbetering, de functie Tabellen binnen AnalyzeDocument
zou die elementen hebben geïdentificeerd als cellen, en het heeft geen titels en voetteksten geëxtraheerd die aanwezig zijn buiten de grenzen van de tabel. In dergelijke gevallen was aangepaste naverwerkingslogica nodig om dergelijke informatie te identificeren of afzonderlijk uit de JSON-uitvoer van de API te extraheren. Met deze aankondiging van verbeteringen aan de tabelfunctie wordt het extraheren van verschillende aspecten van tabelgegevens veel eenvoudiger.
In april 2023 introduceerde Amazon Textract de mogelijkheid om automatisch titels, voetteksten, sectietitels en overzichtsrijen in documenten te detecteren via de functie Tabellen. In dit bericht bespreken we deze verbeteringen en geven we voorbeelden om u te helpen ze te begrijpen en te gebruiken in uw documentverwerkingsworkflows. We laten zien hoe u deze verbeteringen kunt gebruiken aan de hand van codevoorbeelden om de API te gebruiken en het antwoord te verwerken met de Amazon Textract Textractor-bibliotheek.
Overzicht van de oplossing
De volgende afbeelding laat zien dat het bijgewerkte model niet alleen de tabel in het document identificeert, maar ook alle corresponderende tabelkop- en voetteksten. Dit voorbeeld van een financieel rapportdocument bevat tabeltitel, voettekst, sectietitel en overzichtsrijen.
De verbetering van de Tables-functie voegt ondersteuning toe voor vier nieuwe elementen in de API-respons waarmee u elk van deze tabelelementen gemakkelijk kunt extraheren, en voegt de mogelijkheid toe om het type tabel te onderscheiden.
Tabel elementen
Amazon Textract kan verschillende componenten van een tabel identificeren, zoals tabelcellen en samengevoegde cellen. Deze componenten, bekend als Block
objecten, bevatten de details met betrekking tot de component, zoals de begrenzende geometrie, relaties en betrouwbaarheidsscore. A Block
vertegenwoordigt items die worden herkend in een document binnen een groep pixels dicht bij elkaar. De volgende zijn de nieuwe Tabel Blokken geïntroduceerd in deze verbetering:
- Tabel titel - Een nieuwe
Block
type genaamdTABLE_TITLE
waarmee u de titel van een bepaalde tabel kunt identificeren. Titels kunnen een of meer regels zijn, die meestal boven een tabel staan of als een cel in de tabel zijn ingesloten. - Tabel voetteksten - Een nieuwe
Block
type genaamdTABLE_FOOTER
waarmee u de voetteksten kunt identificeren die aan een bepaalde tabel zijn gekoppeld. Voetteksten kunnen een of meer regels zijn die doorgaans onder de tabel staan of als een cel in de tabel zijn ingesloten. - Sectietitel - Een nieuwe
Block
type genaamdTABLE_SECTION_TITLE
waarmee u kunt identificeren of de gedetecteerde cel een sectietitel is. - Samenvatting cellen - Een nieuwe
Block
type genaamdTABLE_SUMMARY
waarmee u kunt bepalen of de cel een samenvattingscel is, zoals een cel voor totalen op een loonstrook.
Soorten tafels
Wanneer Amazon Textract een tabel in een document identificeert, extraheert het alle details van de tabel naar een topniveau Block
soort van TABLE
. Tafels zijn er in verschillende soorten en maten. Documenten bevatten bijvoorbeeld vaak tabellen die al dan niet een herkenbare tabelkop hebben. Om onderscheid te maken tussen deze typen tabellen, hebben we twee nieuwe entiteitstypen toegevoegd voor a TABLE Block
: SEMI_STRUCTURED_TABLE
en STRUCTURED_TABLE
. Deze entiteitstypen helpen u onderscheid te maken tussen een gestructureerde en een semigestructureerde tabel.
Gestructureerde tabellen zijn tabellen met duidelijk gedefinieerde kolomkoppen. Maar met semi-gestructureerde tabellen volgen de gegevens mogelijk geen strikte structuur. Gegevens kunnen bijvoorbeeld worden weergegeven in een tabelstructuur die geen tabel is met gedefinieerde kopteksten. De nieuwe entiteitstypen bieden de flexibiliteit om te kiezen welke tabellen u wilt behouden of verwijderen tijdens de nabewerking. De volgende afbeelding toont een voorbeeld van STRUCTURED_TABLE
en SEMI_STRUCTURED_TABLE
.
Analyseren van de API-uitvoer
In deze sectie onderzoeken we hoe u de Amazon Textract Textractor-bibliotheek om de API-uitvoer van te postprocessen AnalyzeDocument
met de verbeteringen van de Tables-functie. Hiermee kunt u relevante informatie uit tabellen halen.
Textractor is een bibliotheek die is gemaakt om naadloos samen te werken met Amazon Textract API's en hulpprogramma's om vervolgens de JSON-antwoorden die door de API's worden geretourneerd, om te zetten in programmeerbare objecten. U kunt het ook gebruiken om entiteiten in het document te visualiseren en de gegevens te exporteren in indelingen zoals bestanden met door komma's gescheiden waarden (CSV). Het is bedoeld om klanten van Amazon Textract te helpen bij het opzetten van hun postprocessing-pijplijnen.
In onze voorbeelden gebruiken we de volgende voorbeeldpagina van een 10-K SEC archiveringsdocument.
De volgende code is te vinden in onze GitHub-repository. Om dit document te verwerken, maken we gebruik van de Textractor-bibliotheek en importeren we deze zodat we de API-uitvoer kunnen nabewerken en de gegevens kunnen visualiseren:
De eerste stap is om Amazon Textract te bellen AnalyzeDocument
met Tables-functie, aangeduid met de features=[TextractFeatures.TABLES]
parameter om de tabelinformatie te extraheren. Merk op dat deze methode de real-time (of synchrone) AnalyseDocument API, die documenten van één pagina ondersteunt. U kunt echter de asynchrone StartDocumentAnalysis
API om documenten met meerdere pagina's te verwerken (tot 3,000 pagina's).
De document
object bevat metagegevens over het document die kunnen worden beoordeeld. Merk op dat het één tabel in het document herkent samen met andere entiteiten in het document:
Nu we de API-uitvoer hebben die de tabelinformatie bevat, visualiseren we de verschillende elementen van de tabel met behulp van de eerder besproken antwoordstructuur:
De Textractor-bibliotheek markeert de verschillende entiteiten binnen de gedetecteerde tabel met een andere kleurcode voor elk tabelelement. Laten we dieper ingaan op hoe we elk element kunnen extraheren. Het volgende codefragment demonstreert het extraheren van de titel van de tabel:
Op dezelfde manier kunnen we de volgende code gebruiken om de voetteksten van de tabel te extraheren. Merk op dat table_footers een lijst is, wat betekent dat er een of meer footers aan de tabel kunnen zijn gekoppeld. We kunnen deze lijst herhalen om alle aanwezige voetteksten te zien, en zoals te zien is in het volgende codefragment, geeft de uitvoer drie voetteksten weer:
Gegevens genereren voor stroomafwaartse opname
De Textractor-bibliotheek helpt u ook om de opname van tabelgegevens in downstream-systemen of andere workflows te vereenvoudigen. U kunt de geëxtraheerde tabelgegevens bijvoorbeeld exporteren naar een voor mensen leesbaar Microsoft Excel-bestand. Op het moment van schrijven is dit het enige formaat dat samengevoegde tabellen ondersteunt.
We kunnen het ook omzetten naar een Panda's DataFrame. DataFrame is een populaire keuze voor gegevensmanipulatie, analyse en visualisatie in programmeertalen zoals Python en R.
In Python is DataFrame een primaire gegevensstructuur in de Pandas-bibliotheek. Het is flexibel en krachtig en is vaak de eerste keuze voor data-analyseprofessionals voor verschillende data-analyse en ML-taken. Het volgende codefragment laat zien hoe de geëxtraheerde tabelinformatie kan worden geconverteerd naar een DataFrame met een enkele regel code:
Ten slotte kunnen we de tabelgegevens converteren naar een CSV-bestand. CSV-bestanden worden vaak gebruikt om gegevens op te nemen in relationele databases of datawarehouses. Zie de volgende code:
Conclusie
De introductie van deze nieuwe blok- en entiteitstypen (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
en TABLE_SUMMARY
) markeert een aanzienlijke vooruitgang in het extraheren van tabelstructuren uit documenten met Amazon Textract.
Deze tools bieden een meer genuanceerde en flexibele benadering, geschikt voor zowel gestructureerde als semigestructureerde tabellen en zorgen ervoor dat er geen belangrijke gegevens over het hoofd worden gezien, ongeacht de locatie in een document.
Dit betekent dat we nu met verbeterde efficiëntie en nauwkeurigheid verschillende gegevenstypen en tabelstructuren kunnen verwerken. Terwijl we de kracht van automatisering in workflows voor documentverwerking blijven omarmen, zullen deze verbeteringen ongetwijfeld de weg vrijmaken voor meer gestroomlijnde workflows, hogere productiviteit en meer inzichtelijke data-analyse. Voor meer informatie over AnalyzeDocument
en de Tables-functie, zie AnalyseDocument.
Over de auteurs
Raj Pathak is een Senior Solutions Architect en technoloog, gespecialiseerd in financiële diensten (verzekeringen, banken, kapitaalmarkten) en machine learning. Hij is gespecialiseerd in Natural Language Processing (NLP), Large Language Models (LLM) en Machine Learning Infrastructure and Operations Projects (MLOps).
Anjan Biswas is een Senior AI Services Solutions Architect met focus op AI/ML en Data Analytics. Anjan maakt deel uit van het wereldwijde AI-serviceteam en werkt samen met klanten om hen te helpen bij het begrijpen en ontwikkelen van oplossingen voor zakelijke problemen met AI en ML. Anjan heeft meer dan 14 jaar ervaring in het werken met wereldwijde supply chain-, productie- en retailorganisaties en helpt klanten actief om aan de slag te gaan en op te schalen met AWS AI-services.
Lalita Reddi is een Senior Technical Product Manager bij het Amazon Textract-team. Ze richt zich op het bouwen van op machine learning gebaseerde services voor AWS-klanten. In haar vrije tijd speelt Lalita graag bordspellen en maakt ze graag wandelingen.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- EVM Financiën. Uniforme interface voor gedecentraliseerde financiën. Toegang hier.
- Quantum Media Groep. IR/PR versterkt. Toegang hier.
- PlatoAiStream. Web3 gegevensintelligentie. Kennis versterkt. Toegang hier.
- Bron: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- : heeft
- :is
- :niet
- $UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- vermogen
- Over
- boven
- accounts
- nauwkeurigheid
- actief
- toegevoegd
- Voegt
- vordering
- agentschap
- AI
- AI-diensten
- AI / ML
- Steun
- Alles
- toestaat
- langs
- ook
- Amazone
- Amazon T-extract
- Amazon Web Services
- hoeveelheden
- an
- analyse
- analytics
- en
- Aankondiging
- Het aankondigen
- elke
- api
- APIs
- verschijnen
- nadering
- ongeveer
- April
- ZIJN
- AS
- aspecten
- Activa
- geassocieerd
- At
- webmaster.
- Automatisering
- AWS
- Balance
- balans
- Bankieren
- basis
- BE
- wordt
- onder
- Betere
- tussen
- Miljard
- Blok
- boord
- Gezelschapsspelletjes
- zowel
- Gebouw
- bedrijfsdeskundigen
- maar
- by
- Bellen
- Dit betekent dat we onszelf en onze geliefden praktisch vergiftigen.
- CAN
- hoofdstad
- Kapitaalmarkten
- gevallen
- Contant geld
- Cellen
- zeker
- certificaat
- keten
- keuze
- Kies
- classificeren
- duidelijk
- klant
- Sluiten
- code
- Collateral
- kleur
- Kolom
- hoe
- verplichtingen
- bestanddeel
- componenten
- vertrouwen
- bevatten
- bevat
- voortzetten
- converteren
- Bedrijfs-
- Overeenkomend
- Kosten
- aangemaakt
- Credits
- gewoonte
- Klanten
- gegevens
- gegevensanalyse
- gegevens Analytics
- Gegevensstructuur
- databanken
- Schuld
- December
- diepere
- gedefinieerd
- demonstreert
- gegevens
- gedetecteerd
- ontwikkelen
- anders
- richting
- Korting
- bespreken
- besproken
- displays
- onderscheiden
- diversen
- document
- documenten
- twijfelen
- twee
- gedurende
- elk
- gemak
- gemakkelijker
- En het is heel gemakkelijk
- doeltreffendheid
- element
- geeft je de mogelijkheid
- ingebed
- omarmen
- maakt
- verbeterde
- uitbreidingen
- entiteiten
- entiteit
- billijkheid
- equivalenten
- vastgoed
- geschat
- voorbeeld
- voorbeelden
- Excel
- ervaring
- Verken
- exporteren
- extract
- extracten
- eerlijk
- Kenmerk
- Dien in
- Bestanden
- Filing
- financieel
- financieel rapport
- financiële diensten
- Voornaam*
- vast
- vast inkomen
- Flexibiliteit
- flexibel
- Focus
- gericht
- volgen
- volgend
- Voor
- vreemd
- formaat
- gevonden
- vier
- oppompen van
- fondsen
- Krijgen
- verdiensten
- Spellen
- krijgen
- GitHub
- Geven
- gegeven
- Globaal
- Go
- Overheid
- bruto
- Groep
- HAD
- handvat
- Hebben
- he
- headers
- hulp
- het helpen van
- helpt
- haar
- hiërarchie
- hoger
- Gemarkeerd
- highlights
- Hikes
- houdt
- Hoe
- How To
- Echter
- HTML
- HTTPS
- menselijk
- geïdentificeerd
- identificeert
- identificeren
- Identiteit
- if
- beeld
- importeren
- belangrijk
- verbeteringen
- in
- omvatten
- Inkomen
- informatie
- Infrastructuur
- installeren
- verzekering
- bestemde
- interpretatie
- in
- geïntroduceerd
- Introductie
- investering
- oproept
- IT
- artikelen
- HAAR
- jpg
- json
- rechtsgebieden
- Houden
- bekend
- Gebrek
- taal
- Talen
- Groot
- leren
- minder
- Niveau
- Bibliotheek
- sympathieën
- Lijn
- lijnen
- Lijst
- LLM
- ladingen
- plaats
- logica
- langer
- uit
- verliezen
- machine
- machine learning
- gemaakt
- groot
- maken
- MERKEN
- maken
- manager
- Manipulatie
- productie
- Markt
- Markten
- Mei..
- middel
- Metadata
- methode
- Microsoft
- macht
- miljoen
- miljoenen
- ML
- MLops
- model
- modellen
- wijzigen
- geld
- geld Markt
- maanden
- meer
- veel
- Naturel
- Natural Language Processing
- noodzakelijk
- netto
- New
- nlp
- geen
- Merk op..
- nu
- object
- objecten
- of
- bieden
- Aanbod
- vaak
- on
- EEN
- Slechts
- Operations
- or
- organisatie
- organisaties
- Overige
- anders-
- onze
- uitgang
- buiten
- over
- pagina
- panda's
- parameter
- deel
- plaveien
- Plato
- Plato gegevensintelligentie
- PlatoData
- Spelen
- Populair
- deel
- Post
- energie
- krachtige
- presenteren
- die eerder
- in de eerste plaats
- primair
- Voorafgaand
- problemen
- verwerking
- Product
- product manager
- produktiviteit
- professionals
- Programming
- programmeertalen
- projecten
- zorgen voor
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- queries
- vast
- vastgoed
- real-time
- erkend
- erkent
- opgenomen
- terugkerend
- achteloos
- regio
- regelgevers
- verwant
- Relaties
- relevante
- verwijderen
- verslag
- Rapporten
- vertegenwoordigt
- nodig
- respectievelijk
- antwoord
- reacties
- beperken
- begrensd
- beperkingen
- verkregen
- <HR>Retail
- beoordeeld
- s
- verkoop
- Scale
- partituur
- naadloos
- SEC
- SEC-archivering
- sectie
- Effecten
- veiligheid
- zien
- Verkopers
- senior
- September
- service
- Diensten
- het instellen van
- verscheidene
- vormen
- ze
- getoond
- Shows
- handtekeningen
- aanzienlijke
- gelijk
- vereenvoudigen
- single
- maten
- Oplossingen
- specialiseert
- gespecialiseerd
- gestart
- Stap voor
- gestroomlijnd
- Streng
- structuur
- gestructureerde
- onderwerpen
- Hierop volgend
- dergelijk
- OVERZICHT
- leveren
- toeleveringsketen
- ondersteuning
- steunen
- Systems
- tafel
- taken
- team
- Technisch
- technoloog
- neem contact
- dat
- De
- hun
- Ze
- Er.
- Deze
- ze
- van derden
- dit
- die
- drie
- Door
- niet de tijd of
- Titel
- titels
- naar
- tools
- hoogste niveau
- Totaal
- handel
- twee
- type dan:
- types
- typisch
- ons
- Amerikaanse overheid
- begrijpen
- niet-gerealiseerde verliezen
- bijgewerkt
- us
- .
- gebruikt
- gebruik
- utilities
- waarde
- Values
- variëteit
- divers
- Tegen
- via
- visualisatie
- was
- Manier..
- we
- web
- webservices
- welke
- breed
- wil
- Met
- binnen
- woorden
- Mijn werk
- workflows
- werkzaam
- Bedrijven
- zou
- het schrijven van
- jaar
- You
- Your
- zephyrnet