Ogłaszamy ulepszone wyodrębnianie tabel z tekstem Amazon

Opublikowane ponownie przez Plato

Obserwuje: 0

Ekstrakt z amazonki to usługa uczenia maszynowego (ML), która automatycznie wyodrębnia tekst, charakter pisma odręcznego i dane z dowolnego dokumentu lub obrazu. Amazon Texttract ma funkcję Tabele w AnalizujDokument API oferujące możliwość automatycznego wyodrębniania struktur tabelarycznych z dowolnego dokumentu. W tym poście omawiamy ulepszenia wprowadzone w Stoły i jak ułatwia wyodrębnianie informacji w strukturach tabelarycznych z szerokiej gamy dokumentów.

Struktury tabelaryczne w dokumentach, takich jak raporty finansowe, odcinki wypłat i certyfikaty plików analitycznych, są często formatowane w sposób umożliwiający łatwą interpretację informacji. Często zawierają również informacje, takie jak tytuł tabeli, stopka tabeli, tytuł sekcji i wiersze podsumowania w strukturze tabelarycznej, co zapewnia lepszą czytelność i organizację. W przypadku podobnego dokumentu sprzed tego ulepszenia dostępna jest funkcja Tabele AnalyzeDocument zidentyfikowałby te elementy jako komórki i nie wyodrębniłby tytułów i stopek znajdujących się poza granicami tabeli. W takich przypadkach konieczna była niestandardowa logika przetwarzania końcowego w celu zidentyfikowania takich informacji lub wyodrębnienia ich oddzielnie z danych wyjściowych JSON interfejsu API. Dzięki ogłoszeniu ulepszeń funkcji tabeli wyodrębnianie różnych aspektów danych tabelarycznych staje się znacznie prostsze.

W kwietniu 2023 r. Amazon Textract wprowadził możliwość automatycznego wykrywania tytułów, stopek, tytułów sekcji i wierszy podsumowań występujących w dokumentach za pośrednictwem funkcji Tabele. W tym poście omawiamy te ulepszenia i podamy przykłady, które pomogą Ci je zrozumieć i wykorzystać w przepływach pracy związanych z przetwarzaniem dokumentów. Omówimy, jak korzystać z tych ulepszeń, za pomocą przykładów kodu, aby korzystać z interfejsu API i przetwarzać odpowiedź za pomocą Biblioteka Amazon Texttract Textractor.

Przegląd rozwiązania

Poniższy obraz pokazuje, że zaktualizowany model nie tylko identyfikuje tabelę w dokumencie, ale wszystkie odpowiadające jej nagłówki i stopki tabeli. Ten przykładowy dokument raportu finansowego zawiera tytuł tabeli, stopkę, tytuł sekcji i wiersze podsumowania.

Sprawozdanie finansowe z tabelą

Ulepszenie funkcji Tabele dodaje obsługę czterech nowych elementów w odpowiedzi interfejsu API, co pozwala z łatwością wyodrębnić każdy z tych elementów tabeli, a także dodaje możliwość rozróżnienia typu tabeli.

Elementy stołu

Amazon Texttract może zidentyfikować kilka elementów tabeli, takich jak komórki tabeli i komórki scalone. Składniki te, tzw Blockobiektów, hermetyzuj szczegóły związane z komponentem, takie jak geometria ograniczająca, relacje i poziom ufności. A Block reprezentuje elementy rozpoznawane w dokumencie w grupie pikseli znajdujących się blisko siebie. Poniżej znajdują się nowości Bloki stołowe wprowadzone w tym ulepszeniu:

Tytuł tabeli – nowy Block typ tzw TABLE_TITLE pozwalający na identyfikację tytułu danej tabeli. Tytuły mogą składać się z jednego lub większej liczby wierszy, które zwykle znajdują się nad tabelą lub są osadzone w tabeli jako komórka.
Stopki tabeli – nowy Block typ tzw TABLE_FOOTER umożliwia identyfikację stopek powiązanych z daną tabelą. Stopki mogą składać się z jednej lub większej liczby linii znajdujących się zazwyczaj pod tabelą lub osadzonych jako komórka w tabeli.
Tytuł sekcji – nowy Block typ tzw TABLE_SECTION_TITLE co pozwala określić, czy wykryta komórka jest tytułem sekcji.
Komórki podsumowujące – nowy Block typ tzw TABLE_SUMMARY umożliwia to określenie, czy komórka jest komórką podsumowującą, na przykład komórką zawierającą sumy odcinka wypłaty.

Sprawozdanie finansowe z elementami tabeli

Rodzaje tabel

Kiedy Amazon Textract zidentyfikuje tabelę w dokumencie, wyodrębnia wszystkie szczegóły tabeli do pliku najwyższego poziomu Block typ TABLE. Stoły mogą mieć różne kształty i rozmiary. Na przykład dokumenty często zawierają tabele, które mogą mieć wyraźny nagłówek tabeli lub nie. Aby pomóc rozróżnić te typy tabel, dodaliśmy dwa nowe typy encji dla: a TABLE Block: SEMI_STRUCTURED_TABLE i STRUCTURED_TABLE. Te typy jednostek pomagają rozróżnić tabelę strukturalną od tabeli częściowo ustrukturyzowanej.

Tabele strukturalne to tabele, które mają jasno zdefiniowane nagłówki kolumn. Jednak w przypadku tabel częściowo ustrukturyzowanych dane mogą nie mieć ścisłej struktury. Na przykład dane mogą pojawiać się w strukturze tabelarycznej, która nie jest tabelą ze zdefiniowanymi nagłówkami. Nowe typy jednostek oferują elastyczność w wyborze tabel, które mają zostać zachowane, a które usunięte podczas przetwarzania końcowego. Poniższy obrazek przedstawia przykład STRUCTURED_TABLE i SEMI_STRUCTURED_TABLE.

Typy tabel

Analizowanie wyników API

W tej sekcji dowiemy się, jak możesz wykorzystać plik Biblioteka Amazon Texttract Textractor do postprocesowania danych wyjściowych API AnalyzeDocument dzięki ulepszeniom funkcji Tabele. Dzięki temu można wyodrębnić istotne informacje z tabel.

Textractor to biblioteka stworzona do bezproblemowej współpracy z interfejsami API i narzędziami Amazon Textract w celu późniejszej konwersji odpowiedzi JSON zwracanych przez interfejsy API na programowalne obiekty. Można go także używać do wizualizacji elementów w dokumencie i eksportowania danych w formatach takich jak pliki z wartościami rozdzielanymi przecinkami (CSV). Ma pomóc klientom Amazon Textract w konfigurowaniu potoków przetwarzania końcowego.

W naszych przykładach używamy następującej przykładowej strony z dokumentu zgłoszenia 10-K SEC.

Dokument zgłoszenia 10-K SEC

Poniższy kod można znaleźć w naszym pliku Repozytorium GitHub. Aby przetworzyć ten dokument, korzystamy z biblioteki Textractor i importujemy ją dla nas w celu późniejszego przetworzenia wyników API i wizualizacji danych:

pip install amazon-textract-textractor

Pierwszym krokiem jest wywołanie Amazon Texttract AnalyzeDocument z funkcją Tabele, oznaczoną przez features=[TextractFeatures.TABLES] parametr służący do wyodrębnienia informacji z tabeli. Należy pamiętać, że ta metoda wywołuje funkcję czasu rzeczywistego (lub synchroniczną) AnalizujDokument API obsługujące dokumenty jednostronicowe. Można jednak skorzystać z asynchroniczny StartDocumentAnalysis API do przetwarzania dokumentów wielostronicowych (do 3,000 stron).

from PIL import Image
from textractor import Textractor
from textractor.visualizers.entitylist import EntityList
from textractor.data.constants import TextractFeatures, Direction, DirectionalFinderType
image = Image.open("sec_filing.png") # loads the document image with Pillow
extractor = Textractor(region_name="us-east-1") # Initialize textractor client, modify region if required
document = extractor.analyze_document( file_source=image, features=[TextractFeatures.TABLES], save_image=True
)

Połączenia document obiekt zawiera metadane dotyczące dokumentu, który można przejrzeć. Zauważ, że rozpoznaje jedną tabelę w dokumencie wraz z innymi elementami w dokumencie:

This document holds the following data:
Pages - 1
Words - 658
Lines - 122
Key-values - 0
Checkboxes - 0
Tables - 1
Queries - 0
Signatures - 0
Identity Documents - 0
Expense Documents – 0

Teraz, gdy mamy już dane wyjściowe interfejsu API zawierające informacje o tabeli, wizualizujemy różne elementy tabeli, korzystając ze struktury odpowiedzi omówionej wcześniej:

table = EntityList(document.tables[0])
document.tables[0].visualize()

Podświetlona tabela dokumentów archiwalnych 10-K SEC

Biblioteka Texttractor podświetla różne elementy w wykrytej tabeli innym kodem koloru dla każdego elementu tabeli. Przyjrzyjmy się bliżej sposobom wyodrębnienia każdego elementu. Poniższy fragment kodu demonstruje wyodrębnianie tytułu tabeli:

table_title = table[0].title.text
table_title 'The following table summarizes, by major security type, our cash, cash equivalents, restricted cash, and marketable securities that are measured at fair value on a recurring basis and are categorized using the fair value hierarchy (in millions):'

Podobnie możemy użyć poniższego kodu, aby wyodrębnić stopki tabeli. Zauważ, że table_footers jest listą, co oznacza, że z tabelą może być powiązana jedna lub więcej stopek. Możemy iterować po tej liście, aby zobaczyć wszystkie obecne stopki i, jak pokazano w poniższym fragmencie kodu, w wynikach zostaną wyświetlone trzy stopki:

table_footers = table[0].footers
for footers in table_footers: print (footers.text) (1) The related unrealized gain (loss) recorded in "Other income (expense), net" was $(116) million and $1.0 billion in Q3 2021 and Q3 2022, and $6 million and $(11.3) billion for the nine months ended September 30, 2021 and 2022. (2) We are required to pledge or otherwise restrict a portion of our cash, cash equivalents, and marketable fixed income securities primarily as collateral for real estate, amounts due to third-party sellers in certain jurisdictions, debt, and standby and trade letters of credit. We classify cash, cash equivalents, and marketable fixed income securities with use restrictions of less than twelve months as "Accounts receivable, net and other" and of twelve months or longer as non-current "Other assets" on our consolidated balance sheets. See "Note 4 - Commitments and Contingencies." (3) Our equity investment in Rivian had a fair value of $15.6 billion and $5.2 billion as of December 31, 2021 and September 30, 2022, respectively. The investment was subject to regulatory sales restrictions resulting in a discount for lack of marketability of approximately $800 million as of December 31, 2021, which expired in Q1 2022.

Generowanie danych do dalszego przetwarzania

Biblioteka Texttractor pomaga także uprościć pozyskiwanie danych z tabeli do dalszych systemów lub innych przepływów pracy. Można na przykład wyeksportować wyodrębnione dane z tabeli do czytelnego dla człowieka pliku Microsoft Excel. W chwili pisania tego tekstu jest to jedyny format obsługujący scalone tabele.

table[0].to_excel(filepath="sec_filing.xlsx")

Tabela do Excela

Możemy go także przekonwertować na np Pandy DataFrame. DataFrame to popularny wybór do manipulacji, analizy i wizualizacji danych w językach programowania, takich jak Python i R.

W Pythonie DataFrame jest podstawową strukturą danych w bibliotece Pandas. Jest elastyczny i wydajny i często stanowi pierwszy wybór dla specjalistów zajmujących się analizą danych do różnych zadań związanych z analizą danych i uczeniem maszynowym. Poniższy fragment kodu pokazuje, jak przekonwertować wyodrębnione informacje z tabeli na ramkę danych za pomocą jednego wiersza kodu:

df=table[0].to_pandas()
df

Tabela do ramki danych

Na koniec możemy przekonwertować dane tabeli na plik CSV. Pliki CSV są często używane do pozyskiwania danych do relacyjnych baz danych lub hurtowni danych. Zobacz następujący kod:

table[0].to_csv() ',0,1,2,3,4,5n0,,"December 31, 2021",,September,"30, 2022",n1,,Total Estimated Fair Value,Cost or Amortized Cost,Gross Unrealized Gains,Gross Unrealized Losses,Total Estimated Fair Valuen2,Cash,"$ 10,942","$ 10,720",$ -,$ -,"$ 10,720"n3,Level 1 securities:,,,,,n4,Money market funds,"20,312","16,697",-,-,"16,697"n5,Equity securities (1)(3),"1,646",,,,"5,988"n6,Level 2 securities:,,,,,n7,Foreign government and agency securities,181,141,-,(2),139n8,U.S. government and agency securities,"4,300","2,301",-,(169),"2,132"n9,Corporate debt securities,"35,764","20,229",-,(799),"19,430"n10,Asset-backed securities,"6,738","3,578",-,(191),"3,387"n11,Other fixed income securities,686,403,-,(22),381n12,Equity securities (1)(3),"15,740",,,,19n13,,"$ 96,309","$ 54,069",$ -,"$ (1,183)","$ 58,893"n14,"Less: Restricted cash, cash equivalents, and marketable securities (2)",(260),,,,(231)n15,"Total cash, cash equivalents, and marketable securities","$ 96,049",,,,"$ 58,662"n'</p><h2> </h2>

Wnioski

Wprowadzenie nowych typów bloków i jednostek (TABLE_TITLE, TABLE_FOOTER, STRUCTURED_TABLE, SEMI_STRUCTURED_TABLE, TABLE_SECTION_TITLE, TABLE_FOOTER, TABLE_SUMMARY) oznacza znaczny postęp w wyodrębnianiu struktur tabelarycznych z dokumentów za pomocą Amazon Texttract.

Narzędzia te zapewniają bardziej dopracowane i elastyczne podejście, obsługują zarówno tabele strukturalne, jak i częściowo ustrukturyzowane i zapewniają, że żadne ważne dane nie zostaną przeoczone, niezależnie od ich lokalizacji w dokumencie.

Oznacza to, że możemy teraz obsługiwać różnorodne typy danych i struktury tabel ze zwiększoną wydajnością i dokładnością. W miarę jak będziemy w dalszym ciągu wykorzystywać możliwości automatyzacji w przepływach pracy przetwarzania dokumentów, te ulepszenia bez wątpienia utorują drogę do usprawnionych przepływów pracy, wyższej produktywności i bardziej wnikliwej analizy danych. Aby uzyskać więcej informacji nt AnalyzeDocument i funkcję Tabele, patrz AnalizujDokument.

O autorach

Raj Pathak jest Starszym Architektem Rozwiązań i Technologiem specjalizującym się w usługach finansowych (ubezpieczenia, bankowość, rynki kapitałowe) oraz uczeniu maszynowym. Specjalizuje się w przetwarzaniu języka naturalnego (NLP), dużych modelach językowych (LLM) oraz projektach infrastrukturalnych i operacyjnych uczenia maszynowego (MLOps).

Anjana Biswasa jest starszym architektem rozwiązań usług AI, koncentrując się na AI/ML i analizie danych. Anjan jest częścią ogólnoświatowego zespołu usług AI i współpracuje z klientami, aby pomóc im zrozumieć i opracować rozwiązania problemów biznesowych związanych ze sztuczną inteligencją i ML. Anjan ma ponad 14-letnie doświadczenie w pracy z globalnymi organizacjami łańcucha dostaw, produkcji i handlu detalicznego i aktywnie pomaga klientom rozpocząć i skalować usługi AWS AI.

Lalitę Reddi jest starszym menedżerem technicznym ds. produktów w zespole Amazon Textract. Koncentruje się na budowaniu usług opartych na uczeniu maszynowym dla klientów AWS. W wolnym czasie Lalita lubi grać w gry planszowe i chodzić na piesze wycieczki.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
EVM Finanse. Ujednolicony interfejs dla zdecentralizowanych finansów. Dostęp tutaj.
Quantum Media Group. Wzmocnienie IR/PR. Dostęp tutaj.
PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/

Znak czasu: 7 czerwca 2023 r.

Znak czasu: Mar 15, 2022

Opublikowane ponownie przez Plato

Podróż generatywnego wirtualnego asystenta AI PGA TOUR, od koncepcji, przez rozwój, aż po prototyp | Usługi internetowe Amazona

Usprawnij zarządzanie modelami uczenia maszynowego dzięki Amazon SageMaker

Wzbogacanie strumieni wiadomości w czasie rzeczywistym dzięki Refinitiv Data Library, usługom AWS i Amazon SageMaker

Operacjonalizuj swoje notebooki Amazon SageMaker Studio jako zaplanowane zadania notebooków

Stability AI buduje modele bazowe na Amazon SageMaker

Modele Meta Llama 3 są teraz dostępne w Amazon SageMaker JumpStart | Usługi internetowe Amazona

Odkryj wiedzę w obszarach roboczych Slack dzięki inteligentnemu wyszukiwaniu za pomocą złącza Amazon Kendra Slack

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto