Ekstrakt z amazonki to usługa uczenia maszynowego (ML), która automatycznie wyodrębnia tekst, charakter pisma odręcznego i dane z dowolnego dokumentu lub obrazu. Amazon Texttract ma funkcję Tabele w AnalizujDokument API oferujące możliwość automatycznego wyodrębniania struktur tabelarycznych z dowolnego dokumentu. W tym poście omawiamy ulepszenia wprowadzone w Stoły i jak ułatwia wyodrębnianie informacji w strukturach tabelarycznych z szerokiej gamy dokumentów.
Struktury tabelaryczne w dokumentach, takich jak raporty finansowe, odcinki wypłat i certyfikaty plików analitycznych, są często formatowane w sposób umożliwiający łatwą interpretację informacji. Często zawierają również informacje, takie jak tytuł tabeli, stopka tabeli, tytuł sekcji i wiersze podsumowania w strukturze tabelarycznej, co zapewnia lepszą czytelność i organizację. W przypadku podobnego dokumentu sprzed tego ulepszenia dostępna jest funkcja Tabele AnalyzeDocument
zidentyfikowałby te elementy jako komórki i nie wyodrębniłby tytułów i stopek znajdujących się poza granicami tabeli. W takich przypadkach konieczna była niestandardowa logika przetwarzania końcowego w celu zidentyfikowania takich informacji lub wyodrębnienia ich oddzielnie z danych wyjściowych JSON interfejsu API. Dzięki ogłoszeniu ulepszeń funkcji tabeli wyodrębnianie różnych aspektów danych tabelarycznych staje się znacznie prostsze.
W kwietniu 2023 r. Amazon Textract wprowadził możliwość automatycznego wykrywania tytułów, stopek, tytułów sekcji i wierszy podsumowań występujących w dokumentach za pośrednictwem funkcji Tabele. W tym poście omawiamy te ulepszenia i podamy przykłady, które pomogą Ci je zrozumieć i wykorzystać w przepływach pracy związanych z przetwarzaniem dokumentów. Omówimy, jak korzystać z tych ulepszeń, za pomocą przykładów kodu, aby korzystać z interfejsu API i przetwarzać odpowiedź za pomocą Biblioteka Amazon Texttract Textractor.
Przegląd rozwiązania
Poniższy obraz pokazuje, że zaktualizowany model nie tylko identyfikuje tabelę w dokumencie, ale wszystkie odpowiadające jej nagłówki i stopki tabeli. Ten przykładowy dokument raportu finansowego zawiera tytuł tabeli, stopkę, tytuł sekcji i wiersze podsumowania.
Ulepszenie funkcji Tabele dodaje obsługę czterech nowych elementów w odpowiedzi interfejsu API, co pozwala z łatwością wyodrębnić każdy z tych elementów tabeli, a także dodaje możliwość rozróżnienia typu tabeli.
Elementy stołu
Amazon Texttract może zidentyfikować kilka elementów tabeli, takich jak komórki tabeli i komórki scalone. Składniki te, tzw Block
obiektów, hermetyzuj szczegóły związane z komponentem, takie jak geometria ograniczająca, relacje i poziom ufności. A Block
reprezentuje elementy rozpoznawane w dokumencie w grupie pikseli znajdujących się blisko siebie. Poniżej znajdują się nowości Bloki stołowe wprowadzone w tym ulepszeniu:
- Tytuł tabeli – nowy
Block
typ tzwTABLE_TITLE
pozwalający na identyfikację tytułu danej tabeli. Tytuły mogą składać się z jednego lub większej liczby wierszy, które zwykle znajdują się nad tabelą lub są osadzone w tabeli jako komórka. - Stopki tabeli – nowy
Block
typ tzwTABLE_FOOTER
umożliwia identyfikację stopek powiązanych z daną tabelą. Stopki mogą składać się z jednej lub większej liczby linii znajdujących się zazwyczaj pod tabelą lub osadzonych jako komórka w tabeli. - Tytuł sekcji – nowy
Block
typ tzwTABLE_SECTION_TITLE
co pozwala określić, czy wykryta komórka jest tytułem sekcji. - Komórki podsumowujące – nowy
Block
typ tzwTABLE_SUMMARY
umożliwia to określenie, czy komórka jest komórką podsumowującą, na przykład komórką zawierającą sumy odcinka wypłaty.
Rodzaje tabel
Kiedy Amazon Textract zidentyfikuje tabelę w dokumencie, wyodrębnia wszystkie szczegóły tabeli do pliku najwyższego poziomu Block
typ TABLE
. Stoły mogą mieć różne kształty i rozmiary. Na przykład dokumenty często zawierają tabele, które mogą mieć wyraźny nagłówek tabeli lub nie. Aby pomóc rozróżnić te typy tabel, dodaliśmy dwa nowe typy encji dla: a TABLE Block
: SEMI_STRUCTURED_TABLE
i STRUCTURED_TABLE
. Te typy jednostek pomagają rozróżnić tabelę strukturalną od tabeli częściowo ustrukturyzowanej.
Tabele strukturalne to tabele, które mają jasno zdefiniowane nagłówki kolumn. Jednak w przypadku tabel częściowo ustrukturyzowanych dane mogą nie mieć ścisłej struktury. Na przykład dane mogą pojawiać się w strukturze tabelarycznej, która nie jest tabelą ze zdefiniowanymi nagłówkami. Nowe typy jednostek oferują elastyczność w wyborze tabel, które mają zostać zachowane, a które usunięte podczas przetwarzania końcowego. Poniższy obrazek przedstawia przykład STRUCTURED_TABLE
i SEMI_STRUCTURED_TABLE
.
Analizowanie wyników API
W tej sekcji dowiemy się, jak możesz wykorzystać plik Biblioteka Amazon Texttract Textractor do postprocesowania danych wyjściowych API AnalyzeDocument
dzięki ulepszeniom funkcji Tabele. Dzięki temu można wyodrębnić istotne informacje z tabel.
Textractor to biblioteka stworzona do bezproblemowej współpracy z interfejsami API i narzędziami Amazon Textract w celu późniejszej konwersji odpowiedzi JSON zwracanych przez interfejsy API na programowalne obiekty. Można go także używać do wizualizacji elementów w dokumencie i eksportowania danych w formatach takich jak pliki z wartościami rozdzielanymi przecinkami (CSV). Ma pomóc klientom Amazon Textract w konfigurowaniu potoków przetwarzania końcowego.
W naszych przykładach używamy następującej przykładowej strony z dokumentu zgłoszenia 10-K SEC.
Poniższy kod można znaleźć w naszym pliku Repozytorium GitHub. Aby przetworzyć ten dokument, korzystamy z biblioteki Textractor i importujemy ją dla nas w celu późniejszego przetworzenia wyników API i wizualizacji danych:
Pierwszym krokiem jest wywołanie Amazon Texttract AnalyzeDocument
z funkcją Tabele, oznaczoną przez features=[TextractFeatures.TABLES]
parametr służący do wyodrębnienia informacji z tabeli. Należy pamiętać, że ta metoda wywołuje funkcję czasu rzeczywistego (lub synchroniczną) AnalizujDokument API obsługujące dokumenty jednostronicowe. Można jednak skorzystać z asynchroniczny StartDocumentAnalysis
API do przetwarzania dokumentów wielostronicowych (do 3,000 stron).
Połączenia document
obiekt zawiera metadane dotyczące dokumentu, który można przejrzeć. Zauważ, że rozpoznaje jedną tabelę w dokumencie wraz z innymi elementami w dokumencie:
Teraz, gdy mamy już dane wyjściowe interfejsu API zawierające informacje o tabeli, wizualizujemy różne elementy tabeli, korzystając ze struktury odpowiedzi omówionej wcześniej:
Biblioteka Texttractor podświetla różne elementy w wykrytej tabeli innym kodem koloru dla każdego elementu tabeli. Przyjrzyjmy się bliżej sposobom wyodrębnienia każdego elementu. Poniższy fragment kodu demonstruje wyodrębnianie tytułu tabeli:
Podobnie możemy użyć poniższego kodu, aby wyodrębnić stopki tabeli. Zauważ, że table_footers jest listą, co oznacza, że z tabelą może być powiązana jedna lub więcej stopek. Możemy iterować po tej liście, aby zobaczyć wszystkie obecne stopki i, jak pokazano w poniższym fragmencie kodu, w wynikach zostaną wyświetlone trzy stopki:
Generowanie danych do dalszego przetwarzania
Biblioteka Texttractor pomaga także uprościć pozyskiwanie danych z tabeli do dalszych systemów lub innych przepływów pracy. Można na przykład wyeksportować wyodrębnione dane z tabeli do czytelnego dla człowieka pliku Microsoft Excel. W chwili pisania tego tekstu jest to jedyny format obsługujący scalone tabele.
Możemy go także przekonwertować na np Pandy DataFrame. DataFrame to popularny wybór do manipulacji, analizy i wizualizacji danych w językach programowania, takich jak Python i R.
W Pythonie DataFrame jest podstawową strukturą danych w bibliotece Pandas. Jest elastyczny i wydajny i często stanowi pierwszy wybór dla specjalistów zajmujących się analizą danych do różnych zadań związanych z analizą danych i uczeniem maszynowym. Poniższy fragment kodu pokazuje, jak przekonwertować wyodrębnione informacje z tabeli na ramkę danych za pomocą jednego wiersza kodu:
Na koniec możemy przekonwertować dane tabeli na plik CSV. Pliki CSV są często używane do pozyskiwania danych do relacyjnych baz danych lub hurtowni danych. Zobacz następujący kod:
Wnioski
Wprowadzenie nowych typów bloków i jednostek (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
, TABLE_SUMMARY
) oznacza znaczny postęp w wyodrębnianiu struktur tabelarycznych z dokumentów za pomocą Amazon Texttract.
Narzędzia te zapewniają bardziej dopracowane i elastyczne podejście, obsługują zarówno tabele strukturalne, jak i częściowo ustrukturyzowane i zapewniają, że żadne ważne dane nie zostaną przeoczone, niezależnie od ich lokalizacji w dokumencie.
Oznacza to, że możemy teraz obsługiwać różnorodne typy danych i struktury tabel ze zwiększoną wydajnością i dokładnością. W miarę jak będziemy w dalszym ciągu wykorzystywać możliwości automatyzacji w przepływach pracy przetwarzania dokumentów, te ulepszenia bez wątpienia utorują drogę do usprawnionych przepływów pracy, wyższej produktywności i bardziej wnikliwej analizy danych. Aby uzyskać więcej informacji nt AnalyzeDocument
i funkcję Tabele, patrz AnalizujDokument.
O autorach
Raj Pathak jest Starszym Architektem Rozwiązań i Technologiem specjalizującym się w usługach finansowych (ubezpieczenia, bankowość, rynki kapitałowe) oraz uczeniu maszynowym. Specjalizuje się w przetwarzaniu języka naturalnego (NLP), dużych modelach językowych (LLM) oraz projektach infrastrukturalnych i operacyjnych uczenia maszynowego (MLOps).
Anjana Biswasa jest starszym architektem rozwiązań usług AI, koncentrując się na AI/ML i analizie danych. Anjan jest częścią ogólnoświatowego zespołu usług AI i współpracuje z klientami, aby pomóc im zrozumieć i opracować rozwiązania problemów biznesowych związanych ze sztuczną inteligencją i ML. Anjan ma ponad 14-letnie doświadczenie w pracy z globalnymi organizacjami łańcucha dostaw, produkcji i handlu detalicznego i aktywnie pomaga klientom rozpocząć i skalować usługi AWS AI.
Lalitę Reddi jest starszym menedżerem technicznym ds. produktów w zespole Amazon Textract. Koncentruje się na budowaniu usług opartych na uczeniu maszynowym dla klientów AWS. W wolnym czasie Lalita lubi grać w gry planszowe i chodzić na piesze wycieczki.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- EVM Finanse. Ujednolicony interfejs dla zdecentralizowanych finansów. Dostęp tutaj.
- Quantum Media Group. Wzmocnienie IR/PR. Dostęp tutaj.
- PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :ma
- :Jest
- :nie
- $W GÓRĘ
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- zdolność
- O nas
- powyżej
- Konta
- precyzja
- aktywnie
- w dodatku
- Dodaje
- postęp
- agencja
- AI
- Usługi AI
- AI / ML
- AID
- Wszystkie kategorie
- pozwala
- wzdłuż
- również
- Amazonka
- Ekstrakt z amazonki
- Amazon Web Services
- kwoty
- an
- analiza
- analityka
- i
- Zapowiedź
- Ogłaszając
- każdy
- api
- Pszczoła
- zjawić się
- podejście
- w przybliżeniu
- kwiecień
- SĄ
- AS
- aspekty
- Aktywa
- powiązany
- At
- automatycznie
- Automatyzacja
- AWS
- Bilans
- bilanse
- Bankowość
- podstawa
- BE
- staje się
- poniżej
- Ulepsz Swój
- pomiędzy
- Miliard
- Blokować
- deska
- Gry planszowe
- obie
- Budowanie
- biznes
- ale
- by
- wezwanie
- nazywa
- CAN
- kapitał
- Rynki kapitałowe
- Etui
- Gotówka
- Komórki
- pewien
- świadectwo
- łańcuch
- wybór
- Dodaj
- Klasyfikuj
- wyraźnie
- klient
- Zamknij
- kod
- Collateral
- kolor
- Kolumna
- jak
- zobowiązania
- składnik
- składniki
- pewność siebie
- zawierać
- zawiera
- kontynuować
- konwertować
- Korporacyjny
- Odpowiedni
- Koszty:
- stworzony
- kredyt
- zwyczaj
- Klientów
- dane
- analiza danych
- Analityka danych
- Struktura danych
- Bazy danych
- Dług
- grudzień
- głębiej
- zdefiniowane
- demonstruje
- detale
- wykryte
- rozwijać
- różne
- kierunek
- Zniżka
- dyskutować
- omówione
- wyświetlacze
- rozróżniać
- inny
- dokument
- dokumenty
- wątpić
- z powodu
- podczas
- każdy
- łatwość
- łatwiej
- łatwo
- efektywność
- element
- Elementy
- osadzone
- objąć
- Umożliwia
- wzmocnione
- ulepszenia
- podmioty
- jednostka
- sprawiedliwość
- odpowiedniki
- majątek
- szacunkowa
- przykład
- przykłady
- przewyższać
- doświadczenie
- odkryj
- eksport
- wyciąg
- Wyciągi
- sprawiedliwy
- Cecha
- filet
- Akta
- Złożenie
- budżetowy
- raport finansowy
- usługi finansowe
- i terminów, a
- ustalony
- o stałym dochodzie
- Elastyczność
- elastyczne
- Skupiać
- koncentruje
- obserwuj
- następujący
- W razie zamówieenia projektu
- obcy
- format
- znaleziono
- cztery
- od
- fundusze
- Wzrost
- Zyski
- Games
- otrzymać
- GitHub
- Dać
- dany
- Globalne
- Go
- Rząd
- brutto
- Zarządzanie
- miał
- uchwyt
- Have
- he
- headers
- pomoc
- pomoc
- pomaga
- jej
- hierarchia
- wyższy
- Podświetlony
- pasemka
- Piesze wędrówki
- posiada
- W jaki sposób
- How To
- Jednak
- HTML
- HTTPS
- człowiek
- zidentyfikowane
- identyfikuje
- zidentyfikować
- tożsamość
- if
- obraz
- importować
- ważny
- ulepszenia
- in
- zawierać
- Dochód
- Informacja
- Infrastruktura
- zainstalować
- ubezpieczenie
- zamierzony
- interpretacja
- najnowszych
- wprowadzono
- Wprowadzenie
- inwestycja
- inwokuje
- IT
- szt
- JEGO
- jpg
- json
- jurysdykcje
- Trzymać
- znany
- Brak
- język
- Języki
- duży
- nauka
- mniej
- poziom
- Biblioteka
- lubi
- Linia
- linie
- Lista
- LLM
- masa
- lokalizacja
- logika
- dłużej
- od
- straty
- maszyna
- uczenie maszynowe
- zrobiony
- poważny
- robić
- WYKONUJE
- Dokonywanie
- kierownik
- Manipulacja
- produkcja
- rynek
- rynki
- Może..
- znaczy
- Metadane
- metoda
- Microsoft
- może
- milion
- miliony
- ML
- MLOps
- model
- modele
- modyfikować
- pieniądze
- rynek pieniężny
- miesięcy
- jeszcze
- dużo
- Naturalny
- Przetwarzanie języka naturalnego
- niezbędny
- netto
- Nowości
- nlp
- Nie
- Zauważyć..
- już dziś
- przedmiot
- obiekty
- of
- oferta
- Oferty
- często
- on
- ONE
- tylko
- operacje
- or
- organizacja
- organizacji
- Inne
- Inaczej
- ludzkiej,
- wydajność
- zewnętrzne
- koniec
- strona
- pandy
- parametr
- część
- wybrukować
- plato
- Analiza danych Platona
- PlatoDane
- Grać
- Popularny
- część
- Post
- power
- mocny
- teraźniejszość
- poprzednio
- głównie
- pierwotny
- Wcześniejszy
- problemy
- wygląda tak
- przetwarzanie
- Produkt
- product manager
- wydajność
- specjalistów
- Programowanie
- języki programowania
- projektowanie
- zapewniać
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- zapytania
- real
- nieruchomość
- w czasie rzeczywistym
- uznane
- rozpoznaje
- nagrany
- powtarzające się
- Bez względu
- region
- regulacyjne
- związane z
- Relacje
- usunąć
- raport
- Raporty
- reprezentuje
- wymagany
- odpowiednio
- odpowiedź
- Odpowiedzi
- ograniczać
- ograniczony
- Ograniczenia
- wynikły
- detaliczny
- recenzja
- s
- sole
- Skala
- wynik
- płynnie
- SEK
- Złożenie SEC
- Sekcja
- Papiery wartościowe
- bezpieczeństwo
- widzieć
- Sprzedający
- senior
- wrzesień
- usługa
- Usługi
- ustawienie
- kilka
- kształty
- ona
- pokazane
- Targi
- Podpisy
- znaczący
- podobny
- upraszczać
- pojedynczy
- rozmiary
- Rozwiązania
- specjalizuje się
- specjalizujący się
- rozpoczęty
- Ewolucja krok po kroku
- usprawniony
- Ścisły
- Struktura
- zbudowany
- przedmiot
- Następnie
- taki
- PODSUMOWANIE
- Dostawa
- łańcuch dostaw
- wsparcie
- podpory
- systemy
- stół
- zadania
- zespół
- Techniczny
- technolog
- niż
- że
- Połączenia
- ich
- Im
- Tam.
- Te
- one
- innych firm
- to
- tych
- trzy
- Przez
- czas
- Tytuł
- tytuły
- do
- narzędzia
- najwyższy poziom
- Kwota produktów:
- handel
- drugiej
- rodzaj
- typy
- zazwyczaj
- nas
- Rząd Stanów Zjednoczonych
- zrozumieć
- niezrealizowane straty
- zaktualizowane
- us
- posługiwać się
- używany
- za pomocą
- Użytkowe
- wartość
- Wartości
- różnorodność
- różnorodny
- Przeciw
- przez
- wyobrażanie sobie
- była
- Droga..
- we
- sieć
- usługi internetowe
- który
- szeroki
- będzie
- w
- w ciągu
- słowa
- Praca
- przepływów pracy
- pracujący
- działa
- by
- pisanie
- lat
- You
- Twój
- zefirnet