Ekstrakcja danych z formularza

Opublikowane ponownie przez Plato

Obserwuje: 0

Chcesz wyodrębnić dane z formularzy drukowanych lub pisanych odręcznie? Wymeldować się Nanonet™ ekstraktor danych z formularzy za darmo i zautomatyzuj eksport informacji z dowolnej formy!

Formularze są wszędzie; definiuje się je jako dokumenty tworzone w celu gromadzenia informacji poprzez proszenie uczestników o wypełnienie potrzebnych informacji w określonym formacie. Są pomocne ze względu na możliwość zebrania dużej ilości danych w krótkim czasie. Jednak nie wszystkie formularze mają taką samą zdolność gromadzenia danych i często wymagają późniejszej pracy ręcznej. Dlatego stawiamy na narzędzia i algorytmy, które w inteligentny sposób automatyzują proces ekstrakcji danych z formularzy. W tym poście na blogu szczegółowo omówimy różne scenariusze i techniki wyodrębniania danych z formularzy przy użyciu OCR i głębokiego uczenia się.

Co to jest wyodrębnianie danych z formularzy?
Co sprawia, że problem jest trudny?
Problem głębokości wyodrębnienia formy
Jak ewoluowały rozwiązania do ekstrakcji danych z formularzy?
Ekstrakcja danych z formularzy za pomocą OCR
Rozwiązywanie problemów z ekstrakcją danych z formularzy za pomocą głębokiego uczenia się
Wejdź do Nanonets

Co to jest wyodrębnianie danych z formularzy?

Ekstrakcja danych z formularzy to proces wydobywania danych z formularzy – zarówno online, jak i offline. Dane te można znaleźć w dowolnym formacie, zwykle zawierającym formularz z odpowiednimi informacjami. Jednak wyodrębnienie tych danych nie zawsze jest łatwym zadaniem, ponieważ wiele układów i projektów nie pozwala na łatwe zaznaczenie tekstu. Nie ma natywnego sposobu kopiowania z nich danych. Dlatego polegamy na zautomatyzowanych technikach, które pomagają wyodrębnić dane z formularzy, które są bardziej efektywne i mniej podatne na błędy.

Co to jest ekstrakcja danych z formularzy?

Na przykład obecnie wielu użytkowników korzysta z formularzy w formacie PDF w celu gromadzenia informacji kontaktowych. Jest to bardzo skuteczny sposób gromadzenia informacji, ponieważ nie wymaga wprowadzania danych przez nadawcę i odbiorcę. Jednak wyodrębnienie tych danych z formularza PDF może być trudne i kosztowne.

W tym przypadku ekstrakcja danych z formularza może pomóc w wyodrębnieniu danych z formularza PDF, takich jak imię i nazwisko, adres e-mail, numer telefonu itp. Można je zaimportować do innej aplikacji, takiej jak Excel, Arkusze lub dowolnego innego ustrukturyzowanego formatu. Działa to w ten sposób, że narzędzia do wyodrębniania odczytują plik PDF, automatycznie wyciągają to, czego potrzebuje i organizują je w łatwym do odczytania formacie. Dane te można wyeksportować do innych formatów, takich jak Excel, CSV, JSON i inne formaty danych o dobrej strukturze. W następnej sekcji przyjrzyjmy się niektórym często spotykanym wyzwaniom podczas tworzenia algorytmów ekstrakcji danych z formularzy.

Chcesz wyodrębnić dane z formularzy drukowanych lub pisanych odręcznie? Sprawdź Nanonet™ ekstraktor danych z formularzy za darmo i zautomatyzuj eksport informacji z dowolnego formularza!

Co sprawia, że wyodrębnianie danych z formularzy jest wyzwaniem?

Ekstrakcja danych jest ekscytującym problemem z wielu powodów. Po pierwsze, jest to problem rozpoznawania obrazu, ale należy również wziąć pod uwagę tekst, który może znajdować się na obrazie oraz układ formularza, co komplikuje budowanie algorytmu. W tej sekcji omówiono niektóre typowe wyzwania, jakie napotykają ludzie podczas tworzenia algorytmów ekstrakcji danych z formularzy.

Brak danych: Algorytmy ekstrakcji danych są zwykle budowane przy użyciu potężnych algorytmów głębokiego uczenia się i algorytmów opartych na wizji komputerowej. Aby osiągnąć najnowocześniejszą wydajność, zazwyczaj wykorzystują one ogromne ilości danych. Dlatego znalezienie spójnego i niezawodnego zbioru danych oraz ich przetwarzanie ma kluczowe znaczenie dla dowolnej formy narzędzia lub oprogramowania do ekstrakcji danych. Załóżmy na przykład, że mamy formularze z wieloma szablonami, wówczas algorytmy te powinny być w stanie zrozumieć szeroką gamę formularzy; dlatego szkolenie ich na solidnym zbiorze danych zapewniłoby dokładniejszą wydajność.
Obsługa czcionek, języków i układów: Istnieje oszałamiająca liczba różnych krojów pisma, projektów i szablonów dostępnych dla różnych rodzajów danych formularzy. Mogą należeć do kilku zupełnie różnych klasyfikacji, co utrudnia zapewnienie dokładnego rozpoznania, gdy należy wziąć pod uwagę ogromną liczbę różnych typów postaci. Dlatego ważne jest, aby ograniczyć zbiór czcionek do określonego języka i typu, ponieważ spowoduje to utworzenie wielu procesów, które będą przebiegać sprawnie po odpowiednim przetworzeniu dokumentów. W przypadkach wielojęzycznych należy przygotować się na żonglowanie znakami z wielu języków i zadbać o złożoną typografię.

Źródło pliku: Średni

Orientacja i pochylenie (obrót): Podczas sprawdzania danych często skanujemy obrazy, aby wytrenować algorytmy gromadzenia danych wejściowych. Jeśli kiedykolwiek korzystałeś ze skanera lub aparatu cyfrowego, być może zauważyłeś, że kąt, pod jakim robisz zdjęcia dokumentów, może czasami powodować ich przekrzywienie. Nazywa się to skośnością i odnosi się do stopnia kąta. Ta skośność może zmniejszyć dokładność modelu. Na szczęście można zastosować różne techniki, aby rozwiązać ten problem, po prostu modyfikując sposób, w jaki nasze oprogramowanie wykrywa cechy w określonych obszarach obrazu. Przykładem takiej techniki są metody Profilu Projekcji lub metody Transformacji Fouriera, które pozwalają na znacznie czystsze wyniki w rozpoznawaniu kształtu, wymiaru i tekstury! Chociaż orientacja i skośność mogą być prostymi błędami, w dużych ilościach mogą mieć wpływ na dokładność modelu.

Źródło pliku: pyimagesearch

Bezpieczeństwo danych: Jeśli pobierasz dane z różnych źródeł w celu ich gromadzenia, ważne jest, aby mieć świadomość stosowanych środków bezpieczeństwa. W przeciwnym razie ryzykujesz naruszeniem przesyłanych informacji. Może to prowadzić do sytuacji, w których dochodzi do naruszenia danych osobowych lub informacje przesyłane do interfejsu API nie są bezpieczne. Dlatego pracując ze skryptami ETL i API online do ekstrakcji danych, trzeba mieć także świadomość kwestii bezpieczeństwa danych.
Ekstrakcja tabeli: Czasami widzimy dane formularzy w tabelach; zbudowanie solidnego algorytmu, który poradzi sobie zarówno z wyodrębnieniem formularzy, jak i wyodrębnieniem tabeli, może być wyzwaniem. Typowe podejście polega na niezależnym budowaniu tych algorytmów i stosowaniu ich do danych, ale prowadzi to do użycia większej mocy obliczeniowej, co zwiększa koszty. Dlatego idealna ekstrakcja formularzy powinna umożliwiać wyodrębnienie zarówno danych formularza, jak i danych z danego dokumentu.

Źródło pliku: GCN

Przetwarzanie końcowe/eksportowanie wyników: Dane wyjściowe z jakiejkolwiek ekstrakcji danych nie są proste. Dlatego programiści polegają na technikach przetwarzania końcowego, aby filtrować wyniki do bardziej uporządkowanego formatu. Po przetworzeniu dane są eksportowane do bardziej uporządkowanego formatu, takiego jak CSV, Excel lub baza danych. Organizacje polegają na integracji stron trzecich lub opracowują interfejsy API w celu automatyzacji tego procesu, który ponownie jest czasochłonny. Dlatego idealne algorytmy ekstrakcji danych powinny być elastyczne i łatwe w komunikacji z zewnętrznymi źródłami danych.

Przetwarzanie końcowe w ekstrakcji danych z formularzy

Zrozumienie głębokości wyodrębniania formularzy w różnych scenariuszach

Do tej pory omówiliśmy podstawy i wyzwania związane z ekstrakcją danych z formularzy. W tej sekcji szczegółowo przyjrzymy się różnym scenariuszom i zrozumiemy głębokość ekstrakcji danych z formularzy. Przyjrzymy się również, w jaki sposób możemy zautomatyzować proces ekstrakcji dla tych konkretnych scenariuszy.

Scenariusz nr 1: rozpoznawanie pisma odręcznego w formularzach offline

Formularze offline są powszechnie spotykane w życiu codziennym. Formularze muszą być łatwe do wypełnienia i przesłania. Ręczna digitalizacja formularzy offline może być gorączkowym i kosztownym zadaniem, dlatego potrzebne są algorytmy głębokiego uczenia się. Dokumenty pisane odręcznie stanowią duże wyzwanie przy wyodrębnianiu danych ze względu na złożoność odręcznych znaków. Dlatego też często wykorzystywane są algorytmy rozpoznawania danych, dzięki którym maszyna uczy się czytać i interpretować tekst napisany odręcznie. Proces polega na skanowaniu obrazów odręcznych słów i przekształcaniu ich w dane, które mogą być przetwarzane i analizowane przez algorytm. Następnie algorytm tworzy mapę znaków na podstawie kresek i rozpoznaje odpowiednie litery w celu wyodrębnienia tekstu.

Źródło pliku: Zbiór danych NSIT

Scenariusz nr 2: Identyfikacja pola wyboru w formularzach

Formularze pól wyboru to forma wprowadzania danych używana do gromadzenia informacji od użytkownika w polu wejściowym. Tego typu dane zwykle można znaleźć na listach i tabelach, w których użytkownik musi wybrać jeden lub więcej elementów, np. elementów, z którymi chce się skontaktować. Można go znaleźć w dowolnej liczbie miejsc – w formularzach online, kwestionariuszach i ankietach i tak dalej. Obecnie niektóre algorytmy potrafią zautomatyzować proces ekstrakcji danych nawet z pól wyboru. Podstawowym celem tego algorytmu jest identyfikacja obszarów wejściowych przy użyciu technik widzenia komputerowego. Polegają one na identyfikowaniu linii (poziomych i pionowych), stosowaniu filtrów, konturów i wykrywaniu krawędzi na obrazach. Po zidentyfikowaniu obszaru wejściowego można łatwo wyodrębnić zawartość pola wyboru, która jest oznaczona lub nie.

Identyfikacja pola wyboru w ekstrakcji danych z formularza

Scenariusz nr 3: Układ Zmiany formularza od czasu do czasu

Jeśli chodzi o wypełnianie formularzy, zazwyczaj dostępne są dwa różne typy opcji. W przypadku niektórych formularzy musimy podać nasze informacje, wpisując je we wszystkich odpowiednich polach, podczas gdy w przypadku innych możemy podać informacje, zaznaczając jedno z kilku pól wyboru. Układ formularza również zmienia się w zależności od rodzaju formularza i jego kontekstu. Dlatego istotne jest zbudowanie algorytmu, który będzie w stanie obsłużyć wiele dokumentów bez struktury i inteligentnie wyodrębnić treść w zależności od etykiet formularzy. Jedną z popularnych technik architektury głębokiego uczenia się do obsługi układów dokumentów są Graph CNN. Ideą Graph Convolutional Networks (GCN) jest zapewnienie, że aktywacje neuronów są sterowane danymi. Są zaprojektowane do działania na grafach składających się z węzłów i krawędzi. Warstwa splotowa grafów jest zdolna do rozpoznawania wzorców w przypadku braku sygnału szkoleniowego specyficznego dla zadania. Dlatego są one odpowiednie, gdy dane są solidne.

Scenariusz nr 4: Wykrywanie komórek tabeli

W niektórych przypadkach firmy spotykają się ze specjalnymi rodzajami formularzy składającymi się z komórek tabeli. Komórki tabeli to prostokątne obszary wewnątrz tabeli, w których przechowywane są dane. Można je sklasyfikować jako nagłówki, wiersze lub kolumny. Idealny algorytm powinien identyfikować wszystkie typy komórek i ich granice, aby wyodrębnić z nich dane. Niektóre popularne techniki ekstrakcji tabel obejmują strumień i kratę; są to algorytmy, które mogą pomóc w wykrywaniu linii, kształtów i wielokątów za pomocą prostych operacji izomorficznych na obrazach.

Jak ewoluowały rozwiązania do ekstrakcji danych z formularzy?

Ekstrakcja danych z formularzy ma swoje korzenie w czasach przed pojawieniem się komputerów, kiedy ludzie korzystali z formularzy papierowych. Wraz z pojawieniem się informatyki możliwe stało się przechowywanie danych w formie elektronicznej. Programy komputerowe mogłyby wykorzystywać te dane do tworzenia raportów, takich jak statystyki sprzedaży. Oprogramowanie to może być również wykorzystywane do drukowania etykiet wysyłkowych, takich jak nazwa i adres klienta, oraz drukowania faktur, takich jak kwota należności i adres, na który należy ją wysłać. Jednak dzisiaj widzimy inną wersję oprogramowania do ekstrakcji danych z formularzy; są one bardzo dokładne, szybsze i dostarczają dane w wysoce zorganizowany i ustrukturyzowany sposób. Omówmy teraz pokrótce różne typy technik ekstrakcji danych z formularzy.

Oparta na regułach ekstrakcja danych: Ekstrakcja oparta na regułach to technika, która automatycznie wyodrębnia dane z określonego formularza szablonu. Może wyodrębniać dane bez interwencji człowieka. Działają, sprawdzając różne pola na stronie i decydując, które z nich wyodrębnić, na podstawie otaczającego tekstu, etykiet i innych wskazówek kontekstowych. Algorytmy te są zwykle opracowywane i automatyzowane przy użyciu skryptów ETL lub skrobania sieci. Jednakże, gdy są testowane na niewidocznych danych, całkowicie zawodzą.
Ekstrakcja danych z formularzy za pomocą OCR: OCR to sprawdzone rozwiązanie każdego problemu z ekstrakcją danych. Jednak aby uzyskać dokładne działanie, należy napisać dodatkowe skrypty i programy. Aby funkcja OCR działała, wymagane jest wprowadzenie obrazu z tekstem. Następnie oprogramowanie odczytuje każdy piksel i porównuje każdy piksel z odpowiadającą mu literą. Jeśli pasuje, wyświetli tę literę i wszelkie cyfry lub symbole wystarczająco blisko litery. Największym wyzwaniem związanym z OCR jest ustalenie, jak oddzielić litery. Na przykład, gdy nuty są blisko siebie lub nakładają się na siebie, np. „a” i „e”. Dlatego mogą one nie działać, gdy wyodrębniamy formularze offline.
NER do wyodrębniania danych z formularzy: Rozpoznawanie nazwanych jednostek to zadanie polegające na identyfikowaniu i klasyfikowaniu predefiniowanych jednostek w tekście w języku naturalnym. Często służy do wydobywania informacji z formularzy, w których ludzie wpisują nazwiska, adresy, komentarze itp. Zadanie rozpoznawania nazwanych podmiotów jest ściśle powiązane z szerszym zadaniem rozpoznawania współodniesień, które określa, czy wzmianki o tych samych podmiotach odnoszą się do te same istoty ze świata rzeczywistego. Dziś dzięki zaawansowanym narzędziom i strukturom programistycznym możemy wykorzystać wstępnie wyszkolone modele do tworzenia modeli opartych na NER na potrzeby zadań wydobywania informacji.

Źródło pliku: Średni

Korzystanie z głębokiego uczenia się do wyodrębniania danych z formularzy: Głębokie uczenie się nie jest niczym nowym, istnieje już od dziesięcioleci, ale ostatnie osiągnięcia w zakresie architektur głębokiego uczenia się i mocy obliczeniowej doprowadziły do przełomowych wyników. Ekstrakcja danych z formularzy przy użyciu głębokiego uczenia zapewnia najnowocześniejszą wydajność w niemal każdym formacie, zarówno cyfrowym, jak i pisanym odręcznie. Proces rozpoczyna się od zasilenia głębokiej sieci neuronowej (DNN) tysiącami lub milionami różnych przykładów oznaczonych tym, czym są. Na przykład etykiety w formie obrazu zawierające takie elementy, jak imię i nazwisko, adres e-mail, identyfikator itp. DNN przetwarza wszystkie te informacje i samodzielnie uczy się, w jaki sposób te elementy są ze sobą powiązane. Jednak zbudowanie bardzo dokładnego modelu wymaga dużej wiedzy i eksperymentów.

Głębokie uczenie się do ekstrakcji danych z formularzy

Ekstrakcja danych z formularzy za pomocą OCR

Dostępnych jest wiele różnych bibliotek umożliwiających wyodrębnianie danych z formularzy. Ale co, jeśli chcesz wyodrębnić dane z obrazu formularza? W tym miejscu z pomocą przychodzi Tesseract OCR (optyczne rozpoznawanie znaków). Tesseract to silnik OCR (optyczne rozpoznawanie znaków) typu open source opracowany przez firmę HP. Za pomocą Tesseract OCR możliwa jest konwersja zeskanowanych dokumentów, takich jak papierowe faktury, paragony i czeki, na możliwe do przeszukiwania i edytowalne pliki cyfrowe. Jest dostępny w kilku językach i rozpoznaje znaki w różnych formatach obrazu. Tesseract jest zwykle używany w połączeniu z innymi bibliotekami do przetwarzania obrazów w celu wyodrębnienia tekstu.

Aby to przetestować, upewnij się, że zainstalowałeś Tesseract na swoim komputerze lokalnym. Do uruchomienia OCR możesz użyć powiązań Tesseract CLI lub Python. Python-tesseract to opakowanie dla silnika Tesseract-OCR firmy Google. Można go używać do odczytu wszystkich typów obrazów obsługiwanych przez biblioteki obrazowania Pillow i Leptonica, w tym jpeg, png, gif, bmp, tiff i inne. Można go łatwo używać jako samodzielnego skryptu wywołania do tesseraktu, jeśli zajdzie taka potrzeba.

Weźmy teraz paragon zawierający dane formularza i spróbujmy określić lokalizację tekstu za pomocą technologii Computer Vision i Tesseract.

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

Ekstrakcja danych z formularzy za pomocą OCR

Tutaj, w wynikach, jak widzimy, program był w stanie zidentyfikować cały tekst znajdujący się w formularzu. Teraz zastosujmy do tego OCR, aby wyodrębnić wszystkie informacje. Możemy to po prostu zrobić za pomocą obraz_na_ciąg funkcja w Pythonie.

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

Wyjście:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

Tutaj jesteśmy w stanie wydobyć wszystkie informacje z formularza. Jednak w większości przypadków użycie samego OCR nie pomoże, ponieważ wyodrębnione dane będą całkowicie nieustrukturyzowane. Dlatego użytkownicy polegają na ekstrakcji par klucz-wartość z formularzy, które mogą identyfikować tylko określone podmioty, takie jak identyfikator, daty, kwota podatku itp. Jest to możliwe tylko w przypadku głębokiego uczenia się. W następnej sekcji przyjrzyjmy się, jak możemy wykorzystać różne techniki głębokiego uczenia się do tworzenia algorytmów ekstrakcji informacji.

Rozwiązywanie problemów z ekstrakcją danych z formularzy za pomocą głębokiego uczenia się

Konwolucja wykresów dla multimodalnego ekstrakcji informacji z wizualnie bogatych dokumentów

Grafowe sieci splotowe (Graph CNN) to klasa głębokich splotowych sieci neuronowych (CNN), zdolnych do skutecznego uczenia się wysoce nieliniowych cech w grafowych strukturach danych, przy jednoczesnym zachowaniu struktury węzłów i krawędzi. Mogą przyjmować struktury danych grafowych jako dane wejściowe i generować „mapy cech” dla węzłów i krawędzi. Powstałe funkcje można wykorzystać do klasyfikacji grafów, grupowania lub wykrywania społeczności. Sieci GCN stanowią zaawansowane rozwiązanie do wydobywania informacji z dużych, bogatych wizualnie dokumentów, takich jak faktury i paragony. Aby je przetworzyć, każdy obraz musi zostać przekształcony w graf składający się z węzłów i krawędzi. Każde słowo na obrazie jest reprezentowane przez własny węzeł; wizualizacja reszty danych jest zakodowana w wektorze cech węzła.

Wykres dokumentu. Każdy węzeł na wykresie jest w pełni ze sobą połączony.(SRC)

Model ten najpierw koduje każdy segment tekstu w dokumencie w celu osadzania wykresu. W ten sposób zostanie przechwycony kontekst wizualny i tekstowy otaczający każdy element tekstowy, wraz z jego pozycją lub lokalizacją w bloku tekstu. Następnie łączy te wykresy z osadzonym tekstem, aby stworzyć ogólną reprezentację struktury dokumentu i tego, co jest w nim zapisane. Model uczy się przypisywać wyższe wagi tekstom, które prawdopodobnie są bytami, na podstawie ich wzajemnego położenia oraz kontekstu, w jakim pojawiają się w większym bloku czytelników. Na koniec stosuje standardowy model BiLSTM-CRF do ekstrakcji jednostek. Wyniki pokazują, że algorytm ten w dużym stopniu przewyższa model bazowy (BiLSTM-CRF).

LayoutLM: wstępne szkolenie tekstu i układu w celu zrozumienia obrazu dokumentu

Architektura modelu LayoutLM jest silnie inspirowana BERT i zawiera osadzanie obrazów z Faster R-CNN. Osadzania wejściowe LayoutLM są generowane jako kombinacja osadzania tekstu i pozycji, a następnie łączone z osadzaniami obrazów generowanymi przez model Faster R-CNN. Maskowane modele wizualno-językowe i wieloetykietowa klasyfikacja dokumentów są używane głównie jako zadania wstępnego szkolenia dla LayoutLM. Model LayoutLM jest wartościowy, dynamiczny i wystarczająco mocny, aby można było wykonać każde zadanie wymagające zrozumienia układu, takie jak wyodrębnianie formularzy/paragonów, klasyfikacja obrazów dokumentów, a nawet wizualne odpowiadanie na pytania.

Źródło pliku: UkładML

Model LayoutLM został przeszkolony w oparciu o kolekcję testów IIT-CDIP 1.0, która obejmuje ponad 6 milionów dokumentów i ponad 11 milionów zeskanowanych obrazów dokumentów, co daje łącznie ponad 12 GB danych. Model ten znacznie przewyższał kilka wstępnie wyszkolonych modeli SOTA w zadaniach rozumienia formularzy, rozumienia paragonów i klasyfikacji obrazów zeskanowanych dokumentów.

Form2Seq: Struktura ekstrakcji struktury formularzy wyższego rzędu

Form2Seq to framework skupiający się na wyodrębnianiu struktur z tekstu wejściowego za pomocą sekwencji pozycyjnych. W przeciwieństwie do tradycyjnych frameworków seq2seq, Form2Seq wykorzystuje względne położenie przestrzenne struktur, a nie ich kolejność.

W tej metodzie w pierwszej kolejności klasyfikujemy elementy niskiego poziomu, które pozwolą na lepsze przetwarzanie i organizację. Istnieje 10 typów formularzy, takich jak podpisy pól, elementy listy i tak dalej. Następnie grupujemy elementy niższego poziomu, takie jak pola tekstowe i pola wyboru, w konstrukcje wyższego rzędu zwane grupami wyboru. Są one wykorzystywane jako mechanizmy gromadzenia informacji w celu uzyskania lepszego doświadczenia użytkownika w elementach niższego poziomu w konstrukcjach wyższego rzędu, takich jak pola tekstowe, pola wyboru i grupy wyboru, wykorzystywane jako mechanizmy gromadzenia informacji w formularzach. Jest to możliwe poprzez ułożenie elementów składowych w porządku liniowym w naturalnym porządku odczytu i wprowadzenie ich reprezentacji przestrzennych i tekstowych do struktury Seq2Seq. Struktura Seq2Seq sekwencyjnie prognozuje każdy element zdania w zależności od kontekstu. Dzięki temu może przetworzyć więcej informacji i lepiej zrozumieć stojące przed nim zadanie.

Architektura modelu Form2seq do klasyfikacji typów elementów. Poszczególne etapy są oznaczone literami (SRC).

Model osiągnął dokładność 90% w zadaniu klasyfikacyjnym, czyli wyższą niż w przypadku modeli bazowych opartych na segmentacji. Wartość F1 w blokach tekstowych, polach tekstowych i polach wyboru wyniosła odpowiednio 86.01% i 61.63%. W ramach tej struktury osiągnięto stan wyników zestawu danych ICDAR do rozpoznawania struktury tabel.

Dlaczego OCR oparty na sztucznej inteligencji Nanonets to najlepsza opcja

Chociaż oprogramowanie OCR może konwertować zeskanowane obrazy tekstu na sformatowane pliki cyfrowe, takie jak pliki PDF, DOC i PPT, nie zawsze jest to dokładne. Dzisiejsze najnowocześniejsze oprogramowanie, takie jak system głębokiego uczenia się OCR oparty na sztucznej inteligencji Nanonets, przezwyciężyło wiele wyzwań, przed którymi stawały tradycyjne systemy OCR podczas tworzenia edytowalnego pliku ze zeskanowanego dokumentu. Stało się najlepszą opcją do ekstrakcji danych, ponieważ może zapewnić wysoki współczynnik dokładności i wysoki poziom tolerancji na szum, elementy graficzne i zmiany formatowania. Omówmy teraz kilka punktów, w których OCR oparty na sztucznej inteligencji jest najlepszą opcją.

Nanonets – ekstrakcja danych z formularzy

Jak już wspomniano, OCR jest prostą techniką wyodrębniania danych. Jednak nie będą działać spójnie, jeśli zostaną umieszczone na niewidocznych/nowych danych. Jednak OCR oparty na sztucznej inteligencji może poradzić sobie z takimi sytuacjami, ponieważ trenuje na szerokim zakresie danych.
Normalne programy OCR nie radzą sobie ze złożonymi układami ekstrakcji danych z formularzy. Dlatego też, gdy są wspomagane głębokim uczeniem się lub sztuczną inteligencją, dają najlepsze wyniki, rozumiejąc układ, tekst i kontekst danych.
OCR mogą działać gorzej, gdy w danych występują zakłócenia, takie jak skośność, obrazy zeskanowane przy słabym oświetleniu itp., podczas gdy modele głębokiego uczenia radzą sobie z takimi warunkami i nadal dają bardzo dokładne wyniki.
OCR oparte na sztucznej inteligencji są w dużym stopniu konfigurowalne i elastyczne w porównaniu do tradycyjnych OCR; można je budować na różnych rodzajach danych w celu konwersji danych nieustrukturyzowanych na dowolny format ustrukturyzowany.
Dane wyjściowe przetwarzania końcowego OCR opartego na sztucznej inteligencji są dostępne w porównaniu ze zwykłym OCR; można je eksportować do dowolnych formatów danych, takich jak JSON, CSV, arkusze Excel, a nawet do bazy danych, takiej jak Postgres, bezpośrednio z modelu.
OCR oparty na sztucznej inteligencji można wyeksportować jako prosty interfejs API przy użyciu wstępnie wyszkolonych modeli. Jest to nadal możliwe w przypadku innych tradycyjnych metod, ale konsekwentne i terminowe ulepszanie modeli może być trudne. W przypadku OCR opartego na sztucznej inteligencji można go automatycznie dostroić na podstawie błędów.
Wyodrębnienie tabeli jest wysoce niemożliwe przy użyciu prostego OCR. Można to jednak zrobić z łatwością dzięki mocy AI/DL. Obecnie systemy OCR oparte na sztucznej inteligencji mogą skutecznie wskazywać formularze tabelaryczne w dokumentach i wydobywać informacje.
Jeśli w dokumentach znajdują się jakiekolwiek dane finansowe lub poufne, modele AI mogą również przeprowadzać kontrole pod kątem oszustw. Zasadniczo wyszukuje edytowany/zamazany tekst w zeskanowanych dokumentach i powiadamia administratorów. Za pomocą tych modeli można również zidentyfikować zduplikowane dokumenty lub informacje. Chociaż OCR po prostu zawodzi w takich przypadkach.

Znak czasu: 6 marca 2022 r.

Znak czasu: Listopada 15, 2023

Ekstrakcja danych z formularza

Opublikowane ponownie przez Plato

Co to jest wyodrębnianie danych z formularzy?

Co sprawia, że wyodrębnianie danych z formularzy jest wyzwaniem?

Zrozumienie głębokości wyodrębniania formularzy w różnych scenariuszach

Scenariusz nr 1: rozpoznawanie pisma odręcznego w formularzach offline

Scenariusz nr 2: Identyfikacja pola wyboru w formularzach

Scenariusz nr 3: Układ Zmiany formularza od czasu do czasu

Scenariusz nr 4: Wykrywanie komórek tabeli

Jak ewoluowały rozwiązania do ekstrakcji danych z formularzy?

Ekstrakcja danych z formularzy za pomocą OCR

Rozwiązywanie problemów z ekstrakcją danych z formularzy za pomocą głębokiego uczenia się

Dlaczego OCR oparty na sztucznej inteligencji Nanonets to najlepsza opcja

Więcej z AI i uczenie maszynowe

Przewodnik po raportach i raportach dotyczących zobowiązań (AP) w 2024 r

Co to jest rachunek wydatków?

12 ekscytujących statystyk RPA, których nie możesz przegapić w 2022 r.

Ekstraktor numeru telefonu: wszystko, co musisz wiedzieć

Modelowanie Argus: podejmowanie decyzji dotyczących nieruchomości w oparciu o dane

Proces zarządzania dostawcami: znaczenie, korzyści i wyzwania

Jakie dni pozostają do spłaty? A jak obliczyć DPO?

Kompletny przewodnik po transformacji cyfrowej w zakresie zobowiązań

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto

Co to jest wyodrębnianie danych z formularzy?

Co sprawia, że ​​wyodrębnianie danych z formularzy jest wyzwaniem?

Zrozumienie głębokości wyodrębniania formularzy w różnych scenariuszach

Scenariusz nr 1: rozpoznawanie pisma odręcznego w formularzach offline

Scenariusz nr 2: Identyfikacja pola wyboru w formularzach

Scenariusz nr 3: Układ Zmiany formularza od czasu do czasu

Scenariusz nr 4: Wykrywanie komórek tabeli

Jak ewoluowały rozwiązania do ekstrakcji danych z formularzy?

Ekstrakcja danych z formularzy za pomocą OCR

Rozwiązywanie problemów z ekstrakcją danych z formularzy za pomocą głębokiego uczenia się

Dlaczego OCR oparty na sztucznej inteligencji Nanonets to najlepsza opcja

Więcej z AI i uczenie maszynowe

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto

Co sprawia, że wyodrębnianie danych z formularzy jest wyzwaniem?