Zbuduj identyfikowalny, niestandardowy, wieloformatowy potok analizowania dokumentów za pomocą Amazon Text

Opublikowane ponownie przez Plato

Obserwuje: 0

Formularze organizacyjne służą jako podstawowe narzędzie biznesowe w różnych branżach — od usług finansowych po opiekę zdrowotną i nie tylko. Weźmy na przykład formularze podatkowe w branży zarządzania podatkami, gdzie co roku pojawiają się nowe formularze zawierające w dużej mierze te same informacje. Klienci AWS z różnych sektorów muszą przetwarzać i przechowywać informacje w formularzach w ramach swojej codziennej praktyki biznesowej. Formularze te często służą jako podstawowy środek przepływu informacji do organizacji, w której technologiczne środki przechwytywania danych są niepraktyczne.

Oprócz używania formularzy do przechwytywania informacji przez lata oferowania Ekstrakt z amazonki, zaobserwowaliśmy, że klienci AWS często tworzą wersje swoich formularzy organizacyjnych na podstawie wprowadzonych zmian strukturalnych, dodanych lub zmienionych pól lub innych kwestii, takich jak zmiana roku lub wersji formularza.

Gdy zmienia się struktura lub zawartość formularza, często może to stanowić wyzwanie dla tradycyjnych systemów OCR lub wpływać na dalsze narzędzia używane do przechwytywania informacji, nawet jeśli trzeba przechwytywać te same informacje z roku na rok i agregować dane do użytku niezależnie od formatu dokumentu.

Aby rozwiązać ten problem, w tym poście pokazujemy, jak można zbudować i wdrożyć oparty na zdarzeniach, bezserwerowy, wieloformatowy potok parsowania dokumentów za pomocą Amazon Text.

Omówienie rozwiązania

Poniższy diagram ilustruje naszą architekturę rozwiązania:

Po pierwsze, rozwiązanie oferuje pozyskiwanie potoku za pomocą Usługa Amazon Simple Storage (Amazon S3), powiadomienia o zdarzeniach Amazon S3 i Usługa Amazon Simple Queue (Amazon SQS), aby przetwarzanie rozpoczynało się, gdy formularz trafia do docelowej partycji Amazon S3. Wydarzenie na Most zdarzeń Amazona jest tworzony i wysyłany do AWS Lambda cel, który uruchamia zadanie Amazon Text.

Możesz korzystać z bezserwerowych usług AWS, takich jak Lambda i Funkcje kroków AWS do tworzenia asynchronicznych integracji usług między usługami AWS AI a usługami AWS Analytics i Database na potrzeby magazynowania, analityki oraz sztucznej inteligencji i uczenia maszynowego (ML). W tym poście pokazujemy, jak używać funkcji Step Functions do asynchronicznego kontrolowania i utrzymywania stanu żądań do asynchronicznych interfejsów API Amazon Text. Osiąga się to za pomocą maszyny stanu do zarządzania połączeniami i odpowiedziami. Używamy Lambdy w maszynie stanów, aby scalić podzielone na strony dane odpowiedzi API z Amazon Text w pojedynczy obiekt JSON zawierający częściowo ustrukturyzowane dane tekstowe wyodrębnione za pomocą OCR.

Następnie filtrujemy różne formularze, stosując ustandaryzowane podejście, aby agregować te dane OCR we wspólny format strukturalny za pomocą Amazonka Atena oraz kod SQL Amazon Text w formacie JSON Serde.

Możesz śledzić kroki wykonywane za pośrednictwem tego potoku przy użyciu bezserwerowych funkcji kroków do śledzenia stanu przetwarzania i zachowywania danych wyjściowych każdego stanu. Jest to coś, co klienci w niektórych branżach wolą robić podczas pracy z danymi, w których musisz zachować wyniki wszystkich prognoz z usług takich jak Amazon Text, aby promować wyjaśnialność wyników potoku w dłuższej perspektywie.

Na koniec możesz wysłać zapytanie do wyodrębnionych danych w tabelach Athena.

W kolejnych sekcjach przeprowadzimy Cię przez proces konfiguracji rurociągu za pomocą Tworzenie chmury AWS, testowanie potoku i dodawanie nowych wersji formularzy. Ten potok zapewnia rozwiązanie, które można konserwować, ponieważ każdy składnik (pozyskiwanie, wyodrębnianie tekstu, przetwarzanie tekstu) jest niezależny i izolowany.

Zdefiniuj domyślne parametry wejściowe dla stosów CloudFormation

Aby zdefiniować parametry wejściowe dla stosów CloudFormation, otwórz default.properties pod params folder i wprowadź następujący kod:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Wdróż rozwiązanie

Aby wdrożyć potok, wykonaj następujące kroki:

Dodaj Uruchom stos:
Dodaj Następna.
Określ szczegóły stosu, jak pokazano na poniższym zrzucie ekranu i wybierz Następna.
W Skonfiguruj opcje stosu sekcji, dodaj opcjonalne tagi, uprawnienia i inne ustawienia zaawansowane.
Dodaj Następna.
Przejrzyj szczegóły stosu i wybierz Potwierdzam, że AWS CloudFormation może tworzyć zasoby IAM o niestandardowych nazwach.
Dodaj Utwórz stos.

To inicjuje wdrożenie stosu na Twoim koncie AWS.

Po pomyślnym wdrożeniu stosu możesz rozpocząć testowanie potoku zgodnie z opisem w następnej sekcji.

Przetestuj rurociąg

Po pomyślnym wdrożeniu wykonaj następujące kroki, aby przetestować potok:

Pobierz przykładowe pliki na twój komputer.
Tworzenie /uploads folder (partycja) pod nowo utworzonym zasobnikiem wejściowym S3.
Utwórz osobne foldery (partycje), takie jak jobapplications dla /uploads.
Prześlij pierwszą wersję aplikacji o pracę z przykładowego folderu dokumentów do /uploads/jobapplications przegroda.

Po zakończeniu potoku wyodrębnioną parę klucz-wartość dla tej wersji dokumentu znajdziesz w /OuputS3/03-textract-parsed-output/jobapplications na konsoli Amazon S3.

Możesz go również znaleźć w tabeli Athena (applications_data_table) na Baza danych menu (jobapplicationsdatabase).

Prześlij drugą wersję aplikacji o pracę z przykładowego folderu dokumentów do /uploads/jobapplications przegroda.

Po zakończeniu potoku wyodrębnioną parę klucz-wartość dla tej wersji znajdziesz w /OuputS3/03-textract-parsed-output/jobapplications na konsoli Amazon S3.

Możesz go również znaleźć w tabeli Athena (applications_data_table) na Baza danych menu (jobapplicationsdatabase).

Jesteś skończony! Potok został pomyślnie wdrożony.

Dodaj nowe wersje formularzy

Aktualizacja rozwiązania dla nowej wersji formularza jest prosta — każda wersja formularza wymaga jedynie aktualizacji poprzez przetestowanie zapytań w stosie przetwarzania.

Po dokonaniu aktualizacji możesz ponownie wdrożyć zaktualizowany potok przy użyciu interfejsów API AWS CloudFormation i przetwarzać nowe dokumenty, uzyskując te same standardowe punkty danych dla schematu przy minimalnych zakłóceniach i wysiłku programistycznym potrzebnym do wprowadzenia zmian w potoku. Ta elastyczność, którą osiąga się przez oddzielenie zachowania analizowania i wyodrębniania oraz przy użyciu funkcji JSON SerDe w Athena, sprawia, że ten potok jest rozwiązaniem, które można konserwować dla dowolnej liczby wersji formularzy, które organizacja musi przetworzyć w celu zebrania informacji.

Po uruchomieniu rozwiązania do pozyskiwania dane z formularzy przychodzących są automatycznie wypełniane do platformy Athena informacjami o plikach i skojarzonych z nimi danych wejściowych. Gdy dane w formularzach przechodzą z nieustrukturyzowanych do ustrukturyzowanych, są gotowe do użycia w aplikacjach podrzędnych, takich jak analityka, modelowanie ML i nie tylko.

Sprzątać

Aby uniknąć ponoszenia bieżących opłat, po zakończeniu usuń zasoby utworzone w ramach tego rozwiązania.

W konsoli Amazon S3 ręcznie usuń zasobniki utworzone jako część stosu CloudFormation.
W konsoli AWS CloudFormation wybierz Półki na książki w okienku nawigacji.
Wybierz główny stos i wybierz Usuń.

To automatycznie usuwa zagnieżdżone stosy.

Wnioski

W tym poście pokazaliśmy, w jaki sposób klienci, którzy chcą śledzić i dostosowywać przetwarzanie dokumentów, mogą tworzyć i wdrażać oparty na zdarzeniach, bezserwerowy, wieloformatowy potok parsowania dokumentów za pomocą Amazon Text. Ten potok zapewnia rozwiązanie, które można utrzymać, ponieważ każdy komponent (pozyskiwanie, wyodrębnianie tekstu, przetwarzanie tekstu) jest niezależny i odizolowany, co pozwala organizacjom na operacjonalizację ich rozwiązań w celu zaspokojenia różnych potrzeb związanych z przetwarzaniem.

Wypróbuj rozwiązanie już dziś i zostaw swoją opinię w sekcji komentarzy.

O autorach

Emilia Soward jest analitykiem danych w AWS Professional Services. Posiada tytuł magistra z wyróżnieniem w dziedzinie sztucznej inteligencji Uniwersytetu w Edynburgu w Szkocji w Wielkiej Brytanii, ze szczególnym uwzględnieniem przetwarzania języka naturalnego (NLP). Emily pełniła stosowane stanowiska naukowe i inżynieryjne, koncentrując się na badaniach i rozwoju produktów wykorzystujących sztuczną inteligencję, doskonałości operacyjnej i zarządzaniu obciążeniami SI działającymi w organizacjach w sektorze publicznym i prywatnym. Pomaga w prowadzeniu klientów jako starszy mówca AWS, a ostatnio jako autorka AWS Well-Architected in the Machine Learning Lens.

Sandeep Singh jest analitykiem danych w AWS Professional Services. Posiada tytuł Master of Science in Information Systems ze specjalizacją AI i Data Science uzyskany na Uniwersytecie Stanowym San Diego (SDSU) w Kalifornii. Jest pełnoprawnym Data Scientistem z silnym doświadczeniem informatycznym i zaufanym doradcą ze specjalizacją w projektowaniu systemów sztucznej inteligencji i sterowania. Jego pasją jest pomaganie klientom w prowadzeniu ich projektów o dużym wpływie we właściwym kierunku, doradzanie im i prowadzenie w ich podróży do chmury oraz budowanie najnowocześniejszych rozwiązań obsługujących sztuczną inteligencję/ML.

Znak czasu: 17 marca 2022 r.

Znak czasu: Lipiec 18, 2023

Zbuduj identyfikowalny, niestandardowy, wieloformatowy potok analizowania dokumentów za pomocą Amazon Text

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Zdefiniuj domyślne parametry wejściowe dla stosów CloudFormation

Wdróż rozwiązanie

Przetestuj rurociąg

Dodaj nowe wersje formularzy

Sprzątać

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Bazy wiedzy dla Amazon Bedrock obsługują teraz filtrowanie metadanych w celu poprawy dokładności wyszukiwania | Usługi internetowe Amazona

Skonfiguruj projekt podsumowania tekstu za pomocą Hugging Face Transformers: część 1

Zbuduj wykrywacz spamu e-mail za pomocą Amazon SageMaker | Usługi sieciowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto