Moderuj, klasyfikuj i przetwarzaj dokumenty za pomocą Amazon Rekognition i Amazon Text

Opublikowane ponownie przez Plato

Obserwuje: 0

Wiele firm jest przytłoczonych ogromną ilością dokumentów, które muszą przetwarzać, organizować i klasyfikować, aby lepiej służyć swoim klientom. Przykładami mogą być wnioski o pożyczkę, rozliczenia podatkowe i rozliczenia. Takie dokumenty są częściej odbierane w formatach graficznych i są w większości wielostronicowe i w formacie niskiej jakości. Aby być bardziej konkurencyjnym i efektywnym kosztowo, a jednocześnie zachować bezpieczeństwo i zgodność, firmy te muszą rozwijać swoje możliwości przetwarzania dokumentów, aby skrócić czas przetwarzania i poprawić dokładność klasyfikacji w sposób zautomatyzowany i skalowalny. Firmy te stoją przed następującymi wyzwaniami w zakresie przetwarzania dokumentów:

Przeprowadzanie moderacji dokumentów w celu wykrycia nieodpowiednich, niechcianych lub obraźliwych treści
Ręczna klasyfikacja dokumentów stosowana przez mniejsze firmy jest czasochłonna, podatna na błędy i kosztowna
Techniki OCR z systemami opartymi na regułach nie są wystarczająco inteligentne i nie mogą dostosować się do zmian w formacie dokumentu
Firmy, które stosują metody uczenia maszynowego (ML), często nie mają zasobów, aby skalować swój model w celu radzenia sobie z nagłymi wzrostami liczby dokumentów przychodzących

Ten post zajmuje się tymi wyzwaniami i zapewnia architekturę, która skutecznie rozwiązuje te problemy. Pokazujemy, jak możesz użyć Amazon Rekognition i Ekstrakt z amazonki optymalizować i zmniejszać wysiłek ludzki przy przetwarzaniu dokumentów. Amazon Rekognition identyfikuje etykiety moderacji w Twoim dokumencie i klasyfikuje je za pomocą Etykiety niestandardowe Amazon Rekognition. Amazon Text Extract wyodrębnia tekst z Twoich dokumentów.

W tym poście omówimy tworzenie dwóch potoków ML (szkolenie i wnioskowanie) w celu przetwarzania dokumentów bez konieczności ręcznego wykonywania prac lub niestandardowego kodu. Kroki wysokiego poziomu w potoku wnioskowania obejmują:

Przeprowadź moderację przesłanych dokumentów za pomocą Amazon Rekognition.
Klasyfikuj dokumenty na różne kategorie, takie jak W-2, faktury, wyciągi bankowe i odcinki wypłat za pomocą etykiet niestandardowych.
Wyodrębnij tekst z dokumentów, takich jak tekst drukowany, pismo odręczne, formularze i tabele, za pomocą Amazon Text.

Omówienie rozwiązania

To rozwiązanie wykorzystuje następujące usługi AI, technologie bezserwerowe i usługi zarządzane w celu wdrożenia skalowalnej i opłacalnej architektury:

Amazon DynamoDB - Baza danych klucz-wartość i dokumentów, która zapewnia jednocyfrową wydajność w milisekundach w dowolnej skali.
Most zdarzeń Amazona – Bezserwerowa magistrala zdarzeń do tworzenia aplikacji sterowanych zdarzeniami na dużą skalę przy użyciu zdarzeń generowanych przez aplikacje, zintegrowane oprogramowanie jako usługa (SaaS) i usługi AWS.
AWS Lambda – Bezserwerowa usługa obliczeniowa, która umożliwia uruchamianie kodu w odpowiedzi na wyzwalacze, takie jak zmiany danych, zmiany stanu systemu lub działania użytkownika.
Amazon Rekognition – Wykorzystuje ML do identyfikowania obiektów, osób, tekstu, scen i działań na obrazach i filmach, a także do wykrywania wszelkich nieodpowiednich treści.
Etykiety niestandardowe Amazon Rekognition – Wykorzystuje AutoML do wizji komputerowej i uczenia się transferu, aby pomóc w trenowaniu niestandardowych modeli w celu identyfikowania obiektów i scen na obrazach, które są specyficzne dla Twoich potrzeb biznesowych.
Usługa Amazon Simple Storage (Amazon S3) – Służy jako magazyn obiektów dla Twoich dokumentów i umożliwia centralne zarządzanie z dopracowaną kontrolą dostępu.
Funkcje Amazon Step – Bezserwerowy koordynator funkcji, który ułatwia sekwencjonowanie funkcji Lambda i wielu usług w aplikacjach o znaczeniu krytycznym dla firmy.
Ekstrakt z amazonki - Wykorzystuje ML do wyodrębniania tekstu i danych ze skanowanych dokumentów w formatach PDF, JPEG lub PNG.

Poniższy diagram ilustruje architekturę potoku wnioskowania.

Nasz przepływ pracy obejmuje następujące kroki:

Użytkownik przesyła dokumenty do wejściowego zasobnika S3.
Przesyłanie wyzwala plik Powiadomienie o zdarzeniu Amazon S3 dostarczanie wydarzeń w czasie rzeczywistym bezpośrednio do EventBridge. Wydarzenia Amazon S3, które pasują do „object created” filtr zdefiniowany dla an Reguła EventBridge uruchamia przepływ pracy Step Functions.
Przepływ pracy Step Functions uruchamia szereg funkcji Lambda, które wykonują następujące zadania:
1. Pierwsza funkcja wykonuje zadania przetwarzania wstępnego i wywołuje wywołania API do Amazon Rekognition:
  - Jeśli przychodzące dokumenty są w formacie obrazu (takim jak JPG lub PNG), funkcja wywołuje interfejs API Amazon Rekognition i udostępnia dokumenty jako obiekty S3. Jeśli jednak dokument jest w formacie PDF, funkcja przesyła strumieniowo bajty obrazu podczas wywoływania interfejsu API Amazon Rekognition.
  - Jeśli dokument zawiera wiele stron, funkcja dzieli dokument na pojedyncze strony i zapisuje je w folderze pośrednim w wyjściowym zasobniku S3 przed przetworzeniem ich pojedynczo.
  - Po zakończeniu zadań wstępnego przetwarzania funkcja wywołuje interfejs API do usługi Amazon Rekognition w celu wykrycia nieodpowiedniej, niechcianej lub obraźliwej treści i wykonuje kolejne wywołanie interfejsu API do wytrenowanego modelu etykiet niestandardowych Rekognition w celu sklasyfikowania dokumentów.
2. Druga funkcja wykonuje wywołanie API do Amazon Texttract, aby zainicjować zadanie wyodrębnienia tekstu z dokumentu wejściowego i zapisania go w wyjściowym wiadrze S3.
3. Trzecia funkcja przechowuje metadane dokumentu, takie jak etykieta moderacji, klasyfikacja dokumentu, pewność klasyfikacji, identyfikator zadania Amazon Text i ścieżka pliku w tabeli DynamoDB.

Możesz dostosować przepływ pracy zgodnie z wymaganiami, na przykład możesz dodać funkcję przetwarzania języka naturalnego (NLP) w tym przepływie pracy za pomocą Amazon Comprehend aby uzyskać wgląd w wyodrębniony tekst.

Potok szkoleń

Zanim wdrożymy tę architekturę, trenujemy niestandardowy model do klasyfikowania dokumentów do różnych kategorii za pomocą etykiet niestandardowych rozpoznawania. W potoku szkoleniowym oznaczamy dokumenty za pomocą Amazon SageMaker Ground Prawda. Następnie używamy oznaczonych dokumentów do trenowania modelu za pomocą etykiet niestandardowych rozpoznawania. W tym przykładzie używamy an Amazon Sage Maker Notatnik, aby wykonać te kroki, ale możesz także dodawać adnotacje do obrazów za pomocą konsoli Rekognition Custom Labels. Aby uzyskać instrukcje, zobacz Etykietowanie obrazów.

Architektura potoku szkoleniowego

Dataset

Do trenowania modelu używamy następujących publicznych zbiorów danych zawierających W2 i faktury:

Możesz użyć innego zbioru danych odpowiedniego dla Twojej branży.

W poniższej tabeli podsumowano podziały zestawu danych między uczeniem a testowaniem.

Klasa	Zestaw treningowy	Zestaw testowy
Faktury	352	75
W-2	86	16
Kwota produktów:	438	91

Wdróż potok treningowy za pomocą AWS CloudFormation

Wdrażasz Tworzenie chmury AWS szablon, aby zapewnić niezbędne AWS Zarządzanie tożsamością i dostępem (IAM) role i składniki potoku szkoleniowego, w tym wystąpienie notatnika SageMaker.

Uruchom następujący szablon CloudFormation w regionie Wschodnie stany USA (N. Wirginia):
W razie zamówieenia projektu Nazwa stosu, wprowadź nazwę, na przykład document-processing-training-pipeline.
Dodaj Następna.
W Możliwości i transformacje zaznacz pole wyboru, aby potwierdzić, że AWS CloudFormation może utworzyć Zasoby uprawnień.
Dodaj Utwórz stos.

Strona szczegółów stosu powinna pokazywać status stosu jako CREATE_IN_PROGRESS. Zmiana stanu na może zająć do 5 minut CREATE_COMPLETE. Po zakończeniu możesz wyświetlić dane wyjściowe w Wyjścia patka.

Po pomyślnym uruchomieniu stosu otwórz konsolę SageMaker i wybierz Instancje notebooków w nazwie nawigacji.
Poszukaj instancji z DocProcessingNotebookInstance- prefiks i poczekaj, aż jego status to InService.
Pod Akcjewybierz Otwórz Jupyter.

Uruchom przykładowy notatnik

Aby uruchomić notatnik, wykonaj następujące czynności:

Wybierz Rekognition_Custom_Labels przykładowy notatnik.
Dodaj run aby uruchomić komórki w przykładowym notatniku w kolejności.

Notes przedstawia cały cykl życia przygotowywania obrazów szkoleniowych i testowych, oznaczania ich etykietami, tworzenia plików manifestu, trenowania modelu i uruchamiania trenowanego modelu z etykietami niestandardowymi rozpoznawania. Alternatywnie możesz trenować i uruchamiać model za pomocą konsoli Rekognition Custom Labels. Aby uzyskać instrukcje, zobacz Trenowanie modelu (konsola).

Notatnik nie wymaga wyjaśnień; możesz postępować zgodnie z instrukcjami, aby ukończyć szkolenie modelu.

Zanotuj ProjectVersionArn aby zapewnić potok wnioskowania na późniejszym etapie.

W przypadku instancji notatników SageMaker opłata jest naliczana za wybrany typ instancji, na podstawie czasu użytkowania. Po zakończeniu trenowania modelu możesz zatrzymać wystąpienie notesu, aby uniknąć kosztów bezczynnych zasobów.

Wdróż potok wnioskowania za pomocą AWS CloudFormation

Aby wdrożyć potok wnioskowania, wykonaj następujące kroki:

Uruchom następujący szablon CloudFormation w regionie Wschodnie stany USA (N. Wirginia):
W razie zamówieenia projektu Nazwa stosu, wprowadź nazwę, na przykład document-processing-inference-pipeline.
W razie zamówieenia projektu Nazwa tabeli DynamoDBT, wprowadź unikalną nazwę tabeli DynamoDB; na przykład, document-processing-table.
W razie zamówieenia projektu Nazwa zasobnika wejściowego, wprowadź unikalną nazwę zasobnika S3 tworzonego przez stos; na przykład, document-processing-input-bucket.

Dokumenty wejściowe są przesyłane do tego zasobnika przed ich przetworzeniem. Podczas tworzenia nazwy zasobnika wejściowego używaj tylko małych liter i bez spacji. Ponadto ta operacja tworzy nowy zasobnik S3, więc nie używaj nazwy istniejącego zasobnika. Aby uzyskać więcej informacji, zobacz Zasady nazewnictwa zasobników.

W razie zamówieenia projektu Nazwa zasobnika wyjściowego, wprowadź unikalną nazwę zasobnika wyjściowego; na przykład document-processing-output-bucket.

Ten zasobnik przechowuje dokumenty wyjściowe po ich przetworzeniu. Przechowuje również strony wielostronicowych dokumentów wejściowych PDF po ich podzieleniu przez funkcję Lambda. Przestrzegaj tych samych reguł nazewnictwa, co w zasobniku wejściowym.

W razie zamówieenia projektu RozpoznawanieCustomLabelModelARN, wejdz do ProjectVersionArn wartość zanotowaną w notatniku Jupytera.
Dodaj Następna.
Na Skonfiguruj opcje stosu ustaw wszelkie dodatkowe parametry stosu, w tym tagi.
Dodaj Następna.
W Możliwości i transformacje zaznacz pole wyboru, aby potwierdzić, że AWS CloudFormation może tworzyć zasoby uprawnień.
Dodaj Utwórz stos.

Przetwarzaj dokument przez potok

Wdrożyliśmy zarówno szkolenia, jak i potoki wnioskowania, a teraz jesteśmy gotowi do korzystania z rozwiązania i przetwarzania dokumentu.

W konsoli Amazon S3 otwórz zasobnik wejściowy.
Prześlij przykładowy dokument do folderu S3.

To rozpoczyna przepływ pracy. Proces ten wypełnia tabelę DynamoDB etykietami klasyfikacji dokumentów i moderacji. Dane wyjściowe z Amazon Text są dostarczane do wyjściowego wiadra S3 w TextractOutput teczka.

Przesłaliśmy kilka różnych przykładowych dokumentów do przepływu pracy i otrzymaliśmy następujące informacje zawarte w tabeli DynamoDB.

Przechowywanie metadanych w DynamoDB

Jeśli nie widzisz pozycji w tabeli DynamoDB ani dokumentów przesłanych do wyjściowego wiadra S3, sprawdź Dzienniki Amazon CloudWatch dla odpowiedniej funkcji Lambda i poszukaj potencjalnych błędów, które spowodowały awarię.

Sprzątać

Wykonaj następujące kroki, aby wyczyścić zasoby wdrożone dla tego rozwiązania:

W konsoli CloudFormation wybierz Półki na książki.
Wybierz stosy wdrożone dla tego rozwiązania.
Dodaj Usuń.

Te kroki nie powodują usunięcia zasobników S3, tabeli DynamoDB i wytrenowanego modelu etykiet niestandardowych rozpoznawania. Jeśli nie zostaną usunięte, nadal będą naliczane opłaty za przechowywanie. Należy usunąć te zasoby bezpośrednio za pomocą odpowiednich konsol serwisowych, jeśli już ich nie potrzebujesz.

Wnioski

W tym poście przedstawiliśmy skalowalne, bezpieczne i zautomatyzowane podejście do moderowania, klasyfikowania i przetwarzania dokumentów. Firmy z wielu branż mogą korzystać z tego rozwiązania, aby usprawnić swoją działalność i lepiej służyć swoim klientom. Pozwala na szybsze przetwarzanie dokumentów i większą dokładność oraz zmniejsza złożoność ekstrakcji danych. Zapewnia również większe bezpieczeństwo i zgodność z przepisami dotyczącymi danych osobowych, zmniejszając liczbę pracowników zaangażowanych w przetwarzanie przychodzących dokumentów.

Aby uzyskać więcej informacji, zobacz Przewodnik po etykietach niestandardowych Amazon Rekognition, Przewodnik dla programistów Amazon Rekognition i Przewodnik dla programistów Amazon Text. Jeśli dopiero zaczynasz korzystać z etykiet niestandardowych Amazon Rekognition, wypróbuj je, korzystając z naszej bezpłatnej warstwy, która trwa 3 miesiące i obejmuje 10 bezpłatnych godzin szkoleniowych miesięcznie i 4 bezpłatne godziny wnioskowania miesięcznie. Bezpłatna warstwa Amazon Rekognition obejmuje przetwarzanie 5,000 obrazów miesięcznie przez 12 miesięcy. Bezpłatna warstwa Amazon Text również działa przez trzy miesiące i obejmuje 1,000 stron miesięcznie dla API Detect Document Text.

O autorach

Jay'a Rao jest głównym architektem rozwiązań w AWS. Lubi udzielać klientom wskazówek technicznych i strategicznych oraz pomagać im w projektowaniu i wdrażaniu rozwiązań w AWS.

Uchenna Egbe jest Associate Architect Solutions w AWS. Spędza swój wolny czas na badaniu ziół, herbat, superfoods i tego, jak może włączyć je do swojej codziennej diety.

Znak czasu: 12 maja 2022 r.

Znak czasu: Listopada 16, 2022

Moderuj, klasyfikuj i przetwarzaj dokumenty za pomocą Amazon Rekognition i Amazon Text

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Potok szkoleń

Dataset

Wdróż potok treningowy za pomocą AWS CloudFormation

Uruchom przykładowy notatnik

Wdróż potok wnioskowania za pomocą AWS CloudFormation

Przetwarzaj dokument przez potok

Sprzątać

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Jak Amazon Search osiąga niskie opóźnienia i wysoką przepustowość wnioskowania T5 dzięki NVIDIA Triton na AWS

Popraw jakość przewidywań w niestandardowych modelach klasyfikacji dzięki Amazon Comrehend | Usługi internetowe Amazona

Jak Sophos szkoli potężny, lekki wykrywacz złośliwego oprogramowania PDF na ultra skalę za pomocą Amazon SageMaker

Szkolenie rozproszone z Amazon EKS i Torch Distributed Elastic

Jak firma Sportradar wykorzystała bibliotekę Deep Java Library do zbudowania platform ML na skalę produkcyjną w celu zwiększenia wydajności i efektywności

Rozpoczęcie pracy ze złączem Amazon Kendra Box

Uzyskaj hosting o niskich opóźnieniach dla modeli ML opartych na drzewie decyzyjnym na serwerze NVIDIA Triton Inference Server na Amazon SageMaker

Włączanie hybrydowych przepływów pracy ML w Amazon EKS i Amazon SageMaker za pomocą jednego kliknięcia Kubeflow we wdrożeniu AWS

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto