Wiele firm jest przytłoczonych ogromną ilością dokumentów, które muszą przetwarzać, organizować i klasyfikować, aby lepiej służyć swoim klientom. Przykładami mogą być wnioski o pożyczkę, rozliczenia podatkowe i rozliczenia. Takie dokumenty są częściej odbierane w formatach graficznych i są w większości wielostronicowe i w formacie niskiej jakości. Aby być bardziej konkurencyjnym i efektywnym kosztowo, a jednocześnie zachować bezpieczeństwo i zgodność, firmy te muszą rozwijać swoje możliwości przetwarzania dokumentów, aby skrócić czas przetwarzania i poprawić dokładność klasyfikacji w sposób zautomatyzowany i skalowalny. Firmy te stoją przed następującymi wyzwaniami w zakresie przetwarzania dokumentów:
- Przeprowadzanie moderacji dokumentów w celu wykrycia nieodpowiednich, niechcianych lub obraźliwych treści
- Ręczna klasyfikacja dokumentów stosowana przez mniejsze firmy jest czasochłonna, podatna na błędy i kosztowna
- Techniki OCR z systemami opartymi na regułach nie są wystarczająco inteligentne i nie mogą dostosować się do zmian w formacie dokumentu
- Firmy, które stosują metody uczenia maszynowego (ML), często nie mają zasobów, aby skalować swój model w celu radzenia sobie z nagłymi wzrostami liczby dokumentów przychodzących
Ten post zajmuje się tymi wyzwaniami i zapewnia architekturę, która skutecznie rozwiązuje te problemy. Pokazujemy, jak możesz użyć Amazon Rekognition i Ekstrakt z amazonki optymalizować i zmniejszać wysiłek ludzki przy przetwarzaniu dokumentów. Amazon Rekognition identyfikuje etykiety moderacji w Twoim dokumencie i klasyfikuje je za pomocą Etykiety niestandardowe Amazon Rekognition. Amazon Text Extract wyodrębnia tekst z Twoich dokumentów.
W tym poście omówimy tworzenie dwóch potoków ML (szkolenie i wnioskowanie) w celu przetwarzania dokumentów bez konieczności ręcznego wykonywania prac lub niestandardowego kodu. Kroki wysokiego poziomu w potoku wnioskowania obejmują:
- Przeprowadź moderację przesłanych dokumentów za pomocą Amazon Rekognition.
- Klasyfikuj dokumenty na różne kategorie, takie jak W-2, faktury, wyciągi bankowe i odcinki wypłat za pomocą etykiet niestandardowych.
- Wyodrębnij tekst z dokumentów, takich jak tekst drukowany, pismo odręczne, formularze i tabele, za pomocą Amazon Text.
Omówienie rozwiązania
To rozwiązanie wykorzystuje następujące usługi AI, technologie bezserwerowe i usługi zarządzane w celu wdrożenia skalowalnej i opłacalnej architektury:
- Amazon DynamoDB - Baza danych klucz-wartość i dokumentów, która zapewnia jednocyfrową wydajność w milisekundach w dowolnej skali.
- Most zdarzeń Amazona – Bezserwerowa magistrala zdarzeń do tworzenia aplikacji sterowanych zdarzeniami na dużą skalę przy użyciu zdarzeń generowanych przez aplikacje, zintegrowane oprogramowanie jako usługa (SaaS) i usługi AWS.
- AWS Lambda – Bezserwerowa usługa obliczeniowa, która umożliwia uruchamianie kodu w odpowiedzi na wyzwalacze, takie jak zmiany danych, zmiany stanu systemu lub działania użytkownika.
- Amazon Rekognition – Wykorzystuje ML do identyfikowania obiektów, osób, tekstu, scen i działań na obrazach i filmach, a także do wykrywania wszelkich nieodpowiednich treści.
- Etykiety niestandardowe Amazon Rekognition – Wykorzystuje AutoML do wizji komputerowej i uczenia się transferu, aby pomóc w trenowaniu niestandardowych modeli w celu identyfikowania obiektów i scen na obrazach, które są specyficzne dla Twoich potrzeb biznesowych.
- Usługa Amazon Simple Storage (Amazon S3) – Służy jako magazyn obiektów dla Twoich dokumentów i umożliwia centralne zarządzanie z dopracowaną kontrolą dostępu.
- Funkcje Amazon Step – Bezserwerowy koordynator funkcji, który ułatwia sekwencjonowanie funkcji Lambda i wielu usług w aplikacjach o znaczeniu krytycznym dla firmy.
- Ekstrakt z amazonki - Wykorzystuje ML do wyodrębniania tekstu i danych ze skanowanych dokumentów w formatach PDF, JPEG lub PNG.
Poniższy diagram ilustruje architekturę potoku wnioskowania.
Nasz przepływ pracy obejmuje następujące kroki:
- Użytkownik przesyła dokumenty do wejściowego zasobnika S3.
- Przesyłanie wyzwala plik Powiadomienie o zdarzeniu Amazon S3 dostarczanie wydarzeń w czasie rzeczywistym bezpośrednio do EventBridge. Wydarzenia Amazon S3, które pasują do „
object created
” filtr zdefiniowany dla an Reguła EventBridge uruchamia przepływ pracy Step Functions. - Przepływ pracy Step Functions uruchamia szereg funkcji Lambda, które wykonują następujące zadania:
- Pierwsza funkcja wykonuje zadania przetwarzania wstępnego i wywołuje wywołania API do Amazon Rekognition:
- Jeśli przychodzące dokumenty są w formacie obrazu (takim jak JPG lub PNG), funkcja wywołuje interfejs API Amazon Rekognition i udostępnia dokumenty jako obiekty S3. Jeśli jednak dokument jest w formacie PDF, funkcja przesyła strumieniowo bajty obrazu podczas wywoływania interfejsu API Amazon Rekognition.
- Jeśli dokument zawiera wiele stron, funkcja dzieli dokument na pojedyncze strony i zapisuje je w folderze pośrednim w wyjściowym zasobniku S3 przed przetworzeniem ich pojedynczo.
- Po zakończeniu zadań wstępnego przetwarzania funkcja wywołuje interfejs API do usługi Amazon Rekognition w celu wykrycia nieodpowiedniej, niechcianej lub obraźliwej treści i wykonuje kolejne wywołanie interfejsu API do wytrenowanego modelu etykiet niestandardowych Rekognition w celu sklasyfikowania dokumentów.
- Druga funkcja wykonuje wywołanie API do Amazon Texttract, aby zainicjować zadanie wyodrębnienia tekstu z dokumentu wejściowego i zapisania go w wyjściowym wiadrze S3.
- Trzecia funkcja przechowuje metadane dokumentu, takie jak etykieta moderacji, klasyfikacja dokumentu, pewność klasyfikacji, identyfikator zadania Amazon Text i ścieżka pliku w tabeli DynamoDB.
- Pierwsza funkcja wykonuje zadania przetwarzania wstępnego i wywołuje wywołania API do Amazon Rekognition:
Możesz dostosować przepływ pracy zgodnie z wymaganiami, na przykład możesz dodać funkcję przetwarzania języka naturalnego (NLP) w tym przepływie pracy za pomocą Amazon Comprehend aby uzyskać wgląd w wyodrębniony tekst.
Potok szkoleń
Zanim wdrożymy tę architekturę, trenujemy niestandardowy model do klasyfikowania dokumentów do różnych kategorii za pomocą etykiet niestandardowych rozpoznawania. W potoku szkoleniowym oznaczamy dokumenty za pomocą Amazon SageMaker Ground Prawda. Następnie używamy oznaczonych dokumentów do trenowania modelu za pomocą etykiet niestandardowych rozpoznawania. W tym przykładzie używamy an Amazon Sage Maker Notatnik, aby wykonać te kroki, ale możesz także dodawać adnotacje do obrazów za pomocą konsoli Rekognition Custom Labels. Aby uzyskać instrukcje, zobacz Etykietowanie obrazów.
Dataset
Do trenowania modelu używamy następujących publicznych zbiorów danych zawierających W2 i faktury:
Możesz użyć innego zbioru danych odpowiedniego dla Twojej branży.
W poniższej tabeli podsumowano podziały zestawu danych między uczeniem a testowaniem.
Klasa | Zestaw treningowy | Zestaw testowy |
Faktury | 352 | 75 |
W-2 | 86 | 16 |
Kwota produktów: | 438 | 91 |
Wdróż potok treningowy za pomocą AWS CloudFormation
Wdrażasz Tworzenie chmury AWS szablon, aby zapewnić niezbędne AWS Zarządzanie tożsamością i dostępem (IAM) role i składniki potoku szkoleniowego, w tym wystąpienie notatnika SageMaker.
- Uruchom następujący szablon CloudFormation w regionie Wschodnie stany USA (N. Wirginia):
- W razie zamówieenia projektu Nazwa stosu, wprowadź nazwę, na przykład
document-processing-training-pipeline
. - Dodaj Następna.
- W Możliwości i transformacje zaznacz pole wyboru, aby potwierdzić, że AWS CloudFormation może utworzyć Zasoby uprawnień.
- Dodaj Utwórz stos.
Strona szczegółów stosu powinna pokazywać status stosu jako CREATE_IN_PROGRESS
. Zmiana stanu na może zająć do 5 minut CREATE_COMPLETE
. Po zakończeniu możesz wyświetlić dane wyjściowe w Wyjścia patka.
- Po pomyślnym uruchomieniu stosu otwórz konsolę SageMaker i wybierz Instancje notebooków w nazwie nawigacji.
- Poszukaj instancji z
DocProcessingNotebookInstance-
prefiks i poczekaj, aż jego status to InService. - Pod Akcjewybierz Otwórz Jupyter.
Uruchom przykładowy notatnik
Aby uruchomić notatnik, wykonaj następujące czynności:
- Wybierz
Rekognition_Custom_Labels
przykładowy notatnik.
- Dodaj run aby uruchomić komórki w przykładowym notatniku w kolejności.
Notes przedstawia cały cykl życia przygotowywania obrazów szkoleniowych i testowych, oznaczania ich etykietami, tworzenia plików manifestu, trenowania modelu i uruchamiania trenowanego modelu z etykietami niestandardowymi rozpoznawania. Alternatywnie możesz trenować i uruchamiać model za pomocą konsoli Rekognition Custom Labels. Aby uzyskać instrukcje, zobacz Trenowanie modelu (konsola).
Notatnik nie wymaga wyjaśnień; możesz postępować zgodnie z instrukcjami, aby ukończyć szkolenie modelu.
- Zanotuj
ProjectVersionArn
aby zapewnić potok wnioskowania na późniejszym etapie.
W przypadku instancji notatników SageMaker opłata jest naliczana za wybrany typ instancji, na podstawie czasu użytkowania. Po zakończeniu trenowania modelu możesz zatrzymać wystąpienie notesu, aby uniknąć kosztów bezczynnych zasobów.
Wdróż potok wnioskowania za pomocą AWS CloudFormation
Aby wdrożyć potok wnioskowania, wykonaj następujące kroki:
- Uruchom następujący szablon CloudFormation w regionie Wschodnie stany USA (N. Wirginia):
- W razie zamówieenia projektu Nazwa stosu, wprowadź nazwę, na przykład
document-processing-inference-pipeline
. - W razie zamówieenia projektu Nazwa tabeli DynamoDBT, wprowadź unikalną nazwę tabeli DynamoDB; na przykład,
document-processing-table
. - W razie zamówieenia projektu Nazwa zasobnika wejściowego, wprowadź unikalną nazwę zasobnika S3 tworzonego przez stos; na przykład,
document-processing-input-bucket
.
Dokumenty wejściowe są przesyłane do tego zasobnika przed ich przetworzeniem. Podczas tworzenia nazwy zasobnika wejściowego używaj tylko małych liter i bez spacji. Ponadto ta operacja tworzy nowy zasobnik S3, więc nie używaj nazwy istniejącego zasobnika. Aby uzyskać więcej informacji, zobacz Zasady nazewnictwa zasobników.
- W razie zamówieenia projektu Nazwa zasobnika wyjściowego, wprowadź unikalną nazwę zasobnika wyjściowego; na przykład d
ocument-processing-output-bucket
.
Ten zasobnik przechowuje dokumenty wyjściowe po ich przetworzeniu. Przechowuje również strony wielostronicowych dokumentów wejściowych PDF po ich podzieleniu przez funkcję Lambda. Przestrzegaj tych samych reguł nazewnictwa, co w zasobniku wejściowym.
- W razie zamówieenia projektu RozpoznawanieCustomLabelModelARN, wejdz do
ProjectVersionArn
wartość zanotowaną w notatniku Jupytera. - Dodaj Następna.
- Na Skonfiguruj opcje stosu ustaw wszelkie dodatkowe parametry stosu, w tym tagi.
- Dodaj Następna.
- W Możliwości i transformacje zaznacz pole wyboru, aby potwierdzić, że AWS CloudFormation może tworzyć zasoby uprawnień.
- Dodaj Utwórz stos.
Strona szczegółów stosu powinna pokazywać status stosu jako CREATE_IN_PROGRESS
. Zmiana stanu na może zająć do 5 minut CREATE_COMPLETE
. Po zakończeniu możesz wyświetlić dane wyjściowe w Wyjścia patka.
Przetwarzaj dokument przez potok
Wdrożyliśmy zarówno szkolenia, jak i potoki wnioskowania, a teraz jesteśmy gotowi do korzystania z rozwiązania i przetwarzania dokumentu.
- W konsoli Amazon S3 otwórz zasobnik wejściowy.
- Prześlij przykładowy dokument do folderu S3.
To rozpoczyna przepływ pracy. Proces ten wypełnia tabelę DynamoDB etykietami klasyfikacji dokumentów i moderacji. Dane wyjściowe z Amazon Text są dostarczane do wyjściowego wiadra S3 w TextractOutput
teczka.
Przesłaliśmy kilka różnych przykładowych dokumentów do przepływu pracy i otrzymaliśmy następujące informacje zawarte w tabeli DynamoDB.
Jeśli nie widzisz pozycji w tabeli DynamoDB ani dokumentów przesłanych do wyjściowego wiadra S3, sprawdź Dzienniki Amazon CloudWatch dla odpowiedniej funkcji Lambda i poszukaj potencjalnych błędów, które spowodowały awarię.
Sprzątać
Wykonaj następujące kroki, aby wyczyścić zasoby wdrożone dla tego rozwiązania:
- W konsoli CloudFormation wybierz Półki na książki.
- Wybierz stosy wdrożone dla tego rozwiązania.
- Dodaj Usuń.
Te kroki nie powodują usunięcia zasobników S3, tabeli DynamoDB i wytrenowanego modelu etykiet niestandardowych rozpoznawania. Jeśli nie zostaną usunięte, nadal będą naliczane opłaty za przechowywanie. Należy usunąć te zasoby bezpośrednio za pomocą odpowiednich konsol serwisowych, jeśli już ich nie potrzebujesz.
Wnioski
W tym poście przedstawiliśmy skalowalne, bezpieczne i zautomatyzowane podejście do moderowania, klasyfikowania i przetwarzania dokumentów. Firmy z wielu branż mogą korzystać z tego rozwiązania, aby usprawnić swoją działalność i lepiej służyć swoim klientom. Pozwala na szybsze przetwarzanie dokumentów i większą dokładność oraz zmniejsza złożoność ekstrakcji danych. Zapewnia również większe bezpieczeństwo i zgodność z przepisami dotyczącymi danych osobowych, zmniejszając liczbę pracowników zaangażowanych w przetwarzanie przychodzących dokumentów.
Aby uzyskać więcej informacji, zobacz Przewodnik po etykietach niestandardowych Amazon Rekognition, Przewodnik dla programistów Amazon Rekognition i Przewodnik dla programistów Amazon Text. Jeśli dopiero zaczynasz korzystać z etykiet niestandardowych Amazon Rekognition, wypróbuj je, korzystając z naszej bezpłatnej warstwy, która trwa 3 miesiące i obejmuje 10 bezpłatnych godzin szkoleniowych miesięcznie i 4 bezpłatne godziny wnioskowania miesięcznie. Bezpłatna warstwa Amazon Rekognition obejmuje przetwarzanie 5,000 obrazów miesięcznie przez 12 miesięcy. Bezpłatna warstwa Amazon Text również działa przez trzy miesiące i obejmuje 1,000 stron miesięcznie dla API Detect Document Text.
O autorach
Jay'a Rao jest głównym architektem rozwiązań w AWS. Lubi udzielać klientom wskazówek technicznych i strategicznych oraz pomagać im w projektowaniu i wdrażaniu rozwiązań w AWS.
Uchenna Egbe jest Associate Architect Solutions w AWS. Spędza swój wolny czas na badaniu ziół, herbat, superfoods i tego, jak może włączyć je do swojej codziennej diety.
- Coinsmart. Najlepsza w Europie giełda bitcoinów i kryptowalut.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. DARMOWY DOSTĘP.
- CryptoJastrząb. Radar Altcoin. Bezpłatna wersja próbna.
- Źródło: https://aws.amazon.com/blogs/machine-learning/moderate-classify-and-process-documents-using-amazon-rekognition-and-amazon-text/
- "
- 000
- 10
- 100
- 116
- Miesiąc 12
- O nas
- dostęp
- w poprzek
- działania
- zajęcia
- Dodatkowy
- AI
- Usługi AI
- Amazonka
- Inne
- api
- aplikacje
- podejście
- architektura
- Współpracownik
- zautomatyzowane
- AWS
- Bank
- zanim
- billing
- granica
- Pudełko
- budować
- Budowanie
- autobus
- biznes
- wezwanie
- możliwości
- powodowany
- centralny
- wyzwania
- zmiana
- naładowany
- Opłaty
- Dodaj
- klasyfikacja
- kod
- Firmy
- konkurencyjny
- spełnienie
- zgodny
- obliczać
- komputer
- pewność siebie
- Konsola
- zawiera
- zawartość
- kontynuować
- Odpowiedni
- opłacalne
- pokrywa
- Stwórz
- tworzy
- Tworzenie
- zwyczaj
- Klientów
- dane
- Baza danych
- dostarczona
- dostarcza
- rozwijać
- wdrażane
- Wnętrze
- detale
- Deweloper
- Dieta
- różne
- bezpośrednio
- dokumenty
- skutecznie
- wysiłek
- starania
- Wchodzę
- wydarzenie
- wydarzenia
- ewoluuje
- przykład
- przykłady
- Przede wszystkim system został opracowany
- Wyciągi
- Twarz
- Brak
- szybciej
- i terminów, a
- obserwuj
- następujący
- Nasz formularz
- format
- formularze
- Darmowy
- funkcjonować
- Funkcje
- Ponadto
- uchwyt
- pomoc
- pomoc
- wyższy
- W jaki sposób
- Jednak
- HTTPS
- człowiek
- zidentyfikować
- tożsamość
- obraz
- wdrożenia
- podnieść
- zawierać
- obejmuje
- Włącznie z
- indywidualny
- przemysłowa
- przemysł
- Informacja
- wkład
- spostrzeżenia
- zintegrowany
- Inteligentny
- zaangażowany
- IT
- Praca
- etykietowanie
- Etykiety
- język
- uruchomiona
- nauka
- Prawodawstwo
- maszyna
- uczenie maszynowe
- WYKONUJE
- zarządzane
- i konserwacjami
- podręcznik
- Mecz
- może
- ML
- model
- modele
- Miesiąc
- miesięcy
- jeszcze
- wielokrotność
- Naturalny
- Nawigacja
- niezbędny
- wymagania
- notatnik
- koncepcja
- działanie
- Optymalizacja
- zamówienie
- Zapłacić
- Ludzie
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- osobisty
- dane personalne
- potencjał
- Główny
- problemy
- wygląda tak
- przetwarzanie
- zapewniać
- zapewnia
- że
- publiczny
- w czasie rzeczywistym
- Odebrane
- zmniejszyć
- redukcja
- Zasoby
- odpowiedź
- reguły
- run
- bieganie
- skalowalny
- Skala
- Sceny
- bezpieczne
- bezpieczeństwo
- Serie
- Bezserwerowe
- usługa
- Usługi
- zestaw
- Prosty
- So
- Tworzenie
- Oprogramowanie jako usługa
- solidny
- rozwiązanie
- Rozwiązania
- Rozwiązuje
- obowiązuje
- dzielić
- Dzieli
- stos
- rozpocznie
- Stan
- oświadczenia
- Rynek
- pobyt
- przechowywanie
- sklep
- sklep
- Strategiczny
- składane
- Z powodzeniem
- system
- systemy
- zadania
- podatek
- Techniczny
- Techniki
- Technologies
- test
- Testowanie
- Przez
- czas
- czasochłonne
- czasy
- Trening
- przenieść
- wyjątkowy
- us
- posługiwać się
- wartość
- Weryfikacja
- Filmy
- Zobacz i wysłuchaj
- virginia
- wizja
- Tom
- czekać
- bez
- Siła robocza