Ekstrakt z amazonki to usługa uczenia maszynowego (ML), która automatycznie wyodrębnia tekst, charakter pisma ręcznego i dane ze zeskanowanych dokumentów. Pytania to funkcja umożliwiająca wyodrębnienie określonych informacji z różnych, złożonych dokumentów przy użyciu języka naturalnego. Zapytania niestandardowe umożliwia samoobsługowe dostosowanie funkcji Zapytania do specyficznych dla Twojej firmy, niestandardowych dokumentów, takich jak umowy kredytowe, czeki i zestawienia płatności. Dostosowując tę funkcję do rozpoznawania unikalnych terminów, struktur i kluczowych informacji specyficznych dla tych typów dokumentów, możesz spełnić swoje dalsze potrzeby w zakresie przetwarzania z większą precyzją i minimalną interwencją człowieka. Zapytania niestandardowe można łatwo zintegrować z istniejącym potokiem Textract, dzięki czemu możesz nadal korzystać z w pełni zarządzanych funkcji inteligentnego przetwarzania dokumentów Amazon Textract bez konieczności inwestowania w wiedzę specjalistyczną ML lub zarządzanie infrastrukturą.
W tym poście pokazujemy, jak zapytania niestandardowe mogą dokładnie wyodrębnić dane z czeków, które są złożonymi, niestandardowymi dokumentami. Ponadto omawiamy zalety zapytań niestandardowych i dzielimy się najlepszymi praktykami dotyczącymi efektywnego korzystania z tej funkcji.
Omówienie rozwiązania
Rozpoczynając nowy przypadek użycia, możesz ocenić skuteczność zapytań tekstowych w dokumentach, przechodząc do Konsola tekstowa oraz korzystanie z narzędzia Analyze Document Demo lub narzędzia do zbiorczego przesyłania dokumentów. Odnosić się do Najlepsze praktyki dotyczące zapytań do tworzenia zapytań mających zastosowanie do Twojego przypadku użycia. Jeśli zauważysz błędy w odpowiedziach na zapytania ze względu na charakter dokumentów biznesowych, możesz użyć zapytań niestandardowych, aby zwiększyć dokładność. W ciągu kilku godzin możesz dodawać adnotacje do przykładowych dokumentów za pomocą narzędzia Konsola zarządzania AWS i trenować adapter. Adaptery to komponenty, które podłączają się do wstępnie wytrenowanego modelu głębokiego uczenia się Amazon Textract i dostosowują jego dane wyjściowe na podstawie dokumentów z adnotacjami. Adaptera można używać do wnioskowania, przekazując identyfikator adaptera jako dodatkowy parametr do pliku Analizuj zapytania dotyczące dokumentów Żądanie API.
Sprawdźmy jak Zapytania niestandardowe może poprawić dokładność ekstrakcji w trudnych scenariuszach rzeczywistych, takich jak ekstrakcja danych z kontroli. Podstawowe wyzwanie podczas przetwarzania czeków wynika z ich dużego stopnia zróżnicowania w zależności od rodzaju (np. czeki osobiste lub kasjerskie), instytucji finansowej i kraju (np. format linii MICR). . Różnice te mogą obejmować umieszczenie nazwy odbiorcy płatności, kwoty wyrażonej cyframi i słownie, daty i podpisu. Rozpoznawanie tych różnic i dostosowywanie się do nich może być złożonym zadaniem podczas ekstrakcji danych. Aby usprawnić ekstrakcję danych, organizacje często stosują ręczne procesy weryfikacji i walidacji, co zwiększa koszt i czas procesu ekstrakcji.
Zapytania niestandardowe rozwiązują te problemy, umożliwiając dostosowanie wstępnie wyszkolonych funkcji zapytań dla różnych odmian kontroli. Dostosowanie wstępnie wytrenowanej funkcji pomaga osiągnąć wysoką dokładność wyodrębniania danych w przypadku określonej różnorodności przetwarzanych układów.
W naszym przypadku instytucja finansowa chce wyodrębnić z czeku następujące pola: nazwę odbiorcy płatności, nazwę płatnika, numer rachunku, numer rozliczeniowy, kwotę płatności (w liczbach), kwotę płatności (słownie), numer czeku, datę i notatka.
Przyjrzyjmy się procesowi generowania adaptera (komponentu, który dostosowuje dane wyjściowe) do przetwarzania czeków. Adaptery można tworzyć poprzez konsolę lub programowo poprzez API. W tym poście szczegółowo opisano korzystanie z konsoli; jeśli jednak chcesz programowo utworzyć adapter, zapoznaj się z przykładami kodu w pliku niestandardowe zapytania-kontrole-blog.ipynb Notatnik Jupyter (opcja 2).
Proces generowania adaptera obejmuje pięć ogólnych etapów: utworzenie adaptera, przesłanie przykładowych dokumentów, dodanie adnotacji do dokumentów, wyszkolenie adaptera i ocena wskaźników wydajności.
Utwórz adapter
W konsoli Amazon Textract utwórz nowy adapter, podając nazwę, opis i opcjonalne znaczniki, które pomogą Ci zidentyfikować adapter. Masz możliwość włączenia automatycznych aktualizacji, co pozwala Amazon Textract aktualizować Twój adapter, gdy podstawowa funkcja Queries zostanie zaktualizowana o nowe możliwości.
Po utworzeniu adaptera zostanie wyświetlona strona ze szczegółami adaptera z listą kroków w pliku Jak to działa? Sekcja. Ta sekcja aktywuje kolejne kroki, gdy będziesz je wykonywać sekwencyjnie.
Prześlij przykładowe dokumenty
Początkowa faza generowania adaptera obejmuje staranny wybór odpowiedniego zestawu przykładowych dokumentów do celów adnotacji, szkolenia i testowania. Mamy opcję automatycznego podziału dokumentów na zestawy danych testowych i szkoleniowych; jednak w tym procesie ręcznie podzieliliśmy zbiór danych.
Należy pamiętać, że adapter można skonstruować z zaledwie pięciu próbek testowych i pięciu próbek szkoleniowych, ale należy koniecznie upewnić się, że ten zestaw próbek jest różnorodny i reprezentatywny dla obciążenia występującego w środowisku produkcyjnym.
Na potrzeby tego samouczka przygotowaliśmy przykładowe zestawy danych, które możesz sprawdzić pobieranie. Nasz zbiór danych obejmuje różne odmiany, takie jak czeki osobiste, czeki kasjerskie, czeki stymulacyjne i czeki osadzone w odcinkach wypłaty. Uwzględniliśmy także czeki wypisywane odręcznie i drukowane; wraz z różnicami w polach, takich jak linia notatki.
Adnotuj przykładowe dokumenty
Następnym krokiem będzie dodanie adnotacji do przykładowych dokumentów poprzez powiązanie zapytań z odpowiadającymi im odpowiedziami za pośrednictwem konsoli. Możesz zainicjować adnotację poprzez automatyczne lub ręczne etykietowanie. Automatyczne etykietowanie wykorzystuje zapytania Amazon Textract Queries do wstępnego etykietowania zbioru danych. Zalecamy korzystanie z automatycznego etykietowania, aby przyspieszyć proces dodawania adnotacji.
W tym przypadku użycia przetwarzania kontroli używamy następujących zapytań. Jeśli Twój przypadek użycia obejmuje inne typy dokumentów, zapoznaj się z sekcją Najlepsze praktyki dotyczące zapytań do tworzenia zapytań mających zastosowanie do Twojego przypadku użycia.
- Kto jest odbiorcą płatności?
- Jaki jest numer czeku?
- Jaki jest adres odbiorcy płatności?
- Jaka jest data?
- Jaki jest numer konta?
- Jaka jest kwota czeku słownie?
- Jaka jest nazwa rachunku/nazwisko płatnika/kasety?
- Jaka jest kwota w dolarach?
- Jaka jest nazwa banku/nazwisko trasata?
- Jaki jest numer rozliczeniowy banku?
- Co to jest linia MICR?
- Jaka jest notatka?
Po zakończeniu procesu automatycznego etykietowania masz możliwość przejrzenia i wprowadzenia zmian w odpowiedziach podanych dla każdego dokumentu. Wybierać Zacznij przeglądać aby przejrzeć adnotacje przy każdym obrazie.
Jeśli brakuje odpowiedzi na zapytanie lub jest ona błędna, możesz dodać lub edytować odpowiedź, rysując ramkę ograniczającą lub wprowadzając odpowiedź ręcznie.
Aby przyspieszyć Twój przewodnik, wstępnie opatrzyliśmy próbki czeków komentarzami, które możesz skopiować na swoje konto AWS. Uruchom niestandardowe zapytania-kontrole-blog.ipynb Notatnik Jupyter w formacie Przykłady kodu Amazon Text bibliotekę, aby automatycznie aktualizować adnotacje.
Trenuj adapter
Po przejrzeniu wszystkich przykładowych dokumentów i upewnieniu się, że adnotacje są dokładne, można rozpocząć proces uczenia adaptera. Na tym etapie należy wyznaczyć miejsce przechowywania, w którym należy zapisać adapter. Czas trwania procesu uczenia będzie się różnić w zależności od rozmiaru zbioru danych wykorzystywanego do szkolenia. API szkoleniowe można także wywołać programowo, jeśli zdecydujesz się skorzystać z wybranego przez siebie narzędzia do adnotacji i przekazać odpowiednie pliki wejściowe do API. Odnosić się do Zapytania niestandardowe by uzyskać więcej szczegółów.
Oceń wskaźniki wydajności
Po ukończeniu szkolenia adaptera można ocenić jego działanie, sprawdzając metryki oceny, takie jak Wynik F1, precyzja i pamięć. Możesz analizować te metryki zbiorczo lub dla poszczególnych dokumentów. Korzystając z naszego zestawu danych z przykładowych kontroli, zobaczysz, że wskaźnik dokładności (wynik F1) poprawia się z 68% do 92% w przypadku przeszkolonego adaptera.
Dodatkowo możesz przetestować wydajność adaptera na nowych dokumentach, wybierając Wypróbuj Adapter.
Po dokonaniu oceny można zwiększyć wydajność adaptera, włączając dodatkowe przykładowe dokumenty do szkoleniowego zbioru danych lub ponownie dodając adnotacje do dokumentów z wynikami niższymi niż próg. Aby ponownie dodać adnotacje do dokumentów, wybierz Zweryfikuj dokumenty na stronie szczegółów adaptera wybierz dokument i wybierz Przejrzyj adnotacje.
Programowo przetestuj adapter
Po pomyślnym ukończeniu szkolenia możesz teraz używać adaptera w swoim AnalizujDokument Wywołania API. Żądanie API jest podobne do żądania API Amazon Textract Queries, z dodatkiem AdaptersConfig
obiekt.
Możesz uruchomić następujący przykładowy kod lub bezpośrednio w pliku niestandardowe zapytania-kontrole-blog.ipynb Notatnik Jupytera. Przykładowy notatnik zawiera również kod umożliwiający porównanie wyników między zapytaniami Amazon Textract i zapytaniami niestandardowymi Amazon Textract.
Tworzenie Konfiguracja adapterów obiekt z identyfikatorem adaptera i wersją adaptera oraz opcjonalnie podaj strony, do których chcesz zastosować adapter:
Stwórz QueriesConfig
obiekt z zapytaniami, za pomocą których przeszkoliłeś adapter, i wywołaj interfejs API Amazon Texttract. Należy pamiętać, że można także uwzględnić dodatkowe zapytania, w zakresie których adapter nie został przeszkolony. Amazon Textract automatycznie użyje funkcji Zapytania w przypadku tych pytań, a nie zapytań niestandardowych, zapewniając w ten sposób elastyczność korzystania z zapytań niestandardowych tylko tam, gdzie jest to potrzebne.
Na koniec zestawiliśmy nasze wyniki dla lepszej czytelności:
Sprzątać
Aby wyczyścić zasoby, wykonaj następujące kroki:
- W konsoli Amazon Texttract wybierz Zapytania niestandardowe w okienku nawigacji.
- Wybierz adapter, który chcesz usunąć.
- Dodaj Usuń.
Zarządzanie adapterami
Możesz regularnie ulepszać swoje adaptery, tworząc nowe wersje wcześniej wygenerowanych adapterów. Aby utworzyć nową wersję adaptera, należy dodać nowe przykładowe dokumenty do istniejącego adaptera, oznaczyć dokumenty etykietami i przeprowadzić szkolenie. Można jednocześnie utrzymywać wiele wersji adaptera do wykorzystania w potokach programowania. Aby bezproblemowo zaktualizować adaptery, nie wprowadzaj zmian ani nie usuwaj plików Usługa Amazon Simple Storage Wiadro (Amazon S3), w którym zapisywane są pliki potrzebne do wygenerowania adaptera.
Najlepsze praktyki
Jeśli używasz zapytań niestandardowych w dokumentach, zapoznaj się z sekcją Najlepsze praktyki dotyczące niestandardowych zapytań Amazon Texttract w celu uzyskania dodatkowych uwag i najlepszych praktyk.
Korzyści z zapytań niestandardowych
Zapytania niestandardowe oferują następujące korzyści:
- Lepsze zrozumienie dokumentów – Dzięki możliwości wyodrębniania i normalizowania danych z dużą dokładnością Zapytania niestandardowe zmniejszają zależność od ręcznych przeglądów i audytów oraz umożliwiają budowanie bardziej niezawodnej automatyzacji inteligentnych przepływów pracy związanych z przetwarzaniem dokumentów.
- Szybszy czas uzyskania wartości – W przypadku napotkania nowych typów dokumentów, w których wymagana jest większa dokładność, można skorzystać z zapytań niestandardowych, aby w ciągu kilku godzin wygenerować adapter w sposób samoobsługowy. Nie musisz czekać na wstępnie wyszkoloną aktualizację modelu, gdy w przepływie pracy napotkasz nowe typy dokumentów lub odmiany istniejących. Masz pełną kontrolę nad swoim potokiem i nie musisz polegać na Amazon Texttract, aby obsługiwać nowe typy dokumentów.
- Prywatność danych – Usługa Custom Queries nie przechowuje ani nie wykorzystuje danych wykorzystywanych do generowania adapterów w celu ulepszania naszych ogólnych, wstępnie wytrenowanych modeli dostępnych dla wszystkich klientów. Adapter jest ograniczony do konta klienta lub innych kont wyraźnie wskazanych przez klienta, zapewniając, że tylko takie konta będą miały dostęp do ulepszeń dokonanych przy użyciu danych klienta.
- Wygoda –Zapytania niestandardowe zapewniają w pełni zarządzane środowisko wnioskowania podobne do zapytań. Szkolenie z adaptera jest bezpłatne i płacisz jedynie za wnioskowanie. Zapytania niestandardowe pozwalają zaoszczędzić koszty ogólne i wydatki związane ze szkoleniem i obsługą modeli niestandardowych.
Wnioski
W tym poście omówiliśmy zalety zapytań niestandardowych, pokazaliśmy, w jaki sposób zapytania niestandardowe mogą dokładnie wyodrębniać dane z kontroli, a także podzieliliśmy się najlepszymi praktykami dotyczącymi skutecznego wykorzystania tej funkcji. W ciągu zaledwie kilku godzin możesz utworzyć adapter za pomocą konsoli i używać go w API AnalyzeDocument na potrzeby ekstrakcji danych. Aby uzyskać więcej informacji, zobacz Zapytania niestandardowe.
O autorach
Shibin Michaelraj jest starszym menedżerem produktu w zespole Amazon Textract. Koncentruje się na budowaniu produktów opartych na AI/ML dla klientów AWS. Jest podekscytowany pomaganiem klientom w rozwiązywaniu ich złożonych wyzwań biznesowych poprzez wykorzystanie technologii AI i ML. W wolnym czasie lubi biegać, słuchać podcastów i doskonalić swoje amatorskie umiejętności tenisowe.
Keitha Mascarenhasa jest starszym architektem rozwiązań w zespole serwisowym Amazon Textract. Jego pasją jest rozwiązywanie problemów biznesowych na dużą skalę przy użyciu uczenia maszynowego, a obecnie pomaga naszym klientom na całym świecie zautomatyzować przetwarzanie dokumentów, aby osiągnąć szybszy czas wprowadzenia produktu na rynek przy obniżonych kosztach operacyjnych.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/customize-amazon-textract-with-business-specific-documents-using-custom-queries/
- :ma
- :Jest
- :nie
- :Gdzie
- $W GÓRĘ
- 1
- 10
- 100
- 17
- 36
- 7
- a
- zdolność
- O nas
- przyśpieszyć
- dostęp
- Konto
- Konta
- precyzja
- dokładnie
- Osiągać
- adaptacja
- Dodaj
- dodatek
- Dodatkowy
- adres
- Adresy
- przed
- AI
- Wszystkie kategorie
- pozwala
- wzdłuż
- również
- amator
- Amazonka
- Ekstrakt z amazonki
- Amazon Web Services
- ilość
- an
- w czasie rzeczywistym sprawiają,
- i
- odpowiedzi
- api
- odpowiedni
- stosowany
- właściwy
- SĄ
- AS
- oszacować
- At
- kontrole
- samochód
- zautomatyzować
- automatycznie
- automatycznie
- Automatyzacja
- dostępny
- AWS
- Bank
- na podstawie
- podstawa
- BE
- być
- rozpocząć
- korzyści
- Korzyści
- BEST
- Najlepsze praktyki
- Ulepsz Swój
- pomiędzy
- Pudełko
- budować
- Budowanie
- biznes
- ale
- by
- wezwanie
- Połączenia
- CAN
- możliwości
- ostrożny
- walizka
- wyzwanie
- wyzwania
- wyzwanie
- Zmiany
- ZOBACZ
- Wykrywanie urządzeń szpiegujących
- wybór
- Dodaj
- Wybierając
- kleń
- kod
- zbiorowo
- porównać
- kompletny
- Zakończony
- kompleks
- składnik
- składniki
- Rozważania
- Konsola
- skonstruować
- kontynuować
- umowy
- kontrola
- Odpowiedni
- Koszty:
- Koszty:
- kraj
- Stwórz
- stworzony
- Tworzenie
- kurator
- Obecnie
- zwyczaj
- klient
- Klientów
- dostosowywanie
- dostosować
- dane
- zbiory danych
- Data
- głęboko
- głęboka nauka
- Stopień
- próbny
- W zależności
- opis
- wyznaczony
- detale
- oprogramowania
- różne
- bezpośrednio
- dyskutować
- omówione
- inny
- do
- dokument
- dokumenty
- robi
- Dolar
- nie
- projekt
- rysunek
- z powodu
- czas trwania
- podczas
- e
- każdy
- łatwo
- faktycznie
- bądź
- osadzone
- zatrudniony
- umożliwiać
- Umożliwia
- umożliwiając
- wzmacniać
- zapewnić
- zapewnienie
- wprowadzenie
- Środowisko
- Błędy
- niezbędny
- oceniać
- ewaluację
- zbadać
- Badanie
- podniecony
- Przede wszystkim system został opracowany
- wydatki
- doświadczenie
- ekspertyza
- wyraźnie
- odkryj
- wyciąg
- ekstrakcja
- Wyciągi
- f1
- szybciej
- Cecha
- Korzyści
- kilka
- Łąka
- Akta
- budżetowy
- instytucja finansowa
- pięć
- Elastyczność
- koncentruje
- następujący
- W razie zamówieenia projektu
- format
- Darmowy
- od
- w pełni
- Ogólne
- Generować
- wygenerowane
- generujący
- generacja
- GitHub
- większy
- Have
- mający
- he
- pomoc
- pomoc
- pomaga
- Wysoki
- na wysokim szczeblu
- wyższy
- jego
- GODZINY
- W jaki sposób
- Jednak
- HTML
- http
- HTTPS
- człowiek
- ID
- identyfikator
- zidentyfikować
- if
- obraz
- importować
- ważny
- podnieść
- ulepszenia
- in
- zawierać
- włączony
- obejmuje
- włączenie
- Zwiększenia
- Informacja
- Infrastruktura
- początkowy
- zainicjować
- wkład
- zainstalować
- Instytucja
- integrować
- Inteligentny
- Inteligentne przetwarzanie dokumentów
- interwencja
- najnowszych
- Inwestuj
- przywołany
- IT
- JEGO
- jpg
- właśnie
- Klawisz
- Etykieta
- etykietowanie
- język
- nauka
- pożyczanie
- lewarowanie
- Biblioteka
- lubić
- Ograniczony
- Linia
- Lista
- lokalizacja
- niższy
- maszyna
- uczenie maszynowe
- zrobiony
- utrzymać
- robić
- zarządzane
- i konserwacjami
- kierownik
- sposób
- podręcznik
- ręcznie
- rynek
- Poznaj nasz
- Notatka
- metryczny
- Metryka
- minimalny
- brakujący
- ML
- model
- modele
- jeszcze
- wielokrotność
- Nazwa
- Naturalny
- Natura
- żeglujący
- Nawigacja
- Potrzebować
- potrzebne
- wymagania
- Nowości
- Następny
- notatnik
- już dziś
- numer
- z naszej
- przedmiot
- of
- Oferty
- często
- on
- te
- tylko
- operacyjny
- operacyjny
- Option
- or
- organizacji
- Inne
- ludzkiej,
- wydajność
- koniec
- własny
- strona
- stron
- chleb
- parametr
- przechodzić
- Przechodzący
- namiętny
- Zapłacić
- płatność
- wykonać
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- wykonuje
- osobisty
- faza
- sztuk
- rurociąg
- umieszczenie
- plato
- Analiza danych Platona
- PlatoDane
- wtyczka
- Podcasty
- Post
- praktyki
- Detaliczność
- poprzednio
- pierwotny
- problemy
- wygląda tak
- procesów
- przetwarzanie
- Produkt
- product manager
- Produkcja
- Produkty
- pod warunkiem,
- zapewnia
- że
- zapytania
- pytania
- Prawdziwy świat
- rozpoznać
- rozpoznawanie
- polecić
- Zredukowany
- zmniejsza
- odnosić się
- rafinacja
- regularnie
- rzetelny
- poleganie
- przedstawiciel
- zażądać
- Zasoby
- odpowiedź
- Odpowiedzi
- Efekt
- zachować
- przeglądu
- recenzja
- Recenzje
- Routing
- run
- bieganie
- zapisywane
- Skala
- scenariusz
- wynik
- płynnie
- Sekcja
- widzieć
- wybór
- Samoobsługa
- usługa
- Usługi
- zestaw
- Share
- shared
- powinien
- pokazać
- pokazał
- podpis
- podobny
- Prosty
- jednocześnie
- Rozmiar
- umiejętności
- Rozwiązania
- ROZWIĄZANIA
- Rozwiązywanie
- specyficzny
- dzielić
- Startowy
- oświadczenia
- Ewolucja krok po kroku
- Cel
- bodziec
- kontrole bodźców
- przechowywanie
- Struktury
- Z powodzeniem
- taki
- wsparcie
- Zadanie
- zespół
- Technologies
- REGULAMIN
- test
- Testowanie
- XNUMX
- niż
- że
- Połączenia
- ich
- Im
- a tym samym
- Te
- to
- próg
- Przez
- czas
- do
- narzędzie
- Pociąg
- przeszkolony
- Trening
- TRP
- strojenie
- Tutorial
- rodzaj
- typy
- zasadniczy
- wyjątkowy
- Aktualizacja
- zaktualizowane
- Nowości
- posługiwać się
- przypadek użycia
- zastosowania
- za pomocą
- wykorzystany
- Wykorzystując
- uprawomocnienie
- różnorodność
- zmienne
- Weryfikacja
- wersja
- Wersje
- przez
- czekać
- solucja
- chcieć
- chce
- Droga..
- we
- sieć
- usługi internetowe
- Co
- Co to jest
- jeśli chodzi o komunikację i motywację
- który
- KIM
- Wikipedia
- będzie
- w
- w ciągu
- bez
- słowa
- workflow
- przepływów pracy
- na calym swiecie
- Źle
- You
- Twój
- zefirnet
- Zamek błyskawiczny