Zbuduj niestandardowy moduł rozpoznawania jednostek dla dokumentów PDF za pomocą Amazon Comrehend

Opublikowane ponownie przez Plato

Obserwuje: 0

W wielu branżach niezwykle ważne jest terminowe wyodrębnianie encji niestandardowych z dokumentów. To może być trudne. Na przykład roszczenia ubezpieczeniowe często zawierają dziesiątki ważnych atrybutów (takich jak daty, nazwiska, lokalizacje i raporty) rozrzuconych po długich i gęstych dokumentach. Ręczne skanowanie i wyodrębnianie takich informacji może być podatne na błędy i czasochłonne. Oprogramowanie oparte na regułach może być pomocne, ale ostatecznie jest zbyt sztywne, aby dostosować się do wielu różnych typów i układów dokumentów.

Aby zautomatyzować i przyspieszyć ten proces, możesz użyć Amazon Comprehend do szybkiego i dokładnego wykrywania encji niestandardowych za pomocą uczenia maszynowego (ML). Takie podejście jest elastyczne i dokładne, ponieważ system może dostosować się do nowych dokumentów, korzystając z wiedzy zdobytej w przeszłości. Jednak do niedawna tę funkcję można było zastosować tylko do dokumentów w postaci zwykłego tekstu, co oznaczało, że informacje o położeniu zostały utracone podczas konwersji dokumentów z ich formatu natywnego. Aby temu zaradzić, tak było Niedawno ogłosił, że Amazon Comrehend może wyodrębniać niestandardowe encje z plików PDF, obrazów i formatów plików Word.

W tym poście przedstawiamy konkretny przykład z branży ubezpieczeniowej, w jaki sposób można zbudować niestandardowy moduł rozpoznawania za pomocą adnotacji w formacie PDF.

Omówienie rozwiązania

Przeprowadzimy Cię przez następujące etapy wysokiego poziomu:

Twórz adnotacje w formacie PDF.
Użyj adnotacji PDF, aby wytrenować niestandardowy model przy użyciu interfejsu API języka Python.
Uzyskaj metryki oceny z przeszkolonego modelu.
Wykonaj wnioskowanie na niewidocznym dokumencie.

Pod koniec tego posta chcemy móc wysłać surowy dokument PDF do naszego wyszkolonego modelu i uzyskać ustrukturyzowany plik z informacjami o naszych interesujących etykietach. W szczególności szkolimy nasz model tak, aby wykrywał pięć następujących podmiotów, które wybraliśmy ze względu na ich znaczenie dla roszczeń ubezpieczeniowych: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, InsuredMailingAddress. Po przeczytaniu uporządkowanego wyniku możemy zwizualizować informacje na etykiecie bezpośrednio w dokumencie PDF, jak pokazano na poniższym obrazku.

Do tego posta dołączony jest notatnik Jupyter zawierający te same kroki. Wykonuj opisane w nim kroki notatnik. Pamiętaj, że musisz skonfigurować plik Amazon Sage Maker środowisko umożliwiające Amazon Comrehend czytanie Usługa Amazon Simple Storage (Amazon S3) zgodnie z opisem na górze notebooka.

Twórz adnotacje w formacie PDF

Aby utworzyć adnotacje do dokumentów PDF, możesz użyć Amazon SageMaker Ground Prawda, w pełni zarządzana usługa etykietowania danych, która ułatwia tworzenie bardzo dokładnych zestawów danych szkoleniowych dla uczenia maszynowego.

Na potrzeby tego samouczka dodaliśmy już adnotacje do plików PDF w ich natywnej formie (bez konwersji na zwykły tekst) za pomocą Ground Truth. Zadanie Ground Truth generuje trzy ścieżki potrzebne do szkolenia naszego niestandardowego modelu Amazon Comprehend:

Źródła – Ścieżka do wejściowych plików PDF.
Adnotacje – Ścieżka do plików JSON adnotacji zawierających informacje o encji oznaczonej etykietą.
Oczywisty – Plik wskazujący lokalizację adnotacji i źródłowych plików PDF. Ten plik służy do tworzenia zadania szkoleniowego dotyczącego rozpoznawania encji niestandardowych Amazon Comprehend i uczenia niestandardowego modelu.

Poniższy zrzut ekranu przedstawia przykładową adnotację.

Niestandardowe zadanie Ground Truth generuje adnotację w formacie PDF, która przechwytuje informacje na poziomie bloku na temat obiektu. Takie informacje na poziomie bloku zapewniają dokładne współrzędne położenia jednostki (z blokami podrzędnymi reprezentującymi każde słowo w bloku jednostki). Różni się to od standardowego zadania Ground Truth, w którym dane w pliku PDF są spłaszczane do formatu tekstowego, a podczas adnotacji przechwytywane są tylko informacje o przesunięciu, a nie dokładne informacje o współrzędnych. Bogate informacje o pozycji, które uzyskujemy dzięki temu niestandardowemu paradygmatowi adnotacji, pozwalają nam wytrenować dokładniejszy model.

Manifest generowany na podstawie tego typu zadania nazywany jest manifestem rozszerzonym, w przeciwieństwie do pliku CSV używanego do standardowych adnotacji. Aby uzyskać więcej informacji, zobacz Adnotacje.

Użyj adnotacji PDF, aby wytrenować niestandardowy model przy użyciu interfejsu API języka Python

Rozszerzony plik manifestu musi być sformatowany w formacie JSON Lines. W formacie JSON Lines każda linia w pliku jest kompletnym obiektem JSON, po którym następuje separator nowej linii.

Poniższy kod jest wpisem w tym rozszerzonym pliku manifestu.

Kilka rzeczy do zapamiętania:

Z tym zadaniem jest powiązanych pięć typów etykietowania: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, InsuredMailingAddress.
Plik manifestu odwołuje się zarówno do źródłowej lokalizacji pliku PDF, jak i lokalizacji adnotacji.
Przechwytywane są metadane dotyczące zadania adnotacji (takie jak data utworzenia).
Use-textract-only jest ustawione na False, co oznacza, że narzędzie do adnotacji decyduje, czy użyć PDFPlumber (w przypadku natywnego pliku PDF), czy też Ekstrakt z amazonki (dla zeskanowanego pliku PDF). Jeśli ustawione na trueW obu przypadkach używany jest Amazon Texttract (co jest droższe, ale potencjalnie dokładniejsze).

Teraz możemy wyszkolić moduł rozpoznawania, jak pokazano w poniższym przykładowym kodzie.

Tworzymy moduł rozpoznawania, który rozpoznaje wszystkie pięć typów podmiotów. Gdybyśmy woleli, moglibyśmy użyć podzbioru tych bytów. Możesz użyć maksymalnie 25 podmiotów.

Aby uzyskać szczegółowe informacje na temat każdego parametru, zobacz create_entity_recognizer.

W zależności od wielkości zbioru treningowego czas uczenia może się różnić. W przypadku tego zbioru danych szkolenie trwa około 1 godziny. Aby monitorować status zadania szkoleniowego, możesz użyć describe_entity_recognizer API.

Uzyskaj metryki oceny z przeszkolonego modelu

Amazon Comprehend udostępnia metryki wydajności wyuczonego modelu, które wskazują, jak dobrze przeszkolony model ma przewidywać przewidywania przy użyciu podobnych danych wejściowych. Możemy uzyskać zarówno globalne metryki precyzji i przypominania, jak i metryki na jednostkę. Dokładny model charakteryzuje się dużą precyzją i wysoką pamięcią. Wysoka precyzja oznacza, że model jest zwykle poprawny, jeśli wskazuje konkretną etykietę; wysoka rozpoznawalność oznacza, że model znalazł większość etykiet. F1 jest metryką złożoną (średnią harmoniczną) tych miar i dlatego jest wysoka, gdy oba składniki są wysokie. Szczegółowy opis metryk można znaleźć w artykule Metryki modułu rozpoznawania jednostek niestandardowych.

Kiedy dostarczasz dokumenty do zadania szkoleniowego, Amazon Comprehend automatycznie dzieli je na zestaw pociągowy i testowy. Kiedy model dotrze TRAINED status, możesz użyć describe_entity_recognizer Ponownie API, aby uzyskać metryki oceny na zestawie testowym.

Poniżej znajduje się przykład metryk globalnych.

Poniżej znajduje się przykład metryk dla poszczególnych jednostek.

Wysokie wyniki wskazują, że model dobrze nauczył się wykrywać te podmioty.

Wykonaj wnioskowanie na niewidocznym dokumencie

Przeprowadźmy wnioskowanie z naszym wyuczonym modelem na dokumencie, który nie był częścią procedury szkoleniowej. Możemy używać tego asynchronicznego interfejsu API do standardowego lub niestandardowego NER. Jeśli używamy go do niestandardowego NER (jak w tym poście), musimy przekazać ARN wyszkolonego modelu.

Możemy sprawdzić przesłane zadanie, drukując odpowiedź.

Możemy sformatować dane wyjściowe zadania wykrywania za pomocą Pand w tabeli. The Score Wartość wskazuje poziom pewności, jaki model ma w stosunku do jednostki.

Na koniec możemy nałożyć prognozy na niewidoczne dokumenty, co daje wynik pokazany na górze tego posta.

Wnioski

W tym poście zobaczyłeś, jak wyodrębnić niestandardowe encje w ich natywnym formacie PDF za pomocą Amazon Comrehend. Jako kolejne kroki rozważ głębsze nurkowanie:

Trenuj swój własny rozpoznawacz, korzystając z dołączonego notatnika tutaj. Pamiętaj, aby po zakończeniu usunąć wszystkie zasoby, aby uniknąć przyszłych opłat.
Skonfiguruj własne, niestandardowe zadanie adnotacji, aby zbierać adnotacje w formacie PDF dla interesujących Cię podmiotów. Aby uzyskać więcej informacji, zobacz Niestandardowe adnotacje do dokumentów do wyodrębniania nazwanych jednostek w dokumentach za pomocą Amazon Comprehend.
Trenuj niestandardowy model NER na konsoli Amazon Comprehend. Aby uzyskać więcej informacji, zobacz Wyodrębnij niestandardowe encje z dokumentów w ich natywnym formacie za pomocą Amazon Comprehend.

O autorach

Joshua Levy jest starszym naukowcem w laboratorium Amazon Machine Learning Solutions, gdzie pomaga klientom projektować i budować rozwiązania AI/ML w celu rozwiązywania kluczowych problemów biznesowych.

Andrzej Angi jest inżynierem uczenia maszynowego w laboratorium Amazon Machine Learning Solutions Lab, gdzie pomaga klientom z różnych branż identyfikować i budować rozwiązania AI/ML w celu rozwiązania ich najpilniejszych problemów biznesowych. Poza pracą lubi oglądać vlogi podróżnicze i kulinarne.

Alexa Chirayatha jest inżynierem oprogramowania w laboratorium Amazon Machine Learning Solutions Lab, skupiającym się na tworzeniu rozwiązań opartych na przypadkach użycia, które pokazują klientom, jak odblokować moc usług AI/ML AWS w celu rozwiązywania rzeczywistych problemów biznesowych.

Jennifer Zu jest naukowcem stosowanym w laboratorium rozwiązań do uczenia maszynowego Amazon AI. Współpracuje z klientami AWS, budując rozwiązania AI/ML dla ich najważniejszych potrzeb biznesowych.

Niharika Jayanthi jest inżynierem front-end w laboratorium Amazon Machine Learning Solutions Lab – zespół Human in the Loop. Pomaga tworzyć rozwiązania w zakresie doświadczenia użytkownika dla klientów Amazon SageMaker Ground Truth.

Borys Aronczik jest menedżerem w laboratorium Amazon AI Machine Learning Solutions Lab, gdzie kieruje zespołem naukowców i inżynierów ML, którzy pomagają klientom AWS w realizacji celów biznesowych z wykorzystaniem rozwiązań AI/ML.

Znak czasu: 8 kwietnia 2022 r.

Znak czasu: Mar 29, 2022

Zbuduj niestandardowy aparat rozpoznawania encji dla dokumentów PDF za pomocą Amazon Comprehend

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Twórz adnotacje w formacie PDF

Użyj adnotacji PDF, aby wytrenować niestandardowy model przy użyciu interfejsu API języka Python

Uzyskaj metryki oceny z przeszkolonego modelu

Wykonaj wnioskowanie na niewidocznym dokumencie

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Efektywne kosztowo wnioskowanie ML z modelami wieloplatformowymi w Amazon SageMaker

Amazon Rekognition wprowadza strumieniowe wydarzenia wideo, aby zapewnić alerty w czasie rzeczywistym w strumieniach wideo na żywo

Zmniejsz zużycie energii przez zadania związane z uczeniem maszynowym nawet o 90% dzięki specjalnie zaprojektowanym akceleratorom AWS | Usługi sieciowe Amazona

Chronomics wykrywa wyniki testu COVID-19 za pomocą niestandardowych etykiet Amazon Rekognition

T-Mobile US, Inc. wykorzystuje sztuczną inteligencję poprzez Amazon Transcribe i Amazon Translate, aby dostarczać pocztę głosową w języku wybranym przez klientów | Usługi internetowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto