Wyodrębnij jednostki z dokumentów ubezpieczeniowych za pomocą funkcji rozpoznawania nazwanych jednostek Amazon Comrehend

Opublikowane ponownie przez Plato

Obserwuje: 0

Inteligentne przetwarzanie dokumentów (IDP) jest częstym przypadkiem użycia dla klientów AWS. Możesz wykorzystać Amazon Comprehend i Ekstrakt z amazonki do różnych zastosowań, począwszy od ekstrakcji dokumentów, klasyfikacji danych i ekstrakcji jednostek. Jedną z branż korzystających z IDP są ubezpieczenia. Używają IDP do automatyzacji ekstrakcji danych dla typowych zastosowań, takich jak przyjmowanie roszczeń, obsługa polis, wycena, płatności i kolejne najlepsze działania. Jednak w niektórych przypadkach urząd otrzymuje dokument zawierający złożone informacje bez etykiet. Zwykle jest to trudne do uchwycenia przez oprogramowanie do optycznego rozpoznawania znaków (OCR), a identyfikacja relacji i kluczowych elementów staje się wyzwaniem. Rozwiązanie często wymaga ręcznego wprowadzenia danych przez człowieka, aby zapewnić wysoką dokładność.

W tym poście pokazujemy, jak możesz z niego skorzystać rozpoznawanie nazwanego bytu (NER) dla dokumentów w ich natywnych formatach w Amazon Comrehend, aby sprostać tym wyzwaniom.

Omówienie rozwiązania

W scenariuszu ubezpieczeniowym ubezpieczyciel może otrzymać pismo z żądaniem z kancelarii prawnej. Pismo z żądaniem zawiera takie informacje, jak kancelaria prawna wysyłająca pismo, kim jest jej klient i jakie działania są wymagane w celu zaspokojenia jego żądań, jak pokazano w poniższym przykładzie:

Ze względu na różne miejsca, w których można znaleźć te informacje w piśmie z żądaniem, dokumenty te są często przekazywane indywidualnemu likwidatorowi, który poświęca czas na przeczytanie pisma w celu ustalenia wszystkich niezbędnych informacji wymaganych do kontynuowania roszczenia. Dokument może zawierać wiele nazw, adresów i żądań, z których każda wymaga klauzuli tajności. Jeśli klient zostanie pomieszany z beneficjentem lub adresy zostaną zamienione, opóźnienia mogą się kumulować, a negatywne konsekwencje mogą mieć wpływ na firmę i klientów. Ponieważ między kategoriami takimi jak adresy i nazwiska często występują niewielkie różnice, dokumenty są często przetwarzane przez ludzi, a nie przy użyciu metody IDP.

Powyższy przykładowy dokument zawiera wiele wystąpień nakładających się wartości jednostek (jednostek, które mają podobne właściwości, ale nie są ze sobą powiązane). Przykładami mogą być adres kancelarii prawnej kontra adres firmy ubezpieczeniowej lub imiona i nazwiska poszczególnych osób (imię i nazwisko prawnika, beneficjenta, ubezpieczającego). Ponadto istnieją informacje o położeniu (miejscu położenia elementu w dokumencie), które może przeoczyć tradycyjny algorytm tekstowy. Dlatego tradycyjne techniki rozpoznawania mogą nie spełniać wymagań.

W tym poście używamy rozpoznawania nazwanych podmiotów w Amazon Comrehend, aby rozwiązać te wyzwania. Zaletą stosowania tej metody jest to, że model rozpoznawania encji niestandardowych wykorzystuje zarówno język naturalny, jak i informacje o położeniu tekstu, aby dokładnie wyodrębnić encje niestandardowe, na które w przeciwnym razie mogłoby mieć wpływ spłaszczanie dokumentu, jak pokazano w poprzednim przykładzie nakładających się wartości jednostek. W tym poście używamy sztucznie utworzonego zbioru danych AWS dotyczącego zapotrzebowań prawnych i żądań ubezpieczenia na życie, ale możesz zastosować to podejście w dowolnej branży i dokumencie, który może skorzystać z danych przestrzennych w niestandardowym szkoleniu NER. Poniższy diagram przedstawia architekturę rozwiązania:

Rozwiązanie wdrażamy w następujących etapach wysokiego poziomu:

Sklonuj repozytorium zawierające przykładowy zestaw danych.
Tworzenie Usługa Amazon Simple Storage Łyżka (Amazon S3).
Utwórz i wytrenuj swój niestandardowy model rozpoznawania encji.
Użyj modelu, uruchamiając asynchroniczne zadanie wsadowe.

Wymagania wstępne

Aby móc korzystać z tego rozwiązania, należy spełnić następujące wymagania wstępne:

Zainstalować Python 3.8.x.
Upewnij się, że zainstalowany pip.
Zainstaluj i skonfiguruj dotychczasowy Interfejs wiersza poleceń AWS (interfejs wiersza poleceń AWS).
Konfigurowanie swoje dane uwierzytelniające AWS.

Dodaj adnotacje do swoich dokumentów

Aby wytrenować niestandardowy model rozpoznawania jednostek, którego można używać w dokumentach PDF, Word i zwykłych dokumentach tekstowych, należy najpierw dodać adnotacje do dokumentów PDF przy użyciu niestandardowego Amazon SageMaker Ground Prawda szablon adnotacji dostarczony przez Amazon Comprehend. Aby uzyskać instrukcje, zobacz Niestandardowe adnotacje do dokumentów do wyodrębniania nazwanych jednostek w dokumentach za pomocą Amazon Comprehend.

Zalecamy co najmniej 250 dokumentów i 100 adnotacji na podmiot, aby zapewnić dobrą jakość prognoz. Mając więcej danych szkoleniowych, istnieje większe prawdopodobieństwo, że utworzysz model o wyższej jakości.

Po zakończeniu dodawania adnotacji możesz wytrenować niestandardowy model rozpoznawania encji i użyć go do wyodrębnienia niestandardowych encji z dokumentów PDF, Word i zwykłego tekstu w celu przetwarzania wsadowego (asynchronicznego).

W tym poście oznaczyliśmy już nasz przykładowy zbiór danych i nie trzeba dodawać adnotacji do dostarczonych dokumentów. Jeśli jednak chcesz skorzystać z własnych dokumentów lub dostosować encje, musisz opatrzyć dokumenty adnotacjami. Aby uzyskać instrukcje, zobacz Niestandardowe adnotacje do dokumentów do wyodrębniania nazwanych jednostek w dokumentach za pomocą Amazon Comprehend.

Wyodrębniamy następujące elementy (w których rozróżniana jest wielkość liter):

Law Firm
Law Office Address
Insurance Company
Insurance Company Address
Policy Holder Name
Beneficiary Name
Policy Number
Payout
Required Action
Sender

Dostarczony zbiór danych został w całości wygenerowany sztucznie. Wszelkie wzmianki o nazwiskach, miejscach i zdarzeniach są wytworem wyobraźni autora lub zostały użyte fikcyjnie. Wszelkie podobieństwo do rzeczywistych wydarzeń, miejsc lub osób, żyjących lub zmarłych, jest całkowicie przypadkowe.

Sklonuj repozytorium

Zacznij od sklonowania repozytorium, uruchamiając następującą komendę:

git clone https://github.com/aws-samples/aws-legal-entity-extraction

Repozytorium zawiera następujące pliki:

aws-legal-entity-extraction /source /annotations output.manifest sample.pdf bucketnamechange.py

Utwórz wiadro S3

Aby utworzyć segment S3 do wykorzystania w tym przykładzie, wykonaj następujące kroki:

Na konsoli Amazon S3 wybierz Wiadra w okienku nawigacji.
Dodaj Utwórz wiadro.
Zanotuj nazwę właśnie utworzonego wiadra.

Aby ponownie wykorzystać adnotacje, które już stworzyliśmy dla zbioru danych, musimy zmodyfikować plik output.manifest plik i odwołaj się do właśnie utworzonego wiadra.

Zmodyfikuj plik, uruchamiając następujące polecenia:

cd aws-legal-entity-extraction
python3 bucketnamechange.py
Enter the name of your bucket: <Enter the name of the bucket you created>

Po zakończeniu działania skryptu pojawi się następujący komunikat:

The manifest file is updated with the correct bucket

Możemy teraz rozpocząć trenowanie naszego modelu.

Utwórz i wytrenuj model

Aby rozpocząć trenowanie modelu, wykonaj następujące kroki:

Na konsoli Amazon S3 prześlij plik /source teczka, /annotations teczka, output.manifest, sample.pdf akta.

Twoje wiadro powinno wyglądać podobnie do poniższego zrzutu ekranu.

W konsoli Amazon Comprehend, pod Personalizacja w okienku nawigacji wybierz Rozpoznawanie jednostek niestandardowych.
Dodaj Utwórz nowy model.
W razie zamówieenia projektu Nazwa modelu, Wpisz imię.
W razie zamówieenia projektu Wybierz językwybierz Angielski.
W razie zamówieenia projektu Niestandardowy typ encji, dodaj następujące elementy, w których rozróżniana jest wielkość liter:
1. Law Firm
2. Law Office Address
3. Insurance Company
4. Insurance Company Address
5. Policy Holder Name
6. Beneficiary Name
7. Policy Number
8. Payout
9. Required Action
10. Sender
In Specyfikacje danych, Dla Format danych, Wybierz Rozszerzony manifest odwoływać się do manifestu, który utworzyliśmy podczas dodawania adnotacji do dokumentów.
W razie zamówieenia projektu Typ modelu treningowego, Wybierz PDF, dokumenty Worda.

Określa typ dokumentów używanych do uczenia i wnioskowania.

W razie zamówieenia projektu Lokalizacja rozszerzonego pliku manifestu SageMaker Ground Truth w S3, wprowadź lokalizację output.manifest plik w wiadrze S3.
W razie zamówieenia projektu Przedrostek S3 dla plików danych adnotacji, wprowadź ścieżkę do annotations teczka.
W razie zamówieenia projektu Przedrostek S3 dla dokumentów źródłowych, wprowadź ścieżkę do source teczka.
W razie zamówieenia projektu Nazwy atrybutów, wchodzić legal-entity-label-job-labeling-job-20220104T172242.

Nazwa atrybutu odpowiada nazwie zadania etykietowania utworzonego w celu opisywania dokumentów. W przypadku dokumentów z adnotacjami używamy nazwy legal-entity-label-job-labeling-job-20220104T172242. Jeśli zdecydujesz się na dodawanie adnotacji do swoich dokumentów, zastąp tę wartość nazwą zadania adnotacji.

Stwórz nowy AWS Zarządzanie tożsamością i dostępem (IAM) i nadaj jej uprawnienia do odczytu i zapisu w zasobniku zawierającym wszystkie Twoje dane.
Zakończ tworzenie modelu (wybierz plik Autopodział opcja dla Twojego źródła danych, aby zobaczyć metryki podobne do tych na poniższych zrzutach ekranu).

Teraz Twój model aparatu rozpoznawania jest widoczny na pulpicie nawigacyjnym ze stanem i metrykami uczenia modelu.

Uczenie modelu może zająć kilka minut.

Poniższy zrzut ekranu przedstawia metryki modelu po zakończeniu uczenia.

Użyj niestandardowego modelu rozpoznawania jednostek

Aby skorzystać z niestandardowych modeli rozpoznawania jednostek wyszkolonych na dokumentach PDF, tworzymy zadanie wsadowe w celu ich asynchronicznego przetwarzania.

Na konsoli Amazon Comprehend wybierz Analiza zadań.
Dodaj Utwórz pracę.
Pod Dane wejściowe, wprowadź lokalizację Amazon S3 dokumentów PDF z adnotacjami do przetworzenia (w tym poście plik sample.pdf plik).
W razie zamówieenia projektu Format wejściowy, Wybierz Jeden dokument na plik.
Pod Dane wyjściowe, wprowadź lokalizację Amazon S3, w której chcesz je zapełnić. Na potrzeby tego posta tworzymy nowy folder o nazwie analysis-output w segmencie S3 zawierającym wszystkie źródłowe dokumenty PDF, dokumenty z adnotacjami i manifest.
Użyj roli IAM z uprawnieniami do sample.pdf teczka.

Możesz skorzystać z utworzonej wcześniej roli.

Dodaj Utwórz pracę.

Jest to zadanie asynchroniczne, dlatego jego przetwarzanie może zająć kilka minut. Po zakończeniu zadania otrzymasz łącze do wyników. Po otwarciu tego wyniku zobaczysz serię plików w następujący sposób:

Możesz otworzyć plik sample.pdf.out w preferowanym edytorze tekstu. Jeśli szukasz Blok jednostek, możesz znaleźć podmioty zidentyfikowane w dokumencie. Poniższa tabela przedstawia przykład.

Rodzaj Nieruchomości	Tekst	Wynik
Firma ubezpieczeniowa	Budżetowa firma ubezpieczeniowa	0.999984086
Adres firmy ubezpieczeniowej	9876 Infinity Aven Springfield, MI 65541	0.999982051
Firma prawnicza	Bill i Carr	0.99997298
Adres Kancelarii Prawnej	9241 13th Ave SWn Spokane, Waszyngton (WA), 99217	0.999274625
Nazwa odbiorcy	Laurę Mcdaniel	0.999972464
Imię i nazwisko ubezpieczającego	Keitha Holta	0.999781546
Numer polisy	(# 892877136)	0.999950143
Wypłaty	$15,000	0.999980728
Nadawca	Andżelika Berry	0.999723455
Wymagane działanie	Prosimy o przesłanie pełnej kwoty polisy. Prosimy o przesłanie i potwierdzenie naszego żądania oraz o przesłanie informacji o zasadach parasolowych, jeśli mają one zastosowanie. Proszę o przesłanie mojej sekretarce wszelkich informacji odnośnie zastawów na jego polisie.	0.999989449

Rozwiń rozwiązanie

Możesz wybierać spośród niezliczonych możliwości zrobienia z wykrytymi obiektami, takich jak następujące:

Wprowadź je do wewnętrznego systemu rejestrowania
Utwórz indeks z możliwością przeszukiwania na podstawie wyodrębnionych jednostek
Wzbogacaj uczenie maszynowe i analitykę, wykorzystując wyodrębnione wartości jednostek jako parametry do uczenia modeli i wnioskowania
Skonfiguruj przepływy i wyzwalacze zaplecza w oparciu o wykrytą wartość podmiotu (np. określone kancelarie prawne lub wartości wypłat)

Poniższy diagram przedstawia te opcje:

Wnioski

Złożone typy dokumentów często mogą stanowić przeszkodę w automatyzacji IDP na pełną skalę. W tym poście pokazaliśmy, jak można budować i używać niestandardowych modeli NER bezpośrednio z dokumentów PDF. Ta metoda jest szczególnie przydatna w przypadkach, gdy informacje o położeniu są szczególnie istotne (podobne wartości jednostek i różne formaty dokumentów). Chociaż zademonstrowaliśmy to rozwiązanie, wykorzystując prawne zapotrzebowania na ubezpieczenia, można ekstrapolować ten przypadek użycia na opiekę zdrowotną, produkcję, handel detaliczny, usługi finansowe i wiele innych branż.

Aby dowiedzieć się więcej o Amazon Comrehend, odwiedź stronę Przewodnik dla programistów Amazon Zrozum.

O autorach

Raj Pathak jest architektem rozwiązań i doradcą technicznym dla klientów z listy Fortune 50 i średniej wielkości FSI (bankowość, ubezpieczenia, rynki kapitałowe) w Kanadzie i Stanach Zjednoczonych. Raj specjalizuje się w uczeniu maszynowym z aplikacjami do ekstrakcji dokumentów, transformacji Contact Center i komputerowej wizji.

Enzo Statona jest Architektem Rozwiązań z pasją do współpracy z firmami w celu zwiększenia ich wiedzy o chmurze. Ściśle współpracuje jako zaufany doradca i specjalista branżowy z klientami na terenie całego kraju.

Znak czasu: 9 lutego 2022 r.

Znak czasu: Czerwiec 20, 2022

Opublikowane ponownie przez Plato

Dostosuj i wdrażaj modele Llama 2 w sposób ekonomiczny w Amazon SageMaker JumpStart z AWS Inferentia i AWS Trainium | Usługi internetowe Amazona

Szkolenie rozproszone z Amazon EKS i Torch Distributed Elastic

Wykrywaj współliniowość, wyciek docelowy i korelację funkcji za pomocą Amazon SageMaker Data Wrangler

Uzyskaj monitorowanie klasy korporacyjnej dla swoich modeli Amazon SageMaker za pomocą programu Fiddler

Indeksuj zawartość Dropbox za pomocą łącznika Dropbox dla Amazon Kendra

Automatyczne dostrajanie modeli Amazon SageMaker obsługuje teraz awaryjne awaryjne instancje szkoleniowe SageMaker

Zbuduj interfejs harmonogramu spotkań zintegrowany z Meta przy użyciu Amazon Lex i Amazon Connect

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto