W wielu branżach niezwykle ważne jest terminowe wyodrębnianie encji niestandardowych z dokumentów. To może być trudne. Na przykład roszczenia ubezpieczeniowe często zawierają dziesiątki ważnych atrybutów (takich jak daty, nazwiska, lokalizacje i raporty) rozrzuconych po długich i gęstych dokumentach. Ręczne skanowanie i wyodrębnianie takich informacji może być podatne na błędy i czasochłonne. Oprogramowanie oparte na regułach może być pomocne, ale ostatecznie jest zbyt sztywne, aby dostosować się do wielu różnych typów i układów dokumentów.
Aby zautomatyzować i przyspieszyć ten proces, możesz użyć Amazon Comprehend do szybkiego i dokładnego wykrywania encji niestandardowych za pomocą uczenia maszynowego (ML). Takie podejście jest elastyczne i dokładne, ponieważ system może dostosować się do nowych dokumentów, korzystając z wiedzy zdobytej w przeszłości. Jednak do niedawna tę funkcję można było zastosować tylko do dokumentów w postaci zwykłego tekstu, co oznaczało, że informacje o położeniu zostały utracone podczas konwersji dokumentów z ich formatu natywnego. Aby temu zaradzić, tak było Niedawno ogłosił, że Amazon Comrehend może wyodrębniać niestandardowe encje z plików PDF, obrazów i formatów plików Word.
W tym poście przedstawiamy konkretny przykład z branży ubezpieczeniowej, w jaki sposób można zbudować niestandardowy moduł rozpoznawania za pomocą adnotacji w formacie PDF.
Omówienie rozwiązania
Przeprowadzimy Cię przez następujące etapy wysokiego poziomu:
- Twórz adnotacje w formacie PDF.
- Użyj adnotacji PDF, aby wytrenować niestandardowy model przy użyciu interfejsu API języka Python.
- Uzyskaj metryki oceny z przeszkolonego modelu.
- Wykonaj wnioskowanie na niewidocznym dokumencie.
Pod koniec tego posta chcemy móc wysłać surowy dokument PDF do naszego wyszkolonego modelu i uzyskać ustrukturyzowany plik z informacjami o naszych interesujących etykietach. W szczególności szkolimy nasz model tak, aby wykrywał pięć następujących podmiotów, które wybraliśmy ze względu na ich znaczenie dla roszczeń ubezpieczeniowych: DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
, InsuredMailingAddress
. Po przeczytaniu uporządkowanego wyniku możemy zwizualizować informacje na etykiecie bezpośrednio w dokumencie PDF, jak pokazano na poniższym obrazku.
Do tego posta dołączony jest notatnik Jupyter zawierający te same kroki. Wykonuj opisane w nim kroki notatnik. Pamiętaj, że musisz skonfigurować plik Amazon Sage Maker środowisko umożliwiające Amazon Comrehend czytanie Usługa Amazon Simple Storage (Amazon S3) zgodnie z opisem na górze notebooka.
Twórz adnotacje w formacie PDF
Aby utworzyć adnotacje do dokumentów PDF, możesz użyć Amazon SageMaker Ground Prawda, w pełni zarządzana usługa etykietowania danych, która ułatwia tworzenie bardzo dokładnych zestawów danych szkoleniowych dla uczenia maszynowego.
Na potrzeby tego samouczka dodaliśmy już adnotacje do plików PDF w ich natywnej formie (bez konwersji na zwykły tekst) za pomocą Ground Truth. Zadanie Ground Truth generuje trzy ścieżki potrzebne do szkolenia naszego niestandardowego modelu Amazon Comprehend:
- Źródła – Ścieżka do wejściowych plików PDF.
- Adnotacje – Ścieżka do plików JSON adnotacji zawierających informacje o encji oznaczonej etykietą.
- Oczywisty – Plik wskazujący lokalizację adnotacji i źródłowych plików PDF. Ten plik służy do tworzenia zadania szkoleniowego dotyczącego rozpoznawania encji niestandardowych Amazon Comprehend i uczenia niestandardowego modelu.
Poniższy zrzut ekranu przedstawia przykładową adnotację.
Niestandardowe zadanie Ground Truth generuje adnotację w formacie PDF, która przechwytuje informacje na poziomie bloku na temat obiektu. Takie informacje na poziomie bloku zapewniają dokładne współrzędne położenia jednostki (z blokami podrzędnymi reprezentującymi każde słowo w bloku jednostki). Różni się to od standardowego zadania Ground Truth, w którym dane w pliku PDF są spłaszczane do formatu tekstowego, a podczas adnotacji przechwytywane są tylko informacje o przesunięciu, a nie dokładne informacje o współrzędnych. Bogate informacje o pozycji, które uzyskujemy dzięki temu niestandardowemu paradygmatowi adnotacji, pozwalają nam wytrenować dokładniejszy model.
Manifest generowany na podstawie tego typu zadania nazywany jest manifestem rozszerzonym, w przeciwieństwie do pliku CSV używanego do standardowych adnotacji. Aby uzyskać więcej informacji, zobacz Adnotacje.
Użyj adnotacji PDF, aby wytrenować niestandardowy model przy użyciu interfejsu API języka Python
Rozszerzony plik manifestu musi być sformatowany w formacie JSON Lines. W formacie JSON Lines każda linia w pliku jest kompletnym obiektem JSON, po którym następuje separator nowej linii.
Poniższy kod jest wpisem w tym rozszerzonym pliku manifestu.
Kilka rzeczy do zapamiętania:
- Z tym zadaniem jest powiązanych pięć typów etykietowania:
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
,InsuredMailingAddress
. - Plik manifestu odwołuje się zarówno do źródłowej lokalizacji pliku PDF, jak i lokalizacji adnotacji.
- Przechwytywane są metadane dotyczące zadania adnotacji (takie jak data utworzenia).
Use-textract-only
jest ustawione naFalse
, co oznacza, że narzędzie do adnotacji decyduje, czy użyć PDFPlumber (w przypadku natywnego pliku PDF), czy też Ekstrakt z amazonki (dla zeskanowanego pliku PDF). Jeśli ustawione natrue
W obu przypadkach używany jest Amazon Texttract (co jest droższe, ale potencjalnie dokładniejsze).
Teraz możemy wyszkolić moduł rozpoznawania, jak pokazano w poniższym przykładowym kodzie.
Tworzymy moduł rozpoznawania, który rozpoznaje wszystkie pięć typów podmiotów. Gdybyśmy woleli, moglibyśmy użyć podzbioru tych bytów. Możesz użyć maksymalnie 25 podmiotów.
Aby uzyskać szczegółowe informacje na temat każdego parametru, zobacz create_entity_recognizer.
W zależności od wielkości zbioru treningowego czas uczenia może się różnić. W przypadku tego zbioru danych szkolenie trwa około 1 godziny. Aby monitorować status zadania szkoleniowego, możesz użyć describe_entity_recognizer
API.
Uzyskaj metryki oceny z przeszkolonego modelu
Amazon Comprehend udostępnia metryki wydajności wyuczonego modelu, które wskazują, jak dobrze przeszkolony model ma przewidywać przewidywania przy użyciu podobnych danych wejściowych. Możemy uzyskać zarówno globalne metryki precyzji i przypominania, jak i metryki na jednostkę. Dokładny model charakteryzuje się dużą precyzją i wysoką pamięcią. Wysoka precyzja oznacza, że model jest zwykle poprawny, jeśli wskazuje konkretną etykietę; wysoka rozpoznawalność oznacza, że model znalazł większość etykiet. F1 jest metryką złożoną (średnią harmoniczną) tych miar i dlatego jest wysoka, gdy oba składniki są wysokie. Szczegółowy opis metryk można znaleźć w artykule Metryki modułu rozpoznawania jednostek niestandardowych.
Kiedy dostarczasz dokumenty do zadania szkoleniowego, Amazon Comprehend automatycznie dzieli je na zestaw pociągowy i testowy. Kiedy model dotrze TRAINED
status, możesz użyć describe_entity_recognizer
Ponownie API, aby uzyskać metryki oceny na zestawie testowym.
Poniżej znajduje się przykład metryk globalnych.
Poniżej znajduje się przykład metryk dla poszczególnych jednostek.
Wysokie wyniki wskazują, że model dobrze nauczył się wykrywać te podmioty.
Wykonaj wnioskowanie na niewidocznym dokumencie
Przeprowadźmy wnioskowanie z naszym wyuczonym modelem na dokumencie, który nie był częścią procedury szkoleniowej. Możemy używać tego asynchronicznego interfejsu API do standardowego lub niestandardowego NER. Jeśli używamy go do niestandardowego NER (jak w tym poście), musimy przekazać ARN wyszkolonego modelu.
Możemy sprawdzić przesłane zadanie, drukując odpowiedź.
Możemy sformatować dane wyjściowe zadania wykrywania za pomocą Pand w tabeli. The Score
Wartość wskazuje poziom pewności, jaki model ma w stosunku do jednostki.
Na koniec możemy nałożyć prognozy na niewidoczne dokumenty, co daje wynik pokazany na górze tego posta.
Wnioski
W tym poście zobaczyłeś, jak wyodrębnić niestandardowe encje w ich natywnym formacie PDF za pomocą Amazon Comrehend. Jako kolejne kroki rozważ głębsze nurkowanie:
- Trenuj swój własny rozpoznawacz, korzystając z dołączonego notatnika tutaj. Pamiętaj, aby po zakończeniu usunąć wszystkie zasoby, aby uniknąć przyszłych opłat.
- Skonfiguruj własne, niestandardowe zadanie adnotacji, aby zbierać adnotacje w formacie PDF dla interesujących Cię podmiotów. Aby uzyskać więcej informacji, zobacz Niestandardowe adnotacje do dokumentów do wyodrębniania nazwanych jednostek w dokumentach za pomocą Amazon Comprehend.
- Trenuj niestandardowy model NER na konsoli Amazon Comprehend. Aby uzyskać więcej informacji, zobacz Wyodrębnij niestandardowe encje z dokumentów w ich natywnym formacie za pomocą Amazon Comprehend.
O autorach
Joshua Levy jest starszym naukowcem w laboratorium Amazon Machine Learning Solutions, gdzie pomaga klientom projektować i budować rozwiązania AI/ML w celu rozwiązywania kluczowych problemów biznesowych.
Andrzej Angi jest inżynierem uczenia maszynowego w laboratorium Amazon Machine Learning Solutions Lab, gdzie pomaga klientom z różnych branż identyfikować i budować rozwiązania AI/ML w celu rozwiązania ich najpilniejszych problemów biznesowych. Poza pracą lubi oglądać vlogi podróżnicze i kulinarne.
Alexa Chirayatha jest inżynierem oprogramowania w laboratorium Amazon Machine Learning Solutions Lab, skupiającym się na tworzeniu rozwiązań opartych na przypadkach użycia, które pokazują klientom, jak odblokować moc usług AI/ML AWS w celu rozwiązywania rzeczywistych problemów biznesowych.
Jennifer Zu jest naukowcem stosowanym w laboratorium rozwiązań do uczenia maszynowego Amazon AI. Współpracuje z klientami AWS, budując rozwiązania AI/ML dla ich najważniejszych potrzeb biznesowych.
Niharika Jayanthi jest inżynierem front-end w laboratorium Amazon Machine Learning Solutions Lab – zespół Human in the Loop. Pomaga tworzyć rozwiązania w zakresie doświadczenia użytkownika dla klientów Amazon SageMaker Ground Truth.
Borys Aronczik jest menedżerem w laboratorium Amazon AI Machine Learning Solutions Lab, gdzie kieruje zespołem naukowców i inżynierów ML, którzy pomagają klientom AWS w realizacji celów biznesowych z wykorzystaniem rozwiązań AI/ML.
- Coinsmart. Najlepsza w Europie giełda bitcoinów i kryptowalut.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. DARMOWY DOSTĘP.
- CryptoJastrząb. Radar Altcoin. Bezpłatna wersja próbna.
- Źródło: https://aws.amazon.com/blogs/machine-learning/build-a-custom-entity-recognizer-for-pdf-documents-using-amazon-comprehend/
- "
- &
- 100
- O nas
- dokładny
- w poprzek
- adres
- AI
- Wszystkie kategorie
- już
- Amazonka
- api
- podejście
- w przybliżeniu
- atrybuty
- zwiększona
- zautomatyzować
- AWS
- Blokować
- budować
- Budowanie
- biznes
- wyzwanie
- Opłaty
- dziecko
- roszczenia
- kod
- zbierać
- pewność siebie
- Konsola
- zawiera
- koordynować
- mógłby
- tworzenie
- krytyczny
- zwyczaj
- Klientów
- dane
- Daty
- głębiej
- Wnętrze
- Wykrywanie
- bezpośrednio
- dokumenty
- inżynier
- Inżynierowie
- podmioty
- Środowisko
- przykład
- spodziewany
- doświadczenie
- elastyczne
- obserwuj
- następujący
- jedzenie
- Nasz formularz
- format
- znaleziono
- Darmowy
- przyszłość
- Globalne
- Gole
- pomoc
- pomaga
- Wysoki
- wysoko
- W jaki sposób
- How To
- HTTPS
- człowiek
- zidentyfikować
- obraz
- ważny
- przemysłowa
- przemysł
- Informacja
- wkład
- ubezpieczenie
- odsetki
- IT
- Praca
- Klawisz
- laboratorium
- etykietowanie
- Etykiety
- Wyprowadzenia
- dowiedziałem
- nauka
- poziom
- lewarowanie
- Linia
- lokalizacja
- lokalizacji
- maszyna
- uczenie maszynowe
- WYKONUJE
- zarządzane
- kierownik
- sposób
- ręcznie
- znaczenie
- Metryka
- ML
- model
- monitor
- jeszcze
- większość
- Nazwy
- notatnik
- offset
- własny
- paradygmat
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- power
- Przewidywania
- problemy
- wygląda tak
- zapewniać
- zapewnia
- szybko
- Surowy
- Czytający
- Prawdziwy świat
- zrealizować
- rozpoznać
- Raporty
- Zasoby
- odpowiedź
- przeglądu
- run
- bieganie
- skanowanie
- Naukowiec
- Naukowcy
- usługa
- Usługi
- zestaw
- podobny
- Prosty
- Rozmiar
- Tworzenie
- Software Engineer
- Rozwiązania
- ROZWIĄZANIA
- prędkość
- standard
- Rynek
- przechowywanie
- zbudowany
- składane
- system
- zespół
- test
- Źródło
- Przez
- czas
- czasochłonne
- narzędzie
- Top
- Trening
- podróżować
- odblokować
- us
- posługiwać się
- zazwyczaj
- wartość
- Co
- czy
- Podczas
- w ciągu
- bez
- Praca
- działa
- świat