Przetwarzaj dokumenty hipoteczne za pomocą inteligentnego przetwarzania dokumentów za pomocą Amazon Text i Amazon Comprehend

Opublikowane ponownie przez Plato

Obserwuje: 0

Organizacje z branży pożyczkowej i hipotecznej przetwarzają codziennie tysiące dokumentów. Od nowego wniosku o kredyt hipoteczny po refinansowanie kredytu hipotecznego, te procesy biznesowe obejmują setki dokumentów na wniosek. Obecnie dostępna jest ograniczona automatyzacja przetwarzania i wyodrębniania informacji ze wszystkich dokumentów, zwłaszcza ze względu na różne formaty i układy. Ze względu na dużą liczbę aplikacji przechwytywanie strategicznych spostrzeżeń i uzyskiwanie kluczowych informacji z treści jest czasochłonnym, wysoce ręcznym, podatnym na błędy i kosztownym procesem. Starsze narzędzia do optycznego rozpoznawania znaków (OCR) są kosztowne, podatne na błędy, wymagają wielu konfiguracji i są trudne do skalowania. Inteligentne przetwarzanie dokumentów (IDP) z usługami sztucznej inteligencji (AI) AWS pomaga zautomatyzować i przyspieszyć przetwarzanie wniosków o kredyt hipoteczny, mając na celu szybsze i jakościowe decyzje, przy jednoczesnym obniżeniu ogólnych kosztów.

W tym poście pokazujemy, w jaki sposób można wykorzystać możliwości uczenia maszynowego (ML) za pomocą Ekstrakt z amazonki, Amazon Comprehend przetwarzać dokumenty w nowym wniosku o kredyt hipoteczny, bez konieczności posiadania umiejętności ML. Badamy różne fazy IDP, jak pokazano na poniższym rysunku, oraz sposób, w jaki łączą się one z etapami procesu składania wniosku o kredyt hipoteczny, takimi jak złożenie wniosku, gwarantowanie, weryfikacja i zamknięcie.

Chociaż każdy wniosek o kredyt hipoteczny może być inny, wzięliśmy pod uwagę niektóre z najczęstszych dokumentów, które są zawarte we wniosku o kredyt hipoteczny, takie jak formularz Unified Residential Loan Application (URLA-1003), formularze 1099 i nota hipoteczna.

Omówienie rozwiązania

Amazon Texttract to usługa ML, która automatycznie wyodrębnia tekst, pismo ręczne i dane z zeskanowanych dokumentów przy użyciu wstępnie przeszkolonych modeli ML. Amazon Comprehend to usługa przetwarzania języka naturalnego (NLP), która wykorzystuje ML do odkrywania cennych informacji i połączeń w tekście i może przeprowadzać klasyfikację dokumentów, rozpoznawanie jednostek nazw (NER), modelowanie tematów i nie tylko.

Poniższy rysunek przedstawia fazy IDP w odniesieniu do faz procesu ubiegania się o kredyt hipoteczny.

Obraz przedstawia architekturę rozwiązania wysokiego poziomu dla faz inteligentnego przetwarzania dokumentów (IDP) w odniesieniu do etapów wniosku o kredyt hipoteczny.

Na początku procesu dokumenty są przesyłane do Usługa Amazon Simple Storage (Amazon S3) łyżka. To inicjuje proces klasyfikacji dokumentów w celu kategoryzacji dokumentów do znanych kategorii. Po skategoryzowaniu dokumentów kolejnym krokiem jest wydobycie z nich kluczowych informacji. Następnie wykonujemy wzbogacanie dla wybranych dokumentów, które mogą obejmować takie elementy, jak redakcja informacji umożliwiających identyfikację osób, tagowanie dokumentów, aktualizacje metadanych i inne. Kolejnym krokiem jest walidacja danych pozyskanych w poprzednich fazach w celu zapewnienia kompletności wniosku o kredyt hipoteczny. Walidację można przeprowadzić za pomocą reguł walidacji biznesowej i reguł walidacji między dokumentami. Oceny ufności wyodrębnionych informacji można również porównać z ustalonym progiem i automatycznie przekierować do osoby sprawdzającej poprzez Amazon AI Augmented (Amazon A2I), jeśli próg nie jest spełniony. W końcowej fazie procesu wyodrębnione i zweryfikowane dane są przesyłane do dalszych systemów w celu dalszego przechowywania, przetwarzania lub analizy danych.

W kolejnych sekcjach omówimy szczegółowo fazy IDP, ponieważ odnosi się to do faz wniosku o kredyt hipoteczny. Przechodzimy przez fazy IDP i omawiamy rodzaje dokumentów; w jaki sposób przechowujemy, klasyfikujemy i wyodrębniamy informacje oraz jak wzbogacamy dokumenty za pomocą uczenia maszynowego.

Przechowywanie dokumentów

Amazon S3 to usługa obiektowej pamięci masowej, która oferuje wiodącą w branży skalowalność, dostępność danych, bezpieczeństwo i wydajność. Używamy Amazon S3 do bezpiecznego przechowywania dokumentów hipotecznych w trakcie i po procesie składania wniosku o kredyt hipoteczny. A pakiet wniosku o kredyt hipoteczny może zawierać kilka rodzajów formularzy i dokumentów, takich jak URLA-1003, 1099-INT/DIV/RR/MISC, W2, odcinki wypłat, wyciągi bankowe, wyciągi z kart kredytowych i inne. Dokumenty te składa wnioskodawca na etapie składania wniosku o kredyt hipoteczny. Bez ręcznego ich przeglądania może nie być od razu jasne, które dokumenty znajdują się w pakiecie. Ten ręczny proces może być czasochłonny i kosztowny. W następnej fazie automatyzujemy ten proces za pomocą Amazon Comprehend, aby z dużą dokładnością klasyfikować dokumenty do odpowiednich kategorii.

Klasyfikacja dokumentu

Klasyfikacja dokumentów to metoda, za pomocą której można kategoryzować i oznaczać dużą liczbę niezidentyfikowanych dokumentów. Tę klasyfikację dokumentów przeprowadzamy za pomocą narzędzia Amazon Comprehen klasyfikator niestandardowy. Klasyfikator niestandardowy to model ML, który można wytrenować za pomocą zestawu dokumentów oznaczonych etykietami, aby rozpoznać interesujące Cię klasy. Po przeszkoleniu i wdrożeniu modelu za hostowanym punktem końcowym możemy użyć klasyfikatora do określenia kategorii (lub klasy), do której należy dany dokument. W tym przypadku szkolimy klasyfikator niestandardowy w tryb wielu klas, co można zrobić za pomocą pliku CSV lub rozszerzonego pliku manifestu. Na potrzeby tej demonstracji używamy pliku CSV do trenowania klasyfikatora. Zapoznaj się z naszym Repozytorium GitHub dla pełnej próbki kodu. Poniżej znajduje się ogólny przegląd odpowiednich kroków:

Wyodrębnij zakodowany w UTF-8 zwykły tekst z plików graficznych lub PDF za pomocą Amazon Text Wykryj tekst dokumentu API.
Przygotuj dane szkoleniowe, aby wytrenować niestandardowy klasyfikator w formacie CSV.
Wytrenuj klasyfikator niestandardowy za pomocą pliku CSV.
Wdróż uczony model z punktem końcowym do klasyfikacji dokumentów w czasie rzeczywistym lub użyj trybu wieloklasowego, który obsługuje zarówno operacje w czasie rzeczywistym, jak i operacje asynchroniczne.

Poniższy diagram ilustruje ten proces.

Obraz przedstawia proces szkolenia klasyfikatorów niestandardowych Amazon Comprehend i klasyfikację dokumentów przy użyciu wyszkolonego i wdrożonego modelu klasyfikatora (w czasie rzeczywistym lub wsadowym).

Możesz zautomatyzować klasyfikację dokumentów za pomocą wdrożonego punktu końcowego do identyfikowania i kategoryzowania dokumentów. Ta automatyzacja przydaje się do weryfikacji, czy w pakiecie hipotecznym znajdują się wszystkie wymagane dokumenty. Brakujący dokument można szybko zidentyfikować, bez ręcznej interwencji, i powiadomić wnioskodawcę na dużo wcześniejszym etapie procesu.

Ekstrakcja dokumentów

W tej fazie wydobywamy dane z dokumentu za pomocą Amazon Text i Amazon Comprehend. W przypadku ustrukturyzowanych i częściowo ustrukturyzowanych dokumentów zawierających formularze i tabele używamy Amazon Text AnalizujDokument API. W przypadku dokumentów specjalistycznych, takich jak dokumenty tożsamości, Amazon Text zapewnia Identyfikator analizy API. Niektóre dokumenty mogą również zawierać gęsty tekst i może być konieczne wyodrębnienie z nich kluczowych terminów biznesowych, znanych również jako podmioty. Używamy rozpoznawanie jednostek niestandardowych zdolność Amazon Comprehend do trenowania niestandardowego rozpoznawania encji, które może identyfikować takie encje na podstawie gęstego tekstu.

W kolejnych sekcjach omówimy przykładowe dokumenty zawarte w pakiecie wniosku o kredyt hipoteczny i omówimy metody wyciągania z nich informacji. Do każdego z tych przykładów dołączany jest fragment kodu i krótkie przykładowe dane wyjściowe.

Wyodrębnij dane z ujednoliconego wniosku o pożyczkę mieszkaniową URLA-1003

Jednolity wniosek o pożyczkę mieszkaniową (URLA-1003) to standardowy w branży formularz wniosku o pożyczkę hipoteczną. Jest to dość złożony dokument, który zawiera informacje o osobie ubiegającej się o kredyt hipoteczny, typie nabywanej nieruchomości, finansowanej kwocie oraz inne szczegóły dotyczące charakteru zakupu nieruchomości. Poniżej znajduje się przykładowy adres URLA-1003, a naszym zamiarem jest wyodrębnienie informacji z tego ustrukturyzowanego dokumentu. Ponieważ jest to formularz, używamy AnalyzeDocument API z typem funkcji FORMULARZ.

Typ funkcji FORM wyodrębnia informacje o formularzu z dokumentu, które są następnie zwracane w formacie pary klucz-wartość. W poniższym fragmencie kodu zastosowano znak amazon-textract-textractor Biblioteka Pythona do wyodrębniania informacji o formularzach za pomocą kilku linijek kodu. Metoda wygody call_textract() wzywa AnalyzeDocument Interfejs API wewnętrznie, a parametry przekazane do metody abstrahują niektóre konfiguracje, których interfejs API potrzebuje do uruchomienia zadania wyodrębniania. Document to wygodna metoda służąca do analizowania odpowiedzi JSON z interfejsu API. Zapewnia abstrakcję wysokiego poziomu i sprawia, że dane wyjściowe interfejsu API są iterowalne i łatwe do uzyskania informacji. Aby uzyskać więcej informacji, zobacz Parser odpowiedzi tekstu i Teksturator.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

Zauważ, że dane wyjściowe zawierają wartości pól wyboru lub przycisków radiowych, które istnieją w formularzu. Na przykład w przykładowym dokumencie URLA-1003 Zakup wybrano opcję. Odpowiednie wyjście dla przycisku radiowego jest wyodrębniane jako „Purchase” (klucz) i „SELECTED” (wartość), wskazując, że został wybrany przycisk radiowy.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

Wyodrębnij dane z 1099 formularzy

Pakiet wniosku o kredyt hipoteczny może również zawierać szereg dokumentów IRS, takich jak 1099-DIV, 1099-INT, 1099-MISC i 1099-R. Dokumenty te pokazują dochody wnioskodawcy z tytułu odsetek, dywidend i innych różnych składników dochodu, które są przydatne podczas oceny ryzyka przy podejmowaniu decyzji. Poniższy obraz przedstawia zbiór tych dokumentów, które mają podobną strukturę. Jednak w niektórych przypadkach dokumenty zawierają informacje z formularza (oznaczone czerwonymi i zielonymi obramowaniami) oraz informacje tabelaryczne (oznaczone żółtymi obramowaniami).

Aby wyodrębnić informacje z formularza, używamy podobnego kodu, jak wyjaśniono wcześniej z AnalyzeDocument API. Przekazujemy dodatkową funkcję STÓL JADALNIANY do API, aby wskazać, że potrzebujemy zarówno danych formularza, jak i tabeli wyodrębnionych z dokumentu. W poniższym fragmencie kodu zastosowano znak AnalyzeDocument API z funkcjami FORMS i TABLES w dokumencie 1099-INT:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

Ponieważ dokument zawiera pojedynczą tabelę, wynik kodu wygląda następująco:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

Informacje w tabeli zawierają pozycję komórki (wiersz 0, kolumna 0 itd.) oraz odpowiedni tekst w każdej komórce. Używamy wygodnej metody, która może przekształcić te dane tabeli w łatwy do odczytania widok siatki:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

Otrzymujemy następujący wynik:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

Aby uzyskać dane wyjściowe w łatwym do konsumpcji formacie CSV, typ formatu Pretty_Print_Table_Format.csv można przekazać do table_format parametr. Obsługiwane są również inne formaty, takie jak TSV (wartości rozdzielane tabulatorami), HTML i Latex. Aby uzyskać więcej informacji, zobacz Text-PrettyPrinter.

Wyodrębnij dane z noty hipotecznej

Pakiet wniosku o kredyt hipoteczny może zawierać nieustrukturyzowane dokumenty z gęstym tekstem. Przykładami gęstych dokumentów tekstowych są umowy i porozumienia. Nota hipoteczna jest umową pomiędzy wnioskującym o kredyt hipoteczny a pożyczkodawcą lub firmą hipoteczną i zawiera informacje w gęstym tekście paragrafów. W takich przypadkach brak struktury utrudnia znalezienie kluczowych informacji biznesowych, które są istotne w procesie ubiegania się o kredyt hipoteczny. Istnieją dwa podejścia do rozwiązania tego problemu:

W poniższej przykładowej notatce hipotecznej jesteśmy szczególnie zainteresowani ustaleniem kwoty miesięcznej płatności i kwoty głównej.

W pierwszym podejściu używamy Query i QueriesConfig wygodne metody konfiguracji zestawu pytań, które są przekazywane do Amazon Text AnalyzeDocument Wywołanie API. W przypadku, gdy dokument jest wielostronicowy (PDF lub TIFF), możemy również określić numery stron, na których Amazon Text ma szukać odpowiedzi na pytanie. Poniższy fragment kodu demonstruje, jak utworzyć konfigurację zapytania, wykonać wywołanie API, a następnie przeanalizować odpowiedź, aby uzyskać odpowiedzi z odpowiedzi:

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

Otrzymujemy następujący wynik:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

W drugim podejściu używamy Amazon Comprehend Wykrywanie jednostek API z listem hipotecznym, który zwraca podmioty, które wykryje w tekście z a predefiniowany zestaw podmiotów. Są to jednostki, z którymi jest wstępnie przeszkolony aparat rozpoznawania jednostek Amazon Comprehend. Ponieważ jednak naszym wymaganiem jest wykrywanie określonych jednostek, niestandardowy aparat rozpoznawania jednostek Amazon Comprehend jest szkolony z zestawem przykładowych dokumentów hipotecznych oraz listą jednostek. Definiujemy nazwy podmiotów jako PRINCIPAL_AMOUNT i MONTHLY_AMOUNT. Dane treningowe są przygotowywane po szkoleniu Amazon Comprehend wytyczne dotyczące przygotowania danych do rozpoznawania jednostek niestandardowych. Rozpoznawanie jednostek można przeszkolić za pomocą adnotacje do dokumentów lub listy jednostek. Na potrzeby tego przykładu używamy list encji do trenowania modelu. Po przeszkoleniu modelu możemy go wdrożyć za pomocą punkt końcowy w czasie rzeczywistym lub trybie wsadowym do wykrywania dwóch podmiotów z treści dokumentu. Poniżej przedstawiono kroki związane z trenowaniem niestandardowego aparatu rozpoznawania encji i wdrażaniem go. Aby uzyskać pełny przewodnik po kodzie, zapoznaj się z naszym repozytorium GitHub.

Przygotuj dane treningowe (listę encji i dokumenty w formacie zwykłego tekstu (w kodowaniu UTF-8).
Rozpocznij szkolenie rozpoznawania jednostek za pomocą UtwórzEntityRecognizer API wykorzystujące dane treningowe.
Wdróż wytrenowany model z punktem końcowym w czasie rzeczywistym za pomocą Utwórz punkt końcowy API.

Wyodrębnij dane z paszportu amerykańskiego

Tekst z Amazonii analizować dokumenty tożsamości możliwość wykrywania i wydobywania informacji z dokumentów tożsamości wydanych w USA, takich jak prawo jazdy i paszport. The AnalyzeID API jest w stanie wykryć i zinterpretować domniemane pola w dokumentach identyfikacyjnych, co ułatwia wyodrębnienie określonych informacji z dokumentu. Dokumenty tożsamości są prawie zawsze częścią pakietu wniosku o kredyt hipoteczny, ponieważ służą do weryfikacji tożsamości kredytobiorcy podczas procesu ubezpieczeniowego oraz do sprawdzania poprawności danych biograficznych kredytobiorcy.

Używamy wygodnej metody o nazwie call_textract_analyzeid, który nazywa AnalyzeID API wewnętrznie. Następnie powtarzamy odpowiedź, aby uzyskać wykryte pary klucz-wartość z dokumentu tożsamości. Zobacz następujący kod:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID zwraca informacje w strukturze o nazwie IdentityDocumentFields, który zawiera znormalizowane klucze i odpowiadającą im wartość. Na przykład w poniższym wyniku FIRST_NAME jest znormalizowanym kluczem, a wartość to ALEJANDRO. W przykładowym obrazie paszportowym pole na imię jest oznaczone jako „Given Names / Prénoms / Nombre”, jednak AnalyzeID był w stanie znormalizować to do nazwy klucza FIRST_NAME. Aby uzyskać listę obsługiwanych znormalizowanych pól, zobacz Obiekty odpowiedzi dokumentacji tożsamości.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

Pakiet kredytu hipotecznego może zawierać kilka innych dokumentów, takich jak odcinek wypłaty, formularz W2, wyciąg bankowy, wyciąg z karty kredytowej i list potwierdzający zatrudnienie. Mamy próbki dla każdego z tych dokumentów wraz z kodem wymaganym do wydobycia z nich danych. Aby uzyskać pełną bazę kodów, sprawdź notebooki w naszym Repozytorium GitHub.

Wzbogacanie dokumentów

Jedną z najczęstszych form wzbogacania dokumentów jest redagowanie wrażliwych lub poufnych informacji na dokumentach, co może być wymagane ze względu na przepisy lub regulacje dotyczące prywatności. Na przykład odcinek wypłaty wnioskodawcy o kredyt hipoteczny może zawierać wrażliwe dane umożliwiające identyfikację, takie jak imię i nazwisko, adres i numer SSN, które mogą wymagać korekty w celu rozszerzonego przechowywania.

W poprzednim przykładowym dokumencie paystub przeprowadzamy redakcję danych PII, takich jak SSN, imię i nazwisko, numer rachunku bankowego i daty. Aby zidentyfikować dane PII w dokumencie, używamy Amazon Comprehend Wykrywanie danych osobowych zdolność za pośrednictwem WykryjPIIEntities API. Ten interfejs API sprawdza zawartość dokumentu w celu zidentyfikowania obecności informacji umożliwiających identyfikację. Ponieważ ten interfejs API wymaga danych wejściowych w formacie zwykłego tekstu zakodowanego w formacie UTF-8, najpierw wyodrębniamy tekst z dokumentu za pomocą tekstu Amazon Wykryj tekst dokumentu API, które zwraca tekst z dokumentu, a także zwraca informacje o geometrii, takie jak wymiary i współrzędne obwiedni. Kombinacja obu wyników jest następnie wykorzystywana do rysowania redakcji na dokumencie w ramach procesu wzbogacania.

Przeglądanie, walidacja i integracja danych

Wyodrębnione dane z fazy ekstrakcji dokumentów mogą wymagać weryfikacji pod kątem określonych reguł biznesowych. Konkretne informacje mogą być również sprawdzane w kilku dokumentach, znanych również jako walidacja cross-doc. Przykładem walidacji cross-doc może być porównanie nazwiska wnioskodawcy z dokumentu tożsamości z nazwiskiem z dokumentu wniosku o kredyt hipoteczny. W tej fazie można również przeprowadzić inne walidacje, takie jak oszacowanie wartości nieruchomości i warunkowe decyzje ubezpieczeniowe.

Trzeci typ walidacji jest związany z oceną ufności wyodrębnionych danych w fazie ekstrakcji dokumentu. Amazon Text i Amazon Comprehend zwracają ocenę ufności dla wykrytych formularzy, tabel, danych tekstowych i jednostek. Możesz skonfigurować próg wyniku ufności, aby upewnić się, że przesyłane są tylko poprawne wartości. Osiąga się to za pośrednictwem usługi Amazon A2I, która porównuje oceny ufności wykrytych danych z predefiniowanym progiem ufności. Jeśli próg nie zostanie spełniony, dokument i wyodrębnione dane wyjściowe są kierowane do człowieka w celu przejrzenia za pomocą intuicyjnego interfejsu użytkownika. Recenzent podejmuje działania naprawcze na danych i zapisuje je do dalszego przetwarzania. Aby uzyskać więcej informacji, zobacz Podstawowe koncepcje Amazon A2I.

Wnioski

W tym poście omówiliśmy etapy inteligentnego przetwarzania dokumentów w odniesieniu do etapów wniosku o kredyt hipoteczny. Przyjrzeliśmy się kilku typowym przykładom dokumentów, które można znaleźć w pakiecie wniosku o kredyt hipoteczny. Omówiliśmy również sposoby wyodrębniania i przetwarzania treści ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych z tych dokumentów. IDP zapewnia sposób na zautomatyzowanie kompleksowego przetwarzania dokumentów hipotecznych, które można skalować do milionów dokumentów, poprawiając jakość decyzji dotyczących wniosków, zmniejszając koszty i szybciej obsługując klientów.

W następnym kroku możesz wypróbować próbki kodu i notatniki w naszym Repozytorium GitHub. Aby dowiedzieć się więcej o tym, jak IDP może pomóc w przetwarzaniu dokumentów, odwiedź Zautomatyzuj przetwarzanie danych z dokumentów.

O autorach

Anjana Biswasa jest starszym architektem rozwiązań usług AI, koncentrując się na AI/ML i analizie danych. Anjan jest częścią ogólnoświatowego zespołu usług AI i współpracuje z klientami, aby pomóc im zrozumieć i opracować rozwiązania problemów biznesowych związanych ze sztuczną inteligencją i ML. Anjan ma ponad 14-letnie doświadczenie w pracy z globalnymi organizacjami łańcucha dostaw, produkcji i handlu detalicznego i aktywnie pomaga klientom rozpocząć i skalować usługi AWS AI.

Dwiti Pathak jest Senior Technical Account Manager z siedzibą w San Diego. Koncentruje się na pomocy branży półprzewodnikowej w zaangażowaniu się w AWS. W wolnym czasie lubi czytać o nowych technologiach i grać w gry planszowe.

Balaji Puli jest architektem rozwiązań z siedzibą w Bay Area w Kalifornii. Obecnie pomagamy wybranym klientom zajmującym się naukami przyrodniczymi z północno-zachodniej części Stanów Zjednoczonych w przyspieszeniu wdrożenia chmury AWS. Balaji lubi podróżować i uwielbia poznawać różne kuchnie.

Znak czasu: 26 sierpnia 2022 r.26 sierpnia 2022 r.

Więcej z Uczenie maszynowe AWS

Użyj niestandardowego słownictwa w Amazon Lex, aby poprawić rozpoznawanie mowy PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Używaj niestandardowego słownictwa w Amazon Lex, aby poprawić rozpoznawanie mowy

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1294623

Znak czasu: 5 maja 2022 r.

Twórz dane syntetyczne dla potoków wizji komputerowej w AWS PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Twórz syntetyczne dane dla potoków wizyjnych w AWS

Uczenie maszynowe AWS

Węzeł źródłowy: 1848251

Znak czasu: Czerwiec 13, 2023

Przetwarzaj dokumenty hipoteczne z inteligentnym przetwarzaniem dokumentów za pomocą Amazon Text i Amazon Comprehend

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Przechowywanie dokumentów

Klasyfikacja dokumentu

Ekstrakcja dokumentów

Wyodrębnij dane z ujednoliconego wniosku o pożyczkę mieszkaniową URLA-1003

Wyodrębnij dane z 1099 formularzy

Wyodrębnij dane z noty hipotecznej

Wyodrębnij dane z paszportu amerykańskiego

Wzbogacanie dokumentów

Przeglądanie, walidacja i integracja danych

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Twórz syntetyczne dane dla potoków wizyjnych w AWS

Transfer nauki dla modeli klasyfikacji tekstu TensorFlow w Amazon SageMaker

Technologia AWS Cloud do wykrywania anomalii serca w czasie zbliżonym do rzeczywistego przy użyciu danych z urządzeń do noszenia

Zidentyfikuj lokalizację anomalii za pomocą Amazon Lookout for Vision na brzegu sieci bez użycia GPU

Jak linie United Airlines zbudowały opłacalny proces aktywnego uczenia się przy użyciu optycznego rozpoznawania znaków | Usługi internetowe Amazona

Przedstawiamy dostrajanie popularności podobnych przedmiotów w Amazon Personalizacja | Usługi sieciowe Amazona

Bezpiecznie przeszukuj nieustrukturyzowane dane w systemach plików Windows za pomocą łącznika Amazon Kendra dla Amazon FSx dla Windows File Server

Wykrywaj oszustwa w firmach zorientowanych na urządzenia mobilne za pomocą inteligencji urządzeń GrabDefence i narzędzia Amazon Fraud Detector

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto