Verwerk hypotheekdocumenten met intelligente documentverwerking met behulp van Amazon Textract en Amazon Comprehend

Heruitgegeven door Plato

volgers: 0

Organisaties in de krediet- en hypotheekbranche verwerken dagelijks duizenden documenten. Van een nieuwe hypotheekaanvraag tot het oversluiten van een hypotheek, deze bedrijfsprocessen omvatten honderden documenten per aanvraag. Er is tegenwoordig beperkte automatisering beschikbaar om informatie uit alle documenten te verwerken en te extraheren, vooral vanwege de verschillende formaten en lay-outs. Vanwege het grote aantal applicaties is het vastleggen van strategische inzichten en het verkrijgen van belangrijke informatie uit de inhoud een tijdrovend, zeer handmatig, foutgevoelig en duur proces. Legacy Optical Character Recognition (OCR) tools zijn onbetaalbaar, foutgevoelig, brengen veel configuratie met zich mee en zijn moeilijk te schalen. Intelligente documentverwerking (IDP) met AWS kunstmatige intelligentie (AI)-services helpt bij het automatiseren en versnellen van de verwerking van hypotheekaanvragen met als doel snellere en kwaliteitsvolle beslissingen te nemen, terwijl de totale kosten worden verlaagd.

In dit bericht laten we zien hoe u machine learning (ML)-mogelijkheden kunt gebruiken met: Amazon T-extract en Amazon begrijpt het om documenten te verwerken in een nieuwe hypotheekaanvraag, zonder de noodzaak van ML-vaardigheden. We onderzoeken de verschillende fasen van IDP, zoals weergegeven in de volgende afbeelding, en hoe ze aansluiten bij de stappen die betrokken zijn bij een hypotheekaanvraagproces, zoals het indienen van een aanvraag, acceptatie, verificatie en afsluiting.

Hoewel elke hypotheekaanvraag uniek kan zijn, hebben we rekening gehouden met enkele van de meest voorkomende documenten die zijn opgenomen in een hypotheekaanvraag, zoals het formulier Unified Residential Loan Application (URLA-1003), 1099-formulieren en hypotheeknota.

Overzicht oplossingen

Amazon Textract is een ML-service die automatisch tekst, handschrift en gegevens extraheert uit gescande documenten met behulp van vooraf getrainde ML-modellen. Amazon Comprehend is een natuurlijke-taalverwerkingsservice (NLP) die ML gebruikt om waardevolle inzichten en verbanden in tekst te ontdekken en documentclassificatie, naamsentiteitherkenning (NER), onderwerpmodellering en meer kan uitvoeren.

De volgende afbeelding toont de fasen van IDP in relatie tot de fasen van een hypotheekaanvraagproces.

Afbeelding toont een oplossingsarchitectuur op hoog niveau voor de fasen van intelligente documentverwerking (IDP) in relatie tot de fasen van een hypotheekaanvraag.

Aan het begin van het proces worden documenten geüpload naar een Amazon eenvoudige opslagservice (Amazon S3) emmer. Dit start een documentclassificatieproces om de documenten in bekende categorieën te categoriseren. Nadat de documenten zijn gecategoriseerd, is de volgende stap om er belangrijke informatie uit te halen. Vervolgens voeren we verrijking uit voor geselecteerde documenten, zoals redactie van persoonlijk identificeerbare informatie (PII), documenttagging, metadata-updates en meer. De volgende stap is het valideren van de gegevens die in eerdere fasen zijn geëxtraheerd om de volledigheid van een hypotheekaanvraag te waarborgen. Validatie kan worden gedaan via bedrijfsvalidatieregels en validatieregels voor meerdere documenten. De betrouwbaarheidsscores van de geëxtraheerde informatie kunnen ook worden vergeleken met een ingestelde drempel en automatisch worden doorgestuurd naar een menselijke recensent via Amazon Augmented AI (Amazon A2I) als de drempel niet wordt gehaald. In de laatste fase van het proces worden de geëxtraheerde en gevalideerde gegevens naar downstream-systemen gestuurd voor verdere opslag, verwerking of gegevensanalyse.

In de volgende paragrafen gaan we uitgebreid in op de fasen van IDP in relatie tot de fasen van een hypotheekaanvraag. We doorlopen de fasen van IDP en bespreken de soorten documenten; hoe we informatie opslaan, classificeren en extraheren, en hoe we de documenten verrijken met behulp van machine learning.

Documentopslag

Amazon S3 is een objectopslagservice die toonaangevende schaalbaarheid, gegevensbeschikbaarheid, beveiliging en prestaties biedt. We gebruiken Amazon S3 om de hypotheekdocumenten veilig op te slaan tijdens en na het hypotheekaanvraagproces. EEN hypotheek aanvraag pakket kan verschillende soorten formulieren en documenten bevatten, zoals URLA-1003, 1099-INT/DIV/RR/MISC, W2, loonstrookjes, bankafschriften, creditcardafschriften en meer. Deze documenten worden door de aanvrager ingediend in de fase van de hypotheekaanvraag. Zonder er handmatig doorheen te kijken, is het misschien niet meteen duidelijk welke documenten in het pakket zitten. Dit handmatige proces kan tijdrovend en duur zijn. In de volgende fase automatiseren we dit proces met Amazon Comprehend om de documenten met hoge nauwkeurigheid in hun respectievelijke categorieën te classificeren.

Document classificatie

Documentclassificatie is een methode waarmee een groot aantal niet-geïdentificeerde documenten kan worden gecategoriseerd en gelabeld. We voeren deze documentclassificatie uit met behulp van een Amazon Comprehend aangepaste classificatie. Een aangepaste classificatie is een ML-model dat kan worden getraind met een set gelabelde documenten om de klassen te herkennen die voor u van belang zijn. Nadat het model is getraind en geïmplementeerd achter een gehost eindpunt, kunnen we de classifier gebruiken om te bepalen tot welke categorie (of klasse) een bepaald document behoort. In dit geval trainen we een aangepaste classifier in multi-class modus, wat kan worden gedaan met een CSV-bestand of een augmented manifest-bestand. Voor deze demonstratie gebruiken we een CSV-bestand om de classifier te trainen. Raadpleeg onze GitHub-repository voor het volledige codevoorbeeld. Het volgende is een overzicht op hoog niveau van de betrokken stappen:

Extraheer UTF-8-gecodeerde platte tekst uit afbeeldings- of PDF-bestanden met behulp van Amazon Textract DetecteerDocumentTekst API.
Bereid trainingsgegevens voor om een aangepaste classificatie in CSV-indeling te trainen.
Train een aangepaste classifier met behulp van het CSV-bestand.
Implementeer het getrainde model met een eindpunt voor realtime documentclassificatie of gebruik de modus voor meerdere klassen, die zowel realtime als asynchrone bewerkingen ondersteunt.

Het volgende diagram illustreert dit proces.

Afbeelding toont Amazon Comprehend-trainingsproces voor aangepaste classificatie en documentclassificatie met behulp van het getrainde en geïmplementeerde classificatiemodel (realtime of batch).

U kunt documentclassificatie automatiseren met behulp van het geïmplementeerde eindpunt om documenten te identificeren en te categoriseren. Deze automatisering is handig om te controleren of alle benodigde documenten in een hypotheekpakket aanwezig zijn. Een ontbrekend document kan snel worden geïdentificeerd, zonder handmatige tussenkomst, en veel eerder in het proces aan de aanvrager worden gemeld.

Documentextractie

In deze fase extraheren we gegevens uit het document met behulp van Amazon Textract en Amazon Comprehend. Voor gestructureerde en semi-gestructureerde documenten met formulieren en tabellen gebruiken we het Amazon Textract AnalyseDocument API. Voor gespecialiseerde documenten zoals ID-documenten biedt Amazon Textract de Analyse-ID API. Sommige documenten kunnen ook dichte tekst bevatten en het kan zijn dat u er bedrijfsspecifieke sleuteltermen uit moet halen, ook wel bekend als: entiteiten. Wij gebruiken de aangepaste entiteitsherkenning vermogen van Amazon Comprehend om een aangepaste entiteitherkenner te trainen, die dergelijke entiteiten kan identificeren aan de hand van de dichte tekst.

In de volgende paragrafen lopen we door de voorbeelddocumenten die aanwezig zijn in een hypotheekaanvraagpakket en bespreken we de methoden die worden gebruikt om hier informatie uit te halen. Voor elk van deze voorbeelden is een codefragment en een korte voorbeelduitvoer inbegrepen.

Gegevens extraheren uit Unified Residential Loan Application URLA-1003

Een uniforme aanvraag voor een woonlening (URLA-1003) is een aanvraagformulier voor een hypothecaire lening volgens de industriestandaard. Het is een vrij complex document dat informatie bevat over de hypotheekaanvrager, het type onroerend goed dat wordt gekocht, het bedrag dat wordt gefinancierd en andere details over de aard van de aankoop van onroerend goed. Het volgende is een voorbeeld van een URLA-1003 en het is onze bedoeling om informatie uit dit gestructureerde document te halen. Omdat dit een formulier is, gebruiken we de AnalyzeDocument API met een functietype van FORMULIER.

Het FORM-functietype extraheert formulierinformatie uit het document, dat vervolgens wordt geretourneerd in sleutel-waardepaarformaat. Het volgende codefragment gebruikt de amazon-textract-textractor Python-bibliotheek om formulierinformatie te extraheren met slechts een paar regels code. De gemaksmethode call_textract() roept de AnalyzeDocument API intern, en de parameters die aan de methode worden doorgegeven, vormen een samenvatting van enkele van de configuraties die de API nodig heeft om de extractietaak uit te voeren. Document is een gemaksmethode die wordt gebruikt om het JSON-antwoord van de API te ontleden. Het biedt een abstractie op hoog niveau en maakt de API-uitvoer itereerbaar en gemakkelijk om informatie uit te halen. Voor meer informatie, zie: Textract-antwoordparser en Teksttractor.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

Merk op dat de uitvoer waarden bevat voor selectievakjes of keuzerondjes die in het formulier voorkomen. In het voorbeelddocument URLA-1003 is bijvoorbeeld de Koop nu jouw optie werd gekozen. De corresponderende uitgang voor het keuzerondje wordt geëxtraheerd als "Purchase” (toets) en “SELECTED” (waarde), waarmee wordt aangegeven dat het keuzerondje is geselecteerd.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

Gegevens extraheren uit 1099 formulieren

Een hypotheekaanvraagpakket kan ook een aantal IRS-documenten bevatten, zoals 1099-DIV, 1099-INT, 1099-MISC en 1099-R. Deze documenten tonen de inkomsten van de aanvrager via rente, dividenden en andere diverse inkomenscomponenten die nuttig zijn tijdens de acceptatie om beslissingen te nemen. De volgende afbeelding toont een verzameling van deze documenten, die qua structuur vergelijkbaar zijn. In sommige gevallen bevatten de documenten echter zowel formulierinformatie (gemarkeerd met de rode en groene kaders) als informatie in tabelvorm (gemarkeerd door de gele kaders).

Om formulierinformatie te extraheren, gebruiken we vergelijkbare code zoals eerder uitgelegd met de AnalyzeDocument API. We passeren een extra functie van: TAFEL naar de API om aan te geven dat we zowel formulier- als tabelgegevens uit het document nodig hebben. Het volgende codefragment gebruikt de AnalyzeDocument API met FORMS- en TABLES-functies op het 1099-INT-document:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

Omdat het document één tabel bevat, is de uitvoer van de code als volgt:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

De tabelinformatie bevat de celpositie (rij 0, kolom 0, enzovoort) en de bijbehorende tekst binnen elke cel. We gebruiken een gemaksmethode die deze tabelgegevens kan omzetten in een gemakkelijk leesbare rasterweergave:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

We krijgen de volgende uitvoer:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

Om de uitvoer in een gemakkelijk te consumeren CSV-formaat te krijgen, is het formaattype Pretty_Print_Table_Format.csv kan worden doorgegeven aan de table_format parameter. Andere formaten zoals TSV (door tabs gescheiden waarden), HTML en Latex worden ook ondersteund. Voor meer informatie, zie: Textract-PrettyPrinter.

Gegevens uit een hypotheeknota halen

Een hypotheekaanvraagpakket kan ongestructureerde documenten met dikke tekst bevatten. Enkele voorbeelden van documenten met dikke tekst zijn contracten en overeenkomsten. Een hypotheeknota is een overeenkomst tussen een hypotheekaanvrager en de geldschieter of hypotheekverstrekker en bevat informatie in dichte tekstparagrafen. In dergelijke gevallen maakt het gebrek aan structuur het moeilijk om belangrijke bedrijfsinformatie te vinden die van belang is in het hypotheekaanvraagproces. Er zijn twee manieren om dit probleem op te lossen:

In de volgende voorbeeldhypotheeknota zijn we specifiek geïnteresseerd in het maandelijkse betalingsbedrag en de hoofdsom.

Voor de eerste benadering gebruiken we de Query en QueriesConfig gemaksmethoden om een reeks vragen te configureren die worden doorgegeven aan de Amazon Textract AnalyzeDocument API-aanroep. In het geval dat het document uit meerdere pagina's bestaat (PDF of TIFF), kunnen we ook de paginanummers specificeren waar Amazon Textract naar antwoorden op de vraag moet zoeken. Het volgende codefragment laat zien hoe u de queryconfiguratie maakt, een API-aanroep doet en vervolgens het antwoord parseert om de antwoorden uit het antwoord te halen:

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

We krijgen de volgende uitvoer:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

Voor de tweede benadering gebruiken we de Amazon Comprehend DetectEntiteiten API met de hypotheeknota, die de entiteiten retourneert die het detecteert in de tekst van a vooraf gedefinieerde set entiteiten. Dit zijn entiteiten waarmee de entiteitsherkenner van Amazon Comprehend vooraf is getraind. Omdat het echter onze vereiste is om specifieke entiteiten te detecteren, wordt een aangepaste entiteitherkenner van Amazon Comprehend getraind met een reeks voorbeelddocumenten voor hypotheeknota's en een lijst met entiteiten. We definiëren de entiteitsnamen als PRINCIPAL_AMOUNT en MONTHLY_AMOUNT. Trainingsgegevens worden voorbereid volgens de Amazon Comprehend-training richtlijnen voor gegevensvoorbereiding voor herkenning van aangepaste entiteiten. De entiteitherkenner kan worden getraind met: documentannotaties of entiteitslijsten. Voor de doeleinden van dit voorbeeld gebruiken we entiteitslijsten om het model te trainen. Nadat we het model hebben getraind, kunnen we het inzetten met a realtime eindpunt of batch mode om de twee entiteiten uit de documentinhoud te detecteren. Hieronder volgen de stappen die nodig zijn om een aangepaste entiteitherkenner te trainen en te implementeren. Raadpleeg onze GitHub-repository voor een volledige code-walkthrough.

Bereid de trainingsgegevens voor (de entiteitenlijst en de documenten met (UTF-8-gecodeerd) platte tekstformaat).
Start de entiteitsherkenner-training met behulp van de CreateEntityRecognizer API met behulp van de trainingsgegevens.
Implementeer het getrainde model met een realtime eindpunt met behulp van de Eindpunt maken API.

Gegevens uit een Amerikaans paspoort halen

Het Amazone-extract identiteitsdocumenten analyseren capaciteit kan informatie detecteren en extraheren uit in de VS gevestigde identiteitsdocumenten, zoals een rijbewijs en paspoort. De AnalyzeID API is in staat om impliciete velden in ID-documenten te detecteren en te interpreteren, waardoor het gemakkelijk is om specifieke informatie uit het document te extraheren. Identiteitsdocumenten maken bijna altijd deel uit van een hypotheekaanvraagpakket, omdat het wordt gebruikt om de identiteit van de lener te verifiëren tijdens het acceptatieproces en om de juistheid van de biografische gegevens van de lener te valideren.

We gebruiken een gemaksmethode genaamd call_textract_analyzeid, die de noemt AnalyzeID API intern. Vervolgens herhalen we het antwoord om de gedetecteerde sleutel-waardeparen uit het ID-document te verkrijgen. Zie de volgende code:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID geeft informatie terug in een structuur genaamd IdentityDocumentFields, die de genormaliseerde sleutels en hun bijbehorende waarde bevat. In de volgende uitvoer wordt bijvoorbeeld FIRST_NAME is een genormaliseerde sleutel en de waarde is ALEJANDRO. In de voorbeeldpaspoortafbeelding is het veld voor de voornaam echter gelabeld als "Voornamen / Prénoms / Nombre", maar AnalyzeID was in staat om dat te normaliseren in de sleutelnaam FIRST_NAME. Raadpleeg voor een lijst met ondersteunde genormaliseerde velden: Identiteitsdocumentatie Responsobjecten.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

Een hypotheekpakket kan verschillende andere documenten bevatten, zoals een loonstrookje, W2-formulier, bankafschrift, creditcardafschrift en werkverificatiebrief. We hebben voorbeelden van elk van deze documenten, samen met de code die nodig is om er gegevens uit te halen. Bekijk voor de volledige codebasis de notitieboeken in onze GitHub-repository.

Documentverrijking

Een van de meest voorkomende vormen van documentverrijking is het redigeren van gevoelige of vertrouwelijke informatie op documenten, wat verplicht kan zijn vanwege privacywetten of -regelgeving. Het loonstrookje van een hypotheekaanvrager kan bijvoorbeeld gevoelige PII-gegevens bevatten, zoals naam, adres en SSN, die mogelijk moeten worden bewerkt voor langdurige opslag.

In het voorgaande voorbeeld van een betalingsstrookje voeren we redactie uit van PII-gegevens zoals BSN, naam, bankrekeningnummer en datums. Om PII-gegevens in een document te identificeren, gebruiken we de Amazon Comprehend PII-detectie vermogen via de DetectPIIEntiteiten API. Deze API inspecteert de inhoud van het document om de aanwezigheid van PII-informatie te identificeren. Omdat deze API invoer vereist in UTF-8-gecodeerde tekst zonder opmaak, extraheren we eerst de tekst uit het document met behulp van de Amazon Textract DetecteerDocumentTekst API, die de tekst uit het document retourneert en ook geometrie-informatie retourneert, zoals begrenzingsvakdimensies en -coördinaten. Een combinatie van beide outputs wordt vervolgens gebruikt om redacties op het document te tekenen als onderdeel van het verrijkingsproces.

Gegevens beoordelen, valideren en integreren

Geëxtraheerde gegevens uit de documentextractiefase moeten mogelijk worden gevalideerd tegen specifieke bedrijfsregels. Specifieke informatie kan ook worden gevalideerd in verschillende documenten, ook wel bekend als: cross-doc validatie. Een voorbeeld van cross-doc validatie is het vergelijken van de naam van de aanvrager op het identiteitsbewijs met de naam in het hypotheekaanvraagdocument. U kunt in deze fase ook andere validaties doen, zoals schattingen van de waarde van onroerend goed en voorwaardelijke acceptatiebeslissingen.

Een derde type validatie houdt verband met de betrouwbaarheidsscore van de geëxtraheerde gegevens in de documentextractiefase. Amazon Textract en Amazon Comprehend retourneren een betrouwbaarheidsscore voor gedetecteerde formulieren, tabellen, tekstgegevens en entiteiten. U kunt een drempelwaarde voor de betrouwbaarheidsscore configureren om ervoor te zorgen dat alleen de juiste waarden stroomafwaarts worden verzonden. Dit wordt bereikt via Amazon A2I, dat de betrouwbaarheidsscores van gedetecteerde gegevens vergelijkt met een vooraf gedefinieerde betrouwbaarheidsdrempel. Als de drempel niet wordt gehaald, worden het document en de geëxtraheerde uitvoer doorgestuurd naar een mens voor beoordeling via een intuïtieve gebruikersinterface. De beoordelaar onderneemt corrigerende maatregelen op de gegevens en bewaart deze voor verdere verwerking. Voor meer informatie, zie: Kernconcepten van Amazon A2I.

Conclusie

In dit bericht hebben we de fasen van intelligente documentverwerking besproken met betrekking tot fasen van een hypotheekaanvraag. We hebben gekeken naar enkele veelvoorkomende voorbeelden van documenten die te vinden zijn in een hypotheekaanvraagpakket. We hebben ook gesproken over manieren om gestructureerde, semi-gestructureerde en ongestructureerde inhoud uit deze documenten te extraheren en te verwerken. IDP biedt een manier om end-to-end verwerking van hypotheekdocumenten te automatiseren die kan worden geschaald naar miljoenen documenten, waardoor de kwaliteit van aanvraagbeslissingen wordt verbeterd, de kosten worden verlaagd en klanten sneller worden bediend.

Als volgende stap kunt u de codevoorbeelden en notebooks uitproberen in onze GitHub-repository. Voor meer informatie over hoe IDP u kan helpen bij het verwerken van documenten, gaat u naar Gegevensverwerking uit documenten automatiseren.

Over de auteurs

Anjan Biswas is een Senior AI Services Solutions Architect met focus op AI/ML en Data Analytics. Anjan maakt deel uit van het wereldwijde AI-serviceteam en werkt samen met klanten om hen te helpen bij het begrijpen en ontwikkelen van oplossingen voor zakelijke problemen met AI en ML. Anjan heeft meer dan 14 jaar ervaring in het werken met wereldwijde supply chain-, productie- en retailorganisaties en helpt klanten actief om aan de slag te gaan en op te schalen met AWS AI-services.

Dwiti Pathak is een Senior Technical Account Manager gevestigd in San Diego. Ze is gericht op het helpen van de halfgeleiderindustrie bij AWS. In haar vrije tijd leest ze graag over nieuwe technologieën en speelt ze graag bordspellen.

Balaji Puli is een Solutions Architect gevestigd in Bay Area, CA. Helpt momenteel geselecteerde klanten in de gezondheidszorg in het noordwesten van de VS om hun AWS-cloudadoptie te versnellen. Balaji houdt van reizen en houdt ervan om verschillende keukens te ontdekken.

Tijdstempel: 26 Augustus 202226 Augustus 2022

Meer van AWS-machine learning

Gebruik aangepaste woordenschat in Amazon Lex om spraakherkenning te verbeteren

Broncluster:

AWS-machine learning

Bronknooppunt: 1294623

Tijdstempel: 5 mei 2022

Creëer synthetische gegevens voor computer vision-pijplijnen op AWS PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Maak synthetische gegevens voor computervisie-pipelines op AWS

AWS-machine learning

Bronknooppunt: 1848251

Tijdstempel: Juni 13, 2023

Verwerk hypotheekdocumenten met intelligente documentverwerking met Amazon Textract en Amazon Comprehend

Heruitgegeven door Plato

Overzicht oplossingen

Documentopslag

Document classificatie

Documentextractie

Gegevens extraheren uit Unified Residential Loan Application URLA-1003

Gegevens extraheren uit 1099 formulieren

Gegevens uit een hypotheeknota halen

Gegevens uit een Amerikaans paspoort halen

Documentverrijking

Gegevens beoordelen, valideren en integreren

Conclusie

Over de auteurs

Meer van AWS-machine learning

Maak synthetische gegevens voor computervisie-pipelines op AWS

Leren overdragen voor TensorFlow-tekstclassificatiemodellen in Amazon SageMaker

AWS Cloud-technologie voor bijna-realtime detectie van hartafwijkingen met behulp van gegevens van draagbare apparaten

Identificeer de locatie van afwijkingen met Amazon Lookout for Vision aan de rand zonder een GPU te gebruiken

Hoe United Airlines een kostenefficiënte actieve leerpijplijn voor optische karakterherkenning heeft opgebouwd | Amazon-webservices

Introductie van populariteitsafstemming voor vergelijkbare items in Amazon Personaliseer | Amazon-webservices

Veilig zoeken naar ongestructureerde gegevens op Windows-bestandssystemen met de Amazon Kendra-connector voor Amazon FSx voor Windows File Server

Detecteer fraude in mobiel georiënteerde bedrijven met behulp van GrabDefence-apparaatintelligentie en Amazon Fraud Detector

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account