Käsittele asuntolainaasiakirjoja älykkäällä asiakirjakäsittelyllä Amazon Textractin ja Amazon Comprehend PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.

Käsittele asuntolainaasiakirjoja älykkäällä asiakirjakäsittelyllä Amazon Textractin ja Amazon Comprehendin avulla

Laina- ja asuntolaina-alan organisaatiot käsittelevät tuhansia asiakirjoja päivittäin. Uudesta asuntolainahakemuksesta kiinnityslainan jälleenrahoitukseen nämä liiketoimintaprosessit sisältävät satoja asiakirjoja hakemusta kohden. Nykyään on saatavilla rajoitetusti automaatiota kaikkien asiakirjojen tietojen käsittelyyn ja poimimiseen, erityisesti erilaisten muotojen ja asettelujen vuoksi. Suuren sovellusmäärän vuoksi strategisten näkemysten kerääminen ja keskeisen tiedon saaminen sisällöstä on aikaa vievä, erittäin manuaalinen, virhealtis ja kallis prosessi. Vanhat optiset merkintunnistustyökalut (OCR) ovat kustannuksiltaan estäviä, virhealttiita, vaativat paljon konfigurointia ja niitä on vaikea skaalata. Älykäs dokumenttien käsittely (IDP) ja AWS- tekoäly (AI) auttavat automatisoimaan ja nopeuttamaan asuntolainahakemusten käsittelyä tavoitteena nopeammat ja laadukkaat päätökset ja samalla vähentää kokonaiskustannuksia.

Tässä viestissä näytämme, kuinka voit hyödyntää koneoppimisen (ML) ominaisuuksia Amazonin tekstija Amazonin käsitys käsitellä asiakirjoja uudessa asuntolainahakemuksessa ilman ML-taitoja. Tutkimme IDP:n eri vaiheita, kuten seuraavassa kuvassa näkyy, ja kuinka ne liittyvät asuntolainahakemusprosessin vaiheisiin, kuten hakemuksen jättämiseen, merkintään, vahvistamiseen ja sulkemiseen.

Vaikka jokainen asuntolainahakemus voi olla ainutlaatuinen, otimme huomioon joitain yleisimmistä asuntolainahakemukseen sisältyvistä asiakirjoista, kuten Unified Residential Loan Application (URLA-1003) -lomakkeen, 1099-lomakkeet ja asuntolainatodistuksen.

Ratkaisun yleiskatsaus

Amazon Textract on ML-palvelu, joka poimii automaattisesti tekstin, käsinkirjoituksen ja tiedot skannatuista asiakirjoista käyttämällä valmiiksi koulutettuja ML-malleja. Amazon Comprehend on luonnollisen kielen käsittelypalvelu (NLP), joka käyttää ML:ää löytääkseen arvokkaita oivalluksia ja yhteyksiä tekstistä ja voi suorittaa dokumenttien luokittelun, nimikokonaisuuksien tunnistuksen (NER), aiheen mallintamisen ja paljon muuta.

Seuraava kuva näyttää IDP:n vaiheet, koska se liittyy asuntolainahakemusprosessin vaiheisiin.

Kuvassa on korkeatasoinen ratkaisuarkkitehtuuri älykkään dokumenttien käsittelyn (IDP) vaiheille, koska se liittyy asuntolainahakemuksen vaiheisiin.

Prosessin alussa asiakirjat ladataan osoitteeseen Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpäri. Tämä käynnistää asiakirjojen luokitteluprosessin, jolla asiakirjat luokitellaan tunnettuihin luokkiin. Kun asiakirjat on luokiteltu, seuraava vaihe on poimia niistä tärkeimmät tiedot. Tämän jälkeen suoritamme valituille asiakirjoille rikastamista, jotka voivat olla esimerkiksi henkilökohtaisten tunnistetietojen (PII) muokkausta, dokumenttien merkitsemistä, metatietojen päivityksiä ja paljon muuta. Seuraava vaihe sisältää aikaisemmissa vaiheissa poimittujen tietojen validoinnin, jotta varmistetaan asuntolainahakemuksen täydellisyys. Validointi voidaan tehdä liiketoiminnan validointisääntöjen ja dokumenttien välisten validointisääntöjen avulla. Poimittujen tietojen luotettavuuspisteitä voidaan myös verrata asetettuun kynnykseen ja reitittää automaattisesti tarkastajalle Amazonin laajennettu AI (Amazon A2I), jos kynnys ei täyty. Prosessin viimeisessä vaiheessa poimitut ja validoidut tiedot lähetetään alavirran järjestelmiin lisätallennusta, käsittelyä tai tietojen analysointia varten.

Seuraavissa osioissa käsittelemme yksityiskohtaisesti IDP:n vaiheita, koska se liittyy asuntolainahakemuksen vaiheisiin. Käymme läpi IDP:n vaiheet ja keskustelemme asiakirjojen tyypeistä; kuinka tallennamme, luokittelemme ja poimimme tietoja ja miten rikastutamme asiakirjoja koneoppimisen avulla.

Asiakirjojen varastointi

Amazon S3 on objektien tallennuspalvelu, joka tarjoaa alan johtavan skaalautuvuuden, tiedon saatavuuden, turvallisuuden ja suorituskyvyn. Käytämme Amazon S3:a asuntolainaasiakirjojen turvalliseen säilyttämiseen asuntolainahakemusprosessin aikana ja sen jälkeen. A asuntolainahakemuspaketti voi sisältää useita lomakkeita ja asiakirjoja, kuten URLA-1003, 1099-INT/DIV/RR/MISC, W2, maksulomakkeet, tiliotteet, luottokorttiotteet ja paljon muuta. Hakija toimittaa nämä asiakirjat asuntolainahakemusvaiheessa. Ilman niiden manuaalista läpikäyntiä ei välttämättä ole heti selvää, mitkä asiakirjat sisältyvät pakettiin. Tämä manuaalinen prosessi voi olla aikaa vievä ja kallis. Seuraavassa vaiheessa automatisoimme tämän prosessin käyttämällä Amazon Comprehendia ja luokittelemme asiakirjat omiin luokkiinsa suurella tarkkuudella.

Asiakirjojen luokittelu

Asiakirjojen luokittelu on menetelmä, jonka avulla suuri määrä tunnistamattomia asiakirjoja voidaan luokitella ja merkitä. Suoritamme tämän asiakirjaluokittelun käyttämällä Amazon Comprehendia mukautettu luokitin. Mukautettu luokitin on ML-malli, jota voidaan kouluttaa joukolla merkittyjä asiakirjoja tunnistamaan sinua kiinnostavat luokat. Kun malli on koulutettu ja otettu käyttöön isännöidyn päätepisteen takana, voimme käyttää luokittelua määrittääksemme luokan (tai luokan), johon tietty asiakirja kuuluu. Tässä tapauksessa koulutamme mukautetun luokittelijan moniluokkainen tila, joka voidaan tehdä joko CSV-tiedostolla tai laajennetulla luettelotiedostolla. Tätä esittelyä varten käytämme CSV-tiedostoa luokittelijan kouluttamiseen. Katso meidän GitHub-arkisto koko koodinäytteelle. Seuraavassa on korkeatasoinen yleiskatsaus asiaan liittyvistä vaiheista:

  1. Pura UTF-8-koodattu pelkkä teksti kuva- tai PDF-tiedostoista Amazon Textractin avulla DetectDocumentText API.
  2. Valmistele harjoitustiedot, jotta voit harjoitella mukautettua luokittelijaa CSV-muodossa.
  3. Kouluta mukautettu luokitin CSV-tiedoston avulla.
  4. Ota koulutettu malli käyttöön päätepisteellä reaaliaikaista asiakirjojen luokittelua varten tai käytä moniluokkatilaa, joka tukee sekä reaaliaikaista että asynkronista toimintaa.

Seuraava kaavio havainnollistaa tätä prosessia.

Kuvassa Amazon Comprehendin mukautetun luokittelijan koulutusprosessi ja asiakirjojen luokittelu käyttämällä koulutettua ja käyttöön otettua luokitinmallia (reaaliaikainen tai erä).

Voit automatisoida asiakirjojen luokituksen käyttöönotetun päätepisteen avulla asiakirjojen tunnistamiseen ja luokitteluun. Tämä automaatio on hyödyllinen sen tarkistamiseksi, ovatko kaikki tarvittavat asiakirjat asuntolainapaketissa. Puuttuva asiakirja voidaan tunnistaa nopeasti ilman manuaalista puuttumista ja ilmoittaa hakijalle paljon aikaisemmin.

Asiakirjan purku

Tässä vaiheessa poimimme tiedot asiakirjasta Amazon Textractin ja Amazon Comprehendin avulla. Käytämme Amazon Textractia strukturoiduissa ja puolirakenteisissa dokumenteissa, jotka sisältävät lomakkeita ja taulukoita Analysoi asiakirja API. Amazon Textract tarjoaa erikoistuneita asiakirjoja, kuten henkilöllisyystodistuksia, varten AnalysoiID API. Jotkin asiakirjat voivat sisältää myös tiheää tekstiä, ja saatat joutua poimimaan niistä yrityskohtaisia ​​avainsanoja, jotka tunnetaan myös nimellä yksiköt. Käytämme mukautetun kokonaisuuden tunnistus Amazon Comprehendin kyky kouluttaa mukautettu entiteetin tunnistin, joka voi tunnistaa tällaiset entiteetit tiheästä tekstistä.

Seuraavissa osioissa käymme läpi asuntolainahakemuspaketissa olevat esimerkkiasiakirjat ja keskustelemme menetelmistä, joilla niistä kerätään tietoja. Jokaiselle näistä esimerkeistä on mukana koodinpätkä ja lyhyt näytetuloste.

Poimi tiedot yhdistetystä asuntolainahakemuksesta URLA-1003

Unified Residential Loan Application (URLA-1003) on alan standardi asuntolainahakemuslomake. Se on melko monimutkainen asiakirja, joka sisältää tietoja asuntolainan hakijasta, ostettavan omaisuuden tyypistä, rahoitettavasta määrästä ja muita yksityiskohtia kiinteistön oston luonteesta. Seuraava on esimerkki URLA-1003, ja aiomme poimia tietoja tästä jäsennellystä asiakirjasta. Koska tämä on lomake, käytämme AnalyzeDocument APIa ominaisuuden tyypin kanssa LOMAKE.

Kuvassa on esimerkki yhtenäisestä asuntolainahakemuksesta URLA-1003

FORM-ominaisuustyyppi poimii asiakirjasta lomaketiedot, jotka sitten palautetaan avain-arvo-parimuodossa. Seuraava koodinpätkä käyttää amazon-textract-textractor Python-kirjasto lomaketietojen poimimiseen vain muutamalla koodirivillä. Mukavuusmenetelmä call_textract() kutsuu AnalyzeDocument API sisäisesti, ja menetelmälle välitetyt parametrit tiivistävät joitakin määrityksiä, joita API tarvitsee poimintatehtävän suorittamiseen. Document on kätevä menetelmä, jota käytetään auttamaan JSON-vastauksen jäsentämisessä API:sta. Se tarjoaa korkean tason abstraktion ja tekee API-tulosta iteroitavan ja helpon saada tietoa. Lisätietoja on kohdassa Textract Response Parser ja Textractor.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

Huomaa, että tulos sisältää arvot lomakkeessa oleville valintaruuduille tai valintanapeille. Esimerkiksi URLA-1003-esimerkkiasiakirjassa Ostaa vaihtoehto valittiin. Vastaava lähtö radiopainikkeelle puretaan muodossa "Purchase" (avain) ja "SELECTED” (arvo), mikä osoittaa, että valintanappi on valittu.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

Poimi tiedot 1099 lomakkeesta

Asuntolainahakemuspaketti voi sisältää myös useita IRS-asiakirjoja, kuten 1099-DIV, 1099-INT, 1099-MISC ja 1099-R. Nämä asiakirjat osoittavat hakijan tulot korkojen, osinkojen ja muiden sekalaisten tulokomponenttien kautta, jotka ovat hyödyllisiä merkintäsitoumuksen aikana päätöksenteossa. Seuraava kuva näyttää kokoelman näitä asiakirjoja, jotka ovat rakenteeltaan samanlaisia. Joissakin tapauksissa asiakirjat sisältävät kuitenkin lomaketietoja (merkitty punaisilla ja vihreillä rajauslaatikoilla) sekä taulukkotietoja (merkitty keltaisilla rajauslaatikoilla).

Kuvassa on näytteitä 1099 INT-, DIV-, MISC- ja R-lomakkeesta.

Lomaketietojen poimimiseksi käytämme samanlaista koodia kuin aiemmin selitettiin AnalyzeDocument API. Välitämme lisäominaisuuden TAULUKKO API:lle ilmoittamaan, että tarvitsemme asiakirjasta poimittuja lomake- ja taulukkotietoja. Seuraava koodinpätkä käyttää AnalyzeDocument API FORMS- ja TABLES-ominaisuuksilla 1099-INT-asiakirjassa:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

Koska asiakirja sisältää yhden taulukon, koodin tulos on seuraava:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

Taulukon tiedot sisältävät solun sijainnin (rivi 0, sarake 0 ja niin edelleen) ja vastaavan tekstin kussakin solussa. Käytämme mukavuusmenetelmää, joka voi muuntaa tämän taulukon tiedot helposti luettavaksi ruudukkonäkymäksi:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

Saamme seuraavan tuloksen:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

Jos haluat saada tulosteen helposti käytettävässä CSV-muodossa, valitse muototyyppi Pretty_Print_Table_Format.csv voidaan siirtää sisään table_format parametri. Myös muita muotoja, kuten TSV (sarkaimella erotetut arvot), HTML ja lateksi, tuetaan. Lisätietoja on kohdassa Textract-PrettyPrinter.

Poimi tiedot asuntolainatodistuksesta

Asuntolainahakemuspaketti voi sisältää jäsentämättömiä asiakirjoja, joissa on tiheää tekstiä. Esimerkkejä tiheistä tekstiasiakirjoista ovat sopimukset ja sopimukset. Kiinnitystodistus on asuntolainan hakijan ja lainanantajan tai asuntolainayhtiön välinen sopimus, joka sisältää tiedot tiiviissä tekstikappaleissa. Tällaisissa tapauksissa rakenteen puute vaikeuttaa asuntolainahakemusprosessissa tärkeiden yritystietojen löytämistä. Tämän ongelman ratkaisemiseksi on kaksi lähestymistapaa:

Seuraavassa esimerkkiasuntolainailmoituksessa olemme erityisesti kiinnostuneita saamaan selville kuukausimaksun ja pääoman määrän.

Kuvassa on esimerkki asuntolainatodistusasiakirjasta.

Ensimmäisessä lähestymistavassa käytämme Query ja QueriesConfig mukavuusmenetelmiä Amazon Textractille välitettävien kysymysten määrittämiseen AnalyzeDocument API-kutsu. Jos asiakirja on monisivuinen (PDF tai TIFF), voimme myös määrittää sivunumerot, joista Amazon Textractin tulee etsiä vastauksia kysymykseen. Seuraava koodinpätkä näyttää, kuinka luodaan kyselymääritys, tehdään API-kutsu ja jäsennetään vastaus saadaksesi vastaukset vastaukset:

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

Saamme seuraavan tuloksen:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

Toisessa lähestymistavassa käytämme Amazon Comprehendia DetectEntities API asuntolainamerkinnällä, joka palauttaa entiteetit, jotka se havaitsee tekstistä a ennalta määritetty joukko kokonaisuuksia. Nämä ovat kokonaisuuksia, joihin Amazon Comprehend -kokonaisuuden tunnistus on koulutettu. Koska vaatimuksemme on kuitenkin havaita tietyt entiteetit, Amazon Comprehend mukautetun entiteetin tunnistaja saa koulutuksen joukolla kiinnelainatodistusasiakirjoja ja luetteloa kokonaisuuksista. Määrittelemme entiteettien nimet seuraavasti PRINCIPAL_AMOUNT ja MONTHLY_AMOUNT. Harjoitustiedot valmistetaan Amazon Comprehend -koulutuksen jälkeen tietojen valmistelun ohjeita mukautetun kokonaisuuden tunnistamista varten. Entiteettitunnistimen kanssa voidaan kouluttaa asiakirjan huomautukset tai kokonaisuusluettelot. Tässä esimerkissä käytämme entiteettiluetteloita mallin kouluttamiseen. Kun olemme kouluttaneet mallin, voimme ottaa sen käyttöön a reaaliaikainen päätepiste tai panoskasvatuksena havaita kaksi entiteettiä asiakirjan sisällöstä. Mukautetun entiteetin tunnistimen kouluttamiseen ja käyttöönottoon liittyvät vaiheet ovat seuraavat. Katso täydellinen koodin esittely GitHub-arkistosta.

  1. Valmistele harjoitustiedot (kokonaisuuksien luettelo ja asiakirjat (UTF-8-koodattu) pelkkätekstimuotoon).
  2. Aloita entiteetin tunnistuskoulutus käyttämällä Luo EntityRecognizer API käyttää harjoitustietoja.
  3. Ota koulutettu malli käyttöön reaaliaikaisella päätepisteellä käyttämällä Luo päätepiste API.

Poimi tiedot Yhdysvaltain passista

Amazonin teksti analysoida henkilöllisyystodistuksia ominaisuus voi havaita ja poimia tietoja yhdysvaltalaisista henkilöllisyysasiakirjoista, kuten ajokortista ja passista. The AnalyzeID API pystyy havaitsemaan ja tulkitsemaan implisiittisiä kenttiä henkilöllisyystodistusasiakirjoissa, minkä ansiosta asiakirjasta on helppo poimia tiettyjä tietoja. Henkilöasiakirjat ovat lähes aina osa asuntolainahakemuspakettia, koska niitä käytetään varmistamaan lainanottajan henkilöllisyys vakuutusprosessin aikana ja vahvistamaan lainanottajan henkilötietojen oikeellisuus.

Kuvassa näyte Yhdysvaltain passista

Käytämme mukavuusmenetelmää nimeltä call_textract_analyzeid, joka kutsuu AnalyzeID API sisäisesti. Toistamme sitten vastausta saadaksemme tunnistetut avainarvo-parit henkilöllisyystodistuksesta. Katso seuraava koodi:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID palauttaa tiedon rakenteessa nimeltä IdentityDocumentFields, joka sisältää normalisoidut avaimet ja niitä vastaavat arvot. Esimerkiksi seuraavassa tulosteessa FIRST_NAME on normalisoitu avain ja arvo on ALEJANDRO. Esimerkkipassikuvassa etunimen kenttä on kuitenkin merkitty nimellä "Given Names / Prénoms / Nombre". AnalyzeID pystyi normalisoimaan sen avaimen nimeksi FIRST_NAME. Katso luettelo tuetuista normalisoiduista kentistä kohdasta Henkilöllisyysdokumentaatiovastausobjektit.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

Asuntolainapaketti voi sisältää useita muita asiakirjoja, kuten palkkalaskelman, W2-lomakkeen, tiliotteen, luottokortin tiliotteen ja työsuhteen vahvistuskirjeen. Meillä on näytteitä jokaisesta näistä asiakirjoista sekä koodit, joita tarvitaan tietojen poimimiseen niistä. Täydellinen koodikanta löytyy meidän muistikirjoista GitHub-arkisto.

Asiakirjojen rikastaminen

Yksi yleisimmistä asiakirjojen rikastamisen muodoista on arkaluonteisten tai luottamuksellisten tietojen poistaminen asiakirjoista, mikä saattaa olla pakollista tietosuojalakien tai -määräysten vuoksi. Esimerkiksi asuntolainan hakijan maksutaulukko voi sisältää arkaluontoisia henkilökohtaisia ​​tunnistetietoja, kuten nimen, osoitteen ja SSN:n, jotka saattavat vaatia muokkausta pidennetyn säilytyksen vuoksi.

Edellisessä esimerkkimaksulomakkeessa poistamme henkilökohtaisia ​​tunnistetietoja, kuten SSN, nimen, pankkitilin numeron ja päivämäärät. Käytämme Amazon Comprehendia tunnistaaksemme PII-tiedot asiakirjassa PII-tunnistus kyky kautta DetectPIIEtities API. Tämä API tarkastaa asiakirjan sisällön tunnistaakseen henkilökohtaisten tunnistetietojen olemassaolon. Koska tämä API vaatii syötteen UTF-8-koodatussa pelkkää tekstimuodossa, poimimme ensin tekstin asiakirjasta Amazon Textractin avulla. DetectDocumentText API, joka palauttaa tekstin asiakirjasta ja palauttaa myös geometriatiedot, kuten rajauslaatikon mitat ja koordinaatit. Molempien tulosteiden yhdistelmää käytetään sitten muokkaamaan asiakirjaa osana rikastusprosessia.

Tarkista, vahvista ja integroi tiedot

Asiakirjan poimintavaiheesta poimitut tiedot saattavat edellyttää vahvistusta tiettyjen liiketoimintasääntöjen mukaisesti. Tietyt tiedot voidaan myös vahvistaa useissa asiakirjoissa, jotka tunnetaan myös nimellä cross-doc validointi. Esimerkki cross-doc validoinnista voisi olla henkilötodistuksessa olevan hakijan nimen vertaaminen asuntolainahakemusasiakirjassa olevaan nimeen. Tässä vaiheessa voit tehdä myös muita validointeja, kuten kiinteistön arvoarvioita ja ehdollisia merkintäpäätöksiä.

Kolmas validointityyppi liittyy poimittujen tietojen luottamuspisteisiin asiakirjan poimintavaiheessa. Amazon Textract ja Amazon Comprehend palauttavat havaittujen lomakkeiden, taulukoiden, tekstitiedon ja entiteettien luotettavuuspisteet. Voit määrittää luottamuspistekynnyksen varmistaaksesi, että vain oikeat arvot lähetetään alavirtaan. Tämä saavutetaan Amazon A2I:n avulla, joka vertaa havaittujen tietojen luottamuspisteitä ennalta määritettyyn luottamuskynnykseen. Jos kynnysarvoa ei saavuteta, asiakirja ja purettu tulos reititetään ihmiselle tarkastettavaksi intuitiivisen käyttöliittymän kautta. Tarkastaja ryhtyy korjaaviin toimenpiteisiin tietojen suhteen ja tallentaa ne jatkokäsittelyä varten. Lisätietoja on kohdassa Amazon A2I:n ydinkonseptit.

Yhteenveto

Tässä viestissä keskustelimme älykkään asiakirjojen käsittelyn vaiheista, koska se liittyy asuntolainahakemuksen vaiheisiin. Tarkastelimme muutamia yleisiä esimerkkejä asiakirjoista, jotka löytyvät asuntolainahakemuspaketista. Keskustelimme myös tavoista poimia ja käsitellä strukturoitua, puolistrukturoitua ja jäsentämätöntä sisältöä näistä asiakirjoista. IDP tarjoaa tavan automatisoida asuntolainaasiakirjojen kokonaisvaltaista käsittelyä, joka voidaan skaalata miljooniin asiakirjoihin, mikä parantaa hakemuspäätösten laatua, vähentää kustannuksia ja palvelee asiakkaita nopeammin.

Seuraavana askeleena voit kokeilla koodinäytteitä ja muistikirjoja sivustollamme GitHub-arkisto. Lisätietoja siitä, kuinka IDP voi auttaa asiakirjojen käsittelyssä, on osoitteessa Automatisoi tietojen käsittely asiakirjoista.


Tietoja kirjoittajista

Käsittele asuntolainaasiakirjoja älykkäällä asiakirjakäsittelyllä Amazon Textractin ja Amazon Comprehend PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Anjan Biswas on vanhempi AI-palveluratkaisuarkkitehti, joka keskittyy tekoälyyn/ML:ään ja data-analyysiin. Anjan on osa maailmanlaajuista tekoälypalvelutiimiä ja työskentelee asiakkaiden kanssa auttaakseen heitä ymmärtämään tekoälyn ja ML:n liiketoimintaongelmia ja kehittämään niihin ratkaisuja. Anjanilla on yli 14 vuoden kokemus työskentelystä maailmanlaajuisten toimitusketju-, valmistus- ja vähittäismyyntiorganisaatioiden kanssa, ja hän auttaa aktiivisesti asiakkaita pääsemään alkuun ja skaalaamaan AWS AI -palveluita.

Käsittele asuntolainaasiakirjoja älykkäällä asiakirjakäsittelyllä Amazon Textractin ja Amazon Comprehend PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Dwiti Pathak on vanhempi tekninen asiakaspäällikkö San Diegosta. Hän on keskittynyt auttamaan Semiconductor-teollisuutta AWS:ssä. Vapaa-ajallaan hän lukee mielellään uusista teknologioista ja pelaa lautapelejä.

Käsittele asuntolainaasiakirjoja älykkäällä asiakirjakäsittelyllä Amazon Textractin ja Amazon Comprehend PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai.Balaji Puli on ratkaisuarkkitehti, jonka kotipaikka on Bay Area, CA. Autamme tällä hetkellä valittuja Luoteis-Yhdysvaltojen terveydenhuollon biotieteiden asiakkaita nopeuttamaan AWS-pilvikäyttöä. Balaji nauttii matkustamisesta ja rakastaa tutkia erilaisia ​​ruokia.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen