Laina- ja asuntolaina-alan organisaatiot käsittelevät tuhansia asiakirjoja päivittäin. Uudesta asuntolainahakemuksesta kiinnityslainan jälleenrahoitukseen nämä liiketoimintaprosessit sisältävät satoja asiakirjoja hakemusta kohden. Nykyään on saatavilla rajoitetusti automaatiota kaikkien asiakirjojen tietojen käsittelyyn ja poimimiseen, erityisesti erilaisten muotojen ja asettelujen vuoksi. Suuren sovellusmäärän vuoksi strategisten näkemysten kerääminen ja keskeisen tiedon saaminen sisällöstä on aikaa vievä, erittäin manuaalinen, virhealtis ja kallis prosessi. Vanhat optiset merkintunnistustyökalut (OCR) ovat kustannuksiltaan estäviä, virhealttiita, vaativat paljon konfigurointia ja niitä on vaikea skaalata. Älykäs dokumenttien käsittely (IDP) ja AWS- tekoäly (AI) auttavat automatisoimaan ja nopeuttamaan asuntolainahakemusten käsittelyä tavoitteena nopeammat ja laadukkaat päätökset ja samalla vähentää kokonaiskustannuksia.
Tässä viestissä näytämme, kuinka voit hyödyntää koneoppimisen (ML) ominaisuuksia Amazonin tekstija Amazonin käsitys käsitellä asiakirjoja uudessa asuntolainahakemuksessa ilman ML-taitoja. Tutkimme IDP:n eri vaiheita, kuten seuraavassa kuvassa näkyy, ja kuinka ne liittyvät asuntolainahakemusprosessin vaiheisiin, kuten hakemuksen jättämiseen, merkintään, vahvistamiseen ja sulkemiseen.
Vaikka jokainen asuntolainahakemus voi olla ainutlaatuinen, otimme huomioon joitain yleisimmistä asuntolainahakemukseen sisältyvistä asiakirjoista, kuten Unified Residential Loan Application (URLA-1003) -lomakkeen, 1099-lomakkeet ja asuntolainatodistuksen.
Ratkaisun yleiskatsaus
Amazon Textract on ML-palvelu, joka poimii automaattisesti tekstin, käsinkirjoituksen ja tiedot skannatuista asiakirjoista käyttämällä valmiiksi koulutettuja ML-malleja. Amazon Comprehend on luonnollisen kielen käsittelypalvelu (NLP), joka käyttää ML:ää löytääkseen arvokkaita oivalluksia ja yhteyksiä tekstistä ja voi suorittaa dokumenttien luokittelun, nimikokonaisuuksien tunnistuksen (NER), aiheen mallintamisen ja paljon muuta.
Seuraava kuva näyttää IDP:n vaiheet, koska se liittyy asuntolainahakemusprosessin vaiheisiin.
Prosessin alussa asiakirjat ladataan osoitteeseen Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpäri. Tämä käynnistää asiakirjojen luokitteluprosessin, jolla asiakirjat luokitellaan tunnettuihin luokkiin. Kun asiakirjat on luokiteltu, seuraava vaihe on poimia niistä tärkeimmät tiedot. Tämän jälkeen suoritamme valituille asiakirjoille rikastamista, jotka voivat olla esimerkiksi henkilökohtaisten tunnistetietojen (PII) muokkausta, dokumenttien merkitsemistä, metatietojen päivityksiä ja paljon muuta. Seuraava vaihe sisältää aikaisemmissa vaiheissa poimittujen tietojen validoinnin, jotta varmistetaan asuntolainahakemuksen täydellisyys. Validointi voidaan tehdä liiketoiminnan validointisääntöjen ja dokumenttien välisten validointisääntöjen avulla. Poimittujen tietojen luotettavuuspisteitä voidaan myös verrata asetettuun kynnykseen ja reitittää automaattisesti tarkastajalle Amazonin laajennettu AI (Amazon A2I), jos kynnys ei täyty. Prosessin viimeisessä vaiheessa poimitut ja validoidut tiedot lähetetään alavirran järjestelmiin lisätallennusta, käsittelyä tai tietojen analysointia varten.
Seuraavissa osioissa käsittelemme yksityiskohtaisesti IDP:n vaiheita, koska se liittyy asuntolainahakemuksen vaiheisiin. Käymme läpi IDP:n vaiheet ja keskustelemme asiakirjojen tyypeistä; kuinka tallennamme, luokittelemme ja poimimme tietoja ja miten rikastutamme asiakirjoja koneoppimisen avulla.
Asiakirjojen varastointi
Amazon S3 on objektien tallennuspalvelu, joka tarjoaa alan johtavan skaalautuvuuden, tiedon saatavuuden, turvallisuuden ja suorituskyvyn. Käytämme Amazon S3:a asuntolainaasiakirjojen turvalliseen säilyttämiseen asuntolainahakemusprosessin aikana ja sen jälkeen. A asuntolainahakemuspaketti voi sisältää useita lomakkeita ja asiakirjoja, kuten URLA-1003, 1099-INT/DIV/RR/MISC, W2, maksulomakkeet, tiliotteet, luottokorttiotteet ja paljon muuta. Hakija toimittaa nämä asiakirjat asuntolainahakemusvaiheessa. Ilman niiden manuaalista läpikäyntiä ei välttämättä ole heti selvää, mitkä asiakirjat sisältyvät pakettiin. Tämä manuaalinen prosessi voi olla aikaa vievä ja kallis. Seuraavassa vaiheessa automatisoimme tämän prosessin käyttämällä Amazon Comprehendia ja luokittelemme asiakirjat omiin luokkiinsa suurella tarkkuudella.
Asiakirjojen luokittelu
Asiakirjojen luokittelu on menetelmä, jonka avulla suuri määrä tunnistamattomia asiakirjoja voidaan luokitella ja merkitä. Suoritamme tämän asiakirjaluokittelun käyttämällä Amazon Comprehendia mukautettu luokitin. Mukautettu luokitin on ML-malli, jota voidaan kouluttaa joukolla merkittyjä asiakirjoja tunnistamaan sinua kiinnostavat luokat. Kun malli on koulutettu ja otettu käyttöön isännöidyn päätepisteen takana, voimme käyttää luokittelua määrittääksemme luokan (tai luokan), johon tietty asiakirja kuuluu. Tässä tapauksessa koulutamme mukautetun luokittelijan moniluokkainen tila, joka voidaan tehdä joko CSV-tiedostolla tai laajennetulla luettelotiedostolla. Tätä esittelyä varten käytämme CSV-tiedostoa luokittelijan kouluttamiseen. Katso meidän GitHub-arkisto koko koodinäytteelle. Seuraavassa on korkeatasoinen yleiskatsaus asiaan liittyvistä vaiheista:
- Pura UTF-8-koodattu pelkkä teksti kuva- tai PDF-tiedostoista Amazon Textractin avulla DetectDocumentText API.
- Valmistele harjoitustiedot, jotta voit harjoitella mukautettua luokittelijaa CSV-muodossa.
- Kouluta mukautettu luokitin CSV-tiedoston avulla.
- Ota koulutettu malli käyttöön päätepisteellä reaaliaikaista asiakirjojen luokittelua varten tai käytä moniluokkatilaa, joka tukee sekä reaaliaikaista että asynkronista toimintaa.
Seuraava kaavio havainnollistaa tätä prosessia.
Voit automatisoida asiakirjojen luokituksen käyttöönotetun päätepisteen avulla asiakirjojen tunnistamiseen ja luokitteluun. Tämä automaatio on hyödyllinen sen tarkistamiseksi, ovatko kaikki tarvittavat asiakirjat asuntolainapaketissa. Puuttuva asiakirja voidaan tunnistaa nopeasti ilman manuaalista puuttumista ja ilmoittaa hakijalle paljon aikaisemmin.
Asiakirjan purku
Tässä vaiheessa poimimme tiedot asiakirjasta Amazon Textractin ja Amazon Comprehendin avulla. Käytämme Amazon Textractia strukturoiduissa ja puolirakenteisissa dokumenteissa, jotka sisältävät lomakkeita ja taulukoita Analysoi asiakirja API. Amazon Textract tarjoaa erikoistuneita asiakirjoja, kuten henkilöllisyystodistuksia, varten AnalysoiID API. Jotkin asiakirjat voivat sisältää myös tiheää tekstiä, ja saatat joutua poimimaan niistä yrityskohtaisia avainsanoja, jotka tunnetaan myös nimellä yksiköt. Käytämme mukautetun kokonaisuuden tunnistus Amazon Comprehendin kyky kouluttaa mukautettu entiteetin tunnistin, joka voi tunnistaa tällaiset entiteetit tiheästä tekstistä.
Seuraavissa osioissa käymme läpi asuntolainahakemuspaketissa olevat esimerkkiasiakirjat ja keskustelemme menetelmistä, joilla niistä kerätään tietoja. Jokaiselle näistä esimerkeistä on mukana koodinpätkä ja lyhyt näytetuloste.
Poimi tiedot yhdistetystä asuntolainahakemuksesta URLA-1003
Unified Residential Loan Application (URLA-1003) on alan standardi asuntolainahakemuslomake. Se on melko monimutkainen asiakirja, joka sisältää tietoja asuntolainan hakijasta, ostettavan omaisuuden tyypistä, rahoitettavasta määrästä ja muita yksityiskohtia kiinteistön oston luonteesta. Seuraava on esimerkki URLA-1003, ja aiomme poimia tietoja tästä jäsennellystä asiakirjasta. Koska tämä on lomake, käytämme AnalyzeDocument APIa ominaisuuden tyypin kanssa LOMAKE.
FORM-ominaisuustyyppi poimii asiakirjasta lomaketiedot, jotka sitten palautetaan avain-arvo-parimuodossa. Seuraava koodinpätkä käyttää amazon-textract-textractor
Python-kirjasto lomaketietojen poimimiseen vain muutamalla koodirivillä. Mukavuusmenetelmä call_textract()
kutsuu AnalyzeDocument
API sisäisesti, ja menetelmälle välitetyt parametrit tiivistävät joitakin määrityksiä, joita API tarvitsee poimintatehtävän suorittamiseen. Document
on kätevä menetelmä, jota käytetään auttamaan JSON-vastauksen jäsentämisessä API:sta. Se tarjoaa korkean tason abstraktion ja tekee API-tulosta iteroitavan ja helpon saada tietoa. Lisätietoja on kohdassa Textract Response Parser ja Textractor.
Huomaa, että tulos sisältää arvot lomakkeessa oleville valintaruuduille tai valintanapeille. Esimerkiksi URLA-1003-esimerkkiasiakirjassa Ostaa vaihtoehto valittiin. Vastaava lähtö radiopainikkeelle puretaan muodossa "Purchase
" (avain) ja "SELECTED
” (arvo), mikä osoittaa, että valintanappi on valittu.
Poimi tiedot 1099 lomakkeesta
Asuntolainahakemuspaketti voi sisältää myös useita IRS-asiakirjoja, kuten 1099-DIV, 1099-INT, 1099-MISC ja 1099-R. Nämä asiakirjat osoittavat hakijan tulot korkojen, osinkojen ja muiden sekalaisten tulokomponenttien kautta, jotka ovat hyödyllisiä merkintäsitoumuksen aikana päätöksenteossa. Seuraava kuva näyttää kokoelman näitä asiakirjoja, jotka ovat rakenteeltaan samanlaisia. Joissakin tapauksissa asiakirjat sisältävät kuitenkin lomaketietoja (merkitty punaisilla ja vihreillä rajauslaatikoilla) sekä taulukkotietoja (merkitty keltaisilla rajauslaatikoilla).
Lomaketietojen poimimiseksi käytämme samanlaista koodia kuin aiemmin selitettiin AnalyzeDocument
API. Välitämme lisäominaisuuden TAULUKKO API:lle ilmoittamaan, että tarvitsemme asiakirjasta poimittuja lomake- ja taulukkotietoja. Seuraava koodinpätkä käyttää AnalyzeDocument
API FORMS- ja TABLES-ominaisuuksilla 1099-INT-asiakirjassa:
Koska asiakirja sisältää yhden taulukon, koodin tulos on seuraava:
Taulukon tiedot sisältävät solun sijainnin (rivi 0, sarake 0 ja niin edelleen) ja vastaavan tekstin kussakin solussa. Käytämme mukavuusmenetelmää, joka voi muuntaa tämän taulukon tiedot helposti luettavaksi ruudukkonäkymäksi:
Saamme seuraavan tuloksen:
Jos haluat saada tulosteen helposti käytettävässä CSV-muodossa, valitse muototyyppi Pretty_Print_Table_Format.csv
voidaan siirtää sisään table_format
parametri. Myös muita muotoja, kuten TSV (sarkaimella erotetut arvot), HTML ja lateksi, tuetaan. Lisätietoja on kohdassa Textract-PrettyPrinter.
Poimi tiedot asuntolainatodistuksesta
Asuntolainahakemuspaketti voi sisältää jäsentämättömiä asiakirjoja, joissa on tiheää tekstiä. Esimerkkejä tiheistä tekstiasiakirjoista ovat sopimukset ja sopimukset. Kiinnitystodistus on asuntolainan hakijan ja lainanantajan tai asuntolainayhtiön välinen sopimus, joka sisältää tiedot tiiviissä tekstikappaleissa. Tällaisissa tapauksissa rakenteen puute vaikeuttaa asuntolainahakemusprosessissa tärkeiden yritystietojen löytämistä. Tämän ongelman ratkaisemiseksi on kaksi lähestymistapaa:
Seuraavassa esimerkkiasuntolainailmoituksessa olemme erityisesti kiinnostuneita saamaan selville kuukausimaksun ja pääoman määrän.
Ensimmäisessä lähestymistavassa käytämme Query
ja QueriesConfig
mukavuusmenetelmiä Amazon Textractille välitettävien kysymysten määrittämiseen AnalyzeDocument
API-kutsu. Jos asiakirja on monisivuinen (PDF tai TIFF), voimme myös määrittää sivunumerot, joista Amazon Textractin tulee etsiä vastauksia kysymykseen. Seuraava koodinpätkä näyttää, kuinka luodaan kyselymääritys, tehdään API-kutsu ja jäsennetään vastaus saadaksesi vastaukset vastaukset:
Saamme seuraavan tuloksen:
Toisessa lähestymistavassa käytämme Amazon Comprehendia DetectEntities API asuntolainamerkinnällä, joka palauttaa entiteetit, jotka se havaitsee tekstistä a ennalta määritetty joukko kokonaisuuksia. Nämä ovat kokonaisuuksia, joihin Amazon Comprehend -kokonaisuuden tunnistus on koulutettu. Koska vaatimuksemme on kuitenkin havaita tietyt entiteetit, Amazon Comprehend mukautetun entiteetin tunnistaja saa koulutuksen joukolla kiinnelainatodistusasiakirjoja ja luetteloa kokonaisuuksista. Määrittelemme entiteettien nimet seuraavasti PRINCIPAL_AMOUNT
ja MONTHLY_AMOUNT
. Harjoitustiedot valmistetaan Amazon Comprehend -koulutuksen jälkeen tietojen valmistelun ohjeita mukautetun kokonaisuuden tunnistamista varten. Entiteettitunnistimen kanssa voidaan kouluttaa asiakirjan huomautukset tai kokonaisuusluettelot. Tässä esimerkissä käytämme entiteettiluetteloita mallin kouluttamiseen. Kun olemme kouluttaneet mallin, voimme ottaa sen käyttöön a reaaliaikainen päätepiste tai panoskasvatuksena havaita kaksi entiteettiä asiakirjan sisällöstä. Mukautetun entiteetin tunnistimen kouluttamiseen ja käyttöönottoon liittyvät vaiheet ovat seuraavat. Katso täydellinen koodin esittely GitHub-arkistosta.
- Valmistele harjoitustiedot (kokonaisuuksien luettelo ja asiakirjat (UTF-8-koodattu) pelkkätekstimuotoon).
- Aloita entiteetin tunnistuskoulutus käyttämällä Luo EntityRecognizer API käyttää harjoitustietoja.
- Ota koulutettu malli käyttöön reaaliaikaisella päätepisteellä käyttämällä Luo päätepiste API.
Poimi tiedot Yhdysvaltain passista
Amazonin teksti analysoida henkilöllisyystodistuksia ominaisuus voi havaita ja poimia tietoja yhdysvaltalaisista henkilöllisyysasiakirjoista, kuten ajokortista ja passista. The AnalyzeID
API pystyy havaitsemaan ja tulkitsemaan implisiittisiä kenttiä henkilöllisyystodistusasiakirjoissa, minkä ansiosta asiakirjasta on helppo poimia tiettyjä tietoja. Henkilöasiakirjat ovat lähes aina osa asuntolainahakemuspakettia, koska niitä käytetään varmistamaan lainanottajan henkilöllisyys vakuutusprosessin aikana ja vahvistamaan lainanottajan henkilötietojen oikeellisuus.
Käytämme mukavuusmenetelmää nimeltä call_textract_analyzeid
, joka kutsuu AnalyzeID
API sisäisesti. Toistamme sitten vastausta saadaksemme tunnistetut avainarvo-parit henkilöllisyystodistuksesta. Katso seuraava koodi:
AnalyzeID
palauttaa tiedon rakenteessa nimeltä IdentityDocumentFields
, joka sisältää normalisoidut avaimet ja niitä vastaavat arvot. Esimerkiksi seuraavassa tulosteessa FIRST_NAME
on normalisoitu avain ja arvo on ALEJANDRO
. Esimerkkipassikuvassa etunimen kenttä on kuitenkin merkitty nimellä "Given Names / Prénoms / Nombre". AnalyzeID
pystyi normalisoimaan sen avaimen nimeksi FIRST_NAME
. Katso luettelo tuetuista normalisoiduista kentistä kohdasta Henkilöllisyysdokumentaatiovastausobjektit.
Asuntolainapaketti voi sisältää useita muita asiakirjoja, kuten palkkalaskelman, W2-lomakkeen, tiliotteen, luottokortin tiliotteen ja työsuhteen vahvistuskirjeen. Meillä on näytteitä jokaisesta näistä asiakirjoista sekä koodit, joita tarvitaan tietojen poimimiseen niistä. Täydellinen koodikanta löytyy meidän muistikirjoista GitHub-arkisto.
Asiakirjojen rikastaminen
Yksi yleisimmistä asiakirjojen rikastamisen muodoista on arkaluonteisten tai luottamuksellisten tietojen poistaminen asiakirjoista, mikä saattaa olla pakollista tietosuojalakien tai -määräysten vuoksi. Esimerkiksi asuntolainan hakijan maksutaulukko voi sisältää arkaluontoisia henkilökohtaisia tunnistetietoja, kuten nimen, osoitteen ja SSN:n, jotka saattavat vaatia muokkausta pidennetyn säilytyksen vuoksi.
Edellisessä esimerkkimaksulomakkeessa poistamme henkilökohtaisia tunnistetietoja, kuten SSN, nimen, pankkitilin numeron ja päivämäärät. Käytämme Amazon Comprehendia tunnistaaksemme PII-tiedot asiakirjassa PII-tunnistus kyky kautta DetectPIIEtities API. Tämä API tarkastaa asiakirjan sisällön tunnistaakseen henkilökohtaisten tunnistetietojen olemassaolon. Koska tämä API vaatii syötteen UTF-8-koodatussa pelkkää tekstimuodossa, poimimme ensin tekstin asiakirjasta Amazon Textractin avulla. DetectDocumentText API, joka palauttaa tekstin asiakirjasta ja palauttaa myös geometriatiedot, kuten rajauslaatikon mitat ja koordinaatit. Molempien tulosteiden yhdistelmää käytetään sitten muokkaamaan asiakirjaa osana rikastusprosessia.
Tarkista, vahvista ja integroi tiedot
Asiakirjan poimintavaiheesta poimitut tiedot saattavat edellyttää vahvistusta tiettyjen liiketoimintasääntöjen mukaisesti. Tietyt tiedot voidaan myös vahvistaa useissa asiakirjoissa, jotka tunnetaan myös nimellä cross-doc validointi. Esimerkki cross-doc validoinnista voisi olla henkilötodistuksessa olevan hakijan nimen vertaaminen asuntolainahakemusasiakirjassa olevaan nimeen. Tässä vaiheessa voit tehdä myös muita validointeja, kuten kiinteistön arvoarvioita ja ehdollisia merkintäpäätöksiä.
Kolmas validointityyppi liittyy poimittujen tietojen luottamuspisteisiin asiakirjan poimintavaiheessa. Amazon Textract ja Amazon Comprehend palauttavat havaittujen lomakkeiden, taulukoiden, tekstitiedon ja entiteettien luotettavuuspisteet. Voit määrittää luottamuspistekynnyksen varmistaaksesi, että vain oikeat arvot lähetetään alavirtaan. Tämä saavutetaan Amazon A2I:n avulla, joka vertaa havaittujen tietojen luottamuspisteitä ennalta määritettyyn luottamuskynnykseen. Jos kynnysarvoa ei saavuteta, asiakirja ja purettu tulos reititetään ihmiselle tarkastettavaksi intuitiivisen käyttöliittymän kautta. Tarkastaja ryhtyy korjaaviin toimenpiteisiin tietojen suhteen ja tallentaa ne jatkokäsittelyä varten. Lisätietoja on kohdassa Amazon A2I:n ydinkonseptit.
Yhteenveto
Tässä viestissä keskustelimme älykkään asiakirjojen käsittelyn vaiheista, koska se liittyy asuntolainahakemuksen vaiheisiin. Tarkastelimme muutamia yleisiä esimerkkejä asiakirjoista, jotka löytyvät asuntolainahakemuspaketista. Keskustelimme myös tavoista poimia ja käsitellä strukturoitua, puolistrukturoitua ja jäsentämätöntä sisältöä näistä asiakirjoista. IDP tarjoaa tavan automatisoida asuntolainaasiakirjojen kokonaisvaltaista käsittelyä, joka voidaan skaalata miljooniin asiakirjoihin, mikä parantaa hakemuspäätösten laatua, vähentää kustannuksia ja palvelee asiakkaita nopeammin.
Seuraavana askeleena voit kokeilla koodinäytteitä ja muistikirjoja sivustollamme GitHub-arkisto. Lisätietoja siitä, kuinka IDP voi auttaa asiakirjojen käsittelyssä, on osoitteessa Automatisoi tietojen käsittely asiakirjoista.
Tietoja kirjoittajista
Anjan Biswas on vanhempi AI-palveluratkaisuarkkitehti, joka keskittyy tekoälyyn/ML:ään ja data-analyysiin. Anjan on osa maailmanlaajuista tekoälypalvelutiimiä ja työskentelee asiakkaiden kanssa auttaakseen heitä ymmärtämään tekoälyn ja ML:n liiketoimintaongelmia ja kehittämään niihin ratkaisuja. Anjanilla on yli 14 vuoden kokemus työskentelystä maailmanlaajuisten toimitusketju-, valmistus- ja vähittäismyyntiorganisaatioiden kanssa, ja hän auttaa aktiivisesti asiakkaita pääsemään alkuun ja skaalaamaan AWS AI -palveluita.
Dwiti Pathak on vanhempi tekninen asiakaspäällikkö San Diegosta. Hän on keskittynyt auttamaan Semiconductor-teollisuutta AWS:ssä. Vapaa-ajallaan hän lukee mielellään uusista teknologioista ja pelaa lautapelejä.
Balaji Puli on ratkaisuarkkitehti, jonka kotipaikka on Bay Area, CA. Autamme tällä hetkellä valittuja Luoteis-Yhdysvaltojen terveydenhuollon biotieteiden asiakkaita nopeuttamaan AWS-pilvikäyttöä. Balaji nauttii matkustamisesta ja rakastaa tutkia erilaisia ruokia.
- Lisäasetukset (300)
- AI
- ai taide
- ai taiteen generaattori
- ai robotti
- Amazonin käsitys
- Amazonin teksti
- tekoäly
- tekoälyn sertifiointi
- tekoäly pankkitoiminnassa
- tekoäly robotti
- tekoälyrobotit
- tekoälyohjelmisto
- AWS-koneoppiminen
- blockchain
- blockchain-konferenssi ai
- coingenius
- keskustelullinen tekoäly
- kryptokonferenssi ai
- dall's
- syvä oppiminen
- google ai
- koneoppiminen
- Platon
- plato ai
- Platonin tietotieto
- Platon peli
- PlatonData
- platopeliä
- mittakaava ai
- syntaksi
- zephyrnet