Laenu- ja hüpoteeklaenusektori organisatsioonid töötlevad iga päev tuhandeid dokumente. Alates uuest hüpoteegitaotlusest kuni hüpoteegi refinantseerimiseni hõlmavad need äriprotsessid sadu dokumente ühe taotluse kohta. Tänapäeval on kõigi dokumentide teabe töötlemiseks ja nendest teabe väljavõtmiseks saadaval piiratud automatiseerimine, eriti erinevate vormingute ja paigutuste tõttu. Rakenduste suure hulga tõttu on strateegiliste arusaamade kogumine ja sisust põhiteabe hankimine aeganõudev, väga käsitsi teostatav, veatundlik ja kulukas protsess. Pärand optilise märgituvastuse (OCR) tööriistad on kulutõhusad, veaohtlikud, nõuavad palju konfigureerimist ja neid on raske skaleerida. Arukas dokumenditöötlus (IDP) koos AWS-i tehisintellekti (AI) teenustega aitab automatiseerida ja kiirendada hüpoteeklaenutaotluste töötlemist, eesmärgiga teha kiiremaid ja kvaliteetseid otsuseid, vähendades samal ajal üldkulusid.
Selles postituses näitame, kuidas saate masinõppe (ML) võimalusi kasutada Amazoni tekstja Amazoni mõistmine töödelda dokumente uues hüpoteegitaotluses, ilma et oleks vaja ML-oskusi. Uurime IDP erinevaid faase, nagu on näidatud järgmisel joonisel, ja seda, kuidas need on seotud hüpoteeklaenu taotlemise protsessi etappidega, nagu taotluse esitamine, tagamine, kinnitamine ja sulgemine.
Kuigi iga hüpoteegitaotlus võib olla kordumatu, võtsime arvesse mõningaid kõige levinumaid hüpoteeklaenutaotluses sisalduvaid dokumente, näiteks ühtse eluasemelaenu taotluse (URLA-1003) vorm, 1099 vormi ja hüpoteeklaenu teatis.
Lahenduse ülevaade
Amazon Textract on ML-teenus, mis ekstraheerib skannitud dokumentidest automaatselt teksti, käsitsikirja ja andmed, kasutades selleks eelnevalt koolitatud ML-mudeleid. Amazon Comprehend on loomuliku keele töötlemise (NLP) teenus, mis kasutab ML-i tekstist väärtuslike arusaamade ja seoste avastamiseks ning suudab teostada dokumentide klassifitseerimist, nimeüksuste tuvastamist (NER), teemade modelleerimist ja palju muud.
Järgmisel joonisel on näidatud IDP etapid, mis on seotud hüpoteegi taotlemise protsessi etappidega.
Protsessi alguses laaditakse dokumendid üles Amazoni lihtne salvestusteenus (Amazon S3) kopp. See käivitab dokumentide klassifitseerimise protsessi, et liigitada dokumendid tuntud kategooriatesse. Pärast dokumentide kategoriseerimist on järgmine samm nendest võtmeteabe eraldamine. Seejärel teostame valitud dokumentide rikastamist, mis võib olla näiteks isikut tuvastava teabe (PII) redigeerimine, dokumentide märgistamine, metaandmete värskendamine ja palju muud. Järgmine samm hõlmab eelmistes etappides kogutud andmete kinnitamist, et tagada hüpoteegitaotluse täielikkus. Valideerimist saab teha ettevõtte valideerimise reeglite ja dokumentidevahelise valideerimise reeglite kaudu. Ekstraheeritud teabe usaldusskoore saab võrrelda ka määratud lävega ja suunata need automaatselt ülevaatajale. Amazoni laiendatud AI (Amazon A2I), kui lävi ei ole täidetud. Protsessi viimases etapis saadetakse ekstraheeritud ja kinnitatud andmed edasiseks salvestamiseks, töötlemiseks või andmete analüüsimiseks allavoolusüsteemidesse.
Järgmistes osades käsitleme üksikasjalikult IDP etappe, kuna see on seotud hüpoteegitaotluse etappidega. Käime läbi IDP faasid ja arutame dokumentide tüüpe; kuidas me teavet salvestame, klassifitseerime ja eraldame ning kuidas masinõppe abil dokumente rikastame.
Dokumendi säilitamine
Amazon S3 on objektide salvestusteenus, mis pakub valdkonna juhtivat mastaapsust, andmete kättesaadavust, turvalisust ja jõudlust. Kasutame Amazon S3 hüpoteegi dokumentide turvaliseks säilitamiseks hüpoteegi taotlemise protsessi ajal ja pärast seda. A hüpoteegi taotluse pakett võib sisaldada mitut tüüpi vorme ja dokumente, nagu URLA-1003, 1099-INT/DIV/RR/MISC, W2, makselehed, pangaväljavõtted, krediitkaardi väljavõtted ja palju muud. Need dokumendid esitab taotleja hüpoteegi taotlemise etapis. Ilma neid käsitsi läbi vaatamata ei pruugi olla kohe selge, millised dokumendid paketis sisalduvad. See käsitsi protsess võib olla aeganõudev ja kulukas. Järgmises etapis automatiseerime selle protsessi Amazon Comprehendi abil, et liigitada dokumendid suure täpsusega vastavatesse kategooriatesse.
Dokumendi klassifikatsioon
Dokumentide klassifitseerimine on meetod, mille abil saab kategoriseerida ja märgistada suurt hulka tuvastamata dokumente. Teostame selle dokumendi klassifikatsiooni Amazon Comprehendi abil kohandatud klassifikaator. Kohandatud klassifikaator on ML-mudel, mida saab koolitada märgistatud dokumentide komplektiga, et tuvastada teile huvipakkuvad klassid. Kui mudel on välja õpetatud ja hostitud lõpp-punkti taga juurutatud, saame kasutada klassifikaatorit, et määrata kategooria (või klass), kuhu konkreetne dokument kuulub. Sel juhul õpetame välja kohandatud klassifikaatori mitme klassi režiim, mida saab teha kas CSV-faili või täiendatud manifestifaili abil. Selle demonstratsiooni jaoks kasutame klassifikaatori koolitamiseks CSV-faili. Vaadake meie GitHubi hoidla täieliku koodinäidise jaoks. Järgnev on kõrgetasemeline ülevaade seotud sammudest.
- UTF-8-kodeeringuga lihttekst ekstraktimine pildi- või PDF-failidest Amazon Textracti abil Tuvasta DocumentText API.
- Valmistage ette treeningandmed, et treenida kohandatud klassifikaatorit CSV-vormingus.
- Treenige kohandatud klassifikaatorit CSV-faili abil.
- Rakendage koolitatud mudel lõpp-punktiga dokumentide reaalajas klassifitseerimiseks või kasutage mitme klassi režiimi, mis toetab nii reaalajas kui ka asünkroonseid toiminguid.
Järgmine diagramm illustreerib seda protsessi.
Saate automatiseerida dokumentide klassifitseerimist juurutatud lõpp-punkti abil dokumentide tuvastamiseks ja kategoriseerimiseks. See automatiseerimine on kasulik selleks, et kontrollida, kas hüpoteegipaketis on kõik nõutavad dokumendid olemas. Puuduva dokumendi saab kiiresti tuvastada ilma käsitsi sekkumiseta ja sellest taotlejat teavitada protsessi palju varem.
Dokumendi väljavõte
Selles etapis eraldame dokumendist andmed Amazon Textracti ja Amazon Comprehendi abil. Struktureeritud ja poolstruktureeritud dokumentide jaoks, mis sisaldavad vorme ja tabeleid, kasutame Amazon Textracti Analüüsidokument API. Spetsiaalsete dokumentide, näiteks isikut tõendavate dokumentide jaoks pakub Amazon Textract Analüüsi ID API. Mõned dokumendid võivad sisaldada ka tihedat teksti ja teil võib olla vaja neist välja võtta ettevõttepõhised võtmeterminid, mida tuntakse ka kui üksuste. Me kasutame kohandatud olemi tuvastamine Amazon Comprehendi võime koolitada kohandatud olemituvastajat, mis suudab sellised olemid tihedast tekstist tuvastada.
Järgmistes osades vaatame läbi hüpoteegitaotluse paketis sisalduvad näidisdokumendid ja arutame nendest teabe hankimiseks kasutatud meetodeid. Kõigi nende näidete jaoks on kaasas koodilõik ja lühike näidisväljund.
Andmete väljavõte ühtsest eluasemelaenu taotlusest URLA-1003
Ühtne eluasemelaenu taotlus (URLA-1003) on tööstusharu standardne hüpoteeklaenu taotlusvorm. See on üsna keeruline dokument, mis sisaldab teavet hüpoteegi taotleja, ostetava kinnisvara tüübi, rahastatava summa ja muid üksikasju kinnisvara ostmise olemuse kohta. Järgmine on näidis URLA-1003 ja meie eesmärk on hankida teavet sellest struktureeritud dokumendist. Kuna see on vorm, kasutame AnalyzeDocument API-t funktsioonitüübiga VORM.
Funktsiooni tüüp VORM eraldab dokumendist vormiteabe, mis seejärel tagastatakse võtme-väärtuste paari vormingus. Järgmine koodilõik kasutab amazon-textract-textractor
Pythoni teek vormiteabe eraldamiseks vaid mõne koodireaga. Mugavusmeetod call_textract()
kutsub AnalyzeDocument
API sisemiselt ja meetodile edastatud parameetrid võtavad kokku mõned konfiguratsioonid, mida API vajab ekstraheerimisülesande käitamiseks. Document
on mugavusmeetod, mida kasutatakse API JSON-vastuse sõelumiseks. See pakub kõrgetasemelist abstraktsiooni ja muudab API väljundi itereeritavaks ja teabe hõlpsaks hankimiseks. Lisateabe saamiseks vaadake Textract Response Parser ja Tekstraator.
Pange tähele, et väljund sisaldab vormil olemasolevate märkeruutude või raadionuppude väärtusi. Näiteks näidisdokumendis URLA-1003 on Ostma valik valiti. Raadionupu vastav väljund ekstraheeritakse kui "Purchase
” (võti) ja „SELECTED
” (väärtus), mis näitab, et raadionupp on valitud.
Andmete väljavõte 1099 vormist
Hüpoteegitaotluse pakett võib sisaldada ka mitmeid IRS-i dokumente, näiteks 1099-DIV, 1099-INT, 1099-MISC ja 1099-R. Need dokumendid näitavad taotleja tulusid intresside, dividendide ja muude mitmesuguste tulukomponentide kaudu, mis on otsuste tegemisel kasulikud. Järgmisel pildil on kujutatud nende dokumentide kogu, mis on ülesehituselt sarnased. Kuid mõnel juhul sisaldavad dokumendid vormiteavet (tähistatud punaste ja roheliste piirdekastidega) ja tabeliteavet (märgitud kollaste piirdekastidega).
Vormiteabe eraldamiseks kasutame sarnast koodi, mida selgitati varem koos AnalyzeDocument
API. Anname edasi lisafunktsiooni TABEL API-le, et näidata, et vajame dokumendist eraldatud vormi- ja tabeliandmeid. Järgmine koodilõik kasutab AnalyzeDocument
API funktsioonidega FORMS ja TABLES dokumendis 1099-INT:
Kuna dokument sisaldab ühte tabelit, on koodi väljund järgmine:
Tabeliteave sisaldab lahtri asukohta (rida 0, veerg 0 ja nii edasi) ja vastavat teksti igas lahtris. Kasutame mugavusmeetodit, mis muudab need tabeliandmed hõlpsasti loetavaks ruudustikuvaateks:
Saame järgmise väljundi:
Väljundi saamiseks hõlpsasti kasutatavas CSV-vormingus valige vormingu tüüp Pretty_Print_Table_Format.csv
saab edasi anda table_format
parameeter. Toetatud on ka muud vormingud, nagu TSV (tab eraldatud väärtused), HTML ja lateks. Lisateabe saamiseks vaadake Textract-PrettyPrinter.
Andmete väljavõte hüpoteeklaenukirjast
Hüpoteegitaotluse pakett võib sisaldada tiheda tekstiga struktureerimata dokumente. Tihedate tekstidokumentide näited on lepingud ja kokkulepped. Hüpoteeklaen on hüpoteeklaenu taotleja ja laenuandja või hüpoteegifirma vaheline leping, mis sisaldab teavet tiheda tekstiga lõikudes. Sellistel juhtudel muudab struktuuri puudumine raskeks hüpoteegi taotlemise protsessis olulise äriteabe leidmise. Selle probleemi lahendamiseks on kaks lähenemisviisi:
Järgmises hüpoteeklaenu näidises oleme konkreetselt huvitatud igakuise makse summa ja põhisumma väljaselgitamisest.
Esimese lähenemisviisi jaoks kasutame Query
ja QueriesConfig
mugavusmeetodid küsimuste komplekti konfigureerimiseks, mis edastatakse Amazon Textractile AnalyzeDocument
API kõne. Juhul, kui dokument on mitmeleheküljeline (PDF või TIFF), saame määrata ka leheküljenumbrid, kust Amazon Textract peaks küsimusele vastuseid otsima. Järgmine koodilõik näitab, kuidas luua päringu konfiguratsiooni, teha API-kõne ja seejärel vastust sõeluda, et saada vastusest vastused.
Saame järgmise väljundi:
Teise lähenemisviisi jaoks kasutame Amazon Comprehendi Tuvasta Entities API hüpoteegi märkusega, mis tagastab olemid, mille ta tuvastab tekstis a eelnevalt määratletud olemite komplekt. Need on olemid, millega Amazon Comprehendi olemituvastaja on eelnevalt koolitatud. Kuna aga meie nõue on tuvastada konkreetsed olemid, koolitatakse Amazon Comprehendi kohandatud olemi tuvastajat hüpoteegi märkimise dokumentide näidisdokumentide ja üksuste loendiga. Me määratleme olemi nimed kui PRINCIPAL_AMOUNT
ja MONTHLY_AMOUNT
. Treeninguandmed koostatakse Amazon Comprehendi koolituse järgi andmete ettevalmistamise juhised kohandatud olemi tuvastamiseks. Olemituvastajat saab koolitada dokumentide annotatsioonid või üksuste loendid. Selle näite jaoks kasutame mudeli koolitamiseks olemiloendeid. Pärast mudeli väljaõpetamist saame selle kasutusele võtta a reaalajas lõpp-punkt või partii režiim kahe olemi tuvastamiseks dokumendi sisust. Järgmised sammud on seotud kohandatud olemi tuvastaja koolitamiseks ja juurutamiseks. Koodi täieliku ülevaate saamiseks vaadake meie GitHubi hoidlast.
- Valmistage ette treeningandmed (olemite loend ja (UTF-8 kodeeringuga) lihttekstivormingus dokumendid).
- Käivitage olemi tuvastamise koolitus, kasutades Loo EntityRecognizer API, mis kasutab treeningandmeid.
- Juurutage koolitatud mudel reaalajas lõpp-punktiga, kasutades Loo lõpp-punkt API.
Andmete väljavõte USA passist
Amazonase tekst analüüsida isikut tõendavaid dokumente võime tuvastada ja eraldada teavet USA-s asuvatest isikut tõendavatest dokumentidest, nagu juhiluba ja pass. The AnalyzeID
API on võimeline tuvastama ja tõlgendama kaudseid välju ID-dokumentides, mis muudab dokumendist konkreetse teabe eraldamise lihtsaks. Isikut tõendavad dokumendid on peaaegu alati osa hüpoteegitaotluste paketist, kuna seda kasutatakse laenuvõtja isikusamasuse kontrollimiseks kindlustusprotsessi ajal ja laenuvõtja biograafiliste andmete õigsuse kinnitamiseks.
Kasutame mugavusmeetodit nimega call_textract_analyzeid
, mis kutsub üles AnalyzeID
API sisemiselt. Seejärel kordame vastust, et saada tuvastatud võtme-väärtuste paarid ID-dokumendist. Vaadake järgmist koodi:
AnalyzeID
tagastab teabe struktuuris nimega IdentityDocumentFields
, mis sisaldab normaliseeritud võtmeid ja neile vastavat väärtust. Näiteks järgmises väljundis FIRST_NAME
on normaliseeritud võti ja väärtus on ALEJANDRO
. Näidispassipildil on eesnime väljal aga silt "Eesnimed / Prénoms / Nombre". AnalyzeID
suutis selle võtmenimeks normaliseerida FIRST_NAME
. Toetatud normaliseeritud väljade loendi leiate jaotisest Identiteedidokumentatsiooni vastuseobjektid.
Hüpoteeklaenupakett võib sisaldada mitmeid muid dokumente, nagu makseteatis, W2 vorm, pangaväljavõte, krediitkaardi väljavõte ja töökoha kinnituskiri. Meil on kõigi nende dokumentide näidised koos nendest andmete eraldamiseks vajaliku koodiga. Täieliku koodibaasi leiate meie sülearvutitest GitHubi hoidla.
Dokumendi rikastamine
Üks levinumaid dokumentide rikastamise vorme on tundliku või konfidentsiaalse teabe redigeerimine dokumentidel, mis võib olla kohustuslik privaatsusseaduste või -määruste tõttu. Näiteks võib hüpoteeklaenu taotleja makseleht sisaldada tundlikke PII-andmeid, nagu nimi, aadress ja SSN, mida võib vajada pikendatud salvestusruumi muutmine.
Eelmises näidisdokumendis redigeerime PII andmeid, nagu SSN, nimi, pangakonto number ja kuupäevad. Dokumendis PII andmete tuvastamiseks kasutame Amazon Comprehendi PII tuvastamine võime läbi TuvastaPIIEentsused API. See API kontrollib dokumendi sisu, et tuvastada isikut tõendava teabe olemasolu. Kuna see API nõuab sisestust UTF-8 kodeeritud lihtteksti vormingus, eraldame esmalt teksti dokumendist Amazon Textracti abil. Tuvasta DocumentText API, mis tagastab dokumendist teksti ja tagastab ka geomeetriateabe, nagu piirdekasti mõõtmed ja koordinaadid. Seejärel kasutatakse mõlema väljundi kombinatsiooni rikastamisprotsessi osana dokumendile paranduste tegemiseks.
Andmete ülevaatamine, kinnitamine ja integreerimine
Dokumendi väljavõtmise etapist eraldatud andmed võivad vajada kinnitamist konkreetsete ärireeglite alusel. Konkreetset teavet võib kinnitada ka mitme dokumendi, mida tuntakse ka kui Dokumendiülene valideerimine. Ristdokumendi kinnitamise näide võib olla isikut tõendaval dokumendil oleva taotleja nime võrdlemine hüpoteegitaotluse dokumendis oleva nimega. Selles etapis saate teha ka muid valideerimisi, näiteks kinnisvara väärtuse hinnanguid ja tingimuslikke kindlustusotsuseid.
Kolmas valideerimise tüüp on seotud väljavõetud andmete usaldusskooriga dokumendi väljavõtmise faasis. Amazon Textract ja Amazon Comprehend tagastavad tuvastatud vormide, tabelite, tekstiandmete ja olemite usaldusskoori. Saate konfigureerida usaldusskoori läve tagamaks, et allavoolu saadetakse ainult õiged väärtused. See saavutatakse Amazon A2I kaudu, mis võrdleb tuvastatud andmete usaldusskoore eelnevalt määratletud usalduslävega. Kui lävi ei ole täidetud, suunatakse dokument ja ekstraktitud väljund intuitiivse kasutajaliidese kaudu ülevaatamiseks inimesele. Ülevaataja võtab andmete osas parandusmeetmeid ja salvestab need edasiseks töötlemiseks. Lisateabe saamiseks vaadake Amazon A2I põhikontseptsioonid.
Järeldus
Selles postituses arutasime intelligentse dokumenditöötluse etappe, mis on seotud hüpoteegitaotluse etappidega. Vaatasime mõningaid levinud näiteid dokumentidest, mida võib leida hüpoteegitaotluse paketist. Arutasime ka viise, kuidas neist dokumentidest struktureeritud, poolstruktureeritud ja struktureerimata sisu välja võtta ja töödelda. IDP pakub võimalust automatiseerida täielikku hüpoteegidokumentide töötlemist, mida saab skaleerida miljonite dokumentideni, parandades taotlusotsuste kvaliteeti, vähendades kulusid ja teenindades kliente kiiremini.
Järgmise sammuna saate proovida meie koodinäidiseid ja märkmikke GitHubi hoidla. Lisateavet selle kohta, kuidas IDP saab teie dokumentide töötlemise töökoormust aidata, leiate aadressilt Dokumentide andmetöötluse automatiseerimine.
Autoritest
Anjan Biswas on tehisintellektiteenuste lahenduste vanemarhitekt, kes keskendub tehisintellektile/ML-ile ja andmeanalüüsile. Anjan on osa ülemaailmsest AI-teenuste meeskonnast ja teeb koostööd klientidega, et aidata neil mõista ja arendada lahendusi tehisintellekti ja ML-ga seotud äriprobleemidele. Anjanil on üle 14-aastane globaalse tarneahela, tootmis- ja jaemüügiorganisatsioonidega töötamise kogemus ning ta aitab aktiivselt klientidel AWS-i tehisintellekti teenustega algust teha ja laiendada.
Dwiti Pathak on San Diegost pärit vanemtehniline kontohaldur. Ta on keskendunud pooljuhtide tööstuse abistamisele AWS-is. Vabal ajal meeldib talle lugeda uutest tehnoloogiatest ja mängida lauamänge.
Balaji Puli on lahenduste arhitekt, mis asub Bay Areas, CA. Aitame praegu valitud Loode-USA tervishoiu ja bioteaduste klientidel kiirendada AWS-i pilve kasutuselevõttu. Balaji naudib reisimist ja armastab uurida erinevaid kööke.
- Täpsem (300)
- AI
- ai kunst
- ai kunsti generaator
- on robot
- Amazoni mõistmine
- Amazoni tekst
- tehisintellekti
- tehisintellekti sertifikaat
- tehisintellekt panganduses
- tehisintellekti robot
- tehisintellekti robotid
- tehisintellekti tarkvara
- AWS-i masinõpe
- blockchain
- plokiahela konverents ai
- coingenius
- vestluslik tehisintellekt
- krüptokonverents ai
- dall's
- sügav õpe
- google ai
- masinõpe
- Platon
- plato ai
- Platoni andmete intelligentsus
- Platoni mäng
- PlatoData
- platogaming
- skaala ai
- süntaks
- sephyrnet