Organizacije v posojilni in hipotekarni industriji dnevno obdelajo na tisoče dokumentov. Od vloge za novo hipoteko do refinanciranja hipoteke ti poslovni procesi vključujejo na stotine dokumentov na vlogo. Danes je na voljo omejena avtomatizacija za obdelavo in pridobivanje informacij iz vseh dokumentov, zlasti zaradi različnih formatov in postavitev. Zaradi velikega obsega aplikacij je zajem strateških vpogledov in pridobivanje ključnih informacij iz vsebine zamuden, zelo ročni in drag proces, ki je nagnjen k napakam. Starejša orodja za optično prepoznavanje znakov (OCR) so previsoka, nagnjena k napakam, vključujejo veliko konfiguriranja in jih je težko prilagoditi. Inteligentna obdelava dokumentov (IDP) s storitvami umetne inteligence (AI) AWS pomaga avtomatizirati in pospešiti obdelavo hipotekarnih vlog s cilji hitrejših in kakovostnih odločitev, hkrati pa zmanjša skupne stroške.
V tej objavi prikazujemo, kako lahko uporabite zmožnosti strojnega učenja (ML). Amazonovo besediloin Amazonsko razumevanje za obdelavo dokumentov v novi hipotekarni vlogi, brez potrebe po znanju strojnega pisanja. Raziskujemo različne faze IDP, kot je prikazano na naslednji sliki, in kako se povezujejo s koraki, ki so vključeni v postopek vloge za hipoteko, kot so oddaja vloge, prevzem, preverjanje in zapiranje.
Čeprav je lahko vsaka hipotekarna vloga edinstvena, smo upoštevali nekaj najpogostejših dokumentov, ki so vključeni v hipotekarno vlogo, kot so obrazec za enotno vlogo za stanovanjsko posojilo (URLA-1003), obrazci 1099 in hipotekarni zapis.
Pregled rešitev
Amazon Texttract je storitev ML, ki samodejno ekstrahira besedilo, rokopis in podatke iz optično prebranih dokumentov z uporabo vnaprej usposobljenih modelov ML. Amazon Comprehend je storitev za obdelavo naravnega jezika (NLP), ki uporablja ML za odkrivanje dragocenih vpogledov in povezav v besedilu ter lahko izvaja klasifikacijo dokumentov, prepoznavanje entitet imen (NER), modeliranje tem in drugo.
Naslednja slika prikazuje faze IDP v povezavi s fazami postopka vloge za hipoteko.
Na začetku postopka se dokumenti naložijo v Preprosta storitev shranjevanja Amazon (Amazon S3) vedro. To sproži postopek klasifikacije dokumentov za kategorizacijo dokumentov v znane kategorije. Ko so dokumenti kategorizirani, je naslednji korak, da iz njih izluščimo ključne informacije. Nato izvedemo obogatitev za izbrane dokumente, ki so lahko stvari, kot so redigiranje osebno določljivih podatkov (PII), označevanje dokumentov, posodobitve metapodatkov in drugo. Naslednji korak vključuje preverjanje podatkov, pridobljenih v prejšnjih fazah, da se zagotovi popolnost vloge za hipoteko. Preverjanje veljavnosti je mogoče izvesti prek pravil za preverjanje poslovne veljavnosti in pravil za preverjanje med dokumenti. Ocene zaupanja pridobljenih informacij je mogoče primerjati tudi z nastavljenim pragom in jih samodejno usmeriti k pregledovalcu prek Amazon, razširjeni AI (Amazon A2I), če prag ni dosežen. V končni fazi postopka se ekstrahirani in potrjeni podatki pošljejo nadaljnjim sistemom za nadaljnje shranjevanje, obdelavo ali analizo podatkov.
V naslednjih razdelkih podrobno obravnavamo faze IDP, ki so povezane s fazami vloge za hipoteko. Sprehodimo se skozi faze IDP in razpravljamo o vrstah dokumentov; kako shranjujemo, razvrščamo in ekstrahiramo informacije ter kako obogatimo dokumente s pomočjo strojnega učenja.
Shranjevanje dokumentov
Amazon S3 je storitev za shranjevanje objektov, ki ponuja vodilno razširljivost, razpoložljivost podatkov, varnost in zmogljivost v industriji. Uporabljamo Amazon S3 za varno shranjevanje hipotekarnih dokumentov med in po postopku vloge za hipoteko. A paket vlog za hipoteko lahko vsebuje več vrst obrazcev in dokumentov, kot so URLA-1003, 1099-INT/DIV/RR/MISC, W2, plačilne liste, bančne izpiske, izpiske kreditnih kartic in drugo. Te dokumente vlagatelj predloži v fazi vloge za hipoteko. Brez ročnega pregledovanja morda ne bo takoj jasno, kateri dokumenti so vključeni v paket. Ta ročni postopek je lahko dolgotrajen in drag. V naslednji fazi avtomatiziramo ta postopek z uporabo Amazon Comprehend za razvrščanje dokumentov v ustrezne kategorije z visoko natančnostjo.
Razvrstitev dokumentov
Klasifikacija dokumentov je metoda, s katero je mogoče kategorizirati in označiti veliko število neidentificiranih dokumentov. To klasifikacijo dokumentov izvajamo z uporabo Amazon Comprehend klasifikator po meri. Klasifikator po meri je model ML, ki ga je mogoče usposobiti z nizom označenih dokumentov za prepoznavanje razredov, ki vas zanimajo. Ko je model usposobljen in razporejen za gostujočo končno točko, lahko uporabimo klasifikator za določitev kategorije (ali razreda), v katero spada določen dokument. V tem primeru usposobimo klasifikator po meri večrazredni način, kar lahko storite z datoteko CSV ali razširjeno datoteko manifesta. Za namene te predstavitve uporabljamo datoteko CSV za usposabljanje klasifikatorja. Oglejte si naše GitHub repozitorij za celoten vzorec kode. Sledi pregled vključenih korakov na visoki ravni:
- Ekstrahirajte golo besedilo, kodirano z UTF-8, iz slikovnih ali PDF datotek z uporabo Amazon Texttract DetectDocumentText API.
- Pripravite podatke o usposabljanju za usposabljanje klasifikatorja po meri v formatu CSV.
- Usposobite klasifikator po meri z uporabo datoteke CSV.
- Razmestite usposobljeni model s končno točko za klasifikacijo dokumentov v realnem času ali uporabite večrazredni način, ki podpira tako realnočasovne kot asinhrone operacije.
Naslednji diagram prikazuje ta postopek.
Z razporejeno končno točko lahko avtomatizirate klasifikacijo dokumentov za identifikacijo in kategorizacijo dokumentov. Ta avtomatizacija je uporabna za preverjanje, ali so v paketu hipoteke prisotni vsi zahtevani dokumenti. Manjkajoči dokument je mogoče hitro identificirati, brez ročnega posredovanja, in o tem obvestiti vlagatelja veliko prej v postopku.
Ekstrakcija dokumentov
V tej fazi izvlečemo podatke iz dokumenta s pomočjo Amazon Texttract in Amazon Comprehend. Za strukturirane in polstrukturirane dokumente, ki vsebujejo obrazce in tabele, uporabljamo Amazon Texttract AnalyzeDocument API. Za specializirane dokumente, kot so osebni dokumenti, ponuja Amazon Texttract AnalyzeID API. Nekateri dokumenti lahko vsebujejo tudi gosto besedilo in boste morda morali iz njih izluščiti poslovne ključne izraze, znane tudi kot subjekti. Uporabljamo prepoznavanje entitet po meri zmožnost Amazon Comprehend za usposabljanje prepoznavalnika entitet po meri, ki lahko prepozna takšne entitete iz gostega besedila.
V naslednjih razdelkih se sprehodimo skozi vzorčne dokumente, ki so prisotni v paketu vlog za hipoteko, in razpravljamo o metodah, uporabljenih za pridobivanje informacij iz njih. Za vsakega od teh primerov sta vključena delček kode in kratek vzorčni rezultat.
Izvleček podatkov iz enotne vloge za stanovanjsko posojilo URLA-1003
Poenotena vloga za stanovanjsko posojilo (URLA-1003) je industrijski standardni obrazec za vlogo za hipotekarni kredit. To je precej zapleten dokument, ki vsebuje informacije o vlagatelju hipoteke, vrsti nepremičnine, ki se kupuje, znesku, ki se financira, in druge podrobnosti o naravi nakupa nepremičnine. Sledi vzorec URLA-1003, naš namen pa je pridobiti informacije iz tega strukturiranega dokumenta. Ker je to obrazec, uporabljamo API AnalyzeDocument z vrsto funkcije OBRAZEC.
Tip funkcije FORM izvleče informacije obrazca iz dokumenta, ki se nato vrnejo v obliki para ključ-vrednost. Naslednji delček kode uporablja amazon-textract-textractor
Knjižnica Python za pridobivanje informacij obrazca s samo nekaj vrsticami kode. Priročna metoda call_textract()
kliče AnalyzeDocument
Interni API in parametri, posredovani metodi, abstrahirajo nekatere konfiguracije, ki jih API potrebuje za izvajanje naloge ekstrakcije. Document
je priročna metoda, ki se uporablja za pomoč pri razčlenjevanju odziva JSON iz API-ja. Zagotavlja visokonivojsko abstrakcijo in omogoča ponavljanje izhoda API-ja ter enostavno pridobivanje informacij. Za več informacij glejte Razčlenjevalnik odziva besedila in Textractor.
Upoštevajte, da izhod vsebuje vrednosti za potrditvena polja ali izbirne gumbe, ki obstajajo v obrazcu. Na primer, v vzorčnem dokumentu URLA-1003 je Nakup je bila izbrana možnost. Ustrezni izhod za izbirni gumb je ekstrahiran kot "Purchase
” (ključ) in “SELECTED
” (vrednost), kar pomeni, da je bil izbirni gumb izbran.
Izvlecite podatke iz 1099 obrazcev
Paket vlog za hipotekarni kredit lahko vsebuje tudi številne dokumente IRS, kot so 1099-DIV, 1099-INT, 1099-MISC in 1099-R. Ti dokumenti prikazujejo vložnikove zaslužke prek obresti, dividend in drugih različnih komponent dohodka, ki so uporabni pri sklepanju odločitev. Naslednja slika prikazuje zbirko teh dokumentov, ki so podobni po strukturi. Vendar v nekaterih primerih dokumenti vsebujejo informacije o obrazcu (označene z rdečimi in zelenimi omejevalnimi polji) ter tabelarične informacije (označene z rumenimi omejevalnimi polji).
Za pridobivanje informacij iz obrazca uporabljamo podobno kodo, kot je bilo prej razloženo z AnalyzeDocument
API. Mimo dodatne funkcije TABLE API-ju, da pokažemo, da potrebujemo podatke obrazca in tabele, ekstrahirane iz dokumenta. Naslednji delček kode uporablja AnalyzeDocument
API s funkcijami FORMS in TABLES na dokumentu 1099-INT:
Ker dokument vsebuje eno tabelo, je rezultat kode naslednji:
Informacije v tabeli vsebujejo položaj celice (vrstica 0, stolpec 0 itd.) in ustrezno besedilo v vsaki celici. Uporabljamo priročno metodo, ki lahko podatke te tabele pretvori v lahko berljiv mrežni pogled:
Dobimo naslednji rezultat:
Če želite dobiti izpis v formatu CSV, ki je enostaven za uporabo, uporabite vrsto formata Pretty_Print_Table_Format.csv
se lahko prenese v table_format
parameter. Podprti so tudi drugi formati, kot so TSV (vrednosti, ločene z zavihki), HTML in Latex. Za več informacij glejte Texttract-PrettyPrinter.
Izpis podatkov iz hipotekarne zaznamke
Paket vlog za hipoteko lahko vsebuje nestrukturirane dokumente z gostim besedilom. Nekateri primeri dokumentov z gostim besedilom so pogodbe in sporazumi. Hipotekarni zapis je dogovor med vlagateljem hipoteke in posojilodajalcem ali hipotekarnim podjetjem ter vsebuje informacije v odstavkih z gostim besedilom. V takšnih primerih pomanjkanje strukture otežuje iskanje ključnih poslovnih informacij, ki so pomembne v postopku vloge za hipoteko. Obstajata dva pristopa za rešitev te težave:
V naslednjem vzorcu hipotekarne opombe nas posebej zanima znesek mesečnega plačila in znesek glavnice.
Za prvi pristop uporabljamo Query
in QueriesConfig
priročne metode za konfiguriranje nabora vprašanj, ki se posredujejo v Amazon Texttract AnalyzeDocument
API klic. V primeru, da je dokument večstranski (PDF ali TIFF), lahko določimo tudi številke strani, na katerih naj Amazon Texttract išče odgovore na vprašanje. Naslednji delček kode prikazuje, kako ustvariti konfiguracijo poizvedbe, opraviti klic API-ja in nato razčleniti odgovor, da dobi odgovore iz odgovora:
Dobimo naslednji rezultat:
Za drugi pristop uporabljamo Amazon Comprehend DetectEntities API s hipotekarnim zapisom, ki vrne entitete, ki jih zazna v besedilu iz a vnaprej določen nabor entitet. To so entitete, za katere je prepoznavalec entitet Amazon Comprehend predhodno usposobljen. Ker pa je naša zahteva odkrivanje določenih subjektov, je prepoznavalec entitet po meri Amazon Comprehend usposobljen z nizom vzorčnih dokumentov hipotekarnih opomb in seznamom entitet. Imena entitet definiramo kot PRINCIPAL_AMOUNT
in MONTHLY_AMOUNT
. Podatki o usposabljanju so pripravljeni po usposabljanju Amazon Comprehend smernice za pripravo podatkov za prepoznavanje entitet po meri. S prepoznavalnikom entitet se je mogoče učiti opombe dokumentov ali seznami entitet. Za namene tega primera uporabljamo sezname entitet za usposabljanje modela. Ko usposobimo model, ga lahko razporedimo z a končna točka v realnem času ali paketni način za odkrivanje obeh entitet iz vsebine dokumenta. Sledijo koraki za usposabljanje prepoznavalnika entitet po meri in njegovo uvajanje. Za celoten potek kode si oglejte naše repozitorij GitHub.
- Pripravite podatke o usposabljanju (seznam subjektov in dokumente z (UTF-8 kodiranim) formatom navadnega besedila).
- Začnite usposabljanje za prepoznavanje entitet z uporabo CreateEntityRecognizer API, ki uporablja podatke o usposabljanju.
- Razmestite usposobljeni model s končno točko v realnem času z uporabo Ustvari končno točko API.
Izvlecite podatke iz ameriškega potnega lista
Amazonski izvleček analizirati osebne dokumente zmožnost zaznavanja in pridobivanja informacij iz osebnih dokumentov v ZDA, kot sta vozniško dovoljenje in potni list. The AnalyzeID
API je sposoben zaznati in interpretirati implicitna polja v identifikacijskih dokumentih, kar olajša pridobivanje določenih informacij iz dokumenta. Osebni dokumenti so skoraj vedno del paketa hipotekarnih vlog, ker se uporabljajo za preverjanje identitete posojilojemalca med postopkom sklepanja pogodb in za potrditev pravilnosti biografskih podatkov posojilojemalca.
Uporabljamo priročno metodo, imenovano call_textract_analyzeid
, ki imenuje AnalyzeID
API interno. Nato ponovimo odgovor, da pridobimo zaznane pare ključev in vrednosti iz dokumenta ID. Oglejte si naslednjo kodo:
AnalyzeID
vrne informacije v strukturi, imenovani IdentityDocumentFields
, ki vsebuje normalizirane ključe in njihove ustrezne vrednosti. Na primer, v naslednjem rezultatu FIRST_NAME
je normaliziran ključ in vrednost je ALEJANDRO
. Na vzorčni sliki potnega lista je polje za ime označeno kot »Given Names / Prénoms / Nombre«, vendar AnalyzeID
je to lahko normaliziral v ime ključa FIRST_NAME
. Za seznam podprtih normaliziranih polj glejte Objekti odziva na dokumentacijo o identiteti.
Hipotekarni paket lahko vsebuje več drugih dokumentov, kot so plačilna blagajna, obrazec W2, bančni izpisek, izpisek kreditne kartice in potrdilo o zaposlitvi. Za vsakega od teh dokumentov imamo vzorce skupaj s kodo, potrebno za pridobivanje podatkov iz njih. Za celotno bazo kod si oglejte zvezke v našem GitHub repozitorij.
Obogatitev dokumentov
Ena najpogostejših oblik obogatitve dokumentov je urejanje občutljivih ali zaupnih informacij v dokumentih, ki je lahko obvezno zaradi zakonov ali predpisov o zasebnosti. Na primer, plačilna lista vlagatelja hipotekarnega kredita lahko vsebuje občutljive podatke, ki omogočajo osebno prepoznavo, kot so ime, naslov in številka socialne številke, ki jih bo morda treba redigirati za daljše shranjevanje.
V prejšnjem vzorčnem dokumentu plačilne liste izvajamo urejanje podatkov, ki omogočajo osebno prepoznavo, kot so številka socialne številke, ime, številka bančnega računa in datumi. Za identifikacijo podatkov PII v dokumentu uporabljamo Amazon Comprehend Odkrivanje PII zmogljivost prek DetectPIIEntities API. Ta API pregleduje vsebino dokumenta, da ugotovi prisotnost osebno določljivih informacij. Ker ta API zahteva vnos v formatu golega besedila, kodiranega z UTF-8, najprej ekstrahiramo besedilo iz dokumenta z uporabo Amazon Texttract DetectDocumentText API, ki vrne besedilo iz dokumenta in vrne tudi podatke o geometriji, kot so dimenzije in koordinate omejevalnega polja. Kombinacija obeh rezultatov se nato uporabi za risanje redakcij na dokumentu kot del procesa obogatitve.
Pregledajte, potrdite in integrirajte podatke
Podatke, ekstrahirane iz faze ekstrakcije dokumenta, bo morda treba preveriti glede na posebna poslovna pravila. Določene informacije se lahko potrdijo tudi v več dokumentih, znanih tudi kot navzkrižno preverjanje dokumentov. Primer navzkrižnega preverjanja dokumentov je lahko primerjava imena prosilca v osebnem dokumentu z imenom v dokumentu o hipotekarnem zahtevku. V tej fazi lahko izvedete tudi druge validacije, kot so ocene vrednosti nepremičnine in pogojne odločitve o prevzemu zavarovanja.
Tretja vrsta validacije je povezana z oceno zaupanja ekstrahiranih podatkov v fazi ekstrakcije dokumenta. Amazon Texttract in Amazon Comprehend vrneta oceno zaupanja za zaznane obrazce, tabele, besedilne podatke in entitete. Konfigurirate lahko prag ocene zaupanja, da zagotovite, da se nizvodno pošiljajo le pravilne vrednosti. To se doseže prek Amazon A2I, ki primerja ocene zaupanja zaznanih podatkov z vnaprej določenim pragom zaupanja. Če prag ni dosežen, se dokument in ekstrahirani izhod preusmeri k osebi v pregled prek intuitivnega uporabniškega vmesnika. Pregledovalec sprejme korektivne ukrepe glede podatkov in jih shrani za nadaljnjo obdelavo. Za več informacij glejte Osnovni koncepti Amazon A2I.
zaključek
V tej objavi smo razpravljali o fazah inteligentne obdelave dokumentov, ki so povezane s fazami vloge za hipoteko. Ogledali smo si nekaj pogostih primerov dokumentov, ki jih je mogoče najti v paketu vlog za hipoteko. Razpravljali smo tudi o načinih pridobivanja in obdelave strukturirane, polstrukturirane in nestrukturirane vsebine iz teh dokumentov. IDP ponuja način za avtomatizacijo obdelave hipotekarnih dokumentov od konca do konca, ki ga je mogoče razširiti na milijone dokumentov, s čimer izboljšate kakovost odločitev o vlogah, zmanjšate stroške in hitreje služite strankam.
Kot naslednji korak lahko preizkusite vzorce kode in zvezke v našem GitHub repozitorij. Če želite izvedeti več o tem, kako lahko IDP pomaga pri obdelavi dokumentov, obiščite Avtomatizirajte obdelavo podatkov iz dokumentov.
O avtorjih
Anjan Biswas je višji arhitekt rešitev za storitve AI s poudarkom na AI/ML in podatkovni analitiki. Anjan je del svetovne ekipe za storitve AI in sodeluje s strankami, da bi jim pomagal razumeti in razviti rešitve za poslovne težave z AI in ML. Anjan ima več kot 14 let izkušenj pri delu z globalno dobavno verigo, proizvodnjo in maloprodajnimi organizacijami ter strankam dejavno pomaga začeti in širiti storitve umetne inteligence AWS.
Dwiti Pathak je višji tehnični vodja računa s sedežem v San Diegu. Osredotočena je na pomoč polprevodniški industriji pri vključitvi v AWS. V prostem času rada bere o novih tehnologijah in igra družabne igre.
Balaji Puli je arhitekt rešitev s sedežem v Bay Area, CA. Trenutno pomaga izbranim strankam na področju zdravstvenih znanosti o življenju na severozahodu ZDA pospešiti njihovo sprejemanje v oblaku AWS. Balaji uživa v potovanjih in rad raziskuje različne kuhinje.
- Napredno (300)
- AI
- ai art
- ai art generator
- imajo robota
- Amazonsko razumevanje
- Amazonovo besedilo
- Umetna inteligenca
- certificiranje umetne inteligence
- umetna inteligenca v bančništvu
- robot z umetno inteligenco
- roboti z umetno inteligenco
- programska oprema za umetno inteligenco
- Strojno učenje AWS
- blockchain
- blockchain konferenca ai
- coingenius
- pogovorna umetna inteligenca
- kripto konferenca ai
- dall's
- globoko učenje
- strojno učenje
- platon
- platon ai
- Platonova podatkovna inteligenca
- Igra Platon
- PlatoData
- platogaming
- lestvica ai
- sintaksa
- zefirnet