Töötle hüpoteeklaenu dokumente intelligentse dokumenditöötlusega Amazon Textracti ja Amazon Comprehendi abil

Taasavaldanud Platon

järgijaid: 0

Laenu- ja hüpoteeklaenusektori organisatsioonid töötlevad iga päev tuhandeid dokumente. Alates uuest hüpoteegitaotlusest kuni hüpoteegi refinantseerimiseni hõlmavad need äriprotsessid sadu dokumente ühe taotluse kohta. Tänapäeval on kõigi dokumentide teabe töötlemiseks ja nendest teabe väljavõtmiseks saadaval piiratud automatiseerimine, eriti erinevate vormingute ja paigutuste tõttu. Rakenduste suure hulga tõttu on strateegiliste arusaamade kogumine ja sisust põhiteabe hankimine aeganõudev, väga käsitsi teostatav, veatundlik ja kulukas protsess. Pärand optilise märgituvastuse (OCR) tööriistad on kulutõhusad, veaohtlikud, nõuavad palju konfigureerimist ja neid on raske skaleerida. Arukas dokumenditöötlus (IDP) koos AWS-i tehisintellekti (AI) teenustega aitab automatiseerida ja kiirendada hüpoteeklaenutaotluste töötlemist, eesmärgiga teha kiiremaid ja kvaliteetseid otsuseid, vähendades samal ajal üldkulusid.

Selles postituses näitame, kuidas saate masinõppe (ML) võimalusi kasutada Amazoni tekstja Amazoni mõistmine töödelda dokumente uues hüpoteegitaotluses, ilma et oleks vaja ML-oskusi. Uurime IDP erinevaid faase, nagu on näidatud järgmisel joonisel, ja seda, kuidas need on seotud hüpoteeklaenu taotlemise protsessi etappidega, nagu taotluse esitamine, tagamine, kinnitamine ja sulgemine.

Kuigi iga hüpoteegitaotlus võib olla kordumatu, võtsime arvesse mõningaid kõige levinumaid hüpoteeklaenutaotluses sisalduvaid dokumente, näiteks ühtse eluasemelaenu taotluse (URLA-1003) vorm, 1099 vormi ja hüpoteeklaenu teatis.

Lahenduse ülevaade

Amazon Textract on ML-teenus, mis ekstraheerib skannitud dokumentidest automaatselt teksti, käsitsikirja ja andmed, kasutades selleks eelnevalt koolitatud ML-mudeleid. Amazon Comprehend on loomuliku keele töötlemise (NLP) teenus, mis kasutab ML-i tekstist väärtuslike arusaamade ja seoste avastamiseks ning suudab teostada dokumentide klassifitseerimist, nimeüksuste tuvastamist (NER), teemade modelleerimist ja palju muud.

Järgmisel joonisel on näidatud IDP etapid, mis on seotud hüpoteegi taotlemise protsessi etappidega.

Pilt näitab kõrgetasemelist lahendusarhitektuuri intelligentse dokumenditöötluse (IDP) etappide jaoks, kuna see on seotud hüpoteegitaotluse etappidega.

Protsessi alguses laaditakse dokumendid üles Amazoni lihtne salvestusteenus (Amazon S3) kopp. See käivitab dokumentide klassifitseerimise protsessi, et liigitada dokumendid tuntud kategooriatesse. Pärast dokumentide kategoriseerimist on järgmine samm nendest võtmeteabe eraldamine. Seejärel teostame valitud dokumentide rikastamist, mis võib olla näiteks isikut tuvastava teabe (PII) redigeerimine, dokumentide märgistamine, metaandmete värskendamine ja palju muud. Järgmine samm hõlmab eelmistes etappides kogutud andmete kinnitamist, et tagada hüpoteegitaotluse täielikkus. Valideerimist saab teha ettevõtte valideerimise reeglite ja dokumentidevahelise valideerimise reeglite kaudu. Ekstraheeritud teabe usaldusskoore saab võrrelda ka määratud lävega ja suunata need automaatselt ülevaatajale. Amazoni laiendatud AI (Amazon A2I), kui lävi ei ole täidetud. Protsessi viimases etapis saadetakse ekstraheeritud ja kinnitatud andmed edasiseks salvestamiseks, töötlemiseks või andmete analüüsimiseks allavoolusüsteemidesse.

Järgmistes osades käsitleme üksikasjalikult IDP etappe, kuna see on seotud hüpoteegitaotluse etappidega. Käime läbi IDP faasid ja arutame dokumentide tüüpe; kuidas me teavet salvestame, klassifitseerime ja eraldame ning kuidas masinõppe abil dokumente rikastame.

Dokumendi säilitamine

Amazon S3 on objektide salvestusteenus, mis pakub valdkonna juhtivat mastaapsust, andmete kättesaadavust, turvalisust ja jõudlust. Kasutame Amazon S3 hüpoteegi dokumentide turvaliseks säilitamiseks hüpoteegi taotlemise protsessi ajal ja pärast seda. A hüpoteegi taotluse pakett võib sisaldada mitut tüüpi vorme ja dokumente, nagu URLA-1003, 1099-INT/DIV/RR/MISC, W2, makselehed, pangaväljavõtted, krediitkaardi väljavõtted ja palju muud. Need dokumendid esitab taotleja hüpoteegi taotlemise etapis. Ilma neid käsitsi läbi vaatamata ei pruugi olla kohe selge, millised dokumendid paketis sisalduvad. See käsitsi protsess võib olla aeganõudev ja kulukas. Järgmises etapis automatiseerime selle protsessi Amazon Comprehendi abil, et liigitada dokumendid suure täpsusega vastavatesse kategooriatesse.

Dokumendi klassifikatsioon

Dokumentide klassifitseerimine on meetod, mille abil saab kategoriseerida ja märgistada suurt hulka tuvastamata dokumente. Teostame selle dokumendi klassifikatsiooni Amazon Comprehendi abil kohandatud klassifikaator. Kohandatud klassifikaator on ML-mudel, mida saab koolitada märgistatud dokumentide komplektiga, et tuvastada teile huvipakkuvad klassid. Kui mudel on välja õpetatud ja hostitud lõpp-punkti taga juurutatud, saame kasutada klassifikaatorit, et määrata kategooria (või klass), kuhu konkreetne dokument kuulub. Sel juhul õpetame välja kohandatud klassifikaatori mitme klassi režiim, mida saab teha kas CSV-faili või täiendatud manifestifaili abil. Selle demonstratsiooni jaoks kasutame klassifikaatori koolitamiseks CSV-faili. Vaadake meie GitHubi hoidla täieliku koodinäidise jaoks. Järgnev on kõrgetasemeline ülevaade seotud sammudest.

UTF-8-kodeeringuga lihttekst ekstraktimine pildi- või PDF-failidest Amazon Textracti abil Tuvasta DocumentText API.
Valmistage ette treeningandmed, et treenida kohandatud klassifikaatorit CSV-vormingus.
Treenige kohandatud klassifikaatorit CSV-faili abil.
Rakendage koolitatud mudel lõpp-punktiga dokumentide reaalajas klassifitseerimiseks või kasutage mitme klassi režiimi, mis toetab nii reaalajas kui ka asünkroonseid toiminguid.

Järgmine diagramm illustreerib seda protsessi.

Pilt näitab Amazon Comprehendi kohandatud klassifikaatori koolitusprotsessi ja dokumentide klassifitseerimist, kasutades koolitatud ja juurutatud klassifikaatori mudelit (reaalajas või partii).

Saate automatiseerida dokumentide klassifitseerimist juurutatud lõpp-punkti abil dokumentide tuvastamiseks ja kategoriseerimiseks. See automatiseerimine on kasulik selleks, et kontrollida, kas hüpoteegipaketis on kõik nõutavad dokumendid olemas. Puuduva dokumendi saab kiiresti tuvastada ilma käsitsi sekkumiseta ja sellest taotlejat teavitada protsessi palju varem.

Dokumendi väljavõte

Selles etapis eraldame dokumendist andmed Amazon Textracti ja Amazon Comprehendi abil. Struktureeritud ja poolstruktureeritud dokumentide jaoks, mis sisaldavad vorme ja tabeleid, kasutame Amazon Textracti Analüüsidokument API. Spetsiaalsete dokumentide, näiteks isikut tõendavate dokumentide jaoks pakub Amazon Textract Analüüsi ID API. Mõned dokumendid võivad sisaldada ka tihedat teksti ja teil võib olla vaja neist välja võtta ettevõttepõhised võtmeterminid, mida tuntakse ka kui üksuste. Me kasutame kohandatud olemi tuvastamine Amazon Comprehendi võime koolitada kohandatud olemituvastajat, mis suudab sellised olemid tihedast tekstist tuvastada.

Järgmistes osades vaatame läbi hüpoteegitaotluse paketis sisalduvad näidisdokumendid ja arutame nendest teabe hankimiseks kasutatud meetodeid. Kõigi nende näidete jaoks on kaasas koodilõik ja lühike näidisväljund.

Andmete väljavõte ühtsest eluasemelaenu taotlusest URLA-1003

Ühtne eluasemelaenu taotlus (URLA-1003) on tööstusharu standardne hüpoteeklaenu taotlusvorm. See on üsna keeruline dokument, mis sisaldab teavet hüpoteegi taotleja, ostetava kinnisvara tüübi, rahastatava summa ja muid üksikasju kinnisvara ostmise olemuse kohta. Järgmine on näidis URLA-1003 ja meie eesmärk on hankida teavet sellest struktureeritud dokumendist. Kuna see on vorm, kasutame AnalyzeDocument API-t funktsioonitüübiga VORM.

Funktsiooni tüüp VORM eraldab dokumendist vormiteabe, mis seejärel tagastatakse võtme-väärtuste paari vormingus. Järgmine koodilõik kasutab amazon-textract-textractor Pythoni teek vormiteabe eraldamiseks vaid mõne koodireaga. Mugavusmeetod call_textract() kutsub AnalyzeDocument API sisemiselt ja meetodile edastatud parameetrid võtavad kokku mõned konfiguratsioonid, mida API vajab ekstraheerimisülesande käitamiseks. Document on mugavusmeetod, mida kasutatakse API JSON-vastuse sõelumiseks. See pakub kõrgetasemelist abstraktsiooni ja muudab API väljundi itereeritavaks ja teabe hõlpsaks hankimiseks. Lisateabe saamiseks vaadake Textract Response Parser ja Tekstraator.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

Pange tähele, et väljund sisaldab vormil olemasolevate märkeruutude või raadionuppude väärtusi. Näiteks näidisdokumendis URLA-1003 on Ostma valik valiti. Raadionupu vastav väljund ekstraheeritakse kui "Purchase” (võti) ja „SELECTED” (väärtus), mis näitab, et raadionupp on valitud.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

Andmete väljavõte 1099 vormist

Hüpoteegitaotluse pakett võib sisaldada ka mitmeid IRS-i dokumente, näiteks 1099-DIV, 1099-INT, 1099-MISC ja 1099-R. Need dokumendid näitavad taotleja tulusid intresside, dividendide ja muude mitmesuguste tulukomponentide kaudu, mis on otsuste tegemisel kasulikud. Järgmisel pildil on kujutatud nende dokumentide kogu, mis on ülesehituselt sarnased. Kuid mõnel juhul sisaldavad dokumendid vormiteavet (tähistatud punaste ja roheliste piirdekastidega) ja tabeliteavet (märgitud kollaste piirdekastidega).

Vormiteabe eraldamiseks kasutame sarnast koodi, mida selgitati varem koos AnalyzeDocument API. Anname edasi lisafunktsiooni TABEL API-le, et näidata, et vajame dokumendist eraldatud vormi- ja tabeliandmeid. Järgmine koodilõik kasutab AnalyzeDocument API funktsioonidega FORMS ja TABLES dokumendis 1099-INT:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

Kuna dokument sisaldab ühte tabelit, on koodi väljund järgmine:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

Tabeliteave sisaldab lahtri asukohta (rida 0, veerg 0 ja nii edasi) ja vastavat teksti igas lahtris. Kasutame mugavusmeetodit, mis muudab need tabeliandmed hõlpsasti loetavaks ruudustikuvaateks:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

Saame järgmise väljundi:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

Väljundi saamiseks hõlpsasti kasutatavas CSV-vormingus valige vormingu tüüp Pretty_Print_Table_Format.csv saab edasi anda table_format parameeter. Toetatud on ka muud vormingud, nagu TSV (tab eraldatud väärtused), HTML ja lateks. Lisateabe saamiseks vaadake Textract-PrettyPrinter.

Andmete väljavõte hüpoteeklaenukirjast

Hüpoteegitaotluse pakett võib sisaldada tiheda tekstiga struktureerimata dokumente. Tihedate tekstidokumentide näited on lepingud ja kokkulepped. Hüpoteeklaen on hüpoteeklaenu taotleja ja laenuandja või hüpoteegifirma vaheline leping, mis sisaldab teavet tiheda tekstiga lõikudes. Sellistel juhtudel muudab struktuuri puudumine raskeks hüpoteegi taotlemise protsessis olulise äriteabe leidmise. Selle probleemi lahendamiseks on kaks lähenemisviisi:

Järgmises hüpoteeklaenu näidises oleme konkreetselt huvitatud igakuise makse summa ja põhisumma väljaselgitamisest.

Esimese lähenemisviisi jaoks kasutame Query ja QueriesConfig mugavusmeetodid küsimuste komplekti konfigureerimiseks, mis edastatakse Amazon Textractile AnalyzeDocument API kõne. Juhul, kui dokument on mitmeleheküljeline (PDF või TIFF), saame määrata ka leheküljenumbrid, kust Amazon Textract peaks küsimusele vastuseid otsima. Järgmine koodilõik näitab, kuidas luua päringu konfiguratsiooni, teha API-kõne ja seejärel vastust sõeluda, et saada vastusest vastused.

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

Saame järgmise väljundi:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

Teise lähenemisviisi jaoks kasutame Amazon Comprehendi Tuvasta Entities API hüpoteegi märkusega, mis tagastab olemid, mille ta tuvastab tekstis a eelnevalt määratletud olemite komplekt. Need on olemid, millega Amazon Comprehendi olemituvastaja on eelnevalt koolitatud. Kuna aga meie nõue on tuvastada konkreetsed olemid, koolitatakse Amazon Comprehendi kohandatud olemi tuvastajat hüpoteegi märkimise dokumentide näidisdokumentide ja üksuste loendiga. Me määratleme olemi nimed kui PRINCIPAL_AMOUNT ja MONTHLY_AMOUNT. Treeninguandmed koostatakse Amazon Comprehendi koolituse järgi andmete ettevalmistamise juhised kohandatud olemi tuvastamiseks. Olemituvastajat saab koolitada dokumentide annotatsioonid või üksuste loendid. Selle näite jaoks kasutame mudeli koolitamiseks olemiloendeid. Pärast mudeli väljaõpetamist saame selle kasutusele võtta a reaalajas lõpp-punkt või partii režiim kahe olemi tuvastamiseks dokumendi sisust. Järgmised sammud on seotud kohandatud olemi tuvastaja koolitamiseks ja juurutamiseks. Koodi täieliku ülevaate saamiseks vaadake meie GitHubi hoidlast.

Valmistage ette treeningandmed (olemite loend ja (UTF-8 kodeeringuga) lihttekstivormingus dokumendid).
Käivitage olemi tuvastamise koolitus, kasutades Loo EntityRecognizer API, mis kasutab treeningandmeid.
Juurutage koolitatud mudel reaalajas lõpp-punktiga, kasutades Loo lõpp-punkt API.

Andmete väljavõte USA passist

Amazonase tekst analüüsida isikut tõendavaid dokumente võime tuvastada ja eraldada teavet USA-s asuvatest isikut tõendavatest dokumentidest, nagu juhiluba ja pass. The AnalyzeID API on võimeline tuvastama ja tõlgendama kaudseid välju ID-dokumentides, mis muudab dokumendist konkreetse teabe eraldamise lihtsaks. Isikut tõendavad dokumendid on peaaegu alati osa hüpoteegitaotluste paketist, kuna seda kasutatakse laenuvõtja isikusamasuse kontrollimiseks kindlustusprotsessi ajal ja laenuvõtja biograafiliste andmete õigsuse kinnitamiseks.

Kasutame mugavusmeetodit nimega call_textract_analyzeid, mis kutsub üles AnalyzeID API sisemiselt. Seejärel kordame vastust, et saada tuvastatud võtme-väärtuste paarid ID-dokumendist. Vaadake järgmist koodi:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID tagastab teabe struktuuris nimega IdentityDocumentFields, mis sisaldab normaliseeritud võtmeid ja neile vastavat väärtust. Näiteks järgmises väljundis FIRST_NAME on normaliseeritud võti ja väärtus on ALEJANDRO. Näidispassipildil on eesnime väljal aga silt "Eesnimed / Prénoms / Nombre". AnalyzeID suutis selle võtmenimeks normaliseerida FIRST_NAME. Toetatud normaliseeritud väljade loendi leiate jaotisest Identiteedidokumentatsiooni vastuseobjektid.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

Hüpoteeklaenupakett võib sisaldada mitmeid muid dokumente, nagu makseteatis, W2 vorm, pangaväljavõte, krediitkaardi väljavõte ja töökoha kinnituskiri. Meil on kõigi nende dokumentide näidised koos nendest andmete eraldamiseks vajaliku koodiga. Täieliku koodibaasi leiate meie sülearvutitest GitHubi hoidla.

Dokumendi rikastamine

Üks levinumaid dokumentide rikastamise vorme on tundliku või konfidentsiaalse teabe redigeerimine dokumentidel, mis võib olla kohustuslik privaatsusseaduste või -määruste tõttu. Näiteks võib hüpoteeklaenu taotleja makseleht sisaldada tundlikke PII-andmeid, nagu nimi, aadress ja SSN, mida võib vajada pikendatud salvestusruumi muutmine.

Eelmises näidisdokumendis redigeerime PII andmeid, nagu SSN, nimi, pangakonto number ja kuupäevad. Dokumendis PII andmete tuvastamiseks kasutame Amazon Comprehendi PII tuvastamine võime läbi TuvastaPIIEentsused API. See API kontrollib dokumendi sisu, et tuvastada isikut tõendava teabe olemasolu. Kuna see API nõuab sisestust UTF-8 kodeeritud lihtteksti vormingus, eraldame esmalt teksti dokumendist Amazon Textracti abil. Tuvasta DocumentText API, mis tagastab dokumendist teksti ja tagastab ka geomeetriateabe, nagu piirdekasti mõõtmed ja koordinaadid. Seejärel kasutatakse mõlema väljundi kombinatsiooni rikastamisprotsessi osana dokumendile paranduste tegemiseks.

Andmete ülevaatamine, kinnitamine ja integreerimine

Dokumendi väljavõtmise etapist eraldatud andmed võivad vajada kinnitamist konkreetsete ärireeglite alusel. Konkreetset teavet võib kinnitada ka mitme dokumendi, mida tuntakse ka kui Dokumendiülene valideerimine. Ristdokumendi kinnitamise näide võib olla isikut tõendaval dokumendil oleva taotleja nime võrdlemine hüpoteegitaotluse dokumendis oleva nimega. Selles etapis saate teha ka muid valideerimisi, näiteks kinnisvara väärtuse hinnanguid ja tingimuslikke kindlustusotsuseid.

Kolmas valideerimise tüüp on seotud väljavõetud andmete usaldusskooriga dokumendi väljavõtmise faasis. Amazon Textract ja Amazon Comprehend tagastavad tuvastatud vormide, tabelite, tekstiandmete ja olemite usaldusskoori. Saate konfigureerida usaldusskoori läve tagamaks, et allavoolu saadetakse ainult õiged väärtused. See saavutatakse Amazon A2I kaudu, mis võrdleb tuvastatud andmete usaldusskoore eelnevalt määratletud usalduslävega. Kui lävi ei ole täidetud, suunatakse dokument ja ekstraktitud väljund intuitiivse kasutajaliidese kaudu ülevaatamiseks inimesele. Ülevaataja võtab andmete osas parandusmeetmeid ja salvestab need edasiseks töötlemiseks. Lisateabe saamiseks vaadake Amazon A2I põhikontseptsioonid.

Järeldus

Selles postituses arutasime intelligentse dokumenditöötluse etappe, mis on seotud hüpoteegitaotluse etappidega. Vaatasime mõningaid levinud näiteid dokumentidest, mida võib leida hüpoteegitaotluse paketist. Arutasime ka viise, kuidas neist dokumentidest struktureeritud, poolstruktureeritud ja struktureerimata sisu välja võtta ja töödelda. IDP pakub võimalust automatiseerida täielikku hüpoteegidokumentide töötlemist, mida saab skaleerida miljonite dokumentideni, parandades taotlusotsuste kvaliteeti, vähendades kulusid ja teenindades kliente kiiremini.

Järgmise sammuna saate proovida meie koodinäidiseid ja märkmikke GitHubi hoidla. Lisateavet selle kohta, kuidas IDP saab teie dokumentide töötlemise töökoormust aidata, leiate aadressilt Dokumentide andmetöötluse automatiseerimine.

Autoritest

Anjan Biswas on tehisintellektiteenuste lahenduste vanemarhitekt, kes keskendub tehisintellektile/ML-ile ja andmeanalüüsile. Anjan on osa ülemaailmsest AI-teenuste meeskonnast ja teeb koostööd klientidega, et aidata neil mõista ja arendada lahendusi tehisintellekti ja ML-ga seotud äriprobleemidele. Anjanil on üle 14-aastane globaalse tarneahela, tootmis- ja jaemüügiorganisatsioonidega töötamise kogemus ning ta aitab aktiivselt klientidel AWS-i tehisintellekti teenustega algust teha ja laiendada.

Dwiti Pathak on San Diegost pärit vanemtehniline kontohaldur. Ta on keskendunud pooljuhtide tööstuse abistamisele AWS-is. Vabal ajal meeldib talle lugeda uutest tehnoloogiatest ja mängida lauamänge.

Balaji Puli on lahenduste arhitekt, mis asub Bay Areas, CA. Aitame praegu valitud Loode-USA tervishoiu ja bioteaduste klientidel kiirendada AWS-i pilve kasutuselevõttu. Balaji naudib reisimist ja armastab uurida erinevaid kööke.

Ajatempel: August 26, 2022August 26, 2022

Veel alates AWS-i masinõpe

Kasutage Amazon Lexis kohandatud sõnavara, et täiustada kõnetuvastust PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kasutage kõnetuvastuse parandamiseks Amazon Lexi kohandatud sõnavara

Allikaklaster:

AWS-i masinõpe

Allikasõlm: 1294623

Ajatempel: Võib 5 2022

Looge AWS PlatoBlockchain Data Intelligence'is arvutinägemise torujuhtmete jaoks sünteetilisi andmeid. Vertikaalne otsing. Ai.

Looge AWS-is arvutinägemise torujuhtmete jaoks sünteetilisi andmeid

AWS-i masinõpe

Allikasõlm: 1848251

Ajatempel: Juuni 13, 2023

Töötle hüpoteeklaenu dokumente intelligentse dokumenditöötlusega, kasutades Amazon Textracti ja Amazon Comprehendi

Taasavaldanud Platon

Lahenduse ülevaade

Dokumendi säilitamine

Dokumendi klassifikatsioon

Dokumendi väljavõte

Andmete väljavõte ühtsest eluasemelaenu taotlusest URLA-1003

Andmete väljavõte 1099 vormist

Andmete väljavõte hüpoteeklaenukirjast

Andmete väljavõte USA passist

Dokumendi rikastamine

Andmete ülevaatamine, kinnitamine ja integreerimine

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Looge AWS-is arvutinägemise torujuhtmete jaoks sünteetilisi andmeid

TensorFlow teksti klassifitseerimismudelite õppimise ülekandmine Amazon SageMakeris

AWS-i pilvetehnoloogia peaaegu reaalajas südameanomaaliate tuvastamiseks, kasutades kantavate seadmete andmeid

Tuvastage kõrvalekallete asukoht, kasutades Amazon Lookout for Visioni servas ilma GPU-d kasutamata

Kuidas United Airlines ehitas kulutõhusa optilise tähemärgituvastuse aktiivõppe torujuhtme | Amazoni veebiteenused

Tutvustame sarnaste üksuste populaarsuse häälestamist rakenduses Amazon Personalize | Amazoni veebiteenused

Otsige turvaliselt struktureerimata andmeid Windowsi failisüsteemidest Amazon Kendra konnektoriga Amazon FSx jaoks Windowsi failiserveri jaoks

Avastage mobiilile orienteeritud ettevõtetes pettused GrabDefence'i seadmeluure ja Amazoni pettusedetektori abil

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto