A jelzáloghitel-okmányok feldolgozása intelligens dokumentumfeldolgozással az Amazon Textract és az Amazon Comprehend segítségével

Újra kiadta Platón

Követő: 0

A hitelezési és jelzáloghitel-ipari szervezetek naponta több ezer dokumentumot dolgoznak fel. Az új jelzáloghitel-igényléstől a jelzálog-refinanszírozásig ezek az üzleti folyamatok kérelmenként több száz dokumentumot tartalmaznak. Ma korlátozott automatizálás áll rendelkezésre az összes dokumentum információ feldolgozására és kinyerésére, különösen a változó formátumok és elrendezések miatt. Az alkalmazások nagy mennyisége miatt a stratégiai betekintések rögzítése és a kulcsfontosságú információk megszerzése a tartalomból időigényes, erősen manuális, hibákra hajlamos és költséges folyamat. A régi optikai karakterfelismerő (OCR) eszközök költséghatékonyak, hibásak, sok konfigurálást igényelnek, és nehezen méretezhetők. Az intelligens dokumentumfeldolgozás (IDP) az AWS mesterséges intelligencia (AI) szolgáltatásaival segít automatizálni és felgyorsítani a jelzáloghitel-igénylések feldolgozását a gyorsabb és minőségi döntések érdekében, miközben csökkenti az általános költségeket.

Ebben a bejegyzésben bemutatjuk, hogyan használhatja a gépi tanulási (ML) képességeket Amazon szövegés Amazon Comprehend dokumentumok feldolgozásához egy új jelzáloghitel-igénylésben, ML ismeretek nélkül. Megvizsgáljuk az IDP különböző fázisait, amint az a következő ábrán látható, és hogyan kapcsolódnak ezek a jelzáloghitel-igénylési folyamat lépéseihez, mint például a kérelem benyújtása, a jegyzés, az ellenőrzés és a lezárás.

Bár minden jelzáloghitel-igénylés egyedi lehet, figyelembe vettünk néhány, a jelzáloghitel-igénylésben szereplő leggyakoribb dokumentumot, például az Egységes Lakáshitel Kérelem (URLA-1003) űrlapot, az 1099-es nyomtatványokat és a jelzálogjegyet.

Megoldás áttekintése

Az Amazon Textract egy ML-szolgáltatás, amely előre betanított ML-modellek segítségével automatikusan kivonja a szöveget, a kézírást és az adatokat a beolvasott dokumentumokból. Az Amazon Comprehend egy természetes nyelvű feldolgozó (NLP) szolgáltatás, amely az ML segítségével értékes betekintést és összefüggéseket tár fel a szövegben, és képes dokumentumok osztályozására, néventitás-felismerésre (NER), témamodellezésre stb.

A következő ábra az IDP fázisait mutatja be, mivel az a jelzáloghitel-igénylési folyamat fázisaihoz kapcsolódik.

A kép egy magas szintű megoldás-architektúrát mutat be az intelligens dokumentumfeldolgozás (IDP) fázisaihoz, mivel a jelzáloghitel-igénylés szakaszaihoz kapcsolódik.

A folyamat elején a dokumentumok feltöltésre kerülnek egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör. Ez elindít egy dokumentumosztályozási folyamatot, amely a dokumentumokat ismert kategóriákba sorolja. A dokumentumok kategorizálása után a következő lépés a legfontosabb információk kinyerése belőlük. Ezt követően elvégzünk bizonyos dokumentumok gazdagítását, amelyek lehetnek például személyazonosításra alkalmas adatok (PII) szerkesztése, dokumentumcímkézés, metaadatok frissítése stb. A következő lépés az előző fázisokban kinyert adatok érvényesítése a jelzáloghitel-igénylés teljességének biztosítása érdekében. Az érvényesítés az üzleti érvényesítési szabályokon és a dokumentumok közötti érvényesítési szabályokon keresztül történhet. A kinyert információk megbízhatósági pontszámai szintén összehasonlíthatók egy beállított küszöbértékkel, és automatikusan továbbíthatók egy emberi felülvizsgálóhoz. Amazon kiterjesztett AI (Amazon A2I), ha nem éri el a küszöböt. A folyamat utolsó fázisában a kinyert és validált adatokat továbbítják a downstream rendszerekbe további tárolás, feldolgozás vagy adatelemzés céljából.

A következő szakaszokban részletesen tárgyaljuk az IDP fázisait, mivel az a jelzáloghitel-igénylés fázisaihoz kapcsolódik. Végigjárjuk az IDP fázisait és megbeszéljük a dokumentumok típusait; hogyan tároljuk, osztályozzuk és kinyerjük az információkat, és hogyan gazdagítjuk a dokumentumokat gépi tanulás segítségével.

Dokumentumtárolás

Az Amazon S3 egy objektumtárolási szolgáltatás, amely iparágvezető skálázhatóságot, adatok elérhetőségét, biztonságát és teljesítményét kínálja. Az Amazon S3-at használjuk a jelzálogokmányok biztonságos tárolására a jelzáloghitel-igénylési folyamat során és után. A jelzáloghitel-igénylési csomag többféle űrlapot és dokumentumot tartalmazhat, például URLA-1003, 1099-INT/DIV/RR/MISC, W2, fizetési jegyzékeket, bankszámlakivonatokat, hitelkártya-kivonatokat stb. Ezeket a dokumentumokat a kérelmező a jelzálog-igénylési szakaszban nyújtja be. Anélkül, hogy manuálisan nézné át őket, nem biztos, hogy azonnal egyértelmű, hogy mely dokumentumokat tartalmazza a csomag. Ez a kézi eljárás időigényes és költséges lehet. A következő fázisban ezt a folyamatot az Amazon Comprehend segítségével automatizáljuk, hogy a dokumentumokat nagy pontossággal a megfelelő kategóriákba soroljuk.

A dokumentum besorolása

A dokumentumminősítés olyan módszer, amellyel nagyszámú azonosítatlan dokumentum kategorizálható és címkézhető. Ezt a dokumentumosztályozást egy Amazon Comprehend segítségével végezzük egyedi osztályozó. Az egyéni osztályozó egy ML-modell, amely egy sor címkézett dokumentummal betanítható, hogy felismerje az Önt érdeklő osztályokat. A modell betanítása és egy hosztolt végpont mögötti telepítése után az osztályozó segítségével meghatározhatjuk, hogy egy adott dokumentum melyik kategóriához (vagy osztályhoz) tartozik. Ebben az esetben egyedi osztályozót tanítunk be több osztályú mód, amely CSV-fájllal vagy kiterjesztett jegyzékfájllal is elvégezhető. A bemutató céljaira egy CSV-fájlt használunk az osztályozó betanításához. Lásd a mi GitHub tárház a teljes kódmintához. Az alábbiakban az érintett lépések magas szintű áttekintése található:

Kivonja az UTF-8 kódolású egyszerű szöveget kép- vagy PDF-fájlokból az Amazon Textract segítségével DetectDocumentText API.
Készítse elő a képzési adatokat egy egyéni osztályozó CSV formátumban történő betanításához.
Tanítson meg egy egyéni osztályozót a CSV-fájl segítségével.
Telepítse a betanított modellt egy végponttal a valós idejű dokumentumosztályozáshoz, vagy használja a többosztályos módot, amely mind a valós idejű, mind az aszinkron műveleteket támogatja.

A következő diagram ezt a folyamatot szemlélteti.

A képen az Amazon Comprehend egyéni osztályozó képzési folyamata és dokumentumosztályozása látható a betanított és telepített osztályozó modell segítségével (valós idejű vagy kötegelt).

Automatizálhatja a dokumentumok osztályozását a telepített végpont segítségével a dokumentumok azonosításához és kategorizálásához. Ez az automatizálás hasznos annak ellenőrzésére, hogy az összes szükséges dokumentum megtalálható-e a jelzáloghitel-csomagban. A hiányzó irat gyorsan, manuális beavatkozás nélkül azonosítható, és már jóval korábban értesíthető a kérelmezőről.

Iratkivonat

Ebben a fázisban az Amazon Textract és az Amazon Comprehend segítségével kinyerjük az adatokat a dokumentumból. Az űrlapokat és táblázatokat tartalmazó strukturált és félig strukturált dokumentumokhoz az Amazon Textractot használjuk AnalyzeDocument API. Speciális dokumentumokhoz, például személyazonosító okmányokhoz az Amazon Textract biztosítja a AnalyzeID API. Egyes dokumentumok sűrű szöveget is tartalmazhatnak, és előfordulhat, hogy ki kell bontani belőlük az üzletspecifikus kulcsszavakat, más néven Szervezetek. Használjuk a egyéni entitás felismerés az Amazon Comprehend képessége egyéni entitásfelismerő betanítására, amely képes azonosítani az ilyen entitásokat a sűrű szövegből.

A következő részekben végigjárjuk a jelzáloghitel-igénylési csomagban található mintadokumentumokat, és megvitatjuk a belőlük származó információk kinyerésére használt módszereket. Mindegyik példa tartalmaz egy kódrészletet és egy rövid minta kimenetet.

Adatok kinyerése az URLA-1003 egységes lakáshitel-igénylésből

Az egységes lakáshitel-igénylés (URLA-1003) egy szabványos jelzáloghitel-igénylési űrlap. Ez egy meglehetősen összetett dokumentum, amely információkat tartalmaz a jelzáloghitel kérelmezőjéről, a megvásárolandó ingatlan típusáról, a finanszírozott összegről és az ingatlanvásárlás természetéről. A következő egy minta URLA-1003, és szándékunkban áll információkat kinyerni ebből a strukturált dokumentumból. Mivel ez egy űrlap, az AnalyzeDocument API-t egy szolgáltatástípussal használjuk FORMA.

Az ŰRLAP szolgáltatástípus űrlapinformációkat von ki a dokumentumból, amelyeket ezután kulcs-érték pár formátumban ad vissza. A következő kódrészlet a amazon-textract-textractor Python könyvtár az űrlapadatok kinyeréséhez néhány sornyi kóddal. A kényelmi módszer call_textract() felhívja a AnalyzeDocument Az API belsőleg, és a metódusnak átadott paraméterek elvonatkoztatnak néhány olyan konfigurációt, amelyre az API-nak szüksége van a kibontási feladat futtatásához. Document egy kényelmi módszer, amely segíti a JSON-válasz API-ból történő elemzését. Magas szintű absztrakciót biztosít, és iterálhatóvá teszi az API kimenetet, és könnyen kinyerhető belőle az információ. További információkért lásd: Textract Response Parser és a Textractor.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

Vegye figyelembe, hogy a kimenet az űrlapon található jelölőnégyzetek vagy rádiógombok értékeit tartalmazza. Például az URLA-1003 mintadokumentumban a Vásárlás opció lett kiválasztva. A rádiógomb megfelelő kimenete „Purchase” (kulcs) és „SELECTED” (érték), jelezve, hogy a rádiógombot kiválasztották.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

Adatok kinyerése 1099 űrlapból

A jelzáloghitel-igénylési csomag számos IRS-dokumentumot is tartalmazhat, például 1099-DIV, 1099-INT, 1099-MISC és 1099-R. Ezek a dokumentumok a kérelmező bevételeit mutatják kamatokon, osztalékokon és egyéb különféle bevételi összetevőkön keresztül, amelyek hasznosak a jegyzés során a döntések meghozatalához. A következő képen ezeknek a dokumentumoknak a gyűjteménye látható, amelyek szerkezetükben hasonlóak. Egyes esetekben azonban a dokumentumok űrlapinformációkat (a piros és zöld határolókeretekkel jelölve), valamint táblázatos információkat (sárga határolókeretekkel jelölve) tartalmaznak.

Az űrlapadatok kinyeréséhez hasonló kódot használunk, mint korábban a AnalyzeDocument API. Adunk egy további funkciót Táblázat az API-ra, jelezve, hogy a dokumentumból kinyert űrlap- és táblaadatokra is szükségünk van. A következő kódrészlet a AnalyzeDocument API FORMS és TABLES funkciókkal az 1099-INT dokumentumon:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

Mivel a dokumentum egyetlen táblázatot tartalmaz, a kód kimenete a következő:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

A táblázat információi tartalmazzák a cella pozícióját (0. sor, 0. oszlop és így tovább) és a megfelelő szöveget az egyes cellákon belül. Olyan kényelmi módszert használunk, amely a táblázat adatait könnyen olvasható rácsnézetté alakítja át:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

A következő kimenetet kapjuk:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

Ahhoz, hogy a kimenetet könnyen használható CSV formátumban kapja meg, adja meg a formátum típusát Pretty_Print_Table_Format.csv át lehet adni a table_format paraméter. Más formátumok is támogatottak, mint például a TSV (tabulátorral elválasztott értékek), a HTML és a Latex. További információkért lásd: Textract-PrettyPrinter.

Adatok kinyerése jelzáloglevélből

A jelzáloghitel-igénylési csomag tartalmazhat strukturálatlan dokumentumokat sűrű szöveggel. Néhány példa a sűrű szövegű dokumentumokra: szerződések és megállapodások. A jelzáloglevél a jelzáloghitel-igénylő és a hitelező vagy jelzáloghitel-társaság közötti megállapodás, amely sűrű szöveges bekezdésekben tartalmaz információkat. Ilyen esetekben a struktúra hiánya megnehezíti a kulcsfontosságú üzleti információk megtalálását, amelyek fontosak a jelzáloghitel-igénylési folyamatban. Két megközelítés létezik a probléma megoldására:

A következő jelzáloghitel-jegyzetmintában kifejezetten a havi törlesztőrészlet és a tőkeösszeg megtudására vagyunk kíváncsiak.

Első megközelítésben a Query és a QueriesConfig kényelmi módszerek az Amazon Textractnak továbbított kérdéskészlet konfigurálásához AnalyzeDocument API hívás. Abban az esetben, ha a dokumentum többoldalas (PDF vagy TIFF), megadhatjuk azokat az oldalszámokat is, ahol az Amazon Textract választ kereshet a kérdésre. A következő kódrészlet bemutatja, hogyan kell létrehozni a lekérdezés konfigurációját, kezdeményezni egy API-hívást, majd ezt követően elemezni a választ, hogy megkapja a válaszból származó válaszokat:

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

A következő kimenetet kapjuk:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

A második megközelítéshez az Amazon Comprehendet használjuk DetectEntities API jelzáloglevéllel, amely visszaadja a szövegben észlelt entitásokat a előre meghatározott entitáskészlet. Ezek olyan entitások, amelyekre az Amazon Comprehend entitásfelismerő előképzett. Mivel azonban követelményünk bizonyos entitások észlelése, az Amazon Comprehend egyéni entitásfelismerő egy jelzáloglevél-dokumentum mintakészlettel és az entitások listájával rendelkezik. Az entitásneveket a következőképpen határozzuk meg PRINCIPAL_AMOUNT és a MONTHLY_AMOUNT. A képzési adatok az Amazon Comprehend képzést követően készülnek adatkészítési irányelvek egyéni entitás felismeréshez. Az entitásfelismerővel betanítható dokumentum megjegyzések vagy entitáslisták. Ebben a példában entitáslistákat használunk a modell betanításához. Miután betanítottuk a modellt, telepíthetjük a valós idejű végpont vagy batch módban hogy észlelje a két entitást a dokumentum tartalmából. Az alábbiakban bemutatjuk az egyéni entitásfelismerő betanításának és üzembe helyezésének lépéseit. A teljes kódrészletért tekintse meg GitHub-tárházunkat.

Készítse elő a képzési adatokat (az entitáslista és a dokumentumok (UTF-8 kódolású) egyszerű szöveges formátumban).
Indítsa el az entitásfelismerő képzést a CreateEntityRecognizer API a képzési adatokat használva.
Telepítse a betanított modellt valós idejű végponttal a Végpont létrehozása API.

Adatok kinyerése egy amerikai útlevélből

Az Amazon Textact személyazonosító okmányok elemzése A funkció képes észlelni és kivonni az egyesült államokbeli személyazonosító okmányokból, például vezetői engedélyből és útlevélből származó információkat. A AnalyzeID Az API képes felismerni és értelmezni az azonosító dokumentumokban található implikált mezőket, ami megkönnyíti a konkrét információk kinyerését a dokumentumból. A személyazonosító okmányok szinte mindig a jelzáloghitel-igénylési csomag részét képezik, mivel a jegyzési folyamat során a hitelfelvevő személyazonosságának ellenőrzésére, valamint a hitelfelvevő életrajzi adatainak helyességének ellenőrzésére szolgálnak.

elnevezésű kényelmi módszert használunk call_textract_analyzeid, amely a AnalyzeID API belsőleg. Ezután ismételjük a választ, hogy megkapjuk az észlelt kulcs-érték párokat az azonosító dokumentumból. Lásd a következő kódot:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID nevű struktúrában ad vissza információt IdentityDocumentFields, amely a normalizált kulcsokat és a hozzájuk tartozó értékeket tartalmazza. Például a következő kimenetben FIRST_NAME egy normalizált kulcs, az érték pedig ALEJANDRO. A példa útlevélképen az utónév mezője a „Guven Names / Prénoms / Nombre” felirattal van ellátva. AnalyzeID normalizálni tudta ezt a kulcsnévbe FIRST_NAME. A támogatott normalizált mezők listáját lásd: Azonosító dokumentációs válaszobjektumok.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

A jelzáloghitel-csomag számos más dokumentumot is tartalmazhat, például fizetési lapot, W2 űrlapot, bankszámlakivonatot, hitelkártya-kivonatot és munkaviszonyt igazoló levelet. Mindegyik dokumentumhoz rendelkezünk mintával, valamint a belőlük származó adatok kinyeréséhez szükséges kóddal. A teljes kódbázisért tekintse meg a mi notebookjainkat GitHub tárház.

Dokumentumgazdagítás

A dokumentumok gazdagításának egyik leggyakoribb formája az érzékeny vagy bizalmas információk szerkesztése a dokumentumokon, amelyet az adatvédelmi törvények vagy szabályozások kötelezhetnek. Például a jelzáloghitel-kérelmező fizetési lapja érzékeny személyazonosításra alkalmas adatokat tartalmazhat, például nevet, címet és SSN-t, amelyeket esetleg módosítani kell a hosszabb tárolás érdekében.

Az előző fizetési lap dokumentummintájában végrehajtjuk a személyazonosításra alkalmas adatok (például SSN, név, bankszámlaszám és dátumok) szerkesztését. A személyazonosításra alkalmas adatok dokumentumban történő azonosítására az Amazon Comprehend szoftvert használjuk PII észlelés képesség révén DetectPIIEntities API. Ez az API megvizsgálja a dokumentum tartalmát, hogy azonosítsa a személyazonosításra alkalmas adatok jelenlétét. Mivel ez az API UTF-8 kódolású egyszerű szöveges formátumot igényel, először kivonjuk a szöveget a dokumentumból az Amazon Textract segítségével. DetectDocumentText API, amely visszaadja a szöveget a dokumentumból, valamint geometriai információkat, például határolókeret méreteit és koordinátáit. A két kimenet kombinációja ezután a gazdagítási folyamat részeként szerkesztéseket rajzol a dokumentumra.

Az adatok áttekintése, érvényesítése és integrálása

A dokumentum-kinyerési fázisból kinyert adatokat bizonyos üzleti szabályokkal összhangban ellenőrizni kell. A konkrét információk több dokumentumon is érvényesíthetők, más néven cross-doc validálás. A cross-doc érvényesítésre példa lehet a kérelmező személyazonosító okmányban szereplő nevének és a jelzáloghitel-igénylési dokumentumban szereplő névnek az összehasonlítása. Ebben a fázisban más ellenőrzéseket is végezhet, például ingatlanérték-becsléseket és feltételes biztosítási döntéseket.

Az érvényesítés harmadik típusa a kinyert adatok megbízhatósági pontszámához kapcsolódik a dokumentumkinyerési fázisban. Az Amazon Textract és az Amazon Comprehend megbízhatósági pontszámot ad vissza az észlelt űrlapokra, táblázatokra, szöveges adatokra és entitásokra vonatkozóan. Konfigurálhat egy megbízhatósági pontszám küszöbértéket, hogy biztosítsa, hogy csak a megfelelő értékek kerüljenek elküldésre. Ez az Amazon A2I segítségével érhető el, amely összehasonlítja az észlelt adatok megbízhatósági pontszámait egy előre meghatározott megbízhatósági küszöbértékkel. Ha a küszöbértéket nem éri el, a dokumentum és a kibontott kimenet egy intuitív felhasználói felületen keresztül egy emberhez kerül áttekintésre. A felülvizsgáló helyesbítő intézkedéseket tesz az adatokkal kapcsolatban, és elmenti azokat további feldolgozás céljából. További információkért lásd: Az Amazon A2I alapfogalmai.

Következtetés

Ebben a bejegyzésben az intelligens dokumentumfeldolgozás fázisait tárgyaltuk, mivel az a jelzáloghitel-igénylés fázisaihoz kapcsolódik. Megnéztünk néhány gyakori példát a jelzáloghitel-igénylési csomagban található dokumentumokra. Megbeszéltük a strukturált, félig strukturált és strukturálatlan tartalom kinyerésének és feldolgozásának módjait is ezekből a dokumentumokból. Az IDP lehetőséget biztosít a végpontok közötti jelzáloghitel-dokumentum-feldolgozás automatizálására, amely több millió dokumentumra méretezhető, javítva a kérelmezési döntések minőségét, csökkentve a költségeket és gyorsabban kiszolgálva az ügyfeleket.

Következő lépésként kipróbálhatja a mi kódmintákat és jegyzetfüzeteinket GitHub tárház. Ha többet szeretne megtudni arról, hogy az IDP hogyan segítheti a dokumentumfeldolgozási terheléseket, látogasson el a webhelyre Automatizálja a dokumentumokból származó adatfeldolgozást.

A szerzőkről

Anjan Biswas vezető mesterséges intelligencia-szolgáltatási építész, aki az AI/ML-re és az adatelemzésre összpontosít. Anjan a világméretű mesterségesintelligencia-szolgáltatási csapat tagja, és az ügyfelekkel dolgozik, hogy segítsen nekik megérteni és megoldásokat kidolgozni az AI és az ML üzleti problémáira. Anjan több mint 14 éves tapasztalattal rendelkezik a globális ellátási lánc, gyártó és kiskereskedelmi szervezetekkel kapcsolatban, és aktívan segíti ügyfeleit az AWS AI-szolgáltatások megkezdésében és bővítésében.

Dwiti Pathak Senior Technical Account Manager San Diego-ban. Arra összpontosít, hogy segítse a Semiconductor iparágat az AWS-ben való részvételben. Szabadidejében szeret új technológiákról olvasni és társasjátékozni.

Balaji Puli Solutions Architect, székhelye Bay Area, CA. Jelenleg az Egyesült Államok északnyugati részének egészségügyi élettudományi ügyfelei számára segítünk az AWS felhő bevezetésének felgyorsításában. Balaji szeret utazni, és szereti felfedezni a különböző konyhákat.

Időbélyeg: 26. augusztus 2022.26. augusztus 2022.

A jelzáloghitel-dokumentumok feldolgozása intelligens dokumentumfeldolgozással az Amazon Textract és az Amazon Comprehend segítségével

Újra kiadta Platón

Megoldás áttekintése

Dokumentumtárolás

A dokumentum besorolása

Iratkivonat

Adatok kinyerése az URLA-1003 egységes lakáshitel-igénylésből

Adatok kinyerése 1099 űrlapból

Adatok kinyerése jelzáloglevélből

Adatok kinyerése egy amerikai útlevélből

Dokumentumgazdagítás

Az adatok áttekintése, érvényesítése és integrálása

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Az ellenséges bemenetek észlelése az Amazon SageMaker Model Monitor és az Amazon SageMaker Debugger segítségével

Telepítsen nagy modelleket az Amazon SageMaker-en a DJLServing és a DeepSpeed modell párhuzamos következtetésével

A fejlesztői termelékenység növelése: Hogyan használja a Deloitte az Amazon SageMaker Canvast kód nélküli/alacsony kódú gépi tanuláshoz | Amazon webszolgáltatások

Tanulás átvitele a TensorFlow objektumészlelési modellekhez az Amazon SageMakerben

Automatizálja és implementálja a verzióvezérlést az Amazon Kendra GYIK-hez

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók