עבד מסמכי משכנתא עם עיבוד מסמכים חכם באמצעות Amazon Textract ו- Amazon Comprehend PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עבד מסמכי משכנתא עם עיבוד מסמכים חכם באמצעות Amazon Textract ו- Amazon Comprehend

ארגונים בענף ההלוואות והמשכנתאות מעבדים אלפי מסמכים על בסיס יומי. החל מבקשת משכנתא חדשה ועד למיחזור משכנתא, תהליכים עסקיים אלה כוללים מאות מסמכים לכל בקשה. קיימת היום אוטומציה מוגבלת לעיבוד והפקת מידע מכל המסמכים, במיוחד בשל פורמטים ופריסות משתנות. בשל נפח גדול של יישומים, לכידת תובנות אסטרטגיות וקבלת מידע מפתח מהתוכן הוא תהליך גוזל זמן, ידני מאוד, מועד לשגיאות ויקר. כלים מדור קודם לזיהוי תווים אופטי (OCR) הינם בעלי עלות אוסרנית, מועדים לשגיאות, כרוכים בתצורה רבה וקשה להרחיב אותם. עיבוד מסמכים חכם (IDP) עם שירותי בינה מלאכותית (AI) של AWS מסייעים לאוטומציה ולהאיץ את עיבוד בקשת המשכנתא עם מטרות של החלטות מהירות ואיכותיות יותר, תוך הפחתת העלויות הכוללות.

בפוסט זה, אנו מדגימים כיצד אתה יכול להשתמש ביכולות למידת מכונה (ML) עם טקסטורה באמזון, ו אמזון להתבונן לעיבוד מסמכים בבקשת משכנתא חדשה, ללא צורך בכישורי ML. אנו בוחנים את השלבים השונים של IDP כפי שמוצג באיור הבא, וכיצד הם מתחברים לשלבים הכרוכים בתהליך בקשת משכנתא, כגון הגשת בקשה, חיתום, אימות וסגירה.

למרות שכל בקשת משכנתא עשויה להיות ייחודית, לקחנו בחשבון כמה מהמסמכים הנפוצים ביותר הכלולים בבקשת משכנתא, כגון טופס בקשת הלוואת מגורים מאוחדת (URLA-1003), טפסי 1099 ושטר משכנתא.

סקירת פתרונות

Amazon Textract הוא שירות ML המחלץ אוטומטית טקסט, כתב יד ונתונים ממסמכים סרוקים באמצעות דגמי ML מאומנים מראש. Amazon Comprehend הוא שירות עיבוד שפה טבעית (NLP) המשתמש ב-ML כדי לחשוף תובנות וקשרים חשובים בטקסט ויכול לבצע סיווג מסמכים, זיהוי ישויות שם (NER), מודלים של נושאים ועוד.

האיור הבא מציג את שלבי ה- IDP כפי שהוא מתייחס לשלבים של תהליך בקשת משכנתא.

תמונה מציגה ארכיטקטורת פתרונות ברמה גבוהה לשלבים של עיבוד מסמכים חכם (IDP) בהתייחס לשלבים של בקשת משכנתא.

בתחילת התהליך, מסמכים מועלים ל- an שירות אחסון פשוט של אמזון דלי (Amazon S3). זה מתחיל תהליך סיווג מסמכים כדי לסווג את המסמכים לקטגוריות ידועות. לאחר סיווג המסמכים, השלב הבא הוא הוצאת מידע מפתח מהם. לאחר מכן, אנו מבצעים העשרה עבור מסמכים נבחרים, שיכולים להיות דברים כמו עריכת מידע מזהה אישי (PII), תיוג מסמכים, עדכוני מטא נתונים ועוד. השלב הבא כולל אימות הנתונים שחולצו בשלבים קודמים כדי להבטיח את שלמות בקשת המשכנתא. ניתן לבצע אימות באמצעות כללי אימות עסקי וכללי אימות צולבים של מסמכים. ניתן גם להשוות את ציוני האמון של המידע שחולץ לסף מוגדר, ולנתב אוטומטית לסוקר אנושי דרך אמזון AI מוגדל (Amazon A2I) אם הסף אינו עומד. בשלב הסופי של התהליך, הנתונים המחולצים והמאומתים נשלחים למערכות במורד הזרם להמשך אחסון, עיבוד או ניתוח נתונים.

בסעיפים הבאים, נדון בשלבים של IDP בהתייחס לשלבי בקשת המשכנתא בפירוט. אנו עוברים על שלבי ה- IDP ודנים בסוגי המסמכים; כיצד אנו מאחסנים, מסווגים ומחלצים מידע, וכיצד אנו מעשירים את המסמכים באמצעות למידת מכונה.

אחסון מסמכים

Amazon S3 הוא שירות אחסון אובייקטים המציע מדרגיות מובילה בתעשייה, זמינות נתונים, אבטחה וביצועים. אנו משתמשים באמזון S3 כדי לאחסן בצורה מאובטחת את מסמכי המשכנתא במהלך ואחרי תהליך בקשת המשכנתא. א חבילת בקשה למשכנתא עשוי להכיל מספר סוגים של טפסים ומסמכים, כגון URLA-1003, 1099-INT/DIV/RR/MISC, W2, תלושי תשלום, דפי בנק, דפי כרטיסי אשראי ועוד. מסמכים אלו מוגשים על ידי המבקש בשלב בקשת המשכנתא. מבלי לעיין בהם באופן ידני, ייתכן שלא יהיה ברור מיד אילו מסמכים כלולים בחבילה. תהליך ידני זה עשוי להיות גוזל זמן ויקר. בשלב הבא, אנו הופכים את התהליך הזה לאוטומטי באמצעות Amazon Comprehend כדי לסווג את המסמכים לקטגוריות המתאימות שלהם בדיוק גבוה.

סיווג מסמכים

סיווג מסמכים הוא שיטה שבאמצעותה ניתן לסווג ולתייג מספר רב של מסמכים לא מזוהים. אנו מבצעים סיווג מסמכים זה באמצעות Amazon Comprehend מסווג מותאם אישית. מסווג מותאם אישית הוא מודל ML שניתן לאמן עם קבוצה של מסמכים מתויגים כדי לזהות את השיעורים שמעניינים אותך. לאחר הדרכה והפריסה של המודל מאחורי נקודת קצה מתארחת, נוכל להשתמש במסווג כדי לקבוע לאיזו קטגוריה (או מחלקה) שייך מסמך מסוים. במקרה זה, אנו מאמנים מסווג מותאם אישית ב מצב רב-מחלקה, שניתן לעשות עם קובץ CSV או קובץ מניפסט מוגדל. למטרות הדגמה זו, אנו משתמשים בקובץ CSV כדי לאמן את המסווג. עיין שלנו מאגר GitHub לדגימת הקוד המלאה. להלן סקירה ברמה גבוהה של השלבים המעורבים:

  1. חלץ טקסט רגיל מקודד UTF-8 מקובצי תמונה או PDF באמצעות Amazon Textract DetectDocumentText ה-API.
  2. הכן נתוני אימון כדי להכשיר מסווג מותאם אישית בפורמט CSV.
  3. אימון מסווג מותאם אישית באמצעות קובץ ה-CSV.
  4. פרוס את המודל המאומן עם נקודת קצה לסיווג מסמכים בזמן אמת או השתמש במצב ריבוי מחלקות, התומך הן בפעולות בזמן אמת והן בפעולות אסינכרוניות.

התרשים הבא ממחיש תהליך זה.

התמונה מציגה את תהליך אימון המסווגים המותאם אישית של Amazon Comprehend וסיווג מסמכים באמצעות מודל המסווגים המאומנים והפרוסים (זמן אמת או אצווה).

אתה יכול להפוך את סיווג המסמכים לאוטומטי באמצעות נקודת הקצה שנפרסה כדי לזהות ולסווג מסמכים. אוטומציה זו שימושית כדי לוודא אם כל המסמכים הנדרשים נמצאים בחבילת משכנתא. ניתן לזהות מסמך חסר במהירות, ללא התערבות ידנית, ולהודיע ​​לפונה הרבה יותר מוקדם בתהליך.

חילוץ מסמכים

בשלב זה, אנו מחלצים נתונים מהמסמך באמצעות Amazon Textract ו- Amazon Comprehend. עבור מסמכים מובנים ומובנים למחצה המכילים טפסים וטבלאות, אנו משתמשים ב-Amazon Textract נתח את המסמך ממשק API. עבור מסמכים מיוחדים כגון מסמכי זיהוי, Amazon Textract מספקת את ניתוח מזהה ממשק API. מסמכים מסוימים עשויים להכיל גם טקסט צפוף, וייתכן שתצטרך לחלץ מהם מונחי מפתח ספציפיים לעסק, הידועים גם בשם ישויות. אנו משתמשים ב- זיהוי ישות מותאם אישית היכולת של Amazon Comprehend לאמן מזהה ישויות מותאם אישית, שיכול לזהות ישויות כאלה מהטקסט הצפוף.

בחלקים הבאים, אנו עוברים על המסמכים לדוגמה המצויים בחבילת בקשה למשכנתא, ונדון בשיטות המשמשות להוצאת מידע מהם. עבור כל אחת מהדוגמאות הללו, כלולים קטע קוד ופלט דוגמה קצר.

חלץ נתונים מאפליקציית Unified Residential Loan Application URLA-1003

בקשה להלוואת מגורים מאוחדת (URLA-1003) היא טופס בקשה להלוואת משכנתא סטנדרטית בתעשייה. מדובר במסמך מורכב למדי המכיל מידע על מבקש המשכנתא, סוג הנכס הנרכש, סכום המימון ופרטים נוספים על אופי רכישת הנכס. להלן דוגמה של URLA-1003, והכוונה שלנו היא לחלץ מידע ממסמך מובנה זה. מכיוון שזהו טופס, אנו משתמשים ב-AnalyzeDocument API עם סוג תכונה של טופס.

התמונה מציגה דוגמה של טופס בקשה להלוואות מאוחדות למגורים URLA-1003

סוג התכונה FORM מחלץ מידע על טופס מהמסמך, המוחזר לאחר מכן בפורמט זוג מפתח-ערך. קטע הקוד הבא משתמש ב- amazon-textract-textractor ספריית Python כדי לחלץ מידע על טופס עם מספר שורות קוד בלבד. שיטת הנוחות call_textract() קורא ל- AnalyzeDocument API באופן פנימי, והפרמטרים שהועברו לשיטה מפשטים חלק מהקונפיגורציות שה-API צריך כדי להפעיל את משימת החילוץ. Document היא שיטת נוחות המשמשת כדי לעזור לנתח את תגובת ה-JSON מה-API. הוא מספק הפשטה ברמה גבוהה והופך את פלט ה-API לחזרה וקל להוציא ממנו מידע. למידע נוסף, עיין ב מנתח תגובה של Textract ו טקסטקטור.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

שימו לב שהפלט מכיל ערכים עבור תיבות סימון או לחצני בחירה הקיימים בטופס. לדוגמה, במסמך URLA-1003 לדוגמה, ה- לִרְכּוֹשׁ נבחרה האפשרות. הפלט המתאים עבור לחצן הבחירה נשלף כ"Purchase" (מפתח) ו"SELECTED" (ערך), המציין כי לחצן הבחירה נבחר.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

חלץ נתונים מ-1099 טפסים

חבילת בקשה למשכנתא עשויה להכיל גם מספר מסמכי IRS, כגון 1099-DIV, 1099-INT, 1099-MISC ו-1099-R. מסמכים אלה מראים את הרווחים של המבקש באמצעות ריביות, דיבידנדים ורכיבי הכנסה שונים אחרים שמועילים במהלך החיתום לקבלת החלטות. התמונה הבאה מציגה אוסף של מסמכים אלה, הדומים במבנה. עם זאת, במקרים מסוימים, המסמכים מכילים מידע על טופס (מסומן באמצעות התיבות התוחמות האדומות והירוקות) וכן מידע טבלאי (מסומן בתיבות התוחמות הצהובות).

התמונה מציגה דוגמאות של 1099 צורות INT, DIV, MISC ו-R.

כדי לחלץ מידע על טופס, אנו משתמשים בקוד דומה כפי שהוסבר קודם לכן עם AnalyzeDocument ממשק API. אנו מעבירים תכונה נוספת של טבלה ל-API כדי לציין שאנחנו צריכים גם נתוני טופס וגם טבלה שנשלפו מהמסמך. קטע הקוד הבא משתמש ב- AnalyzeDocument ממשק API עם תכונות FORMS ו- TABLES במסמך 1099-INT:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

מכיוון שהמסמך מכיל טבלה בודדת, הפלט של הקוד הוא כדלקמן:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

מידע הטבלה מכיל את מיקום התא (שורה 0, עמודה 0 וכן הלאה) ואת הטקסט המתאים בתוך כל תא. אנו משתמשים בשיטת נוחות שיכולה להפוך את נתוני הטבלה הללו לתצוגת רשת קלה לקריאה:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

אנו מקבלים את הפלט הבא:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

כדי לקבל את הפלט בפורמט CSV קל לצריכה, סוג הפורמט של Pretty_Print_Table_Format.csv ניתן להעביר לתוך table_format פָּרָמֶטֶר. פורמטים אחרים כגון TSV (ערכים מופרדים באמצעות כרטיסיות), HTML ולטקס נתמכים גם הם. למידע נוסף, עיין ב Textract-PrettyPrinter.

חילוץ נתונים משטר משכנתא

חבילת בקשה למשכנתא עשויה להכיל מסמכים לא מובנים עם טקסט צפוף. כמה דוגמאות למסמכי טקסט צפופים הם חוזים והסכמים. שטר משכנתא הוא הסכם בין מבקש משכנתא לבין המלווה או החברה המשכנת, ומכיל מידע בפסקאות טקסט צפופות. במקרים כאלה, חוסר המבנה מקשה על מציאת מידע עסקי מרכזי וחשוב בתהליך בקשת המשכנתא. ישנן שתי גישות לפתרון בעיה זו:

בהערת המשכנתא לדוגמה הבאה, אנו מעוניינים במיוחד לברר את סכום התשלום החודשי ואת סכום הקרן.

תמונה מציגה דוגמה של מסמך שטר משכנתא.

עבור הגישה הראשונה, אנו משתמשים ב- Query ו QueriesConfig שיטות נוחות להגדרת קבוצת שאלות המועברת ל-Amazon Textract AnalyzeDocument קריאת API. במקרה שהמסמך הוא מרובה עמודים (PDF או TIFF), נוכל גם לציין את מספרי העמודים שבהם Amazon Textract צריכה לחפש תשובות לשאלה. קטע הקוד הבא מדגים כיצד ליצור את תצורת השאילתה, לבצע קריאת API, ולאחר מכן לנתח את התגובה כדי לקבל את התשובות מהתגובה:

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

אנו מקבלים את הפלט הבא:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

עבור הגישה השנייה, אנו משתמשים ב- Amazon Comprehend DetectEntities API עם שטר המשכנתא, שמחזיר את הישויות שהוא מזהה בתוך הטקסט מא קבוצה מוגדרת מראש של ישויות. אלו ישויות שמזהה הישויות של Amazon Comprehend עבר הכשרה מראש איתם. עם זאת, מכיוון שהדרישה שלנו היא לזהות ישויות ספציפיות, מזהה ישויות מותאם אישית של Amazon Comprehend מאומן עם קבוצה של מסמכי שטר משכנתא לדוגמה, ורשימת ישויות. אנו מגדירים את שמות הישויות כ PRINCIPAL_AMOUNT ו MONTHLY_AMOUNT. נתוני ההדרכה מוכנים בעקבות ההדרכה של Amazon Comprehend הנחיות להכנת נתונים לזיהוי ישות מותאמת אישית. ניתן להכשיר את מזהה הישות הערות מסמכים או עם רשימות ישויות. למטרות דוגמה זו, אנו משתמשים ברשימות ישויות כדי להכשיר את המודל. לאחר שנאמן את המודל, נוכל לפרוס אותו באמצעות א נקודת קצה בזמן אמת או במצב אצווה כדי לזהות את שתי הישויות מתוכן המסמך. להלן השלבים המעורבים כדי להכשיר מזהה ישויות מותאם אישית ולפרוס אותו. להדרכה מלאה על קוד, עיין במאגר GitHub שלנו.

  1. הכן את נתוני ההדרכה (רשימת הישויות והמסמכים בפורמט טקסט רגיל (מקודד UTF-8).
  2. התחל את הכשרת מזהה ישויות באמצעות CreateEntityRecognizer API באמצעות נתוני ההדרכה.
  3. פרוס את המודל המאומן עם נקודת קצה בזמן אמת באמצעות ה צור נקודת קצה ה-API.

חילוץ נתונים מדרכון אמריקאי

The Amazon Textract לנתח מסמכי זהות היכולת לזהות ולחלץ מידע ממסמכי זיהוי מבוססי ארה"ב כגון רישיון נהיגה ודרכון. ה AnalyzeID API מסוגל לזהות ולפרש שדות מרומזים במסמכי זיהוי, מה שמקל על חילוץ מידע ספציפי מהמסמך. מסמכי זהות הם כמעט תמיד חלק מחבילת בקשה למשכנתא, מכיוון שהם משמשים לאימות זהות הלווה במהלך תהליך החיתום, ולאמת את נכונות הנתונים הביוגרפיים של הלווה.

התמונה מציגה דוגמה של דרכון אמריקאי

אנו משתמשים בשיטת נוחות בשם call_textract_analyzeid, המכנה את AnalyzeID API פנימי. לאחר מכן אנו חוזרים על התגובה כדי להשיג את צמדי המפתח-ערך שזוהו ממסמך הזיהוי. ראה את הקוד הבא:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID מחזיר מידע במבנה שנקרא IdentityDocumentFields, המכיל את המפתחות המנורמלים והערך המתאים להם. לדוגמה, בפלט הבא, FIRST_NAME הוא מפתח מנורמל והערך הוא ALEJANDRO. בתמונת הדרכון לדוגמה, השדה עבור השם הפרטי מסומן בתור "שמות נתונים / Prénoms / Nombre", אולם AnalyzeID הצליח לנרמל את זה לשם המפתח FIRST_NAME. לרשימה של שדות מנורמלים נתמכים, עיין ב אובייקטי תגובה של תיעוד זהות.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

חבילת משכנתא עשויה להכיל מספר מסמכים נוספים, כגון תלוש משכורת, טופס W2, הצהרת בנק, הצהרת כרטיס אשראי ומכתב אימות העסקה. יש לנו דוגמאות לכל אחד מהמסמכים הללו יחד עם הקוד הנדרש כדי לחלץ מהם נתונים. לבסיס הקוד המלא, עיין במחברות שלנו מאגר GitHub.

העשרת מסמכים

אחת הצורות הנפוצות ביותר של העשרת מסמכים היא עריכת מידע רגיש או סודי במסמכים, אשר עשויה להיות מחויבת בשל חוקים או תקנות פרטיות. לדוגמה, תלוש השכר של מבקש משכנתא עשוי להכיל נתוני PII רגישים, כגון שם, כתובת ו-SSN, שעשויים להזדקק לשינוי לצורך אחסון מורחב.

במסמך תלוש התשלום לדוגמה הקודם, אנו מבצעים עיבוד של נתוני PII כגון SSN, שם, מספר חשבון בנק ותאריכים. כדי לזהות נתוני PII במסמך, אנו משתמשים ב-Amazon Comprehend זיהוי PII יכולת דרך ה DetectPIIEntities ממשק API. API זה בודק את תוכן המסמך כדי לזהות נוכחות של מידע PII. מכיוון שה-API הזה דורש קלט בפורמט טקסט רגיל מקודד UTF-8, תחילה אנו מחלצים את הטקסט מהמסמך באמצעות Amazon Textract DetectDocumentText API, שמחזיר את הטקסט מהמסמך וגם מחזיר מידע גיאומטריה כמו מידות וקואורדינטות של תיבה תוחמת. לאחר מכן נעשה שימוש בשילוב של שני הפלטים כדי לצייר עריכות על המסמך כחלק מתהליך ההעשרה.

סקור, אמת ושלב נתונים

נתונים שחולצו משלב חילוץ המסמכים עשויים להזדקק לאימות מול כללים עסקיים ספציפיים. מידע ספציפי עשוי להיות מאומת על פני מספר מסמכים, הידוע גם בשם אימות צולב דוק. דוגמה לאימות צולבת יכולה להיות השוואת שם המבקש בתעודת הזהות לשם במסמך הבקשה למשכנתא. בשלב זה ניתן גם לבצע תיקופים אחרים כגון הערכות שווי נכס והחלטות חיתום מותנות.

סוג שלישי של אימות קשור לציון הביטחון של הנתונים שחולצו בשלב חילוץ המסמכים. Amazon Textract ו- Amazon Comprehend מחזירות ציון ביטחון עבור טפסים, טבלאות, נתוני טקסט וישויות שזוהו. אתה יכול להגדיר סף ציון ביטחון כדי להבטיח שרק ערכים נכונים נשלחים במורד הזרם. זה מושג באמצעות Amazon A2I, אשר משווה את ציוני הביטחון של נתונים שזוהו עם סף ביטחון מוגדר מראש. אם הסף אינו עומד, המסמך והפלט שחולץ מנותבים לאדם לבדיקה באמצעות ממשק משתמש אינטואיטיבי. המבקר נוקט בפעולות מתקנות על הנתונים ושומר אותם להמשך עיבוד. למידע נוסף, עיין ב מושגי ליבה של אמזון A2I.

סיכום

בפוסט זה, דנו בשלבים של עיבוד מסמכים מושכל בהתייחסו לשלבים של בקשת משכנתא. בדקנו כמה דוגמאות נפוצות למסמכים שניתן למצוא בחבילת בקשה למשכנתא. דנו גם בדרכים לחילוץ ועיבוד תוכן מובנה, חצי מובנה ובלתי מובנה ממסמכים אלה. IDP מספקת דרך לבצע אוטומציה של עיבוד מסמכי משכנתא מקצה לקצה שניתן להגדיל למיליוני מסמכים, לשפר את איכות החלטות הבקשה, להפחית עלויות ולשרת לקוחות מהר יותר.

כשלב הבא, תוכל לנסות את דוגמאות הקוד והמחברות שלנו מאגר GitHub. למידע נוסף על האופן שבו IDP יכול לעזור לעומסי העבודה שלך בעיבוד המסמכים, בקר אוטומציה של עיבוד נתונים ממסמכים.


על המחברים

עבד מסמכי משכנתא עם עיבוד מסמכים חכם באמצעות Amazon Textract ו- Amazon Comprehend PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.אנג'אן ביזוואז הוא ארכיטקט בכיר בשירותי AI עם דגש על AI/ML ו-Data Analytics. Anjan הוא חלק מצוות שירותי הבינה המלאכותית העולמית ועובד עם לקוחות כדי לעזור להם להבין ולפתח פתרונות לבעיות עסקיות עם AI ו-ML. לאנג'אן יש למעלה מ-14 שנות ניסיון בעבודה עם שרשרת אספקה, ייצור וקמעונאות גלובלית, והיא עוזרת ללקוחות להתחיל ולהתקדם בשירותי AI של AWS.

עבד מסמכי משכנתא עם עיבוד מסמכים חכם באמצעות Amazon Textract ו- Amazon Comprehend PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.דוויטי פאתאק הוא מנהל חשבונות טכני בכיר שבסיסו מסן דייגו. היא מתמקדת בסיוע לתעשיית המוליכים למחצה לעסוק ב-AWS. בזמנה הפנוי היא אוהבת לקרוא על טכנולוגיות חדשות ולשחק במשחקי לוח.

עבד מסמכי משכנתא עם עיבוד מסמכים חכם באמצעות Amazon Textract ו- Amazon Comprehend PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.בלאג'י פולי הוא אדריכל פתרונות שבסיסו באזור ביי, קליפורניה. כרגע עוזר ללקוחות נבחרים בצפון-מערב ארה"ב בתחום מדעי החיים להאיץ את אימוץ הענן של AWS. Balaji נהנה לטייל ואוהב לחקור מאכלים שונים.

בול זמן:

עוד מ למידת מכונות AWS