ארגונים בענף ההלוואות והמשכנתאות מעבדים אלפי מסמכים על בסיס יומי. החל מבקשת משכנתא חדשה ועד למיחזור משכנתא, תהליכים עסקיים אלה כוללים מאות מסמכים לכל בקשה. קיימת היום אוטומציה מוגבלת לעיבוד והפקת מידע מכל המסמכים, במיוחד בשל פורמטים ופריסות משתנות. בשל נפח גדול של יישומים, לכידת תובנות אסטרטגיות וקבלת מידע מפתח מהתוכן הוא תהליך גוזל זמן, ידני מאוד, מועד לשגיאות ויקר. כלים מדור קודם לזיהוי תווים אופטי (OCR) הינם בעלי עלות אוסרנית, מועדים לשגיאות, כרוכים בתצורה רבה וקשה להרחיב אותם. עיבוד מסמכים חכם (IDP) עם שירותי בינה מלאכותית (AI) של AWS מסייעים לאוטומציה ולהאיץ את עיבוד בקשת המשכנתא עם מטרות של החלטות מהירות ואיכותיות יותר, תוך הפחתת העלויות הכוללות.
בפוסט זה, אנו מדגימים כיצד אתה יכול להשתמש ביכולות למידת מכונה (ML) עם טקסטורה באמזון, ו אמזון להתבונן לעיבוד מסמכים בבקשת משכנתא חדשה, ללא צורך בכישורי ML. אנו בוחנים את השלבים השונים של IDP כפי שמוצג באיור הבא, וכיצד הם מתחברים לשלבים הכרוכים בתהליך בקשת משכנתא, כגון הגשת בקשה, חיתום, אימות וסגירה.
למרות שכל בקשת משכנתא עשויה להיות ייחודית, לקחנו בחשבון כמה מהמסמכים הנפוצים ביותר הכלולים בבקשת משכנתא, כגון טופס בקשת הלוואת מגורים מאוחדת (URLA-1003), טפסי 1099 ושטר משכנתא.
סקירת פתרונות
Amazon Textract הוא שירות ML המחלץ אוטומטית טקסט, כתב יד ונתונים ממסמכים סרוקים באמצעות דגמי ML מאומנים מראש. Amazon Comprehend הוא שירות עיבוד שפה טבעית (NLP) המשתמש ב-ML כדי לחשוף תובנות וקשרים חשובים בטקסט ויכול לבצע סיווג מסמכים, זיהוי ישויות שם (NER), מודלים של נושאים ועוד.
האיור הבא מציג את שלבי ה- IDP כפי שהוא מתייחס לשלבים של תהליך בקשת משכנתא.
בתחילת התהליך, מסמכים מועלים ל- an שירות אחסון פשוט של אמזון דלי (Amazon S3). זה מתחיל תהליך סיווג מסמכים כדי לסווג את המסמכים לקטגוריות ידועות. לאחר סיווג המסמכים, השלב הבא הוא הוצאת מידע מפתח מהם. לאחר מכן, אנו מבצעים העשרה עבור מסמכים נבחרים, שיכולים להיות דברים כמו עריכת מידע מזהה אישי (PII), תיוג מסמכים, עדכוני מטא נתונים ועוד. השלב הבא כולל אימות הנתונים שחולצו בשלבים קודמים כדי להבטיח את שלמות בקשת המשכנתא. ניתן לבצע אימות באמצעות כללי אימות עסקי וכללי אימות צולבים של מסמכים. ניתן גם להשוות את ציוני האמון של המידע שחולץ לסף מוגדר, ולנתב אוטומטית לסוקר אנושי דרך אמזון AI מוגדל (Amazon A2I) אם הסף אינו עומד. בשלב הסופי של התהליך, הנתונים המחולצים והמאומתים נשלחים למערכות במורד הזרם להמשך אחסון, עיבוד או ניתוח נתונים.
בסעיפים הבאים, נדון בשלבים של IDP בהתייחס לשלבי בקשת המשכנתא בפירוט. אנו עוברים על שלבי ה- IDP ודנים בסוגי המסמכים; כיצד אנו מאחסנים, מסווגים ומחלצים מידע, וכיצד אנו מעשירים את המסמכים באמצעות למידת מכונה.
אחסון מסמכים
Amazon S3 הוא שירות אחסון אובייקטים המציע מדרגיות מובילה בתעשייה, זמינות נתונים, אבטחה וביצועים. אנו משתמשים באמזון S3 כדי לאחסן בצורה מאובטחת את מסמכי המשכנתא במהלך ואחרי תהליך בקשת המשכנתא. א חבילת בקשה למשכנתא עשוי להכיל מספר סוגים של טפסים ומסמכים, כגון URLA-1003, 1099-INT/DIV/RR/MISC, W2, תלושי תשלום, דפי בנק, דפי כרטיסי אשראי ועוד. מסמכים אלו מוגשים על ידי המבקש בשלב בקשת המשכנתא. מבלי לעיין בהם באופן ידני, ייתכן שלא יהיה ברור מיד אילו מסמכים כלולים בחבילה. תהליך ידני זה עשוי להיות גוזל זמן ויקר. בשלב הבא, אנו הופכים את התהליך הזה לאוטומטי באמצעות Amazon Comprehend כדי לסווג את המסמכים לקטגוריות המתאימות שלהם בדיוק גבוה.
סיווג מסמכים
סיווג מסמכים הוא שיטה שבאמצעותה ניתן לסווג ולתייג מספר רב של מסמכים לא מזוהים. אנו מבצעים סיווג מסמכים זה באמצעות Amazon Comprehend מסווג מותאם אישית. מסווג מותאם אישית הוא מודל ML שניתן לאמן עם קבוצה של מסמכים מתויגים כדי לזהות את השיעורים שמעניינים אותך. לאחר הדרכה והפריסה של המודל מאחורי נקודת קצה מתארחת, נוכל להשתמש במסווג כדי לקבוע לאיזו קטגוריה (או מחלקה) שייך מסמך מסוים. במקרה זה, אנו מאמנים מסווג מותאם אישית ב מצב רב-מחלקה, שניתן לעשות עם קובץ CSV או קובץ מניפסט מוגדל. למטרות הדגמה זו, אנו משתמשים בקובץ CSV כדי לאמן את המסווג. עיין שלנו מאגר GitHub לדגימת הקוד המלאה. להלן סקירה ברמה גבוהה של השלבים המעורבים:
- חלץ טקסט רגיל מקודד UTF-8 מקובצי תמונה או PDF באמצעות Amazon Textract DetectDocumentText ה-API.
- הכן נתוני אימון כדי להכשיר מסווג מותאם אישית בפורמט CSV.
- אימון מסווג מותאם אישית באמצעות קובץ ה-CSV.
- פרוס את המודל המאומן עם נקודת קצה לסיווג מסמכים בזמן אמת או השתמש במצב ריבוי מחלקות, התומך הן בפעולות בזמן אמת והן בפעולות אסינכרוניות.
התרשים הבא ממחיש תהליך זה.
אתה יכול להפוך את סיווג המסמכים לאוטומטי באמצעות נקודת הקצה שנפרסה כדי לזהות ולסווג מסמכים. אוטומציה זו שימושית כדי לוודא אם כל המסמכים הנדרשים נמצאים בחבילת משכנתא. ניתן לזהות מסמך חסר במהירות, ללא התערבות ידנית, ולהודיע לפונה הרבה יותר מוקדם בתהליך.
חילוץ מסמכים
בשלב זה, אנו מחלצים נתונים מהמסמך באמצעות Amazon Textract ו- Amazon Comprehend. עבור מסמכים מובנים ומובנים למחצה המכילים טפסים וטבלאות, אנו משתמשים ב-Amazon Textract נתח את המסמך ממשק API. עבור מסמכים מיוחדים כגון מסמכי זיהוי, Amazon Textract מספקת את ניתוח מזהה ממשק API. מסמכים מסוימים עשויים להכיל גם טקסט צפוף, וייתכן שתצטרך לחלץ מהם מונחי מפתח ספציפיים לעסק, הידועים גם בשם ישויות. אנו משתמשים ב- זיהוי ישות מותאם אישית היכולת של Amazon Comprehend לאמן מזהה ישויות מותאם אישית, שיכול לזהות ישויות כאלה מהטקסט הצפוף.
בחלקים הבאים, אנו עוברים על המסמכים לדוגמה המצויים בחבילת בקשה למשכנתא, ונדון בשיטות המשמשות להוצאת מידע מהם. עבור כל אחת מהדוגמאות הללו, כלולים קטע קוד ופלט דוגמה קצר.
חלץ נתונים מאפליקציית Unified Residential Loan Application URLA-1003
בקשה להלוואת מגורים מאוחדת (URLA-1003) היא טופס בקשה להלוואת משכנתא סטנדרטית בתעשייה. מדובר במסמך מורכב למדי המכיל מידע על מבקש המשכנתא, סוג הנכס הנרכש, סכום המימון ופרטים נוספים על אופי רכישת הנכס. להלן דוגמה של URLA-1003, והכוונה שלנו היא לחלץ מידע ממסמך מובנה זה. מכיוון שזהו טופס, אנו משתמשים ב-AnalyzeDocument API עם סוג תכונה של טופס.
סוג התכונה FORM מחלץ מידע על טופס מהמסמך, המוחזר לאחר מכן בפורמט זוג מפתח-ערך. קטע הקוד הבא משתמש ב- amazon-textract-textractor
ספריית Python כדי לחלץ מידע על טופס עם מספר שורות קוד בלבד. שיטת הנוחות call_textract()
קורא ל- AnalyzeDocument
API באופן פנימי, והפרמטרים שהועברו לשיטה מפשטים חלק מהקונפיגורציות שה-API צריך כדי להפעיל את משימת החילוץ. Document
היא שיטת נוחות המשמשת כדי לעזור לנתח את תגובת ה-JSON מה-API. הוא מספק הפשטה ברמה גבוהה והופך את פלט ה-API לחזרה וקל להוציא ממנו מידע. למידע נוסף, עיין ב מנתח תגובה של Textract ו טקסטקטור.
שימו לב שהפלט מכיל ערכים עבור תיבות סימון או לחצני בחירה הקיימים בטופס. לדוגמה, במסמך URLA-1003 לדוגמה, ה- לִרְכּוֹשׁ נבחרה האפשרות. הפלט המתאים עבור לחצן הבחירה נשלף כ"Purchase
" (מפתח) ו"SELECTED
" (ערך), המציין כי לחצן הבחירה נבחר.
חלץ נתונים מ-1099 טפסים
חבילת בקשה למשכנתא עשויה להכיל גם מספר מסמכי IRS, כגון 1099-DIV, 1099-INT, 1099-MISC ו-1099-R. מסמכים אלה מראים את הרווחים של המבקש באמצעות ריביות, דיבידנדים ורכיבי הכנסה שונים אחרים שמועילים במהלך החיתום לקבלת החלטות. התמונה הבאה מציגה אוסף של מסמכים אלה, הדומים במבנה. עם זאת, במקרים מסוימים, המסמכים מכילים מידע על טופס (מסומן באמצעות התיבות התוחמות האדומות והירוקות) וכן מידע טבלאי (מסומן בתיבות התוחמות הצהובות).
כדי לחלץ מידע על טופס, אנו משתמשים בקוד דומה כפי שהוסבר קודם לכן עם AnalyzeDocument
ממשק API. אנו מעבירים תכונה נוספת של טבלה ל-API כדי לציין שאנחנו צריכים גם נתוני טופס וגם טבלה שנשלפו מהמסמך. קטע הקוד הבא משתמש ב- AnalyzeDocument
ממשק API עם תכונות FORMS ו- TABLES במסמך 1099-INT:
מכיוון שהמסמך מכיל טבלה בודדת, הפלט של הקוד הוא כדלקמן:
מידע הטבלה מכיל את מיקום התא (שורה 0, עמודה 0 וכן הלאה) ואת הטקסט המתאים בתוך כל תא. אנו משתמשים בשיטת נוחות שיכולה להפוך את נתוני הטבלה הללו לתצוגת רשת קלה לקריאה:
אנו מקבלים את הפלט הבא:
כדי לקבל את הפלט בפורמט CSV קל לצריכה, סוג הפורמט של Pretty_Print_Table_Format.csv
ניתן להעביר לתוך table_format
פָּרָמֶטֶר. פורמטים אחרים כגון TSV (ערכים מופרדים באמצעות כרטיסיות), HTML ולטקס נתמכים גם הם. למידע נוסף, עיין ב Textract-PrettyPrinter.
חילוץ נתונים משטר משכנתא
חבילת בקשה למשכנתא עשויה להכיל מסמכים לא מובנים עם טקסט צפוף. כמה דוגמאות למסמכי טקסט צפופים הם חוזים והסכמים. שטר משכנתא הוא הסכם בין מבקש משכנתא לבין המלווה או החברה המשכנת, ומכיל מידע בפסקאות טקסט צפופות. במקרים כאלה, חוסר המבנה מקשה על מציאת מידע עסקי מרכזי וחשוב בתהליך בקשת המשכנתא. ישנן שתי גישות לפתרון בעיה זו:
בהערת המשכנתא לדוגמה הבאה, אנו מעוניינים במיוחד לברר את סכום התשלום החודשי ואת סכום הקרן.
עבור הגישה הראשונה, אנו משתמשים ב- Query
ו QueriesConfig
שיטות נוחות להגדרת קבוצת שאלות המועברת ל-Amazon Textract AnalyzeDocument
קריאת API. במקרה שהמסמך הוא מרובה עמודים (PDF או TIFF), נוכל גם לציין את מספרי העמודים שבהם Amazon Textract צריכה לחפש תשובות לשאלה. קטע הקוד הבא מדגים כיצד ליצור את תצורת השאילתה, לבצע קריאת API, ולאחר מכן לנתח את התגובה כדי לקבל את התשובות מהתגובה:
אנו מקבלים את הפלט הבא:
עבור הגישה השנייה, אנו משתמשים ב- Amazon Comprehend DetectEntities API עם שטר המשכנתא, שמחזיר את הישויות שהוא מזהה בתוך הטקסט מא קבוצה מוגדרת מראש של ישויות. אלו ישויות שמזהה הישויות של Amazon Comprehend עבר הכשרה מראש איתם. עם זאת, מכיוון שהדרישה שלנו היא לזהות ישויות ספציפיות, מזהה ישויות מותאם אישית של Amazon Comprehend מאומן עם קבוצה של מסמכי שטר משכנתא לדוגמה, ורשימת ישויות. אנו מגדירים את שמות הישויות כ PRINCIPAL_AMOUNT
ו MONTHLY_AMOUNT
. נתוני ההדרכה מוכנים בעקבות ההדרכה של Amazon Comprehend הנחיות להכנת נתונים לזיהוי ישות מותאמת אישית. ניתן להכשיר את מזהה הישות הערות מסמכים או עם רשימות ישויות. למטרות דוגמה זו, אנו משתמשים ברשימות ישויות כדי להכשיר את המודל. לאחר שנאמן את המודל, נוכל לפרוס אותו באמצעות א נקודת קצה בזמן אמת או במצב אצווה כדי לזהות את שתי הישויות מתוכן המסמך. להלן השלבים המעורבים כדי להכשיר מזהה ישויות מותאם אישית ולפרוס אותו. להדרכה מלאה על קוד, עיין במאגר GitHub שלנו.
- הכן את נתוני ההדרכה (רשימת הישויות והמסמכים בפורמט טקסט רגיל (מקודד UTF-8).
- התחל את הכשרת מזהה ישויות באמצעות CreateEntityRecognizer API באמצעות נתוני ההדרכה.
- פרוס את המודל המאומן עם נקודת קצה בזמן אמת באמצעות ה צור נקודת קצה ה-API.
חילוץ נתונים מדרכון אמריקאי
The Amazon Textract לנתח מסמכי זהות היכולת לזהות ולחלץ מידע ממסמכי זיהוי מבוססי ארה"ב כגון רישיון נהיגה ודרכון. ה AnalyzeID
API מסוגל לזהות ולפרש שדות מרומזים במסמכי זיהוי, מה שמקל על חילוץ מידע ספציפי מהמסמך. מסמכי זהות הם כמעט תמיד חלק מחבילת בקשה למשכנתא, מכיוון שהם משמשים לאימות זהות הלווה במהלך תהליך החיתום, ולאמת את נכונות הנתונים הביוגרפיים של הלווה.
אנו משתמשים בשיטת נוחות בשם call_textract_analyzeid
, המכנה את AnalyzeID
API פנימי. לאחר מכן אנו חוזרים על התגובה כדי להשיג את צמדי המפתח-ערך שזוהו ממסמך הזיהוי. ראה את הקוד הבא:
AnalyzeID
מחזיר מידע במבנה שנקרא IdentityDocumentFields
, המכיל את המפתחות המנורמלים והערך המתאים להם. לדוגמה, בפלט הבא, FIRST_NAME
הוא מפתח מנורמל והערך הוא ALEJANDRO
. בתמונת הדרכון לדוגמה, השדה עבור השם הפרטי מסומן בתור "שמות נתונים / Prénoms / Nombre", אולם AnalyzeID
הצליח לנרמל את זה לשם המפתח FIRST_NAME
. לרשימה של שדות מנורמלים נתמכים, עיין ב אובייקטי תגובה של תיעוד זהות.
חבילת משכנתא עשויה להכיל מספר מסמכים נוספים, כגון תלוש משכורת, טופס W2, הצהרת בנק, הצהרת כרטיס אשראי ומכתב אימות העסקה. יש לנו דוגמאות לכל אחד מהמסמכים הללו יחד עם הקוד הנדרש כדי לחלץ מהם נתונים. לבסיס הקוד המלא, עיין במחברות שלנו מאגר GitHub.
העשרת מסמכים
אחת הצורות הנפוצות ביותר של העשרת מסמכים היא עריכת מידע רגיש או סודי במסמכים, אשר עשויה להיות מחויבת בשל חוקים או תקנות פרטיות. לדוגמה, תלוש השכר של מבקש משכנתא עשוי להכיל נתוני PII רגישים, כגון שם, כתובת ו-SSN, שעשויים להזדקק לשינוי לצורך אחסון מורחב.
במסמך תלוש התשלום לדוגמה הקודם, אנו מבצעים עיבוד של נתוני PII כגון SSN, שם, מספר חשבון בנק ותאריכים. כדי לזהות נתוני PII במסמך, אנו משתמשים ב-Amazon Comprehend זיהוי PII יכולת דרך ה DetectPIIEntities ממשק API. API זה בודק את תוכן המסמך כדי לזהות נוכחות של מידע PII. מכיוון שה-API הזה דורש קלט בפורמט טקסט רגיל מקודד UTF-8, תחילה אנו מחלצים את הטקסט מהמסמך באמצעות Amazon Textract DetectDocumentText API, שמחזיר את הטקסט מהמסמך וגם מחזיר מידע גיאומטריה כמו מידות וקואורדינטות של תיבה תוחמת. לאחר מכן נעשה שימוש בשילוב של שני הפלטים כדי לצייר עריכות על המסמך כחלק מתהליך ההעשרה.
סקור, אמת ושלב נתונים
נתונים שחולצו משלב חילוץ המסמכים עשויים להזדקק לאימות מול כללים עסקיים ספציפיים. מידע ספציפי עשוי להיות מאומת על פני מספר מסמכים, הידוע גם בשם אימות צולב דוק. דוגמה לאימות צולבת יכולה להיות השוואת שם המבקש בתעודת הזהות לשם במסמך הבקשה למשכנתא. בשלב זה ניתן גם לבצע תיקופים אחרים כגון הערכות שווי נכס והחלטות חיתום מותנות.
סוג שלישי של אימות קשור לציון הביטחון של הנתונים שחולצו בשלב חילוץ המסמכים. Amazon Textract ו- Amazon Comprehend מחזירות ציון ביטחון עבור טפסים, טבלאות, נתוני טקסט וישויות שזוהו. אתה יכול להגדיר סף ציון ביטחון כדי להבטיח שרק ערכים נכונים נשלחים במורד הזרם. זה מושג באמצעות Amazon A2I, אשר משווה את ציוני הביטחון של נתונים שזוהו עם סף ביטחון מוגדר מראש. אם הסף אינו עומד, המסמך והפלט שחולץ מנותבים לאדם לבדיקה באמצעות ממשק משתמש אינטואיטיבי. המבקר נוקט בפעולות מתקנות על הנתונים ושומר אותם להמשך עיבוד. למידע נוסף, עיין ב מושגי ליבה של אמזון A2I.
סיכום
בפוסט זה, דנו בשלבים של עיבוד מסמכים מושכל בהתייחסו לשלבים של בקשת משכנתא. בדקנו כמה דוגמאות נפוצות למסמכים שניתן למצוא בחבילת בקשה למשכנתא. דנו גם בדרכים לחילוץ ועיבוד תוכן מובנה, חצי מובנה ובלתי מובנה ממסמכים אלה. IDP מספקת דרך לבצע אוטומציה של עיבוד מסמכי משכנתא מקצה לקצה שניתן להגדיל למיליוני מסמכים, לשפר את איכות החלטות הבקשה, להפחית עלויות ולשרת לקוחות מהר יותר.
כשלב הבא, תוכל לנסות את דוגמאות הקוד והמחברות שלנו מאגר GitHub. למידע נוסף על האופן שבו IDP יכול לעזור לעומסי העבודה שלך בעיבוד המסמכים, בקר אוטומציה של עיבוד נתונים ממסמכים.
על המחברים
אנג'אן ביזוואז הוא ארכיטקט בכיר בשירותי AI עם דגש על AI/ML ו-Data Analytics. Anjan הוא חלק מצוות שירותי הבינה המלאכותית העולמית ועובד עם לקוחות כדי לעזור להם להבין ולפתח פתרונות לבעיות עסקיות עם AI ו-ML. לאנג'אן יש למעלה מ-14 שנות ניסיון בעבודה עם שרשרת אספקה, ייצור וקמעונאות גלובלית, והיא עוזרת ללקוחות להתחיל ולהתקדם בשירותי AI של AWS.
דוויטי פאתאק הוא מנהל חשבונות טכני בכיר שבסיסו מסן דייגו. היא מתמקדת בסיוע לתעשיית המוליכים למחצה לעסוק ב-AWS. בזמנה הפנוי היא אוהבת לקרוא על טכנולוגיות חדשות ולשחק במשחקי לוח.
בלאג'י פולי הוא אדריכל פתרונות שבסיסו באזור ביי, קליפורניה. כרגע עוזר ללקוחות נבחרים בצפון-מערב ארה"ב בתחום מדעי החיים להאיץ את אימוץ הענן של AWS. Balaji נהנה לטייל ואוהב לחקור מאכלים שונים.
- מתקדם (300)
- AI
- איי אמנות
- מחולל אמנות ai
- איי רובוט
- אמזון להתבונן
- טקסטורה באמזון
- בינה מלאכותית
- הסמכת בינה מלאכותית
- בינה מלאכותית בבנקאות
- רובוט בינה מלאכותית
- רובוטים של בינה מלאכותית
- תוכנת בינה מלאכותית
- למידת מכונות AWS
- blockchain
- blockchain conference ai
- קוינגניוס
- בינה מלאכותית של שיחה
- קריפטו כנס ai
- של דאל
- למידה עמוקה
- גוגל איי
- למידת מכונה
- אפלטון
- plato ai
- מודיעין אפלטון
- משחק אפלטון
- אפלטון נתונים
- פלטוגיימינג
- סולם ai
- תחביר
- זפירנט