अमेज़ॅन टेक्स्टट्रैक्ट और अमेज़ॅन कॉम्प्रिहेंड का उपयोग करके बुद्धिमान दस्तावेज़ प्रसंस्करण के साथ बंधक दस्तावेज़ों को संसाधित करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

उधार और बंधक उद्योग में संगठन दैनिक आधार पर हजारों दस्तावेजों की प्रक्रिया करते हैं। एक नए बंधक आवेदन से लेकर बंधक पुनर्वित्त तक, इन व्यावसायिक प्रक्रियाओं में प्रति आवेदन सैकड़ों दस्तावेज शामिल होते हैं। आज सभी दस्तावेजों से सूचनाओं को संसाधित करने और निकालने के लिए सीमित स्वचालन उपलब्ध है, विशेष रूप से अलग-अलग स्वरूपों और लेआउट के कारण। अनुप्रयोगों की उच्च मात्रा के कारण, रणनीतिक अंतर्दृष्टि प्राप्त करना और सामग्री से महत्वपूर्ण जानकारी प्राप्त करना एक समय लेने वाली, अत्यधिक मैनुअल, त्रुटि प्रवण और महंगी प्रक्रिया है। लीगेसी ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) उपकरण लागत-निषेधात्मक, त्रुटि-प्रवण हैं, जिनमें बहुत अधिक कॉन्फ़िगरेशन शामिल हैं, और स्केल करना मुश्किल है। एडब्ल्यूएस आर्टिफिशियल इंटेलिजेंस (एआई) सेवाओं के साथ इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग (आईडीपी) समग्र लागत को कम करते हुए तेज और गुणवत्ता निर्णयों के लक्ष्यों के साथ बंधक आवेदन प्रसंस्करण को स्वचालित और तेज करने में मदद करता है।

इस पोस्ट में, हम प्रदर्शित करते हैं कि आप मशीन लर्निंग (एमएल) क्षमताओं का उपयोग कैसे कर सकते हैं अमेज़न टेक्सट्रेक, तथा Amazon Comprehend एमएल कौशल की आवश्यकता के बिना, एक नए बंधक आवेदन में दस्तावेजों को संसाधित करने के लिए। हम निम्न आकृति में दिखाए गए अनुसार IDP के विभिन्न चरणों का पता लगाते हैं, और वे कैसे एक बंधक आवेदन प्रक्रिया में शामिल चरणों से जुड़ते हैं, जैसे कि आवेदन जमा करना, हामीदारी, सत्यापन और समापन।

हालांकि प्रत्येक बंधक आवेदन अद्वितीय हो सकता है, हमने कुछ सबसे सामान्य दस्तावेजों को ध्यान में रखा जो एक बंधक आवेदन में शामिल हैं, जैसे कि एकीकृत आवासीय ऋण आवेदन (यूआरएलए-1003) फॉर्म, 1099 फॉर्म और बंधक नोट।

समाधान अवलोकन

Amazon Textract एक ML सेवा है जो पूर्व-प्रशिक्षित ML मॉडल का उपयोग करके स्कैन किए गए दस्तावेज़ों से स्वचालित रूप से टेक्स्ट, लिखावट और डेटा निकालती है। अमेज़ॅन कॉम्प्रिहेंड एक प्राकृतिक भाषा प्रसंस्करण (एनएलपी) सेवा है जो पाठ में मूल्यवान अंतर्दृष्टि और कनेक्शन को उजागर करने के लिए एमएल का उपयोग करती है और दस्तावेज़ वर्गीकरण, नाम इकाई पहचान (एनईआर), विषय मॉडलिंग, और बहुत कुछ कर सकती है।

निम्नलिखित आंकड़ा IDP के चरणों को दर्शाता है क्योंकि यह एक बंधक आवेदन प्रक्रिया के चरणों से संबंधित है।

छवि बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडीपी) के चरणों के लिए एक उच्च-स्तरीय समाधान वास्तुकला दिखाती है क्योंकि यह एक बंधक आवेदन के चरणों से संबंधित है।

प्रक्रिया की शुरुआत में, दस्तावेजों को एक . पर अपलोड किया जाता है अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बाल्टी। यह दस्तावेजों को ज्ञात श्रेणियों में वर्गीकृत करने के लिए एक दस्तावेज़ वर्गीकरण प्रक्रिया शुरू करता है। दस्तावेजों को वर्गीकृत करने के बाद, अगला कदम उनसे महत्वपूर्ण जानकारी निकालना है। फिर हम चुनिंदा दस्तावेज़ों के लिए संवर्धन करते हैं, जो व्यक्तिगत रूप से पहचान योग्य जानकारी (PII) संशोधन, दस्तावेज़ टैगिंग, मेटाडेटा अपडेट, और बहुत कुछ जैसी चीज़ें हो सकती हैं। अगले चरण में बंधक आवेदन की पूर्णता सुनिश्चित करने के लिए पिछले चरणों में निकाले गए डेटा को मान्य करना शामिल है। सत्यापन व्यवसाय सत्यापन नियमों और क्रॉस दस्तावेज़ सत्यापन नियमों के माध्यम से किया जा सकता है। निकाली गई जानकारी के विश्वास स्कोर की तुलना एक निर्धारित सीमा से भी की जा सकती है, और स्वचालित रूप से मानव समीक्षक के पास भेज दी जाती है अमेज़न संवर्धित ऐ (अमेज़ॅन ए2आई) यदि सीमा पूरी नहीं होती है। प्रक्रिया के अंतिम चरण में, निकाले गए और मान्य डेटा को आगे के भंडारण, प्रसंस्करण या डेटा विश्लेषण के लिए डाउनस्ट्रीम सिस्टम में भेजा जाता है।

निम्नलिखित अनुभागों में, हम IDP के चरणों पर चर्चा करते हैं क्योंकि यह एक बंधक आवेदन के चरणों से संबंधित है। हम IDP के चरणों से गुजरते हैं और दस्तावेजों के प्रकारों पर चर्चा करते हैं; हम जानकारी को कैसे स्टोर, वर्गीकृत और एक्सट्रेक्ट करते हैं, और मशीन लर्निंग का उपयोग करके हम दस्तावेज़ों को कैसे समृद्ध करते हैं।

दस्तावेज़ भंडारण

Amazon S3 एक ऑब्जेक्ट स्टोरेज सेवा है जो उद्योग की अग्रणी मापनीयता, डेटा उपलब्धता, सुरक्षा और प्रदर्शन प्रदान करती है। हम बंधक आवेदन प्रक्रिया के दौरान और बाद में बंधक दस्तावेजों को सुरक्षित रूप से संग्रहीत करने के लिए अमेज़ॅन एस 3 का उपयोग करते हैं। ए बंधक आवेदन पैकेट इसमें कई प्रकार के फ़ॉर्म और दस्तावेज़ हो सकते हैं, जैसे कि URLA-1003, 1099-INT/DIV/RR/MISC, W2, paystubs, बैंक स्टेटमेंट, क्रेडिट कार्ड स्टेटमेंट, और बहुत कुछ। ये दस्तावेज आवेदक द्वारा बंधक आवेदन चरण में जमा किए जाते हैं। उन्हें मैन्युअल रूप से देखे बिना, यह तुरंत स्पष्ट नहीं हो सकता है कि पैकेट में कौन से दस्तावेज़ शामिल हैं। यह मैनुअल प्रक्रिया समय लेने वाली और महंगी हो सकती है। अगले चरण में, हम अमेज़ॅन कॉम्प्रिहेंड का उपयोग करके दस्तावेज़ों को उनकी संबंधित श्रेणियों में उच्च सटीकता के साथ वर्गीकृत करने के लिए इस प्रक्रिया को स्वचालित करते हैं।

दस्तावेज़ का वर्गीकरण

दस्तावेज़ वर्गीकरण एक ऐसी विधि है जिसके द्वारा बड़ी संख्या में अज्ञात दस्तावेज़ों को वर्गीकृत और लेबल किया जा सकता है। हम अमेज़ॅन कॉम्प्रिहेंड का उपयोग करके यह दस्तावेज़ वर्गीकरण करते हैं कस्टम क्लासिफायरियर. एक कस्टम क्लासिफायरियर एक एमएल मॉडल है जिसे आपकी रुचि के वर्गों को पहचानने के लिए लेबल किए गए दस्तावेज़ों के एक सेट के साथ प्रशिक्षित किया जा सकता है। एक होस्ट किए गए समापन बिंदु के पीछे मॉडल को प्रशिक्षित और तैनात करने के बाद, हम उस श्रेणी (या वर्ग) को निर्धारित करने के लिए क्लासिफायरियर का उपयोग कर सकते हैं जो किसी विशेष दस्तावेज़ से संबंधित है। इस मामले में, हम एक कस्टम क्लासिफायरियर को प्रशिक्षित करते हैं मल्टी-क्लास मोड, जो या तो CSV फ़ाइल या संवर्धित मेनिफेस्ट फ़ाइल के साथ किया जा सकता है। इस प्रदर्शन के प्रयोजनों के लिए, हम क्लासिफायरियर को प्रशिक्षित करने के लिए एक CSV फ़ाइल का उपयोग करते हैं। हमारे का संदर्भ लें गिटहब भंडार पूर्ण कोड नमूने के लिए। निम्नलिखित शामिल चरणों का एक उच्च-स्तरीय अवलोकन है:

Amazon Textract का उपयोग करके छवि या PDF फ़ाइलों से UTF-8 एन्कोडेड सादा पाठ निकालें डिटेक्ट डॉक्यूमेंट टेक्स्ट एपीआई।
सीएसवी प्रारूप में एक कस्टम क्लासिफायरियर को प्रशिक्षित करने के लिए प्रशिक्षण डेटा तैयार करें।
CSV फ़ाइल का उपयोग करके एक कस्टम क्लासिफायरियर को प्रशिक्षित करें।
रीयल-टाइम दस्तावेज़ वर्गीकरण के लिए एक एंडपॉइंट के साथ प्रशिक्षित मॉडल को तैनात करें या मल्टी-क्लास मोड का उपयोग करें, जो रीयल-टाइम और एसिंक्रोनस ऑपरेशन दोनों का समर्थन करता है।

निम्नलिखित आरेख इस प्रक्रिया को दिखाता है।

छवि अमेज़ॅन कॉम्प्रिहेंड कस्टम क्लासिफायरियर प्रशिक्षण प्रक्रिया और दस्तावेज़ वर्गीकरण को प्रशिक्षित और तैनात क्लासिफायर मॉडल (वास्तविक समय या बैच) का उपयोग करके दिखाती है।

आप दस्तावेज़ों को पहचानने और वर्गीकृत करने के लिए परिनियोजित समापन बिंदु का उपयोग करके दस्तावेज़ वर्गीकरण को स्वचालित कर सकते हैं। यह ऑटोमेशन यह सत्यापित करने के लिए उपयोगी है कि बंधक पैकेट में सभी आवश्यक दस्तावेज मौजूद हैं या नहीं। मैन्युअल हस्तक्षेप के बिना एक लापता दस्तावेज़ को जल्दी से पहचाना जा सकता है, और प्रक्रिया में बहुत पहले आवेदक को सूचित किया जा सकता है।

दस्तावेज़ निष्कर्षण

इस चरण में, हम Amazon Textract और Amazon Comprehend का उपयोग करके दस्तावेज़ से डेटा निकालते हैं। प्रपत्र और तालिकाओं वाले संरचित और अर्ध-संरचित दस्तावेज़ों के लिए, हम Amazon Textract का उपयोग करते हैं विश्लेषण एपीआई। विशिष्ट दस्तावेज़ों जैसे आईडी दस्तावेज़ों के लिए, Amazon Textract प्रदान करता है विश्लेषण आईडी एपीआई। कुछ दस्तावेज़ों में सघन पाठ भी हो सकता है, और आपको उनसे व्यवसाय-विशिष्ट मुख्य शब्द निकालने की आवश्यकता हो सकती है, जिन्हें के रूप में भी जाना जाता है संस्थाओं। हम उपयोग करते हैं कस्टम इकाई मान्यता अमेज़ॅन की क्षमता एक कस्टम इकाई पहचानकर्ता को प्रशिक्षित करने के लिए समझती है, जो घने पाठ से ऐसी संस्थाओं की पहचान कर सकती है।

निम्नलिखित अनुभागों में, हम एक बंधक आवेदन पैकेट में मौजूद नमूना दस्तावेजों के माध्यम से चलते हैं, और उनसे जानकारी निकालने के लिए उपयोग की जाने वाली विधियों पर चर्चा करते हैं। इनमें से प्रत्येक उदाहरण के लिए, एक कोड स्निपेट और एक छोटा नमूना आउटपुट शामिल है।

एकीकृत आवासीय ऋण आवेदन URLA-1003 . से डेटा निकालें

एक एकीकृत आवासीय ऋण आवेदन (URLA-1003) एक उद्योग मानक बंधक ऋण आवेदन प्रपत्र है। यह एक काफी जटिल दस्तावेज है जिसमें बंधक आवेदक के बारे में जानकारी, खरीदी जा रही संपत्ति का प्रकार, वित्तपोषित राशि और संपत्ति की खरीद की प्रकृति के बारे में अन्य विवरण शामिल हैं। निम्नलिखित एक नमूना URLA-1003 है, और हमारा इरादा इस संरचित दस्तावेज़ से जानकारी निकालना है। क्योंकि यह एक फॉर्म है, हम एनालाइज डॉक्यूमेंट एपीआई का उपयोग एक फीचर प्रकार के साथ करते हैं FORM.

प्रपत्र सुविधा प्रकार दस्तावेज़ से प्रपत्र जानकारी निकालता है, जिसे बाद में की-वैल्यू जोड़ी प्रारूप में वापस कर दिया जाता है। निम्नलिखित कोड स्निपेट का उपयोग करता है amazon-textract-textractor कोड की कुछ पंक्तियों के साथ फॉर्म की जानकारी निकालने के लिए पायथन लाइब्रेरी। सुविधा विधि call_textract() कॉल करता है AnalyzeDocument एपीआई आंतरिक रूप से, और विधि को पारित पैरामीटर कुछ कॉन्फ़िगरेशन को सार करते हैं जिन्हें एपीआई को निष्कर्षण कार्य चलाने की आवश्यकता होती है। Document एपीआई से JSON प्रतिक्रिया को पार्स करने में मदद करने के लिए उपयोग की जाने वाली एक सुविधा विधि है। यह एक उच्च-स्तरीय अमूर्तता प्रदान करता है और एपीआई आउटपुट को चलने योग्य और जानकारी प्राप्त करने में आसान बनाता है। अधिक जानकारी के लिए देखें टेक्स्टट्रैक्ट रिस्पांस पार्सर और टेक्सट्रेक्टर.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

ध्यान दें कि आउटपुट में प्रपत्र में मौजूद चेक बॉक्स या रेडियो बटन के मान शामिल हैं। उदाहरण के लिए, नमूना URLA-1003 दस्तावेज़ में, खरीद फरोख्त विकल्प चुना गया था। रेडियो बटन के लिए संबंधित आउटपुट को "के रूप में निकाला जाता है"Purchase"(कुंजी) और"SELECTED"(मान), यह दर्शाता है कि रेडियो बटन चुना गया था।

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

1099 रूपों से डेटा निकालें

एक बंधक आवेदन पैकेट में कई IRS दस्तावेज़ भी हो सकते हैं, जैसे कि 1099-DIV, 1099-INT, 1099-MISC, और 1099-R। ये दस्तावेज़ आवेदक की रुचियों, लाभांशों और अन्य विविध आय घटकों के माध्यम से आय दिखाते हैं जो निर्णय लेने के लिए हामीदारी के दौरान उपयोगी होते हैं। निम्नलिखित छवि इन दस्तावेजों का एक संग्रह दिखाती है, जो संरचना में समान हैं। हालाँकि, कुछ उदाहरणों में, दस्तावेज़ों में प्रपत्र जानकारी (लाल और हरे रंग के बाउंडिंग बॉक्स का उपयोग करके चिह्नित) के साथ-साथ सारणीबद्ध जानकारी (पीले बाउंडिंग बॉक्स द्वारा चिह्नित) होती है।

फॉर्म की जानकारी निकालने के लिए, हम समान कोड का उपयोग करते हैं जैसा कि पहले बताया गया है AnalyzeDocument एपीआई। हम की एक अतिरिक्त सुविधा पास करते हैं टेबल एपीआई को इंगित करने के लिए कि हमें दस्तावेज़ से निकाले गए फॉर्म और टेबल डेटा दोनों की आवश्यकता है। निम्नलिखित कोड स्निपेट का उपयोग करता है AnalyzeDocument 1099-INT दस्तावेज़ पर FORMS और TABLES सुविधाओं के साथ API:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

क्योंकि दस्तावेज़ में एक एकल तालिका है, कोड का आउटपुट इस प्रकार है:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

तालिका जानकारी में सेल स्थिति (पंक्ति 0, कॉलम 0, और इसी तरह) और प्रत्येक सेल के भीतर संबंधित टेक्स्ट होता है। हम एक सुविधा पद्धति का उपयोग करते हैं जो इस तालिका डेटा को पढ़ने में आसान ग्रिड दृश्य में बदल सकती है:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

हमें निम्नलिखित आउटपुट मिलता है:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

उपयोग में आसान सीएसवी प्रारूप में आउटपुट प्राप्त करने के लिए, प्रारूप प्रकार Pretty_Print_Table_Format.csv में पारित किया जा सकता है table_format पैरामीटर। अन्य प्रारूप जैसे TSV (टैब सेपरेटेड वैल्यू), HTML और लेटेक्स भी समर्थित हैं। अधिक जानकारी के लिए देखें टेक्स्टट्रैक्ट-सुंदर प्रिंटर.

एक बंधक नोट से डेटा निकालें

एक बंधक आवेदन पैकेट में घने पाठ के साथ असंरचित दस्तावेज़ हो सकते हैं। घने टेक्स्ट दस्तावेज़ों के कुछ उदाहरण अनुबंध और समझौते हैं। एक बंधक नोट एक बंधक आवेदक और ऋणदाता या बंधक कंपनी के बीच एक समझौता है, और इसमें घने पाठ पैराग्राफ में जानकारी शामिल है। ऐसे मामलों में, संरचना की कमी के कारण महत्वपूर्ण व्यावसायिक जानकारी प्राप्त करना मुश्किल हो जाता है जो बंधक आवेदन प्रक्रिया में महत्वपूर्ण है। इस समस्या को हल करने के दो तरीके हैं:

निम्नलिखित नमूना बंधक नोट में, हम विशेष रूप से मासिक भुगतान राशि और मूल राशि का पता लगाने में रुचि रखते हैं।

पहले दृष्टिकोण के लिए, हम उपयोग करते हैं Query और QueriesConfig Amazon Textract को दिए गए प्रश्नों के एक सेट को कॉन्फ़िगर करने के लिए सुविधाजनक तरीके AnalyzeDocument एपीआई कॉल। यदि दस्तावेज़ बहु-पृष्ठ (पीडीएफ या टीआईएफएफ) है, तो हम उस पृष्ठ संख्या को भी निर्दिष्ट कर सकते हैं जहां अमेज़ॅन टेक्स्टट्रैक्ट को प्रश्न के उत्तर की तलाश करनी चाहिए। निम्नलिखित कोड स्निपेट दर्शाता है कि क्वेरी कॉन्फ़िगरेशन कैसे बनाएं, एपीआई कॉल करें, और बाद में प्रतिक्रिया से उत्तर प्राप्त करने के लिए प्रतिक्रिया को पार्स करें:

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

हमें निम्नलिखित आउटपुट मिलता है:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

दूसरे दृष्टिकोण के लिए, हम Amazon Comprehend . का उपयोग करते हैं पता लगाने की क्षमता बंधक नोट के साथ एपीआई, जो उन संस्थाओं को लौटाता है जो इसे पाठ के भीतर से पता लगाते हैं a संस्थाओं का पूर्वनिर्धारित सेट. ये ऐसी इकाइयाँ हैं जिनके साथ Amazon Comprehend निकाय पहचानकर्ता पूर्व-प्रशिक्षित है। हालांकि, क्योंकि हमारी आवश्यकता विशिष्ट संस्थाओं का पता लगाने के लिए है, एक अमेज़ॅन कॉम्प्रिहेंड कस्टम इकाई पहचानकर्ता को नमूना बंधक नोट दस्तावेजों के एक सेट और संस्थाओं की एक सूची के साथ प्रशिक्षित किया जाता है। हम इकाई नामों को परिभाषित करते हैं: PRINCIPAL_AMOUNT और MONTHLY_AMOUNT. अमेज़ॅन कॉम्प्रिहेंड प्रशिक्षण के बाद प्रशिक्षण डेटा तैयार किया जाता है डेटा तैयारी दिशानिर्देश कस्टम इकाई मान्यता के लिए। इकाई पहचानकर्ता के साथ प्रशिक्षित किया जा सकता है दस्तावेज़ एनोटेशन या के साथ इकाई सूची. इस उदाहरण के प्रयोजनों के लिए, हम मॉडल को प्रशिक्षित करने के लिए इकाई सूचियों का उपयोग करते हैं। मॉडल को प्रशिक्षित करने के बाद, हम इसे a . के साथ तैनात कर सकते हैं वास्तविक समय समापन बिंदु में या बैच मोड दस्तावेज़ सामग्री से दो संस्थाओं का पता लगाने के लिए। कस्टम निकाय पहचानकर्ता को प्रशिक्षित करने और उसे परिनियोजित करने के लिए निम्नलिखित चरण शामिल हैं। पूर्ण कोड वॉकथ्रू के लिए, हमारे GitHub रिपॉजिटरी को देखें।

प्रशिक्षण डेटा (इकाई सूची और दस्तावेज़ (UTF-8 एन्कोडेड) सादा पाठ प्रारूप) तैयार करें।
का उपयोग करके इकाई पहचानकर्ता प्रशिक्षण प्रारंभ करें CreateEntityRecognizer प्रशिक्षण डेटा का उपयोग कर एपीआई।
वास्तविक समय समापन बिंदु के साथ प्रशिक्षित मॉडल को तैनात करें बनाने की क्रिया एपीआई।

यूएस पासपोर्ट से डेटा निकालें

अमेज़ॅन टेक्सट्रैक्ट पहचान दस्तावेजों का विश्लेषण करें क्षमता यूएस-आधारित आईडी दस्तावेजों जैसे ड्राइविंग लाइसेंस और पासपोर्ट से जानकारी का पता लगा सकती है और निकाल सकती है। AnalyzeID एपीआई आईडी दस्तावेजों में निहित क्षेत्रों का पता लगाने और व्याख्या करने में सक्षम है, जिससे दस्तावेज़ से विशिष्ट जानकारी निकालना आसान हो जाता है। पहचान दस्तावेज लगभग हमेशा एक बंधक आवेदन पैकेट का हिस्सा होते हैं, क्योंकि इसका उपयोग अंडरराइटिंग प्रक्रिया के दौरान उधारकर्ता की पहचान को सत्यापित करने और उधारकर्ता के जीवनी डेटा की शुद्धता को सत्यापित करने के लिए किया जाता है।

हम नाम की एक सुविधा विधि का उपयोग करते हैं call_textract_analyzeid, जिसे कहते हैं AnalyzeID एपीआई आंतरिक रूप से। फिर हम आईडी दस्तावेज़ से खोजे गए कुंजी-मूल्य जोड़े प्राप्त करने के लिए प्रतिक्रिया पर पुनरावृति करते हैं। निम्नलिखित कोड देखें:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID नामक संरचना में जानकारी देता है IdentityDocumentFields, जिसमें सामान्यीकृत कुंजियाँ और उनके संगत मान होते हैं। उदाहरण के लिए, निम्नलिखित आउटपुट में, FIRST_NAME एक सामान्यीकृत कुंजी है और मान है ALEJANDRO. उदाहरण पासपोर्ट छवि में, पहले नाम के लिए फ़ील्ड को "दिए गए नाम / प्रीनोम्स / नोम्ब्रे" के रूप में लेबल किया गया है, हालांकि AnalyzeID कुंजी नाम में इसे सामान्य करने में सक्षम था FIRST_NAME. समर्थित सामान्यीकृत क्षेत्रों की सूची के लिए, देखें पहचान दस्तावेज़ीकरण प्रतिक्रिया ऑब्जेक्ट.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

एक बंधक पैकेट में कई अन्य दस्तावेज हो सकते हैं, जैसे कि पेस्टब, डब्ल्यू2 फॉर्म, बैंक स्टेटमेंट, क्रेडिट कार्ड स्टेटमेंट और रोजगार सत्यापन पत्र। हमारे पास इनमें से प्रत्येक दस्तावेज़ के लिए नमूने हैं, साथ ही उनसे डेटा निकालने के लिए आवश्यक कोड भी है। संपूर्ण कोड आधार के लिए, हमारे में नोटबुक देखें गिटहब भंडार.

दस्तावेज़ संवर्धन

दस्तावेज़ संवर्धन के सबसे सामान्य रूपों में से एक दस्तावेज़ों पर संवेदनशील या गोपनीय जानकारी का संशोधन है, जिसे गोपनीयता कानूनों या विनियमों के कारण अनिवार्य किया जा सकता है। उदाहरण के लिए, एक बंधक आवेदक के पेस्टब में संवेदनशील पीआईआई डेटा हो सकता है, जैसे कि नाम, पता और एसएसएन, जिसे विस्तारित भंडारण के लिए सुधार की आवश्यकता हो सकती है।

पिछले नमूना पेस्टब दस्तावेज़ में, हम एसएसएन, नाम, बैंक खाता संख्या और तिथियों जैसे पीआईआई डेटा का संशोधन करते हैं। किसी दस्तावेज़ में PII डेटा की पहचान करने के लिए, हम Amazon Comprehend . का उपयोग करते हैं पीआईआई का पता लगाना के माध्यम से क्षमता डिटेक्टPIIइकाइयाँ एपीआई। यह एपीआई पीआईआई जानकारी की उपस्थिति की पहचान करने के लिए दस्तावेज़ की सामग्री का निरीक्षण करता है। चूंकि इस एपीआई को यूटीएफ -8 एन्कोडेड सादा पाठ प्रारूप में इनपुट की आवश्यकता है, इसलिए हम पहले अमेज़ॅन टेक्स्टट्रैक्ट का उपयोग करके दस्तावेज़ से टेक्स्ट निकालते हैं डिटेक्ट डॉक्यूमेंट टेक्स्ट एपीआई, जो दस्तावेज़ से पाठ लौटाता है और बाउंडिंग बॉक्स आयाम और निर्देशांक जैसी ज्यामिति की जानकारी भी देता है। दोनों आउटपुट के संयोजन का उपयोग दस्तावेज़ पर संवर्धन प्रक्रिया के हिस्से के रूप में संशोधनों को आकर्षित करने के लिए किया जाता है।

डेटा की समीक्षा करें, मान्य करें और एकीकृत करें

दस्तावेज़ निष्कर्षण चरण से निकाले गए डेटा को विशिष्ट व्यावसायिक नियमों के विरुद्ध सत्यापन की आवश्यकता हो सकती है। विशिष्ट जानकारी को कई दस्तावेज़ों में भी मान्य किया जा सकता है, जिन्हें के रूप में भी जाना जाता है क्रॉस-डॉक्टर सत्यापन. क्रॉस-डॉक सत्यापन का एक उदाहरण आईडी दस्तावेज़ में आवेदक के नाम की तुलना बंधक आवेदन दस्तावेज़ में नाम से करना हो सकता है। आप इस चरण में संपत्ति मूल्य अनुमान और सशर्त हामीदारी निर्णय जैसे अन्य सत्यापन भी कर सकते हैं।

तीसरे प्रकार का सत्यापन दस्तावेज़ निष्कर्षण चरण में निकाले गए डेटा के विश्वास स्कोर से संबंधित है। Amazon Textract और Amazon Comprehend फ़ॉर्म, टेबल, टेक्स्ट डेटा और पता लगाए गए निकायों के लिए एक कॉन्फिडेंस स्कोर लौटाते हैं। आप यह सुनिश्चित करने के लिए एक विश्वास स्कोर सीमा कॉन्फ़िगर कर सकते हैं कि केवल सही मान डाउनस्ट्रीम भेजे जा रहे हैं। यह अमेज़ॅन A2I के माध्यम से प्राप्त किया जाता है, जो पूर्वनिर्धारित आत्मविश्वास सीमा के साथ पता लगाए गए डेटा के विश्वास स्कोर की तुलना करता है। यदि सीमा पूरी नहीं होती है, तो दस्तावेज़ और निकाले गए आउटपुट को एक सहज यूआई के माध्यम से समीक्षा के लिए मानव के पास भेजा जाता है। समीक्षक डेटा पर सुधारात्मक कार्रवाई करता है और इसे आगे की प्रक्रिया के लिए सहेजता है। अधिक जानकारी के लिए देखें Amazon A2I की मुख्य अवधारणाएं.

निष्कर्ष

इस पोस्ट में, हमने बुद्धिमान दस्तावेज़ प्रसंस्करण के चरणों पर चर्चा की क्योंकि यह एक बंधक आवेदन के चरणों से संबंधित है। हमने दस्तावेजों के कुछ सामान्य उदाहरण देखे जो एक बंधक आवेदन पैकेट में पाए जा सकते हैं। हमने इन दस्तावेज़ों से संरचित, अर्ध-संरचित और असंरचित सामग्री को निकालने और संसाधित करने के तरीकों पर भी चर्चा की। IDP संपूर्ण बंधक दस्तावेज़ प्रसंस्करण को स्वचालित करने का एक तरीका प्रदान करता है जिसे लाखों दस्तावेज़ों तक बढ़ाया जा सकता है, आवेदन निर्णयों की गुणवत्ता को बढ़ाता है, लागत कम करता है, और ग्राहकों को तेज़ी से सेवा प्रदान करता है।

अगले चरण के रूप में, आप हमारे में कोड नमूने और नोटबुक आज़मा सकते हैं गिटहब भंडार. इस बारे में अधिक जानने के लिए कि IDP आपके दस्तावेज़ को संसाधित करने के कार्यभार में कैसे मदद कर सकता है, पर जाएँ दस्तावेज़ों से डेटा प्रोसेसिंग को स्वचालित करें.

लेखक के बारे में

अंजन बिस्वास एआई/एमएल और डेटा एनालिटिक्स पर ध्यान देने के साथ एक वरिष्ठ एआई सर्विसेज सॉल्यूशंस आर्किटेक्ट हैं। अंजन विश्वव्यापी एआई सेवाओं की टीम का हिस्सा है और ग्राहकों को एआई और एमएल के साथ व्यावसायिक समस्याओं को समझने और उनका समाधान विकसित करने में मदद करने के लिए उनके साथ काम करता है। अंजन को वैश्विक आपूर्ति श्रृंखला, विनिर्माण और खुदरा संगठनों के साथ काम करने का 14 वर्षों का अनुभव है और सक्रिय रूप से ग्राहकों को एडब्ल्यूएस एआई सेवाओं को शुरू करने और बढ़ाने में मदद कर रहा है।

द्विति पाठक सैन डिएगो से बाहर स्थित एक वरिष्ठ तकनीकी खाता प्रबंधक है। वह सेमीकंडक्टर उद्योग को AWS में संलग्न करने में मदद करने पर केंद्रित है। अपने खाली समय में, वह नई तकनीकों के बारे में पढ़ना और बोर्ड गेम खेलना पसंद करती हैं।

बालाजी पुलिक बे एरिया, सीए में स्थित एक समाधान वास्तुकार है। वर्तमान में चुनिंदा नॉर्थवेस्ट यूएस हेल्थकेयर लाइफ साइंसेज ग्राहकों को अपने एडब्ल्यूएस क्लाउड अपनाने में तेजी लाने में मदद कर रहा है। बालाजी को यात्रा करना पसंद है और उन्हें विभिन्न व्यंजनों का पता लगाना पसंद है।

समय टिकट: अगस्त 26, 2022अगस्त 26, 2022

से अधिक AWS मशीन लर्निंग

वाक् पहचान प्लेटोब्लॉकचेन डेटा इंटेलिजेंस को बढ़ाने के लिए अमेज़ॅन लेक्स में कस्टम शब्दावली का उपयोग करें। लंबवत खोज. ऐ.

वाक् पहचान बढ़ाने के लिए Amazon Lex में कस्टम शब्दावली का उपयोग करें

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1294623

समय टिकट: 5 मई 2022

AWS प्लेटोब्लॉकचेन डेटा इंटेलिजेंस पर कंप्यूटर विज़न पाइपलाइनों के लिए सिंथेटिक डेटा बनाएं। लंबवत खोज. ऐ.

AWS पर कंप्यूटर विज़न पाइपलाइनों के लिए सिंथेटिक डेटा बनाएँ

AWS मशीन लर्निंग

स्रोत नोड: 1848251

समय टिकट: जून 13, 2023

Amazon Textract और Amazon Comprehend का उपयोग करके बुद्धिमान दस्तावेज़ प्रसंस्करण के साथ बंधक दस्तावेज़ों को संसाधित करें

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

दस्तावेज़ भंडारण

दस्तावेज़ का वर्गीकरण

दस्तावेज़ निष्कर्षण

एकीकृत आवासीय ऋण आवेदन URLA-1003 . से डेटा निकालें

1099 रूपों से डेटा निकालें

एक बंधक नोट से डेटा निकालें

यूएस पासपोर्ट से डेटा निकालें

दस्तावेज़ संवर्धन

डेटा की समीक्षा करें, मान्य करें और एकीकृत करें

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

AWS पर कंप्यूटर विज़न पाइपलाइनों के लिए सिंथेटिक डेटा बनाएँ

Amazon SageMaker में TensorFlow टेक्स्ट क्लासिफिकेशन मॉडल के लिए ट्रांसफर लर्निंग

पहनने योग्य उपकरणों से डेटा का उपयोग करके निकट-वास्तविक समय कार्डियक विसंगति का पता लगाने के लिए AWS क्लाउड तकनीक

GPU का उपयोग किए बिना किनारे पर Amazon Lookout for Vision का उपयोग करके विसंगतियों के स्थान की पहचान करें

अमेज़ॅन पर्सनलाइज़ में समान-आइटम के लिए लोकप्रियता ट्यूनिंग का परिचय | अमेज़न वेब सेवाएँ

Windows फ़ाइल सर्वर के लिए Amazon FSx के लिए Amazon Kendra कनेक्टर के साथ Windows फ़ाइल सिस्टम पर असंरचित डेटा को सुरक्षित रूप से खोजें

GrabDefence डिवाइस इंटेलिजेंस और Amazon फ्रॉड डिटेक्टर का उपयोग करके मोबाइल-उन्मुख व्यवसायों में धोखाधड़ी का पता लगाएं

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा