उधार और बंधक उद्योग में संगठन दैनिक आधार पर हजारों दस्तावेजों की प्रक्रिया करते हैं। एक नए बंधक आवेदन से लेकर बंधक पुनर्वित्त तक, इन व्यावसायिक प्रक्रियाओं में प्रति आवेदन सैकड़ों दस्तावेज शामिल होते हैं। आज सभी दस्तावेजों से सूचनाओं को संसाधित करने और निकालने के लिए सीमित स्वचालन उपलब्ध है, विशेष रूप से अलग-अलग स्वरूपों और लेआउट के कारण। अनुप्रयोगों की उच्च मात्रा के कारण, रणनीतिक अंतर्दृष्टि प्राप्त करना और सामग्री से महत्वपूर्ण जानकारी प्राप्त करना एक समय लेने वाली, अत्यधिक मैनुअल, त्रुटि प्रवण और महंगी प्रक्रिया है। लीगेसी ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) उपकरण लागत-निषेधात्मक, त्रुटि-प्रवण हैं, जिनमें बहुत अधिक कॉन्फ़िगरेशन शामिल हैं, और स्केल करना मुश्किल है। एडब्ल्यूएस आर्टिफिशियल इंटेलिजेंस (एआई) सेवाओं के साथ इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग (आईडीपी) समग्र लागत को कम करते हुए तेज और गुणवत्ता निर्णयों के लक्ष्यों के साथ बंधक आवेदन प्रसंस्करण को स्वचालित और तेज करने में मदद करता है।
इस पोस्ट में, हम प्रदर्शित करते हैं कि आप मशीन लर्निंग (एमएल) क्षमताओं का उपयोग कैसे कर सकते हैं अमेज़न टेक्सट्रेक, तथा Amazon Comprehend एमएल कौशल की आवश्यकता के बिना, एक नए बंधक आवेदन में दस्तावेजों को संसाधित करने के लिए। हम निम्न आकृति में दिखाए गए अनुसार IDP के विभिन्न चरणों का पता लगाते हैं, और वे कैसे एक बंधक आवेदन प्रक्रिया में शामिल चरणों से जुड़ते हैं, जैसे कि आवेदन जमा करना, हामीदारी, सत्यापन और समापन।
हालांकि प्रत्येक बंधक आवेदन अद्वितीय हो सकता है, हमने कुछ सबसे सामान्य दस्तावेजों को ध्यान में रखा जो एक बंधक आवेदन में शामिल हैं, जैसे कि एकीकृत आवासीय ऋण आवेदन (यूआरएलए-1003) फॉर्म, 1099 फॉर्म और बंधक नोट।
समाधान अवलोकन
Amazon Textract एक ML सेवा है जो पूर्व-प्रशिक्षित ML मॉडल का उपयोग करके स्कैन किए गए दस्तावेज़ों से स्वचालित रूप से टेक्स्ट, लिखावट और डेटा निकालती है। अमेज़ॅन कॉम्प्रिहेंड एक प्राकृतिक भाषा प्रसंस्करण (एनएलपी) सेवा है जो पाठ में मूल्यवान अंतर्दृष्टि और कनेक्शन को उजागर करने के लिए एमएल का उपयोग करती है और दस्तावेज़ वर्गीकरण, नाम इकाई पहचान (एनईआर), विषय मॉडलिंग, और बहुत कुछ कर सकती है।
निम्नलिखित आंकड़ा IDP के चरणों को दर्शाता है क्योंकि यह एक बंधक आवेदन प्रक्रिया के चरणों से संबंधित है।
प्रक्रिया की शुरुआत में, दस्तावेजों को एक . पर अपलोड किया जाता है अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बाल्टी। यह दस्तावेजों को ज्ञात श्रेणियों में वर्गीकृत करने के लिए एक दस्तावेज़ वर्गीकरण प्रक्रिया शुरू करता है। दस्तावेजों को वर्गीकृत करने के बाद, अगला कदम उनसे महत्वपूर्ण जानकारी निकालना है। फिर हम चुनिंदा दस्तावेज़ों के लिए संवर्धन करते हैं, जो व्यक्तिगत रूप से पहचान योग्य जानकारी (PII) संशोधन, दस्तावेज़ टैगिंग, मेटाडेटा अपडेट, और बहुत कुछ जैसी चीज़ें हो सकती हैं। अगले चरण में बंधक आवेदन की पूर्णता सुनिश्चित करने के लिए पिछले चरणों में निकाले गए डेटा को मान्य करना शामिल है। सत्यापन व्यवसाय सत्यापन नियमों और क्रॉस दस्तावेज़ सत्यापन नियमों के माध्यम से किया जा सकता है। निकाली गई जानकारी के विश्वास स्कोर की तुलना एक निर्धारित सीमा से भी की जा सकती है, और स्वचालित रूप से मानव समीक्षक के पास भेज दी जाती है अमेज़न संवर्धित ऐ (अमेज़ॅन ए2आई) यदि सीमा पूरी नहीं होती है। प्रक्रिया के अंतिम चरण में, निकाले गए और मान्य डेटा को आगे के भंडारण, प्रसंस्करण या डेटा विश्लेषण के लिए डाउनस्ट्रीम सिस्टम में भेजा जाता है।
निम्नलिखित अनुभागों में, हम IDP के चरणों पर चर्चा करते हैं क्योंकि यह एक बंधक आवेदन के चरणों से संबंधित है। हम IDP के चरणों से गुजरते हैं और दस्तावेजों के प्रकारों पर चर्चा करते हैं; हम जानकारी को कैसे स्टोर, वर्गीकृत और एक्सट्रेक्ट करते हैं, और मशीन लर्निंग का उपयोग करके हम दस्तावेज़ों को कैसे समृद्ध करते हैं।
दस्तावेज़ भंडारण
Amazon S3 एक ऑब्जेक्ट स्टोरेज सेवा है जो उद्योग की अग्रणी मापनीयता, डेटा उपलब्धता, सुरक्षा और प्रदर्शन प्रदान करती है। हम बंधक आवेदन प्रक्रिया के दौरान और बाद में बंधक दस्तावेजों को सुरक्षित रूप से संग्रहीत करने के लिए अमेज़ॅन एस 3 का उपयोग करते हैं। ए बंधक आवेदन पैकेट इसमें कई प्रकार के फ़ॉर्म और दस्तावेज़ हो सकते हैं, जैसे कि URLA-1003, 1099-INT/DIV/RR/MISC, W2, paystubs, बैंक स्टेटमेंट, क्रेडिट कार्ड स्टेटमेंट, और बहुत कुछ। ये दस्तावेज आवेदक द्वारा बंधक आवेदन चरण में जमा किए जाते हैं। उन्हें मैन्युअल रूप से देखे बिना, यह तुरंत स्पष्ट नहीं हो सकता है कि पैकेट में कौन से दस्तावेज़ शामिल हैं। यह मैनुअल प्रक्रिया समय लेने वाली और महंगी हो सकती है। अगले चरण में, हम अमेज़ॅन कॉम्प्रिहेंड का उपयोग करके दस्तावेज़ों को उनकी संबंधित श्रेणियों में उच्च सटीकता के साथ वर्गीकृत करने के लिए इस प्रक्रिया को स्वचालित करते हैं।
दस्तावेज़ का वर्गीकरण
दस्तावेज़ वर्गीकरण एक ऐसी विधि है जिसके द्वारा बड़ी संख्या में अज्ञात दस्तावेज़ों को वर्गीकृत और लेबल किया जा सकता है। हम अमेज़ॅन कॉम्प्रिहेंड का उपयोग करके यह दस्तावेज़ वर्गीकरण करते हैं कस्टम क्लासिफायरियर. एक कस्टम क्लासिफायरियर एक एमएल मॉडल है जिसे आपकी रुचि के वर्गों को पहचानने के लिए लेबल किए गए दस्तावेज़ों के एक सेट के साथ प्रशिक्षित किया जा सकता है। एक होस्ट किए गए समापन बिंदु के पीछे मॉडल को प्रशिक्षित और तैनात करने के बाद, हम उस श्रेणी (या वर्ग) को निर्धारित करने के लिए क्लासिफायरियर का उपयोग कर सकते हैं जो किसी विशेष दस्तावेज़ से संबंधित है। इस मामले में, हम एक कस्टम क्लासिफायरियर को प्रशिक्षित करते हैं मल्टी-क्लास मोड, जो या तो CSV फ़ाइल या संवर्धित मेनिफेस्ट फ़ाइल के साथ किया जा सकता है। इस प्रदर्शन के प्रयोजनों के लिए, हम क्लासिफायरियर को प्रशिक्षित करने के लिए एक CSV फ़ाइल का उपयोग करते हैं। हमारे का संदर्भ लें गिटहब भंडार पूर्ण कोड नमूने के लिए। निम्नलिखित शामिल चरणों का एक उच्च-स्तरीय अवलोकन है:
- Amazon Textract का उपयोग करके छवि या PDF फ़ाइलों से UTF-8 एन्कोडेड सादा पाठ निकालें डिटेक्ट डॉक्यूमेंट टेक्स्ट एपीआई।
- सीएसवी प्रारूप में एक कस्टम क्लासिफायरियर को प्रशिक्षित करने के लिए प्रशिक्षण डेटा तैयार करें।
- CSV फ़ाइल का उपयोग करके एक कस्टम क्लासिफायरियर को प्रशिक्षित करें।
- रीयल-टाइम दस्तावेज़ वर्गीकरण के लिए एक एंडपॉइंट के साथ प्रशिक्षित मॉडल को तैनात करें या मल्टी-क्लास मोड का उपयोग करें, जो रीयल-टाइम और एसिंक्रोनस ऑपरेशन दोनों का समर्थन करता है।
निम्नलिखित आरेख इस प्रक्रिया को दिखाता है।
आप दस्तावेज़ों को पहचानने और वर्गीकृत करने के लिए परिनियोजित समापन बिंदु का उपयोग करके दस्तावेज़ वर्गीकरण को स्वचालित कर सकते हैं। यह ऑटोमेशन यह सत्यापित करने के लिए उपयोगी है कि बंधक पैकेट में सभी आवश्यक दस्तावेज मौजूद हैं या नहीं। मैन्युअल हस्तक्षेप के बिना एक लापता दस्तावेज़ को जल्दी से पहचाना जा सकता है, और प्रक्रिया में बहुत पहले आवेदक को सूचित किया जा सकता है।
दस्तावेज़ निष्कर्षण
इस चरण में, हम Amazon Textract और Amazon Comprehend का उपयोग करके दस्तावेज़ से डेटा निकालते हैं। प्रपत्र और तालिकाओं वाले संरचित और अर्ध-संरचित दस्तावेज़ों के लिए, हम Amazon Textract का उपयोग करते हैं विश्लेषण एपीआई। विशिष्ट दस्तावेज़ों जैसे आईडी दस्तावेज़ों के लिए, Amazon Textract प्रदान करता है विश्लेषण आईडी एपीआई। कुछ दस्तावेज़ों में सघन पाठ भी हो सकता है, और आपको उनसे व्यवसाय-विशिष्ट मुख्य शब्द निकालने की आवश्यकता हो सकती है, जिन्हें के रूप में भी जाना जाता है संस्थाओं। हम उपयोग करते हैं कस्टम इकाई मान्यता अमेज़ॅन की क्षमता एक कस्टम इकाई पहचानकर्ता को प्रशिक्षित करने के लिए समझती है, जो घने पाठ से ऐसी संस्थाओं की पहचान कर सकती है।
निम्नलिखित अनुभागों में, हम एक बंधक आवेदन पैकेट में मौजूद नमूना दस्तावेजों के माध्यम से चलते हैं, और उनसे जानकारी निकालने के लिए उपयोग की जाने वाली विधियों पर चर्चा करते हैं। इनमें से प्रत्येक उदाहरण के लिए, एक कोड स्निपेट और एक छोटा नमूना आउटपुट शामिल है।
एकीकृत आवासीय ऋण आवेदन URLA-1003 . से डेटा निकालें
एक एकीकृत आवासीय ऋण आवेदन (URLA-1003) एक उद्योग मानक बंधक ऋण आवेदन प्रपत्र है। यह एक काफी जटिल दस्तावेज है जिसमें बंधक आवेदक के बारे में जानकारी, खरीदी जा रही संपत्ति का प्रकार, वित्तपोषित राशि और संपत्ति की खरीद की प्रकृति के बारे में अन्य विवरण शामिल हैं। निम्नलिखित एक नमूना URLA-1003 है, और हमारा इरादा इस संरचित दस्तावेज़ से जानकारी निकालना है। क्योंकि यह एक फॉर्म है, हम एनालाइज डॉक्यूमेंट एपीआई का उपयोग एक फीचर प्रकार के साथ करते हैं FORM.
प्रपत्र सुविधा प्रकार दस्तावेज़ से प्रपत्र जानकारी निकालता है, जिसे बाद में की-वैल्यू जोड़ी प्रारूप में वापस कर दिया जाता है। निम्नलिखित कोड स्निपेट का उपयोग करता है amazon-textract-textractor
कोड की कुछ पंक्तियों के साथ फॉर्म की जानकारी निकालने के लिए पायथन लाइब्रेरी। सुविधा विधि call_textract()
कॉल करता है AnalyzeDocument
एपीआई आंतरिक रूप से, और विधि को पारित पैरामीटर कुछ कॉन्फ़िगरेशन को सार करते हैं जिन्हें एपीआई को निष्कर्षण कार्य चलाने की आवश्यकता होती है। Document
एपीआई से JSON प्रतिक्रिया को पार्स करने में मदद करने के लिए उपयोग की जाने वाली एक सुविधा विधि है। यह एक उच्च-स्तरीय अमूर्तता प्रदान करता है और एपीआई आउटपुट को चलने योग्य और जानकारी प्राप्त करने में आसान बनाता है। अधिक जानकारी के लिए देखें टेक्स्टट्रैक्ट रिस्पांस पार्सर और टेक्सट्रेक्टर.
ध्यान दें कि आउटपुट में प्रपत्र में मौजूद चेक बॉक्स या रेडियो बटन के मान शामिल हैं। उदाहरण के लिए, नमूना URLA-1003 दस्तावेज़ में, खरीद फरोख्त विकल्प चुना गया था। रेडियो बटन के लिए संबंधित आउटपुट को "के रूप में निकाला जाता है"Purchase
"(कुंजी) और"SELECTED
"(मान), यह दर्शाता है कि रेडियो बटन चुना गया था।
1099 रूपों से डेटा निकालें
एक बंधक आवेदन पैकेट में कई IRS दस्तावेज़ भी हो सकते हैं, जैसे कि 1099-DIV, 1099-INT, 1099-MISC, और 1099-R। ये दस्तावेज़ आवेदक की रुचियों, लाभांशों और अन्य विविध आय घटकों के माध्यम से आय दिखाते हैं जो निर्णय लेने के लिए हामीदारी के दौरान उपयोगी होते हैं। निम्नलिखित छवि इन दस्तावेजों का एक संग्रह दिखाती है, जो संरचना में समान हैं। हालाँकि, कुछ उदाहरणों में, दस्तावेज़ों में प्रपत्र जानकारी (लाल और हरे रंग के बाउंडिंग बॉक्स का उपयोग करके चिह्नित) के साथ-साथ सारणीबद्ध जानकारी (पीले बाउंडिंग बॉक्स द्वारा चिह्नित) होती है।
फॉर्म की जानकारी निकालने के लिए, हम समान कोड का उपयोग करते हैं जैसा कि पहले बताया गया है AnalyzeDocument
एपीआई। हम की एक अतिरिक्त सुविधा पास करते हैं टेबल एपीआई को इंगित करने के लिए कि हमें दस्तावेज़ से निकाले गए फॉर्म और टेबल डेटा दोनों की आवश्यकता है। निम्नलिखित कोड स्निपेट का उपयोग करता है AnalyzeDocument
1099-INT दस्तावेज़ पर FORMS और TABLES सुविधाओं के साथ API:
क्योंकि दस्तावेज़ में एक एकल तालिका है, कोड का आउटपुट इस प्रकार है:
तालिका जानकारी में सेल स्थिति (पंक्ति 0, कॉलम 0, और इसी तरह) और प्रत्येक सेल के भीतर संबंधित टेक्स्ट होता है। हम एक सुविधा पद्धति का उपयोग करते हैं जो इस तालिका डेटा को पढ़ने में आसान ग्रिड दृश्य में बदल सकती है:
हमें निम्नलिखित आउटपुट मिलता है:
उपयोग में आसान सीएसवी प्रारूप में आउटपुट प्राप्त करने के लिए, प्रारूप प्रकार Pretty_Print_Table_Format.csv
में पारित किया जा सकता है table_format
पैरामीटर। अन्य प्रारूप जैसे TSV (टैब सेपरेटेड वैल्यू), HTML और लेटेक्स भी समर्थित हैं। अधिक जानकारी के लिए देखें टेक्स्टट्रैक्ट-सुंदर प्रिंटर.
एक बंधक नोट से डेटा निकालें
एक बंधक आवेदन पैकेट में घने पाठ के साथ असंरचित दस्तावेज़ हो सकते हैं। घने टेक्स्ट दस्तावेज़ों के कुछ उदाहरण अनुबंध और समझौते हैं। एक बंधक नोट एक बंधक आवेदक और ऋणदाता या बंधक कंपनी के बीच एक समझौता है, और इसमें घने पाठ पैराग्राफ में जानकारी शामिल है। ऐसे मामलों में, संरचना की कमी के कारण महत्वपूर्ण व्यावसायिक जानकारी प्राप्त करना मुश्किल हो जाता है जो बंधक आवेदन प्रक्रिया में महत्वपूर्ण है। इस समस्या को हल करने के दो तरीके हैं:
निम्नलिखित नमूना बंधक नोट में, हम विशेष रूप से मासिक भुगतान राशि और मूल राशि का पता लगाने में रुचि रखते हैं।
पहले दृष्टिकोण के लिए, हम उपयोग करते हैं Query
और QueriesConfig
Amazon Textract को दिए गए प्रश्नों के एक सेट को कॉन्फ़िगर करने के लिए सुविधाजनक तरीके AnalyzeDocument
एपीआई कॉल। यदि दस्तावेज़ बहु-पृष्ठ (पीडीएफ या टीआईएफएफ) है, तो हम उस पृष्ठ संख्या को भी निर्दिष्ट कर सकते हैं जहां अमेज़ॅन टेक्स्टट्रैक्ट को प्रश्न के उत्तर की तलाश करनी चाहिए। निम्नलिखित कोड स्निपेट दर्शाता है कि क्वेरी कॉन्फ़िगरेशन कैसे बनाएं, एपीआई कॉल करें, और बाद में प्रतिक्रिया से उत्तर प्राप्त करने के लिए प्रतिक्रिया को पार्स करें:
हमें निम्नलिखित आउटपुट मिलता है:
दूसरे दृष्टिकोण के लिए, हम Amazon Comprehend . का उपयोग करते हैं पता लगाने की क्षमता बंधक नोट के साथ एपीआई, जो उन संस्थाओं को लौटाता है जो इसे पाठ के भीतर से पता लगाते हैं a संस्थाओं का पूर्वनिर्धारित सेट. ये ऐसी इकाइयाँ हैं जिनके साथ Amazon Comprehend निकाय पहचानकर्ता पूर्व-प्रशिक्षित है। हालांकि, क्योंकि हमारी आवश्यकता विशिष्ट संस्थाओं का पता लगाने के लिए है, एक अमेज़ॅन कॉम्प्रिहेंड कस्टम इकाई पहचानकर्ता को नमूना बंधक नोट दस्तावेजों के एक सेट और संस्थाओं की एक सूची के साथ प्रशिक्षित किया जाता है। हम इकाई नामों को परिभाषित करते हैं: PRINCIPAL_AMOUNT
और MONTHLY_AMOUNT
. अमेज़ॅन कॉम्प्रिहेंड प्रशिक्षण के बाद प्रशिक्षण डेटा तैयार किया जाता है डेटा तैयारी दिशानिर्देश कस्टम इकाई मान्यता के लिए। इकाई पहचानकर्ता के साथ प्रशिक्षित किया जा सकता है दस्तावेज़ एनोटेशन या के साथ इकाई सूची. इस उदाहरण के प्रयोजनों के लिए, हम मॉडल को प्रशिक्षित करने के लिए इकाई सूचियों का उपयोग करते हैं। मॉडल को प्रशिक्षित करने के बाद, हम इसे a . के साथ तैनात कर सकते हैं वास्तविक समय समापन बिंदु में या बैच मोड दस्तावेज़ सामग्री से दो संस्थाओं का पता लगाने के लिए। कस्टम निकाय पहचानकर्ता को प्रशिक्षित करने और उसे परिनियोजित करने के लिए निम्नलिखित चरण शामिल हैं। पूर्ण कोड वॉकथ्रू के लिए, हमारे GitHub रिपॉजिटरी को देखें।
- प्रशिक्षण डेटा (इकाई सूची और दस्तावेज़ (UTF-8 एन्कोडेड) सादा पाठ प्रारूप) तैयार करें।
- का उपयोग करके इकाई पहचानकर्ता प्रशिक्षण प्रारंभ करें CreateEntityRecognizer प्रशिक्षण डेटा का उपयोग कर एपीआई।
- वास्तविक समय समापन बिंदु के साथ प्रशिक्षित मॉडल को तैनात करें बनाने की क्रिया एपीआई।
यूएस पासपोर्ट से डेटा निकालें
अमेज़ॅन टेक्सट्रैक्ट पहचान दस्तावेजों का विश्लेषण करें क्षमता यूएस-आधारित आईडी दस्तावेजों जैसे ड्राइविंग लाइसेंस और पासपोर्ट से जानकारी का पता लगा सकती है और निकाल सकती है। AnalyzeID
एपीआई आईडी दस्तावेजों में निहित क्षेत्रों का पता लगाने और व्याख्या करने में सक्षम है, जिससे दस्तावेज़ से विशिष्ट जानकारी निकालना आसान हो जाता है। पहचान दस्तावेज लगभग हमेशा एक बंधक आवेदन पैकेट का हिस्सा होते हैं, क्योंकि इसका उपयोग अंडरराइटिंग प्रक्रिया के दौरान उधारकर्ता की पहचान को सत्यापित करने और उधारकर्ता के जीवनी डेटा की शुद्धता को सत्यापित करने के लिए किया जाता है।
हम नाम की एक सुविधा विधि का उपयोग करते हैं call_textract_analyzeid
, जिसे कहते हैं AnalyzeID
एपीआई आंतरिक रूप से। फिर हम आईडी दस्तावेज़ से खोजे गए कुंजी-मूल्य जोड़े प्राप्त करने के लिए प्रतिक्रिया पर पुनरावृति करते हैं। निम्नलिखित कोड देखें:
AnalyzeID
नामक संरचना में जानकारी देता है IdentityDocumentFields
, जिसमें सामान्यीकृत कुंजियाँ और उनके संगत मान होते हैं। उदाहरण के लिए, निम्नलिखित आउटपुट में, FIRST_NAME
एक सामान्यीकृत कुंजी है और मान है ALEJANDRO
. उदाहरण पासपोर्ट छवि में, पहले नाम के लिए फ़ील्ड को "दिए गए नाम / प्रीनोम्स / नोम्ब्रे" के रूप में लेबल किया गया है, हालांकि AnalyzeID
कुंजी नाम में इसे सामान्य करने में सक्षम था FIRST_NAME
. समर्थित सामान्यीकृत क्षेत्रों की सूची के लिए, देखें पहचान दस्तावेज़ीकरण प्रतिक्रिया ऑब्जेक्ट.
एक बंधक पैकेट में कई अन्य दस्तावेज हो सकते हैं, जैसे कि पेस्टब, डब्ल्यू2 फॉर्म, बैंक स्टेटमेंट, क्रेडिट कार्ड स्टेटमेंट और रोजगार सत्यापन पत्र। हमारे पास इनमें से प्रत्येक दस्तावेज़ के लिए नमूने हैं, साथ ही उनसे डेटा निकालने के लिए आवश्यक कोड भी है। संपूर्ण कोड आधार के लिए, हमारे में नोटबुक देखें गिटहब भंडार.
दस्तावेज़ संवर्धन
दस्तावेज़ संवर्धन के सबसे सामान्य रूपों में से एक दस्तावेज़ों पर संवेदनशील या गोपनीय जानकारी का संशोधन है, जिसे गोपनीयता कानूनों या विनियमों के कारण अनिवार्य किया जा सकता है। उदाहरण के लिए, एक बंधक आवेदक के पेस्टब में संवेदनशील पीआईआई डेटा हो सकता है, जैसे कि नाम, पता और एसएसएन, जिसे विस्तारित भंडारण के लिए सुधार की आवश्यकता हो सकती है।
पिछले नमूना पेस्टब दस्तावेज़ में, हम एसएसएन, नाम, बैंक खाता संख्या और तिथियों जैसे पीआईआई डेटा का संशोधन करते हैं। किसी दस्तावेज़ में PII डेटा की पहचान करने के लिए, हम Amazon Comprehend . का उपयोग करते हैं पीआईआई का पता लगाना के माध्यम से क्षमता डिटेक्टPIIइकाइयाँ एपीआई। यह एपीआई पीआईआई जानकारी की उपस्थिति की पहचान करने के लिए दस्तावेज़ की सामग्री का निरीक्षण करता है। चूंकि इस एपीआई को यूटीएफ -8 एन्कोडेड सादा पाठ प्रारूप में इनपुट की आवश्यकता है, इसलिए हम पहले अमेज़ॅन टेक्स्टट्रैक्ट का उपयोग करके दस्तावेज़ से टेक्स्ट निकालते हैं डिटेक्ट डॉक्यूमेंट टेक्स्ट एपीआई, जो दस्तावेज़ से पाठ लौटाता है और बाउंडिंग बॉक्स आयाम और निर्देशांक जैसी ज्यामिति की जानकारी भी देता है। दोनों आउटपुट के संयोजन का उपयोग दस्तावेज़ पर संवर्धन प्रक्रिया के हिस्से के रूप में संशोधनों को आकर्षित करने के लिए किया जाता है।
डेटा की समीक्षा करें, मान्य करें और एकीकृत करें
दस्तावेज़ निष्कर्षण चरण से निकाले गए डेटा को विशिष्ट व्यावसायिक नियमों के विरुद्ध सत्यापन की आवश्यकता हो सकती है। विशिष्ट जानकारी को कई दस्तावेज़ों में भी मान्य किया जा सकता है, जिन्हें के रूप में भी जाना जाता है क्रॉस-डॉक्टर सत्यापन. क्रॉस-डॉक सत्यापन का एक उदाहरण आईडी दस्तावेज़ में आवेदक के नाम की तुलना बंधक आवेदन दस्तावेज़ में नाम से करना हो सकता है। आप इस चरण में संपत्ति मूल्य अनुमान और सशर्त हामीदारी निर्णय जैसे अन्य सत्यापन भी कर सकते हैं।
तीसरे प्रकार का सत्यापन दस्तावेज़ निष्कर्षण चरण में निकाले गए डेटा के विश्वास स्कोर से संबंधित है। Amazon Textract और Amazon Comprehend फ़ॉर्म, टेबल, टेक्स्ट डेटा और पता लगाए गए निकायों के लिए एक कॉन्फिडेंस स्कोर लौटाते हैं। आप यह सुनिश्चित करने के लिए एक विश्वास स्कोर सीमा कॉन्फ़िगर कर सकते हैं कि केवल सही मान डाउनस्ट्रीम भेजे जा रहे हैं। यह अमेज़ॅन A2I के माध्यम से प्राप्त किया जाता है, जो पूर्वनिर्धारित आत्मविश्वास सीमा के साथ पता लगाए गए डेटा के विश्वास स्कोर की तुलना करता है। यदि सीमा पूरी नहीं होती है, तो दस्तावेज़ और निकाले गए आउटपुट को एक सहज यूआई के माध्यम से समीक्षा के लिए मानव के पास भेजा जाता है। समीक्षक डेटा पर सुधारात्मक कार्रवाई करता है और इसे आगे की प्रक्रिया के लिए सहेजता है। अधिक जानकारी के लिए देखें Amazon A2I की मुख्य अवधारणाएं.
निष्कर्ष
इस पोस्ट में, हमने बुद्धिमान दस्तावेज़ प्रसंस्करण के चरणों पर चर्चा की क्योंकि यह एक बंधक आवेदन के चरणों से संबंधित है। हमने दस्तावेजों के कुछ सामान्य उदाहरण देखे जो एक बंधक आवेदन पैकेट में पाए जा सकते हैं। हमने इन दस्तावेज़ों से संरचित, अर्ध-संरचित और असंरचित सामग्री को निकालने और संसाधित करने के तरीकों पर भी चर्चा की। IDP संपूर्ण बंधक दस्तावेज़ प्रसंस्करण को स्वचालित करने का एक तरीका प्रदान करता है जिसे लाखों दस्तावेज़ों तक बढ़ाया जा सकता है, आवेदन निर्णयों की गुणवत्ता को बढ़ाता है, लागत कम करता है, और ग्राहकों को तेज़ी से सेवा प्रदान करता है।
अगले चरण के रूप में, आप हमारे में कोड नमूने और नोटबुक आज़मा सकते हैं गिटहब भंडार. इस बारे में अधिक जानने के लिए कि IDP आपके दस्तावेज़ को संसाधित करने के कार्यभार में कैसे मदद कर सकता है, पर जाएँ दस्तावेज़ों से डेटा प्रोसेसिंग को स्वचालित करें.
लेखक के बारे में
अंजन बिस्वास एआई/एमएल और डेटा एनालिटिक्स पर ध्यान देने के साथ एक वरिष्ठ एआई सर्विसेज सॉल्यूशंस आर्किटेक्ट हैं। अंजन विश्वव्यापी एआई सेवाओं की टीम का हिस्सा है और ग्राहकों को एआई और एमएल के साथ व्यावसायिक समस्याओं को समझने और उनका समाधान विकसित करने में मदद करने के लिए उनके साथ काम करता है। अंजन को वैश्विक आपूर्ति श्रृंखला, विनिर्माण और खुदरा संगठनों के साथ काम करने का 14 वर्षों का अनुभव है और सक्रिय रूप से ग्राहकों को एडब्ल्यूएस एआई सेवाओं को शुरू करने और बढ़ाने में मदद कर रहा है।
द्विति पाठक सैन डिएगो से बाहर स्थित एक वरिष्ठ तकनीकी खाता प्रबंधक है। वह सेमीकंडक्टर उद्योग को AWS में संलग्न करने में मदद करने पर केंद्रित है। अपने खाली समय में, वह नई तकनीकों के बारे में पढ़ना और बोर्ड गेम खेलना पसंद करती हैं।
बालाजी पुलिक बे एरिया, सीए में स्थित एक समाधान वास्तुकार है। वर्तमान में चुनिंदा नॉर्थवेस्ट यूएस हेल्थकेयर लाइफ साइंसेज ग्राहकों को अपने एडब्ल्यूएस क्लाउड अपनाने में तेजी लाने में मदद कर रहा है। बालाजी को यात्रा करना पसंद है और उन्हें विभिन्न व्यंजनों का पता लगाना पसंद है।
- उन्नत (300)
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- Amazon Comprehend
- अमेज़न टेक्सट्रेक
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट