प्रपत्र डेटा निष्कर्षण

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

मुद्रित या हस्तलिखित प्रपत्रों से डेटा निकालना चाहते हैं? चेक आउट नैनोनेट्स™ फॉर्म डेटा एक्सट्रैक्टर मुफ्त में और किसी भी रूप से सूचना के निर्यात को स्वचालित!

रूप हर जगह हैं; उन्हें एक विशिष्ट प्रारूप में आवश्यक जानकारी भरने के लिए प्रतिभागियों से पूछकर जानकारी एकत्र करने के लिए बनाए गए दस्तावेजों के रूप में परिभाषित किया गया है। थोड़े समय में बहुत सारा डेटा इकट्ठा करने की उनकी क्षमता के कारण वे मददगार होते हैं। हालांकि, सभी रूपों में डेटा एकत्र करने की समान क्षमता नहीं होती है और अक्सर बाद में मैन्युअल कार्य की आवश्यकता होती है। इसलिए, हम प्रपत्र डेटा निष्कर्षण की प्रक्रिया को बुद्धिमानी से स्वचालित करने के लिए टूल और एल्गोरिदम पर भरोसा करते हैं। यह ब्लॉग पोस्ट ओसीआर और डीप लर्निंग का उपयोग करके फॉर्म से डेटा निकालने के लिए विभिन्न परिदृश्यों और तकनीकों में गहराई से गोता लगाएगा।

प्रपत्र डेटा निष्कर्षण क्या है?
क्या समस्या को चुनौतीपूर्ण बनाता है?
प्रपत्र निष्कर्षण समस्या की गहराई
प्रपत्र डेटा निष्कर्षण समाधान कैसे विकसित हुए हैं?
OCRs का उपयोग करके प्रपत्र डेटा निष्कर्षण
डीप लर्निंग का उपयोग करके फॉर्म डेटा एक्सट्रैक्शन को हल करना
नैनोनेट्स डालें

प्रपत्र डेटा निष्कर्षण क्या है?

फॉर्म डेटा एक्सट्रैक्शन ऑनलाइन और ऑफलाइन दोनों रूपों से डेटा निकालने की प्रक्रिया है। यह डेटा किसी भी प्रारूप में पाया जा सकता है, जिसमें आमतौर पर प्रासंगिक जानकारी वाला एक फॉर्म होता है। हालाँकि, इस डेटा को निकालना हमेशा आसान काम नहीं होता है क्योंकि कई लेआउट और डिज़ाइन टेक्स्ट को आसानी से चुनने की अनुमति नहीं देते हैं। उनसे डेटा कॉपी करने का कोई मूल तरीका नहीं है। इसलिए, हम ऐसे प्रपत्रों से डेटा निकालने में मदद करने के लिए स्वचालित तकनीकों पर भरोसा करते हैं जो अधिक प्रभावी और कम त्रुटि-प्रवण हैं।

प्रपत्र डेटा निष्कर्षण क्या है?

उदाहरण के लिए, आज कई उपयोगकर्ता संपर्क जानकारी एकत्र करने के लिए पीडीएफ-आधारित प्रपत्रों पर निर्भर हैं। यह जानकारी एकत्र करने का एक अत्यधिक कुशल तरीका है क्योंकि इसमें प्रेषक और प्राप्तकर्ता को इनपुट प्रदान करने की आवश्यकता नहीं होती है। लेकिन इस डेटा को पीडीएफ फॉर्म से निकालना चुनौतीपूर्ण और महंगा हो सकता है।

यहां, फॉर्म डेटा निष्कर्षण पीडीएफ फॉर्म से डेटा निकालने में मदद कर सकता है, जैसे नाम, ईमेल पता, फोन नंबर इत्यादि। इसे एक्सेल, शीट्स, या किसी अन्य संरचित प्रारूप जैसे किसी अन्य एप्लिकेशन में आयात किया जा सकता है। जिस तरह से यह काम करता है वह है पीडीएफ फाइल पर पढ़ने वाले निष्कर्षण उपकरण, स्वचालित रूप से जो कुछ भी चाहिए उसे बाहर निकालता है, और इसे पढ़ने में आसान प्रारूप में व्यवस्थित करता है। यह डेटा एक्सेल, सीएसवी, जेएसओएन, और अन्य अच्छी तरह से संरचित डेटा प्रारूपों जैसे अन्य प्रारूपों में निर्यात किया जा सकता है। अगले भाग में, आइए फॉर्म डेटा निष्कर्षण एल्गोरिदम का निर्माण करते समय अक्सर सामना की जाने वाली कुछ चुनौतियों को देखें।

मुद्रित या हस्तलिखित प्रपत्रों से डेटा निकालना चाहते हैं? नैनोनेट देखें™ फॉर्म डेटा एक्सट्रैक्टर मुफ्त में और किसी भी रूप से सूचना के निर्यात को स्वचालित करें!

प्रपत्र डेटा निष्कर्षण को क्या चुनौतीपूर्ण बनाता है?

डेटा निष्कर्षण कई कारणों से एक रोमांचक समस्या है। एक के लिए, यह एक छवि पहचान समस्या है, लेकिन इसे छवि में मौजूद पाठ और प्रपत्र के लेआउट पर भी विचार करना होगा, जो एक एल्गोरिथम के निर्माण को और अधिक जटिल बनाता है। यह खंड उन कुछ सामान्य चुनौतियों पर चर्चा करता है जिनका सामना लोग प्रपत्र डेटा निष्कर्षण एल्गोरिथम बनाते समय करते हैं।

डेटा की कमी: डेटा एक्सट्रैक्शन एल्गोरिदम आमतौर पर शक्तिशाली डीप लर्निंग और कंप्यूटर विज़न-आधारित एल्गोरिदम का उपयोग करके बनाए जाते हैं। ये आम तौर पर अत्याधुनिक प्रदर्शन प्राप्त करने के लिए बड़ी मात्रा में डेटा पर निर्भर करते हैं। इस प्रकार, डेटा निष्कर्षण उपकरण या सॉफ़्टवेयर के किसी भी रूप के लिए एक सुसंगत और विश्वसनीय डेटासेट ढूंढना और उन्हें संसाधित करना महत्वपूर्ण है। उदाहरण के लिए, मान लें कि हमारे पास कई टेम्प्लेट वाले फॉर्म हैं, तो ये एल्गोरिदम फॉर्म की एक विस्तृत श्रृंखला को समझने में सक्षम होना चाहिए; इसलिए उन्हें एक मजबूत डेटासेट पर प्रशिक्षण देने से अधिक सटीक प्रदर्शन होगा।
फ़ॉन्ट, भाषा और लेआउट को संभालना: विभिन्न प्रकार के प्रपत्र डेटा के लिए विभिन्न प्रकार के आकार, डिज़ाइन और टेम्पलेट उपलब्ध हैं। वे कई पूरी तरह से अलग-अलग वर्गीकरणों में आ सकते हैं, जिससे सटीक पहचान सुनिश्चित करना चुनौतीपूर्ण हो जाता है, जब विभिन्न प्रकार के चरित्रों को ध्यान में रखना होता है। इसलिए फ़ॉन्ट संग्रह को किसी विशेष भाषा और प्रकार तक सीमित करना महत्वपूर्ण है क्योंकि यह कई प्रक्रियाएँ बनाएगा जो आपके द्वारा उन दस्तावेज़ों को उचित रूप से संसाधित करने के बाद सुचारू रूप से प्रवाहित होंगी। बहुभाषी मामलों में, कई भाषाओं के पात्रों के बीच बाजीगरी के लिए तैयार रहने की जरूरत है और जटिल टाइपोग्राफी का भी ध्यान रखना चाहिए।

छवि स्रोत: मध्यम

अभिविन्यास और तिरछा (रोटेशन): डेटा क्यूरेशन के दौरान, हम अक्सर इनपुट डेटा संग्रह के लिए एल्गोरिदम को प्रशिक्षित करने के लिए छवियों को स्कैन करते हैं। यदि आपने कभी स्कैनर या डिजिटल कैमरा का उपयोग किया है, तो आपने देखा होगा कि जिस कोण पर आप दस्तावेज़ों की छवियों को कैप्चर करते हैं, वह कभी-कभी उन्हें तिरछा दिखाने का कारण बन सकता है। इसे तिरछापन के रूप में जाना जाता है जो कोण की डिग्री को दर्शाता है। यह तिरछापन मॉडल की सटीकता को कम कर सकता है। सौभाग्य से, इस समस्या को ठीक करने के लिए विभिन्न तकनीकों का उपयोग किया जा सकता है, बस यह संशोधित करके कि हमारा सॉफ़्टवेयर छवि के विशेष क्षेत्रों में सुविधाओं का पता कैसे लगाता है। ऐसी तकनीक का एक उदाहरण प्रोजेक्शन प्रोफाइल विधियां या फूरियर ट्रांसफॉर्मेशन विधियां हैं, जो आकार, आयाम और बनावट पहचान में अधिक क्लीनर परिणामों की अनुमति देती हैं! हालांकि अभिविन्यास और तिरछापन साधारण गलतियाँ हो सकती हैं, ये बड़ी संख्या में मॉडल की सटीकता को प्रभावित कर सकते हैं।

छवि स्रोत: pyimagesearch

डेटा सुरक्षा: यदि आप डेटा संग्रह के लिए विभिन्न स्रोतों से डेटा निकाल रहे हैं, तो सुरक्षा उपायों से अवगत होना महत्वपूर्ण है। अन्यथा, आप स्थानांतरित की जा रही जानकारी से समझौता करने का जोखिम उठाते हैं। इससे ऐसी स्थितियां पैदा हो सकती हैं जहां व्यक्तिगत जानकारी का उल्लंघन होता है या एपीआई को भेजी जाने वाली जानकारी सुरक्षित नहीं होती है। इसलिए, डेटा निष्कर्षण के लिए ईटीएल स्क्रिप्ट और ऑनलाइन एपीआई के साथ काम करते समय, डेटा सुरक्षा मुद्दों के बारे में भी पता होना चाहिए।
टेबल निष्कर्षण: कभी-कभी, हम तालिकाओं के अंदर प्रपत्र डेटा देखते हैं; एक मजबूत एल्गोरिथ्म का निर्माण करना जो फॉर्म निष्कर्षण और तालिका निष्कर्षण दोनों को संभाल सकता है, चुनौतीपूर्ण हो सकता है। सामान्य दृष्टिकोण इन एल्गोरिदम को स्वतंत्र रूप से बनाना और उन्हें डेटा पर लागू करना है, लेकिन इससे अधिक गणना शक्ति का उपयोग होगा जिससे लागत बढ़ जाती है। इसलिए, एक आदर्श फॉर्म निष्कर्षण किसी दिए गए दस्तावेज़ से फॉर्म-डेटा और डेटा दोनों को निकालने में सक्षम होना चाहिए।

छवि स्रोत: जीसीएन

पोस्ट प्रोसेसिंग / निर्यात आउटपुट: किसी भी डेटा निष्कर्षण से आउटपुट डेटा सीधा नहीं है। इसलिए, डेवलपर्स परिणामों को अधिक संरचित प्रारूप में फ़िल्टर करने के लिए पोस्ट-प्रोसेसिंग तकनीकों पर भरोसा करते हैं। डेटा को संसाधित करने के बाद, इसे CSV, Excel, या डेटाबेस जैसे अधिक संरचित प्रारूप में निर्यात किया जाता है। संगठन इस प्रक्रिया को स्वचालित करने के लिए तीसरे पक्ष के एकीकरण पर भरोसा करते हैं या एपीआई विकसित करते हैं, जो फिर से समय लेने वाली है। इसलिए, आदर्श डेटा निष्कर्षण एल्गोरिदम लचीला और बाहरी डेटा स्रोतों के साथ संवाद करने में आसान होना चाहिए।

प्रपत्र डेटा निष्कर्षण में पोस्ट-प्रोसेसिंग

विभिन्न परिदृश्यों के साथ प्रपत्र निष्कर्षण की गहराई को समझना

अब तक, हमने फॉर्म डेटा निष्कर्षण की बुनियादी बातों और चुनौतियों पर चर्चा की है। इस खंड में, हम विभिन्न परिदृश्यों में गहराई से उतरेंगे और फॉर्म डेटा निष्कर्षण की गहराई को समझेंगे। हम यह भी देखेंगे कि हम इन विशिष्ट परिदृश्यों के लिए निष्कर्षण प्रक्रिया को कैसे स्वचालित कर सकते हैं।

परिदृश्य # 1: ऑफ़लाइन प्रपत्रों के लिए हस्तलिखित पहचान

ऑफलाइन फॉर्म आमतौर पर दैनिक जीवन में सामने आते हैं। फॉर्म को भरना और जमा करना आसान होना अनिवार्य है। ऑफ़लाइन रूपों को मैन्युअल रूप से डिजिटल करना एक व्यस्त और महंगा काम हो सकता है, यही वजह है कि गहन शिक्षण एल्गोरिदम की आवश्यकता होती है। हस्तलिखित दस्तावेज़ हस्तलिखित वर्णों की जटिलता के कारण डेटा निकालने के लिए एक बड़ी चुनौती है। इसलिए, डेटा पहचान एल्गोरिदम का अत्यधिक उपयोग किया जाता है जिसके द्वारा एक मशीन हस्तलिखित पाठ को पढ़ना और व्याख्या करना सीखती है। इस प्रक्रिया में हस्तलिखित शब्दों की छवियों को स्कैन करना और उन्हें डेटा में परिवर्तित करना शामिल है जिसे एक एल्गोरिथ्म द्वारा संसाधित और विश्लेषण किया जा सकता है। एल्गोरिथ्म तब स्ट्रोक के आधार पर एक चरित्र मानचित्र बनाता है और पाठ को निकालने के लिए संबंधित अक्षरों को पहचानता है।

छवि स्रोत: एनएसआईटी डेटासेट

परिदृश्य #2: प्रपत्रों पर चेकबॉक्स पहचान

चेकबॉक्स प्रपत्र डेटा इनपुट का एक रूप है जिसका उपयोग किसी इनपुट फ़ील्ड में उपयोगकर्ता से जानकारी एकत्र करने के लिए किया जाता है। इस प्रकार का डेटा आमतौर पर सूचियों और तालिकाओं में पाया जाता है, जिसके लिए उपयोगकर्ता को एक या अधिक आइटम चुनने की आवश्यकता होती है, जैसे वे आइटम जिनसे वे संपर्क करना चाहते हैं। यह किसी भी संख्या में स्थानों पर पाया जा सकता है- ऑनलाइन फॉर्म, प्रश्नावली और सर्वेक्षण, और इसी तरह। आज, कुछ एल्गोरिदम चेकबॉक्स से भी डेटा निष्कर्षण प्रक्रिया को स्वचालित कर सकते हैं। इस एल्गोरिथ्म का प्राथमिक लक्ष्य कंप्यूटर विज़न तकनीकों का उपयोग करके इनपुट क्षेत्रों की पहचान करना है। इनमें रेखाओं (क्षैतिज और ऊर्ध्वाधर) की पहचान करना, फिल्टर लगाना, समोच्च और छवियों पर किनारों का पता लगाना शामिल है। इनपुट क्षेत्र की पहचान हो जाने के बाद, चिह्नित या अचिह्नित चेकबॉक्स सामग्री को निकालना आसान होता है।

प्रपत्र डेटा निष्कर्षण में चेकबॉक्स पहचान

परिदृश्य #3: समय-समय पर प्रपत्र का लेआउट परिवर्तन

जब फॉर्म भरने की बात आती है, तो आमतौर पर दो अलग-अलग प्रकार के विकल्प होते हैं। कुछ रूपों के लिए, हमें सभी प्रासंगिक क्षेत्रों में लिखकर अपनी जानकारी प्रदान करने की आवश्यकता होती है, जबकि अन्य के लिए, हम कुछ चेकबॉक्स से चयन करके जानकारी प्रदान कर सकते हैं। प्रपत्र के प्रकार और उसके संदर्भ के आधार पर प्रपत्र का लेआउट भी बदलता है। इसलिए, एक एल्गोरिथम बनाना आवश्यक है जो कई असंरचित दस्तावेज़ों को संभाल सकता है और प्रपत्र लेबल के आधार पर सामग्री को समझदारी से निकाल सकता है। दस्तावेज़ लेआउट को संभालने के लिए गहन शिक्षण वास्तुकला की एक लोकप्रिय तकनीक ग्राफ़ सीएनएन है। ग्राफ़ कन्वेन्शनल नेटवर्क्स (जीसीएन) के पीछे का विचार यह सुनिश्चित करना है कि न्यूरॉन सक्रियण डेटा-संचालित हैं। वे ग्राफ़ पर कार्य करने के लिए डिज़ाइन किए गए हैं, जो नोड्स और किनारों से बने होते हैं। एक कार्य-विशिष्ट प्रशिक्षण संकेत की अनुपस्थिति में एक ग्राफ संकेंद्रित परत पैटर्न को पहचानने में सक्षम है। इसलिए, जब डेटा मजबूत होता है तो ये उपयुक्त होते हैं।

परिदृश्य # 4: टेबल सेल डिटेक्शन

कुछ मामलों में, व्यवसाय विशेष प्रकार के रूपों में आते हैं जिनमें टेबल सेल होते हैं। टेबल सेल एक टेबल के अंदर आयताकार क्षेत्र होते हैं जहां डेटा संग्रहीत होता है। उन्हें हेडर, रो या कॉलम के रूप में वर्गीकृत किया जा सकता है। एक आदर्श एल्गोरिथम को इन सभी प्रकार की कोशिकाओं और उनसे डेटा निकालने के लिए उनकी सीमाओं की पहचान करनी चाहिए। टेबल निष्कर्षण के लिए कुछ लोकप्रिय तकनीकों में स्ट्रीम और जाली शामिल हैं; ये एल्गोरिदम हैं जो छवियों पर सरल आइसोमॉर्फिक संचालन का उपयोग करके रेखाओं, आकृतियों, बहुभुजों का पता लगाने में मदद कर सकते हैं।

प्रपत्र डेटा निष्कर्षण समाधान कैसे विकसित हुए हैं?

प्रपत्र डेटा निष्कर्षण की उत्पत्ति पूर्व-कंप्यूटर दिनों में हुई जब लोग कागज़ के रूपों को संभालते थे। कंप्यूटिंग के आगमन के साथ, डेटा को इलेक्ट्रॉनिक रूप से संग्रहीत करना संभव हो गया। कंप्यूटर प्रोग्राम डेटा का उपयोग रिपोर्ट बनाने के लिए कर सकते हैं, जैसे बिक्री आँकड़े। इस सॉफ़्टवेयर का उपयोग मेलिंग लेबलों को प्रिंट करने के लिए भी किया जा सकता है, जैसे कि ग्राहकों का नाम और पता, और चालान का प्रिंट आउट, जैसे कि देय राशि और पता जिस पर इसे भेजा जाना चाहिए। हालाँकि, आज हम प्रपत्र डेटा निष्कर्षण सॉफ़्टवेयर का एक भिन्न संस्करण देखते हैं; ये अत्यधिक सटीक, तेज़ हैं, और अत्यधिक संगठित और संरचित तरीके से डेटा वितरित करते हैं। अब, आइए संक्षेप में विभिन्न प्रकार की प्रपत्र डेटा निष्कर्षण तकनीकों पर चर्चा करें।

डेटा निष्कर्षण से नियम-आधारित: नियम-आधारित निष्कर्षण एक ऐसी तकनीक है जो किसी विशेष टेम्पलेट प्रपत्र से स्वचालित रूप से डेटा निकालती है। यह बिना किसी मानवीय हस्तक्षेप के डेटा निकाल सकता है। वे पृष्ठ पर विभिन्न क्षेत्रों की जांच करके और आस-पास के पाठ, लेबल और अन्य प्रासंगिक सुरागों के आधार पर यह निर्णय लेते हैं कि किसे निकालना है। ये एल्गोरिदम आमतौर पर ईटीएल स्क्रिप्ट या वेब स्क्रैपिंग का उपयोग करके विकसित और स्वचालित होते हैं। हालांकि, जब अनदेखी डेटा पर उनका परीक्षण किया जाता है, तो वे पूरी तरह से विफल हो जाते हैं।
ओसीआर का उपयोग करके फॉर्म डेटा एक्सट्रैक्शन: ओसीआर डेटा निष्कर्षण समस्या के किसी भी रूप के लिए एक आसान समाधान है। हालांकि, सटीक प्रदर्शन प्राप्त करने के लिए किसी को अतिरिक्त स्क्रिप्ट और प्रोग्राम लिखना चाहिए। ओसीआर को काम करने के लिए, उस पर टेक्स्ट के साथ एक छवि के इनपुट की आवश्यकता होती है। सॉफ्टवेयर तब प्रत्येक पिक्सेल को पढ़ता है और प्रत्येक पिक्सेल की तुलना उसके संबंधित अक्षर से करता है। यदि यह मेल खाता है, तो यह उस अक्षर और किसी भी संख्या या प्रतीकों को अक्षर के काफी करीब आउटपुट करेगा। ओसीआर के साथ सबसे बड़ी चुनौती यह पता लगाना है कि अक्षरों को कैसे अलग किया जाए। उदाहरण के लिए, जब नोट एक-दूसरे के पास हों या ओवरलैप हों, जैसे "a" और "e." इसलिए, जब हम ऑफलाइन फॉर्म निकाल रहे हैं तो ये काम नहीं कर सकते हैं।
प्रपत्र डेटा निष्कर्षण के लिए एनईआर: नामित निकाय मान्यता प्राकृतिक भाषा पाठ में पूर्वनिर्धारित संस्थाओं को पहचानने और वर्गीकृत करने का कार्य है। इसका उपयोग अक्सर प्रपत्रों से जानकारी निकालने के लिए किया जाता है, जहां लोग नाम, पते, टिप्पणियों आदि में टाइप करते हैं। नामित संस्थाओं को पहचानने का कार्य कोरफेरेंस रिज़ॉल्यूशन के व्यापक कार्य से निकटता से संबंधित है, जो यह निर्धारित करता है कि क्या समान संस्थाओं का उल्लेख संदर्भित करता है। वही वास्तविक दुनिया की संस्थाएं। आज उन्नत प्रोग्रामिंग टूल और फ्रेमवर्क के साथ, हम सूचना निष्कर्षण कार्यों के लिए एनईआर आधारित मॉडल बनाने के लिए पूर्व-प्रशिक्षित मॉडल का लाभ उठा सकते हैं।

छवि स्रोत: मध्यम

प्रपत्र डेटा निष्कर्षण के लिए डीप लर्निंग का उपयोग करना: डीप लर्निंग कोई नई बात नहीं है, यह दशकों से चली आ रही है, लेकिन डीप लर्निंग आर्किटेक्चर और कंप्यूटिंग पावर के हालिया विकास ने सफलता के परिणाम दिए हैं। डीप लर्निंग का उपयोग करके फॉर्म डेटा निष्कर्षण ने लगभग किसी भी प्रारूप में अत्याधुनिक प्रदर्शन हासिल किया, चाहे वह डिजिटल हो या हस्तलिखित। प्रक्रिया गहरे तंत्रिका नेटवर्क (डीएनएन) को हजारों या लाखों अलग-अलग उदाहरणों को खिलाकर शुरू होती है जो वे हैं। उदाहरण के लिए, नाम, ईमेल, आईडी, आदि जैसी अपनी संस्थाओं के साथ छवि-रूप लेबल। डीएनएन इस सारी जानकारी को संसाधित करता है और अपने आप सीखता है कि ये टुकड़े कैसे जुड़े हैं। हालांकि, अत्यधिक सटीक मॉडल बनाने के लिए बहुत सारी विशेषज्ञता और प्रयोग की आवश्यकता होती है।

फॉर्म डेटा एक्सट्रैक्शन के लिए डीप लर्निंग

OCRs का उपयोग करके प्रपत्र डेटा निष्कर्षण

प्रपत्रों से डेटा निकालने के लिए कई अलग-अलग पुस्तकालय उपलब्ध हैं। लेकिन क्या होगा यदि आप किसी प्रपत्र की छवि से डेटा निकालना चाहते हैं? यहीं पर Tesseract OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) आता है। Tesseract HP द्वारा विकसित एक ओपन-सोर्स OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) इंजन है। Tesseract OCR का उपयोग करके, स्कैन किए गए दस्तावेज़ों जैसे पेपर इनवॉइस, रसीदें और चेक को खोजने योग्य, संपादन योग्य डिजिटल फ़ाइलों में परिवर्तित करना संभव है। यह कई भाषाओं में उपलब्ध है और विभिन्न छवि प्रारूपों में वर्णों को पहचान सकता है। टेक्स्ट निकालने के लिए छवियों को संसाधित करने के लिए आमतौर पर अन्य पुस्तकालयों के संयोजन में टेसरैक्ट का उपयोग किया जाता है।

इसका परीक्षण करने के लिए, सुनिश्चित करें कि आपने अपने स्थानीय मशीन पर Tesseract स्थापित किया है। आप OCR चलाने के लिए Tesseract CLI या Python बाइंडिंग का उपयोग कर सकते हैं। Python-tesseract Google के Tesseract-OCR Engine के लिए एक आवरण है। इसका उपयोग पिलो और लेप्टोनिका इमेजिंग लाइब्रेरी द्वारा समर्थित सभी छवि प्रकारों को पढ़ने के लिए किया जा सकता है, जिसमें jpeg, png, gif, bmp, tiff, और अन्य शामिल हैं। यदि आवश्यक हो तो आप इसे आसानी से एक स्टैंड-अलोन आमंत्रण स्क्रिप्ट के रूप में उपयोग कर सकते हैं।

अब, फॉर्म डेटा वाली एक रसीद लेते हैं और कंप्यूटर विज़न और टेसेरैक्ट का उपयोग करके टेक्स्ट के स्थान की पहचान करने का प्रयास करते हैं।

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

OCRs का उपयोग करके प्रपत्र डेटा निष्कर्षण

यहां, आउटपुट में, जैसा कि हम देख सकते हैं, प्रोग्राम फॉर्म के अंदर सभी टेक्स्ट की पहचान करने में सक्षम था। अब, सभी जानकारी निकालने के लिए इस पर OCR लागू करते हैं। हम इसका उपयोग करके बस ऐसा कर सकते हैं छवि_से_स्ट्रिंग पायथन में समारोह।

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

आउटपुट:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

यहां हम फॉर्म से सभी जानकारी निकालने में सक्षम हैं। हालांकि, ज्यादातर मामलों में, केवल ओसीआर का उपयोग करने से मदद नहीं मिलेगी क्योंकि निकाला गया डेटा पूरी तरह से असंरचित होगा। इसलिए, उपयोगकर्ता प्रपत्रों पर कुंजी-मूल्य जोड़ी निष्कर्षण पर भरोसा करते हैं, जो केवल विशिष्ट संस्थाओं जैसे आईडी, तिथियां, कर राशि इत्यादि की पहचान कर सकते हैं। यह केवल गहन सीखने के साथ ही संभव है। अगले भाग में, आइए देखें कि हम सूचना निष्कर्षण एल्गोरिदम बनाने के लिए विभिन्न गहन शिक्षण तकनीकों का लाभ कैसे उठा सकते हैं।

डीप लर्निंग का उपयोग करके फॉर्म डेटा एक्सट्रैक्शन को हल करना

दृष्टिगत रूप से समृद्ध दस्तावेज़ों से मल्टीमॉडल सूचना निष्कर्षण के लिए ग्राफ कन्वेंशन

ग्राफ़ कनवल्शनल नेटवर्क (ग्राफ़ सीएनएन) गहरे दृढ़ तंत्रिका नेटवर्क (सीएनएन) का एक वर्ग है जो नोड और एज संरचना को संरक्षित करते हुए ग्राफ डेटा संरचनाओं में अत्यधिक गैर-रैखिक सुविधाओं को प्रभावी ढंग से सीखने में सक्षम है। वे इनपुट के रूप में ग्राफ डेटा संरचनाओं को ले सकते हैं और नोड्स और किनारों के लिए 'फीचर मैप्स' तैयार कर सकते हैं। परिणामी सुविधाओं का उपयोग ग्राफ वर्गीकरण, क्लस्टरिंग या सामुदायिक पहचान के लिए किया जा सकता है। जीसीएन इनवॉइस और रसीदों जैसे बड़े, नेत्रहीन समृद्ध दस्तावेज़ों से जानकारी निकालने के लिए एक शक्तिशाली समाधान प्रदान करते हैं। इन्हें संसाधित करने के लिए, प्रत्येक छवि को नोड्स और किनारों से युक्त ग्राफ़ में परिवर्तित किया जाना चाहिए। छवि पर कोई भी शब्द अपने स्वयं के नोड द्वारा दर्शाया गया है; शेष डेटा का विज़ुअलाइज़ेशन नोड के फीचर वेक्टर में एन्कोड किया गया है।

दस्तावेज़ ग्राफ। ग्राफ में प्रत्येक नोड एक दूसरे से पूरी तरह से जुड़ा हुआ है।(एसआरसी)

यह मॉडल पहले दस्तावेज़ में प्रत्येक टेक्स्ट सेगमेंट को ग्राफ़ एम्बेडिंग में एन्कोड करता है। ऐसा करने से प्रत्येक पाठ तत्व के आसपास के दृश्य और पाठ्य संदर्भ, पाठ के एक खंड के भीतर उसकी स्थिति या स्थान के साथ कैप्चर हो जाते हैं। इसके बाद यह इन ग्राफ़ को टेक्स्ट एम्बेडिंग के साथ जोड़ती है ताकि दस्तावेज़ की संरचना और उसमें क्या लिखा गया है, का समग्र प्रतिनिधित्व तैयार किया जा सके। मॉडल उन पाठों पर उच्च भार निर्दिष्ट करना सीखता है जो एक दूसरे के सापेक्ष उनके स्थानों के आधार पर संस्थाएं होने की संभावना है और जिस संदर्भ में वे पाठकों के एक बड़े ब्लॉक के भीतर दिखाई देते हैं। अंत में, यह इकाई निष्कर्षण के लिए एक मानक BiLSTM-CRF मॉडल लागू करता है। परिणाम बताते हैं कि यह एल्गोरिथम व्यापक मार्जिन पर बेसलाइन मॉडल (BiLSTM-CRF) से बेहतर प्रदर्शन करता है।

लेआउटएलएम: दस्तावेज़ छवि समझ के लिए पाठ और लेआउट का पूर्व-प्रशिक्षण

लेआउटएलएम मॉडल का आर्किटेक्चर बीईआरटी से काफी प्रेरित है और इसमें फास्टर आर-सीएनएन से इमेज एम्बेडिंग शामिल है। LayoutLM इनपुट एम्बेडिंग टेक्स्ट और स्थिति एम्बेडिंग के संयोजन के रूप में उत्पन्न होते हैं, फिर तेज़ R-CNN मॉडल द्वारा उत्पन्न छवि एम्बेडिंग के साथ संयुक्त होते हैं। नकाबपोश दृश्य-भाषा मॉडल और बहु-लेबल दस्तावेज़ वर्गीकरण मुख्य रूप से लेआउटएलएम के लिए पूर्व-प्रशिक्षण कार्यों के रूप में उपयोग किए जाते हैं। लेआउटएलएम मॉडल मूल्यवान, गतिशील और किसी भी काम के लिए पर्याप्त मजबूत है, जिसमें लेआउट समझ की आवश्यकता होती है, जैसे कि फॉर्म/रसीद निष्कर्षण, दस्तावेज़ छवि वर्गीकरण, या यहां तक कि दृश्य प्रश्न उत्तर भी इस प्रशिक्षण मॉडल के साथ किया जा सकता है।

छवि स्रोत: लेआउटएमएल

लेआउटएलएम मॉडल को IIT-CDIP टेस्ट कलेक्शन 1.0 पर प्रशिक्षित किया गया था, जिसमें 6 मिलियन से अधिक दस्तावेज़ और 11GB से अधिक डेटा के 12 मिलियन से अधिक स्कैन किए गए दस्तावेज़ चित्र शामिल हैं। इस मॉडल ने कई SOTA पूर्व-प्रशिक्षित मॉडलों को समझने, रसीद समझने और स्कैन किए गए दस्तावेज़ छवि वर्गीकरण कार्यों में काफी हद तक बेहतर प्रदर्शन किया था।

Form2Seq: हायर-ऑर्डर फॉर्म स्ट्रक्चर एक्सट्रैक्शन के लिए एक फ्रेमवर्क

Form2Seq एक ढांचा है जो स्थितीय अनुक्रमों का उपयोग करके इनपुट टेक्स्ट से संरचनाओं को निकालने पर केंद्रित है। पारंपरिक seq2seq ढांचे के विपरीत, Form2Seq संरचनाओं के सापेक्ष स्थानिक स्थिति का लाभ उठाता है, न कि उनके क्रम से।

इस पद्धति में, सबसे पहले, हम निम्न-स्तरीय तत्वों को वर्गीकृत करते हैं जो बेहतर प्रसंस्करण और संगठन की अनुमति देंगे। प्रपत्र 10 प्रकार के होते हैं, जैसे फ़ील्ड कैप्शन, सूची आइटम, इत्यादि। इसके बाद, हम निम्न-स्तरीय तत्वों, जैसे टेक्स्ट फ़ील्ड्स और चॉइसफ़िल्ड्स को उच्च-क्रम के निर्माणों में समूहित करते हैं, जिन्हें च्वाइसग्रुप कहा जाता है। इन्हें सूचना संग्रह तंत्र के रूप में उपयोग किया जाता है ताकि बेहतर उपयोगकर्ता अनुभव निचले स्तर के तत्वों को उच्च-क्रम के निर्माणों में प्राप्त किया जा सके, जैसे कि टेक्स्ट फील्ड्स, चॉइसफिल्ड्स और चॉइसग्रुप्स, जो फॉर्म में सूचना संग्रह तंत्र के रूप में उपयोग किए जाते हैं। यह घटक तत्वों को प्राकृतिक पठन क्रम में एक रैखिक क्रम में व्यवस्थित करके और उनके स्थानिक और पाठ्य अभ्यावेदन को Seq2Seq ढांचे में खिलाकर संभव है। Seq2Seq ढांचा क्रमिक रूप से संदर्भ के आधार पर वाक्य के प्रत्येक तत्व के लिए भविष्यवाणियां करता है। यह इसे अधिक जानकारी को संसाधित करने और कार्य की बेहतर समझ पर पहुंचने की अनुमति देता है।

तत्व प्रकार वर्गीकरण के लिए Form2seq मॉडल आर्किटेक्चर। विभिन्न चरणों को अक्षरों के साथ एनोटेट किया जाता है (एसआरसी).

मॉडल ने वर्गीकरण कार्य पर 90% की सटीकता हासिल की, जो कि विभाजन आधारित बेसलाइन मॉडल की तुलना में अधिक थी। टेक्स्ट ब्लॉक, टेक्स्ट फ़ील्ड और पसंद फ़ील्ड पर F1 क्रमशः 86.01%, 61.63% था। इस ढांचे ने तालिका संरचना पहचान के लिए ICDAR डेटासेट पर परिणामों की स्थिति हासिल की।

नैनोनेट्स एआई-आधारित ओसीआर सबसे अच्छा विकल्प क्यों है

हालांकि ओसीआर सॉफ्टवेयर टेक्स्ट की स्कैन की गई छवियों को पीडीएफ, डीओसी और पीपीटी जैसी प्रारूपित डिजिटल फाइलों में बदल सकता है, यह हमेशा सटीक नहीं होता है। नैनोनेट्स एआई-आधारित ओसीआर डीप लर्निंग सिस्टम जैसे आज के अग्रणी सॉफ्टवेयर ने स्कैन किए गए दस्तावेज़ से संपादन योग्य फ़ाइल बनाते समय पारंपरिक ओसीआर सिस्टम के सामने आने वाली कई चुनौतियों का सामना किया है। यह डेटा निष्कर्षण के लिए सबसे अच्छा विकल्प बन गया है क्योंकि यह शोर, ग्राफिकल तत्वों और स्वरूपण परिवर्तनों के लिए उच्च सटीकता दर और उच्च सहनशीलता स्तर प्रदान कर सकता है। अब, आइए कुछ बिंदुओं पर चर्चा करें कि एआई-आधारित ओसीआर सबसे अच्छा विकल्प कैसे है।

नैनोनेट्स - फॉर्म डेटा एक्सट्रैक्शन

ओसीआर, जैसा कि चर्चा की गई है, डेटा निकालने की एक सीधी तकनीक है। हालांकि, अनदेखी/नया डेटा डालने पर वे लगातार काम नहीं करेंगे। हालांकि, एआई-आधारित ओसीआर इस तरह की स्थितियों को संभाल सकता है, क्योंकि वे डेटा की एक विस्तृत श्रृंखला पर प्रशिक्षण देते हैं।
सामान्य OCRs प्रपत्र डेटा निष्कर्षण के लिए जटिल लेआउट को हैंडल नहीं कर सकते हैं। इसलिए, जब गहन शिक्षण या एआई के साथ संचालित किया जाता है, तो वे डेटा के लेआउट, टेक्स्ट और संदर्भ को समझकर सर्वोत्तम परिणाम देते हैं।
जब डेटा में शोर होता है, जैसे कि तिरछापन, कम रोशनी में स्कैन की गई छवियां आदि, तो ओसीआर खराब प्रदर्शन कर सकते हैं, जबकि डीप लर्निंग मॉडल ऐसी स्थितियों को संभाल सकते हैं और फिर भी अत्यधिक सटीक परिणाम दे सकते हैं।
एआई-आधारित ओसीआर पारंपरिक ओसीआर की तुलना में अत्यधिक अनुकूलन योग्य और लचीले हैं; असंरचित डेटा को किसी भी संरचित प्रारूप में बदलने के लिए उन्हें विभिन्न प्रकार के डेटा पर बनाया जा सकता है।
एआई-आधारित ओसीआर से पोस्ट-प्रोसेसिंग आउटपुट सादे ओसीआर की तुलना में सुलभ हैं; उन्हें किसी भी डेटा प्रारूप जैसे JSON, CSV, एक्सेल शीट्स, या यहां तक कि एक डेटाबेस जैसे कि सीधे मॉडल से पोस्टग्रेज में निर्यात किया जा सकता है।
एआई-आधारित ओसीआर को पूर्व-प्रशिक्षित मॉडल का उपयोग करके एक साधारण एपीआई के रूप में निर्यात किया जा सकता है। यह अन्य पारंपरिक तरीकों में अभी भी संभव है, लेकिन समय-समय पर मॉडलों को लगातार सुधारना कठिन हो सकता है। जबकि एआई-आधारित ओसीआर पर, इसे स्वचालित रूप से त्रुटियों से ट्यून किया जा सकता है।
सीधे ओसीआर का उपयोग करके टेबल निष्कर्षण अत्यधिक असंभव है। हालाँकि, इसे AI/DL की शक्ति से आसानी से किया जा सकता है। आज, एआई-आधारित ओसीआर दस्तावेज़ों के अंदर तालिका-आधारित रूपों को सकारात्मक रूप से इंगित कर सकते हैं और जानकारी निकाल सकते हैं।
यदि दस्तावेजों में कोई वित्तीय या गोपनीय डेटा है, तो एआई मॉडल धोखाधड़ी की जांच भी कर सकते हैं। यह मूल रूप से स्कैन किए गए दस्तावेज़ों से संपादित/धुंधले पाठ की तलाश करता है और प्रशासकों को सूचित करता है। इन मॉडलों के माध्यम से डुप्लीकेट दस्तावेजों या सूचनाओं की पहचान भी की जा सकती है। जबकि ओसीआर ऐसे मामलों में विफल हो जाता है।

समय टिकट: मार्च २०,२०२१

समय टिकट: नवम्बर 15, 2023

प्रपत्र डेटा निष्कर्षण

प्लेटो द्वारा पुनर्प्रकाशित

प्रपत्र डेटा निष्कर्षण क्या है?

प्रपत्र डेटा निष्कर्षण को क्या चुनौतीपूर्ण बनाता है?

विभिन्न परिदृश्यों के साथ प्रपत्र निष्कर्षण की गहराई को समझना

परिदृश्य # 1: ऑफ़लाइन प्रपत्रों के लिए हस्तलिखित पहचान

परिदृश्य #2: प्रपत्रों पर चेकबॉक्स पहचान

परिदृश्य #3: समय-समय पर प्रपत्र का लेआउट परिवर्तन

परिदृश्य # 4: टेबल सेल डिटेक्शन

प्रपत्र डेटा निष्कर्षण समाधान कैसे विकसित हुए हैं?

OCRs का उपयोग करके प्रपत्र डेटा निष्कर्षण

डीप लर्निंग का उपयोग करके फॉर्म डेटा एक्सट्रैक्शन को हल करना

नैनोनेट्स एआई-आधारित ओसीआर सबसे अच्छा विकल्प क्यों है

से अधिक एअर इंडिया और मशीन लर्निंग

2024 में देय खातों (एपी) रिपोर्ट और रिपोर्टिंग के लिए एक गाइड

व्यय रसीद क्या है?

12 रोमांचक RPA आँकड़े जिन्हें आप 2022 में मिस नहीं कर सकते

फ़ोन नंबर निकालने वाला: वह सब कुछ जो आपको जानना आवश्यक है

आर्गस मॉडलिंग: ड्राइविंग डेटा-आधारित रियल एस्टेट निर्णय

विक्रेता प्रबंधन प्रक्रिया: महत्व, लाभ और चुनौतियां

कितने दिनों का देय बकाया है? और डीपीओ की गणना कैसे करें?

देय खातों में डिजिटल परिवर्तन के लिए एक संपूर्ण मार्गदर्शिका

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा