अमेज़ॅन टेक्सट्रैक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन एंड रिमूवल

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अमेज़न टेक्सट्रेक एक पूरी तरह से प्रबंधित मशीन लर्निंग (एमएल) सेवा है जो स्वचालित रूप से मुद्रित पाठ, हस्तलिपि और स्कैन किए गए दस्तावेज़ों से अन्य डेटा को निकालता है जो रूपों और तालिकाओं से डेटा को पहचानने, समझने और निकालने के लिए सरल ऑप्टिकल चरित्र मान्यता (ओसीआर) से परे जाता है। अमेज़ॅन टेक्सट्रेक विभिन्न दस्तावेजों में पाठ का पता लगा सकता है, जिसमें वित्तीय रिपोर्ट, चिकित्सा रिकॉर्ड और कर फ़ॉर्म शामिल हैं।

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.

कई उपयोग मामलों में, आपको विभिन्न दृश्यों जैसे लोगो, फोटो और चार्ट के साथ दस्तावेजों को निकालने और उनका विश्लेषण करने की आवश्यकता होती है। इन दृश्यों में एम्बेडेड टेक्स्ट होता है जो अमेज़ॅन टेक्सट्रैक्ट आउटपुट को कन्फ्यूज़ करता है या आपके डाउनस्ट्रीम प्रोसेस के लिए आवश्यक नहीं होता है। उदाहरण के लिए, कई रियल एस्टेट मूल्यांकन रूपों या दस्तावेजों में घरों की तस्वीरें या ऐतिहासिक कीमतों के रुझान शामिल हैं। डाउनस्ट्रीम प्रक्रियाओं में इस जानकारी की आवश्यकता नहीं है, और आपको दस्तावेज़ का विश्लेषण करने के लिए अमेज़ॅन टेक्सट्रैक का उपयोग करने से पहले इसे निकालना होगा। इस पोस्ट में, हम इन दृश्यों को आपके प्रीप्रोसेसिंग के हिस्से के रूप में हटाने के लिए दो प्रभावी तरीकों का वर्णन करते हैं।

समाधान अवलोकन

इस पोस्ट के लिए, हम एक पीडीएफ का उपयोग करते हैं जिसमें एक लोगो और उदाहरण के रूप में एक चार्ट है। हम इन विजुअल्स को बदलने और पता लगाने के लिए दो अलग-अलग प्रकार की प्रक्रियाओं का उपयोग करते हैं, फिर उन्हें रिडक्ट करते हैं।

पहली विधि में, हम दृश्यों के किनारे का पता लगाने के लिए OpenCV लाइब्रेरी कैनी एज डिटेक्टर का उपयोग करते हैं। दूसरी विधि के लिए, हम इन दृश्यों के स्थान का पता लगाने के लिए एक कस्टम पिक्सेल एकाग्रता विश्लेषक लिखते हैं।

आप इन दृश्यों को आगे की प्रक्रिया के लिए निकाल सकते हैं, और आसानी से अपने उपयोग के मामले को फिट करने के लिए कोड को संशोधित कर सकते हैं।

खोज योग्य पीडीएफ मूल पीडीएफ फाइलें हैं जो आमतौर पर अन्य अनुप्रयोगों, जैसे कि टेक्स्ट प्रोसेसर, वर्चुअल पीडीएफ प्रिंटर और देशी संपादकों द्वारा बनाई जाती हैं। इस प्रकार के PDF दस्तावेज़ के अंदर मेटाडेटा, पाठ और छवि जानकारी को बनाए रखते हैं। आप आसानी से पुस्तकालयों का उपयोग कर सकते हैं PyMuPDF / fitz पीडीएफ संरचना को नेविगेट करने और छवियों और पाठ की पहचान करने के लिए। इस पोस्ट में, हम गैर-खोज योग्य या छवि-आधारित दस्तावेजों पर ध्यान केंद्रित करते हैं।

विकल्प 1: ओपनसीवी एज डिटेक्टर के साथ दृश्य का पता लगाना

इस दृष्टिकोण में, हम पीडीएफ को पीएनजी प्रारूप में परिवर्तित करते हैं, फिर दस्तावेज़ को ग्रेस्केल के साथ ओपनसीवी-पायथन पुस्तकालय और दृश्य स्थानों का पता लगाने के लिए कैनी एज डिटेक्टर का उपयोग करें। आप निम्नलिखित में विस्तृत चरणों का पालन कर सकते हैं नोटबुक.

दस्तावेज़ को ग्रेस्केल में बदलें।

Canny-Edged दस्तावेज़ में आकृति का पता लगाने के लिए Canny Edge एल्गोरिथ्म लागू करें।
प्रासंगिक आयामों के साथ आयताकार आकृति की पहचान करें।

आप अपने उपयोग के मामले के आधार पर पहचान की सटीकता बढ़ाने के लिए कुछ मापदंडों को ट्यून और अनुकूलित कर सकते हैं:

न्यूनतम ऊंचाई और चौड़ाई - ये पैरामीटर दृश्य पहचान के लिए न्यूनतम ऊंचाई और चौड़ाई थ्रेसहोल्ड को परिभाषित करते हैं। यह पृष्ठ आकार के प्रतिशत में व्यक्त किया गया है।
गद्दी - जब एक आयत समोच्च का पता लगाया जाता है, तो हम अतिरिक्त पैडिंग क्षेत्र को परिभाषित करते हैं कि पृष्ठ के कुल क्षेत्र पर कुछ लचीलापन हो। यह उन मामलों में मददगार है, जहां विजुअल में ग्रंथ स्पष्ट रूप से सीमांकित आयताकार क्षेत्रों के अंदर नहीं हैं।

फायदे और नुकसान

इस दृष्टिकोण के निम्नलिखित फायदे हैं:

यह ज्यादातर उपयोग के मामलों को संतुष्ट करता है
इसे लागू करना आसान है, और जल्दी उठना और चलना है
इसके इष्टतम मापदंडों से अच्छे परिणाम मिलते हैं

हालाँकि, दृष्टिकोण में निम्नलिखित कमियां हैं:

एक बाउंडिंग बॉक्स या आसपास के किनारों के दृश्यों के लिए, दृश्य के प्रकार के आधार पर प्रदर्शन भिन्न हो सकते हैं
यदि पाठ का एक ब्लॉक बड़े बाउंडिंग बॉक्स के अंदर है, तो पूरे टेक्स्ट ब्लॉक को एक दृश्य माना जा सकता है और इस तर्क का उपयोग करके हटाया जा सकता है

विकल्प 2: पिक्सेल एकाग्रता विश्लेषण

हम छवि पिक्सल का विश्लेषण करके अपने दूसरे दृष्टिकोण को लागू करते हैं। सामान्य पाठ पैराग्राफ अपनी लाइनों में एक एकाग्रता हस्ताक्षर बनाए रखते हैं। हम पिक्सेल घनत्व वाले क्षेत्रों की पहचान करने के लिए पिक्सेल घनत्वों को माप और विश्लेषण कर सकते हैं जो बाकी दस्तावेज़ों के समान नहीं हैं। आप निम्नलिखित में विस्तृत चरणों का पालन कर सकते हैं नोटबुक.

दस्तावेज़ को ग्रेस्केल में बदलें।
ग्रे क्षेत्रों को सफेद में बदलें।
काले पिक्सेल की एकाग्रता की गणना करने के लिए क्षैतिज रूप से पिक्सेल को संक्षिप्त करें।
उन दस्तावेज़ों को क्षैतिज पट्टियों या खंडों में विभाजित करें जिनकी पहचान पूर्ण पाठ नहीं है (पूरे पृष्ठ पर फैली हुई)।

सभी क्षैतिज खंडों के लिए जो पूर्ण पाठ नहीं हैं, उन क्षेत्रों की पहचान करें जो पाठ बनाम ऐसे क्षेत्र हैं जो चित्र हैं। यह न्यूनतम और अधिकतम काले पिक्सेल एकाग्रता थ्रेशोल्ड का उपयोग करके अनुभागों को फ़िल्टर करने के द्वारा किया जाता है।
गैर-पूर्ण पाठ के रूप में पहचाने गए क्षेत्रों को निकालें।

आप गैर-पाठ क्षेत्रों की पहचान करने की सटीकता का अनुकूलन करने के लिए निम्नलिखित मानकों को धुन सकते हैं:

गैर-पाठ क्षैतिज खंड थ्रेसहोल्ड - पृष्ठ में गैर-पाठ क्षैतिज खंडों का पता लगाने के लिए उपयोग की जाने वाली न्यूनतम और अधिकतम काली पिक्सेल एकाग्रता थ्रेसहोल्ड को परिभाषित करें।
गैर-पाठ ऊर्ध्वाधर खंड थ्रेसहोल्ड - पृष्ठ में गैर-पाठ ऊर्ध्वाधर खंडों का पता लगाने के लिए उपयोग की जाने वाली न्यूनतम और अधिकतम काली पिक्सेल सांद्रता सीमा को परिभाषित करें।
खिड़की का आकार - यह विश्लेषण करता है कि विश्लेषण के लिए पृष्ठ क्षैतिज और ऊर्ध्वाधर खंडों में कैसे विभाजित है (X_WINDOW, Y_WINDOW)। यह पिक्सेल की संख्या में परिभाषित किया गया है।
न्यूनतम दृश्य क्षेत्र - सबसे छोटे क्षेत्र को परिभाषित करता है जिसे हटाने के लिए एक दृश्य माना जा सकता है। इसे पिक्सेल में परिभाषित किया गया है।
ग्रे रेंज थ्रेसहोल्ड - शेड के ग्रे को हटाने के लिए दहलीज।

फायदे और नुकसान

यह दृष्टिकोण अत्यधिक अनुकूलन योग्य है। हालाँकि, इसकी निम्न कमियां हैं:

इष्टतम मापदंडों में अधिक समय लगता है और समाधान की गहरी समझ प्राप्त करने के लिए
यदि दस्तावेज़ पूरी तरह से ठीक नहीं किया गया है (कैमरे द्वारा कोण के साथ लिया गया चित्र), तो यह विधि विफल हो सकती है।

निष्कर्ष

इस पोस्ट में, हमने दिखाया कि कैसे आप विभिन्न दस्तावेजों से दृश्य को कम करने के लिए दो तरीकों को लागू कर सकते हैं। दोनों दृष्टिकोणों को लागू करना आसान है। आप अपने उपयोग के मामले के अनुसार उच्च गुणवत्ता वाले परिणाम प्राप्त कर सकते हैं और किसी भी विधि को अनुकूलित कर सकते हैं।

अमेज़ॅन टेक्सट्रेक में विभिन्न तकनीकों के बारे में अधिक जानने के लिए, जनता पर जाएँ AWS नमूने GitHub रेपो.

लेखक के बारे में

युआन जियांग मशीन लर्निंग में फोकस के साथ एक सीन सॉल्यूशन आर्किटेक्ट है। वह अमेज़न कंप्यूटर विज़न हीरो प्रोग्राम और अमेज़न मशीन लर्निंग टेक्निकल फील्ड कम्युनिटी का सदस्य है।