अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.

अमेज़ॅन टेक्सट्रेक के साथ पीडीएफ दस्तावेज़ पूर्व-प्रसंस्करण: दृश्य का पता लगाना और निकालना

अमेज़न टेक्सट्रेक एक पूरी तरह से प्रबंधित मशीन लर्निंग (एमएल) सेवा है जो स्वचालित रूप से मुद्रित पाठ, हस्तलिपि और स्कैन किए गए दस्तावेज़ों से अन्य डेटा को निकालता है जो रूपों और तालिकाओं से डेटा को पहचानने, समझने और निकालने के लिए सरल ऑप्टिकल चरित्र मान्यता (ओसीआर) से परे जाता है। अमेज़ॅन टेक्सट्रेक विभिन्न दस्तावेजों में पाठ का पता लगा सकता है, जिसमें वित्तीय रिपोर्ट, चिकित्सा रिकॉर्ड और कर फ़ॉर्म शामिल हैं।

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.

कई उपयोग मामलों में, आपको विभिन्न दृश्यों जैसे लोगो, फोटो और चार्ट के साथ दस्तावेजों को निकालने और उनका विश्लेषण करने की आवश्यकता होती है। इन दृश्यों में एम्बेडेड टेक्स्ट होता है जो अमेज़ॅन टेक्सट्रैक्ट आउटपुट को कन्फ्यूज़ करता है या आपके डाउनस्ट्रीम प्रोसेस के लिए आवश्यक नहीं होता है। उदाहरण के लिए, कई रियल एस्टेट मूल्यांकन रूपों या दस्तावेजों में घरों की तस्वीरें या ऐतिहासिक कीमतों के रुझान शामिल हैं। डाउनस्ट्रीम प्रक्रियाओं में इस जानकारी की आवश्यकता नहीं है, और आपको दस्तावेज़ का विश्लेषण करने के लिए अमेज़ॅन टेक्सट्रैक का उपयोग करने से पहले इसे निकालना होगा। इस पोस्ट में, हम इन दृश्यों को आपके प्रीप्रोसेसिंग के हिस्से के रूप में हटाने के लिए दो प्रभावी तरीकों का वर्णन करते हैं।

समाधान अवलोकन

इस पोस्ट के लिए, हम एक पीडीएफ का उपयोग करते हैं जिसमें एक लोगो और उदाहरण के रूप में एक चार्ट है। हम इन विजुअल्स को बदलने और पता लगाने के लिए दो अलग-अलग प्रकार की प्रक्रियाओं का उपयोग करते हैं, फिर उन्हें रिडक्ट करते हैं।

पहली विधि में, हम दृश्यों के किनारे का पता लगाने के लिए OpenCV लाइब्रेरी कैनी एज डिटेक्टर का उपयोग करते हैं। दूसरी विधि के लिए, हम इन दृश्यों के स्थान का पता लगाने के लिए एक कस्टम पिक्सेल एकाग्रता विश्लेषक लिखते हैं।

आप इन दृश्यों को आगे की प्रक्रिया के लिए निकाल सकते हैं, और आसानी से अपने उपयोग के मामले को फिट करने के लिए कोड को संशोधित कर सकते हैं।

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.

खोज योग्य पीडीएफ मूल पीडीएफ फाइलें हैं जो आमतौर पर अन्य अनुप्रयोगों, जैसे कि टेक्स्ट प्रोसेसर, वर्चुअल पीडीएफ प्रिंटर और देशी संपादकों द्वारा बनाई जाती हैं। इस प्रकार के PDF दस्तावेज़ के अंदर मेटाडेटा, पाठ और छवि जानकारी को बनाए रखते हैं। आप आसानी से पुस्तकालयों का उपयोग कर सकते हैं PyMuPDF / fitz पीडीएफ संरचना को नेविगेट करने और छवियों और पाठ की पहचान करने के लिए। इस पोस्ट में, हम गैर-खोज योग्य या छवि-आधारित दस्तावेजों पर ध्यान केंद्रित करते हैं।

विकल्प 1: ओपनसीवी एज डिटेक्टर के साथ दृश्य का पता लगाना

इस दृष्टिकोण में, हम पीडीएफ को पीएनजी प्रारूप में परिवर्तित करते हैं, फिर दस्तावेज़ को ग्रेस्केल के साथ ओपनसीवी-पायथन पुस्तकालय और दृश्य स्थानों का पता लगाने के लिए कैनी एज डिटेक्टर का उपयोग करें। आप निम्नलिखित में विस्तृत चरणों का पालन कर सकते हैं नोटबुक.

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.

  1. दस्तावेज़ को ग्रेस्केल में बदलें।

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.

  1. Canny-Edged दस्तावेज़ में आकृति का पता लगाने के लिए Canny Edge एल्गोरिथ्म लागू करें।
  2. प्रासंगिक आयामों के साथ आयताकार आकृति की पहचान करें।

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.

आप अपने उपयोग के मामले के आधार पर पहचान की सटीकता बढ़ाने के लिए कुछ मापदंडों को ट्यून और अनुकूलित कर सकते हैं:

  • न्यूनतम ऊंचाई और चौड़ाई - ये पैरामीटर दृश्य पहचान के लिए न्यूनतम ऊंचाई और चौड़ाई थ्रेसहोल्ड को परिभाषित करते हैं। यह पृष्ठ आकार के प्रतिशत में व्यक्त किया गया है।
  • गद्दी - जब एक आयत समोच्च का पता लगाया जाता है, तो हम अतिरिक्त पैडिंग क्षेत्र को परिभाषित करते हैं कि पृष्ठ के कुल क्षेत्र पर कुछ लचीलापन हो। यह उन मामलों में मददगार है, जहां विजुअल में ग्रंथ स्पष्ट रूप से सीमांकित आयताकार क्षेत्रों के अंदर नहीं हैं।

फायदे और नुकसान

इस दृष्टिकोण के निम्नलिखित फायदे हैं:

  • यह ज्यादातर उपयोग के मामलों को संतुष्ट करता है
  • इसे लागू करना आसान है, और जल्दी उठना और चलना है
  • इसके इष्टतम मापदंडों से अच्छे परिणाम मिलते हैं

हालाँकि, दृष्टिकोण में निम्नलिखित कमियां हैं:

  • एक बाउंडिंग बॉक्स या आसपास के किनारों के दृश्यों के लिए, दृश्य के प्रकार के आधार पर प्रदर्शन भिन्न हो सकते हैं
  • यदि पाठ का एक ब्लॉक बड़े बाउंडिंग बॉक्स के अंदर है, तो पूरे टेक्स्ट ब्लॉक को एक दृश्य माना जा सकता है और इस तर्क का उपयोग करके हटाया जा सकता है

विकल्प 2: पिक्सेल एकाग्रता विश्लेषण

हम छवि पिक्सल का विश्लेषण करके अपने दूसरे दृष्टिकोण को लागू करते हैं। सामान्य पाठ पैराग्राफ अपनी लाइनों में एक एकाग्रता हस्ताक्षर बनाए रखते हैं। हम पिक्सेल घनत्व वाले क्षेत्रों की पहचान करने के लिए पिक्सेल घनत्वों को माप और विश्लेषण कर सकते हैं जो बाकी दस्तावेज़ों के समान नहीं हैं। आप निम्नलिखित में विस्तृत चरणों का पालन कर सकते हैं नोटबुक.

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.

  1. दस्तावेज़ को ग्रेस्केल में बदलें।
  2. ग्रे क्षेत्रों को सफेद में बदलें।
  3. काले पिक्सेल की एकाग्रता की गणना करने के लिए क्षैतिज रूप से पिक्सेल को संक्षिप्त करें।
  4. उन दस्तावेज़ों को क्षैतिज पट्टियों या खंडों में विभाजित करें जिनकी पहचान पूर्ण पाठ नहीं है (पूरे पृष्ठ पर फैली हुई)।

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.

  1. सभी क्षैतिज खंडों के लिए जो पूर्ण पाठ नहीं हैं, उन क्षेत्रों की पहचान करें जो पाठ बनाम ऐसे क्षेत्र हैं जो चित्र हैं। यह न्यूनतम और अधिकतम काले पिक्सेल एकाग्रता थ्रेशोल्ड का उपयोग करके अनुभागों को फ़िल्टर करने के द्वारा किया जाता है।
  2. गैर-पूर्ण पाठ के रूप में पहचाने गए क्षेत्रों को निकालें।

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.

आप गैर-पाठ क्षेत्रों की पहचान करने की सटीकता का अनुकूलन करने के लिए निम्नलिखित मानकों को धुन सकते हैं:

  • गैर-पाठ क्षैतिज खंड थ्रेसहोल्ड - पृष्ठ में गैर-पाठ क्षैतिज खंडों का पता लगाने के लिए उपयोग की जाने वाली न्यूनतम और अधिकतम काली पिक्सेल एकाग्रता थ्रेसहोल्ड को परिभाषित करें।
  • गैर-पाठ ऊर्ध्वाधर खंड थ्रेसहोल्ड - पृष्ठ में गैर-पाठ ऊर्ध्वाधर खंडों का पता लगाने के लिए उपयोग की जाने वाली न्यूनतम और अधिकतम काली पिक्सेल सांद्रता सीमा को परिभाषित करें।
  • खिड़की का आकार - यह विश्लेषण करता है कि विश्लेषण के लिए पृष्ठ क्षैतिज और ऊर्ध्वाधर खंडों में कैसे विभाजित है (X_WINDOW, Y_WINDOW)। यह पिक्सेल की संख्या में परिभाषित किया गया है।
  • न्यूनतम दृश्य क्षेत्र - सबसे छोटे क्षेत्र को परिभाषित करता है जिसे हटाने के लिए एक दृश्य माना जा सकता है। इसे पिक्सेल में परिभाषित किया गया है।
  • ग्रे रेंज थ्रेसहोल्ड - शेड के ग्रे को हटाने के लिए दहलीज।

फायदे और नुकसान

यह दृष्टिकोण अत्यधिक अनुकूलन योग्य है। हालाँकि, इसकी निम्न कमियां हैं:

  • इष्टतम मापदंडों में अधिक समय लगता है और समाधान की गहरी समझ प्राप्त करने के लिए
  • यदि दस्तावेज़ पूरी तरह से ठीक नहीं किया गया है (कैमरे द्वारा कोण के साथ लिया गया चित्र), तो यह विधि विफल हो सकती है।

निष्कर्ष

इस पोस्ट में, हमने दिखाया कि कैसे आप विभिन्न दस्तावेजों से दृश्य को कम करने के लिए दो तरीकों को लागू कर सकते हैं। दोनों दृष्टिकोणों को लागू करना आसान है। आप अपने उपयोग के मामले के अनुसार उच्च गुणवत्ता वाले परिणाम प्राप्त कर सकते हैं और किसी भी विधि को अनुकूलित कर सकते हैं।

अमेज़ॅन टेक्सट्रेक में विभिन्न तकनीकों के बारे में अधिक जानने के लिए, जनता पर जाएँ AWS नमूने GitHub रेपो.


लेखक के बारे में

 अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.युआन जियांग मशीन लर्निंग में फोकस के साथ एक सीन सॉल्यूशन आर्किटेक्ट है। वह अमेज़न कंप्यूटर विज़न हीरो प्रोग्राम और अमेज़न मशीन लर्निंग टेक्निकल फील्ड कम्युनिटी का सदस्य है।

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.विक्टर रोजो एक एआई पार्टनर सॉल्यूशन आर्किटेक्ट है, जो संवादी एआई फोकस के साथ है। वह अमेज़न कंप्यूटर विज़न हीरो प्रोग्राम के सदस्य भी हैं।

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.लुइस Pineda एक सीनियर पार्टनर मैनेजमेंट सॉल्यूशन आर्किटेक्ट है। वह अमेज़न कंप्यूटर विज़न हीरो प्रोग्राम के सदस्य भी हैं।

अमेज़ॅन टेक्सट्रेक्ट के साथ पीडीएफ दस्तावेज़ प्री-प्रोसेसिंग: विजुअल डिटेक्शन और प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को हटाना। लंबवत खोज। ऐ.मिगुएल रोमेरो कैल्वो AWS मशीन लर्निंग सॉल्यूशन लैब से डेटा साइंटिस्ट है।

स्रोत: https://aws.amazon.com/blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-textract/

समय टिकट:

से अधिक एडब्ल्यूएस मशीन लर्निंग ब्लॉग

कैसे लेटेंट स्पेस ने बड़े पैमाने पर ट्रांसफॉर्मर के फ्रंटर्स को पुश करने के लिए अमेज़ॅन सैजमेकर मॉडल समानता पुस्तकालय का उपयोग किया

स्रोत नोड: 1204406
समय टिकट: मार्च 12, 2021

पूर्वानुमान की मांग से लेकर ऑर्डर देने तक - स्टॉकआउट, अतिरिक्त इन्वेंट्री और लागत को कम करने के लिए अमेज़ॅन पूर्वानुमान के साथ एक स्वचालित मशीन सीखने का दृष्टिकोण

स्रोत नोड: 1204383
समय टिकट: मार्च 12, 2021