स्कैन किए गए दस्तावेज़ों से डेटा निकालना

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

स्कैन किए गए दस्तावेज़ों से डेटा निकालना चाहते हैं? प्रयत्न नैनोनेट्स™ उन्नत एआई-आधारित ओसीआर स्कैनर से जानकारी निकालने और व्यवस्थित करने के लिए स्कैन किए गए दस्तावेज़ स्वतः.

परिचय

जैसे-जैसे दुनिया सुविधा के लिए कागज़ों और हस्तलेखों से डिजिटल दस्तावेज़ों में बदल गई है, छवियों और स्कैन किए गए दस्तावेज़ों को सार्थक डेटा में बदलने का महत्व आसमान छू गया है।

अत्यधिक सटीक दस्तावेज़ डेटा निष्कर्षण की आवश्यकता को पूरा करने के लिए, कई शोध सुविधाओं और निगमों (यानी, Google, AWS, नैनोनेट्स इत्यादि) ने कंप्यूटर दृष्टि और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के क्षेत्र में प्रौद्योगिकियों में गहराई से ध्यान केंद्रित किया।

गहन शिक्षण प्रौद्योगिकियों के फलने-फूलने से उस तरह के डेटा में एक विशाल छलांग सुनिश्चित हुई है जिसे निकाला जा सकता है; हम अब केवल टेक्स्ट निकालने से नहीं, बल्कि अन्य डेटा संरचनाओं जैसे कि टेबल और की-वैल्यू पेयर से भी विवश हैं। कई समाधान अब दस्तावेज़ डेटा निष्कर्षण में व्यक्तियों और व्यापार मालिकों की जरूरतों को पूरा करने के लिए विभिन्न उत्पादों की पेशकश करते हैं।

यह लेख स्कैन किए गए दस्तावेज़ों से डेटा निष्कर्षण के लिए उपयोग की जाने वाली वर्तमान तकनीक में गोता लगाता है, इसके बाद पायथन में एक संक्षिप्त व्यावहारिक ट्यूटोरियल है। हम इस क्षेत्र में सर्वोत्तम पेशकश प्रदान करने वाले वर्तमान में बाजार में मौजूद कुछ लोकप्रिय समाधानों को भी देखेंगे।

स्कैन किए गए दस्तावेज़ों से डेटा निकालना

डेटा निष्कर्षण क्या है?

डेटा निष्कर्षण असंरचित डेटा को प्रोग्राम द्वारा व्याख्या योग्य जानकारी में परिवर्तित करने की प्रक्रिया है, ताकि मानव द्वारा आगे डेटा प्रोसेसिंग की अनुमति दी जा सके। यहां हम स्कैन किए गए दस्तावेज़ों से निकाले जाने वाले कई सबसे सामान्य प्रकार के डेटा को सूचीबद्ध करते हैं।

टेक्स्ट डेटा

स्कैन किए गए दस्तावेज़ों से डेटा निकालने में सबसे आम और सबसे महत्वपूर्ण कार्य टेक्स्ट निकालना है। यह प्रक्रिया, हालांकि सरल प्रतीत होती है, वास्तव में बहुत कठिन है क्योंकि स्कैन किए गए दस्तावेज़ अक्सर छवियों के प्रारूप में प्रस्तुत किए जाते हैं। इसके अलावा, निष्कर्षण के तरीके पाठ के प्रकारों पर अत्यधिक निर्भर हैं। जबकि पाठ अधिकांश समय घने मुद्रित स्वरूपों में मौजूद होता है, कम अच्छी तरह से स्कैन किए गए दस्तावेज़ों से या अत्यधिक भिन्न शैलियों वाले हस्तलिखित अक्षरों से विरल पाठ निकालने की क्षमता समान रूप से महत्वपूर्ण होती है। इस तरह की प्रक्रिया प्रोग्राम को छवियों को मशीन-एन्कोडेड टेक्स्ट में बदलने की अनुमति देगी, जहां हम उन्हें आगे के विश्लेषण के लिए असंरचित डेटा (कुछ स्वरूपण के बिना) से संरचित डेटा में व्यवस्थित कर सकते हैं।

💡

ऐसी प्रक्रियाओं को शक्ति देने वाले गहन शिक्षण एल्गोरिदम को समझना चाहते हैं? हमारे की ओर बढ़ें LayoutLM समझाया ब्लॉग

टेबल्स

डेटा भंडारण के लिए सारणीबद्ध रूप सबसे लोकप्रिय दृष्टिकोण है, क्योंकि प्रारूप को मानवीय आंखों से आसानी से समझा जा सकता है। स्कैन किए गए दस्तावेज़ों से तालिकाओं को निकालने की प्रक्रिया के लिए चरित्र पहचान से परे प्रौद्योगिकी की आवश्यकता होती है - एक उचित तालिका निष्कर्षण करने के लिए लाइनों और अन्य दृश्य विशेषताओं का पता लगाना चाहिए और आगे की गणना के लिए उन सूचनाओं को संरचित डेटा में परिवर्तित करना चाहिए। उच्च सटीकता तालिका निष्कर्षण प्राप्त करने के लिए कंप्यूटर दृष्टि विधियों (निम्नलिखित अनुभागों में विस्तार से वर्णित) का अत्यधिक उपयोग किया जाता है।

कुंजी-मूल्य जोड़े

एक वैकल्पिक प्रारूप जिसे हम अक्सर डेटा भंडारण के लिए दस्तावेजों में अपनाते हैं, वह है की-वैल्यू पेयर (केवीपी)।

केवीपी अनिवार्य रूप से दो डेटा आइटम हैं - एक कुंजी और एक मूल्य - एक के रूप में एक साथ जुड़े हुए हैं। मूल्य को पुनर्प्राप्त करने के लिए कुंजी का उपयोग अद्वितीय पहचानकर्ता के रूप में किया जाता है। एक क्लासिक केवीपी उदाहरण शब्दकोश है, जहां शब्दसंग्रह कुंजी हैं और संबंधित परिभाषाएं मान हैं। ये जोड़े, जबकि आमतौर पर किसी का ध्यान नहीं जाता, वास्तव में दस्तावेजों में बहुत बार उपयोग किया जा रहा है: सर्वेक्षणों में प्रश्न जैसे नाम, आयु, और चालान में वस्तुओं की कीमतें सभी निहित रूप से केवीपी हैं।

हालांकि, तालिकाओं के विपरीत, केवीपी अक्सर अज्ञात स्वरूपों में मौजूद होते हैं और कभी-कभी आंशिक रूप से हस्तलिखित भी होते हैं। उदाहरण के लिए, कुंजियों को बक्सों में पूर्व-मुद्रित किया जा सकता है और प्रपत्र को पूरा करते समय मान हस्तलिखित होते हैं। इसलिए, केवीपी निष्कर्षण को स्वचालित रूप से करने के लिए अंतर्निहित संरचनाओं को खोजना सबसे उन्नत सुविधाओं और प्रयोगशालाओं के लिए भी एक सतत शोध प्रक्रिया है।

आंकड़े

अंत में निकालना भी बहुत जरूरी है or डेटा पर कब्जा स्कैन किए गए दस्तावेज़ के आंकड़ों से। सांख्यिकीय संकेतक जैसे पाई चार्ट और बार चार्ट में अक्सर दस्तावेजों के लिए महत्वपूर्ण जानकारी शामिल होती है। एक अच्छी डेटा निकालने की प्रक्रिया को आगे के उपयोग के लिए आंकड़ों से आंशिक रूप से डेटा निकालने के लिए किंवदंतियों और संख्याओं से अनुमान लगाने में सक्षम होना चाहिए।

स्कैन किए गए दस्तावेज़ों से डेटा निकालना चाहते हैं? नैनोनेट दें™ उच्च सटीकता, अधिक लचीलेपन, पोस्ट-प्रोसेसिंग और एकीकरण के व्यापक सेट के लिए एक स्पिन!

डेटा निष्कर्षण के पीछे की प्रौद्योगिकियां

डेटा निष्कर्षण दो मुख्य प्रक्रियाओं के इर्द-गिर्द घूमता है: ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) इसके बाद प्राकृतिक भाषा प्रसंस्करण (एनएलपी).

ओसीआर एक्सट्रैक्शन टेक्स्ट इमेज को मशीन एन्कोडेड टेक्स्ट में बदलने की प्रक्रिया है, जबकि बाद में शब्दों का विश्लेषण करके अर्थ निकाला जाता है। अक्सर ओसीआर के साथ अन्य कंप्यूटर विज़न तकनीकें होती हैं जैसे कि अधिक व्यापक निष्कर्षण के लिए टेबल और केवीपी जैसे उपरोक्त डेटा प्रकारों को निकालने के लिए बॉक्स और लाइन डिटेक्शन।

डेटा-निष्कर्षण पाइपलाइन के पीछे मुख्य सुधार गहन शिक्षण में प्रगति से जुड़ा हुआ है जिसने कंप्यूटर दृष्टि और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के क्षेत्र में बहुत योगदान दिया है।

गहन शिक्षा क्या है?

डीप लर्निंग, आर्टिफिशियल इंटेलिजेंस युग के प्रचार के पीछे एक प्रमुख भूमिका है, और इसे लगातार कई अनुप्रयोगों में सबसे आगे धकेल दिया गया है। पारंपरिक इंजीनियरिंग में, हमारा लक्ष्य एक सिस्टम/फ़ंक्शन को डिज़ाइन करना है जो किसी दिए गए इनपुट से आउटपुट उत्पन्न करता है; दूसरी ओर, गहरी शिक्षा, मध्यवर्ती संबंधों को खोजने के लिए इनपुट और आउटपुट पर निर्भर करती है जिसे तथाकथित के माध्यम से नए अनदेखी डेटा तक बढ़ाया जा सकता है। तंत्रिका नेटवर्क.

एक तंत्रिका नेटवर्क, या एक बहु-परत परसेप्ट्रोन (एमएलपी), एक मशीन लर्निंग आर्किटेक्चर है जो मानव मस्तिष्क के सीखने से प्रेरित है। नेटवर्क में न्यूरॉन्स होते हैं, जो जैविक न्यूरॉन्स की नकल करते हैं और अलग-अलग जानकारी दिए जाने पर "सक्रिय" होते हैं। न्यूरॉन्स के सेट परतें बनाते हैं, और कई परतों को एक साथ ढेर किया जाता है ताकि कई रूपों (यानी, छवि वर्गीकरण या ऑब्जेक्ट डिटेक्शन के लिए बाउंडिंग बॉक्स) के पूर्वानुमान उद्देश्यों को पूरा करने के लिए एक नेटवर्क बनाया जा सके।

कंप्यूटर विज़न के क्षेत्र में, एक प्रकार का तंत्रिका नेटवर्क भिन्नता भारी रूप से लागू होता है - दृढ़ तंत्रिका नेटवर्क (सीएनएन). पारंपरिक परतों के बजाय, एक सीएनएन कन्वेन्शनल कर्नेल को अपनाता है जो फीचर निष्कर्षण के लिए टेंसर (या उच्च-आयामी वैक्टर) के माध्यम से स्लाइड करता है। अंत में पारंपरिक नेटवर्क परतों के साथ, सीएनएन छवि से संबंधित कार्यों में बहुत सफल होते हैं, और आगे ओसीआर निष्कर्षण और अन्य फीचर डिटेक्शन के लिए आधार बनते हैं।

दूसरी ओर, एनएलपी नेटवर्क के दूसरे सेट पर निर्भर है, जो समय-श्रृंखला डेटा पर केंद्रित है। छवियों के विपरीत, जहां एक छवि एक दूसरे से स्वतंत्र होती है, पाठ की भविष्यवाणी काफी हद तक लाभान्वित हो सकती है यदि पहले या बाद के शब्दों को भी ध्यान में रखा जाए। पिछले कुछ वर्षों में, नेटवर्क का एक परिवार, अर्थात् लंबी अवधि की यादें (एलएसटीएम), जो वर्तमान परिणामों की भविष्यवाणी करने के लिए पिछले परिणामों को इनपुट के रूप में लेता है। भविष्यवाणी आउटपुट को बढ़ाने के लिए द्विपक्षीय LSTM को भी अक्सर अपनाया जाता था, जहां पहले और बाद के दोनों परिणामों पर विचार किया जाता था। हाल के वर्षों में हालांकि, ट्रांसफॉर्मर की एक अवधारणा जो एक ध्यान तंत्र का उपयोग करती है, इसके उच्च लचीलेपन के कारण बढ़ने लगी है, जिससे पारंपरिक नेटवर्क की तुलना में बेहतर परिणाम प्राप्त होते हैं जो क्रमिक समय-श्रृंखला को संभालते हैं।

डेटा निष्कर्षण के अनुप्रयोग

डेटा निष्कर्षण का मुख्य लक्ष्य डेटा को असंरचित दस्तावेज़ों से संरचित स्वरूपों में परिवर्तित करना है, जिसमें पाठ, आंकड़े और डेटा संरचनाओं की अत्यधिक सटीक पुनर्प्राप्ति संख्यात्मक और प्रासंगिक विश्लेषण के लिए बहुत सहायक हो सकती है। ये विश्लेषण विशेष रूप से व्यवसायों के लिए बहुत मददगार हो सकते हैं:

व्यवसाय

व्यावसायिक निगम और बड़े संगठन दैनिक आधार पर समान प्रारूपों के साथ हजारों कागजी कार्रवाई करते हैं - बड़े बैंकों को कई समान आवेदन प्राप्त होते हैं, और अनुसंधान टीमों को सांख्यिकीय विश्लेषण करने के लिए रूपों के ढेर का विश्लेषण करना पड़ता है। इसलिए, दस्तावेजों से डेटा निकालने के प्रारंभिक चरण का स्वचालन मानव संसाधनों की अतिरेक को काफी कम कर देता है और श्रमिकों को जानकारी में कुंजीयन के बजाय डेटा का विश्लेषण करने और अनुप्रयोगों की समीक्षा करने पर ध्यान केंद्रित करने की अनुमति देता है।

अनुप्रयोगों का सत्यापन - कंपनियों को सैकड़ों आवेदन प्राप्त होते हैं, चाहे वे हस्तलिखित हों या केवल आवेदन प्रपत्रों के माध्यम से। अधिकतर समय, इन आवेदनों के साथ सत्यापन उद्देश्यों के लिए व्यक्तिगत आईडी हो सकते हैं। पासपोर्ट या कार्ड जैसे आईडी के स्कैन किए गए दस्तावेज़ आमतौर पर समान प्रारूपों के बैचों में आते हैं। इसलिए, एक अच्छी तरह से लिखा गया डेटा एक्सट्रैक्टर डेटा (टेक्स्ट, टेबल, आंकड़े, केवीपी) को मशीन-समझने योग्य टेक्स्ट में जल्दी से बदल सकता है, जो इन कार्यों पर काम के घंटे को काफी हद तक कम कर सकता है और निष्कर्षण के बजाय एप्लिकेशन चयन पर ध्यान केंद्रित कर सकता है।
भुगतान समाधान - भुगतान समाधान खातों के बीच संख्याओं के मिलान को सुनिश्चित करने के लिए बैंक विवरणों की तुलना करने की प्रक्रिया है, जो दस्तावेजों से डेटा निष्कर्षण के इर्द-गिर्द घूमती है - काफी आकार और आय के विभिन्न स्रोतों वाली कंपनी के लिए एक चुनौतीपूर्ण मुद्दा। डेटा निष्कर्षण इस प्रक्रिया को आसान बना सकता है और कर्मचारियों को दोषपूर्ण डेटा पर ध्यान केंद्रित करने और नकदी प्रवाह के बारे में संभावित धोखाधड़ी की घटनाओं का पता लगाने की अनुमति देता है।
सांख्यिकीय विश्लेषण — ग्राहकों या प्रयोग प्रतिभागियों की प्रतिक्रिया का उपयोग निगमों और संगठनों द्वारा अपने उत्पादों और सेवाओं में सुधार के लिए किया जाता है, और एक व्यापक प्रतिक्रिया मूल्यांकन के लिए आमतौर पर एक सांख्यिकीय विश्लेषण की आवश्यकता होगी। हालाँकि, सर्वेक्षण डेटा कई स्वरूपों में मौजूद हो सकता है या विभिन्न स्वरूपों वाले पाठ के बीच छिपा हो सकता है। डेटा निष्कर्षण बैचों में दस्तावेज़ों से स्पष्ट डेटा को इंगित करके प्रक्रिया को आसान बना सकता है, उपयोगी प्रक्रियाओं को खोजने की प्रक्रिया को आसान बना सकता है, और अंततः दक्षता में वृद्धि कर सकता है।
पिछले रिकॉर्ड साझा करना - स्वास्थ्य सेवा से लेकर बैंक सेवाओं को बदलने तक, बड़े उद्योगों को अक्सर नई ग्राहक जानकारी की आवश्यकता होती है जो पहले से ही कहीं और मौजूद हो सकती है। उदाहरण के लिए, अस्पताल जाने के कारण अस्पताल बदलने वाले मरीज के पास पहले से मौजूद मेडिकल रिकॉर्ड हो सकते हैं जो नए अस्पताल के लिए मददगार हो सकते हैं। ऐसे मामलों में, एक अच्छा डेटा निष्कर्षण सॉफ्टवेयर काम आता है क्योंकि व्यक्ति को सभी सूचनाओं को स्वचालित रूप से भरने के लिए नए अस्पताल में रिकॉर्ड के स्कैन किए गए इतिहास को लाने की आवश्यकता होती है। यह न केवल सुविधाजनक होगा, यह विशेष रूप से महत्वपूर्ण रोगी रिकॉर्ड की अनदेखी के स्वास्थ्य उद्योग में व्यापक जोखिमों से भी बच सकता है।

ट्यूटोरियल

डेटा निष्कर्षण कैसे करें, इस पर एक स्पष्ट दृष्टिकोण प्रदान करने के लिए, हम स्कैनिंग दस्तावेज़ों से डेटा निष्कर्षण करने के तरीकों के दो सेट दिखाते हैं।

स्क्रैच से बिल्डिंग

कोई निम्न के रूप में PyTesseract इंजन के माध्यम से OCR इंजन निकालने वाला एक साधारण डेटा बना सकता है:

try: from PIL import Image
except ImportError: import Image
import pytesseract # If you don't have tesseract executable in your PATH, include the following:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# Example tesseract_cmd = r'C:Program Files (x86)Tesseract-OCRtesseract' # Simple image to string
print(pytesseract.image_to_string(Image.open('test.png'))) # List of available languages
print(pytesseract.get_languages(config='')) # French text image to string
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra')) # In order to bypass the image conversions of pytesseract, just use relative or absolute image path
# NOTE: In this case you should provide tesseract supported images or tesseract will return error
print(pytesseract.image_to_string('test.png')) # Batch processing with a single file containing the list of multiple image file paths
print(pytesseract.image_to_string('images.txt')) # Timeout/terminate the tesseract job after a period of time
try: print(pytesseract.image_to_string('test.jpg', timeout=2)) # Timeout after 2 seconds print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # Timeout after half a second
except RuntimeError as timeout_error: # Tesseract processing is terminated pass # Get bounding box estimates
print(pytesseract.image_to_boxes(Image.open('test.png'))) # Get verbose data including boxes, confidences, line and page numbers
print(pytesseract.image_to_data(Image.open('test.png'))) # Get information about orientation and script detection
print(pytesseract.image_to_osd(Image.open('test.png'))) # Get a searchable PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f: f.write(pdf) # pdf type is bytes by default # Get HOCR output
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr') # Get ALTO XML output
xml = pytesseract.image_to_alto_xml('test.png')

कोड के बारे में अधिक जानकारी के लिए, आप उनके आधिकारिक चेकआउट कर सकते हैं प्रलेखन।

सरल शब्दों में, कोड किसी दिए गए चित्र से टेक्स्ट और बाउंडिंग बॉक्स जैसे डेटा निकालता है। काफी उपयोगी होते हुए भी, इंजन उतना मजबूत नहीं है जितना प्रशिक्षण के लिए उनकी पर्याप्त कम्प्यूटेशनल शक्ति के कारण उन्नत समाधानों द्वारा प्रदान किया गया है।

Google दस्तावेज़ API का उपयोग करना

 def async_detect_document(gcs_source_uri, gcs_destination_uri):
"""OCR with PDF/TIFF as source files on GCS""" import json import re from google.cloud import vision from google.cloud import storage # Supported mime_types are: 'application/pdf' and 'image/tiff' mime_type = 'application/pdf' # How many pages should be grouped into each json output file. batch_size = 2 client = vision.ImageAnnotatorClient() feature = vision.Feature( type_=vision.Feature.Type.DOCUMENT_TEXT_DETECTION) gcs_source = vision.GcsSource(uri=gcs_source_uri) input_config = vision.InputConfig( gcs_source=gcs_source, mime_type=mime_type) gcs_destination = vision.GcsDestination(uri=gcs_destination_uri) output_config = vision.OutputConfig( gcs_destination=gcs_destination, batch_size=batch_size) async_request = vision.AsyncAnnotateFileRequest( features=[feature], input_config=input_config, output_config=output_config) operation = client.async_batch_annotate_files( requests=[async_request]) print('Waiting for the operation to finish.') operation.result(timeout=420) # Once the request has completed and the output has been # written to GCS, we can list all the output files. storage_client = storage.Client() match = re.match(r'gs://([^/]+)/(.+)', gcs_destination_uri) bucket_name = match.group(1) prefix = match.group(2) bucket = storage_client.get_bucket(bucket_name) # List objects with the given prefix. blob_list = list(bucket.list_blobs(prefix=prefix)) print('Output files:') for blob in blob_list: print(blob.name) # Process the first output file from GCS. # Since we specified batch_size=2, the first response contains # the first two pages of the input file. output = blob_list[0] json_string = output.download_as_string() response = json.loads(json_string) # The actual response for the first page of the input file. first_page_response = response['responses'][0] annotation = first_page_response['fullTextAnnotation'] # Here we print the full text from the first page. # The response contains more information: # annotation/pages/blocks/paragraphs/words/symbols # including confidence scores and bounding boxes print('Full text:n') print(annotation['text'])

अंततः, Google का दस्तावेज़ AI आपको उच्च सटीकता वाले दस्तावेज़ों से कई जानकारी निकालने की अनुमति देता है। इसके अलावा, सेवा विशिष्ट उपयोगों के लिए भी पेश की जाती है, जिसमें सामान्य और जंगली छवियों दोनों के लिए टेक्स्ट निष्कर्षण शामिल है।

को देखें यहाँ उत्पन्न करें अधिक जानकारी के लिए।

डेटा निष्कर्षण की पेशकश करने वाले वर्तमान समाधान

दस्तावेज़ डेटा निष्कर्षण के लिए एपीआई के साथ बड़े निगमों के अलावा, ऐसे कई समाधान हैं जो अत्यधिक सटीक प्रदान करते हैं पीडीएफ ओसीआर सेवाएं। हम पीडीएफ ओसीआर के कई विकल्प प्रस्तुत करते हैं जो विभिन्न पहलुओं में विशिष्ट हैं, साथ ही कुछ हालिया शोध प्रोटोटाइप जो आशाजनक परिणाम प्रदान करते हैं*:

*साइड नोट: कई ओसीआर सेवाएं हैं जो इमेज-इन-द वाइल्ड जैसे कार्यों के लिए लक्षित हैं। हमने उन सेवाओं को छोड़ दिया क्योंकि हम वर्तमान में केवल पीडीएफ दस्तावेज़ पढ़ने पर ध्यान केंद्रित कर रहे हैं।

गूगल एपीआई — सबसे बड़े ऑनलाइन सेवा प्रदाताओं में से एक के रूप में, Google अपनी अग्रणी कंप्यूटर दृष्टि प्रौद्योगिकी के साथ दस्तावेज़ निष्कर्षण में आश्चर्यजनक परिणाम प्रदान करता है। यदि उपयोग बहुत कम है, तो कोई भी अपनी सेवाओं का मुफ्त में उपयोग कर सकता है, लेकिन एपीआई कॉल बढ़ने के साथ ही कीमत बढ़ जाती है।
डीप रीडर - डीप रीडर एसीसीवी सम्मेलन 2019 में प्रकाशित एक शोध कार्य है। इसमें कार्यों को करने के लिए कई अत्याधुनिक नेटवर्क आर्किटेक्चर शामिल हैं जैसे कि दस्तावेज़ मिलान, पाठ पुनर्प्राप्ति, और छवियों को प्रदर्शित करना। टेबल और की-वैल्यू-पेयर एक्सट्रैक्शन जैसी अतिरिक्त विशेषताएं हैं जो डेटा को एक संगठित तरीके से पुनर्प्राप्त और सहेजे जाने की अनुमति देती हैं।
नैनोनेट्स™ — अत्यधिक कुशल गहन शिक्षण टीम के साथ, Nanonets™ PDF OCR पूरी तरह से टेम्पलेट और नियम स्वतंत्र है। इसलिए, Nanonets™ न केवल विशिष्ट प्रकार के PDF पर काम कर सकता है, बल्कि इसे टेक्स्ट पुनर्प्राप्ति के लिए किसी भी दस्तावेज़ प्रकार पर भी लागू किया जा सकता है।

निष्कर्ष

अंत में, यह लेख स्कैन किए गए दस्तावेज़ों से डेटा निष्कर्षण के बारे में पूरी तरह से स्पष्टीकरण प्रस्तुत करता है, जिसमें इसके पीछे की चुनौतियां और इस प्रक्रिया के लिए आवश्यक तकनीक शामिल हैं।

विभिन्न तरीकों के दो ट्यूटोरियल प्रस्तुत किए गए हैं, और वर्तमान समाधान जो इसे बॉक्स से बाहर पेश करते हैं, संदर्भ के लिए भी प्रस्तुत किए जाते हैं।

समय टिकट: 17 मई 2022

से अधिक एअर इंडिया और मशीन लर्निंग

बिजनेस प्रोसेस ऑटोमेशन क्या है? | बीपीए गाइड

स्रोत क्लस्टर:

एअर इंडिया और मशीन लर्निंग

स्रोत नोड: 1863964

समय टिकट: जुलाई 21, 2023

सुपरचार्ज सेज एकीकरण के साथ बरकरार

एअर इंडिया और मशीन लर्निंग

स्रोत नोड: 1901058

समय टिकट: अक्टूबर 11, 2023

स्कैन किए गए दस्तावेज़ों से डेटा निकालना

प्लेटो द्वारा पुनर्प्रकाशित

परिचय

डेटा निष्कर्षण क्या है?

टेक्स्ट डेटा

टेबल्स

कुंजी-मूल्य जोड़े

आंकड़े

डेटा निष्कर्षण के पीछे की प्रौद्योगिकियां

गहन शिक्षा क्या है?

डेटा निष्कर्षण के अनुप्रयोग

व्यवसाय

ट्यूटोरियल

स्क्रैच से बिल्डिंग

Google दस्तावेज़ API का उपयोग करना

डेटा निष्कर्षण की पेशकश करने वाले वर्तमान समाधान

निष्कर्ष

से अधिक एअर इंडिया और मशीन लर्निंग

सुपरचार्ज सेज एकीकरण के साथ बरकरार

आसान रसीद प्रबंधन के लिए शीर्ष 10 रसीद स्कैनर ऐप

टेक्स्ट फ़ाइलों को एक्सेल में कैसे बदलें

बीमा स्वचालन: लाभ, उपयोग के मामले, और बहुत कुछ

बैंक प्रेषण: यह कैसे काम करता है और क्या विचार करना चाहिए?

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा