पीडीएफ डेटा को डेटाबेस प्रविष्टियों में कनवर्ट करें प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

PDF डेटा को डेटाबेस प्रविष्टियों में बदलें

कई संगठन और व्यवसाय महत्वपूर्ण दस्तावेज़ जैसे चालान, भुगतान पर्ची, वित्तीय, कार्य आदेश, रसीदें आदि साझा करने के लिए PDF दस्तावेज़ों पर भरोसा करते हैं। हालाँकि, ऐतिहासिक डेटा को संग्रहीत करने के लिए PDF गो-टू प्रारूप नहीं हैं क्योंकि उन्हें आसानी से निर्यात और वर्कफ़्लो में व्यवस्थित नहीं किया जा सकता है। इसलिए लोग पीडीएफ़ और स्कैन किए गए दस्तावेज़ों को जेएसओएन, सीएसवी, टेबल्स या एक्सेल जैसे संरचित प्रारूपों में डिजिटाइज़ करने के लिए सूचना निष्कर्षण एल्गोरिदम का उपयोग करते हैं जिन्हें आसानी से अन्य संगठनात्मक वर्कफ़्लो में परिवर्तित किया जा सकता है।

कुछ मामलों में, पीडीएफ विभिन्न ईआरपी, सीएमएस और अन्य डेटाबेस-संचालित प्रणालियों में संसाधित होने के लिए आवश्यक जानकारी रखता है। दुर्भाग्य से, पीडीएफ दस्तावेज़ों में डेटाबेस फ़ंक्शन के लिए एक आसान पीडीएफ नहीं है, और स्क्रिप्ट लिखना या इस कार्य के आसपास वर्कफ़्लो बनाना थोड़ा जटिल है। यह वह जगह है जहां ओसीआर और डीप लर्निंग (डीएल) एल्गोरिदम इन पीडीएफ प्रारूपों से डेटा निकालने और इसे डेटाबेस में निर्यात करने के लिए चित्र में आते हैं। इस ब्लॉग पोस्ट में, हम डीएल प्रौद्योगिकियों के साथ-साथ बाजार में कुछ लोकप्रिय एपीआई का उपयोग करके आप इसे कैसे पूरा कर सकते हैं, इसके लिए विभिन्न तरीकों पर गौर करेंगे।

PDF से डेटाबेस रूपांतरण क्या है?

PDF से डेटाबेस रूपांतरण, PDF से डेटा को एक डेटाबेस जैसे Postgres, Mongo, MySQL, आदि में निर्यात करने का कार्य है।

मान लीजिए कि हमें एक वेब एप्लिकेशन या एक ईआरपी सिस्टम बनाना है जो विभिन्न स्रोतों से चालान की जानकारी रखता है और रखता है। डेटाबेस में मैन्युअल रूप से ऐतिहासिक चालान जोड़ना एक कठिन कार्य है और अत्यधिक त्रुटि-प्रवण है। दूसरी ओर, एक साधारण OCR का उपयोग करने से इनवॉइस से तालिकाएँ सटीक रूप से नहीं निकल सकती हैं।

यह वह जगह है जहाँ उन्नत AI- संचालित PDF से डेटाबेस रूपांतरण काम आता है!

क्या यह AI- संचालित PDF से डेटाबेस रूपांतरण प्रक्रिया को स्वचालित किया जा सकता है? - हां।

नीचे दिए गए अनुभागों में, हम स्कैन किए गए दस्तावेज़ों से तालिका क्षेत्रों का पता लगाने के लिए कंप्यूटर विज़न और डीप लर्निंग का उपयोग करते हैं। इन तालिकाओं को आगे एक विशेष डेटा प्रारूप जैसे सीएसवी या एक्सेल में संग्रहीत किया जाता है और सीधे डेटाबेस में धकेल दिया जाएगा।

इन पर चर्चा करने से पहले, आइए कुछ उपयोग-मामलों को समझते हैं जहां पीडीएफ से डेटाबेस का पता लगाना उपयोगी हो सकता है।

PDF से डेटाबेस के लिए विभिन्न उपयोग-मामले

डेटाबेस क्लाउड और लोकल स्टोरेज दोनों पर जानकारी स्टोर करने का सबसे अच्छा तरीका है। वे हमें सरल प्रश्नों का उपयोग करके विभिन्न संचालन और जोड़तोड़ करने की अनुमति देते हैं। यहां कुछ उपयोग के मामले दिए गए हैं जिन्हें स्वचालित पीडीएफ से डेटाबेस रूपांतरण वर्कफ़्लो के साथ बहुत अनुकूलित किया जा सकता है:

  1. वेब पर चालान प्रबंधन: व्यवसाय और संगठन प्रतिदिन कई चालानों का लेन-देन करते हैं; और उनके लिए प्रत्येक इनवॉइस को मैन्युअल रूप से संसाधित करना कठिन है। साथ ही, कभी-कभी, वे गैर-डिजिटल प्रारूप में चालान बनाते और प्राप्त करते हैं, जिससे उन्हें ट्रैक करना कठिन हो जाता है। इसलिए, वे वेब-आधारित अनुप्रयोगों पर भरोसा करते हैं जो उनके सभी चालानों को एक ही स्थान पर संग्रहीत कर सकते हैं। एक पीडीएफ टू डेटाबेस कन्वर्टर इनवॉइस से वेब एप्लिकेशन में डेटा निष्कर्षण को स्वचालित कर सकता है। इन कार्यों को कुशलता से स्वचालित करने के लिए, हम क्रॉन जॉब चला सकते हैं और उन्हें n8n और जैपियर जैसी तृतीय-पक्ष सेवाओं के साथ एकीकृत कर सकते हैं - जब एक नया चालान स्कैन और अपलोड किया जाता है, तो यह एल्गोरिदम चला सकता है और स्वचालित रूप से इसे तालिकाओं में धकेल सकता है।
  2. ईकॉम इन्वेंटरी प्रबंधनटी: बहुत सारे ई-कॉम इन्वेंट्री प्रबंधन अभी भी पीडीएफ और स्कैन की गई प्रतियों से उत्पादों की मैन्युअल प्रविष्टि के माध्यम से चलता है। हालांकि, उन्हें अपने सभी उत्पादों और बिक्री पर नज़र रखने के लिए अपना सारा डेटा बिलिंग प्रबंधन सॉफ़्टवेयर में अपलोड करना होगा। इसलिए, टेबल टू डेटाबेस रूपांतरण एल्गोरिथ्म का उपयोग करने से उनकी मैन्युअल प्रविष्टि को स्वचालित करने और संसाधनों को बचाने में मदद मिल सकती है। इस प्रक्रिया में आमतौर पर स्कैन किए गए दस्तावेज़ों से इन्वेंट्री सूची को स्कैन करना और उन्हें विभिन्न व्यावसायिक नियमों और शर्तों के आधार पर विशिष्ट डेटाबेस तालिकाओं में निर्यात करना शामिल है।
  3. सर्वेक्षणों से डेटा निष्कर्षण: प्रतिक्रिया और अन्य मूल्यवान जानकारी एकत्र करने के लिए, हम आमतौर पर एक सर्वेक्षण करते हैं। वे व्यवसायों और मीडिया से लेकर सरकार और शिक्षाविदों तक, सूचना अर्थव्यवस्था में लगे लगभग सभी लोगों के लिए डेटा और अंतर्दृष्टि का एक महत्वपूर्ण स्रोत प्रदान करते हैं। जब इन्हें ऑनलाइन एकत्र किया जाता है, तो उपयोगकर्ता की प्रतिक्रिया के आधार पर तालिका डेटा स्थिति निकालना और इसे डेटाबेस पर अपलोड करना आसान होता है। हालांकि, ज्यादातर मामलों में, सर्वेक्षण के जवाब कागज पर होते हैं। ऐसे मामलों में, मैन्युअल रूप से जानकारी एकत्र करना और उन्हें डिजिटल प्रारूप में संग्रहीत करना बहुत कठिन है। इसलिए, टेबल टू डेटाबेस एल्गोरिदम पर भरोसा करने से समय की बचत हो सकती है और अतिरिक्त लागत में भी कटौती हो सकती है।

PDF से रिलेशनल और नॉन-रिलेशनल डेटाबेस में जानकारी कैसे निकालें?

एक पीडीएफ फाइल को दो अलग-अलग प्रकारों के रूप में देखा जाता है, इलेक्ट्रॉनिक रूप से उत्पन्न और गैर-इलेक्ट्रॉनिक रूप से उत्पन्न।

  1. इलेक्ट्रॉनिक PDF: इस स्कैन किए गए PDF दस्तावेज़ में छवि के पीछे छिपा पाठ हो सकता है; इन्हें इलेक्ट्रॉनिक रूप से उत्पन्न PDF के रूप में भी जाना जाता है।
  2. गैर-इलेक्ट्रॉनिक PDF: इस प्रकार में, हम छवियों के रूप में हार्ड-कोडेड अधिक सामग्री देखते हैं। यह तब होता है जब आपके पास एक पीडीएफ फाइल में स्कैन किए गए हार्ड कॉपी दस्तावेज़ होते हैं।

हम पहले प्रकार (इलेक्ट्रॉनिक रूप से उत्पन्न) के लिए सरल प्रोग्रामिंग भाषाओं और पायथन और जावा जैसे ढांचे पर भरोसा कर सकते हैं। गैर-इलेक्ट्रॉनिक रूप से उत्पन्न PDF के लिए, हमें OCR और गहन शिक्षण के साथ कंप्यूटर विज़न तकनीकों का उपयोग करने की आवश्यकता होगी। हालांकि, ये एल्गोरिदम सभी तालिका निष्कर्षण एल्गोरिदम के लिए समान नहीं हो सकते हैं, और उच्च सटीकता प्राप्त करने के लिए उन्हें डेटा के प्रकार के आधार पर बदलने की आवश्यकता होगी। एनएलपी (प्राकृतिक भाषा प्रसंस्करण) का उपयोग टेबल के अंदर डेटा को समझने और कुछ मामलों में उन्हें निकालने के लिए भी किया जाता है।

दूसरी ओर, दो प्रकार के डेटाबेस (संबंधपरक और गैर-संबंधपरक) हैं; इनमें से प्रत्येक डेटाबेस में उनकी वास्तुकला के आधार पर नियमों के अलग-अलग सेट होते हैं। एक रिलेशनल डेटाबेस संरचित है, जिसका अर्थ है कि डेटा तालिकाओं में व्यवस्थित होता है। कुछ उदाहरणों में MySQL, Postgres, आदि शामिल हैं।

इसके विपरीत, गैर-संबंधपरक डेटाबेस दस्तावेज़-उन्मुख है, जिसका अर्थ है कि सभी जानकारी कपड़े धोने की सूची के अधिक क्रम में संग्रहीत हो जाती है। एक कंस्ट्रक्टर दस्तावेज़ में, आपके पास अपना सारा डेटा सूचीबद्ध होगा - उदाहरण के लिए, MongoDB।

एक डेटाबेस के लिए पीडीएफ जब दस्तावेज़ इलेक्ट्रॉनिक रूप से उत्पन्न होते हैं

जैसा कि चर्चा की गई है, इलेक्ट्रॉनिक रूप से उत्पन्न PDF के लिए, तालिकाओं को निकालने की प्रक्रिया सीधी है। विचार तालिकाओं को निकालने और फिर उन्हें परिवर्तित करने या उन्हें तालिकाओं में जोड़ने के लिए सरल स्क्रिप्ट का उपयोग करना है। PDF से तालिका निकालने के लिए, मुख्यतः दो तकनीकें हैं।

तकनीक # 1 स्ट्रीम: एल्गोरिथम तालिका संरचना का अनुकरण करने के लिए कक्षों के बीच रिक्त स्थान के आधार पर तालिकाओं के माध्यम से पार्स करता है—पहचान करता है कि पाठ कहां मौजूद नहीं है। यह PDFMiner की पृष्ठ पर वर्णों को हाशिये का उपयोग करके शब्दों और वाक्यों में समूहीकृत करने की कार्यक्षमता पर बनाया गया है। इस तकनीक में, सबसे पहले, कुछ पाठ की y-अक्ष स्थिति (यानी, ऊंचाई) के आधार पर मोटे अनुमान लगाकर पंक्तियों का पता लगाया जाता है। एक ही पंक्ति के सभी पाठों को एक ही पंक्ति का भाग माना जाता है। इसके बाद, पाठक को समूहीकृत किया जाता है और तालिका में स्तंभों की पहचान करने के लिए एक अलग समूह के रूप में एक साथ रखा जाता है। अंत में, तालिका को पहले के चरणों में पाई गई पंक्तियों और स्तंभों के आधार पर एक साथ सेट किया गया है।

तकनीक #2 जाली: धारा के विपरीत, जाली अधिक नियतात्मक है। मतलब यह अनुमानों पर निर्भर नहीं करता है; यह पहले उन तालिकाओं के माध्यम से पार्स करता है जिनमें कोशिकाओं के बीच परिभाषित रेखाएं होती हैं। इसके बाद, यह स्वचालित रूप से एक पृष्ठ पर मौजूद कई तालिकाओं को पार्स कर सकता है। यह तकनीक अनिवार्य रूप से पॉलीगॉन के आकार को देखकर और टेबल सेल के अंदर टेक्स्ट की पहचान करके काम करती है। यह आसान होगा यदि पीडीएफ में एक ऐसी सुविधा है जो बहुभुज की पहचान कर सकती है। यदि यह होता, तो इसके अंदर क्या है इसे पढ़ने का एक तरीका होता। हालाँकि, ऐसा नहीं होता है। इसलिए, इन आकृतियों की पहचान करने और तालिका की सामग्री को निकालने के लिए कंप्यूटर विज़न का व्यापक रूप से उपयोग किया जाता है।

निकाले गए टेबल मुख्य रूप से डेटा फ्रेम प्रारूप में सहेजे जाते हैं। यह मूल डेटा प्रकारों में से एक है जो सबसे लोकप्रिय पायथन लाइब्रेरी पांडा द्वारा पेश किया जाता है। डेटा फ्रेम में टेबल डेटा को स्टोर करने के कई फायदे हैं। उन्हें आसानी से संभाला जा सकता है, हेरफेर किया जा सकता है और JSON, CSV, या तालिकाओं जैसे विभिन्न स्वरूपों में निर्यात किया जा सकता है। हालाँकि, इससे पहले कि हम इन डेटा फ़्रेमों को तालिकाओं में धकेलें, हमें पहले DB-क्लाइंट डेटाबेस से जुड़ना चाहिए और फिर तालिका को माइग्रेट करना चाहिए। पायथन जैसी भाषाओं का उपयोग करके, हम कई पुस्तकालय पा सकते हैं जो इन डेटा स्रोतों से जुड़ सकते हैं और डेटा निर्यात कर सकते हैं।

डेटाबेस में पीडीएफ जब दस्तावेज़ गैर-इलेक्ट्रॉनिक रूप से उत्पन्न होते हैं

ऊपर चर्चा की गई तकनीक गैर-इलेक्ट्रॉनिक रूप से उत्पन्न पीडीएफ के लिए काम नहीं कर सकती है, क्योंकि यहां डेटा एक अलग स्रोत के माध्यम से मैन्युअल रूप से स्कैन किया जाता है। यही कारण है कि हम स्कैन किए गए दस्तावेज़ों से डेटा निकालने और उन्हें डेटाबेस में निर्यात करने के लिए ओसीआर और डीप लर्निंग तकनीकों का उपयोग करेंगे।

संक्षेप में, ऑप्टिकल कैरेक्टर रिकग्निशन, ओसीआर एक विशेष उपकरण है जो स्कैन किए गए दस्तावेज़ों से मुद्रित अक्षरों को संपादन योग्य पाठ में परिवर्तित करता है। दस्तावेज़ों से PDF तालिकाओं की पहचान करने के लिए, पहले हमें तालिका की स्थिति की पहचान करनी होगी और फिर तालिका कक्षों से डेटा निकालने के लिए OCR लागू करना होगा। इसे कैसे प्राप्त किया जाता है, इसके चरण निम्नलिखित हैं:

  1. सबसे पहले, हम क्षैतिज और ऊर्ध्वाधर आकृति को लागू करके रेखा खंडों का पता लगाते हैं।
  2. सभी रेखाओं के पिक्सेल की तीव्रता को देखकर रेखाओं के बीच रेखा के प्रतिच्छेदन का पता लगाया जाता है। यदि एक रेखा पिक्सेल में बाकी पिक्सेल की तुलना में अधिक तीव्रता है, तो यह दो पंक्तियों का हिस्सा है और इसलिए, एक चौराहा है।
  3. तालिका के किनारों को प्रतिच्छेदित रेखाओं के पिक्सेल की तीव्रता को देखकर निर्धारित किया जाता है। यहां, एक रेखा के सभी पिक्सेल लिए गए हैं, और सबसे बाहरी रेखाएं तालिका की सीमाओं का प्रतिनिधित्व करती हैं।
  4. छवि विश्लेषण को पीडीएफ निर्देशांक में अनुवादित किया जाता है, जहां कोशिकाओं को निर्धारित किया जाता है। टेक्स्ट को उसके x और y निर्देशांकों के आधार पर एक सेल को सौंपा गया है।
  5. पाठ निकालने के लिए निर्देशांक पर OCR लागू किया जाता है
  6. निकाले गए पाठ को तालिका की स्थिति के आधार पर डेटा फ़्रेम में निर्यात किया जाता है।

इस प्रकार हम सीवी का उपयोग करके टेबल निकाल सकते हैं। हालाँकि, यहाँ कुछ कमियाँ हैं। ये एल्गोरिदम विभिन्न टेम्पलेट शैलियों वाली बड़ी तालिकाओं और तालिकाओं के लिए विफल हो जाते हैं। यह वह जगह है जहाँ गहरी शिक्षा आती है; वे डेटा से सीखने और सीखने के आधार पर समान पैटर्न की पहचान करने के लिए एक विशेष प्रकार के तंत्रिका नेटवर्क ढांचे का उपयोग करते हैं। पिछले एक दशक में, उन्होंने अत्याधुनिक प्रदर्शन हासिल किया है, खासकर सूचना निष्कर्षण जैसे कार्यों के लिए। अब, आइए देखें कि डेटा से कितना गहरा तंत्रिका नेटवर्क सीख सकता है और किसी भी दस्तावेज़ से तालिकाओं को निकाल सकता है।

गहरे तंत्रिका नेटवर्क के प्रशिक्षण में एक विशिष्ट कार्यप्रवाह शामिल होता है; हम जिस प्रकार के डेटा के साथ काम कर रहे हैं और उनके मॉडल के प्रदर्शन के आधार पर इन वर्कफ़्लो को अक्सर बदल दिया जाता है। वर्कफ़्लो के पहले चरण में हमारे मॉडल के आधार पर डेटा एकत्र करना और उन्हें संसाधित करना शामिल है। पीडीएफ दस्तावेजों से तालिकाओं को निकालने के मामले में, डेटासेट में आदर्श रूप से असंरचित दस्तावेज होने चाहिए। इन दस्तावेजों को छवियों में परिवर्तित किया जाता है, टेंसर के रूप में लोड किया जाता है, और प्रशिक्षण के लिए डेटा लोडर वर्ग के रूप में तैयार किया जाता है। अगला, हम आमतौर पर उन सभी हाइपरपैरामीटर को परिभाषित करते हैं जो प्रशिक्षण के लिए आवश्यक हैं। इनमें आमतौर पर मॉडल के लिए बैच आकार, हानि फ़ंक्शन, ऑप्टिमाइज़र सेट करना शामिल है। अंत में, एक तंत्रिका नेटवर्क आर्किटेक्चर को पूर्व-परिभाषित मॉडल के शीर्ष पर परिभाषित या निर्मित किया जाता है। इस मॉडल को डेटा के शीर्ष पर प्रशिक्षित किया जाएगा और प्रदर्शन मेट्रिक्स के आधार पर फाइन-ट्यून किया जाएगा।

निम्नलिखित विभिन्न चरणों का एक स्क्रीनशॉट है जो एक गहन शिक्षण मॉडल के प्रशिक्षण में शामिल हैं:

विशिष्ट एमएल वर्कफ़्लो (स्रोत)

पीडीएफ से डेटा निकालना और उन्हें पायथन का उपयोग करके SQL डेटाबेस में निर्यात करना

अब तक, हमने सीखा है कि डेटाबेस रूपांतरण के लिए पीडीएफ क्या है और कुछ उपयोग-मामलों पर चर्चा की है जहां यह सहायक हो सकता है। यह खंड व्यावहारिक रूप से कंप्यूटर विज़न का उपयोग करके इस समस्या का समाधान करेगा और स्कैन किए गए पीडीएफ़ में तालिकाओं का पता लगाएगा और उन्हें डेटाबेस में निर्यात करेगा। साथ चलने के लिए, अपने स्थानीय मशीन पर पायथन और ओपनसीवी स्थापित करना सुनिश्चित करें। वैकल्पिक रूप से, आप एक ऑनलाइन Google Collab नोटबुक का उपयोग कर सकते हैं।

चरण 1: तबुला और पंडों को स्थापित करें

इस उदाहरण में, हम टेबल्स को डेटाबेस में निकालने और पुश करने के लिए Tabula और Pandas का उपयोग करेंगे। आइए उन्हें पाइप के माध्यम से स्थापित करें और उन्हें हमारे कार्यक्रम में आयात करें।

import tabula
import pandas as pd

चरण 2: डेटाफ़्रेम में तालिकाएँ पढ़ना

अब, हम का उपयोग करेंगे read_pdf PDF से तालिकाओं को पढ़ने के लिए tabula से कार्य करना; ध्यान दें कि यह पुस्तकालय केवल पीडीएफ दस्तावेजों पर काम करता है जो इलेक्ट्रॉनिक रूप से उत्पन्न होते हैं। निम्नलिखित कोड स्निपेट है:

table = tabula.read_pdf("sample.pdf",pages='all',multiple_tables=False)

df = pd.concat(table)

यहां, जैसा कि हम देख सकते हैं, सबसे पहले, हम पीडीएफ फाइल के लिए सामग्री को पढ़ने के लिए उपयोग करते हैं, हम पैरामीटर सेट करते हैं multiple_tables से असत्य, क्योंकि उदाहरण में प्रयुक्त दस्तावेज़ में केवल एक तालिका है।

अब, हम इस सूची को पांडा का उपयोग करके डेटा फ्रेम में लोड करेंगे, और आप प्रकार विधि का उपयोग करके तालिका के प्रकार की जांच कर सकते हैं; यह एक देशी पांडा डेटा फ्रेम लौटाएगा।

चरण 3: डेटाफ़्रेम को पोस्टर्स में माइग्रेट करना

इससे पहले कि हम अपनी तालिका को डेटाबेस में धकेलें, सबसे पहले, हमें इसे अपने प्रोग्राम से एक कनेक्शन स्थापित करना चाहिए, और हम इसका उपयोग करके ऐसा कर सकते हैं sqlalchemy पायथन में ग्राहक। इसी तरह, विभिन्न प्रोग्रामिंग भाषाएं इस तरह के डेटाबेस क्लाइंट को हमारे प्रोग्राम से सीधे डेटाबेस के साथ इंटरैक्ट करने की पेशकश करती हैं।

इस कार्यक्रम में, हम उपयोग करेंगे create_engine विधि जो हमें डेटाबेस से जुड़ने देती है; यह काम करने के लिए दिए गए स्ट्रिंग में डेटाबेस क्रेडेंशियल्स को बदलना सुनिश्चित करें। अगला, हम उपयोग करते हैं write_frame निकाले गए तालिका को कनेक्टेड डेटाबेस में निर्यात करने के लिए कार्य करता है।

engine = create_engine('postgresql+psycopg2://username:password@host:port/database')

sql.write_frame(df, 'table_name', con, flavor='postgresql')

और ठीक उसी तरह, हम डेटाबेस में पीडीएफ से टेबल निर्यात करने में सक्षम थे, यह बहुत सीधा और आसान लगता है क्योंकि हमने एक सरल संसाधित इलेक्ट्रॉनिक रूप से उत्पन्न पीडीएफ का उपयोग किया है। गैर-इलेक्ट्रॉनिक रूप से उत्पन्न तालिकाओं से तालिकाओं को निकालने के लिए निम्नलिखित लोकप्रिय गहन शिक्षण तकनीकें हैं जिनका उपयोग किया जा सकता है:

  1. कोड के साथ पेपर - जीएफटीई: ग्राफ-आधारित वित्तीय तालिका निष्कर्षण
  2. कोड के साथ पेपर - पबटेबल्स -1 एम: टेबल एक्सट्रैक्शन मॉडल के प्रशिक्षण और मूल्यांकन के लिए एक सार्वभौमिक डेटासेट और मेट्रिक्स की ओर
  3. टेबलनेट: डीप लर्निंग मॉडल एंड-टू-एंड टेबल डिटेक्शन और स्कैन किए गए डॉक्यूमेंट इमेज से टेबुलर डेटा निष्कर्षण

नैनोनेट दर्ज करें: पीडीएफ टेबल से डेटाबेस रूपांतरण के लिए उन्नत ओसीआर

यह खंड इस बात पर गौर करेगा कि कैसे नैनोनेट हमें अधिक अनुकूलन योग्य और आसान तरीके से डेटाबेस में तालिकाओं को निष्पादित करने में मदद कर सकता है।

नैनोनेट्स ™ एक क्लाउड-आधारित ओसीआर है जो एआई का उपयोग करके आपकी मैन्युअल डेटा प्रविष्टि को स्वचालित करने में मदद कर सकता है। हमारे पास एक डैशबोर्ड होगा जहां हम अपने डेटा पर अपने ओसीआर मॉडल बना/प्रशिक्षित कर सकते हैं और उन्हें JSON/CSV या किसी वांछित प्रारूप में परिवहन कर सकते हैं। पीडीएफ दस्तावेज़ स्कैनर के रूप में नैनोनेट्स का उपयोग करने के कुछ फायदे यहां दिए गए हैं।

नैनोनेट्स के मुख्य आकर्षण में से एक सेवा की सादगी है। कोई भी प्रोग्रामिंग पृष्ठभूमि के बिना इन सेवाओं का विकल्प चुन सकता है और अत्याधुनिक तकनीक के साथ आसानी से पीडीएफ डेटा निकाल सकता है। पीडीएफ को डेटाबेस में बदलना कितना आसान है, इसकी संक्षिप्त रूपरेखा निम्नलिखित है।

चरण १: nanonets.com पर जाएं और रजिस्टर/लॉग इन करें।

पीडीएफ डेटा को डेटाबेस प्रविष्टियों में कनवर्ट करें प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

चरण १: पंजीकरण के बाद, "आरंभ करने के लिए चुनें" क्षेत्र पर जाएं, जहां आप पूर्व-निर्मित एक्सट्रैक्टर्स का उपयोग कर सकते हैं या अपने डेटासेट का उपयोग करके स्वयं एक बना सकते हैं। यहां, हम इनवॉइस प्री-बिल्ट इनवॉइस एक्सट्रैक्टर का उपयोग करेंगे।

पीडीएफ डेटा को डेटाबेस प्रविष्टियों में कनवर्ट करें प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

चरण १: डेटा निष्कर्षण करने के लिए छवियों का पीडीएफ अपलोड करें और ऑटो-एक्सट्रैक्ट विकल्प चुनें।

पीडीएफ डेटा को डेटाबेस प्रविष्टियों में कनवर्ट करें प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

चरण 4: डेटाबेस में निकाले गए डेटा को निर्यात करने के लिए एक नया एकीकरण MySQL एकीकरण बनाएं। वैकल्पिक रूप से, आप अपनी पसंद के डेटाबेस के आधार पर विभिन्न विकल्प चुन सकते हैं।

पीडीएफ डेटा को डेटाबेस प्रविष्टियों में कनवर्ट करें प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

डेटा कनेक्शन स्थापित करें और एकीकरण जोड़ें पर क्लिक करें। इसके साथ, जब भी फाइलें अपलोड की जाती हैं, डेटा निकाला जाएगा और स्वचालित रूप से डेटाबेस पर अपलोड किया जाएगा। यदि आपको आवश्यक एकीकरण नहीं मिलते हैं, तो आप हमेशा नैनोनेट्स एपीआई का उपयोग कर सकते हैं और स्वचालन प्राप्त करने के लिए सरल स्क्रिप्ट लिख सकते हैं।

समय टिकट:

से अधिक एअर इंडिया और मशीन लर्निंग