पीडीएफ प्लेटोब्लॉकचैन डेटा इंटेलिजेंस से टेबल कैसे निकालें। लंबवत खोज। ऐ.

पीडीएफ से टेबल्स कैसे निकाले

पीडीएफ से टेबल्स कैसे निकाले

कभी कोशिश की पीडीएफ से डेटा निकालना? थोड़ा मुश्किल है...

जबकि आप अभी भी कर सकते हैं पीडीएफ से पाठ निकालें सामग्री को कॉपी-पेस्ट करने से, PDF से टेबल निकालने का तरीका और भी बढ़ जाता है जटिल!

पीडीएफ से टेबल्स कैसे निकाले
Giphy

आज संगठनात्मक कार्यप्रवाह काफी हद तक पीडीएफ दस्तावेजों पर निर्भर करता है; विशेष रूप से वे जिनमें बहुत सारे सारणीबद्ध डेटा होते हैं।

अधिकांश डेटा-समृद्ध व्यावसायिक दस्तावेज़ मूल्यवान जानकारी को व्यवस्थित और प्रस्तुत करने के लिए तालिकाओं का उपयोग करते हैं।

आप में टेबल पा सकते हैं वित्तीय दस्तावेज जैसे चालान, रसीदें, बीमा दस्तावेज, लदान के बिल, बैंक विवरण, रिपोर्ट आदि।  

व्यवसाय अक्सर सारणीबद्ध PDF डेटा को संपादन योग्य तालिका स्वरूपों के रूप में निकालने के लिए समाधान ढूंढते हैं।

कॉपी-पेस्ट करने का मैनुअल दृष्टिकोण शायद ही कभी तालिका संरचना को बनाए रखता है। कॉलम और पंक्तियाँ विकृत हो जाती हैं। और डेटा को उसके मूल संगठित रूप में पुनर्स्थापित करने के लिए बहुत सारे सत्यापन और पुन: स्वरूपण आवश्यक हैं।

भाग्यवश, विभिन्न उपकरण हैं, जैसे नैनोनेट्स, जो पीडीएफ दस्तावेज़ों से कुशलता से तालिकाओं को निकाल सकता है।

पीडीएफ से टेबल्स कैसे निकाले
नैनोनेट्स के साथ दस्तावेज़ों से तालिकाएँ निकालना

जबकि वे सभी एक ही कार्य करते हैं, ये उपकरण मौलिक रूप से भिन्न तकनीकों का उपयोग करते हैं जिनके अपने फायदे और नुकसान हैं।

इस लेख में, हम पीडीएफ से टेबल निकालने के लिए विभिन्न समाधानों की समीक्षा करेंगे और विशिष्ट उपयोग के मामलों के लिए सर्वोत्तम फिट का चयन करने के लिए उनके पेशेवरों और विपक्षों की तुलना करेंगे।

पीडीएफ से टेबल निकालने के लिए शीर्ष समाधान

PDF से तालिकाओं में डेटा निकालने के कुछ सबसे लोकप्रिय उपाय इस प्रकार हैं:

1. नैनोनेट्स

no code automated table extraction

2. बोर्ड

 works best on simple tables

3. कैमलॉट या एक्सेलिबुर

customisable table extraction

4. पीडीएफटेबल्स

secure & scalable table extraction API

5. डॉकपारर

cloud-based table parser

6. एक्सेल कन्वर्टर्स के लिए ऑनलाइन पीडीएफ

 basic extraction


इनवॉइस, रसीदों या किसी अन्य प्रकार के दस्तावेज़ से सारणीबद्ध डेटा निकालना चाहते हैं? नैनोनेट्स की जाँच करें' पीडीएफ टेबल एक्सट्रैक्टर सारणीबद्ध डेटा निकालने के लिए। एक डेमो शेड्यूल करें नैनोनेट्स के बारे में अधिक जानने के लिए ' टेबल निष्कर्षण सुविधा.


नैनोनेट्स

नैनोसेट्स इंट्रो

नैनोनेट्स एक ओसीआर सॉफ्टवेयर है जो पीडीएफ दस्तावेजों, छवियों और स्कैन की गई फाइलों से तालिकाओं को स्वचालित रूप से निकालने के लिए एआई और एमएल क्षमताओं का लाभ उठाता है। अन्य समाधानों के विपरीत, नैनोनेट्स को प्रत्येक नए दस्तावेज़ प्रकार के लिए अलग नियमों और टेम्पलेट्स की आवश्यकता नहीं होती है।

एआई-संचालित संज्ञानात्मक बुद्धिमत्ता पर भरोसा करते हुए, नैनोनेट समय के साथ सुधार करते हुए अर्ध-संरचित और यहां तक ​​कि अनदेखी दस्तावेजों को भी संभाल सकते हैं। आप केवल अपनी रुचि की तालिका या डेटा प्रविष्टियों को निकालने के लिए आउटपुट को कस्टमाइज़ भी कर सकते हैं।

यह तेज़, सटीक, उपयोग में आसान है, उपयोगकर्ताओं को खरोंच से कस्टम ओसीआर मॉडल बनाने की अनुमति देता है और इसमें कुछ साफ जैपियर एकीकरण हैं। दस्तावेज़ों को डिजिटाइज़ करें, टेबल या डेटा-फ़ील्ड निकालें, और एक सरल, सहज इंटरफ़ेस में एपीआई के माध्यम से अपने दैनिक ऐप्स के साथ एकीकृत करें।

नैनोनेट्स एल्गोरिथ्म और ओसीआर मॉडल लगातार सीखते हैं। वे कई बार प्रशिक्षित या मुकर सकते हैं और बहुत अनुकूलन योग्य हैं। डेवलपर्स के लिए एक महान एपीआई और प्रलेखन की पेशकश करते समय, सॉफ्टवेयर डेवलपर्स के बिना इन-हाउस टीम वाले संगठनों के लिए भी आदर्श है।

फ़ायदे

  • ओसीआर के साथ संज्ञानात्मक डेटा और तालिका निष्कर्षण।
  • अर्ध-संरचित या अनदेखी दस्तावेज़ स्वरूपों पर भी उच्च सटीकता।
  • स्वचालित रूप से इसकी प्रतिक्रिया के भीतर संरचित पंक्ति-स्तंभ जानकारी सहित तालिकाओं का पता लगाता है।
  • एक ब्लिट्ज-स्केलिंग, आधुनिक यूआई प्रदान करता है जो अन्य सॉफ्टवेयर की तुलना में 10 गुना तेजी से दस्तावेजों को संसाधित करता है।
  • उपयोग में आसान और सेट अप। एक दो दिनों में एकीकृत और स्थापित किया जा सकता है।
  • कई दस्तावेजों के बैच प्रसंस्करण का समर्थन करता है।
  • CSV, Excel, और JSON जैसे कई प्रारूपों के लिए तालिकाएँ निर्यात करता है।
  • एकाधिक लेखा सॉफ्टवेयर के साथ निर्बाध 2-तरफा एकीकरण। (के बारे में अधिक जानने लेखा ओसीआर)
  • लगभग कोई पोस्ट-प्रोसेसिंग की आवश्यकता नहीं है
  • गैर-अंग्रेजी या कई भाषाओं के साथ काम करता है
  • एकीकरण विकल्पों की व्यापक पसंद

नुकसान

  • संभाल नहीं सकते बहुत ही उच्च मात्रा spikes!
  • प्रति माह केवल 100 निःशुल्क दस्तावेज़/क्रेडिट प्रदान करता है।

नैनोनेट्स कई दिलचस्प हैं बक्सों का इस्तेमाल करें जो आपके व्यवसाय के प्रदर्शन को अनुकूलित कर सकता है, लागत बचा सकता है और विकास को बढ़ावा दे सकता है। मालूम करना नैनोनेट्स के उपयोग के मामले आपके उत्पाद पर कैसे लागू हो सकते हैं।


नैनोनेट्स का उपयोग करके पीडीएफ से टेबल कैसे निकालें

नैनोनेट्स एक पूर्व-प्रशिक्षित टेबल एक्सट्रैक्टर मॉडल प्रदान करता है जो आउट-ऑफ-द-बॉक्स चलता है।

  1. नैनोनेट्स पर सारणीबद्ध डेटा के साथ एक पीडीएफ अपलोड करें
  2. नैनोनेट आपकी पीडीएफ फाइल में टेबल (टेबल्स) को ऑटो-कैप्चर करेगा
  3. आप सेल/डेटा को जोड़, हटा या संपादित भी कर सकते हैं
  4. कनवर्ट की गई फ़ाइल को JSON, Excel या CSV स्वरूपों में निर्यात करें।

एक त्वरित डेमो देखें:

नैनोनेट्स टेबल एक्सट्रैक्टर

आप नैनोनेट्स द्वारा पेश किए गए अन्य पूर्व-प्रशिक्षित मॉडलों में टेबल निष्कर्षण सुविधा को भी सक्रिय कर सकते हैं:

  • चालान
  • रसीद
  • चालक का लाइसेंस (यूएस)
  • पासपोर्ट

बस अपनी फ़ाइलें जोड़ें, तालिका निष्कर्षण सक्रिय करें, निकाले गए तालिका डेटा का परीक्षण और सत्यापन करें, और एक्सेल के रूप में निर्यात करें or csv फ़ाइल.

कृपया ध्यान दें कि आप करेंगे साइनअप करना है प्रो योजना के लिए एक नि: शुल्क परीक्षण के लिए तालिका निष्कर्षण सुविधा को सक्रिय करें!

सटीक तालिका निष्कर्षण के लिए अपने मॉडल को कैसे प्रशिक्षित करें
नैनोनेट्स इनवॉइस मॉडल टेबल एक्सट्रैक्शन कर रहा है

नैनोनेट्स कई दिलचस्प हैं बक्सों का इस्तेमाल करें जो आपके व्यवसाय के प्रदर्शन को अनुकूलित कर सकता है, लागत बचा सकता है और विकास को बढ़ावा दे सकता है। मालूम करना नैनोनेट्स के उपयोग के मामले आपके उत्पाद पर कैसे लागू हो सकते हैं।


नैनोनेट्स प्रलेखन

यदि आप अपने खुद के ओसीआर मॉडल को एक बनाने के लिए प्रशिक्षित करना चाहते हैं डेटाबेस के लिए पीडीएफ या पीडीएफ से टेबल कन्वर्टर, देखें नैनोनेट्स एपीआई. में दस्तावेज़ीकरण, आप शेल, रूबी, गोलांग, जावा, सी # और पायथन में कोड सैंपल फायर करने के लिए तैयार होंगे, साथ ही विभिन्न एंडपॉइंट के लिए विस्तृत एपीआई स्पेक्स भी।


एआई-आधारित ऑनलाइन ओसीआर की आवश्यकता है पीडीएफ को एक्सएमएल में बदलें or डेटाबेस के लिए पीडीएफ प्रविष्टियों, पीडीएफ से डेटा निकालें, छवि से पाठ निकालेंया, पीडीएफ से पाठ निकालें? एक डेमो शेड्यूल करें नैनोनेट्स के बारे में अधिक जानने के लिए।

पीडीएफ से टेबल्स कैसे निकाले


बोर्ड

तबुला-जावा पुस्तकालय पर चल रहा है, बोर्ड एक ओपन-सोर्स सॉफ्टवेयर है जिसे मैक, लिनक्स या विंडोज पीसी पर डाउनलोड किया जा सकता है। पत्रकारों के एक समूह द्वारा बनाया गया, तबुला "पीडीएफ फाइलों के अंदर बंद डेटा तालिकाओं को मुक्त करना" चाहता है।

तबुला के लिए एक पीडीएफ फाइल अपलोड करें, इसके चारों ओर एक बॉक्स खींचकर एक तालिका का चयन करें, पंक्तियों और स्तंभों के चयन का पूर्वावलोकन करें और सत्यापित तालिका निर्यात करें। तबला छोटे सरल तालिका स्वरूपों पर सबसे अच्छा काम करता है।  

फ़ायदे

  • तबुला पीडीएफ फाइलों पर आश्चर्यजनक रूप से काम करता है जो मुख्य रूप से पाठ-आधारित हैं।
  • इसका उपयोग करना आसान है, मजबूत है और इसे अन्य सॉफ़्टवेयर में एम्बेड किया जा सकता है।

नुकसान

  • तबुला केवल टेक्स्ट-आधारित पीडीएफ पर काम करता है, स्कैन की गई छवियों या दस्तावेजों पर नहीं।
  • यह अक्सर मल्टी-लाइन या मर्ज की गई कोशिकाओं द्वारा उलझ जाता है।
  • बैच प्रसंस्करण का समर्थन नहीं करता है। आप एक समय में केवल एक दस्तावेज़ पर काम कर सकते हैं!
  • कभी-कभी वर्ण या संख्या की सही पहचान नहीं की जाती है।
  • OCR आवश्यकताओं का समर्थन नहीं कर सकते।
  • स्वचालित प्रक्रिया नहीं।

कैमलॉट या एक्सेलिबुर

MIT लाइसेंस के तहत लाइसेंस प्राप्त Camelot एक पायथन लाइब्रेरी है जो PDF से टेबल निष्कर्षण को सक्षम करता है। यह भी शक्तियाँ एक्सकैलिबर, पीडीएफ दस्तावेज़ों से सारणीबद्ध डेटा निकालने के लिए एक वेब इंटरफ़ेस।

अन्य पुस्तकालयों के विपरीत जो सटीक आउटपुट या पूर्ण विफलताओं के बीच दोलन करते हैं, कैमलॉट आपको सर्वोत्तम परिणाम प्राप्त करने के लिए टेबल निष्कर्षण को बहुत अनुकूलित करने की शक्ति देता है।

फ़ायदे

  • ऑटो टेबल का पता लगाता है।
  • कैमलॉट टेक्स्ट-आधारित पीडीएफ फाइलों पर बहुत अच्छा काम करता है।
  • लचीले और काफी हद तक अनुकूलन।
  • CSV, Excel, JSON, HTML और Sqlite जैसे कई स्वरूपों में तालिकाओं का निर्यात करता है।
  • सटीकता और व्हॉट्सएप जैसी मैट्रिक्स के आधार पर खराब तालिकाओं को स्वचालित रूप से खारिज किया जा सकता है।
  • प्रत्येक तालिका को एक पांडा डेटाफ़्रेम में परिवर्तित किया जा सकता है जिसका उपयोग आगे के विश्लेषण या प्रसंस्करण के लिए किया जा सकता है।

नुकसान

  • कैमलॉट केवल पाठ-आधारित पीडीएफ पर काम करता है, स्कैन की गई छवियों या दस्तावेजों पर नहीं।
  • मल्टी-लाइन टेबल और मर्ज किए गए सेल के साथ जटिल पीडीएफ दस्तावेजों को संभाल नहीं सकते।
  • स्ट्रीम का उपयोग करते समय, पूरे पृष्ठ को एक ही तालिका के रूप में माना जाता है। यह आउटपुट को प्रभावित करता है जब एक ही पृष्ठ पर कई टेबल होते हैं।
  • OCR आवश्यकताओं का समर्थन नहीं कर सकते।
  • स्वचालित प्रक्रिया नहीं।

क्या आपका व्यवसाय डिजिटल दस्तावेज़ों, PDF या छवियों में डेटा या टेक्स्ट पहचान से संबंधित है? क्या आपने सोचा है कि सारणीबद्ध डेटा कैसे निकाला जाता है, PDF को CSV में बदलें , पीडीएफ से डेटा निकालें or पीडीएफ से पाठ निकालें सही और कुशलता से?


पीडीएफटेबल्स

PDFTables एक सुरक्षित और मापनीय है कनवर्टर उत्कृष्टता प्राप्त करने के लिए पीडीएफ और टेबल निष्कर्षण एपीआई। यह पूरी तरह से आंतरिक एल्गोरिदम द्वारा संचालित है जिसमें अनुकूलन या बदलाव के लिए कोई जगह नहीं है। बस अपना दस्तावेज़ अपलोड करें और एक्सेल, सीएसवी, एक्सएमएल या जेएसओएन प्रारूप में टेबल आउटपुट डाउनलोड करें।

फ़ायदे

  • छोटे और बड़े डेटा सेट पर काम करता है।
  • स्वचालित तालिका निष्कर्षण।
  • CSV, Excel, JSON, और XML जैसे कई स्वरूपों में तालिकाएँ निर्यात करता है।
  • 25 पृष्ठों तक मुफ्त।
  • एक ही समय में कई फाइलें संभालता है।

नुकसान

  • तालिका निष्कर्षण एल्गोरिथ्म को ट्विक या कस्टमाइज़ नहीं किया जा सकता।
  • ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) नहीं करता है।
  • सटीकता और प्रदर्शन के लिए अंतर्निहित एल्गोरिथ्म पर पूर्ण निर्भरता।
  • किसी भी क्लाउड एकीकरण का समर्थन नहीं करता है।

डॉकपारर

Docparser एक मजबूत क्लाउड-आधारित पार्सिंग ऐप है जो दस्तावेज़ों, छवियों या PDF से डेटा और तालिकाओं को निकाल सकता है। Tabula की तरह, यह Tabula-Java लाइब्रेरी पर चलता है लेकिन इसमें अधिक उन्नत सुविधाएँ हैं।

एक बार जब आप कोई फ़ाइल अपलोड कर देते हैं, तो आपको अपने दस्तावेज़ में रुचि के क्षेत्रों (तालिकाओं के साथ) की पहचान करने के लिए सॉफ़्टवेयर सिखाने के लिए पार्सिंग नियम सेट करने होंगे। सॉफ्टवेयर तब इन नियमों को याद रखता है और भविष्य में इसी तरह के दस्तावेजों के लिए लागू करता है।

अंतर्निहित OCR क्षमताओं के साथ, Docparser कुछ हद तक व्यावसायिक वर्कफ़्लोज़ को स्वचालित करने में भी मदद कर सकता है। (यहाँ एक है विस्तृत व्याख्याकर्ता on ओसीआर सॉफ्टवेयर क्या है)

फ़ायदे

  • कई दस्तावेजों के बैच प्रसंस्करण का समर्थन करता है।
  • अंतर्निहित ओसीआर।
  • कस्टम पार्सिंग नियमों की अनुमति देता है।
  • CSV, Excel, JSON, और XML जैसे कई स्वरूपों में तालिकाएँ निर्यात करता है।
  • कुछ स्वच्छ एकीकरण विकल्पों का समर्थन करता है।

नुकसान

  • पार्सिंग नियम जटिल तालिकाओं और दस्तावेजों के लिए जटिल हो सकते हैं।
  • आपको प्रत्येक तालिका के लिए निर्देशांक और सीमाओं को परिभाषित करने की आवश्यकता है।
  • एक टेम्पलेट पहचान मॉडल पर चलता है। तो वास्तव में स्वचालित नहीं है!
  • नए दस्तावेज़ प्रकार और प्रारूप स्वचालित रूप से संभाल नहीं सकते।
  • एक ही दस्तावेज़ के भीतर विभिन्न क्षेत्रों में आने वाले तालिकाओं या डेटा के लिए अलग-अलग पार्सिंग नियमों की आवश्यकता हो सकती है।
  • केवल निश्चित क्षेत्र प्रारूपण या ज्ञात टेम्प्लेट वाले दस्तावेज़ों पर सटीक काम करता है।
  • सत्यापन और पुन: कार्य के कुछ स्तर की आवश्यकता हो सकती है।

चाहते पीडीएफ से डेटा खंगालें दस्तावेजों, पीडीएफ तालिका को एक्सेल में बदलें, कन्वर्ट पीडीएफ से सीएसवी or स्वचालित तालिका निष्कर्षण? मालूम करना कैसे नैनोनेट्स पीडीएफ खुरचनी or पीडीएफ पार्सर आपके व्यवसाय को अधिक उत्पादक बनाने के लिए शक्ति प्रदान कर सकता है।


एक्सेल कन्वर्टर्स के लिए ऑनलाइन पीडीएफ

ऑनलाइन पीडीएफ से एक्सेल कन्वर्टर्स पसंद छोटा-मोटा और धूमकेतु दूसरों के बीच सबसे बुनियादी पीडीएफ टेबल निष्कर्षण क्षमताओं की पेशकश करते हैं। Nanonets भी एक निःशुल्क प्रदान करता है पीडीएफ एक्सेल के लिए कनवर्टर।

ये सरल उपयोगिता उपकरण उपयोग करने के लिए स्वतंत्र हैं, लेकिन इसके लिए अनिवार्य साइन अप की आवश्यकता हो सकती है। बस एक पीडीएफ अपलोड करें और आउटपुट डाउनलोड करें।

नीचे दिए गए अधिक उन्नत विकल्पों के विपरीत, ऐसे उपकरण आमतौर पर परिवर्तित करते हैं संपूर्ण पीडीएफ एक्सएमएल के लिए or PDF को csv में बदलें फ़ाइलें। यह अक्सर अव्यवस्थित आउटपुट में परिणत होता है जिसके लिए कुछ संपादन और सफाई की आवश्यकता हो सकती है।

फ़ायदे

  • सरल ड्रैग-एंड-ड्रॉप इंटरफ़ेस।

नुकसान

  • जटिल टेबल संरचनाओं के साथ पीडीएफ फाइलों को संभाल नहीं सकते।
  • बैच प्रसंस्करण का समर्थन नहीं करता है। आप एक समय में केवल एक दस्तावेज़ पर काम कर सकते हैं!
  • कभी-कभी वर्ण या संख्या की सही पहचान नहीं की जाती है।
  • सीमित उपयोग।
  • स्वचालित प्रक्रिया नहीं।
  • अनुकूलित नहीं किया जा सकता।

अपडेट जून 2022: यह पोस्ट मूल रूप से . में प्रकाशित हुआ था अप्रैल 2021 और तब से अद्यतन किया गया है कई बार.

इस टेबल निष्कर्षण उपकरण था प्रोडक्ट हंट पर लॉन्च किया गया.

ये रही एक स्लाइड इस लेख में निष्कर्षों का सारांश। यहाँ एक है वैकल्पिक संस्करण इस पोस्ट के।

समय टिकट:

से अधिक एअर इंडिया और मशीन लर्निंग