इनवॉइस पार्स - पीडीएफ़ और स्कैन किए गए दस्तावेज़ों के लिए इनवॉइस डेटा एक्सट्रैक्शन प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

चालान पार्स - पीडीएफ और स्कैन किए गए दस्तावेज़ों के लिए चालान डेटा निष्कर्षण

यदि आपको कभी किसी चालान को मैन्युअल रूप से संसाधित करना पड़ा है, तो आप जानते हैं कि प्रक्रिया कितनी समय लेने वाली और थकाऊ हो सकती है। उल्लेख नहीं करने के लिए, यह गलतियों के लिए प्रवण है क्योंकि जब आप सब कुछ हाथ से कर रहे होते हैं तो कुछ याद करना आसान होता है।

यहीं पर इनवॉइस पार्सर्स आते हैं। ये टूल इनवॉइस से डेटा निकालने की प्रक्रिया को स्वचालित करते हैं, जिससे आपको आवश्यक जानकारी प्राप्त करना त्वरित और आसान हो जाता है। यह आपको बहुत समय और परेशानी से बचा सकता है और यह सुनिश्चित करने में मदद करता है कि आपके चालानों को सही तरीके से संसाधित किया गया है।

यह लेख इनवॉइस पार्सर का उपयोग करके इनवॉइस डेटा निष्कर्षण की प्रक्रिया की पड़ताल करता है, इसे करने के लिए कुछ सर्वोत्तम तरीकों की चर्चा के साथ, तालिका निष्कर्षण, उन्नत ओसीआर और गहन शिक्षण सहित।

हम मैन्युअल प्रसंस्करण पर स्वचालित चालान डेटा निष्कर्षण के लाभों की भी जांच करेंगे। चलो सही में गोता लगाएँ।

एक चालान पार्सर क्या है?

इनवॉइस पार्सर एक प्रकार का सॉफ़्टवेयर है जिसे इनवॉइस दस्तावेज़ों को पढ़ने और व्याख्या करने के लिए डिज़ाइन किया गया है। इसमें PDF, चित्र और अन्य प्रकार की फ़ाइलें शामिल हो सकती हैं।

इनवॉइस पार्सर का उद्देश्य इनवॉइस से महत्वपूर्ण जानकारी निकालना है, जैसे इनवॉइस आईडी, कुल देय राशि, इनवॉइस दिनांक, ग्राहक का नाम, और इसी तरह। चालान पार्सर मैन्युअल डेटा निष्कर्षण से होने वाली गलतियों से बचकर सटीकता सुनिश्चित करने में मदद कर सकते हैं।

इस जानकारी का उपयोग विभिन्न उद्देश्यों के लिए किया जा सकता है, जैसे कि एपी स्वचालन, महीने के अंत में लेखांकन बंद करने की प्रक्रिया, और चालान प्रबंधन।

इनवॉइस पार्सर्स स्टैंडअलोन प्रोग्राम हो सकते हैं या बड़े व्यावसायिक सॉफ़्टवेयर सिस्टम में एकीकृत किए जा सकते हैं। ये उपकरण टीमों के लिए रिपोर्ट बनाना या डेटा को एक्सेल जैसे अन्य अनुप्रयोगों में निर्यात करना आसान बनाते हैं और अक्सर अन्य व्यवसाय प्रबंधन अनुप्रयोगों के साथ उपयोग किए जाते हैं।

बाजार में कई अलग-अलग इनवॉइस पार्सिंग सॉफ़्टवेयर समाधान हैं, इसलिए आपकी विशिष्ट आवश्यकताओं को पूरा करने वाला एक चुनना आवश्यक है।

एक चालान पार्सर कैसे काम करता है?

यह समझने के लिए कि इनवॉइस पार्सर कैसे काम करता है, पार्सर्स का कार्यसाधक ज्ञान होना ज़रूरी है।

एक विशिष्ट मार्कअप भाषा में लिखे गए दस्तावेज़ों की व्याख्या और संसाधित करने के लिए पार्सर्स का उपयोग किया जाता है। वे दस्तावेज़ को छोटे टुकड़ों में तोड़ते हैं, जिन्हें टोकन कहा जाता है, और फिर प्रत्येक टोकन का विश्लेषण करके इसका अर्थ निर्धारित किया जाता है और यह दस्तावेज़ की समग्र संरचना में कैसे फिट बैठता है।

ऐसा करने के लिए, पार्सर्स को इस्तेमाल की जाने वाली मार्कअप भाषा के व्याकरण की मजबूत समझ होनी चाहिए। यह उन्हें व्यक्तिगत टोकन की पहचान करने और उनके बीच संबंधों को सही ढंग से समझने की अनुमति देता है। पार्सर के आधार पर, यह प्रक्रिया या तो मैन्युअल या स्वचालित हो सकती है। मैनुअल पार्सर्स के लिए किसी को दस्तावेज़ के माध्यम से कदम उठाने और प्रत्येक टोकन की पहचान करने की आवश्यकता होती है, जबकि स्वचालित पार्सर्स स्वचालित रूप से टोकन का पता लगाने और संसाधित करने के लिए एल्गोरिदम का उपयोग करते हैं। किसी भी तरह, मार्कअप भाषाओं में लिखे गए दस्तावेज़ों को समझने में पार्सर्स एक आवश्यक भूमिका निभाते हैं।

डेटा निष्कर्षण में, चालान पार्सिंग एक चालान दस्तावेज़ का विश्लेषण कर सकता है और प्रासंगिक जानकारी निकाल सकता है।

उदाहरण के लिए, उस मामले पर विचार करें जहां आपको कई चालान दिए गए हैं और आप उनसे डेटा को संरचित प्रारूप में संग्रहीत करना चाहते हैं। चालान पार्सिंग आपको सभी फाइलों को लोड करने और ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) चलाने में सक्षम बनाता है ताकि डेटा को पढ़ा जा सके और कुछ ही मिनटों में सभी कुंजी-मूल्य जोड़े निकाले जा सकें। इसके बाद, आप कुछ पोस्ट-प्रोसेसिंग एल्गोरिदम का उपयोग उन्हें JSON या CSV जैसे अधिक पठनीय प्रारूपों में संग्रहीत करने के लिए कर सकते हैं। आप भी कर सकते हैं प्रक्रियाओं और कार्यप्रवाहों का निर्माण अपने व्यवसाय के रिकॉर्ड से चालान निकालने को स्वचालित करने के लिए चालान पार्सिंग का उपयोग करना।

पायथन के साथ चालान पार्सिंग

पायथन इनवॉइस पार्सिंग सहित विभिन्न डेटा निष्कर्षण कार्यों के लिए एक प्रोग्रामिंग भाषा है। यह खंड आपको सिखाएगा कि इनवॉइस से डेटा निकालने के लिए पायथन लाइब्रेरी का उपयोग कैसे करें।

एक सामान्य अत्याधुनिक इनवॉइस पार्सर बनाना जो सभी डेटा प्रकारों पर चल सकता है, मुश्किल है, क्योंकि इसमें टेक्स्ट पढ़ने, भाषाओं को संभालने, फोंट, दस्तावेज़ संरेखण, और कुंजी-मूल्य जोड़े निकालने जैसे विभिन्न कार्य शामिल हैं। हालांकि, ओपन-सोर्स प्रोजेक्ट्स और कुछ सरलता की मदद से, हम कम से कम इनमें से कुछ समस्याओं को हल कर सकते हैं और शुरू कर सकते हैं।

उदाहरण के लिए, हम नमूना चालान पर tabula नामक टूल का उपयोग करेंगे - इनवॉइस पार्सिंग के लिए तालिकाओं को निकालने के लिए एक पायथन लाइब्रेरी। नीचे दिए गए कोड स्निपेट को चलाने के लिए, सुनिश्चित करें कि स्थानीय मशीन पर पायथन और टैबुला/टैबलेट दोनों स्थापित हैं।

नमूना-चालान.pdf.

from tabula import read_pdf
from tabulate import tabulate
# PDF file to extract tables from
file = "sample-invoice.pdf"

# extract all the tables in the PDF file
#reads table from pdf file
df = read_pdf(file ,pages="all") #address of pdf file
print(tabulate(df[0]))
print(tabulate(df[1]))

उत्पादन

-  ------------  ----------------
0  Order Number  12345
1  Invoice Date  January 25, 2016
2  Due Date      January 31, 2016
3  Total Due     $93.50
-  ------------  ----------------

-  -  -------------------------------  ------  -----  ------
0  1  Web Design                       $85.00  0.00%  $85.00
      This is a sample description...
-  -  -------------------------------  ------  -----  ------

हम कोड की कुछ पंक्तियों के साथ एक पीडीएफ फाइल से टेबल निकाल सकते हैं। ऐसा इसलिए है क्योंकि पीडीएफ फाइल अच्छी तरह से स्वरूपित, संरेखित और इलेक्ट्रॉनिक रूप से बनाई गई थी (कैमरे द्वारा कैप्चर नहीं की गई)। इसके विपरीत, यदि दस्तावेज़ को इलेक्ट्रॉनिक रूप से उत्पादित होने के बजाय कैमरे द्वारा कैप्चर किया गया होता, तो इन एल्गोरिदम के लिए डेटा निकालना बहुत कठिन होता - यह वह जगह है जहाँ ऑप्टिकल कैरेक्टर रिकग्निशन चलन में आता है।

का उपयोग करते हैं Tesseract, एक चालान के माध्यम से पार्स करने के लिए अजगर के लिए एक लोकप्रिय ओसीआर इंजन।

import cv2
import pytesseract
from pytesseract import Output

img = cv2.imread('sample-invoice.jpg')

d = pytesseract.image_to_data(img, output_type=Output.DICT)
print(d.keys())

यह आपको निम्न आउटपुट देना चाहिए -

dict_keys(['level', 'page_num', 'block_num', 'par_num', 'line_num', 'word_num', 'left', 'top', 'width', 'height', 'conf', 'text'])

इस डिक्शनरी का उपयोग करके, हम प्रत्येक शब्द का पता लगा सकते हैं, उनकी बाउंडिंग बॉक्स की जानकारी, उनमें टेक्स्ट और उनका कॉन्फिडेंस स्कोर प्राप्त कर सकते हैं।

आप नीचे दिए गए कोड का उपयोग करके बक्से को प्लॉट कर सकते हैं -

n_boxes = len(d['text'])
for i in range(n_boxes):
    if float(d['conf'][i]) > 60:
        (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i])
        img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 2)

cv2.imshow('img', img)
cv2.waitKey(0)

आप निम्न आउटपुट देखेंगे:

इस प्रकार हम चालान के क्षेत्रों का उपयोग और पहचान कर सकते हैं। हालांकि, कस्टम एल्गोरिदम को की-वैल्यू पेयर एक्सट्रैक्शन के लिए बनाया जाना चाहिए। हम इसके बारे में निम्नलिखित अनुभागों में और जानेंगे।

लीगेसी इनवॉइस पार्सर्स के मुद्दे (नियम आधारित कैप्चरिंग)

आज, कई संगठन अभी भी इनवॉइस-डेटा निष्कर्षण के लिए लीगेसी सिस्टम पर निर्भर हैं।

ये "नियम-आधारित" सिस्टम चालान पर प्रत्येक पंक्ति वस्तु को पार्स करते हैं और फिर नियमों के एक सेट के साथ उनकी तुलना करते हैं ताकि यह निर्धारित किया जा सके कि जानकारी को उनके डेटाबेस में जोड़ा जाना चाहिए या नहीं।

इस पद्धति का उपयोग लंबे समय से किया गया है, लेकिन इसमें कई कमियां हैं। आइए लीगेसी इनवॉइस पार्सर्स के सामने आने वाली कुछ सामान्य समस्याओं पर नज़र डालें।

  • स्कैन करते समय पेज का झुकाव: नियम-आधारित चालान पार्सर्स के साथ एक समस्या यह है कि उन्हें "पृष्ठ झुकाव" में कठिनाई हो सकती है। यह तब होता है जब इनवॉइस में फ़ील्ड एक सीधी रेखा में नहीं होते हैं, जिससे पार्सर के लिए डेटा को सटीक रूप से पहचानना और निकालना मुश्किल हो जाता है। यह अक्सर उन प्रिंटरों के कारण हो सकता है जो समान रूप से प्रिंट नहीं करते हैं या डेटा के मैन्युअल इनपुट के कारण जो सही ढंग से संरेखित नहीं हो सकता है।
  • प्रारूप परिवर्तन: सबसे आम समस्याओं में से एक व्यवसाय का सामना करना पड़ता है जो एक मानक प्रारूप में प्रारूपित नहीं होते हैं। इनवॉइस से डेटा निकालने का प्रयास करते समय यह समस्याएँ पैदा कर सकता है। उदाहरण के लिए, विभिन्न फोंट का उपयोग किया जा सकता है, और इनवॉइस लेआउट एक महीने से दूसरे महीने में बदल सकता है। डेटा को पार्स करना और यह निर्धारित करना मुश्किल है कि प्रत्येक कॉलम क्या दर्शाता है। उदाहरण के लिए, इनवॉइस में कुछ नए फ़ील्ड जोड़े जा सकते हैं, या कुछ मौजूदा फ़ील्ड अलग-अलग स्थितियों में रखे जा सकते हैं। या पूरी तरह से एक पूरी तरह से नई संरचना हो सकती है जिसके कारण एक सामान्य नियम-आधारित पार्सर चालानों को सही ढंग से नहीं पहचान पाएगा।
  • टेबल निष्कर्षण: नियम-आधारित टेबल एक्सट्रैक्टर अक्सर टेबल से डेटा निकालने का सबसे सीधा और आसान तरीका होता है। हालांकि, उन तालिकाओं के साथ काम करते समय उनकी सीमाएं होती हैं जिनमें कोई शीर्षलेख नहीं होता है या विशिष्ट कॉलम में शून्य मान शामिल होते हैं क्योंकि इन परिदृश्यों में प्रसंस्करण के दौरान अनंत लूप का कारण बनता है जिसके परिणामस्वरूप स्मृति में असीमित लंबी पंक्तियों को लोड करने में समय बर्बाद होता है (या कुछ भी आउटपुट नहीं करता है) बिल्कुल) यदि उन विशेषताओं को शामिल करने वाले आश्रित भाव भी थे। इसके अतिरिक्त, जब तालिकाएँ कई पृष्ठों तक फैली होती हैं, तो नियम-आधारित पार्सर उन्हें एक के बजाय अलग-अलग तालिकाओं के रूप में मानते हैं और इस प्रकार निष्कर्षण प्रक्रिया को गुमराह करते हैं।

नैनोनेट्स के साथ एआई-आधारित इनवॉइस पार्सर बनाएं

ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) और डीप लर्निंग वाले इनवॉइस पार्सर्स स्कैन किए गए या पीडीएफ में कनवर्ट किए गए इनवॉइस से डेटा निकाल सकते हैं। यह डेटा तब लेखांकन सॉफ्टवेयर को पॉप्युलेट कर सकता है, खर्चों को ट्रैक कर सकता है और रिपोर्ट तैयार कर सकता है।

डीप लर्निंग एल्गोरिदम सीख सकते हैं कि चालान में विशिष्ट तत्वों की पहचान कैसे करें, जैसे ग्राहक का नाम, पता और उत्पाद जानकारी। यह अधिक सटीक डेटा निष्कर्षण की अनुमति देता है और सिस्टम में डेटा को मैन्युअल रूप से इनपुट करने के लिए आवश्यक समय को कम कर सकता है। हालांकि, ऐसे एल्गोरिदम के निर्माण के लिए बहुत समय और विशेषज्ञता की आवश्यकता होती है, लेकिन चिंता न करें; नैनोनेट्स आपकी पीठ है!

नैनोनेट्स एक ओसीआर सॉफ्टवेयर है जो पीडीएफ दस्तावेजों, छवियों और स्कैन की गई फाइलों से तालिकाओं के निष्कर्षण को स्वचालित करने के लिए कृत्रिम बुद्धिमत्ता का उपयोग करता है। अन्य समाधानों के विपरीत, इसमें प्रत्येक नए दस्तावेज़ प्रकार के लिए अलग नियमों और टेम्पलेट्स की आवश्यकता नहीं होती है। इसके बजाय, यह समय के साथ सुधार करते हुए अर्ध-संरचित और अनदेखी दस्तावेजों को संभालने के लिए संज्ञानात्मक बुद्धि पर निर्भर करता है। आप केवल अपनी रुचि की तालिकाएं या डेटा प्रविष्टियां निकालने के लिए आउटपुट को कस्टमाइज़ भी कर सकते हैं।

यह तेज़, सटीक, उपयोग में आसान है, उपयोगकर्ताओं को खरोंच से कस्टम ओसीआर मॉडल बनाने की अनुमति देता है, और इसमें कुछ साफ जैपियर एकीकरण हैं। दस्तावेज़ों को डिजिटाइज़ करें, टेबल या डेटा फ़ील्ड निकालें, और एक सरल, सहज इंटरफ़ेस में एपीआई के माध्यम से अपने दैनिक ऐप्स के साथ एकीकृत करें।

[एम्बेडेड सामग्री]

नैनोनेट्स सर्वश्रेष्ठ पीडीएफ पार्सर क्यों है?

  • नैनोनेट्स ऑन-पेज डेटा निकाल सकते हैं जबकि कमांड लाइन पीडीएफ पार्सर केवल ऑब्जेक्ट, हेडर और मेटाडेटा जैसे (शीर्षक, #पृष्ठ, एन्क्रिप्शन स्थिति, आदि) निकाल सकते हैं।
  • नैनोसेट्स पीडीएफ पार्सिंग तकनीक टेम्प्लेट-आधारित नहीं है। लोकप्रिय उपयोग के मामलों के लिए पूर्व-प्रशिक्षित मॉडल पेश करने के अलावा, नैनोनेट पीडीएफ पार्सिंग एल्गोरिथ्म भी अनदेखी दस्तावेज़ प्रकारों को संभाल सकता है!
  • मूल पीडीएफ दस्तावेजों को संभालने के अलावा, नैनोनेट की अंतर्निहित ओसीआर क्षमताएं इसे स्कैन किए गए दस्तावेजों और छवियों को भी संभालने की अनुमति देती हैं!
  • एआई और एमएल क्षमताओं के साथ मजबूत स्वचालन सुविधाएँ।
  • नैनोनेट्स असंरचित डेटा, सामान्य डेटा बाधाओं, बहु-पृष्ठ पीडीएफ दस्तावेज़ों, तालिकाओं और बहु-पंक्ति वस्तुओं को आसानी से संभालते हैं।
  • नैनोनेट्स एक नो-कोड टूल है जो बिना किसी पोस्ट-प्रोसेसिंग के आउटपुट प्रदान करने के लिए कस्टम डेटा पर लगातार सीख और पुन: प्रशिक्षित कर सकता है।

नैनोनेट्स के साथ स्वचालित इनवॉइस पार्सिंग - पूरी तरह से टचलेस इनवॉइस प्रोसेसिंग वर्कफ़्लो बनाना

अपने मौजूदा उपकरणों को नैनोनेट्स के साथ एकीकृत करें और डेटा संग्रह, निर्यात भंडारण और बहीखाता पद्धति को स्वचालित करें।

नैनोनेट्स इनवॉइस पार्सिंग वर्कफ़्लोज़ को स्वचालित करने में भी मदद कर सकते हैं:

  • कई स्रोतों से चालान डेटा आयात और समेकित करना - ईमेल, स्कैन किए गए दस्तावेज़, डिजिटल फ़ाइलें/छवियां, क्लाउड स्टोरेज, ईआरपी, एपीआई इत्यादि।
  • इनवॉइस, रसीदों, बिलों और अन्य वित्तीय दस्तावेज़ों से इनवॉइस डेटा को समझदारी से कैप्चर करना और निकालना।
  • व्यावसायिक नियमों के आधार पर लेन-देन का वर्गीकरण और कोडिंग।
  • आंतरिक अनुमोदन प्राप्त करने और अपवादों को प्रबंधित करने के लिए स्वचालित अनुमोदन कार्यप्रवाह सेट करना।
  • सभी लेनदेन का मिलान।
  • ईआरपी या अकाउंटिंग सॉफ्टवेयर जैसे क्विकबुक, सेज, ज़ीरो, नेटसुइट, और बहुत कुछ के साथ मूल रूप से एकीकृत करना।

समय टिकट:

से अधिक एअर इंडिया और मशीन लर्निंग