تحليل الفاتورة - استخراج بيانات الفاتورة لملفات PDF والمستندات الممسوحة ضوئيًا ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.

تحليل الفاتورة - استخراج بيانات الفاتورة لملفات PDF والمستندات الممسوحة ضوئيًا

إذا اضطررت في أي وقت إلى معالجة فاتورة يدويًا ، فأنت تعرف تمامًا كيف يمكن أن تستغرق العملية وقتًا طويلاً ومملة. ناهيك عن أنها عرضة للأخطاء لأنه من السهل أن تفوت شيئًا عندما تفعل كل شيء يدويًا.

هذا هو المكان الذي يأتي فيه محللو الفواتير. تعمل هذه الأدوات على أتمتة عملية استخراج البيانات من الفواتير ، مما يجعل الحصول على المعلومات التي تحتاجها سريعًا وسهلاً. يمكن أن يوفر لك هذا الكثير من الوقت والجهد ويساعد في ضمان معالجة فواتيرك بدقة.

تستكشف هذه المقالة عملية استخراج بيانات الفاتورة باستخدام محللي الفواتير ، مع مناقشة بعض أفضل الطرق للقيام بذلك ، بما في ذلك استخراج الجدول ، والتعرف الضوئي على الحروف المتقدم ، والتعلم العميق.

سنقوم أيضًا بفحص مزايا الاستخراج الآلي لبيانات الفاتورة مقارنة بالمعالجة اليدوية. دعنا نتعمق في الأمر.

ما هو محلل الفاتورة؟

محلل الفواتير هو نوع من البرامج المصممة لقراءة مستندات الفاتورة وتفسيرها. يمكن أن يشمل ذلك ملفات PDF والصور وأنواع أخرى من الملفات.

الغرض من محلل الفواتير هو استخراج المعلومات الأساسية من الفاتورة ، مثل معرف الفاتورة والمبلغ الإجمالي المستحق وتاريخ الفاتورة واسم العميل وما إلى ذلك. يمكن لمحللي الفواتير المساعدة في ضمان الدقة عن طريق تجنب الأخطاء التي يمكن أن تحدث من استخراج البيانات يدويًا.

يمكن بعد ذلك استخدام هذه المعلومات لأغراض مختلفة ، مثل أتمتة AP, عملية إغلاق حسابات نهاية الشهر، وإدارة الفواتير.

يمكن أن يكون محللو الفواتير برامج قائمة بذاتها أو يمكن دمجها في أنظمة برامج أعمال أكبر. تسهل هذه الأدوات على الفرق إنشاء التقارير أو تصدير البيانات إلى تطبيقات أخرى ، مثل Excel وغالبًا ما تُستخدم جنبًا إلى جنب مع تطبيقات إدارة الأعمال الأخرى.

هناك العديد من الحلول البرمجية المختلفة لتحليل الفواتير في السوق ، لذا فإن اختيار واحد يلبي احتياجاتك الخاصة يعد أمرًا ضروريًا.

كيف يعمل محلل الفاتورة؟

لفهم كيفية عمل موزعي الفواتير ، من المهم أن يكون لديك معرفة عملية بالمحللين.

يتم استخدام الموزعين لتفسير ومعالجة المستندات المكتوبة بلغة ترميزية محددة. يقومون بتقسيم المستند إلى أجزاء أصغر ، تسمى الرموز المميزة ، ثم يقومون بتحليل كل رمز مميز لتحديد معناه وكيف يتناسب مع الهيكل العام للمستند.

للقيام بذلك ، يجب أن يكون لدى الموزعين فهم قوي لقواعد لغة الترميز المستخدمة. هذا يسمح لهم بتحديد الرموز الفردية وفهم العلاقات بينهم بشكل صحيح. اعتمادًا على المحلل اللغوي ، يمكن أن تكون هذه العملية يدوية أو تلقائية. تتطلب المحللون اليدويون من شخص ما أن يتخطى الوثيقة ويحدد كل رمز ، بينما يستخدم الموزعون الآليون الخوارزميات لاكتشاف الرموز المميزة ومعالجتها تلقائيًا. في كلتا الحالتين ، يلعب الموزعون دورًا أساسيًا في فهم المستندات المكتوبة بلغات الترميز.

في استخراج البيانات ، يمكن لتحليل الفواتير تحليل مستند الفاتورة واستخراج المعلومات ذات الصلة.

ضع في اعتبارك ، على سبيل المثال ، الحالة التي حصلت فيها على العديد من الفواتير وتريد تخزين البيانات منها بتنسيق منظم. يتيح لك تحليل الفاتورة تحميل جميع الملفات وتشغيل التعرف الضوئي على الأحرف (OCR) بحيث يمكن قراءة البيانات واستخراج جميع أزواج القيمة الرئيسية في غضون بضع دقائق. بعد ذلك ، يمكنك استخدام بعض خوارزميات ما بعد المعالجة لتخزينها في تنسيقات أكثر قابلية للقراءة مثل JSON أو CSV. يمكنك أيضا بناء العمليات وسير العمل باستخدام تحليل الفواتير لأتمتة استخراج الفواتير من سجلات عملك.

تحليل الفاتورة ببايثون

Python هي لغة برمجة لمختلف مهام استخراج البيانات ، بما في ذلك تحليل الفواتير. سيعلمك هذا القسم كيفية استخدام مكتبات Python لاستخراج البيانات من الفواتير.

يعد إنشاء محلل فواتير عام على أحدث طراز يمكن تشغيله على جميع أنواع البيانات أمرًا صعبًا ، حيث يتضمن مهامًا مختلفة مثل قراءة النص والتعامل مع اللغات والخطوط ومحاذاة المستندات واستخراج أزواج القيمة والمفتاح. ومع ذلك ، بمساعدة من مشاريع مفتوحة المصدر وبعض البراعة ، يمكننا على الأقل حل بعض هذه المشكلات والبدء.

على سبيل المثال ، سنستخدم أداة تسمى tabula على نموذج فاتورة - مكتبة Python لاستخراج الجداول من أجل تحليل الفاتورة. لتشغيل مقتطف الشفرة أدناه ، تأكد من تثبيت كل من Python و tabula / tabulate على الجهاز المحلي.

نموذج الفاتورة. pdf.

from tabula import read_pdf
from tabulate import tabulate
# PDF file to extract tables from
file = "sample-invoice.pdf"

# extract all the tables in the PDF file
#reads table from pdf file
df = read_pdf(file ,pages="all") #address of pdf file
print(tabulate(df[0]))
print(tabulate(df[1]))

الناتج

-  ------------  ----------------
0  Order Number  12345
1  Invoice Date  January 25, 2016
2  Due Date      January 31, 2016
3  Total Due     $93.50
-  ------------  ----------------

-  -  -------------------------------  ------  -----  ------
0  1  Web Design                       $85.00  0.00%  $85.00
      This is a sample description...
-  -  -------------------------------  ------  -----  ------

يمكننا استخراج الجداول من ملف PDF ببضعة أسطر من التعليمات البرمجية. هذا لأن ملف PDF تم تنسيقه جيدًا ومحاذاة وإنشاء إلكتروني (لم يتم التقاطه بالكاميرا). في المقابل ، إذا تم التقاط المستند بواسطة كاميرا بدلاً من إنتاجه إلكترونيًا ، فسيكون من الصعب جدًا على هذه الخوارزميات استخراج البيانات - وهنا يأتي دور التعرف الضوئي على الأحرف.

لنستخدم تسراكت، وهو محرك OCR شائع للبيثون ، لتحليل فاتورة.

import cv2
import pytesseract
from pytesseract import Output

img = cv2.imread('sample-invoice.jpg')

d = pytesseract.image_to_data(img, output_type=Output.DICT)
print(d.keys())

يجب أن يمنحك هذا الناتج التالي -

dict_keys(['level', 'page_num', 'block_num', 'par_num', 'line_num', 'word_num', 'left', 'top', 'width', 'height', 'conf', 'text'])

باستخدام هذا القاموس ، يمكننا الكشف عن كل كلمة ، ومعلومات الصندوق المحيط بها ، والنص الموجود فيها ، ودرجات الثقة الخاصة بهم.

يمكنك رسم المربعات باستخدام الكود أدناه -

n_boxes = len(d['text'])
for i in range(n_boxes):
    if float(d['conf'][i]) > 60:
        (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i])
        img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 2)

cv2.imshow('img', img)
cv2.waitKey(0)

سترى الناتج التالي:

هذه هي الطريقة التي يمكننا بها استخدام مناطق الفاتورة والتعرف عليها. ومع ذلك ، يجب إنشاء خوارزميات مخصصة لاستخراج زوج المفتاح والقيمة. سنتعلم المزيد عن هذا في الأقسام التالية.

المشكلات المتعلقة بمحللي الفواتير القديمة (الالتقاط المستند إلى القواعد)

اليوم ، لا تزال العديد من المؤسسات تعتمد على الأنظمة القديمة لاستخراج بيانات الفواتير.

تقوم هذه الأنظمة "المستندة إلى القواعد" بتحليل كل عنصر سطر في الفواتير ثم مقارنتها بمجموعة من القواعد لتحديد ما إذا كان يجب إضافة المعلومات إلى قاعدة البيانات الخاصة بهم.

تم استخدام هذه الطريقة لفترة طويلة ولكن لها العديد من العيوب. لنلقِ نظرة على بعض المشكلات الشائعة التي يواجهها محللو الفواتير القديمون.

  • إمالة الصفحة أثناء المسح: تتمثل إحدى مشكلات محللات الفواتير المستندة إلى القواعد في أنها قد تواجه صعوبة في "إمالة الصفحة". يحدث هذا عندما لا يتم وضع الحقول في الفاتورة في خط مستقيم ، مما يجعل من الصعب على المحلل اللغوي تحديد البيانات واستخراجها بدقة. يمكن أن يحدث هذا غالبًا بسبب الطابعات التي لا تطبع بشكل متساوٍ أو عن طريق الإدخال اليدوي للبيانات التي قد لا تتم محاذاتها بشكل صحيح.
  • تغيير التنسيق: من أكثر المشكلات شيوعًا التي يواجهها النشاط التجاري الفواتير غير المنسقة بتنسيق قياسي. يمكن أن يسبب هذا مشاكل عند محاولة استخراج البيانات من فاتورة. على سبيل المثال ، يمكن استخدام خطوط مختلفة ، وقد يتغير تخطيط الفاتورة من شهر إلى آخر. من الصعب تحليل البيانات وتحديد ما يمثله كل عمود. على سبيل المثال ، يمكن إضافة بعض الحقول الجديدة إلى الفاتورة ، أو قد يتم وضع بعض الحقول الموجودة في مواضع مختلفة. أو يمكن أن يكون هناك هيكل جديد تمامًا بسبب عدم تمكن المحلل اللغوي العادي القائم على القواعد من التعرف على الفواتير بشكل صحيح.
  • استخراج الجدول: غالبًا ما تكون مستخرجات الجدول المستندة إلى القواعد الطريقة الأسهل والأكثر مباشرة لاستخراج البيانات من جدول. ومع ذلك ، فإن لديهم قيودًا عند التعامل مع الجداول التي لا تحتوي على أي رؤوس أو تتضمن قيمًا فارغة في أعمدة معينة لأن هذه السيناريوهات ستتسبب في حدوث حلقة لا نهائية أثناء المعالجة مما يؤدي إما إلى إضاعة الوقت في تحميل صفوف طويلة بشكل لا نهائي في الذاكرة (أو عدم إخراج أي شيء على الإطلاق) إذا كانت هناك تعبيرات تابعة تتضمن تلك السمات أيضًا. بالإضافة إلى ذلك ، عندما تمتد الجداول على عدة صفحات ، فإن المحللون القائمون على القواعد يعاملونها كجداول مختلفة بدلاً من واحدة ، وبالتالي يضللون عملية الاستخراج.

قم ببناء محلل فاتورة قائم على الذكاء الاصطناعي باستخدام شبكات النانو

يمكن لمحللي الفواتير باستخدام التعرف الضوئي على الأحرف (OCR) والتعلم العميق استخراج البيانات من الفواتير التي تم مسحها ضوئيًا أو تحويلها إلى ملفات PDF. يمكن لهذه البيانات بعد ذلك ملء برامج المحاسبة وتتبع النفقات وإنشاء التقارير.

يمكن أن تتعلم خوارزميات التعلم العميق كيفية تحديد عناصر معينة في فاتورة ، مثل اسم العميل وعنوانه ومعلومات المنتج. يسمح ذلك باستخراج البيانات بشكل أكثر دقة ويمكن أن يقلل الوقت اللازم لإدخال البيانات يدويًا في النظام. ومع ذلك ، فإن بناء مثل هذه الخوارزميات يتطلب الكثير من الوقت والخبرة ، ولكن لا تقلق ؛ النانو في ظهرك!

Nanonets هو برنامج OCR يستخدم الذكاء الاصطناعي لأتمتة استخراج الجداول من مستندات PDF والصور والملفات الممسوحة ضوئيًا. بخلاف الحلول الأخرى ، لا يتطلب الأمر قواعد وقوالب منفصلة لكل نوع مستند جديد. بدلاً من ذلك ، يعتمد على الذكاء المعرفي للتعامل مع المستندات شبه المنظمة وغير المرئية مع التحسين بمرور الوقت. يمكنك أيضًا تخصيص الإخراج لاستخراج الجداول أو إدخالات البيانات التي تهمك فقط.

إنه سريع ودقيق وسهل الاستخدام ، ويسمح للمستخدمين ببناء نماذج OCR مخصصة من البداية ، ولديه بعض تكاملات Zapier الأنيقة. رقمنة المستندات واستخراج الجداول أو حقول البيانات والتكامل مع تطبيقاتك اليومية عبر واجهات برمجة التطبيقات في واجهة بسيطة وسهلة الاستخدام.

[المحتوى جزءا لا يتجزأ]

لماذا Nanonets هو أفضل محلل PDF؟

  • يمكن للشبكات النانوية استخراج البيانات على الصفحة بينما يقوم محللو PDF في سطر الأوامر باستخراج الكائنات والعناوين والبيانات الوصفية فقط مثل (العنوان ، # الصفحات ، حالة التشفير ، إلخ.)
  • لا تعتمد تقنية تحليل ملفات PDF في Nanonets على القوالب. بصرف النظر عن تقديم نماذج مدربة مسبقًا لحالات الاستخدام الشائعة ، يمكن لخوارزمية تحليل Nanonets PDF أيضًا التعامل مع أنواع المستندات غير المرئية!
  • بصرف النظر عن التعامل مع مستندات PDF الأصلية ، فإن قدرات التعرف الضوئي على الحروف المضمنة في Nanonet تسمح لها بالتعامل مع المستندات والصور الممسوحة ضوئيًا أيضًا!
  • ميزات أتمتة قوية مع إمكانيات الذكاء الاصطناعي والتعلم الآلي.
  • تتعامل الشبكات النانوية مع البيانات غير المهيكلة وقيود البيانات الشائعة ومستندات PDF متعددة الصفحات والجداول والعناصر متعددة الأسطر بسهولة.
  • Nanonets هي أداة بدون رمز يمكنها التعلم باستمرار وإعادة تدريب نفسها على البيانات المخصصة لتوفير مخرجات لا تتطلب معالجة لاحقة.

التحليل الآلي للفواتير باستخدام شبكات النانو - إنشاء عمليات سير عمل لمعالجة الفواتير بدون لمس تمامًا

قم بدمج أدواتك الحالية مع شبكات النانو وأتمتة جمع البيانات وتصدير التخزين ومسك الدفاتر.

يمكن أن تساعد شبكات النانو أيضًا في أتمتة تحليل سير العمل في تحليل الفواتير عن طريق:

  • استيراد وتوحيد بيانات الفاتورة من مصادر متعددة - البريد الإلكتروني ، والمستندات الممسوحة ضوئيًا ، والملفات / الصور الرقمية ، والتخزين السحابي ، وتخطيط موارد المؤسسات ، وواجهة برمجة التطبيقات ، إلخ.
  • الحصول على بيانات الفواتير واستخراجها بذكاء من الفواتير والإيصالات والفواتير والمستندات المالية الأخرى.
  • تصنيف المعاملات وترميزها على أساس قواعد العمل.
  • إعداد سير عمل الاعتماد الآلي للحصول على الموافقات الداخلية وإدارة الاستثناءات.
  • التوفيق بين جميع المعاملات.
  • التكامل بسلاسة مع أنظمة تخطيط موارد المؤسسات أو برامج المحاسبة مثل Quickbooks و Sage و Xero و Netsuite والمزيد.

الطابع الزمني:

اكثر من الذكاء الاصطناعي والتعلم الآلي