كيفية استخراج الجداول من ذكاء بيانات PlatoBlockchain PDF. البحث العمودي. عاي.

كيفية استخراج الجداول من ملف PDF

كيفية استخراج الجداول من ملف PDF

حاولت من أي وقت مضى استخراج البيانات من ملفات PDF؟ إنه صعب نوعًا ما ...

بينما لا يزال بإمكانك استخراج نص من ملفات PDF عن طريق نسخ المحتوى ولصقه ، فإن استخراج الجداول من ملف PDF يحصل على المزيد معقد!

كيفية استخراج الجداول من ملف PDF
Giphy

يعتمد سير العمل التنظيمي اليوم إلى حد كبير على مستندات PDF ؛ خاصة تلك التي تحتوي على الكثير من البيانات الجدولية.

تستخدم معظم مستندات الأعمال الغنية بالبيانات الجداول لتنظيم وتقديم المعلومات القيمة.

يمكنك أن تجد الجداول في الوثائق المالية مثل الفواتير والإيصالات ووثائق التأمين وسندات الشحن والبيانات المصرفية والتقارير وما إلى ذلك.  

غالبًا ما تبحث الشركات عن حلول لاستخراج بيانات PDF المجدولة كتنسيقات جدول قابلة للتحرير.

نادرًا ما يحافظ النهج اليدوي للنسخ واللصق على بنية الجدول. تتشوه الأعمدة والصفوف. والكثير من التحقق وإعادة التهيئة ضروري لاستعادة البيانات إلى شكلها المنظم الأصلي.

لحسن الحظ، هناك العديد من الأدوات ، مثل النانو، يمكنه استخراج الجداول من مستندات PDF بكفاءة.

كيفية استخراج الجداول من ملف PDF
استخراج الجداول من المستندات باستخدام شبكات النانو

بينما تؤدي جميعها نفس الوظيفة ، تستخدم هذه الأدوات تقنيات مختلفة اختلافًا جذريًا لها مزاياها وعيوبها.

في هذه المقالة ، سنراجع الحلول المختلفة لاستخراج الجداول من ملفات PDF ومقارنة مزاياها وعيوبها لتحديد الأنسب لحالات استخدام محددة.

أفضل الحلول لاستخراج الجداول من PDF

فيما يلي بعض الحلول الأكثر شيوعًا لاستخراج البيانات من ملفات PDF إلى الجداول:

1. النانو

no code automated table extraction

2. الصفيحة

 works best on simple tables

3. كاميلوت أو إكسكاليبور

customisable table extraction

4. جداول PDF

secure & scalable table extraction API

5. دوكبارسير

cloud-based table parser

6. محولات PDF على الإنترنت إلى Excel

 basic extraction


هل تريد استخراج البيانات الجدولية من الفواتير أو الإيصالات أو أي نوع آخر من المستندات؟ تحقق من شبكات النانو مستخرج جدول PDF لاستخراج البيانات الجدولية. جدولة التجريبي لمعرفة المزيد عن شبكات النانو استخراج الجدول ميزة.


النانو

مقدمة Nanonets

Nanonets هو برنامج OCR يستفيد من إمكانات AI & ML لاستخراج الجداول تلقائيًا من مستندات PDF والصور والملفات الممسوحة ضوئيًا. بخلاف الحلول الأخرى ، لا تتطلب شبكات النانو قواعد وقوالب منفصلة لكل نوع مستند جديد.

بالاعتماد على الذكاء المعرفي المدفوع بالذكاء الاصطناعي ، يمكن لشبكات Nanonets التعامل مع المستندات شبه المنظمة وحتى غير المرئية مع التحسين بمرور الوقت. يمكنك أيضًا تخصيص الإخراج ، لاستخراج إدخالات الجدول أو البيانات التي تهمك فقط.

إنه سريع ودقيق وسهل الاستخدام ، ويسمح للمستخدمين ببناء نماذج OCR مخصصة من البداية ولديه بعض تكاملات Zapier الأنيقة. رقمنة المستندات واستخراج الجداول أو حقول البيانات والتكامل مع تطبيقاتك اليومية عبر واجهات برمجة التطبيقات في واجهة بسيطة وسهلة الاستخدام.

تتعلم خوارزمية النانو ونماذج التعرف الضوئي على الحروف بشكل مستمر. يمكن تدريبهم أو إعادة تدريبهم عدة مرات ويمكن تخصيصهم بشكل كبير. أثناء تقديم واجهة برمجة تطبيقات ووثائق رائعة للمطورين ، يعد البرنامج أيضًا مثاليًا للمؤسسات التي لا يوجد بها فريق داخلي من المطورين.

الايجابيات

  • البيانات المعرفية واستخراج الجدول باستخدام التعرف الضوئي على الحروف.
  • دقة عالية حتى في تنسيقات المستندات شبه المهيكلة أو غير المرئية.
  • يكتشف تلقائيًا الجداول بما في ذلك معلومات عمود الصف المنظمة ضمن استجابتها.
  • يوفر واجهة مستخدم حديثة قابلة للتوسع وتعالج المستندات بسرعة تصل إلى 10 مرات أسرع من البرامج الأخرى.
  • سهلة الاستخدام والإعداد. يمكن دمجها وإعدادها في غضون يومين.
  • يدعم معالجة الدُفعات لمستندات متعددة.
  • يصدر الجداول إلى تنسيقات متعددة مثل CSV و Excel و JSON.
  • تكامل ثنائي الاتجاه مع برامج محاسبة متعددة. (تعلم المزيد عن التعرف الضوئي على الحروف في المحاسبة)
  • تقريبا لا تحتاج إلى معالجة لاحقة
  • يعمل مع غير الإنجليزية أو لغات متعددة
  • مجموعة واسعة من خيارات التكامل

سلبيات

  • لا يمكن التعامل معها عالية جدا ارتفاع حجم!
  • يقدم فقط 100 مستند / رصيد مجاني شهريًا.

Nanonets لديها الكثير من الاهتمام استخدم حالات يمكن أن يحسن أداء عملك ويوفر التكاليف ويعزز النمو. اكتشف كيف يمكن أن تنطبق حالات استخدام Nanonets على منتجك.


كيفية استخراج الجداول من PDF باستخدام شبكات النانو

تقدم Nanonets نموذجًا مستخرجًا منضدة مدربًا مسبقًا يعمل خارج الصندوق.

  1. قم بتحميل ملف PDF يحتوي على بيانات مجدولة إلى شبكات النانو
  2. ستقوم Nanonets بالتقاط الجدول (الجداول) تلقائيًا في ملف PDF الخاص بك
  3. يمكنك حتى إضافة أو إزالة أو تحرير الخلايا / البيانات
  4. قم بتصدير الملف المحول بتنسيقات JSON أو Excel أو CSV.

تحقق من العرض التوضيحي السريع:

النازع الجدول النانون

يمكنك أيضًا تنشيط ميزة استخراج الجدول في الطرز الأخرى المدربة مسبقًا التي تقدمها Nanonets:

  • الفواتير
  • المبالغ المستلمة
  • رخصة القيادة (الولايات المتحدة)
  • جوازات السفر

ما عليك سوى إضافة ملفاتك وتنشيط استخراج الجدول واختبار بيانات الجدول المستخرجة والتحقق منها ، و تصدير كملف Excel or CSV ملف.

يرجى ملاحظة أنك ستفعل يجب عليك التسجيل للحصول على نسخة تجريبية مجانية لخطة Pro لـ تفعيل ميزة استخراج الجدول!

كيفية تدريب النموذج الخاص بك على الاستخراج الدقيق للجدول
نموذج فاتورة شبكات النانو الذي يقوم باستخراج الجدول

Nanonets لديها الكثير من الاهتمام استخدم حالات يمكن أن يحسن أداء عملك ويوفر التكاليف ويعزز النمو. اكتشف كيف يمكن أن تنطبق حالات استخدام Nanonets على منتجك.


وثائق النانو

إذا كنت تبحث عن تدريب نماذج التعرف الضوئي على الحروف الخاصة بك لبناء ملف PDF إلى قاعدة البيانات أو محول PDF إلى جدول ، تحقق من ملف واجهة برمجة تطبيقات Nanonets. في توثيق، ستجد عينات أكواد جاهزة لإطلاق النار في Shell و Ruby و Golang و Java و C # و Python ، بالإضافة إلى مواصفات واجهة برمجة التطبيقات التفصيلية لنقاط النهاية المختلفة.


بحاجة إلى التعرف الضوئي على الحروف عبر الإنترنت المستند إلى AI تحويل PDF إلى XML or PDF إلى قاعدة البيانات مقالات, استخراج البيانات من ملف PDF, استخراج النص من الصورةالطرق أو استخراج النص من PDF? جدولة التجريبي لمعرفة المزيد عن شبكات النانو.

كيفية استخراج الجداول من ملف PDF


الصفيحة

تعمل على مكتبة Tabula-Java ، الصفيحة هو برنامج مفتوح المصدر يمكن تنزيله على أجهزة كمبيوتر Mac أو Linux أو Windows. تم إنشاء Tabula من قبل مجموعة من الصحفيين ، وهو يسعى إلى "تحرير جداول البيانات المغلقة داخل ملفات PDF".

قم بتحميل ملف PDF إلى Tabula ، وحدد جدولًا عن طريق رسم مربع حوله ، ومعاينة تحديد الصفوف والأعمدة ، وتصدير الجدول الذي تم التحقق منه. يعمل Tabula بشكل أفضل على تنسيقات الجداول البسيطة الصغيرة.  

الايجابيات

  • يعمل Tabula بشكل رائع على ملفات PDF التي تعتمد في الغالب على النصوص.
  • إنه سهل الاستخدام وقوي ويمكن تضمينه في برامج أخرى.

سلبيات

  • يعمل Tabula فقط على ملفات PDF النصية ، وليس على الصور أو المستندات الممسوحة ضوئيًا.
  • غالبًا ما يتم تعثره بواسطة خلايا متعددة الخطوط أو مدمجة.
  • لا يدعم معالجة الدُفعات. يمكنك العمل على مستند واحد فقط في كل مرة!
  • في بعض الأحيان لا يتم تحديد الأحرف أو الأرقام بشكل صحيح.
  • لا يمكن دعم متطلبات التعرف الضوئي على الحروف.
  • ليست عملية آلية.

كاميلوت أو إكسكاليبور

مرخصة بموجب ترخيص MIT ، كاميلوت هي مكتبة Python تتيح استخراج الجدول من ملفات PDF. كما أنها قوى بريئة، واجهة ويب لاستخراج البيانات الجدولية من مستندات PDF.

على عكس المكتبات الأخرى التي تتأرجح بين مخرجات دقيقة أو حالات فشل كاملة ، يمنحك Camelot القدرة على تخصيص استخلاص الجدول بشكل كبير للحصول على أفضل النتائج.

الايجابيات

  • يكتشف السيارات الجداول.
  • يعمل Camelot جيدًا على ملفات PDF النصية.
  • مرنة وقابلة للتخصيص إلى حد كبير.
  • يصدر الجداول إلى تنسيقات متعددة مثل CSV و Excel و JSON و HTML و Sqlite.
  • يمكن التخلص من الجداول السيئة تلقائيًا بناءً على مقاييس مثل الدقة والمسافة البيضاء.
  • يمكن تحويل كل جدول إلى إطار بيانات الباندا والذي يمكن استخدامه لمزيد من التحليل أو المعالجة.

سلبيات

  • يعمل Camelot فقط على ملفات PDF النصية ، وليس الصور أو المستندات الممسوحة ضوئيًا.
  • لا يمكن معالجة مستندات PDF المعقدة بجداول متعددة الأسطر وخلايا مدمجة.
  • عند استخدام الدفق ، يتم التعامل مع الصفحة بأكملها كجدول واحد. يؤثر هذا على الإخراج عند وجود جداول متعددة في نفس الصفحة.
  • لا يمكن دعم متطلبات التعرف الضوئي على الحروف.
  • ليست عملية آلية.

هل يتعامل عملك مع البيانات أو التعرف على النص في المستندات الرقمية أو ملفات PDF أو الصور؟ هل تساءلت عن كيفية استخراج البيانات المجدولة ، تحويل ملفات PDF إلى CSV , استخراج البيانات من ملف PDF or استخراج النص من PDF بدقة وكفاءة؟


جداول PDF

PDFTables هو ملف آمن وقابل للتطوير محول PDF إلى Excel والجدول API استخراج. إنها مدفوعة بالكامل بخوارزميات داخلية مع عدم وجود مجال للتخصيصات أو التعديلات. ما عليك سوى تحميل المستند وتنزيل إخراج الجدول بتنسيق Excel أو CSV أو XML أو JSON.

الايجابيات

  • يعمل عبر مجموعات البيانات الصغيرة والكبيرة.
  • الاستخراج الآلي للجدول.
  • يصدر الجداول إلى تنسيقات متعددة مثل CSV و Excel و JSON و XML.
  • مجاني لما يصل إلى 25 صفحة.
  • يتعامل مع ملفات متعددة في نفس الوقت.

سلبيات

  • لا يمكن تعديل أو تخصيص خوارزمية استخراج الجدول.
  • لا يقوم بإجراء التعرف الضوئي على الأحرف (OCR).
  • الاعتماد الكامل على الخوارزمية الأساسية للدقة والأداء.
  • لا يدعم أي تكامل سحابي.

دوكبارسير

Docparser هو تطبيق تحليل قوي قائم على السحابة يمكنه استخراج البيانات والجداول من المستندات أو الصور أو ملفات PDF. مثل Tabula ، يتم تشغيله في مكتبة Tabula-Java ولكن يحتوي على ميزات أكثر تقدمًا.

بمجرد تحميل ملف ، سيُطلب منك تعيين قواعد التحليل لتعليم البرنامج كيفية تحديد مناطق الاهتمام (مع الجداول) في المستند الخاص بك. يتذكر البرنامج بعد ذلك هذه القواعد ويطبقها على مستندات مماثلة في المستقبل.

بفضل إمكانات التعرف الضوئي على الحروف المضمنة ، يمكن لـ Docparser أيضًا المساعدة في أتمتة سير عمل الأعمال إلى حد ما. (هنا أ شرح مفصل on ما هو برنامج OCR)

الايجابيات

  • يدعم معالجة الدُفعات لمستندات متعددة.
  • التعرف الضوئي على الحروف المدمج.
  • يسمح بقواعد التحليل المخصصة.
  • يصدر الجداول إلى تنسيقات متعددة مثل CSV و Excel و JSON و XML.
  • يدعم بعض خيارات التكامل الأنيقة.

سلبيات

  • يمكن أن تصبح قواعد الإعراب معقدة بالنسبة للجداول والمستندات المعقدة.
  • تحتاج إلى تحديد إحداثيات وحدود كل جدول.
  • يعمل على نموذج تعريف القالب. لذلك ليس آليًا حقًا!
  • لا يمكن التعامل مع أنواع وتنسيقات المستندات الجديدة تلقائيًا.
  • قد يتطلب قواعد تحليل منفصلة للجداول أو البيانات التي تأتي في مناطق مختلفة داخل نفس المستند.
  • يعمل فقط بدقة على المستندات ذات تنسيق المنطقة الثابت أو القوالب المعروفة.
  • قد يتطلب مستوى معين من التحقق وإعادة العمل.

تريد كشط البيانات من PDF مستندات، تحويل جدول PDF إلى Excel، تحويل PDF إلى ملف CSV or أتمتة استخراج الجدول? اكتشف كيف النانونات مكشطة PDF or محلل PDF يمكن أن يعزز عملك لتكون أكثر إنتاجية.


محولات PDF على الإنترنت إلى Excel

اونلاين محولات PDF إلى Excel مثل com.smallpdf و المذنبات من بين أمور أخرى ، يقدم إمكانات استخراج جدول PDF الأساسية. كما تقدم Nanonets مجانًا قوات الدفاع الشعبي إلى إكسل محول.

أدوات المساعدة البسيطة هذه مجانية للاستخدام ، ولكنها قد تتطلب تسجيلًا إلزاميًا. ما عليك سوى تحميل ملف PDF وتنزيل الإخراج.

على عكس البدائل الأكثر تقدمًا أدناه ، تقوم هذه الأدوات عادةً بتحويل ملف كامل PDF إلى XML or تحويل ملفات PDF إلى ملف csv الملفات. ينتج عن هذا غالبًا مخرجات مختلطة قد تتطلب بعض التحرير والتنظيف.

الايجابيات

  • واجهة سحب وإفلات بسيطة.

سلبيات

  • لا يمكن التعامل مع ملفات PDF ذات هياكل الجداول المعقدة.
  • لا يدعم معالجة الدُفعات. يمكنك العمل على مستند واحد فقط في كل مرة!
  • في بعض الأحيان لا يتم تحديد الأحرف أو الأرقام بشكل صحيح.
  • استخدام محدود.
  • ليست عملية آلية.
  • لا يمكن تخصيصها.

تحديث يونيو 2022: تم نشر هذا المنشور في الأصل باللغة ابريل 2021 ومنذ ذلك الحين تم تحديثه عدة مرات.

هذه استخراج الجدول كانت الأداة تم إطلاقه في Product Hunt.

هذه شريحة تلخيص النتائج في هذه المقالة. ها هو ملف نسخة بديلة من هذا المنصب.

الطابع الزمني:

اكثر من الذكاء الاصطناعي والتعلم الآلي