كيفية قراءة أو استخراج نص من ذكاء بيانات PDF PlatoBlockchain. البحث العمودي. عاي.

كيفية قراءة أو استخراج نص من ملف PDF

كيفية قراءة أو استخراج نص من ملف PDF

إذا كانت ملفات PDF الخاصة بك تتعامل مع الفواتير أو الإيصالات أو جوازات السفر أو رخص القيادة، فاطلع على Nanonets التعرف الضوئي على الحروف عبر الإنترنت or مستخرج نص PDF لاستخراج نص من مستندات PDF مجانا. انقر أدناه لمعرفة المزيد عن مكشطة PDF من Nanonets.


غالبًا ما تتطلب منك العمليات التجارية سحب نص من مستندات PDF. تعد ملفات PDF من الصيغ التي لا يمكن العبث بها ، وآمنة ، والأكثر تفضيلاً لتبادل البيانات والمعلومات ؛ لكنها للأسف غير قابلة للتعديل.

إذا اخترت استخراج النص يدويًا أو بيانات من ملف PDF ملف لإنشاء تقرير أو تقديم عرض تقديمي ، فقد يستغرق الأمر الكثير من الوقت! غالبًا ما تكون قراءة النص من ملفات PDF ضرورية كجزء من مهام سير العمل الشائعة المستندة إلى المستندات.

معظم الحلول التي يمكنها قراءة النص بكفاءة من ملفات PDF (بخلاف موزعي PDF) اليوم تستفيد من إمكانيات التعرف الضوئي على الحروف (OCR). يمكن استخدام تقنية OCR لتحديد و استخراج النص من الصورةs وملفات PDF وتنسيقات ملفات أخرى غير قابلة للتحرير. اعتمادًا على حجم وتعقيد مستندات PDF المتوفرة ، قد تحتاج إلى مستويات متنوعة من إمكانيات التعرف الضوئي على الحروف ؛ على سبيل المثال يمكنك حتى استخراج الجداول من PDF الوثائق.

يمكن لمحولات PDF عبر الإنترنت أو أدوات استخراج PDF استخراج النص من مستندات PDF الصغيرة بتنسيق بسيط. ولكن إذا كان لديك عدد كبير من المستندات بتنسيق معقد وجداول ورسوم بيانية وصور ، فستحتاج إلى نسخة متقدمة برامج التعرف الضوئي على الحروف مثل النانو لاستخراج النص ذي الصلة بدقة من ملفات PDF. (ما هو التعرف الضوئي على الحروف or التعرف الضوئي على الحروف PDF؟ - هنا أ شرح مفصل on ما هو برنامج OCR)

لنلقِ نظرة على الطرق المختلفة التي يمكنك من خلالها استخدام شبكات النانو لاستخراج النص من مستندات PDF بسهولة ودقة وعلى نطاق واسع:

جدول المحتويات

كيفية قراءة أو استخراج نص من ملف PDF

تريد كشط البيانات من PDF المستندات ، وتحويلها PDF إلى XML or أتمتة استخراج الجدول؟ تحقق من Nanonets ' مكشطة PDF or محلل PDF لتحويل ملفات PDF إلى قاعدة البيانات إدخالات!


كيفية استخراج النص من ملف PDF باستخدام تقنية التعرف الضوئي على الحروف (OCR) المجانية من Nanonets؟

أدوات التعرف الضوئي على الحروف تسمح لك باستخراج النص بسهولة من مستندات PDF وتحويله إلى ملف نصي خام. فيما يلي الخطوات:

  1. قم بزيارة أداة التعرف الضوئي على الحروف المجانية الخاصة بـ Nanonets هنا – nanonets.com/online-ocr
  2. قم بتحميل ملف PDF الخاص بك
  3. يتعرف التعرف الضوئي على الحروف في Nanonets تلقائيًا على المحتوى الموجود في ملفك ويحوله إلى نص
  4. قم بتنزيل النص المستخرج كملف نصي خام

ستناسب هذه الطريقة معظم حالات استخدام ملفات PDF البسيطة الخاصة بك. قد لا يكون هذا الأسلوب مناسبًا للمستندات الأكثر تعقيدًا وهياكل الجداول. راجع الطرق أدناه للتعرف على متطلبات استخراج نص PDF الأكثر تعقيدًا.

كيفية استخراج النص من PDF باستخدام نماذج التعرف الضوئي على الحروف (OCR) المدربة مسبقًا في Nanonets؟

يتم تطبيق نموذج Receipt OCR المدربين مسبقًا على Nanonets

إذا كانت ملفات PDF الخاصة بك تندرج تحت أي من أنواع المستندات التالية المدرجة أدناه ، فيمكنك استخدام نموذج Nanonets المناسب المدرب مسبقًا لاستخراج النص على الفور بطريقة منظمة ومنظمة:

  • الفواتير
  • المبالغ المستلمة
  • رخصة القيادة (الولايات المتحدة)
  • جوازات السفر
  • بطاقات القائمة
  • وظائف
  • لوحات ترخيص
  • قراءات العدادات
  • حاويات شحن

الخطوة 1 - حدد نموذجًا تم تدريبه مسبقًا لحالة الاستخدام الخاصة بك

تسجيل الدخول إلى Nanonets وحدد نموذجًا يطابق نوع المستند الذي تريد استخراج النص منه. إذا لم يصف أي من نماذج OCR المدربة مسبقًا وثيقتك ، فتخط هذه الطريقة واقرأ مسبقًا لمعرفة كيفية إنشاء نموذج التعرف الضوئي على الحروف لـ Nanonets.

الخطوة 2 - أضف الملفات

أضف ملفات / مستندات PDF التي تريد استخراج النص منها. يمكنك إضافة العديد من ملفات PDF كما تريد.

الخطوة 3 - الاختبار والتحقق

انتظر بضع ثوانٍ لتشغيل النموذج واستخراج النص من مستندات PDF. تعرض طريقة عرض الجدول قائمة بكل النص المستخرج من كل ملف PDF. تحقق بسرعة من النص المستخرج للتحقق مما إذا تم فقد أي شيء أو تم استخراجه بشكل غير صحيح. انقر فوق "التحقق من البيانات" للمتابعة.

الخطوة 4 - تصدير

بمجرد التحقق من كل شيء ، يمكنك تصدير كل النص المستخرج كنص منظم بدقة XMLأو xlsx أو csv.


تحتاج إلى OCR مجاني عبر الإنترنت استخراج النص من الصورة , استخراج الجداول من PDFالطرق أو استخراج البيانات من ملف PDF؟ تحقق من شبكات النانو وأنشئ نماذج OCR مخصصة مجانًا!


كيفية استخراج النص من PDF عن طريق إنشاء نموذج Nanonets OCR مخصص؟

يعد إنشاء نموذج Nanonets OCR مخصص لاستخراج النص من ملفات PDF أمرًا بسيطًا جدًا. يمكنك عادةً إنشاء نموذج وتدريبه ونشره لأي نوع مستند بأي لغة ، كل ذلك في أقل من 25 دقيقة (اعتمادًا على عدد الملفات المستخدمة لتدريب النموذج).

بناء نموذج OCR مخصص لشبكات Nanonets

الخطوة 1: إنشاء نموذج OCR مخصص

تسجيل الدخول إلى Nanonets وانقر على "إنشاء نموذج التعرف الضوئي على الحروف الخاص بك".

الخطوة الثانية: تحميل ملفات التدريب

تحميل ملفات PDF عينة. ستكون هذه بمثابة مجموعة تدريب لنموذج التعرف الضوئي على الحروف حول كيفية استخراج النص وفقًا لمتطلباتك. ستعتمد دقة نموذج التعرف الضوئي على الحروف الذي تقوم بإنشائه بشكل كبير على جودة وكمية ملفات PDF التي تم تحميلها.

الخطوة 3: علق النص على ملفات PDF

ضع تعليقًا توضيحيًا على كل جزء من النص باستخدام حقل أو تسمية مناسبة. سيؤدي هذا إلى تعليم نموذج التعرف الضوئي على الحروف للتعرف على الأجزاء ذات الصلة من النص في ملف PDF. يمكنك أيضًا إضافة تصنيف جديد للتعليق على النص. النانو ليست ملزمة بقالب الوثيقة!

الخطوة 4: تدريب نموذج OCR المخصص

بمجرد اكتمال التعليق التوضيحي ، انقر فوق "تدريب النموذج". يستغرق التدريب عادة ما بين 20 دقيقة إلى ساعتين حسب عدد النماذج والملفات في قائمة الانتظار للتدريب. يمكنك الترقية إلى خطة مدفوعة للحصول على نتائج أسرع (أقل من 2 دقيقة). تستفيد شبكات النانو من التعلم العميق لبناء نماذج التعرف الضوئي على الحروف المختلفة واختبارها مقابل بعضها البعض للتأكد من دقتها. ثم تختار شبكات النانو نموذج التعرف الضوئي على الحروف الأكثر دقة.

تعرض علامة التبويب "مقاييس النموذج" القياسات المختلفة والتحليلات المقارنة التي سمحت للشبكات النانوية باختيار أفضل نموذج التعرف الضوئي على الحروف من بين كل ما تم إنشاؤه. يمكنك إعادة تدريب النموذج (من خلال توفير نطاق أوسع من صور التدريب وتعليقات توضيحية أفضل) لتحقيق مستويات أعلى من الدقة.

أو ، إذا كنت راضيًا ، فانقر فوق "اختبار" لاختبار نموذج OCR المخصص والتحقق منه في عينة جديدة من ملفات PDF.

الخطوة 5: اختبار البيانات والتحقق منها

أضف بضع صور لاختبار نموذج التعرف الضوئي على الحروف المخصص والتحقق منه. إذا تم التعرف على النص واستخراجه وتقديمه بشكل مناسب ، فقم بتصدير الملف.


النانو OCR و OCR عبر الإنترنت لديها الكثير من الاهتمام استخدم حالات tيمكن أن تحسن أداء عملك ، وتوفر التكاليف وتعزز النمو. اكتشف كيف يمكن أن تنطبق حالات استخدام Nanonets على منتجك.


كيفية تدريب النماذج المخصصة لمحول PDF إلى نص باستخدام Nanonets API؟

إذا كنت تبحث عن تدريب نماذج OCR الخاصة بك على إنشاء محول PDF إلى نص ، فراجع ملف واجهة برمجة تطبيقات Nanonets. في توثيق، ستجد عينات أكواد جاهزة لإطلاق النار في Shell و Ruby و Golang و Java و C # و Python ، بالإضافة إلى مواصفات واجهة برمجة التطبيقات التفصيلية لنقاط النهاية المختلفة.

لماذا تختار Nanonets لاستخراج النص من ملفات PDF؟

تتجاوز فوائد استخدام Nanonets على برامج تحويل PDF إلى نصوص أخرى مجرد دقة وحجم أفضل. هنا أسباب 7 لماذا يجب أن تفكر في استخدام Nanonets لاستخراج النص من مستندات PDF بدلاً من الأدوات والبرامج الآلية الأخرى.


تحديث مايو 2022: تم نشر هذا المنشور في الأصل باللغة ابريل 2021 ومنذ ذلك الحين تم تحديثه.

هذه شريحة تلخيص النتائج في هذه المقالة. ها هو ملف نسخة بديلة من هذا المنصب.

الطابع الزمني:

اكثر من الذكاء الاصطناعي والتعلم الآلي