نحوه خواندن یا استخراج متن از PDF PlatoBlockchain Intelligence. جستجوی عمودی Ai.

نحوه خواندن یا استخراج متن از PDF

نحوه خواندن یا استخراج متن از PDF

اگر فایل‌های PDF شما با فاکتورها، رسیدها، گذرنامه‌ها یا گواهینامه‌های رانندگی سروکار دارند، Nanonets را بررسی کنید. OCR آنلاین or استخراج کننده متن PDF برای استخراج متن از اسناد PDF رایگان. برای کسب اطلاعات بیشتر در مورد زیر کلیک کنید اسکراپر PDF نانوشبکه.


فرآیندهای تجاری اغلب از شما نیاز دارند که متن را از اسناد PDF بکشید. فایل های PDF ضد دستکاری، ایمن و ترجیح داده شده ترین فرمت برای تبادل داده ها و اطلاعات هستند. اما متاسفانه قابل ویرایش نیستند.

اگر تصمیم بگیرید متن را به صورت دستی استخراج کنید یا داده ها از یک PDF برای ایجاد یک گزارش یا ارائه یک فایل، ممکن است زمان زیادی طول بکشد! خواندن متن از فایل‌های PDF اغلب به عنوان بخشی از جریان‌های کاری رایج مبتنی بر سند ضروری است.

اکثر راه حل هایی که می توانند متن را از فایل های PDF بخوانند (غیر از تجزیه کننده های PDF) امروزه از قابلیت های OCR (تشخیص کاراکتر نوری) استفاده کنید. فناوری OCR می تواند برای شناسایی و شناسایی استفاده شود استخراج متن از تصویرs، PDF و سایر فرمت های فایل غیر قابل ویرایش. بسته به مقیاس و پیچیدگی اسناد PDF در دست، ممکن است به سطوح مختلفی از قابلیت های OCR نیاز داشته باشید. به عنوان مثال شما حتی می توانید جداول را از PDF استخراج کنید اسناد.

مبدل‌های PDF آنلاین یا ابزارهای استخراج PDF می‌توانند متن را از اسناد PDF کوچک با قالب‌بندی ساده استخراج کنند. اما اگر تعداد زیادی اسناد با قالب بندی پیچیده، جداول، نمودارها و تصاویر دارید، به اسناد پیشرفته نیاز دارید. نرم افزار OCR پسندیدن نانوت برای استخراج دقیق متن های مرتبط از PDF. (OCR چیست؟ or PDF OCR? - اینجا یک توضیح مفصل on نرم افزار OCR چیست)

بیایید به روش‌های مختلف استفاده از نانو شبکه‌ها برای استخراج متن از اسناد PDF به راحتی، دقیق و در مقیاس نگاه کنیم:

فهرست مندرجات

نحوه خواندن یا استخراج متن از PDF

می خواهم به داده ها را از PDF خراش دهید اسناد، تبدیل PDF به XML or استخراج خودکار جدول? Nanonets را بررسی کنید اسکراپر پی دی اف or تجزیه کننده PDF برای تبدیل فایل های PDF به پایگاه داده ورودی های!


چگونه با OCR رایگان Nanonets متن را از PDF استخراج کنیم؟

ابزارهای OCR به شما امکان می دهد متن را به راحتی از اسناد PDF استخراج کرده و آن را به یک فایل متنی خام تبدیل کنید. در اینجا مراحل انجام می شود:

  1. از ابزار OCR رایگان Nanonets در اینجا دیدن کنید – nanonets.com/online-ocr
  2. فایل PDF خود را آپلود کنید
  3. OCR نانوشبکه ها به طور خودکار محتوای فایل شما را تشخیص داده و آن را به متن تبدیل می کند
  4. متن استخراج شده را به صورت فایل متنی خام دانلود کنید

این روش برای اکثر موارد ساده PDF به متن شما مناسب است. این رویکرد ممکن است برای اسناد پیچیده تر و ساختارهای جدول مناسب نباشد. برای نیازهای پیچیده تر استخراج متن PDF به روش های زیر مراجعه کنید.

چگونه می توان متن را از PDF با استفاده از مدل های OCR از پیش آموزش دیده نانونت استخراج کرد؟

مدل دریافت OCR از پیش آموزش‌دیده نانوشبکه در عمل

اگر فایل‌های PDF شما تحت هر یک از انواع سند زیر قرار می‌گیرند، می‌توانید از مدل از پیش آموزش‌دیده‌شده نانو شبکه‌های مناسب برای استخراج فوری متن به شیوه‌ای منظم و منظم استفاده کنید:

  • فاکتورها
  • رسید
  • گواهینامه رانندگی (ایالات متحده)
  • گذرنامه
  • کارت های منو
  • رزومه
  • پلاک ها
  • قرائت کنتور
  • کانتینرهای حمل و نقل

مرحله 1 - یک مدل از قبل آموزش دیده برای مورد استفاده خود انتخاب کنید

ورود به Nanonets بروید و مدلی را انتخاب کنید که با نوع سندی که می خواهید متن را از آن استخراج کنید مطابقت داشته باشد. اگر هیچ یک از مدل های OCR از قبل آموزش دیده سند شما را توصیف نمی کند، از این روش صرف نظر کرده و پیش از این مطالعه کنید تا دریابید که چگونه یک مدل OCR Nanonets سفارشی ایجاد کنید.

مرحله 2 - اضافه کردن فایل ها

فایل‌های PDF/اسنادی را که می‌خواهید متن را از آنها استخراج کنید، اضافه کنید. شما می توانید به تعداد دلخواه پی دی اف اضافه کنید.

مرحله 3 - تست و تایید

چند ثانیه زمان بگذارید تا مدل اجرا شود و متن را از اسناد PDF استخراج کند. نمای جدول لیستی از تمام متن های استخراج شده از هر فایل PDF را نمایش می دهد. به سرعت متن استخراج شده را بررسی کنید تا بررسی کنید که آیا چیزی از قلم افتاده یا اشتباه استخراج شده است. برای ادامه روی "تأیید داده ها" کلیک کنید.

مرحله 4 - صادرات

هنگامی که همه چیز تأیید شد، می توانید تمام متن استخراج شده را به صورت منظمی صادر کنید XML، فایل xlsx یا csv.


به یک OCR آنلاین رایگان نیاز دارید استخراج متن از تصویر , جداول را از PDF استخراج کنید، یا استخراج داده ها از PDF? نانو شبکه ها را بررسی کنید و مدل های OCR سفارشی را به صورت رایگان بسازید!


چگونه با ساخت یک مدل سفارشی OCR Nanonets متن را از PDF استخراج کنیم؟

ساختن یک مدل OCR Nanonets سفارشی برای استخراج متن از PDF بسیار ساده است. شما معمولاً می توانید یک مدل را برای هر نوع سند، به هر زبانی، در کمتر از 25 دقیقه بسازید، آموزش دهید و اجرا کنید (بسته به تعداد فایل های استفاده شده برای آموزش مدل).

ساخت یک مدل سفارشی OCR نانوشبکه

مرحله 1: یک مدل OCR سفارشی ایجاد کنید

ورود به Nanonets بروید و روی “Create your own OCR model” کلیک کنید.

مرحله 2: فایل های آموزشی را بارگذاری کنید

نمونه فایل های PDF را بارگذاری کنید. اینها به عنوان یک مجموعه آموزشی برای مدل OCR در مورد نحوه استخراج متن مطابق با نیاز شما عمل می کنند. دقت مدل OCR که می سازید تا حد زیادی به کیفیت و کمیت فایل های PDF آپلود شده بستگی دارد.

مرحله 3: متن روی فایل های PDF حاشیه نویسی کنید

هر قسمت از متن را با یک فیلد یا برچسب مناسب حاشیه نویسی کنید. این به مدل OCR می‌آموزد که بخش‌های مربوط به متن را در PDF شناسایی کند. همچنین می توانید یک برچسب جدید برای حاشیه نویسی متن اضافه کنید. Nanonets به الگوی سند محدود نمی شود!

مرحله 4: مدل OCR سفارشی را آموزش دهید

پس از تکمیل حاشیه نویسی، روی "Train Model" کلیک کنید. بسته به تعداد مدل ها و فایل هایی که برای آموزش در صف قرار می گیرند، آموزش معمولا بین 20 دقیقه تا 2 ساعت طول می کشد. برای دریافت نتایج سریعتر (زیر 20 دقیقه) می توانید به یک طرح پولی ارتقا دهید. نانوشبکه‌ها از یادگیری عمیق برای ساخت مدل‌های مختلف OCR استفاده می‌کنند و آن‌ها را در مقابل یکدیگر برای دقت آزمایش می‌کنند. سپس Nanonets دقیق ترین مدل OCR را انتخاب می کند.

برگه «متریک مدل» اندازه‌گیری‌های مختلف و تجزیه و تحلیل‌های مقایسه‌ای را نشان می‌دهد که به نانوشبکه‌ها اجازه می‌دهد بهترین مدل OCR را از بین تمام مدل‌های ساخته شده انتخاب کنند. می توانید مدل را مجدداً آموزش دهید (با ارائه طیف وسیع تری از تصاویر آموزشی و حاشیه نویسی بهتر) تا به سطوح بالاتری از دقت دست یابید.

یا، اگر راضی هستید، روی «تست» کلیک کنید تا مدل OCR سفارشی را روی نمونه جدیدی از فایل‌های PDF آزمایش و تأیید کنید.

مرحله 5: داده ها را آزمایش و تأیید کنید

برای آزمایش و تأیید مدل OCR سفارشی، چند تصویر نمونه اضافه کنید. اگر متن شناسایی، استخراج و ارائه شده است، فایل را صادر کنید.


نانوت OCR و OCR API آنلاین بسیاری از جالب است موارد استفاده tکلاه می تواند عملکرد کسب و کار شما را بهینه کند، در هزینه ها صرفه جویی کند و رشد را تقویت کند. پیدا کردن چگونه موارد استفاده نانوشبکه ها می تواند برای محصول شما اعمال شود.


چگونه با استفاده از Nanonets API مدل های سفارشی را برای تبدیل PDF به متن آموزش دهیم؟

اگر می‌خواهید مدل‌های OCR خود را برای ساخت مبدل PDF به متن آموزش دهید، این را بررسی کنید Nanonets APIاست. در مستندات، نمونه های کد آماده را در Shell، Ruby، Golang، Java، C# و Python و همچنین مشخصات API دقیق برای نقاط پایانی مختلف پیدا خواهید کرد.

چرا Nanonets را برای استخراج متن از PDF انتخاب می کنیم؟

مزایای استفاده از نانو شبکه ها نسبت به سایر نرم افزارهای مبدل PDF به متن بسیار فراتر از دقت و مقیاس بهتر است. اینجا هستند دلایل 7 چرا باید به جای سایر ابزارها و نرم افزارهای خودکار، از نانو شبکه ها برای استخراج متن از اسناد PDF استفاده کنید.


بروزرسانی ممکن است 2022: این پست در ابتدا در آوریل 2021 و از آن زمان به روز شده است.

اینجا یک اسلاید است خلاصه ای از یافته های این مقاله اینجا یک نسخه جایگزین از این پست

تمبر زمان:

بیشتر از هوش مصنوعی و یادگیری ماشین