نحوه استخراج جداول از PDF

بازنشر افلاطون

دنبال: 0

نحوه استخراج جداول از PDF

تا کنون سعی شده استخراج داده ها از فایل های PDF? It's kinda hard…

در حالی که هنوز می توانستی استخراج متن از فایل های PDF by copy-pasting content, extracting tables from a PDF gets way more بغرنج!

Organisational workflows today largely depend on PDF documents; especially those that contain lots of tabular data.

اکثر اسناد تجاری غنی از داده از جداول برای سازماندهی و ارائه اطلاعات ارزشمند استفاده می کنند.

می توانید جداول را در آن پیدا کنید اسناد مالی such as invoices, receipts, insurance documents, bills of lading, bank statements, reports etc.

کسب و کارها اغلب به دنبال راه حل هایی برای استخراج داده های PDF جدولی به عنوان فرمت های جدول قابل ویرایش هستند.

به عنوان مثال، تبدیل صورتحساب بانکی از PDF به Excel یا CSV.

رویکرد دستی کپی پیست به ندرت ساختار جدول را حفظ می کند. ستون‌ها و ردیف‌ها تحریف می‌شوند. و برای بازگرداندن داده ها به شکل سازماندهی شده اولیه، تأیید و قالب بندی مجدد زیادی لازم است.

خوشبختانه، ابزارهای مختلفی وجود دارد، مانند نانوت، که می تواند جداول را از اسناد PDF به طور موثر استخراج کند.

در حالی که همه آنها عملکرد یکسانی دارند، این ابزارها از تکنیک های اساسا متفاوتی استفاده می کنند که مزایا و معایب خاص خود را دارند.

در این مقاله راه‌حل‌های مختلفی برای استخراج جداول از فایل‌های PDF و مقایسه مزایا و معایب آن‌ها برای انتخاب بهترین مناسب برای موارد استفاده خاص را بررسی می‌کنیم.

نانوت

معرفی نانو شبکه ها

Nanonets یک نرم افزار OCR است که از قابلیت های AI و ML برای استخراج خودکار جداول از اسناد PDF، تصاویر و فایل های اسکن شده استفاده می کند. برخلاف راه‌حل‌های دیگر، نانوشبکه‌ها به قوانین و قالب‌های جداگانه برای هر نوع سند جدید نیاز ندارند.

نانوشبکه‌ها با تکیه بر هوش شناختی مبتنی بر هوش مصنوعی می‌توانند اسناد نیمه‌ساختار یافته و حتی دیده نشده را در حالی که در طول زمان بهبود می‌یابند، مدیریت کنند. شما همچنین می توانید خروجی را سفارشی کنید تا فقط جدول یا داده های مورد علاقه خود را استخراج کنید.

این سریع، دقیق، آسان برای استفاده است، به کاربران اجازه می دهد تا مدل های OCR سفارشی را از ابتدا بسازند و دارای ادغام Zapier منظمی است. اسناد را دیجیتالی کنید، جداول یا فیلدهای داده را استخراج کنید و با برنامه های روزمره خود از طریق API در یک رابط کاربری ساده و بصری ادغام کنید.

الگوریتم نانو شبکه و مدل های OCR به طور مداوم یاد می گیرند. آنها می توانند چندین بار آموزش یا بازآموزی شوند و بسیار قابل تنظیم هستند. در حالی که یک API و اسناد عالی برای توسعه دهندگان ارائه می دهد، این نرم افزار برای سازمان هایی که تیم توسعه دهندگان داخلی ندارند نیز ایده آل است.

مزایا

داده های شناختی و استخراج جدول با OCR.
دقت بالا حتی در قالب های سند نیمه ساختاریافته یا دیده نشده.
به طور خودکار جداول شامل اطلاعات سطر-ستون ساختار یافته را در پاسخ خود تشخیص می دهد.
یک رابط کاربری مدرن و با مقیاس رعد اسا ارائه می کند که اسناد را تا 10 برابر سریعتر از سایر نرم افزارها پردازش می کند.
آسان برای استفاده و راه اندازی. می توان در چند روز یکپارچه و راه اندازی کرد.
پشتیبانی از پردازش دسته ای اسناد متعدد
جداول را به چندین فرمت مانند CSV، Excel و JSON صادر می کند.
ادغام دو طرفه بدون درز با چندین نرم افزار حسابداری. (درباره بیشتر بیاموزید OCR حسابداری)
تقریباً نیازی به پس پردازش نیست
با غیر انگلیسی یا چند زبان کار می کند
انتخاب گسترده ای از گزینه های ادغام

منفی

نمی تواند اداره کند بسیار بالا افزایش حجم
فقط 100 سند/اعتبار رایگان در ماه ارائه می دهد.

نانوشبکه ها بسیار جالب هستند موارد استفاده که می تواند عملکرد کسب و کار شما را بهینه کند، در هزینه ها صرفه جویی کند و رشد را افزایش دهد. پیدا کردن چگونه موارد استفاده نانوشبکه ها می تواند برای محصول شما اعمال شود.

How to Extract Tables from PDF using Nanonets

Nanonets offers a pre-trained Table extractor model that runs out-of-the-box.

یک PDF با داده های جدولی را در Nanonets آپلود کنید
نانوشبکه ها به طور خودکار جدول(های) فایل PDF شما را ضبط می کنند
حتی می توانید سلول ها/داده ها را اضافه، حذف یا ویرایش کنید
فایل تبدیل شده را در فرمت های JSON، Excel یا CSV صادر کنید.

یک نسخه ی نمایشی سریع را بررسی کنید:

استخراج کننده میز نانو شبکه

همچنین می توانید ویژگی استخراج جدول را در سایر مدل های از پیش آموزش دیده ارائه شده توسط Nanonets فعال کنید:

فاکتورها
رسید
گواهینامه رانندگی (ایالات متحده)
گذرنامه

فقط فایل های خود را اضافه کنید، استخراج جدول را فعال کنید، داده های جدول استخراج شده را آزمایش و تأیید کنید، و صادرات به عنوان یک اکسل or CSV فایل.

لطفا توجه داشته باشید که شما باید ثبت نام کنند برای یک آزمایش رایگان به طرح حرفه ای به قابلیت استخراج جدول را فعال کنید!

چگونه مدل خود را برای استخراج دقیق جدول آموزش دهیم

مدل فاکتور نانوشبکه ای که استخراج جدول را انجام می دهد

مستندات نانو شبکه ها

اگر به دنبال آموزش مدل های OCR خود برای ساختن هستید PDF به پایگاه داده یا تبدیل PDF به جدول، بررسی کنید Nanonets APIاست. در مستندات، نمونه های کد آماده را در Shell، Ruby، Golang، Java، C# و Python و همچنین مشخصات API دقیق برای نقاط پایانی مختلف پیدا خواهید کرد.

به یک OCR آنلاین مبتنی بر هوش مصنوعی نیاز دارید تبدیل PDF به XML or PDF به پایگاه داده نوشته های, استخراج داده ها از PDF, استخراج متن از تصویر، یا استخراج متن از PDF? نمایش نسخه ی نمایشی برای کسب اطلاعات بیشتر در مورد نانو شبکه ها.

tabula

در حال اجرا در کتابخانه Tabula-Java، tabula یک نرم افزار منبع باز است که می تواند بر روی رایانه های شخصی مک، لینوکس یا ویندوز بارگیری شود. Tabula که توسط گروهی از روزنامه نگاران ایجاد شده است، به دنبال "آزادسازی جداول داده قفل شده در فایل های PDF" است.

یک فایل PDF را در Tabula آپلود کنید، یک جدول را با کشیدن کادری در اطراف آن انتخاب کنید، انتخاب سطرها و ستون ها را پیش نمایش کنید و جدول تایید شده را صادر کنید. Tabula در قالب های کوچک جدول ساده بهترین کار را دارد.

مزایا

Tabula به طرز شگفت انگیزی روی فایل های PDF که عمدتاً مبتنی بر متن هستند کار می کند.
استفاده از آن آسان است، قوی است و می تواند در نرم افزارهای دیگر تعبیه شود.

منفی

Tabula فقط روی PDF های مبتنی بر متن کار می کند، نه تصاویر یا اسناد اسکن شده.
اغلب توسط سلول‌های چند خطی یا ادغام شده از بین می‌رود.
از پردازش دسته ای پشتیبانی نمی کند. هر بار فقط می توانید روی یک سند کار کنید!
گاهی اوقات کاراکترها یا اعداد به درستی شناسایی نمی شوند.
نمی‌توان الزامات OCR را پشتیبانی کرد.
یک فرآیند خودکار نیست.

Camelot یا Excalibur

دارای مجوز تحت مجوز MIT، کملوت یک کتابخانه پایتون است که استخراج جدول از فایل های PDF را امکان پذیر می کند. همچنین قدرت می دهد Excalibur در، یک رابط وب برای استخراج داده های جدولی از اسناد PDF.

برخلاف سایر کتابخانه‌ها که بین خروجی‌های دقیق یا خرابی کامل در نوسان هستند، Camelot به شما این قدرت را می‌دهد تا استخراج جدول را تا حد زیادی سفارشی کنید تا بهترین نتایج را به دست آورید.

مزایا

خودکار جداول را تشخیص می دهد.
Camelot روی فایل های PDF مبتنی بر متن بسیار خوب کار می کند.
انعطاف پذیر و قابل تنظیم تا حد زیادی.
جداول را به چندین فرمت مانند CSV، Excel، JSON، HTML و Sqlite صادر می کند.
جداول بد را می توان به طور خودکار بر اساس معیارهایی مانند دقت و فضای خالی کنار گذاشت.
هر جدول را می توان به یک DataFrame پاندا تبدیل کرد که می تواند برای تجزیه و تحلیل یا پردازش بیشتر استفاده شود.

منفی

Camelot فقط روی PDF های مبتنی بر متن کار می کند، نه تصاویر یا اسناد اسکن شده.
نمی توان اسناد پیچیده PDF را با جداول چند خطی و سلول های ادغام شده مدیریت کرد.
هنگام استفاده از Stream، کل صفحه به عنوان یک جدول واحد در نظر گرفته می شود. هنگامی که چندین جدول در یک صفحه وجود دارد، این بر خروجی تأثیر می گذارد.
نمی‌توان الزامات OCR را پشتیبانی کرد.
یک فرآیند خودکار نیست.

آیا کسب و کار شما با تشخیص داده یا متن در اسناد دیجیتال، PDF یا تصاویر سروکار دارد؟ آیا فکر کرده اید که چگونه داده های جدولی را استخراج کنید، تبدیل PDF به CSV , استخراج داده ها از PDF or استخراج متن از PDF دقیق و کارآمد؟

جداول PDF

PDFTables امن و مقیاس پذیر است تبدیل پی دی اف به اکسل و API استخراج جدول. این به طور کامل توسط الگوریتم های داخلی هدایت می شود و جایی برای سفارشی سازی یا ترفندها وجود ندارد. به سادگی سند خود را آپلود کنید و خروجی جدول را با فرمت Excel، CSV، XML یا JSON دانلود کنید.

مزایا

در مجموعه داده های کوچک و بزرگ کار می کند.
استخراج خودکار جدول
جداول را به چندین فرمت مانند CSV، Excel، JSON و XML صادر می کند.
رایگان برای حداکثر 25 صفحه.
چندین فایل را به طور همزمان مدیریت می کند.

منفی

نمی توان الگوریتم استخراج جدول را تغییر داد یا سفارشی کرد.
تشخیص نویسه نوری (OCR) را انجام نمی دهد.
اتکای کامل به الگوریتم زیربنایی برای دقت و عملکرد.
هیچ یکپارچه سازی ابری را پشتیبانی نمی کند.

تجزیه کننده اسناد

Docparser is a robust cloud-based parsing app that can extract data & tables from documents, images or PDFs. Like Tabula, it runs on the Tabula-Java library but has more advanced features.

هنگامی که یک فایل را آپلود می کنید، از شما خواسته می شود که قوانین تجزیه را تنظیم کنید تا به نرم افزار آموزش دهد تا مناطق مورد علاقه (با جداول) را در سند خود شناسایی کند. سپس نرم افزار این قوانین را برای اسناد مشابه در آینده به خاطر می آورد و اعمال می کند.

With built-in OCR capabilities, Docparser can also help automate business workflows to some extent. (Here's a توضیح مفصل on نرم افزار OCR چیست)

مزایا

پشتیبانی از پردازش دسته ای اسناد متعدد
OCR داخلی
به قوانین تجزیه سفارشی اجازه می دهد.
جداول را به چندین فرمت مانند CSV، Excel، JSON و XML صادر می کند.
از برخی گزینه های یکپارچه سازی منظم پشتیبانی می کند.

منفی

قوانین تجزیه می تواند برای جداول و اسناد پیچیده پیچیده شود.
شما باید مختصات و مرزهای هر جدول را مشخص کنید.
بر روی یک مدل شناسایی الگو اجرا می شود. بنابراین واقعاً خودکار نیست!
نمی‌توان به‌طور خودکار انواع و قالب‌های سند جدید را کنترل کرد.
ممکن است نیاز به قوانین تجزیه جداگانه برای جداول یا داده هایی داشته باشد که در مناطق مختلف در یک سند آمده اند.
فقط روی اسنادی با قالب بندی منطقه ثابت یا الگوهای شناخته شده به دقت کار می کند.
ممکن است به سطحی از تأیید و دوباره کاری نیاز داشته باشد.

می خواهم به داده ها را از PDF خراش دهید اسناد، تبدیل جدول PDF به اکسل، تبدیل PDF به csv or استخراج خودکار جدول? پیدا کردن چگونه نانو شبکه ها اسکراپر پی دی اف or تجزیه کننده PDF می تواند کسب و کار شما را برای بهره وری بیشتر تقویت کند.

تبدیل آنلاین پی دی اف به اکسل

آنلاین تبدیل پی دی اف به اکسل پسندیدن کوچک پی دی اف و Cometdocs در میان دیگران، اساسی ترین قابلیت های استخراج جدول PDF را ارائه می دهد. Nanonets نیز رایگان ارائه می دهد PDF به اکسل مبدل.

استفاده از این ابزارهای ساده رایگان است، اما ممکن است نیاز به ثبت نام اجباری داشته باشد. فقط یک پی دی اف آپلود کنید و خروجی را دانلود کنید.

بر خلاف جایگزین های پیشرفته تر زیر، چنین ابزارهایی معمولاً تبدیل می کنند تمام PDF به XML or تبدیل PDF به csv فایل ها. این اغلب منجر به خروجی های درهم می شود که ممکن است نیاز به ویرایش و پاکسازی کامل داشته باشد.

مزایا

رابط کشیدن و رها کردن ساده.

منفی

نمی‌توان فایل‌های PDF با ساختارهای جدول پیچیده را مدیریت کرد.
از پردازش دسته ای پشتیبانی نمی کند. هر بار فقط می توانید روی یک سند کار کنید!
گاهی اوقات کاراکترها یا اعداد به درستی شناسایی نمی شوند.
استفاده محدود
یک فرآیند خودکار نیست.
نمی توان سفارشی کرد.

بروزرسانی ژوئن 2022: این پست در ابتدا در آوریل 2021 و از آن زمان به روز شده است چند بار.

این استخراج جدول ابزار بود در Product Hunt راه اندازی شد.

اینجا یک اسلاید است خلاصه ای از یافته های این مقاله اینجا یک نسخه جایگزین از این پست

تمبر زمان: ژوئن 13، 2022

تمبر زمان: فوریه 7، 2022

نحوه استخراج جداول از PDF

بازنشر افلاطون

Top Solutions for Extracting Tables from PDF

1. نانوت

How to Extract Tables from PDF using Nanonets

مستندات نانو شبکه ها

2. tabula

3. Camelot یا Excalibur

4. جداول PDF

5. تجزیه کننده اسناد

6. تبدیل آنلاین پی دی اف به اکسل

نانوت

How to Extract Tables from PDF using Nanonets

مستندات نانو شبکه ها

tabula

Camelot یا Excalibur

جداول PDF

تجزیه کننده اسناد

تبدیل آنلاین پی دی اف به اکسل

بیشتر از هوش مصنوعی و یادگیری ماشین

اتوماسیون داخلی چیست؟ | راهنمای جامع

چگونه Salesforce را به Excel متصل کنیم؟

10 نرم افزار برتر ورود داده برای اتوماسیون پیشرفته در سال 2022

اتوماسیون زنجیره تامین: راهنمای کامل

شریک Servitalent با Nanonets برای استفاده از هوش مصنوعی برای گردش کار استخدام

راهنمای گزارش‌ها و گزارش‌های حساب‌های پرداختنی (AP) در سال 2024

دیجیتالی سازی خودکار رسید با OCR و یادگیری عمیق

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب