วิธีการแยกตารางจาก PDF PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

วิธีแยกตารางออกจาก PDF

วิธีแยกตารางออกจาก PDF

เคยลอง ดึงข้อมูลจาก PDFs? ค่อนข้างยาก…

ในขณะที่คุณยังสามารถ แยกข้อความจาก PDFs โดยการคัดลอกและวางเนื้อหา การแยกตารางจาก PDF ทำได้มากกว่านั้น ซับซ้อน!

วิธีแยกตารางออกจาก PDF
Giphy

เวิร์กโฟลว์ขององค์กรในปัจจุบันส่วนใหญ่ขึ้นอยู่กับเอกสาร PDF; โดยเฉพาะที่มีข้อมูลตารางจำนวนมาก

เอกสารทางธุรกิจที่มีข้อมูลจำนวนมากส่วนใหญ่ใช้ตารางเพื่อจัดระเบียบและนำเสนอข้อมูลที่มีค่า

คุณสามารถหาตารางใน เอกสารทางการเงิน เช่น ใบแจ้งหนี้ ใบเสร็จ เอกสารประกัน ใบตราส่ง ใบแจ้งยอดธนาคาร รายงาน เป็นต้น  

ธุรกิจมักจะมองหาวิธีแก้ปัญหาเพื่อดึงข้อมูล PDF ตารางเป็นรูปแบบตารางที่แก้ไขได้

วิธีการคัดลอกและวางแบบแมนนวลไม่ค่อยรักษาโครงสร้างตาราง คอลัมน์และแถวผิดเพี้ยน และจำเป็นต้องมีการตรวจสอบและการจัดรูปแบบใหม่เป็นจำนวนมากเพื่อกู้คืนข้อมูลให้อยู่ในรูปแบบที่เป็นระเบียบเดิม

โชคดี,มีเครื่องมือต่างๆเช่น นาโนเน็ตที่สามารถดึงตารางจากเอกสาร PDF ได้อย่างมีประสิทธิภาพ

วิธีแยกตารางออกจาก PDF
แยกตารางจากเอกสารด้วย Nanonets

แม้ว่าเครื่องมือทั้งหมดจะทำงานเหมือนกัน แต่เครื่องมือเหล่านี้ใช้เทคนิคที่แตกต่างกันโดยพื้นฐานซึ่งมีข้อดีและข้อเสียต่างกันไป

ในบทความนี้ เราจะทบทวนโซลูชันต่างๆ เพื่อแยกตารางออกจาก PDF และเปรียบเทียบข้อดีและข้อเสียเพื่อเลือกรูปแบบที่เหมาะสมที่สุดสำหรับกรณีการใช้งานเฉพาะ

โซลูชันยอดนิยมสำหรับการแยกตารางจาก PDF

ต่อไปนี้คือโซลูชันยอดนิยมบางส่วนในการดึงข้อมูลจาก PDF ไปยังตาราง:

1. นาโนเน็ต

no code automated table extraction

2. กระดาน

 works best on simple tables

3. คาเมลอตหรือเอ็กซ์คาลิเบอร์

customisable table extraction

4. ตาราง PDF

secure & scalable table extraction API

5. ด็อกพาร์เซอร์

cloud-based table parser

6. ตัวแปลง PDF เป็น Excel ออนไลน์

 basic extraction


ต้องการดึงข้อมูลแบบตารางจากใบแจ้งหนี้ ใบเสร็จ หรือเอกสารประเภทอื่นๆ หรือไม่? ตรวจสอบ Nanonets' ตัวแยกตาราง PDF เพื่อดึงข้อมูลตาราง กำหนดเวลาการสาธิต เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ Nanonets' การสกัดตาราง ลักษณะ


นาโนเน็ต

บทนำนาโนเน็ต

Nanonets เป็นซอฟต์แวร์ OCR ที่ใช้ประโยชน์จากความสามารถของ AI & ML เพื่อแยกตารางจากเอกสาร PDF, รูปภาพ และไฟล์ที่สแกนโดยอัตโนมัติ ไม่เหมือนกับโซลูชันอื่นๆ Nanonets ไม่ต้องการกฎและเทมเพลตที่แยกจากกันสำหรับเอกสารใหม่แต่ละประเภท

Nanonets อาศัยความฉลาดทางปัญญาที่ขับเคลื่อนด้วย AI จึงสามารถจัดการกับเอกสารกึ่งโครงสร้างและเอกสารที่มองไม่เห็นได้ในขณะที่ปรับปรุงอยู่ตลอดเวลา คุณยังสามารถปรับแต่งเอาต์พุตเพื่อแยกเฉพาะตารางหรือรายการข้อมูลที่คุณสนใจ

มันรวดเร็ว แม่นยำ ใช้งานง่าย ให้ผู้ใช้สร้างโมเดล OCR แบบกำหนดเองตั้งแต่เริ่มต้น และมีการผสานรวมกับ Zapier ที่เรียบร้อย แปลงเอกสารเป็นดิจิทัล แยกตารางหรือฟิลด์ข้อมูล และรวมเข้ากับแอปประจำวันของคุณผ่าน API ในอินเทอร์เฟซที่เรียบง่ายและใช้งานง่าย

อัลกอริธึม Nanonets และโมเดล OCR เรียนรู้อย่างต่อเนื่อง พวกเขาสามารถฝึกฝนหรือฝึกฝนใหม่ได้หลายครั้งและปรับแต่งได้มาก ในขณะที่นำเสนอ API และเอกสารประกอบที่ยอดเยี่ยมสำหรับนักพัฒนาซอฟต์แวร์ ซอฟต์แวร์นี้ยังเหมาะสำหรับองค์กรที่ไม่มีทีมนักพัฒนาภายในองค์กร

ข้อดี

  • ข้อมูลความรู้ความเข้าใจและการแยกตารางด้วย OCR
  • ความแม่นยำสูงแม้ในรูปแบบเอกสารกึ่งโครงสร้างหรือมองไม่เห็น
  • ตรวจหาตารางโดยอัตโนมัติรวมถึงข้อมูลแถว-คอลัมน์ที่มีโครงสร้างภายในการตอบสนอง
  • ให้ UI ที่ทันสมัยและปรับขนาดแบบสายฟ้าแลบที่ประมวลผลเอกสารได้เร็วกว่าซอฟต์แวร์อื่นถึง 10 เท่า
  • ใช้งานง่ายและตั้งค่า สามารถรวมและตั้งค่าได้ภายในสองสามวัน
  • รองรับการประมวลผลแบบกลุ่มของเอกสารหลายชุด
  • ส่งออกตารางเป็นหลายรูปแบบ เช่น CSV, Excel และ JSON
  • การรวม 2 ทางอย่างราบรื่นกับซอฟต์แวร์บัญชีหลายตัว (ดูข้อมูลเพิ่มเติมเกี่ยวกับ บัญชี OCR)
  • แทบไม่ต้องประมวลผลภายหลัง
  • ใช้งานได้กับที่ไม่ใช่ภาษาอังกฤษหรือหลายภาษา
  • ตัวเลือกการรวมที่หลากหลาย

จุดด้อย

  • รับไม่ได้ ที่สูงมาก ปริมาณพุ่งกระฉูด!
  • เสนอเอกสาร/เครดิตฟรี 100 ฉบับต่อเดือนเท่านั้น

นาโนเน็ต มีอะไรน่าสนใจมากมาย กรณีใช้ ที่สามารถเพิ่มประสิทธิภาพธุรกิจของคุณ ประหยัดต้นทุน และเพิ่มการเติบโต ค้นพบ กรณีการใช้งานของ Nanonets สามารถนำไปใช้กับผลิตภัณฑ์ของคุณได้อย่างไร


วิธีการแยกตารางจาก PDF โดยใช้ Nanonets

Nanonets นำเสนอโมเดลตัวแยกตารางที่ได้รับการฝึกอบรมมาล่วงหน้าซึ่งใช้งานได้ทันทีที่แกะกล่อง

  1. อัปโหลด PDF พร้อมข้อมูลแบบตารางไปยัง Nanonets
  2. Nanonets จะจับตารางในไฟล์ PDF ของคุณโดยอัตโนมัติ
  3. คุณยังสามารถเพิ่ม ลบ หรือแก้ไขเซลล์/ข้อมูล
  4. ส่งออกไฟล์ที่แปลงแล้วในรูปแบบ JSON, Excel หรือ CSV

ตรวจสอบการสาธิตอย่างรวดเร็ว:

ตัวแยกตาราง Nanonets

คุณยังสามารถเปิดใช้งานคุณสมบัติการแยกตารางในรุ่นก่อนการฝึกอบรมอื่นๆ ที่นำเสนอโดย Nanonets:

  • ใบแจ้งหนี้
  • รายรับ
  • ใบขับขี่ (สหรัฐอเมริกา)
  • หนังสือเดินทาง

เพียงเพิ่มไฟล์ของคุณ เปิดใช้งานการแยกตาราง ทดสอบและตรวจสอบข้อมูลตารางที่แยกออกมา และ ส่งออกเป็น Excel or CSV ไฟล์

โปรดทราบว่าคุณจะ ต้องสมัครสมาชิก เพื่อทดลองใช้ฟรีกับแผน Pro ถึง เปิดใช้งานคุณสมบัติการแยกตาราง!

วิธีฝึกโมเดลของคุณสำหรับการสกัดตารางที่แม่นยำ
โมเดลใบแจ้งหนี้ Nanonets ดำเนินการ Table Extract

นาโนเน็ต มีอะไรน่าสนใจมากมาย กรณีใช้ ที่สามารถเพิ่มประสิทธิภาพธุรกิจของคุณ ประหยัดต้นทุน และเพิ่มการเติบโต ค้นพบ กรณีการใช้งานของ Nanonets สามารถนำไปใช้กับผลิตภัณฑ์ของคุณได้อย่างไร


เอกสารนาโนเน็ต

หากคุณต้องการฝึกโมเดล OCR ของคุณเองเพื่อสร้าง a PDF ไปยังฐานข้อมูล หรือ PDF to table converter ให้ดูที่ นาโนเน็ตส์ API. ใน เอกสารคุณจะพบว่าพร้อมที่จะเริ่มตัวอย่างโค้ดใน Shell, Ruby, Golang, Java, C# และ Python รวมถึงข้อกำหนด API โดยละเอียดสำหรับปลายทางต่างๆ


ต้องการ OCR ออนไลน์ที่ใช้ AI เพื่อ แปลง PDF เป็น XML or PDF ไปยังฐานข้อมูล รายการ, ดึงข้อมูลจาก PDF, แยกข้อความจากภาพ,หรือ สารสกัดจาก PDF? กำหนดเวลาการสาธิต เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับนาโนเน็ตส์

วิธีแยกตารางออกจาก PDF


กระดาน

ทำงานบนไลบรารี Tabula-Java กระดาน เป็นซอฟต์แวร์โอเพ่นซอร์สที่สามารถดาวน์โหลดลงบนพีซี Mac, Linux หรือ Windows สร้างโดยนักข่าวกลุ่มหนึ่ง Tabula พยายามที่จะ "ปลดปล่อยตารางข้อมูลที่ล็อกอยู่ในไฟล์ PDF"

อัปโหลดไฟล์ PDF ไปยัง Tabula เลือกตารางโดยวาดกล่องรอบๆ แสดงตัวอย่างการเลือกแถวและคอลัมน์ และส่งออกตารางที่ตรวจสอบแล้ว Tabula ทำงานได้ดีที่สุดกับรูปแบบตารางขนาดเล็กที่เรียบง่าย  

ข้อดี

  • Tabula ทำงานได้อย่างยอดเยี่ยมในไฟล์ PDF ที่เน้นข้อความเป็นหลัก
  • ใช้งานง่าย ทนทาน และสามารถฝังลงในซอฟต์แวร์อื่นได้

จุดด้อย

  • Tabula ใช้งานได้กับ PDF แบบข้อความเท่านั้น ไม่ใช่รูปภาพหรือเอกสารที่สแกน
  • มันมักจะสะดุดโดยเซลล์หลายบรรทัดหรือเซลล์ที่ผสาน
  • ไม่รองรับการประมวลผลแบบแบตช์ คุณสามารถทำงานได้ครั้งละหนึ่งเอกสารเท่านั้น!
  • บางครั้งอาจระบุอักขระหรือตัวเลขไม่ถูกต้อง
  • ไม่รองรับข้อกำหนด OCR
  • ไม่ใช่กระบวนการอัตโนมัติ

คาเมลอตหรือเอ็กซ์คาลิเบอร์

ได้รับอนุญาตภายใต้ใบอนุญาต MIT Camelot เป็นไลบรารี Python ที่เปิดใช้งานการแยกตารางจาก PDF มันยังมีพลัง คาลิเบอร์เว็บอินเตอร์เฟสเพื่อดึงข้อมูลแบบตารางจากเอกสาร PDF

ไม่เหมือนกับไลบรารี่อื่นๆ ที่สลับไปมาระหว่างเอาต์พุตที่แม่นยำหรือความล้มเหลวทั้งหมด Camelot ให้พลังแก่คุณในการปรับแต่งการแยกตารางได้อย่างมากเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

ข้อดี

  • ตรวจจับตารางอัตโนมัติ
  • Camelot ทำงานได้ดีกับไฟล์ PDF แบบข้อความ
  • ยืดหยุ่นและปรับแต่งได้ในระดับมาก
  • ส่งออกตารางเป็นหลายรูปแบบ เช่น CSV, Excel, JSON, HTML & Sqlite
  • ตารางที่ไม่ดีสามารถละทิ้งได้โดยอัตโนมัติตามตัวชี้วัด เช่น ความแม่นยำและช่องว่าง
  • แต่ละตารางสามารถแปลงเป็น DataFrame ของแพนด้าซึ่งสามารถใช้สำหรับการวิเคราะห์หรือการประมวลผลเพิ่มเติม

จุดด้อย

  • Camelot ใช้งานได้กับ PDF แบบข้อความเท่านั้น ไม่สามารถสแกนรูปภาพหรือเอกสารได้
  • ไม่สามารถจัดการเอกสาร PDF ที่ซับซ้อนด้วยตารางหลายบรรทัดและเซลล์ที่ผสาน
  • เมื่อใช้ Stream ทั้งหน้าจะถือว่าเป็นตารางเดียว ซึ่งจะส่งผลต่อผลลัพธ์เมื่อมีหลายตารางในหน้าเดียวกัน
  • ไม่รองรับข้อกำหนด OCR
  • ไม่ใช่กระบวนการอัตโนมัติ

ธุรกิจของคุณต้องจัดการกับข้อมูลหรือการรับรู้ข้อความในเอกสารดิจิทัล ไฟล์ PDF หรือรูปภาพหรือไม่ คุณเคยสงสัยหรือไม่ว่าวิธีการดึงข้อมูลแบบตาราง แปลง PDF เป็น CSV , ดึงข้อมูลจาก PDF or สารสกัดจาก PDF อย่างถูกต้องและมีประสิทธิภาพ?


ตาราง PDF

PDFTables นั้นปลอดภัยและปรับขนาดได้ ตัวแปลง PDF เป็น Excel และ API การแยกตาราง มันขับเคลื่อนโดยอัลกอริธึมภายในอย่างสมบูรณ์โดยไม่มีที่ว่างสำหรับการปรับแต่งหรือปรับแต่ง เพียงอัปโหลดเอกสารของคุณและดาวน์โหลดเอาต์พุตตารางในรูปแบบ Excel, CSV, XML หรือ JSON

ข้อดี

  • ทำงานกับชุดข้อมูลขนาดเล็กและขนาดใหญ่
  • การแยกตารางอัตโนมัติ
  • ส่งออกตารางเป็นหลายรูปแบบ เช่น CSV, Excel, JSON และ XML
  • ฟรีสูงสุด 25 หน้า
  • จัดการไฟล์หลายไฟล์พร้อมกัน

จุดด้อย

  • ไม่สามารถปรับแต่งหรือปรับแต่งอัลกอริธึมการแยกตารางได้
  • ไม่ทำการรู้จำอักขระด้วยแสง (OCR)
  • พึ่งพาอัลกอริธึมพื้นฐานอย่างสมบูรณ์เพื่อความแม่นยำและประสิทธิภาพ
  • ไม่รองรับการรวมระบบคลาวด์ใด ๆ

ด็อกพาร์เซอร์

Docparser เป็นแอปแยกวิเคราะห์บนคลาวด์ที่มีประสิทธิภาพ ซึ่งสามารถดึงข้อมูลและตารางจากเอกสาร รูปภาพ หรือ PDF เช่นเดียวกับ Tabula มันทำงานบนไลบรารี Tabula-Java แต่มีคุณสมบัติขั้นสูงมากกว่า

เมื่อคุณอัปโหลดไฟล์ คุณจะต้องตั้งกฎการแยกวิเคราะห์เพื่อสอนซอฟต์แวร์ให้ระบุขอบเขตที่สนใจ (พร้อมตาราง) ในเอกสารของคุณ ซอฟต์แวร์จะจดจำและนำกฎเหล่านี้ไปใช้กับเอกสารที่คล้ายคลึงกันในอนาคต

ด้วยความสามารถ OCR ในตัว Docparser ยังสามารถช่วยให้เวิร์กโฟลว์ทางธุรกิจทำงานอัตโนมัติได้ในระดับหนึ่ง (นี่คือ อธิบายรายละเอียด on ซอฟต์แวร์ OCR คืออะไร)

ข้อดี

  • รองรับการประมวลผลแบบกลุ่มของเอกสารหลายชุด
  • OCR ในตัว
  • อนุญาตกฎการแยกวิเคราะห์ที่กำหนดเอง
  • ส่งออกตารางเป็นหลายรูปแบบ เช่น CSV, Excel, JSON และ XML
  • รองรับบางตัวเลือกการรวมที่เรียบร้อย

จุดด้อย

  • กฎการแยกวิเคราะห์อาจซับซ้อนสำหรับตารางและเอกสารที่ซับซ้อน
  • คุณต้องกำหนดพิกัดและขอบเขตสำหรับแต่ละตาราง
  • ทำงานบนแบบจำลองการระบุแม่แบบ จึงไม่เป็นระบบอัตโนมัติอย่างแท้จริง!
  • ไม่สามารถจัดการประเภทและรูปแบบเอกสารใหม่โดยอัตโนมัติ
  • อาจต้องใช้กฎการแยกวิเคราะห์สำหรับตารางหรือข้อมูลที่มาในภูมิภาคต่างๆ ภายในเอกสารเดียวกัน
  • ทำงานได้อย่างถูกต้องบนเอกสารที่มีการจัดรูปแบบภูมิภาคคงที่หรือแม่แบบที่รู้จักเท่านั้น
  • อาจต้องมีการตรวจสอบและทำงานใหม่ในระดับหนึ่ง

ต้องการที่จะ ขูดข้อมูลจาก PDF เอกสาร แปลงตาราง PDF เป็น Excelแปลง PDF เป็น csv or สกัดตารางอัตโนมัติ? ค้นพบ นาโนเน็ตส์ มีดโกน PDF or ตัวแยกวิเคราะห์ PDF สามารถขับเคลื่อนธุรกิจของคุณให้มีประสิทธิผลมากขึ้น


ตัวแปลง PDF เป็น Excel ออนไลน์

ออนไลน์ ตัวแปลง PDF เป็น Excel กดไลก์ ไฟล์ PDF ขนาดเล็ก และ ดาวหาง มีความสามารถในการแยกตาราง PDF พื้นฐานที่สุด นาโนเน็ตยังมีบริการฟรี PDF เป็น Excel แปลง

เครื่องมือยูทิลิตี้อย่างง่ายเหล่านี้ใช้งานได้ฟรี แต่อาจต้องมีการลงชื่อสมัครใช้ เพียงอัปโหลด PDF และดาวน์โหลดผลลัพธ์

แตกต่างจากทางเลือกขั้นสูงด้านล่าง เครื่องมือดังกล่าวมักจะแปลง ทั้ง รูปแบบไฟล์ PDF เป็น XML or แปลง PDF เป็น csv ไฟล์. ซึ่งมักส่งผลให้เกิดผลลัพธ์ที่สับสนซึ่งอาจต้องมีการแก้ไขและล้างข้อมูลบางส่วน

ข้อดี

  • อินเทอร์เฟซแบบลากและวางที่เรียบง่าย

จุดด้อย

  • ไม่สามารถจัดการไฟล์ PDF ที่มีโครงสร้างตารางที่ซับซ้อนได้
  • ไม่รองรับการประมวลผลแบบแบตช์ คุณสามารถทำงานได้ครั้งละหนึ่งเอกสารเท่านั้น!
  • บางครั้งอาจระบุอักขระหรือตัวเลขไม่ถูกต้อง
  • การใช้งานที่จำกัด
  • ไม่ใช่กระบวนการอัตโนมัติ
  • ปรับแต่งไม่ได้

บันทึก มิถุนายน 2022: โพสต์นี้เผยแพร่ครั้งแรกใน เมษายน 2021 และได้รับการปรับปรุงตั้งแต่นั้นเป็นต้นมา หลายครั้ง.

การสกัดตาราง เครื่องมือคือ เปิดตัวใน Product Hunt.

นี่คือสไลด์ สรุปผลการวิจัยในบทความนี้ นี่มัน เวอร์ชันอื่น ของโพสต์นี้

ประทับเวลา:

เพิ่มเติมจาก AI และการเรียนรู้ของเครื่อง