แปลงข้อมูล PDF เป็นรายการฐานข้อมูล PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

แปลงข้อมูล PDF เป็นรายการฐานข้อมูล

องค์กรและธุรกิจหลายแห่งใช้เอกสาร PDF เพื่อแชร์เอกสารสำคัญ เช่น ใบแจ้งหนี้ สลิปเงินเดือน การเงิน ใบสั่งงาน ใบเสร็จ และอื่นๆ อย่างไรก็ตาม PDF ไม่ใช่รูปแบบที่นำไปใช้ในการจัดเก็บข้อมูลในอดีต เนื่องจากไม่สามารถส่งออกและจัดระเบียบเป็นเวิร์กโฟลว์ได้อย่างง่ายดาย ดังนั้นผู้คนจึงใช้อัลกอริธึมการดึงข้อมูลเพื่อแปลงไฟล์ PDF และเอกสารที่สแกนให้เป็นดิจิทัลในรูปแบบที่มีโครงสร้าง เช่น JSON, CSV, Tables หรือ Excel ที่สามารถแปลงเป็นเวิร์กโฟลว์อื่นๆ ขององค์กรได้อย่างง่ายดาย

ในบางกรณี PDF จะเก็บข้อมูลที่จำเป็นเพื่อประมวลผลใน ERP, CMS และระบบอื่นๆ ที่ขับเคลื่อนด้วยฐานข้อมูล ขออภัย เอกสาร PDF ไม่มีฟังก์ชัน PDF ไปยังฐานข้อมูลที่ง่าย และการเขียนสคริปต์หรือการสร้างเวิร์กโฟลว์เกี่ยวกับงานนี้ค่อนข้างซับซ้อน นี่คือจุดที่อัลกอริธึม OCR และ Deep Learning (DL) เข้ามาในรูปภาพเพื่อดึงข้อมูลจากรูปแบบ PDF เหล่านี้และส่งออกไปยังฐานข้อมูล ในบล็อกโพสต์นี้ เราจะพิจารณาวิธีต่างๆ ที่คุณอาจทำได้โดยใช้เทคโนโลยี DL รวมถึง API ที่เป็นที่นิยมในตลาด

การแปลง PDF เป็นฐานข้อมูลคืออะไร

การแปลง PDF เป็นฐานข้อมูลเป็นงานในการส่งออกข้อมูลจาก PDF ไปยังฐานข้อมูล เช่น Postgres, Mongo, MySQL เป็นต้น

สมมติว่าเราต้องสร้างเว็บแอปพลิเคชันหรือระบบ ERP ที่เก็บและรักษาข้อมูลใบแจ้งหนี้จากแหล่งต่างๆ การเพิ่มใบแจ้งหนี้ในอดีตลงในฐานข้อมูลด้วยตนเองเป็นงานที่ยากและมักเกิดข้อผิดพลาดได้ง่าย ในทางกลับกัน การใช้ OCR แบบธรรมดาอาจไม่สามารถแยกตารางออกจากใบแจ้งหนี้ได้อย่างถูกต้อง

นี่คือจุดที่การแปลง PDF เป็นฐานข้อมูลที่ขับเคลื่อนด้วย AI ขั้นสูงมีประโยชน์!

กระบวนการแปลงไฟล์ PDF เป็นฐานข้อมูลที่ขับเคลื่อนด้วย AI นี้สามารถทำงานอัตโนมัติได้หรือไม่ - ใช่.

ในส่วนด้านล่าง เราใช้คอมพิวเตอร์วิทัศน์และการเรียนรู้เชิงลึกเพื่อตรวจหาพื้นที่ตารางจากเอกสารที่สแกน ตารางเหล่านี้จะถูกจัดเก็บเพิ่มเติมในรูปแบบข้อมูลเฉพาะ เช่น CSV หรือ excel และจะถูกพุชไปยังฐานข้อมูลโดยตรง

ก่อนพูดถึงเรื่องเหล่านี้ ให้เราเข้าใจกรณีการใช้งานบางกรณีที่อาจมีประโยชน์ในการตรวจหา PDF ไปยังฐานข้อมูล

กรณีการใช้งานต่างๆ สำหรับ PDF เป็นฐานข้อมูล

ฐานข้อมูลเป็นวิธีที่ดีที่สุดในการจัดเก็บข้อมูลทั้งบนคลาวด์และที่จัดเก็บในเครื่อง สิ่งเหล่านี้ช่วยให้เราสามารถดำเนินการและปรับแต่งต่างๆ โดยใช้คำสั่งง่ายๆ ต่อไปนี้คือกรณีการใช้งานบางส่วนที่สามารถปรับให้เหมาะสมอย่างมากกับเวิร์กโฟลว์การแปลง PDF เป็นฐานข้อมูลโดยอัตโนมัติ:

  1. การจัดการใบแจ้งหนี้บนเว็บ: ธุรกิจและองค์กรจัดการกับใบแจ้งหนี้หลายใบทุกวัน และเป็นการยากสำหรับพวกเขาในการประมวลผลใบแจ้งหนี้แต่ละใบด้วยตนเอง นอกจากนี้ บางครั้งพวกเขาเรียกและรับใบแจ้งหนี้ในรูปแบบที่ไม่ใช่ดิจิทัล ซึ่งทำให้ติดตามได้ยากขึ้น ดังนั้นพวกเขาจึงอาศัยแอปพลิเคชันบนเว็บที่สามารถจัดเก็บใบแจ้งหนี้ทั้งหมดไว้ในที่เดียว ตัวแปลง PDF เป็นฐานข้อมูลสามารถดึงข้อมูลจากใบแจ้งหนี้ไปยังเว็บแอปพลิเคชันได้โดยอัตโนมัติ เพื่อให้งานเหล่านี้เป็นอัตโนมัติอย่างมีประสิทธิภาพ เราสามารถเรียกใช้งาน cron และรวมเข้ากับบริการของบุคคลที่สาม เช่น n8n และ Zapier เมื่อมีการสแกนและอัปโหลดใบแจ้งหนี้ใหม่ ก็สามารถเรียกใช้อัลกอริทึมและพุชลงในตารางได้โดยอัตโนมัติ
  2. ผู้จัดการสินค้าคงคลัง EComt: การจัดการสินค้าคงคลัง e-com จำนวนมากยังคงดำเนินการผ่านการป้อนผลิตภัณฑ์ด้วยตนเองจาก PDF และสำเนาที่สแกน อย่างไรก็ตาม พวกเขาจำเป็นต้องอัปโหลดข้อมูลทั้งหมดลงในซอฟต์แวร์การจัดการการเรียกเก็บเงินเพื่อติดตามผลิตภัณฑ์และการขายทั้งหมด ดังนั้น การใช้อัลกอริธึมการแปลงตารางเป็นฐานข้อมูลสามารถช่วยให้ป้อนด้วยตนเองและประหยัดทรัพยากรได้โดยอัตโนมัติ กระบวนการนี้มักเกี่ยวข้องกับการสแกนรายการสินค้าคงคลังจากเอกสารที่สแกนและส่งออกไปยังตารางฐานข้อมูลเฉพาะตามกฎและเงื่อนไขทางธุรกิจที่แตกต่างกัน
  3. การดึงข้อมูลจากแบบสำรวจ: เพื่อรวบรวมข้อเสนอแนะและข้อมูลที่มีค่าอื่น ๆ เรามักจะทำการสำรวจ พวกเขาให้แหล่งข้อมูลที่สำคัญและข้อมูลเชิงลึกสำหรับเกือบทุกคนที่มีส่วนร่วมในเศรษฐกิจข้อมูล ตั้งแต่ธุรกิจและสื่อไปจนถึงรัฐบาลและนักวิชาการ เมื่อสิ่งเหล่านี้ถูกรวบรวมทางออนไลน์ จะเป็นเรื่องง่ายที่จะแยกสถานะข้อมูลตารางตามการตอบสนองของผู้ใช้และอัปโหลดไปยังฐานข้อมูล อย่างไรก็ตาม ในกรณีส่วนใหญ่ การตอบแบบสำรวจจะอยู่บนกระดาษ ในกรณีเช่นนี้ เป็นการยากที่จะรวบรวมข้อมูลด้วยตนเองและจัดเก็บไว้ในรูปแบบดิจิทัล ดังนั้น การใช้อัลกอริธึมแบบตารางต่อฐานข้อมูลจึงสามารถประหยัดเวลาและลดต้นทุนเพิ่มเติมได้

จะดึงข้อมูลจาก PDF ไปยังฐานข้อมูลเชิงสัมพันธ์และไม่ใช่เชิงสัมพันธ์ได้อย่างไร

ไฟล์ PDF ถูกมองว่าเป็นสองประเภทที่แตกต่างกัน สร้างขึ้นทางอิเล็กทรอนิกส์และไม่ใช่ทางอิเล็กทรอนิกส์

  1. PDF อิเล็กทรอนิกส์: เอกสาร PDF ที่สแกนนี้อาจมีข้อความซ่อนอยู่หลังรูปภาพ สิ่งเหล่านี้เรียกว่า PDF ที่สร้างขึ้นทางอิเล็กทรอนิกส์
  2. PDF ที่ไม่ใช่แบบอิเล็กทรอนิกส์: ในประเภทนี้ เราจะเห็นเนื้อหาที่ฮาร์ดโค้ดเป็นรูปภาพมากขึ้น กรณีนี้จะเกิดขึ้นเมื่อคุณสแกนเอกสารฉบับพิมพ์เป็นไฟล์ PDF

เราสามารถพึ่งพาภาษาการเขียนโปรแกรมและเฟรมเวิร์กอย่างง่าย เช่น Python และ Java สำหรับประเภทแรก (สร้างขึ้นทางอิเล็กทรอนิกส์) สำหรับ PDF ที่ไม่ได้สร้างด้วยระบบอิเล็กทรอนิกส์ เราจะต้องใช้เทคนิค Computer Vision กับ OCR และการเรียนรู้เชิงลึก อย่างไรก็ตาม อัลกอริธึมเหล่านี้อาจไม่เหมือนกันสำหรับอัลกอริธึมการแยกตารางทั้งหมด และจะต้องเปลี่ยนตามประเภทของข้อมูลเพื่อให้ได้ความแม่นยำที่สูงขึ้น NLP (การประมวลผลภาษาธรรมชาติ) ยังใช้เพื่อทำความเข้าใจข้อมูลภายในตารางและดึงข้อมูลออกมาในบางกรณี

ในทางกลับกัน มีฐานข้อมูลสองประเภท (เชิงสัมพันธ์และไม่ใช่เชิงสัมพันธ์); แต่ละฐานข้อมูลเหล่านี้มีชุดกฎที่แตกต่างกันตามสถาปัตยกรรม ฐานข้อมูลเชิงสัมพันธ์มีโครงสร้าง หมายความว่าข้อมูลถูกจัดระเบียบในตาราง ตัวอย่างบางส่วน ได้แก่ MySQL, Postgres เป็นต้น

ในทางตรงกันข้าม ฐานข้อมูลที่ไม่สัมพันธ์กันเป็นแบบเชิงเอกสาร ซึ่งหมายความว่าข้อมูลทั้งหมดจะถูกจัดเก็บไว้ในลำดับรายการซักรีดมากขึ้น ภายในเอกสารคอนสตรัคเตอร์เดียว คุณจะมีข้อมูลทั้งหมดของคุณอยู่ในรายการ – ตัวอย่างเช่น MongoDB

PDF ไปยังฐานข้อมูลเมื่อมีการสร้างเอกสารทางอิเล็กทรอนิกส์

ดังที่กล่าวไว้ สำหรับ PDF ที่สร้างด้วยระบบอิเล็กทรอนิกส์ กระบวนการแยกตารางนั้นตรงไปตรงมา แนวคิดคือการแยกตารางแล้วใช้สคริปต์ง่ายๆ เพื่อแปลงหรือเพิ่มลงในตาราง สำหรับการดึงตารางจาก PDFs มีสองเทคนิคหลัก

เทคนิค #1 สตรีม: อัลกอริทึมจะแยกวิเคราะห์ตารางตามช่องว่างระหว่างเซลล์เพื่อจำลองโครงสร้างตาราง—ระบุตำแหน่งที่ข้อความไม่มีอยู่ มันถูกสร้างขึ้นจากฟังก์ชันของ PDFMiner ในการจัดกลุ่มอักขระบนหน้าเป็นคำและประโยคโดยใช้ระยะขอบ ในเทคนิคนี้ ขั้นแรก แถวจะถูกตรวจจับโดยการเดาคร่าวๆ ตามตำแหน่งแกน y ของข้อความ (เช่น ความสูง) ข้อความทั้งหมดในบรรทัดเดียวกันถือว่าเป็นส่วนหนึ่งของแถวเดียวกัน ถัดไป ผู้อ่านจะถูกจัดกลุ่มและรวมเป็นกลุ่มอื่นเพื่อระบุคอลัมน์ในตาราง สุดท้าย ตารางถูกตั้งค่าร่วมกันตามแถวและคอลัมน์ที่ตรวจพบในขั้นตอนก่อนหน้า

เทคนิค #2 ตาข่าย: ตรงกันข้ามกับสตรีม Lattice มีความมุ่งมั่นมากกว่า หมายความว่าไม่อาศัยการคาดเดา อันดับแรกจะแยกวิเคราะห์ตารางที่กำหนดเส้นระหว่างเซลล์ ถัดไป มันสามารถแยกวิเคราะห์ตารางหลายตารางที่อยู่ในหน้าได้โดยอัตโนมัติ เทคนิคนี้ใช้งานได้จริงโดยดูที่รูปร่างของรูปหลายเหลี่ยมและระบุข้อความภายในเซลล์ตาราง นี่จะเป็นเรื่องง่ายถ้า PDF มีคุณสมบัติที่สามารถระบุรูปหลายเหลี่ยมได้ หากมี ก็น่าจะมีวิธีอ่านสิ่งที่อยู่ข้างใน อย่างไรก็ตามมันไม่ได้ ดังนั้นการมองเห็นด้วยคอมพิวเตอร์จึงถูกนำมาใช้กันอย่างแพร่หลายเพื่อระบุรูปร่างเหล่านี้และแยกเนื้อหาของตาราง

ตารางที่แยกออกมาจะถูกบันทึกในรูปแบบเฟรมข้อมูลเป็นหลัก เป็นหนึ่งในประเภทข้อมูลดั้งเดิมที่นำเสนอโดยแพนด้าไลบรารี Python ที่ได้รับความนิยมมากที่สุดตัวหนึ่ง มีข้อดีหลายประการในการจัดเก็บข้อมูลตารางในกรอบข้อมูล สามารถจัดการ จัดการ และส่งออกไปยังรูปแบบต่างๆ ได้อย่างง่ายดาย เช่น JSON, CSV หรือตาราง อย่างไรก็ตาม ก่อนที่เราจะพุชเฟรมข้อมูลเหล่านี้ลงในตาราง อันดับแรก เราควรเชื่อมต่อกับฐานข้อมูล DB-Client แล้วจึงย้ายตาราง การใช้ภาษาอย่าง Python ทำให้เราสามารถค้นหาไลบรารีต่างๆ ที่สามารถเชื่อมต่อกับแหล่งข้อมูลเหล่านี้และส่งออกข้อมูลได้

PDF ไปยังฐานข้อมูลเมื่อเอกสารไม่ได้ถูกสร้างขึ้นด้วยระบบอิเล็กทรอนิกส์

เทคนิคที่กล่าวถึงข้างต้นอาจไม่ทำงานสำหรับ PDF ที่ไม่ได้สร้างด้วยระบบอิเล็กทรอนิกส์ เนื่องจากข้อมูลที่นี่ถูกสแกนด้วยตนเองผ่านแหล่งอื่น นี่คือเหตุผลที่เราจะใช้เทคนิค OCR และ Deep Learning เพื่อดึงข้อมูลจากเอกสารที่สแกนและส่งออกไปยังฐานข้อมูล

กล่าวโดยย่อ Optical Character Recognition OCR เป็นเครื่องมือพิเศษที่แปลงจดหมายที่พิมพ์จากเอกสารที่สแกนเป็นข้อความที่แก้ไขได้ สำหรับการระบุตาราง PDF จากเอกสาร อันดับแรก เราต้องระบุตำแหน่งของตาราง จากนั้นจึงใช้ OCR เพื่อดึงข้อมูลจากเซลล์ตาราง ต่อไปนี้เป็นขั้นตอนเกี่ยวกับวิธีการบรรลุผล:

  1. ขั้นแรก เราตรวจจับส่วนของเส้นโดยใช้เส้นขอบแนวนอนและแนวตั้ง
  2. ตรวจพบจุดตัดของเส้นระหว่างเส้นโดยดูที่ความเข้มของพิกเซลของทุกเส้น หากพิกเซลของเส้นมีความเข้มมากกว่าส่วนที่เหลือของพิกเซล แสดงว่าเป็นส่วนหนึ่งของสองเส้นและเป็นทางแยก
  3. ขอบของตารางถูกกำหนดโดยดูที่ความเข้มของพิกเซลของเส้นที่ตัดกัน ในที่นี้ พิกเซลทั้งหมดของเส้นจะถูกถ่าย และเส้นภายนอกส่วนใหญ่แสดงถึงขอบเขตของตาราง
  4. การวิเคราะห์ภาพจะถูกแปลเป็นพิกัด PDF ซึ่งเซลล์จะถูกกำหนด ข้อความถูกกำหนดให้กับเซลล์ตามพิกัด x และ y
  5. OCR ถูกนำไปใช้กับพิกัดเพื่อแยกข้อความ
  6. ข้อความที่แยกออกมาจะถูกส่งออกไปยังกรอบข้อมูลตามตำแหน่งของตาราง

นี่คือวิธีที่เราสามารถแยกตารางโดยใช้ CV อย่างไรก็ตาม มีข้อเสียอยู่เล็กน้อยที่นี่ อัลกอริธึมเหล่านี้ล้มเหลวสำหรับตารางขนาดใหญ่และตารางที่มีสไตล์เทมเพลตต่างกัน นี่คือที่มาของการเรียนรู้เชิงลึก พวกเขาใช้เฟรมเวิร์กโครงข่ายประสาทเทียมชนิดพิเศษเพื่อเรียนรู้จากข้อมูลและระบุรูปแบบที่คล้ายคลึงกันตามการเรียนรู้ ในช่วงทศวรรษที่ผ่านมา พวกเขาประสบความสำเร็จในการปฏิบัติงานที่ล้ำหน้า โดยเฉพาะอย่างยิ่งสำหรับงานอย่างการดึงข้อมูล ตอนนี้ มาดูกันว่าโครงข่ายประสาทเทียมสามารถเรียนรู้จากข้อมูลและดึงตารางจากเอกสารใดๆ ได้มากเพียงใด

การฝึกอบรมเครือข่ายประสาทเทียมเชิงลึกเกี่ยวข้องกับเวิร์กโฟลว์เฉพาะ เวิร์กโฟลว์เหล่านี้มักจะเปลี่ยนแปลงตามประเภทของข้อมูลที่เรากำลังใช้งานและประสิทธิภาพของแบบจำลอง ขั้นตอนแรกของเวิร์กโฟลว์เกี่ยวข้องกับการรวบรวมข้อมูลและประมวลผลตามแบบจำลองของเรา ในกรณีของเราในการแยกตารางออกจากเอกสาร PDF ชุดข้อมูลควรมีเอกสารที่ไม่มีโครงสร้าง เอกสารเหล่านี้จะถูกแปลงเป็นรูปภาพ โหลดเป็นเทนเซอร์ และเตรียมเป็นคลาสตัวโหลดข้อมูลสำหรับการฝึกอบรม ต่อไป เรามักจะกำหนดไฮเปอร์พารามิเตอร์ทั้งหมดที่จำเป็นสำหรับการฝึก สิ่งเหล่านี้มักจะรวมถึงการตั้งค่าขนาดแบทช์ ฟังก์ชันการสูญเสีย เครื่องมือเพิ่มประสิทธิภาพสำหรับรุ่น สุดท้ายนี้ สถาปัตยกรรมโครงข่ายประสาทเทียมถูกกำหนดหรือสร้างขึ้นบนแบบจำลองที่กำหนดไว้ล่วงหน้า โมเดลนี้จะได้รับการฝึกอบรมเกี่ยวกับข้อมูลและปรับแต่งตามเมตริกประสิทธิภาพ

ต่อไปนี้เป็นภาพหน้าจอของขั้นตอนต่างๆ ที่เกี่ยวข้องกับการฝึกโมเดลการเรียนรู้เชิงลึก:

เวิร์กโฟลว์ ML ทั่วไป (แหล่ง)

แยกข้อมูลจาก pdf และส่งออกไปยังฐานข้อมูล SQL โดยใช้ Python

จนถึงตอนนี้ เราได้เรียนรู้ว่าการแปลง pdf เป็นฐานข้อมูลคืออะไร และได้พูดคุยถึงกรณีการใช้งานบางอย่างที่อาจเป็นประโยชน์ ส่วนนี้จะแก้ไขปัญหานี้ในทางปฏิบัติโดยใช้ Computer Vision และตรวจหาตารางในรูปแบบ PDF ที่สแกนแล้วส่งออกไปยังฐานข้อมูล เพื่อให้แน่ใจว่าได้ติดตั้ง Python และ OpenCV บนเครื่องของคุณ หรือคุณสามารถใช้สมุดบันทึก Google Collab ออนไลน์ได้

ขั้นตอนที่ 1: ติดตั้ง Tabula และ Pandas

ในตัวอย่างนี้ เราจะใช้ Tabula และ Pandas เพื่อแยกและพุชตารางลงในฐานข้อมูล มาติดตั้งผ่าน pip และนำเข้ามาที่โปรแกรมของเรา

import tabula
import pandas as pd

ขั้นตอนที่ 2: การอ่านตารางลงใน Dataframe

ตอนนี้เราจะใช้ read_pdf ฟังก์ชั่นจากตารางเพื่ออ่านตารางจาก PDF; โปรดทราบว่าไลบรารีนี้ใช้งานได้กับเอกสาร PDF ที่สร้างขึ้นทางอิเล็กทรอนิกส์เท่านั้น ต่อไปนี้เป็นข้อมูลโค้ด:

table = tabula.read_pdf("sample.pdf",pages='all',multiple_tables=False)

df = pd.concat(table)

อย่างที่เราเห็นในตอนแรกเราใช้อ่านเนื้อหาสำหรับไฟล์ PDF เราตั้งค่าพารามิเตอร์ multiple_tables เป็นเท็จ เนื่องจากเอกสารที่ใช้ในตัวอย่างมีตารางเดียวเท่านั้น

ตอนนี้ เราจะโหลดรายการนี้ลงในกรอบข้อมูลโดยใช้แพนด้า และคุณสามารถตรวจสอบประเภทของตารางได้โดยใช้วิธีประเภท สิ่งนี้จะส่งคืนกรอบข้อมูลแพนด้าดั้งเดิม

ขั้นตอนที่ 3: การย้าย Dataframe ไปยัง Postres

ก่อนที่เราจะพุชตารางของเราเข้าสู่ฐานข้อมูล อันดับแรก เราควรสร้างการเชื่อมต่อกับตารางจากโปรแกรมของเรา และเราสามารถทำได้โดยใช้ sqlalchemy ลูกค้าใน python ในทำนองเดียวกัน ภาษาโปรแกรมต่างๆ เสนอไคลเอ็นต์ฐานข้อมูลประเภทนี้เพื่อโต้ตอบกับฐานข้อมูลโดยตรงจากโปรแกรมของเรา

ในโปรแกรมนี้ เราจะใช้ create_engine วิธีการที่ให้เราเชื่อมต่อกับฐานข้อมูล ตรวจสอบให้แน่ใจว่าได้แทนที่ข้อมูลประจำตัวของฐานข้อมูลในสตริงที่กำหนดเพื่อให้ทำงานได้ ต่อไปเราใช้ write_frame ฟังก์ชันส่งออกตารางที่แยกไปยังฐานข้อมูลที่เชื่อมต่อ

engine = create_engine('postgresql+psycopg2://username:password@host:port/database')

sql.write_frame(df, 'table_name', con, flavor='postgresql')

และในทำนองเดียวกัน เราสามารถส่งออกตารางจาก PDF ไปยังฐานข้อมูลได้ ซึ่งดูตรงไปตรงมาและง่ายดาย เนื่องจากเราใช้ PDF ที่สร้างทางอิเล็กทรอนิกส์ซึ่งประมวลผลอย่างง่าย สำหรับการแยกตารางออกจากตารางที่ไม่ได้สร้างขึ้นด้วยระบบอิเล็กทรอนิกส์ ต่อไปนี้เป็นเทคนิคการเรียนรู้เชิงลึกยอดนิยมที่สามารถใช้ได้:

  1. เอกสารที่มีรหัส – GFTE: การแยกตารางการเงินตามกราฟ
  2. เอกสารที่มีรหัส – PubTables-1M: สู่ชุดข้อมูลและตัวชี้วัดสากลสำหรับการฝึกอบรมและการประเมินแบบจำลองการแยกตาราง
  3. TableNet: โมเดลการเรียนรู้เชิงลึกสำหรับการตรวจจับตารางแบบ end-to-end และการดึงข้อมูลแบบตารางจากรูปภาพเอกสารที่สแกน

ป้อน Nanonets: OCR ขั้นสูงสำหรับการแปลงตาราง PDF เป็นฐานข้อมูล

ส่วนนี้จะดูว่า Nanonets สามารถช่วยเราดำเนินการตารางกับฐานข้อมูลได้อย่างไรในวิธีที่ปรับแต่งได้และง่ายขึ้น

Nanonets™ คือ OCR บนคลาวด์ที่ช่วยในการป้อนข้อมูลด้วยตนเองโดยใช้ AI เราจะมีแดชบอร์ดที่เราสามารถสร้าง/ฝึกโมเดล OCR กับข้อมูลของเราและขนส่งในรูปแบบ JSON/CSV หรือรูปแบบที่ต้องการได้ นี่คือข้อดีบางประการของการใช้ Nanonets เป็นเครื่องสแกนเอกสาร PDF

จุดเด่นอย่างหนึ่งของ Nanonets คือความเรียบง่ายของบริการ คุณสามารถเลือกใช้บริการเหล่านี้ได้โดยไม่ต้องมีพื้นฐานการเขียนโปรแกรมใดๆ และดึงข้อมูล PDF อย่างง่ายดายด้วยเทคโนโลยีล้ำสมัย ต่อไปนี้เป็นโครงร่างสั้น ๆ เกี่ยวกับความง่ายในการแปลง PDF เป็นฐานข้อมูล

ขั้นตอนที่ 1: ไปที่ nanonets.com และลงทะเบียน/เข้าสู่ระบบ

แปลงข้อมูล PDF เป็นรายการฐานข้อมูล PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ขั้นตอนที่ 2: หลังจากลงทะเบียนแล้ว ให้ไปที่ส่วน "เลือกเพื่อเริ่มต้น" ซึ่งคุณสามารถใช้ตัวแยกที่สร้างไว้ล่วงหน้าหรือสร้างขึ้นเองโดยใช้ชุดข้อมูลของคุณ ที่นี่ เราจะใช้ตัวแยกใบแจ้งหนี้ที่สร้างไว้ล่วงหน้าของใบแจ้งหนี้

แปลงข้อมูล PDF เป็นรายการฐานข้อมูล PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ขั้นตอนที่ 3: อัปโหลดรูปภาพ PDF เพื่อทำการดึงข้อมูลและเลือกตัวเลือกการแยกอัตโนมัติ

แปลงข้อมูล PDF เป็นรายการฐานข้อมูล PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ขั้นตอนที่ 4: สร้างการรวมการรวม MySQL แบบใหม่เพื่อส่งออกข้อมูลที่แยกไปยังฐานข้อมูล หรือคุณสามารถเลือกตัวเลือกต่างๆ ตามฐานข้อมูลที่คุณเลือก

แปลงข้อมูล PDF เป็นรายการฐานข้อมูล PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สร้างการเชื่อมต่อข้อมูลและคลิกเพิ่มการรวม ด้วยวิธีนี้ ข้อมูลจะถูกแยกและอัพโหลดโดยอัตโนมัติไปยังฐานข้อมูลทุกครั้งที่อัพโหลดไฟล์ หากคุณไม่พบการผสานรวมที่จำเป็น คุณสามารถใช้ Nanonets API และเขียนสคริปต์อย่างง่ายเพื่อทำงานอัตโนมัติได้เสมอ

ประทับเวลา:

เพิ่มเติมจาก AI และการเรียนรู้ของเครื่อง