ดึงข้อมูลจากเอกสารที่สแกน

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ต้องการดึงข้อมูลจากเอกสารที่สแกนหรือไม่? พยายาม นาโนเน็ต™ สูง เครื่องสแกน OCR แบบ AI เพื่อดึงและจัดระเบียบข้อมูลจาก สแกนเอกสาร อัตโนมัติ.

บทนำ

ในขณะที่โลกเปลี่ยนจากกระดาษและลายมือเป็นเอกสารดิจิทัลเพื่อความสะดวก ความสำคัญของการแปลงรูปภาพและเอกสารที่สแกนให้เป็นข้อมูลที่มีความหมายก็พุ่งสูงขึ้นอย่างรวดเร็ว

หน่วยงานและองค์กรวิจัยจำนวนมาก (เช่น Google, AWS, Nanonets เป็นต้น) ได้ให้ความสำคัญกับเทคโนโลยีในด้านการมองเห็นด้วยคอมพิวเตอร์และการประมวลผลภาษาธรรมชาติ (NLP) เพื่อให้ทันต่อความจำเป็นในการดึงข้อมูลเอกสารที่มีความแม่นยำสูง

การเบ่งบานของเทคโนโลยีการเรียนรู้เชิงลึกทำให้มั่นใจได้ว่าข้อมูลที่สามารถดึงออกมาได้จะก้าวกระโดดครั้งใหญ่ เราไม่ได้ถูกจำกัดจากการแยกข้อความเท่านั้น แต่ยังรวมถึงโครงสร้างข้อมูลอื่นๆ เช่น ตารางและคู่คีย์-ค่า โซลูชั่นมากมายในปัจจุบันมีผลิตภัณฑ์หลากหลายเพื่อตอบสนองความต้องการของบุคคลและเจ้าของธุรกิจในการดึงข้อมูลเอกสาร

บทความนี้จะเจาะลึกถึงเทคโนโลยีปัจจุบันที่ใช้สำหรับการดึงข้อมูลจากเอกสารที่สแกน ตามด้วยบทแนะนำการใช้งานจริงสั้นๆ ใน Python นอกจากนี้ เราจะพิจารณาโซลูชันยอดนิยมบางรายการในตลาดที่นำเสนอข้อเสนอที่ดีที่สุดในสาขานี้

การดึงข้อมูลคืออะไร?

การดึงข้อมูลเป็นกระบวนการแปลงข้อมูลที่ไม่มีโครงสร้างเป็นข้อมูลที่ตีความได้โดยโปรแกรมเพื่อให้มนุษย์ประมวลผลข้อมูลเพิ่มเติมได้ ในที่นี้ เราแสดงรายการข้อมูลทั่วไปหลายประเภทที่จะดึงออกจากเอกสารที่สแกน

ข้อมูลข้อความ

งานทั่วไปและสำคัญที่สุดในการดึงข้อมูลจากเอกสารที่สแกนคือการแยกข้อความ กระบวนการนี้ แม้จะดูเหมือนตรงไปตรงมา แต่ในความเป็นจริง เป็นเรื่องยากมาก เนื่องจากเอกสารที่สแกนมักถูกนำเสนอในรูปแบบของภาพ นอกจากนี้ วิธีการแยกยังขึ้นอยู่กับประเภทของข้อความเป็นอย่างมาก แม้ว่าข้อความจะมีอยู่ในรูปแบบที่พิมพ์หนาแน่นเป็นส่วนใหญ่ ความสามารถในการแยกข้อความที่กระจัดกระจายออกจากเอกสารที่สแกนไม่ค่อยดีหรือจากจดหมายที่เขียนด้วยลายมือที่มีรูปแบบที่แตกต่างกันอย่างมากก็มีความสำคัญเท่าเทียมกัน กระบวนการดังกล่าวจะช่วยให้โปรแกรมสามารถแปลงรูปภาพเป็นข้อความที่เข้ารหัสด้วยเครื่อง ซึ่งเราสามารถจัดระเบียบรูปภาพเพิ่มเติมจากข้อมูลที่ไม่มีโครงสร้าง (โดยไม่ต้องจัดรูปแบบบางอย่าง) เป็นข้อมูลที่มีโครงสร้างสำหรับการวิเคราะห์เพิ่มเติม

💡

ต้องการเข้าใจอัลกอริธึมการเรียนรู้เชิงลึกที่ขับเคลื่อนกระบวนการดังกล่าวหรือไม่ มุ่งหน้าสู่ของเรา LayoutLM บล็อกอธิบาย

ตาราง

รูปแบบตารางเป็นวิธีที่ได้รับความนิยมมากที่สุดสำหรับการจัดเก็บข้อมูล เนื่องจากรูปแบบสามารถตีความได้ง่ายด้วยสายตามนุษย์ กระบวนการแยกตารางออกจากเอกสารที่สแกนต้องใช้เทคโนโลยีนอกเหนือจากการตรวจจับอักขระ เราต้องตรวจจับเส้นและคุณสมบัติภาพอื่น ๆ เพื่อทำการแยกตารางที่เหมาะสมและแปลงข้อมูลเหล่านั้นเป็นข้อมูลที่มีโครงสร้างสำหรับการคำนวณเพิ่มเติม วิธีการคอมพิวเตอร์วิชันซิสเต็ม (อธิบายโดยละเอียดในหัวข้อต่อไปนี้) ถูกนำมาใช้อย่างมากเพื่อให้ได้การแยกตารางที่มีความแม่นยำสูง

คู่คีย์-ค่า

รูปแบบทางเลือกที่เรามักนำมาใช้ในเอกสารสำหรับการจัดเก็บข้อมูลคือคู่คีย์-ค่า (KVP)

KVP เป็นรายการข้อมูลสองรายการ - คีย์และค่า - เชื่อมโยงกันเป็นหนึ่งเดียว คีย์ถูกใช้เป็นตัวระบุเฉพาะสำหรับค่าที่จะดึงข้อมูล ตัวอย่าง KVP แบบคลาสสิกคือพจนานุกรม โดยที่คำศัพท์คือกุญแจสำคัญ และคำจำกัดความที่เกี่ยวข้องคือค่าต่างๆ คู่เหล่านี้แม้ว่าจะไม่มีใครสังเกตเห็น แต่จริงๆ แล้วมีการใช้บ่อยมากในเอกสาร คำถามในแบบสำรวจ เช่น ชื่อ อายุ และราคาของรายการในใบแจ้งหนี้ล้วนเป็น KVP โดยปริยาย

อย่างไรก็ตาม ไม่เหมือนตาราง KVP มักมีอยู่ในรูปแบบที่ไม่รู้จักและบางครั้งก็เขียนด้วยลายมือเพียงบางส่วน ตัวอย่างเช่น สามารถพิมพ์คีย์ล่วงหน้าในกล่อง และค่าต่างๆ จะถูกเขียนด้วยลายมือเมื่อกรอกแบบฟอร์ม ดังนั้น การค้นหาโครงสร้างพื้นฐานเพื่อทำการสกัด KVP โดยอัตโนมัติจึงเป็นกระบวนการวิจัยที่ต่อเนื่องแม้กระทั่งสำหรับสิ่งอำนวยความสะดวกและห้องปฏิบัติการที่ทันสมัยที่สุด

ตัวเลข

สุดท้าย การแยกหรือ .ก็สำคัญมากเช่นกัน เก็บข้อมูล จากตัวเลขภายในเอกสารที่สแกน ตัวบ่งชี้ทางสถิติ เช่น แผนภูมิวงกลมและแผนภูมิแท่ง มักจะมีข้อมูลที่สำคัญสำหรับเอกสาร กระบวนการดึงข้อมูลที่ดีควรสามารถอนุมานจากคำอธิบายและตัวเลขเพื่อดึงข้อมูลบางส่วนออกจากตัวเลขเพื่อใช้งานต่อไปได้

ต้องการดึงข้อมูลจากเอกสารที่สแกนหรือไม่? ให้นาโนเน็ต™ การหมุนเพื่อความแม่นยำที่สูงขึ้น ความยืดหยุ่นที่มากขึ้น หลังการประมวลผล และการผสานรวมที่หลากหลาย!

เทคโนโลยีเบื้องหลังการดึงข้อมูล

การดึงข้อมูลหมุนรอบสองกระบวนการหลัก: การรู้จำอักขระด้วยแสง (โอซีอาร์) ตามด้วยการประมวลผลภาษาธรรมชาติ (อปท.).

การแยก OCR เป็นกระบวนการของการแปลงรูปภาพข้อความเป็นข้อความที่เข้ารหัสด้วยเครื่อง ในขณะที่ขั้นตอนหลังคือการวิเคราะห์คำเพื่ออนุมานความหมาย มักมาพร้อมกับ OCR เป็นเทคนิคคอมพิวเตอร์วิทัศน์อื่นๆ เช่น การตรวจจับกล่องและเส้นเพื่อแยกประเภทข้อมูลดังกล่าว เช่น ตารางและ KVP เพื่อการดึงข้อมูลที่ครอบคลุมยิ่งขึ้น

การปรับปรุงหลักที่อยู่เบื้องหลังไปป์ไลน์การดึงข้อมูลนั้นเชื่อมโยงอย่างแน่นหนากับความก้าวหน้าในการเรียนรู้เชิงลึกซึ่งมีส่วนอย่างมากในด้านการมองเห็นคอมพิวเตอร์และการประมวลผลภาษาธรรมชาติ (NLP)

การเรียนรู้เชิงลึกคืออะไร?

การเรียนรู้เชิงลึก มีบทบาทสำคัญในเบื้องหลังกระแสความนิยมของปัญญาประดิษฐ์ และได้รับการผลักดันอย่างต่อเนื่องในระดับแนวหน้าในการใช้งานจำนวนมาก ในทางวิศวกรรมแบบดั้งเดิม เป้าหมายของเราคือการออกแบบระบบ/ฟังก์ชันที่สร้างเอาต์พุตจากอินพุตที่กำหนด ในขณะที่การเรียนรู้เชิงลึกอาศัยอินพุตและเอาต์พุตเพื่อค้นหาความสัมพันธ์ระดับกลางที่สามารถขยายไปยังข้อมูลที่มองไม่เห็นใหม่ผ่านสิ่งที่เรียกว่า เครือข่ายประสาท.

โครงข่ายประสาทเทียมหรือการรับรู้หลายชั้น (ม.ป.ป.)เป็นสถาปัตยกรรมการเรียนรู้ของเครื่องที่ได้รับแรงบันดาลใจจากวิธีที่สมองของมนุษย์เรียนรู้ เครือข่ายประกอบด้วยเซลล์ประสาทซึ่งเลียนแบบเซลล์ประสาททางชีววิทยาและ "กระตุ้น" เมื่อได้รับข้อมูลที่แตกต่างกัน ชุดของเซลล์ประสาทก่อตัวเป็นชั้น และหลายชั้นถูกซ้อนกันเพื่อสร้างเครือข่ายเพื่อรองรับวัตถุประสงค์การทำนายของหลายรูปแบบ (เช่น การจำแนกรูปภาพหรือกล่องขอบเขตสำหรับการตรวจจับวัตถุ)

ในด้านการมองเห็นด้วยคอมพิวเตอร์ รูปแบบโครงข่ายประสาทเทียมถูกนำมาใช้อย่างมาก — โครงข่ายประสาทเทียม (ซีเอ็นเอ็น). แทนที่จะใช้เลเยอร์แบบเดิม ซีเอ็นเอ็นใช้เมล็ดแบบหมุนวนที่เลื่อนผ่านเทนเซอร์ (หรือเวกเตอร์มิติสูง) สำหรับการดึงคุณลักษณะ เมื่อรวมกับเลเยอร์เครือข่ายแบบเดิมในตอนท้าย CNN ก็ประสบความสำเร็จอย่างมากในงานที่เกี่ยวข้องกับรูปภาพ และเป็นพื้นฐานสำหรับการสกัด OCR และการตรวจจับคุณสมบัติอื่นๆ

ในทางกลับกัน NLP อาศัยเครือข่ายอีกชุดหนึ่ง ซึ่งเน้นที่ข้อมูลอนุกรมเวลา ต่างจากรูปภาพที่รูปภาพหนึ่งไม่แยกจากกัน การคาดคะเนข้อความจะได้รับประโยชน์อย่างมากหากพิจารณาคำก่อนหน้าหรือหลังด้วย ในช่วงไม่กี่ปีที่ผ่านมา ครอบครัวของเครือข่าย คือ ความทรงจำระยะสั้นระยะยาว (LSTM)ซึ่งใช้ผลลัพธ์ก่อนหน้าเป็นอินพุตเพื่อทำนายผลลัพธ์ปัจจุบัน LSTM แบบทวิภาคีมักถูกนำมาใช้เพื่อปรับปรุงผลลัพธ์การคาดการณ์ โดยจะพิจารณาผลลัพธ์ทั้งก่อนและหลัง อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา แนวความคิดของหม้อแปลงที่ใช้กลไกการเอาใจใส่เริ่มเพิ่มขึ้นเนื่องจากความยืดหยุ่นที่สูงขึ้นซึ่งนำไปสู่ผลลัพธ์ที่ดีกว่าเครือข่ายแบบเดิมที่จัดการอนุกรมเวลาแบบต่อเนื่อง

การประยุกต์ใช้การดึงข้อมูล

เป้าหมายหลักของการแยกข้อมูลคือการแปลงข้อมูลจากเอกสารที่ไม่มีโครงสร้างเป็นรูปแบบที่มีโครงสร้าง ซึ่งการดึงข้อความ ตัวเลข และโครงสร้างข้อมูลที่มีความแม่นยำสูงจะมีประโยชน์มากสำหรับการวิเคราะห์เชิงตัวเลขและเชิงบริบท การวิเคราะห์เหล่านี้มีประโยชน์มากโดยเฉพาะอย่างยิ่งสำหรับธุรกิจ:

บัญชีธุรกิจ

บริษัทธุรกิจและองค์กรขนาดใหญ่ต้องจัดการกับงานเอกสารหลายพันรูปแบบที่มีรูปแบบคล้ายคลึงกันในแต่ละวัน — ธนาคารขนาดใหญ่ได้รับใบสมัครที่เหมือนกันจำนวนมาก และทีมวิจัยต้องวิเคราะห์กองแบบฟอร์มเพื่อทำการวิเคราะห์ทางสถิติ ดังนั้น การทำงานอัตโนมัติของขั้นตอนเริ่มต้นในการดึงข้อมูลจากเอกสารจะช่วยลดความซ้ำซ้อนของทรัพยากรบุคคลได้อย่างมาก และช่วยให้ผู้ปฏิบัติงานมุ่งเน้นไปที่การวิเคราะห์ข้อมูลและการตรวจสอบแอปพลิเคชันแทนการป้อนข้อมูล

กำลังตรวจสอบแอปพลิเคชัน — บริษัทต่างๆ ได้รับใบสมัครมากมาย ไม่ว่าจะเขียนด้วยลายมือหรือผ่านแบบฟอร์มใบสมัครเท่านั้น โดยส่วนใหญ่ แอปพลิเคชันเหล่านี้อาจมาพร้อมกับ ID ส่วนบุคคลเพื่อวัตถุประสงค์ในการตรวจสอบ เอกสารที่สแกนของบัตรประจำตัว เช่น หนังสือเดินทางหรือบัตร มักจะมาเป็นกลุ่มที่มีรูปแบบคล้ายคลึงกัน ดังนั้น ตัวแยกข้อมูลที่เขียนมาอย่างดีจึงสามารถแปลงข้อมูล (ข้อความ ตาราง ตัวเลข KVP) ให้เป็นข้อความที่เครื่องเข้าใจได้อย่างรวดเร็ว ซึ่งสามารถลดชั่วโมงการทำงานลงได้อย่างมาก และมุ่งเน้นไปที่การเลือกแอปพลิเคชันแทนการดึงข้อมูล
การกระทบยอดการชำระเงิน — การกระทบยอดการชำระเงินเป็นกระบวนการเปรียบเทียบใบแจ้งยอดจากธนาคารเพื่อให้แน่ใจว่ามีการจับคู่ตัวเลขระหว่างบัญชี ซึ่งเกี่ยวข้องกับการดึงข้อมูลจากเอกสารอย่างหนัก ซึ่งเป็นปัญหาที่ท้าทายสำหรับบริษัทที่มีขนาดพอสมควรและแหล่งรายได้ที่หลากหลาย การดึงข้อมูลช่วยให้กระบวนการนี้ง่ายขึ้น และช่วยให้พนักงานสามารถมุ่งเน้นไปที่ข้อมูลที่ผิดพลาด และสำรวจเหตุการณ์ที่อาจเป็นการฉ้อโกงเกี่ยวกับกระแสเงินสด
การวิเคราะห์ทางสถิติ — คำติชมจากลูกค้าหรือผู้เข้าร่วมการทดลองถูกใช้โดยองค์กรและองค์กรต่างๆ เพื่อปรับปรุงผลิตภัณฑ์และบริการของตน และการประเมินผลตอบรับที่ครอบคลุมมักจะต้องมีการวิเคราะห์ทางสถิติ อย่างไรก็ตาม ข้อมูลการสำรวจอาจมีหลายรูปแบบหรือซ่อนอยู่ระหว่างข้อความที่มีรูปแบบต่างๆ การดึงข้อมูลสามารถทำให้กระบวนการง่ายขึ้นโดยชี้ให้เห็นข้อมูลที่ชัดเจนจากเอกสารเป็นชุดๆ ทำให้กระบวนการค้นหากระบวนการที่มีประโยชน์ง่ายขึ้น และเพิ่มประสิทธิภาพในท้ายที่สุด
แบ่งปันบันทึกในอดีต — ตั้งแต่การดูแลสุขภาพไปจนถึงการเปลี่ยนบริการธนาคาร อุตสาหกรรมขนาดใหญ่มักต้องการข้อมูลลูกค้าใหม่ซึ่งอาจมีอยู่แล้วในที่อื่น ตัวอย่างเช่น ผู้ป่วยที่เปลี่ยนโรงพยาบาลเนื่องจากการเคลื่อนย้ายอาจมีเวชระเบียนที่มีอยู่แล้วซึ่งอาจเป็นประโยชน์ต่อโรงพยาบาลแห่งใหม่ ในกรณีเช่นนี้ ซอฟต์แวร์ดึงข้อมูลที่ดีจะมีประโยชน์ เนื่องจากสิ่งที่จำเป็นต้องมีคือสำหรับแต่ละคนในการนำประวัติการสแกนของบันทึกไปยังโรงพยาบาลแห่งใหม่เพื่อให้พวกเขากรอกข้อมูลทั้งหมดโดยอัตโนมัติ ไม่เพียงแต่จะสะดวกเท่านั้น แต่ยังสามารถหลีกเลี่ยงความเสี่ยงที่กว้างขวางโดยเฉพาะอย่างยิ่งในอุตสาหกรรมการดูแลสุขภาพที่มีการมองข้ามบันทึกผู้ป่วยที่สำคัญ

สอน

เพื่อให้มุมมองที่ชัดเจนยิ่งขึ้นเกี่ยวกับวิธีการดึงข้อมูล เราจึงแสดงวิธีการสองชุดในการดำเนินการดึงข้อมูลจากการสแกนเอกสาร

สร้างจากศูนย์

หนึ่งอาจสร้างเอ็นจิ้น OCR แยกข้อมูลอย่างง่ายผ่านเอ็นจิ้น PyTesseract ดังต่อไปนี้:

try: from PIL import Image
except ImportError: import Image
import pytesseract # If you don't have tesseract executable in your PATH, include the following:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# Example tesseract_cmd = r'C:Program Files (x86)Tesseract-OCRtesseract' # Simple image to string
print(pytesseract.image_to_string(Image.open('test.png'))) # List of available languages
print(pytesseract.get_languages(config='')) # French text image to string
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra')) # In order to bypass the image conversions of pytesseract, just use relative or absolute image path
# NOTE: In this case you should provide tesseract supported images or tesseract will return error
print(pytesseract.image_to_string('test.png')) # Batch processing with a single file containing the list of multiple image file paths
print(pytesseract.image_to_string('images.txt')) # Timeout/terminate the tesseract job after a period of time
try: print(pytesseract.image_to_string('test.jpg', timeout=2)) # Timeout after 2 seconds print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # Timeout after half a second
except RuntimeError as timeout_error: # Tesseract processing is terminated pass # Get bounding box estimates
print(pytesseract.image_to_boxes(Image.open('test.png'))) # Get verbose data including boxes, confidences, line and page numbers
print(pytesseract.image_to_data(Image.open('test.png'))) # Get information about orientation and script detection
print(pytesseract.image_to_osd(Image.open('test.png'))) # Get a searchable PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f: f.write(pdf) # pdf type is bytes by default # Get HOCR output
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr') # Get ALTO XML output
xml = pytesseract.image_to_alto_xml('test.png')

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับรหัส คุณสามารถชำระเงินได้ที่ Official เอกสาร

พูดง่ายๆ ก็คือ โค้ดจะดึงข้อมูล เช่น ข้อความและกรอบล้อมรอบออกจากรูปภาพที่กำหนด แม้ว่าจะมีประโยชน์พอสมควร แต่เครื่องยนต์ไม่ได้แข็งแกร่งเท่าที่มีให้โดยโซลูชันขั้นสูง เนื่องจากมีพลังในการคำนวณสำหรับการฝึกอบรมจำนวนมาก

การใช้ Google Document API

 def async_detect_document(gcs_source_uri, gcs_destination_uri):
"""OCR with PDF/TIFF as source files on GCS""" import json import re from google.cloud import vision from google.cloud import storage # Supported mime_types are: 'application/pdf' and 'image/tiff' mime_type = 'application/pdf' # How many pages should be grouped into each json output file. batch_size = 2 client = vision.ImageAnnotatorClient() feature = vision.Feature( type_=vision.Feature.Type.DOCUMENT_TEXT_DETECTION) gcs_source = vision.GcsSource(uri=gcs_source_uri) input_config = vision.InputConfig( gcs_source=gcs_source, mime_type=mime_type) gcs_destination = vision.GcsDestination(uri=gcs_destination_uri) output_config = vision.OutputConfig( gcs_destination=gcs_destination, batch_size=batch_size) async_request = vision.AsyncAnnotateFileRequest( features=[feature], input_config=input_config, output_config=output_config) operation = client.async_batch_annotate_files( requests=[async_request]) print('Waiting for the operation to finish.') operation.result(timeout=420) # Once the request has completed and the output has been # written to GCS, we can list all the output files. storage_client = storage.Client() match = re.match(r'gs://([^/]+)/(.+)', gcs_destination_uri) bucket_name = match.group(1) prefix = match.group(2) bucket = storage_client.get_bucket(bucket_name) # List objects with the given prefix. blob_list = list(bucket.list_blobs(prefix=prefix)) print('Output files:') for blob in blob_list: print(blob.name) # Process the first output file from GCS. # Since we specified batch_size=2, the first response contains # the first two pages of the input file. output = blob_list[0] json_string = output.download_as_string() response = json.loads(json_string) # The actual response for the first page of the input file. first_page_response = response['responses'][0] annotation = first_page_response['fullTextAnnotation'] # Here we print the full text from the first page. # The response contains more information: # annotation/pages/blocks/paragraphs/words/symbols # including confidence scores and bounding boxes print('Full text:n') print(annotation['text'])

ในที่สุด เอกสาร AI ของ Google ช่วยให้คุณสามารถดึงข้อมูลจำนวนมากจากเอกสารที่มีความแม่นยำสูง นอกจากนี้ยังมีบริการสำหรับการใช้งานเฉพาะเช่นกัน รวมถึงการดึงข้อความสำหรับทั้งภาพปกติและในภาพเสริม

โปรดดูที่ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม สำหรับข้อมูลเพิ่มเติม

โซลูชั่นปัจจุบันที่นำเสนอการดึงข้อมูล

นอกจากบริษัทขนาดใหญ่ที่มี API สำหรับการดึงข้อมูลเอกสารแล้ว ยังมีโซลูชันอีกมากมายที่ให้ความแม่นยำสูง PDF OCR บริการ เรานำเสนอตัวเลือกต่างๆ ของ PDF OCR ที่เชี่ยวชาญในด้านต่างๆ รวมทั้งต้นแบบการวิจัยล่าสุดบางตัวที่ดูเหมือนจะให้ผลลัพธ์ที่น่าพึงพอใจ*:

*หมายเหตุ: มีบริการ OCR หลายบริการที่กำหนดเป้าหมายไปยังงานต่างๆ เช่น รูปภาพในธรรมชาติ เราข้ามบริการเหล่านั้นไปเนื่องจากเรากำลังเน้นที่การอ่านเอกสาร PDF เท่านั้น

Google API — ในฐานะหนึ่งในผู้ให้บริการออนไลน์รายใหญ่ที่สุด Google ให้ผลลัพธ์ที่น่าทึ่งในการดึงเอกสารด้วยเทคโนโลยีคอมพิวเตอร์วิทัศน์ผู้บุกเบิกของพวกเขา สามารถใช้บริการได้ฟรีหากการใช้งานค่อนข้างต่ำ แต่ราคาก็จะเพิ่มขึ้นตามการเรียก API ที่เพิ่มขึ้น
ผู้อ่านลึก — Deep Reader เป็นงานวิจัยที่ตีพิมพ์ในการประชุม ACCV 2019 โดยรวมเอาสถาปัตยกรรมเครือข่ายอันล้ำสมัยหลายตัวเพื่อทำงานต่างๆ เช่น การจับคู่เอกสาร, การดึงข้อความและรูปภาพที่ปฏิเสธ มีคุณสมบัติเพิ่มเติม เช่น ตารางและการดึงคู่คีย์-ค่า-ค่าที่อนุญาตให้ดึงข้อมูลและบันทึกข้อมูลในลักษณะที่เป็นระเบียบ
นาโนเน็ต™ — ด้วยทีมการเรียนรู้เชิงลึกที่มีทักษะสูง Nanonets™ PDF OCR จึงเป็นเทมเพลตและกฎที่เป็นอิสระอย่างสมบูรณ์ ดังนั้น Nanonets™ ไม่เพียงสามารถทำงานกับ PDF บางประเภทเท่านั้น แต่ยังใช้กับเอกสารประเภทใดก็ได้สำหรับการดึงข้อความ

สรุป

โดยสรุป บทความนี้นำเสนอคำอธิบายอย่างละเอียดเกี่ยวกับการดึงข้อมูลจากเอกสารที่สแกน รวมถึงความท้าทายเบื้องหลังและเทคโนโลยีที่จำเป็นสำหรับกระบวนการนี้

มีการนำเสนอบทแนะนำสองวิธีสำหรับวิธีการที่แตกต่างกัน และวิธีแก้ไขปัญหาปัจจุบันที่นำเสนอแบบนอกกรอบก็จะถูกนำเสนอสำหรับการอ้างอิงด้วย

ประทับเวลา: May 17, 2022

เพิ่มเติมจาก AI และการเรียนรู้ของเครื่อง

Business Process Automation คืออะไร? | คู่มือ BPA

คลัสเตอร์ต้นทาง:

AI และการเรียนรู้ของเครื่อง

โหนดต้นทาง: 1863964

ประทับเวลา: กรกฎาคม 21, 2023

เพิ่มประสิทธิภาพ Sage Intacct ด้วยการผสานรวม

AI และการเรียนรู้ของเครื่อง

โหนดต้นทาง: 1901058

ประทับเวลา: ตุลาคม 11, 2023

ดึงข้อมูลจากเอกสารที่สแกน

เผยแพร่ซ้ำโดยเพลโต

บทนำ

การดึงข้อมูลคืออะไร?

ข้อมูลข้อความ

ตาราง

คู่คีย์-ค่า

ตัวเลข

เทคโนโลยีเบื้องหลังการดึงข้อมูล

การเรียนรู้เชิงลึกคืออะไร?

การประยุกต์ใช้การดึงข้อมูล

บัญชีธุรกิจ

สอน

สร้างจากศูนย์

การใช้ Google Document API

โซลูชั่นปัจจุบันที่นำเสนอการดึงข้อมูล

สรุป

เพิ่มเติมจาก AI และการเรียนรู้ของเครื่อง

เพิ่มประสิทธิภาพ Sage Intacct ด้วยการผสานรวม

แอปเครื่องสแกนใบเสร็จ 10 อันดับแรกสำหรับการจัดการใบเสร็จรับเงินที่ง่ายดาย

วิธีแปลงไฟล์ข้อความเป็น Excel

ระบบอัตโนมัติด้านประกันภัย: ประโยชน์ กรณีการใช้งาน และอื่นๆ

การโอนเงินผ่านธนาคาร: มันทำงานอย่างไรและสิ่งที่ต้องพิจารณา?

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้