ต้องการดึงข้อมูลจากเอกสารที่สแกนหรือไม่? พยายาม นาโนเน็ต™ สูง เครื่องสแกน OCR แบบ AI เพื่อดึงและจัดระเบียบข้อมูลจาก สแกนเอกสาร อัตโนมัติ.
บทนำ
ในขณะที่โลกเปลี่ยนจากกระดาษและลายมือเป็นเอกสารดิจิทัลเพื่อความสะดวก ความสำคัญของการแปลงรูปภาพและเอกสารที่สแกนให้เป็นข้อมูลที่มีความหมายก็พุ่งสูงขึ้นอย่างรวดเร็ว
หน่วยงานและองค์กรวิจัยจำนวนมาก (เช่น Google, AWS, Nanonets เป็นต้น) ได้ให้ความสำคัญกับเทคโนโลยีในด้านการมองเห็นด้วยคอมพิวเตอร์และการประมวลผลภาษาธรรมชาติ (NLP) เพื่อให้ทันต่อความจำเป็นในการดึงข้อมูลเอกสารที่มีความแม่นยำสูง
การเบ่งบานของเทคโนโลยีการเรียนรู้เชิงลึกทำให้มั่นใจได้ว่าข้อมูลที่สามารถดึงออกมาได้จะก้าวกระโดดครั้งใหญ่ เราไม่ได้ถูกจำกัดจากการแยกข้อความเท่านั้น แต่ยังรวมถึงโครงสร้างข้อมูลอื่นๆ เช่น ตารางและคู่คีย์-ค่า โซลูชั่นมากมายในปัจจุบันมีผลิตภัณฑ์หลากหลายเพื่อตอบสนองความต้องการของบุคคลและเจ้าของธุรกิจในการดึงข้อมูลเอกสาร
บทความนี้จะเจาะลึกถึงเทคโนโลยีปัจจุบันที่ใช้สำหรับการดึงข้อมูลจากเอกสารที่สแกน ตามด้วยบทแนะนำการใช้งานจริงสั้นๆ ใน Python นอกจากนี้ เราจะพิจารณาโซลูชันยอดนิยมบางรายการในตลาดที่นำเสนอข้อเสนอที่ดีที่สุดในสาขานี้
การดึงข้อมูลคืออะไร?
การดึงข้อมูลเป็นกระบวนการแปลงข้อมูลที่ไม่มีโครงสร้างเป็นข้อมูลที่ตีความได้โดยโปรแกรมเพื่อให้มนุษย์ประมวลผลข้อมูลเพิ่มเติมได้ ในที่นี้ เราแสดงรายการข้อมูลทั่วไปหลายประเภทที่จะดึงออกจากเอกสารที่สแกน
ข้อมูลข้อความ
งานทั่วไปและสำคัญที่สุดในการดึงข้อมูลจากเอกสารที่สแกนคือการแยกข้อความ กระบวนการนี้ แม้จะดูเหมือนตรงไปตรงมา แต่ในความเป็นจริง เป็นเรื่องยากมาก เนื่องจากเอกสารที่สแกนมักถูกนำเสนอในรูปแบบของภาพ นอกจากนี้ วิธีการแยกยังขึ้นอยู่กับประเภทของข้อความเป็นอย่างมาก แม้ว่าข้อความจะมีอยู่ในรูปแบบที่พิมพ์หนาแน่นเป็นส่วนใหญ่ ความสามารถในการแยกข้อความที่กระจัดกระจายออกจากเอกสารที่สแกนไม่ค่อยดีหรือจากจดหมายที่เขียนด้วยลายมือที่มีรูปแบบที่แตกต่างกันอย่างมากก็มีความสำคัญเท่าเทียมกัน กระบวนการดังกล่าวจะช่วยให้โปรแกรมสามารถแปลงรูปภาพเป็นข้อความที่เข้ารหัสด้วยเครื่อง ซึ่งเราสามารถจัดระเบียบรูปภาพเพิ่มเติมจากข้อมูลที่ไม่มีโครงสร้าง (โดยไม่ต้องจัดรูปแบบบางอย่าง) เป็นข้อมูลที่มีโครงสร้างสำหรับการวิเคราะห์เพิ่มเติม
ตาราง
รูปแบบตารางเป็นวิธีที่ได้รับความนิยมมากที่สุดสำหรับการจัดเก็บข้อมูล เนื่องจากรูปแบบสามารถตีความได้ง่ายด้วยสายตามนุษย์ กระบวนการแยกตารางออกจากเอกสารที่สแกนต้องใช้เทคโนโลยีนอกเหนือจากการตรวจจับอักขระ เราต้องตรวจจับเส้นและคุณสมบัติภาพอื่น ๆ เพื่อทำการแยกตารางที่เหมาะสมและแปลงข้อมูลเหล่านั้นเป็นข้อมูลที่มีโครงสร้างสำหรับการคำนวณเพิ่มเติม วิธีการคอมพิวเตอร์วิชันซิสเต็ม (อธิบายโดยละเอียดในหัวข้อต่อไปนี้) ถูกนำมาใช้อย่างมากเพื่อให้ได้การแยกตารางที่มีความแม่นยำสูง
คู่คีย์-ค่า
รูปแบบทางเลือกที่เรามักนำมาใช้ในเอกสารสำหรับการจัดเก็บข้อมูลคือคู่คีย์-ค่า (KVP)
KVP เป็นรายการข้อมูลสองรายการ - คีย์และค่า - เชื่อมโยงกันเป็นหนึ่งเดียว คีย์ถูกใช้เป็นตัวระบุเฉพาะสำหรับค่าที่จะดึงข้อมูล ตัวอย่าง KVP แบบคลาสสิกคือพจนานุกรม โดยที่คำศัพท์คือกุญแจสำคัญ และคำจำกัดความที่เกี่ยวข้องคือค่าต่างๆ คู่เหล่านี้แม้ว่าจะไม่มีใครสังเกตเห็น แต่จริงๆ แล้วมีการใช้บ่อยมากในเอกสาร คำถามในแบบสำรวจ เช่น ชื่อ อายุ และราคาของรายการในใบแจ้งหนี้ล้วนเป็น KVP โดยปริยาย
อย่างไรก็ตาม ไม่เหมือนตาราง KVP มักมีอยู่ในรูปแบบที่ไม่รู้จักและบางครั้งก็เขียนด้วยลายมือเพียงบางส่วน ตัวอย่างเช่น สามารถพิมพ์คีย์ล่วงหน้าในกล่อง และค่าต่างๆ จะถูกเขียนด้วยลายมือเมื่อกรอกแบบฟอร์ม ดังนั้น การค้นหาโครงสร้างพื้นฐานเพื่อทำการสกัด KVP โดยอัตโนมัติจึงเป็นกระบวนการวิจัยที่ต่อเนื่องแม้กระทั่งสำหรับสิ่งอำนวยความสะดวกและห้องปฏิบัติการที่ทันสมัยที่สุด
ตัวเลข
สุดท้าย การแยกหรือ .ก็สำคัญมากเช่นกัน เก็บข้อมูล จากตัวเลขภายในเอกสารที่สแกน ตัวบ่งชี้ทางสถิติ เช่น แผนภูมิวงกลมและแผนภูมิแท่ง มักจะมีข้อมูลที่สำคัญสำหรับเอกสาร กระบวนการดึงข้อมูลที่ดีควรสามารถอนุมานจากคำอธิบายและตัวเลขเพื่อดึงข้อมูลบางส่วนออกจากตัวเลขเพื่อใช้งานต่อไปได้
ต้องการดึงข้อมูลจากเอกสารที่สแกนหรือไม่? ให้นาโนเน็ต™ การหมุนเพื่อความแม่นยำที่สูงขึ้น ความยืดหยุ่นที่มากขึ้น หลังการประมวลผล และการผสานรวมที่หลากหลาย!
เทคโนโลยีเบื้องหลังการดึงข้อมูล
การดึงข้อมูลหมุนรอบสองกระบวนการหลัก: การรู้จำอักขระด้วยแสง (โอซีอาร์) ตามด้วยการประมวลผลภาษาธรรมชาติ (อปท.).
การแยก OCR เป็นกระบวนการของการแปลงรูปภาพข้อความเป็นข้อความที่เข้ารหัสด้วยเครื่อง ในขณะที่ขั้นตอนหลังคือการวิเคราะห์คำเพื่ออนุมานความหมาย มักมาพร้อมกับ OCR เป็นเทคนิคคอมพิวเตอร์วิทัศน์อื่นๆ เช่น การตรวจจับกล่องและเส้นเพื่อแยกประเภทข้อมูลดังกล่าว เช่น ตารางและ KVP เพื่อการดึงข้อมูลที่ครอบคลุมยิ่งขึ้น
การปรับปรุงหลักที่อยู่เบื้องหลังไปป์ไลน์การดึงข้อมูลนั้นเชื่อมโยงอย่างแน่นหนากับความก้าวหน้าในการเรียนรู้เชิงลึกซึ่งมีส่วนอย่างมากในด้านการมองเห็นคอมพิวเตอร์และการประมวลผลภาษาธรรมชาติ (NLP)
การเรียนรู้เชิงลึกคืออะไร?
การเรียนรู้เชิงลึก มีบทบาทสำคัญในเบื้องหลังกระแสความนิยมของปัญญาประดิษฐ์ และได้รับการผลักดันอย่างต่อเนื่องในระดับแนวหน้าในการใช้งานจำนวนมาก ในทางวิศวกรรมแบบดั้งเดิม เป้าหมายของเราคือการออกแบบระบบ/ฟังก์ชันที่สร้างเอาต์พุตจากอินพุตที่กำหนด ในขณะที่การเรียนรู้เชิงลึกอาศัยอินพุตและเอาต์พุตเพื่อค้นหาความสัมพันธ์ระดับกลางที่สามารถขยายไปยังข้อมูลที่มองไม่เห็นใหม่ผ่านสิ่งที่เรียกว่า เครือข่ายประสาท.
โครงข่ายประสาทเทียมหรือการรับรู้หลายชั้น (ม.ป.ป.)เป็นสถาปัตยกรรมการเรียนรู้ของเครื่องที่ได้รับแรงบันดาลใจจากวิธีที่สมองของมนุษย์เรียนรู้ เครือข่ายประกอบด้วยเซลล์ประสาทซึ่งเลียนแบบเซลล์ประสาททางชีววิทยาและ "กระตุ้น" เมื่อได้รับข้อมูลที่แตกต่างกัน ชุดของเซลล์ประสาทก่อตัวเป็นชั้น และหลายชั้นถูกซ้อนกันเพื่อสร้างเครือข่ายเพื่อรองรับวัตถุประสงค์การทำนายของหลายรูปแบบ (เช่น การจำแนกรูปภาพหรือกล่องขอบเขตสำหรับการตรวจจับวัตถุ)
ในด้านการมองเห็นด้วยคอมพิวเตอร์ รูปแบบโครงข่ายประสาทเทียมถูกนำมาใช้อย่างมาก — โครงข่ายประสาทเทียม (ซีเอ็นเอ็น). แทนที่จะใช้เลเยอร์แบบเดิม ซีเอ็นเอ็นใช้เมล็ดแบบหมุนวนที่เลื่อนผ่านเทนเซอร์ (หรือเวกเตอร์มิติสูง) สำหรับการดึงคุณลักษณะ เมื่อรวมกับเลเยอร์เครือข่ายแบบเดิมในตอนท้าย CNN ก็ประสบความสำเร็จอย่างมากในงานที่เกี่ยวข้องกับรูปภาพ และเป็นพื้นฐานสำหรับการสกัด OCR และการตรวจจับคุณสมบัติอื่นๆ
ในทางกลับกัน NLP อาศัยเครือข่ายอีกชุดหนึ่ง ซึ่งเน้นที่ข้อมูลอนุกรมเวลา ต่างจากรูปภาพที่รูปภาพหนึ่งไม่แยกจากกัน การคาดคะเนข้อความจะได้รับประโยชน์อย่างมากหากพิจารณาคำก่อนหน้าหรือหลังด้วย ในช่วงไม่กี่ปีที่ผ่านมา ครอบครัวของเครือข่าย คือ ความทรงจำระยะสั้นระยะยาว (LSTM)ซึ่งใช้ผลลัพธ์ก่อนหน้าเป็นอินพุตเพื่อทำนายผลลัพธ์ปัจจุบัน LSTM แบบทวิภาคีมักถูกนำมาใช้เพื่อปรับปรุงผลลัพธ์การคาดการณ์ โดยจะพิจารณาผลลัพธ์ทั้งก่อนและหลัง อย่างไรก็ตาม ในช่วงไม่กี่ปีที่ผ่านมา แนวความคิดของหม้อแปลงที่ใช้กลไกการเอาใจใส่เริ่มเพิ่มขึ้นเนื่องจากความยืดหยุ่นที่สูงขึ้นซึ่งนำไปสู่ผลลัพธ์ที่ดีกว่าเครือข่ายแบบเดิมที่จัดการอนุกรมเวลาแบบต่อเนื่อง
การประยุกต์ใช้การดึงข้อมูล
เป้าหมายหลักของการแยกข้อมูลคือการแปลงข้อมูลจากเอกสารที่ไม่มีโครงสร้างเป็นรูปแบบที่มีโครงสร้าง ซึ่งการดึงข้อความ ตัวเลข และโครงสร้างข้อมูลที่มีความแม่นยำสูงจะมีประโยชน์มากสำหรับการวิเคราะห์เชิงตัวเลขและเชิงบริบท การวิเคราะห์เหล่านี้มีประโยชน์มากโดยเฉพาะอย่างยิ่งสำหรับธุรกิจ:
บัญชีธุรกิจ
บริษัทธุรกิจและองค์กรขนาดใหญ่ต้องจัดการกับงานเอกสารหลายพันรูปแบบที่มีรูปแบบคล้ายคลึงกันในแต่ละวัน — ธนาคารขนาดใหญ่ได้รับใบสมัครที่เหมือนกันจำนวนมาก และทีมวิจัยต้องวิเคราะห์กองแบบฟอร์มเพื่อทำการวิเคราะห์ทางสถิติ ดังนั้น การทำงานอัตโนมัติของขั้นตอนเริ่มต้นในการดึงข้อมูลจากเอกสารจะช่วยลดความซ้ำซ้อนของทรัพยากรบุคคลได้อย่างมาก และช่วยให้ผู้ปฏิบัติงานมุ่งเน้นไปที่การวิเคราะห์ข้อมูลและการตรวจสอบแอปพลิเคชันแทนการป้อนข้อมูล
- กำลังตรวจสอบแอปพลิเคชัน — บริษัทต่างๆ ได้รับใบสมัครมากมาย ไม่ว่าจะเขียนด้วยลายมือหรือผ่านแบบฟอร์มใบสมัครเท่านั้น โดยส่วนใหญ่ แอปพลิเคชันเหล่านี้อาจมาพร้อมกับ ID ส่วนบุคคลเพื่อวัตถุประสงค์ในการตรวจสอบ เอกสารที่สแกนของบัตรประจำตัว เช่น หนังสือเดินทางหรือบัตร มักจะมาเป็นกลุ่มที่มีรูปแบบคล้ายคลึงกัน ดังนั้น ตัวแยกข้อมูลที่เขียนมาอย่างดีจึงสามารถแปลงข้อมูล (ข้อความ ตาราง ตัวเลข KVP) ให้เป็นข้อความที่เครื่องเข้าใจได้อย่างรวดเร็ว ซึ่งสามารถลดชั่วโมงการทำงานลงได้อย่างมาก และมุ่งเน้นไปที่การเลือกแอปพลิเคชันแทนการดึงข้อมูล
- การกระทบยอดการชำระเงิน — การกระทบยอดการชำระเงินเป็นกระบวนการเปรียบเทียบใบแจ้งยอดจากธนาคารเพื่อให้แน่ใจว่ามีการจับคู่ตัวเลขระหว่างบัญชี ซึ่งเกี่ยวข้องกับการดึงข้อมูลจากเอกสารอย่างหนัก ซึ่งเป็นปัญหาที่ท้าทายสำหรับบริษัทที่มีขนาดพอสมควรและแหล่งรายได้ที่หลากหลาย การดึงข้อมูลช่วยให้กระบวนการนี้ง่ายขึ้น และช่วยให้พนักงานสามารถมุ่งเน้นไปที่ข้อมูลที่ผิดพลาด และสำรวจเหตุการณ์ที่อาจเป็นการฉ้อโกงเกี่ยวกับกระแสเงินสด
- การวิเคราะห์ทางสถิติ — คำติชมจากลูกค้าหรือผู้เข้าร่วมการทดลองถูกใช้โดยองค์กรและองค์กรต่างๆ เพื่อปรับปรุงผลิตภัณฑ์และบริการของตน และการประเมินผลตอบรับที่ครอบคลุมมักจะต้องมีการวิเคราะห์ทางสถิติ อย่างไรก็ตาม ข้อมูลการสำรวจอาจมีหลายรูปแบบหรือซ่อนอยู่ระหว่างข้อความที่มีรูปแบบต่างๆ การดึงข้อมูลสามารถทำให้กระบวนการง่ายขึ้นโดยชี้ให้เห็นข้อมูลที่ชัดเจนจากเอกสารเป็นชุดๆ ทำให้กระบวนการค้นหากระบวนการที่มีประโยชน์ง่ายขึ้น และเพิ่มประสิทธิภาพในท้ายที่สุด
- แบ่งปันบันทึกในอดีต — ตั้งแต่การดูแลสุขภาพไปจนถึงการเปลี่ยนบริการธนาคาร อุตสาหกรรมขนาดใหญ่มักต้องการข้อมูลลูกค้าใหม่ซึ่งอาจมีอยู่แล้วในที่อื่น ตัวอย่างเช่น ผู้ป่วยที่เปลี่ยนโรงพยาบาลเนื่องจากการเคลื่อนย้ายอาจมีเวชระเบียนที่มีอยู่แล้วซึ่งอาจเป็นประโยชน์ต่อโรงพยาบาลแห่งใหม่ ในกรณีเช่นนี้ ซอฟต์แวร์ดึงข้อมูลที่ดีจะมีประโยชน์ เนื่องจากสิ่งที่จำเป็นต้องมีคือสำหรับแต่ละคนในการนำประวัติการสแกนของบันทึกไปยังโรงพยาบาลแห่งใหม่เพื่อให้พวกเขากรอกข้อมูลทั้งหมดโดยอัตโนมัติ ไม่เพียงแต่จะสะดวกเท่านั้น แต่ยังสามารถหลีกเลี่ยงความเสี่ยงที่กว้างขวางโดยเฉพาะอย่างยิ่งในอุตสาหกรรมการดูแลสุขภาพที่มีการมองข้ามบันทึกผู้ป่วยที่สำคัญ
ต้องการดึงข้อมูลจากเอกสารที่สแกนหรือไม่? ให้นาโนเน็ต™ การหมุนเพื่อความแม่นยำที่สูงขึ้น ความยืดหยุ่นที่มากขึ้น หลังการประมวลผล และการผสานรวมที่หลากหลาย!
สอน
เพื่อให้มุมมองที่ชัดเจนยิ่งขึ้นเกี่ยวกับวิธีการดึงข้อมูล เราจึงแสดงวิธีการสองชุดในการดำเนินการดึงข้อมูลจากการสแกนเอกสาร
สร้างจากศูนย์
หนึ่งอาจสร้างเอ็นจิ้น OCR แยกข้อมูลอย่างง่ายผ่านเอ็นจิ้น PyTesseract ดังต่อไปนี้:
try: from PIL import Image
except ImportError: import Image
import pytesseract # If you don't have tesseract executable in your PATH, include the following:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# Example tesseract_cmd = r'C:Program Files (x86)Tesseract-OCRtesseract' # Simple image to string
print(pytesseract.image_to_string(Image.open('test.png'))) # List of available languages
print(pytesseract.get_languages(config='')) # French text image to string
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra')) # In order to bypass the image conversions of pytesseract, just use relative or absolute image path
# NOTE: In this case you should provide tesseract supported images or tesseract will return error
print(pytesseract.image_to_string('test.png')) # Batch processing with a single file containing the list of multiple image file paths
print(pytesseract.image_to_string('images.txt')) # Timeout/terminate the tesseract job after a period of time
try: print(pytesseract.image_to_string('test.jpg', timeout=2)) # Timeout after 2 seconds print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # Timeout after half a second
except RuntimeError as timeout_error: # Tesseract processing is terminated pass # Get bounding box estimates
print(pytesseract.image_to_boxes(Image.open('test.png'))) # Get verbose data including boxes, confidences, line and page numbers
print(pytesseract.image_to_data(Image.open('test.png'))) # Get information about orientation and script detection
print(pytesseract.image_to_osd(Image.open('test.png'))) # Get a searchable PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f: f.write(pdf) # pdf type is bytes by default # Get HOCR output
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr') # Get ALTO XML output
xml = pytesseract.image_to_alto_xml('test.png')
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับรหัส คุณสามารถชำระเงินได้ที่ Official เอกสาร
พูดง่ายๆ ก็คือ โค้ดจะดึงข้อมูล เช่น ข้อความและกรอบล้อมรอบออกจากรูปภาพที่กำหนด แม้ว่าจะมีประโยชน์พอสมควร แต่เครื่องยนต์ไม่ได้แข็งแกร่งเท่าที่มีให้โดยโซลูชันขั้นสูง เนื่องจากมีพลังในการคำนวณสำหรับการฝึกอบรมจำนวนมาก
การใช้ Google Document API
def async_detect_document(gcs_source_uri, gcs_destination_uri):
"""OCR with PDF/TIFF as source files on GCS""" import json import re from google.cloud import vision from google.cloud import storage # Supported mime_types are: 'application/pdf' and 'image/tiff' mime_type = 'application/pdf' # How many pages should be grouped into each json output file. batch_size = 2 client = vision.ImageAnnotatorClient() feature = vision.Feature( type_=vision.Feature.Type.DOCUMENT_TEXT_DETECTION) gcs_source = vision.GcsSource(uri=gcs_source_uri) input_config = vision.InputConfig( gcs_source=gcs_source, mime_type=mime_type) gcs_destination = vision.GcsDestination(uri=gcs_destination_uri) output_config = vision.OutputConfig( gcs_destination=gcs_destination, batch_size=batch_size) async_request = vision.AsyncAnnotateFileRequest( features=[feature], input_config=input_config, output_config=output_config) operation = client.async_batch_annotate_files( requests=[async_request]) print('Waiting for the operation to finish.') operation.result(timeout=420) # Once the request has completed and the output has been # written to GCS, we can list all the output files. storage_client = storage.Client() match = re.match(r'gs://([^/]+)/(.+)', gcs_destination_uri) bucket_name = match.group(1) prefix = match.group(2) bucket = storage_client.get_bucket(bucket_name) # List objects with the given prefix. blob_list = list(bucket.list_blobs(prefix=prefix)) print('Output files:') for blob in blob_list: print(blob.name) # Process the first output file from GCS. # Since we specified batch_size=2, the first response contains # the first two pages of the input file. output = blob_list[0] json_string = output.download_as_string() response = json.loads(json_string) # The actual response for the first page of the input file. first_page_response = response['responses'][0] annotation = first_page_response['fullTextAnnotation'] # Here we print the full text from the first page. # The response contains more information: # annotation/pages/blocks/paragraphs/words/symbols # including confidence scores and bounding boxes print('Full text:n') print(annotation['text'])
ในที่สุด เอกสาร AI ของ Google ช่วยให้คุณสามารถดึงข้อมูลจำนวนมากจากเอกสารที่มีความแม่นยำสูง นอกจากนี้ยังมีบริการสำหรับการใช้งานเฉพาะเช่นกัน รวมถึงการดึงข้อความสำหรับทั้งภาพปกติและในภาพเสริม
โปรดดูที่ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม สำหรับข้อมูลเพิ่มเติม
โซลูชั่นปัจจุบันที่นำเสนอการดึงข้อมูล
นอกจากบริษัทขนาดใหญ่ที่มี API สำหรับการดึงข้อมูลเอกสารแล้ว ยังมีโซลูชันอีกมากมายที่ให้ความแม่นยำสูง PDF OCR บริการ เรานำเสนอตัวเลือกต่างๆ ของ PDF OCR ที่เชี่ยวชาญในด้านต่างๆ รวมทั้งต้นแบบการวิจัยล่าสุดบางตัวที่ดูเหมือนจะให้ผลลัพธ์ที่น่าพึงพอใจ*:
*หมายเหตุ: มีบริการ OCR หลายบริการที่กำหนดเป้าหมายไปยังงานต่างๆ เช่น รูปภาพในธรรมชาติ เราข้ามบริการเหล่านั้นไปเนื่องจากเรากำลังเน้นที่การอ่านเอกสาร PDF เท่านั้น
- Google API — ในฐานะหนึ่งในผู้ให้บริการออนไลน์รายใหญ่ที่สุด Google ให้ผลลัพธ์ที่น่าทึ่งในการดึงเอกสารด้วยเทคโนโลยีคอมพิวเตอร์วิทัศน์ผู้บุกเบิกของพวกเขา สามารถใช้บริการได้ฟรีหากการใช้งานค่อนข้างต่ำ แต่ราคาก็จะเพิ่มขึ้นตามการเรียก API ที่เพิ่มขึ้น
- ผู้อ่านลึก — Deep Reader เป็นงานวิจัยที่ตีพิมพ์ในการประชุม ACCV 2019 โดยรวมเอาสถาปัตยกรรมเครือข่ายอันล้ำสมัยหลายตัวเพื่อทำงานต่างๆ เช่น การจับคู่เอกสาร, การดึงข้อความและรูปภาพที่ปฏิเสธ มีคุณสมบัติเพิ่มเติม เช่น ตารางและการดึงคู่คีย์-ค่า-ค่าที่อนุญาตให้ดึงข้อมูลและบันทึกข้อมูลในลักษณะที่เป็นระเบียบ
- นาโนเน็ต™ — ด้วยทีมการเรียนรู้เชิงลึกที่มีทักษะสูง Nanonets™ PDF OCR จึงเป็นเทมเพลตและกฎที่เป็นอิสระอย่างสมบูรณ์ ดังนั้น Nanonets™ ไม่เพียงสามารถทำงานกับ PDF บางประเภทเท่านั้น แต่ยังใช้กับเอกสารประเภทใดก็ได้สำหรับการดึงข้อความ
ต้องการดึงข้อมูลจากเอกสารที่สแกนหรือไม่? ให้นาโนเน็ต™ การหมุนเพื่อความแม่นยำที่สูงขึ้น ความยืดหยุ่นที่มากขึ้น หลังการประมวลผล และการผสานรวมที่หลากหลาย!
สรุป
โดยสรุป บทความนี้นำเสนอคำอธิบายอย่างละเอียดเกี่ยวกับการดึงข้อมูลจากเอกสารที่สแกน รวมถึงความท้าทายเบื้องหลังและเทคโนโลยีที่จำเป็นสำหรับกระบวนการนี้
มีการนำเสนอบทแนะนำสองวิธีสำหรับวิธีการที่แตกต่างกัน และวิธีแก้ไขปัญหาปัจจุบันที่นำเสนอแบบนอกกรอบก็จะถูกนำเสนอสำหรับการอ้างอิงด้วย
- 2019
- เกี่ยวกับเรา
- แน่นอน
- ลงชื่อเข้าใช้
- ถูกต้อง
- บรรลุ
- นอกจากนี้
- เพิ่มเติม
- สูง
- ความก้าวหน้า
- AI
- อัลกอริทึม
- ทั้งหมด
- แล้ว
- ทางเลือก
- การวิเคราะห์
- การวิเคราะห์
- อื่น
- API
- APIs
- การใช้งาน
- การใช้งาน
- เข้าใกล้
- สถาปัตยกรรม
- รอบ
- บทความ
- เทียม
- ปัญญาประดิษฐ์
- ความสนใจ
- อัตโนมัติ
- ใช้ได้
- AWS
- พื้นหลัง
- ธนาคาร
- ธนาคาร
- รากฐาน
- กำลัง
- ที่ดีที่สุด
- เกิน
- ที่ใหญ่ที่สุด
- ชายแดน
- กล่อง
- สร้าง
- ธุรกิจ
- ธุรกิจ
- การ์ด
- กรณี
- เงินสด
- กระแสเงินสด
- บาง
- ความท้าทาย
- ท้าทาย
- ชาร์ต
- Checkout
- คลาสสิก
- เมฆ
- ซีเอ็นเอ็น
- รหัส
- อย่างไร
- ร่วมกัน
- บริษัท
- บริษัท
- อย่างสมบูรณ์
- เสร็จสิ้น
- ครอบคลุม
- การคำนวณ
- คอมพิวเตอร์
- แนวคิด
- การประชุม
- ความมั่นใจ
- งานที่เชื่อมต่อ
- ไม่หยุดหย่อน
- มี
- ส่วน
- ความสะดวกสบาย
- สะดวกสบาย
- แปลง
- แกน
- บริษัท
- ตรงกัน
- ได้
- สำคัญมาก
- ปัจจุบัน
- ขณะนี้
- ลูกค้า
- ลูกค้า
- ข้อมูล
- การประมวลผล
- การจัดเก็บข้อมูล
- จัดการ
- อธิบาย
- ออกแบบ
- รายละเอียด
- การตรวจพบ
- ต่าง
- ยาก
- ดิจิตอล
- เอกสาร
- อย่างง่ายดาย
- อย่างมีประสิทธิภาพ
- พนักงาน
- เครื่องยนต์
- ชั้นเยี่ยม
- โดยเฉพาะอย่างยิ่ง
- เป็นหลัก
- ประมาณการ
- ฯลฯ
- การประเมินผล
- เหตุการณ์
- ตัวอย่าง
- ยกเว้น
- การทดลอง
- สำรวจ
- กว้างขวาง
- สารสกัดจาก
- ครอบครัว
- ลักษณะ
- คุณสมบัติ
- ข้อเสนอแนะ
- สาขา
- หา
- ชื่อจริง
- ความยืดหยุ่น
- ไหล
- โฟกัส
- มุ่งเน้น
- มุ่งเน้นไปที่
- โดยมุ่งเน้น
- ดังต่อไปนี้
- แถวหน้า
- ฟอร์ม
- รูป
- รูปแบบ
- ฟรี
- ภาษาฝรั่งเศส
- เติมเต็ม
- เต็ม
- ต่อไป
- เป้าหมาย
- ดี
- มากขึ้น
- อย่างมาก
- การจัดการ
- มือบน
- หัว
- การดูแลสุขภาพ
- อุตสาหกรรมการดูแลสุขภาพ
- เป็นประโยชน์
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- จุดสูง
- สูงกว่า
- อย่างสูง
- ประวัติ
- โรงพยาบาล
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTTPS
- เป็นมนุษย์
- ทรัพยากรมนุษย์
- มนุษย์
- ภาพ
- ความสำคัญ
- สำคัญ
- ปรับปรุง
- ประกอบด้วย
- รวมทั้ง
- เงินได้
- เพิ่ม
- เป็นรายบุคคล
- บุคคล
- อุตสาหกรรม
- อุตสาหกรรม
- ข้อมูล
- อินพุต
- แรงบันดาลใจ
- Intelligence
- ปัญหา
- IT
- การสัมภาษณ์
- คีย์
- กุญแจ
- ห้องปฏิบัติการ
- ภาษา
- ภาษา
- ใหญ่
- ชั้นนำ
- เรียนรู้
- การเรียนรู้
- Line
- รายการ
- นาน
- เครื่อง
- เรียนรู้เครื่อง
- สำคัญ
- ส่วนใหญ่
- มนุษย์
- ลักษณะ
- ตลาด
- การจับคู่
- การจับคู่
- ทางการแพทย์
- วิธีการ
- ข้อมูลเพิ่มเติม
- มากที่สุด
- เป็นที่นิยม
- การย้าย
- หลาย
- คือ
- โดยธรรมชาติ
- ความต้องการ
- เครือข่าย
- เครือข่าย
- ปกติ
- ตัวเลข
- มากมาย
- เสนอ
- เสนอ
- การเสนอ
- การเสนอขาย
- เสนอ
- เป็นทางการ
- ต่อเนื่อง
- ออนไลน์
- การดำเนินการ
- Options
- ใบสั่ง
- องค์กร
- Organized
- อื่นๆ
- เจ้าของ
- ผู้เข้าร่วม
- การชำระเงิน
- รูปแบบไฟล์ PDF
- ที่มีประสิทธิภาพ
- ระยะเวลา
- ส่วนบุคคล
- การสำรวจ
- ยอดนิยม
- ที่มีศักยภาพ
- อำนาจ
- คาดการณ์
- คำทำนาย
- นำเสนอ
- สวย
- ก่อน
- ราคา
- กระบวนการ
- กระบวนการ
- การประมวลผล
- ผลิตภัณฑ์
- โครงการ
- โปรแกรม
- แวว
- ให้
- การให้
- วัตถุประสงค์
- อย่างรวดเร็ว
- RE
- ผู้อ่าน
- การอ่าน
- รับ
- การคืนดี
- บันทึก
- ลด
- เกี่ยวกับ
- ความสัมพันธ์
- ขอ
- ต้องการ
- จำเป็นต้องใช้
- ต้อง
- การวิจัย
- แหล่งข้อมูล
- คำตอบ
- ผลสอบ
- กลับ
- ความเสี่ยง
- การสแกน
- วินาที
- บริการ
- บริการ
- ชุด
- หลาย
- สั้น
- ระยะสั้น
- คล้ายคลึงกัน
- ง่าย
- ตั้งแต่
- ขนาด
- ซอฟต์แวร์
- ของแข็ง
- โซลูชัน
- บาง
- เฉพาะ
- สปิน
- รัฐของศิลปะ
- งบ
- ทางสถิติ
- การเก็บรักษา
- กระแส
- แข็งแรง
- โครงสร้าง
- เป็นกอบเป็นกำ
- ที่ประสบความสำเร็จ
- ที่สนับสนุน
- การสำรวจ
- เป้าหมาย
- งาน
- ทีม
- เทคนิค
- เทคโนโลยี
- เทคโนโลยี
- ทดสอบ
- โลก
- ดังนั้น
- พัน
- ตลอด
- เวลา
- ครั้ง
- ร่วมกัน
- โทน
- ไปทาง
- แบบดั้งเดิม
- การฝึกอบรม
- บทเรียน
- ชนิด
- เข้าใจ
- เป็นเอกลักษณ์
- ใช้
- มักจะ
- ความคุ้มค่า
- ต่างๆ
- การตรวจสอบ
- รายละเอียด
- วิสัยทัศน์
- ว่า
- ในขณะที่
- ภายใน
- ไม่มี
- คำ
- งาน
- แรงงาน
- โลก
- จะ
- XML
- ปี