การแยกข้อมูลแบบฟอร์ม

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ต้องการดึงข้อมูลจากแบบฟอร์มที่พิมพ์หรือเขียนด้วยลายมือ ? เช็คเอาท์ นาโนเน็ต™ ตัวแยกข้อมูลแบบฟอร์ม ฟรี & ส่งออกข้อมูลอัตโนมัติจากทุกรูปแบบ!

แบบฟอร์มมีอยู่ทุกที่ พวกเขาถูกกำหนดให้เป็นเอกสารที่สร้างขึ้นเพื่อรวบรวมข้อมูลโดยขอให้ผู้เข้าร่วมกรอกข้อมูลที่จำเป็นในรูปแบบเฉพาะ สิ่งเหล่านี้มีประโยชน์เนื่องจากความสามารถในการรวบรวมข้อมูลจำนวนมากในเวลาอันสั้น อย่างไรก็ตาม ไม่ใช่ว่าทุกแบบฟอร์มจะมีความสามารถในการรวบรวมข้อมูลเท่ากัน และมักจะต้องดำเนินการด้วยตนเองในภายหลัง ดังนั้นเราจึงอาศัยเครื่องมือและอัลกอริธึมเพื่อทำให้กระบวนการดึงข้อมูลแบบฟอร์มเป็นไปโดยอัตโนมัติ โพสต์บล็อกนี้จะเจาะลึกในสถานการณ์และเทคนิคต่างๆ ในการดึงข้อมูลจากแบบฟอร์มโดยใช้ OCR และ Deep Learning

การดึงข้อมูลแบบฟอร์มคืออะไร?
อะไรทำให้ปัญหาท้าทาย?
ความลึกของปัญหาการดึงแบบฟอร์ม
โซลูชันการแยกข้อมูลแบบฟอร์มมีวิวัฒนาการอย่างไร
แยกข้อมูลแบบฟอร์มโดยใช้ OCRs
การแก้ปัญหาการดึงข้อมูลแบบฟอร์มโดยใช้การเรียนรู้เชิงลึก
ป้อน Nanonets

การดึงข้อมูลแบบฟอร์มคืออะไร?

Form Data Extraction เป็นกระบวนการดึงข้อมูลจากแบบฟอร์มทั้งแบบออนไลน์และออฟไลน์ ข้อมูลนี้สามารถพบได้ในทุกรูปแบบ โดยปกติแล้วจะมีแบบฟอร์มที่มีข้อมูลที่เกี่ยวข้อง อย่างไรก็ตาม การดึงข้อมูลนี้ไม่ใช่เรื่องง่ายเสมอไป เนื่องจากเลย์เอาต์และการออกแบบจำนวนมากไม่อนุญาตให้เลือกข้อความอย่างง่ายดาย ไม่มีวิธีการคัดลอกข้อมูลจากพวกเขา ดังนั้นเราจึงอาศัยเทคนิคอัตโนมัติเพื่อช่วยดึงข้อมูลจากแบบฟอร์มที่มีประสิทธิภาพมากขึ้นและมีโอกาสเกิดข้อผิดพลาดน้อยลง

การดึงข้อมูลแบบฟอร์มคืออะไร?

ตัวอย่างเช่น ในปัจจุบัน ผู้ใช้จำนวนมากใช้แบบฟอร์ม PDF เพื่อรวบรวมข้อมูลติดต่อ นี่เป็นวิธีที่มีประสิทธิภาพสูงในการรวบรวมข้อมูลเพราะไม่ต้องการให้ผู้ส่งและผู้รับป้อนข้อมูล แต่การดึงข้อมูลนี้ออกจากแบบฟอร์ม PDF อาจเป็นเรื่องท้าทายและมีราคาแพง

ที่นี่ การดึงข้อมูลแบบฟอร์มสามารถช่วยดึงข้อมูลจากแบบฟอร์ม PDF เช่น ชื่อ ที่อยู่อีเมล หมายเลขโทรศัพท์ ฯลฯ นำเข้าไปยังแอปพลิเคชันอื่น เช่น Excel ชีต หรือรูปแบบที่มีโครงสร้างอื่นๆ ได้ วิธีการทำงานคือเครื่องมือแยกไฟล์ที่อ่านบนไฟล์ PDF ดึงสิ่งที่ต้องการออกมาโดยอัตโนมัติ และจัดระเบียบในรูปแบบที่อ่านง่าย ข้อมูลนี้สามารถส่งออกเป็นรูปแบบอื่น ๆ เช่น Excel, CSV, JSON และรูปแบบข้อมูลที่มีโครงสร้างดีอื่นๆ ในส่วนถัดไป มาดูความท้าทายที่พบบ่อยบางประการเมื่อสร้างอัลกอริธึมการแยกข้อมูลแบบฟอร์ม

ต้องการดึงข้อมูลจากแบบฟอร์มที่พิมพ์หรือเขียนด้วยลายมือ ? ดู นาโนเน็ต™ form data extractor ฟรี & ส่งออกข้อมูลจากแบบฟอร์มใด ๆ โดยอัตโนมัติ!

อะไรทำให้การดึงข้อมูลแบบฟอร์มมีความท้าทาย?

การดึงข้อมูลเป็นปัญหาที่น่าตื่นเต้นด้วยเหตุผลหลายประการ ประการหนึ่ง มันคือปัญหาการจดจำรูปภาพ แต่ต้องพิจารณาข้อความที่อาจปรากฏในรูปภาพและเลย์เอาต์ของแบบฟอร์ม ซึ่งทำให้การสร้างอัลกอริธึมซับซ้อนยิ่งขึ้น ส่วนนี้กล่าวถึงความท้าทายทั่วไปบางประการที่ผู้คนพบเมื่อสร้างอัลกอริธึมการดึงข้อมูลแบบฟอร์ม

ขาดข้อมูล: อัลกอริธึมการดึงข้อมูลมักจะสร้างโดยใช้อัลกอริธึมการเรียนรู้เชิงลึกที่ทรงพลังและอัลกอริธึมจากการมองเห็นของคอมพิวเตอร์ โดยทั่วไปแล้วสิ่งเหล่านี้ต้องอาศัยข้อมูลจำนวนมหาศาลเพื่อให้ได้ประสิทธิภาพที่ล้ำสมัย ดังนั้น การค้นหาชุดข้อมูลที่สอดคล้องกันและเชื่อถือได้และการประมวลผลจึงเป็นสิ่งสำคัญสำหรับเครื่องมือหรือซอฟต์แวร์ในการดึงข้อมูลทุกรูปแบบ ตัวอย่างเช่น สมมติว่าเรามีแบบฟอร์มที่มีเทมเพลตหลายแบบ ดังนั้นอัลกอริธึมเหล่านี้ควรสามารถเข้าใจรูปแบบต่างๆ ได้หลากหลาย ดังนั้นการฝึกอบรมพวกเขาในชุดข้อมูลที่มีประสิทธิภาพจะมีประสิทธิภาพที่แม่นยำยิ่งขึ้น
การจัดการฟอนต์ ภาษา และเลย์เอาต์: มีแบบอักษร การออกแบบ และเทมเพลตต่างๆ มากมายสำหรับข้อมูลแบบฟอร์มประเภทต่างๆ พวกเขาอาจจัดอยู่ในประเภทที่แตกต่างกันโดยสิ้นเชิง ซึ่งทำให้ยากต่อการรับรองการจดจำที่แม่นยำเมื่อมีประเภทอักขระที่แตกต่างกันจำนวนมากที่ต้องนำมาพิจารณา ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องจำกัดคอลเลกชั่นฟอนต์เป็นภาษาและประเภทเฉพาะ เนื่องจากจะสร้างกระบวนการหลายอย่างที่ไหลได้อย่างราบรื่นเมื่อคุณมีการประมวลผลเอกสารเหล่านั้นอย่างเหมาะสม ในกรณีหลายภาษา จำเป็นต้องเตรียมการเล่นปาหี่ระหว่างอักขระจากหลายภาษาและดูแลการพิมพ์ที่ซับซ้อนด้วย

แหล่งที่มาของภาพ: กลาง

การวางแนวและเอียง (การหมุน): ในระหว่างการดูแลข้อมูล เรามักจะสแกนภาพเพื่อฝึกอัลกอริทึมสำหรับการรวบรวมข้อมูลอินพุต หากคุณเคยใช้เครื่องสแกนหรือกล้องดิจิตอล คุณอาจสังเกตเห็นว่ามุมที่คุณถ่ายภาพเอกสารในบางครั้งอาจทำให้ภาพดูเบี้ยวได้ สิ่งนี้เรียกว่าความเบ้ซึ่งหมายถึงระดับของมุม ความเบ้นี้สามารถลดความแม่นยำของแบบจำลองได้ โชคดีที่สามารถใช้เทคนิคต่างๆ เพื่อแก้ไขปัญหานี้ได้โดยเพียงแค่ปรับเปลี่ยนวิธีที่ซอฟต์แวร์ของเราตรวจพบคุณลักษณะในพื้นที่เฉพาะของรูปภาพ ตัวอย่างของเทคนิคดังกล่าวคือวิธี Projection Profile หรือวิธี Fourier Transformation ซึ่งช่วยให้ได้ผลลัพธ์ที่ชัดเจนยิ่งขึ้นในการจดจำรูปร่าง มิติ และพื้นผิว! แม้ว่าการวางแนวและความเบ้อาจเป็นข้อผิดพลาดง่ายๆ แต่สิ่งเหล่านี้อาจส่งผลต่อความถูกต้องของแบบจำลองเป็นจำนวนมาก

แหล่งที่มาของภาพ: pyimagesearch

ความปลอดภัยของข้อมูล: หากคุณกำลังดึงข้อมูลจากแหล่งต่าง ๆ สำหรับการรวบรวมข้อมูล สิ่งสำคัญคือต้องตระหนักถึงมาตรการรักษาความปลอดภัยที่มีอยู่ มิฉะนั้น คุณเสี่ยงที่จะประนีประนอมกับข้อมูลที่กำลังถ่ายโอน ซึ่งอาจนำไปสู่สถานการณ์ที่ข้อมูลส่วนบุคคลถูกละเมิดหรือข้อมูลที่ส่งไปยัง API ไม่ปลอดภัย ดังนั้น ในขณะที่ทำงานกับสคริปต์ ETL และ API ออนไลน์สำหรับการดึงข้อมูล เราจะต้องตระหนักถึงปัญหาด้านความปลอดภัยของข้อมูลด้วย
การแยกตาราง: บางครั้ง เราเห็นข้อมูลแบบฟอร์มภายในตาราง การสร้างอัลกอริธึมที่แข็งแกร่งซึ่งสามารถจัดการทั้งการแยกแบบฟอร์มและการแยกตารางอาจเป็นสิ่งที่ท้าทาย วิธีปกติคือการสร้างอัลกอริทึมเหล่านี้โดยอิสระและนำไปใช้กับข้อมูล แต่จะนำไปสู่การใช้กำลังในการคำนวณที่มากขึ้นซึ่งจะเป็นการเพิ่มต้นทุน ดังนั้น การแยกแบบฟอร์มในอุดมคติควรจะสามารถดึงทั้งข้อมูลแบบฟอร์มและข้อมูลจากเอกสารที่กำหนดได้

แหล่งที่มาของภาพ: GCN

หลังการประมวลผล / ส่งออกผลลัพธ์: ข้อมูลเอาท์พุตจากการดึงข้อมูลใดๆ ไม่เป็นเส้นตรง ดังนั้น นักพัฒนาจึงอาศัยเทคนิคหลังการประมวลผลเพื่อกรองผลลัพธ์ให้อยู่ในรูปแบบที่มีโครงสร้างมากขึ้น หลังจากประมวลผลข้อมูลแล้ว ข้อมูลจะถูกส่งออกเป็นรูปแบบที่มีโครงสร้างมากขึ้น เช่น CSV, Excel หรือฐานข้อมูล องค์กรพึ่งพาการผสานรวมของบุคคลที่สามหรือพัฒนา API เพื่อทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติ ซึ่งใช้เวลานานอีกครั้ง ดังนั้น อัลกอริธึมการดึงข้อมูลในอุดมคติจึงควรมีความยืดหยุ่นและง่ายต่อการสื่อสารกับแหล่งข้อมูลภายนอก

ภายหลังการประมวลผลในการสกัดข้อมูลแบบฟอร์ม

ทำความเข้าใจความลึกของการสกัดแบบฟอร์มด้วยสถานการณ์ต่างๆ

จนถึงตอนนี้ เราได้พูดถึงพื้นฐานและความท้าทายของการดึงข้อมูลแบบฟอร์ม ในส่วนนี้ เราจะเจาะลึกในสถานการณ์ต่างๆ และทำความเข้าใจความลึกของการดึงข้อมูลแบบฟอร์ม นอกจากนี้ เราจะพิจารณาว่าเราจะทำให้กระบวนการแยกข้อมูลเป็นอัตโนมัติสำหรับสถานการณ์เฉพาะเหล่านี้ได้อย่างไร

สถานการณ์ #1: การจดจำลายมือเขียนสำหรับแบบฟอร์มออฟไลน์

แบบฟอร์มออฟไลน์มักพบในชีวิตประจำวัน จำเป็นสำหรับแบบฟอร์มที่จะกรอกและส่งได้ง่าย การทำแบบฟอร์มออฟไลน์ให้เป็นดิจิทัลด้วยตนเองอาจเป็นงานที่ยุ่งยากและมีราคาแพง ซึ่งเป็นเหตุให้ต้องใช้อัลกอริทึมการเรียนรู้เชิงลึก เอกสารที่เขียนด้วยลายมือเป็นความท้าทายหลักในการดึงข้อมูลเนื่องจากความซับซ้อนของอักขระที่เขียนด้วยลายมือ ดังนั้นอัลกอริธึมการรู้จำข้อมูลจึงถูกใช้อย่างมากโดยที่เครื่องเรียนรู้ที่จะอ่านและตีความข้อความที่เขียนด้วยลายมือ กระบวนการนี้เกี่ยวข้องกับการสแกนรูปภาพของคำที่เขียนด้วยลายมือและแปลงเป็นข้อมูลที่สามารถประมวลผลและวิเคราะห์โดยอัลกอริทึม จากนั้นอัลกอริธึมจะสร้างแผนผังอักขระตามจังหวะและจดจำตัวอักษรที่เกี่ยวข้องเพื่อแยกข้อความ

แหล่งที่มาของภาพ: ชุดข้อมูล สวท.

สถานการณ์ #2: การระบุช่องทำเครื่องหมายในแบบฟอร์ม

แบบฟอร์มช่องทำเครื่องหมายคือรูปแบบการป้อนข้อมูลที่ใช้ในการรวบรวมข้อมูลจากผู้ใช้ในช่องป้อนข้อมูล ข้อมูลประเภทนี้มักพบในรายการและตารางที่กำหนดให้ผู้ใช้เลือกหนึ่งรายการขึ้นไป เช่น รายการที่ต้องการให้ติดต่อ สามารถพบได้ในสถานที่ต่างๆ เช่น แบบฟอร์มออนไลน์ แบบสอบถาม แบบสำรวจ และอื่นๆ ทุกวันนี้ อัลกอริธึมบางตัวสามารถทำให้กระบวนการดึงข้อมูลเป็นไปโดยอัตโนมัติ แม้กระทั่งจากช่องทำเครื่องหมาย เป้าหมายหลักของอัลกอริธึมนี้คือการระบุพื้นที่อินพุตโดยใช้เทคนิคการมองเห็นด้วยคอมพิวเตอร์ สิ่งเหล่านี้เกี่ยวข้องกับการระบุเส้น (แนวนอนและแนวตั้ง) การใช้ฟิลเตอร์ เส้นขอบ และการตรวจจับขอบบนภาพ หลังจากระบุขอบเขตการป้อนข้อมูลแล้ว การแยกเนื้อหาในกล่องกาเครื่องหมายที่มีการทำเครื่องหมายหรือไม่ทำเครื่องหมายทำได้ง่าย

การระบุช่องทำเครื่องหมายในการดึงข้อมูลแบบฟอร์ม

สถานการณ์ #3: การเปลี่ยนแปลงเค้าโครงของแบบฟอร์มเป็นครั้งคราว

เมื่อพูดถึงการกรอกแบบฟอร์ม โดยทั่วไปแล้วจะมีตัวเลือกสองประเภทที่แตกต่างกัน สำหรับบางแบบฟอร์ม เราจำเป็นต้องให้ข้อมูลของเราโดยเขียนลงในฟิลด์ที่เกี่ยวข้องทั้งหมด ในขณะที่สำหรับรูปแบบอื่นๆ เราสามารถให้ข้อมูลได้โดยการเลือกจากช่องทำเครื่องหมายสองสามช่อง เลย์เอาต์ของฟอร์มยังเปลี่ยนแปลงตามประเภทของฟอร์มและบริบท ดังนั้นจึงเป็นสิ่งสำคัญที่จะสร้างอัลกอริธึมที่สามารถจัดการเอกสารที่ไม่มีโครงสร้างหลายฉบับและแยกเนื้อหาอย่างชาญฉลาดโดยขึ้นอยู่กับป้ายกำกับของแบบฟอร์ม เทคนิคยอดนิยมอย่างหนึ่งของสถาปัตยกรรมการเรียนรู้เชิงลึกในการจัดการเค้าโครงเอกสารคือ CNN ของกราฟ แนวคิดเบื้องหลัง Graph Convolutional Networks (GCNs) คือการทำให้แน่ใจว่าการกระตุ้นเซลล์ประสาทนั้นขับเคลื่อนด้วยข้อมูล ออกแบบมาเพื่อใช้งานบนกราฟ ซึ่งประกอบด้วยโหนดและขอบ เลเยอร์ convolutional ของกราฟสามารถจดจำรูปแบบได้ในกรณีที่ไม่มีสัญญาณการฝึกอบรมเฉพาะงาน ดังนั้นสิ่งเหล่านี้จึงเหมาะสมเมื่อข้อมูลมีความแข็งแกร่ง

สถานการณ์ #4: การตรวจจับเซลล์ตาราง

ในบางกรณี ธุรกิจอาจพบรูปแบบพิเศษที่ประกอบด้วยเซลล์ตาราง เซลล์ตารางเป็นพื้นที่สี่เหลี่ยมภายในตารางที่เก็บข้อมูล สามารถจัดประเภทเป็นส่วนหัว แถว หรือคอลัมน์ อัลกอริทึมในอุดมคติควรระบุเซลล์ทุกประเภทและขอบเขตของเซลล์เหล่านี้เพื่อดึงข้อมูลจากเซลล์เหล่านี้ เทคนิคยอดนิยมสำหรับการแยกตาราง ได้แก่ Stream และ Lattice เหล่านี้เป็นอัลกอริธึมที่ช่วยตรวจจับเส้น รูปร่าง รูปหลายเหลี่ยมโดยใช้การดำเนินการแบบไอโซมอร์ฟิกอย่างง่ายบนรูปภาพ

โซลูชันการดึงข้อมูลแบบฟอร์มมีวิวัฒนาการอย่างไร

การดึงข้อมูลแบบฟอร์มมีต้นกำเนิดมาจากยุคก่อนคอมพิวเตอร์ เมื่อมีคนจัดการกับแบบฟอร์มกระดาษ ด้วยการถือกำเนิดของการคำนวณ ทำให้สามารถจัดเก็บข้อมูลทางอิเล็กทรอนิกส์ได้ โปรแกรมคอมพิวเตอร์สามารถใช้ข้อมูลเพื่อสร้างรายงานได้ เช่น สถิติการขาย ซอฟต์แวร์นี้ยังสามารถใช้เพื่อพิมพ์ฉลากสำหรับส่งไปรษณีย์ เช่น ชื่อและที่อยู่ของลูกค้า และพิมพ์ใบแจ้งหนี้ เช่น จำนวนเงินที่ครบกำหนดชำระและที่อยู่ที่จะส่ง อย่างไรก็ตาม วันนี้เราเห็นซอฟต์แวร์แยกข้อมูลแบบฟอร์มเวอร์ชันอื่น ข้อมูลเหล่านี้มีความแม่นยำสูง รวดเร็ว และส่งข้อมูลในลักษณะที่เป็นระเบียบและมีโครงสร้างสูง ตอนนี้ เรามาพูดถึงเทคนิคการดึงข้อมูลแบบฟอร์มประเภทต่างๆ สั้นๆ กัน

ตามกฎจากการดึงข้อมูล: การดึงข้อมูลตามกฎเป็นเทคนิคที่ดึงข้อมูลจากแบบฟอร์มเทมเพลตเฉพาะโดยอัตโนมัติ สามารถดึงข้อมูลได้โดยไม่ต้องมีการแทรกแซงของมนุษย์ พวกเขาทำงานโดยการตรวจสอบฟิลด์ต่างๆ บนหน้าและตัดสินใจว่าจะแยกฟิลด์ใดตามข้อความ ป้ายกำกับ และเบาะแสบริบทอื่นๆ อัลกอริธึมเหล่านี้มักจะพัฒนาและทำงานอัตโนมัติโดยใช้สคริปต์ ETL หรือการขูดเว็บ อย่างไรก็ตาม เมื่อทดสอบกับข้อมูลที่มองไม่เห็น จะล้มเหลวโดยสิ้นเชิง
แยกข้อมูลแบบฟอร์มโดยใช้OCR: OCR เป็นโซลูชันที่ใช้งานได้จริงสำหรับปัญหาการดึงข้อมูลทุกรูปแบบ อย่างไรก็ตาม เราต้องเขียนสคริปต์และโปรแกรมเพิ่มเติมเพื่อให้ได้ประสิทธิภาพที่ถูกต้อง เพื่อให้ OCR ทำงานได้ จะต้องมีการป้อนรูปภาพที่มีข้อความอยู่ จากนั้นซอฟต์แวร์จะอ่านแต่ละพิกเซลและเปรียบเทียบแต่ละพิกเซลกับตัวอักษรที่เกี่ยวข้องกัน หากตรงกัน มันจะส่งออกตัวอักษรนั้นและตัวเลขหรือสัญลักษณ์ใด ๆ ที่ใกล้เคียงกับตัวอักษรนั้น ความท้าทายที่ยิ่งใหญ่ที่สุดกับ OCR คือการหาวิธีแยกตัวอักษร ตัวอย่างเช่น เมื่อโน้ตอยู่ใกล้กันหรือทับซ้อนกัน เช่น "a" และ "e" ดังนั้น สิ่งเหล่านี้อาจไม่ทำงานเมื่อเราแยกฟอร์มออฟไลน์
NER สำหรับการดึงข้อมูลแบบฟอร์ม: การรับรู้เอนทิตีที่มีชื่อเป็นงานในการระบุและจัดประเภทเอนทิตีที่กำหนดไว้ล่วงหน้าในข้อความภาษาธรรมชาติ มักใช้เพื่อดึงข้อมูลจากแบบฟอร์ม โดยที่ผู้คนพิมพ์ชื่อ ที่อยู่ ความคิดเห็น ฯลฯ หน้าที่ในการจดจำเอนทิตีที่มีชื่อนั้นมีความเกี่ยวข้องอย่างใกล้ชิดกับงานแก้ปัญหาในวงกว้าง ซึ่งกำหนดว่าการกล่าวถึงเอนทิตีเดียวกันนั้นอ้างถึง หน่วยงานในโลกแห่งความเป็นจริงเดียวกัน วันนี้ด้วยเครื่องมือและเฟรมเวิร์กในการเขียนโปรแกรมขั้นสูง เราสามารถใช้ประโยชน์จากโมเดลที่ได้รับการฝึกอบรมมาล่วงหน้าเพื่อสร้างโมเดลตาม NER สำหรับงานดึงข้อมูล

แหล่งที่มาของภาพ: กลาง

การใช้การเรียนรู้เชิงลึกสำหรับการดึงข้อมูลแบบฟอร์ม: การเรียนรู้เชิงลึกไม่ใช่เรื่องใหม่ มีมานานหลายทศวรรษแล้ว แต่การพัฒนาล่าสุดในสถาปัตยกรรมการเรียนรู้เชิงลึกและพลังการประมวลผลได้นำไปสู่ผลลัพธ์ที่ก้าวล้ำ การแยกข้อมูลแบบฟอร์มโดยใช้การเรียนรู้เชิงลึกทำให้ได้ประสิทธิภาพที่ล้ำหน้าในเกือบทุกรูปแบบ ไม่ว่าจะเป็นแบบดิจิทัลหรือแบบเขียนด้วยลายมือ กระบวนการเริ่มต้นด้วยการให้ตัวอย่างที่แตกต่างกันหลายพันหรือล้านตัวอย่างกับเครือข่ายประสาทลึก (DNN) ที่มีป้ายกำกับว่าเป็นอย่างไร ตัวอย่างเช่น ป้ายกำกับรูปแบบรูปภาพที่มีเอนทิตี เช่น ชื่อ อีเมล รหัส ฯลฯ DNN ประมวลผลข้อมูลทั้งหมดนี้และเรียนรู้ด้วยตัวเองว่าชิ้นส่วนเหล่านี้เชื่อมต่อกันอย่างไร อย่างไรก็ตาม การสร้างแบบจำลองที่มีความแม่นยำสูงนั้นต้องใช้ความเชี่ยวชาญและการทดลองอย่างมาก

การเรียนรู้เชิงลึกสำหรับการดึงข้อมูลแบบฟอร์ม

แยกข้อมูลแบบฟอร์มโดยใช้ OCRs

มีไลบรารีต่างๆ มากมายสำหรับดึงข้อมูลจากแบบฟอร์ม แต่ถ้าคุณต้องการดึงข้อมูลจากรูปภาพของแบบฟอร์มล่ะ นี่คือที่มาของ Tesseract OCR (Optical Character Recognition) Tesseract เป็นเอ็นจิ้น OCR (Optical Character Recognition) แบบโอเพ่นซอร์สที่พัฒนาโดย HP การใช้ Tesseract OCR ทำให้สามารถแปลงเอกสารที่สแกน เช่น ใบแจ้งหนี้ที่เป็นกระดาษ ใบเสร็จ และเช็คเป็นไฟล์ดิจิทัลที่ค้นหาได้และสามารถแก้ไขได้ มีให้บริการในหลายภาษาและสามารถจดจำอักขระในรูปแบบภาพต่างๆ โดยทั่วไปแล้ว Tesseract จะใช้ร่วมกับไลบรารีอื่น ๆ เพื่อประมวลผลรูปภาพเพื่อแยกข้อความ

เพื่อทดสอบสิ่งนี้ ตรวจสอบให้แน่ใจว่าคุณติดตั้ง Tesseract บนเครื่องของคุณ คุณสามารถใช้ Tesseract CLI หรือการเชื่อมโยง Python สำหรับการรัน OCR Python-tesseract เป็น wrapper สำหรับ Tesseract-OCR Engine ของ Google สามารถใช้อ่านรูปภาพทุกประเภทที่รองรับโดยไลบรารีภาพ Pillow and Leptonica รวมทั้ง jpeg, png, gif, bmp, tiff และอื่นๆ คุณสามารถใช้เป็นสคริปต์การเรียกใช้แบบสแตนด์อโลนได้อย่างง่ายดายเพื่อ tesseract หากจำเป็น

ตอนนี้ มาดูใบเสร็จที่มีข้อมูลแบบฟอร์มและพยายามระบุตำแหน่งของข้อความโดยใช้ Computer Vision และ Tesseract

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

แยกข้อมูลแบบฟอร์มโดยใช้ OCRs

ในผลลัพธ์นี้ อย่างที่เราเห็น โปรแกรมสามารถระบุข้อความทั้งหมดภายในแบบฟอร์มได้ ตอนนี้ ลองใช้ OCR กับสิ่งนี้เพื่อดึงข้อมูลทั้งหมด เราสามารถทำได้โดยใช้ปุ่ม image_to_string ฟังก์ชันในไพทอน

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

Output:

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

ที่นี่เราสามารถดึงข้อมูลทั้งหมดออกจากแบบฟอร์มได้ อย่างไรก็ตาม ในกรณีส่วนใหญ่ การใช้เพียง OCR จะไม่ช่วย เนื่องจากข้อมูลที่ดึงออกมาจะไม่มีโครงสร้างอย่างสมบูรณ์ ดังนั้น ผู้ใช้จึงอาศัยการดึงคู่คีย์-ค่าในแบบฟอร์ม ซึ่งสามารถระบุเอนทิตีเฉพาะเช่น ID วันที่ จำนวนเงินภาษี ฯลฯ ซึ่งเป็นไปได้เฉพาะกับการเรียนรู้เชิงลึกเท่านั้น ในหัวข้อถัดไป มาดูวิธีที่เราสามารถใช้ประโยชน์จากเทคนิคการเรียนรู้เชิงลึกต่างๆ เพื่อสร้างอัลกอริธึมการดึงข้อมูลได้อย่างไร

การแก้ปัญหาการดึงข้อมูลแบบฟอร์มโดยใช้การเรียนรู้เชิงลึก

กราฟ Convolution สำหรับการดึงข้อมูลหลายรูปแบบจากเอกสารที่มองเห็นได้ชัดเจน

กราฟ Convolutional Networks (กราฟ CNN) เป็นคลาสของ Deep Convolutional Neural Network (CNNs) ที่สามารถเรียนรู้คุณลักษณะที่ไม่เป็นเชิงเส้นในระดับสูงในโครงสร้างข้อมูลกราฟได้อย่างมีประสิทธิภาพ ในขณะที่ยังคงรักษาโครงสร้างโหนดและขอบไว้ พวกเขาสามารถใช้โครงสร้างข้อมูลกราฟเป็นอินพุตและสร้าง 'ฟีเจอร์แผนที่' สำหรับโหนดและขอบ คุณลักษณะที่เป็นผลลัพธ์สามารถใช้สำหรับการจัดประเภทกราฟ การทำคลัสเตอร์ หรือการตรวจจับชุมชน GCN มอบโซลูชันอันทรงพลังในการดึงข้อมูลจากเอกสารขนาดใหญ่ที่มองเห็นได้ชัดเจน เช่น ใบแจ้งหนี้และใบเสร็จ ในการประมวลผลภาพแต่ละภาพจะต้องแปลงเป็นกราฟที่ประกอบด้วยโหนดและขอบ คำใดๆ บนรูปภาพจะแสดงด้วยโหนดของตัวเอง การแสดงภาพข้อมูลที่เหลือจะถูกเข้ารหัสในเวกเตอร์คุณสมบัติของโหนด

กราฟเอกสาร ทุกโหนดในกราฟเชื่อมต่อกันอย่างสมบูรณ์ (SRC)

โมเดลนี้จะเข้ารหัสแต่ละส่วนข้อความในเอกสารเป็นลำดับแรกในการฝังกราฟ การทำเช่นนี้จะเป็นการจับภาพบริบทภาพและข้อความที่ล้อมรอบแต่ละองค์ประกอบข้อความ พร้อมด้วยตำแหน่งหรือตำแหน่งภายในกลุ่มข้อความ จากนั้นจะรวมกราฟเหล่านี้กับการฝังข้อความเพื่อสร้างการนำเสนอโดยรวมของโครงสร้างของเอกสารและสิ่งที่เขียนอยู่ภายใน โมเดลเรียนรู้ที่จะกำหนดน้ำหนักให้สูงขึ้นในข้อความที่น่าจะเป็นเอนทิตีตามตำแหน่งที่ตั้งที่สัมพันธ์กันและบริบทที่ปรากฏภายในกลุ่มผู้อ่านที่ใหญ่ขึ้น สุดท้าย ใช้โมเดล BiLSTM-CRF มาตรฐานสำหรับการแยกเอนทิตี ผลการวิจัยพบว่าอัลกอริธึมนี้มีประสิทธิภาพเหนือกว่าโมเดลพื้นฐาน (BiLSTM-CRF) บนระยะขอบที่กว้าง

LayoutLM: การฝึกอบรมข้อความและเลย์เอาต์ล่วงหน้าสำหรับการทำความเข้าใจภาพเอกสาร

สถาปัตยกรรมของโมเดล LayoutLM ได้รับแรงบันดาลใจอย่างมากจาก BERT และรวมการฝังรูปภาพจาก R-CNN ที่เร็วกว่า LayoutLM input embeddings ถูกสร้างเป็นการรวมข้อความและตำแหน่ง embedding แล้วรวมเข้ากับภาพ embedding ที่สร้างโดยโมเดล Faster R-CNN โมเดลภาษาภาพที่มีการปิดบังและการจัดประเภทเอกสารหลายป้ายกำกับนั้นส่วนใหญ่จะใช้เป็นงานเตรียมการล่วงหน้าสำหรับ LayoutLM โมเดล LayoutLM มีค่า ไดนามิก และแข็งแกร่งเพียงพอสำหรับงานที่ต้องการความเข้าใจเกี่ยวกับเลย์เอาต์ เช่น การดึงแบบฟอร์ม/ใบเสร็จรับเงิน การจัดประเภทรูปภาพในเอกสาร หรือแม้แต่การตอบคำถามด้วยภาพ สามารถทำได้ด้วยโมเดลการฝึกอบรมนี้

แหล่งที่มาของภาพ: เค้าโครงML

โมเดล LayoutLM ได้รับการฝึกอบรมเกี่ยวกับ IIT-CDIP Test Collection 1.0 ซึ่งประกอบด้วยเอกสารมากกว่า 6 ล้านฉบับและรูปภาพเอกสารที่สแกนมากกว่า 11 ล้านภาพซึ่งมีข้อมูลรวมกว่า 12GB โมเดลนี้มีประสิทธิภาพเหนือกว่ารุ่นก่อนการฝึกอบรม SOTA หลายรุ่นอย่างมากในด้านความเข้าใจในแบบฟอร์ม ความเข้าใจในการรับ และงานการจำแนกภาพเอกสารที่สแกน

Form2Seq: กรอบงานสำหรับการสกัดโครงสร้างแบบฟอร์มระดับสูง

Form2Seq เป็นเฟรมเวิร์กที่เน้นการแยกโครงสร้างออกจากข้อความอินพุตโดยใช้ลำดับตำแหน่ง ต่างจากเฟรมเวิร์ก seq2seq แบบดั้งเดิม Form2Seq ใช้ประโยชน์จากตำแหน่งเชิงพื้นที่สัมพัทธ์ของโครงสร้าง มากกว่าที่จะเรียงลำดับ

ในวิธีนี้ อันดับแรก เราจัดประเภทองค์ประกอบระดับต่ำที่จะช่วยให้การประมวลผลและการจัดระเบียบที่ดีขึ้น แบบฟอร์มมี 10 ชนิด เช่น คำอธิบายฟิลด์ รายการ และอื่นๆ ต่อไป เราจัดกลุ่มองค์ประกอบระดับล่าง เช่น Text Fields และ ChoiceFields เป็นโครงสร้างลำดับที่สูงกว่าที่เรียกว่า ChoiceGroups สิ่งเหล่านี้ถูกใช้เป็นกลไกการรวบรวมข้อมูลเพื่อให้ผู้ใช้ได้รับประสบการณ์ที่ดีขึ้นองค์ประกอบระดับล่างในโครงสร้างที่มีลำดับสูงกว่า เช่น Text Fields, ChoiceFields และ ChoiceGroups ซึ่งใช้เป็นกลไกการรวบรวมข้อมูลในแบบฟอร์ม สิ่งนี้เป็นไปได้โดยการจัดองค์ประกอบองค์ประกอบในลำดับเชิงเส้นในลำดับการอ่านตามธรรมชาติ และป้อนการนำเสนอเชิงพื้นที่และข้อความไปยังเฟรมเวิร์ก Seq2Seq เฟรมเวิร์ก Seq2Seq จะทำการคาดการณ์สำหรับแต่ละองค์ประกอบของประโยคตามลำดับโดยขึ้นอยู่กับบริบท ทำให้สามารถประมวลผลข้อมูลเพิ่มเติมและทำความเข้าใจกับงานในมือได้ดียิ่งขึ้น

Form2seq Model Architecture สำหรับการจำแนกประเภทองค์ประกอบ ขั้นตอนต่างๆ มีคำอธิบายประกอบด้วยตัวอักษร (SRC).

โมเดลนี้มีความแม่นยำถึง 90% ในงานจำแนกประเภท ซึ่งสูงกว่าโมเดลพื้นฐานตามการแบ่งกลุ่ม F1 บนบล็อคข้อความ ฟิลด์ข้อความ และฟิลด์ตัวเลือกคือ 86.01%, 61.63% ตามลำดับ กรอบงานนี้บรรลุสถานะของผลลัพธ์ในชุดข้อมูล ICDAR สำหรับการรับรู้โครงสร้างตาราง

เหตุใด OCR ที่ใช้ AI ของ Nanonets จึงเป็นตัวเลือกที่ดีที่สุด

แม้ว่าซอฟต์แวร์ OCR จะสามารถแปลงรูปภาพที่สแกนของข้อความเป็นไฟล์ดิจิทัลที่จัดรูปแบบแล้ว เช่น PDF, DOC และ PPT แต่ก็ไม่แม่นยำเสมอไป ซอฟต์แวร์ระดับแนวหน้าในปัจจุบัน เช่น ระบบ Deep Learning OCR ที่ใช้ AI ของ Nanonets ได้เอาชนะความท้าทายมากมายที่ระบบ OCR แบบเดิมต้องเผชิญขณะสร้างไฟล์ที่แก้ไขได้จากเอกสารที่สแกน ได้กลายเป็นตัวเลือกที่ดีที่สุดสำหรับการดึงข้อมูลเนื่องจากสามารถให้อัตราความแม่นยำสูงและระดับความทนทานสูงสำหรับสัญญาณรบกวน องค์ประกอบกราฟิก และการเปลี่ยนแปลงการจัดรูปแบบ ตอนนี้ มาพูดคุยกันสองสามประเด็นว่า OCR ที่ใช้ AI เป็นตัวเลือกที่ดีที่สุดได้อย่างไร

นาโนเน็ต – การสกัดข้อมูลแบบฟอร์ม

ตามที่กล่าวไว้ OCR เป็นเทคนิคที่ตรงไปตรงมาในการดึงข้อมูล อย่างไรก็ตาม มันจะไม่ทำงานอย่างสม่ำเสมอเมื่อใส่ข้อมูลที่มองไม่เห็น/ใหม่ อย่างไรก็ตาม OCR ที่ใช้ AI สามารถจัดการกับสถานการณ์เช่นนี้ได้ เนื่องจากพวกเขาฝึกกับข้อมูลที่หลากหลาย
OCR ปกติไม่สามารถจัดการรูปแบบที่ซับซ้อนสำหรับการดึงข้อมูลแบบฟอร์ม ดังนั้น เมื่อขับเคลื่อนด้วยการเรียนรู้เชิงลึกหรือ AI พวกมันจะให้ผลลัพธ์ที่ดีที่สุดโดยการทำความเข้าใจเลย์เอาต์ ข้อความ และบริบทของข้อมูล
OCR อาจมีประสิทธิภาพต่ำกว่าเมื่อมีสัญญาณรบกวนในข้อมูล เช่น ความเบ้ ภาพที่สแกนในสภาวะแสงน้อย ฯลฯ ในขณะที่โมเดลการเรียนรู้เชิงลึกสามารถจัดการกับสภาวะดังกล่าวและยังคงให้ผลลัพธ์ที่แม่นยำสูง
OCR ที่ใช้ AI นั้นปรับแต่งได้สูงและยืดหยุ่นเมื่อเทียบกับ OCR แบบเดิม สามารถสร้างจากข้อมูลประเภทต่างๆ เพื่อแปลงข้อมูลที่ไม่มีโครงสร้างเป็นรูปแบบที่มีโครงสร้างได้
เอาต์พุตหลังการประมวลผลจาก OCR ที่ใช้ AI สามารถเข้าถึงได้เมื่อเปรียบเทียบกับ OCR ธรรมดา สามารถส่งออกไปยังรูปแบบข้อมูลใดๆ เช่น JSON, CSV, ชีต Excel หรือแม้แต่ฐานข้อมูล เช่น Postgres ได้โดยตรงจากโมเดล
OCR ที่ใช้ AI สามารถส่งออกเป็น API อย่างง่ายได้โดยใช้โมเดลที่ได้รับการฝึกอบรมล่วงหน้า วิธีนี้ยังคงเป็นไปได้ในวิธีการดั้งเดิมอื่นๆ แต่อาจเป็นเรื่องยากที่จะปรับปรุงแบบจำลองอย่างสม่ำเสมอในเวลาที่เหมาะสม ในขณะที่ใช้ OCR แบบ AI จะสามารถปรับค่าได้โดยอัตโนมัติเมื่อมีข้อผิดพลาด
การแยกตารางทำได้ยากมากโดยใช้ OCR แบบตรง อย่างไรก็ตาม สามารถทำได้อย่างง่ายดายด้วยพลังของ AI/DL วันนี้ OCR ที่ใช้ AI สามารถชี้แบบฟอร์มแบบตารางในเอกสารและดึงข้อมูลในเชิงบวกได้
หากมีข้อมูลทางการเงินหรือข้อมูลที่เป็นความลับในเอกสาร โมเดล AI ก็สามารถดำเนินการตรวจสอบการฉ้อโกงได้เช่นกัน โดยทั่วไปจะค้นหาข้อความที่แก้ไข/เบลอจากเอกสารที่สแกนและแจ้งให้ผู้ดูแลระบบทราบ เอกสารหรือข้อมูลที่ซ้ำกันสามารถระบุได้ผ่านแบบจำลองเหล่านี้ แม้ว่า OCR จะล้มเหลวในกรณีเช่นนี้

ประทับเวลา: March 6, 2022

ประทับเวลา: พฤศจิกายน 15, 2023

การแยกข้อมูลแบบฟอร์ม

เผยแพร่ซ้ำโดยเพลโต

การดึงข้อมูลแบบฟอร์มคืออะไร?

อะไรทำให้การดึงข้อมูลแบบฟอร์มมีความท้าทาย?

ทำความเข้าใจความลึกของการสกัดแบบฟอร์มด้วยสถานการณ์ต่างๆ

สถานการณ์ #1: การจดจำลายมือเขียนสำหรับแบบฟอร์มออฟไลน์

สถานการณ์ #2: การระบุช่องทำเครื่องหมายในแบบฟอร์ม

สถานการณ์ #3: การเปลี่ยนแปลงเค้าโครงของแบบฟอร์มเป็นครั้งคราว

สถานการณ์ #4: การตรวจจับเซลล์ตาราง

โซลูชันการดึงข้อมูลแบบฟอร์มมีวิวัฒนาการอย่างไร

แยกข้อมูลแบบฟอร์มโดยใช้ OCRs

การแก้ปัญหาการดึงข้อมูลแบบฟอร์มโดยใช้การเรียนรู้เชิงลึก

เหตุใด OCR ที่ใช้ AI ของ Nanonets จึงเป็นตัวเลือกที่ดีที่สุด

เพิ่มเติมจาก AI และการเรียนรู้ของเครื่อง

คำแนะนำเกี่ยวกับรายงานและการรายงานบัญชีเจ้าหนี้ (AP) ในปี 2024

ใบเสร็จรับเงินค่าใช้จ่ายคืออะไร?

12 สถิติ RPA ที่น่าตื่นเต้นที่คุณไม่ควรพลาดในปี 2022

ตัวแยกหมายเลขโทรศัพท์: ทุกสิ่งที่คุณต้องรู้

การสร้างแบบจำลอง Argus: ขับเคลื่อนการตัดสินใจด้านอสังหาริมทรัพย์โดยใช้ข้อมูล

กระบวนการจัดการผู้จำหน่าย: ความสำคัญ ประโยชน์ และความท้าทาย

วันที่ค้างชำระคืออะไร? และจะคำนวณ อ.ส.ค. อย่างไร?

คู่มือฉบับสมบูรณ์เกี่ยวกับการเปลี่ยนแปลงทางดิจิทัลในบัญชีเจ้าหนี้

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้