ต้องการดึงข้อมูลจากแบบฟอร์มที่พิมพ์หรือเขียนด้วยลายมือ ? เช็คเอาท์ นาโนเน็ต™ ตัวแยกข้อมูลแบบฟอร์ม ฟรี & ส่งออกข้อมูลอัตโนมัติจากทุกรูปแบบ!
แบบฟอร์มมีอยู่ทุกที่ พวกเขาถูกกำหนดให้เป็นเอกสารที่สร้างขึ้นเพื่อรวบรวมข้อมูลโดยขอให้ผู้เข้าร่วมกรอกข้อมูลที่จำเป็นในรูปแบบเฉพาะ สิ่งเหล่านี้มีประโยชน์เนื่องจากความสามารถในการรวบรวมข้อมูลจำนวนมากในเวลาอันสั้น อย่างไรก็ตาม ไม่ใช่ว่าทุกแบบฟอร์มจะมีความสามารถในการรวบรวมข้อมูลเท่ากัน และมักจะต้องดำเนินการด้วยตนเองในภายหลัง ดังนั้นเราจึงอาศัยเครื่องมือและอัลกอริธึมเพื่อทำให้กระบวนการดึงข้อมูลแบบฟอร์มเป็นไปโดยอัตโนมัติ โพสต์บล็อกนี้จะเจาะลึกในสถานการณ์และเทคนิคต่างๆ ในการดึงข้อมูลจากแบบฟอร์มโดยใช้ OCR และ Deep Learning
- การดึงข้อมูลแบบฟอร์มคืออะไร?
- อะไรทำให้ปัญหาท้าทาย?
- ความลึกของปัญหาการดึงแบบฟอร์ม
- โซลูชันการแยกข้อมูลแบบฟอร์มมีวิวัฒนาการอย่างไร
- แยกข้อมูลแบบฟอร์มโดยใช้ OCRs
- การแก้ปัญหาการดึงข้อมูลแบบฟอร์มโดยใช้การเรียนรู้เชิงลึก
- ป้อน Nanonets
การดึงข้อมูลแบบฟอร์มคืออะไร?
Form Data Extraction เป็นกระบวนการดึงข้อมูลจากแบบฟอร์มทั้งแบบออนไลน์และออฟไลน์ ข้อมูลนี้สามารถพบได้ในทุกรูปแบบ โดยปกติแล้วจะมีแบบฟอร์มที่มีข้อมูลที่เกี่ยวข้อง อย่างไรก็ตาม การดึงข้อมูลนี้ไม่ใช่เรื่องง่ายเสมอไป เนื่องจากเลย์เอาต์และการออกแบบจำนวนมากไม่อนุญาตให้เลือกข้อความอย่างง่ายดาย ไม่มีวิธีการคัดลอกข้อมูลจากพวกเขา ดังนั้นเราจึงอาศัยเทคนิคอัตโนมัติเพื่อช่วยดึงข้อมูลจากแบบฟอร์มที่มีประสิทธิภาพมากขึ้นและมีโอกาสเกิดข้อผิดพลาดน้อยลง
ตัวอย่างเช่น ในปัจจุบัน ผู้ใช้จำนวนมากใช้แบบฟอร์ม PDF เพื่อรวบรวมข้อมูลติดต่อ นี่เป็นวิธีที่มีประสิทธิภาพสูงในการรวบรวมข้อมูลเพราะไม่ต้องการให้ผู้ส่งและผู้รับป้อนข้อมูล แต่การดึงข้อมูลนี้ออกจากแบบฟอร์ม PDF อาจเป็นเรื่องท้าทายและมีราคาแพง
ที่นี่ การดึงข้อมูลแบบฟอร์มสามารถช่วยดึงข้อมูลจากแบบฟอร์ม PDF เช่น ชื่อ ที่อยู่อีเมล หมายเลขโทรศัพท์ ฯลฯ นำเข้าไปยังแอปพลิเคชันอื่น เช่น Excel ชีต หรือรูปแบบที่มีโครงสร้างอื่นๆ ได้ วิธีการทำงานคือเครื่องมือแยกไฟล์ที่อ่านบนไฟล์ PDF ดึงสิ่งที่ต้องการออกมาโดยอัตโนมัติ และจัดระเบียบในรูปแบบที่อ่านง่าย ข้อมูลนี้สามารถส่งออกเป็นรูปแบบอื่น ๆ เช่น Excel, CSV, JSON และรูปแบบข้อมูลที่มีโครงสร้างดีอื่นๆ ในส่วนถัดไป มาดูความท้าทายที่พบบ่อยบางประการเมื่อสร้างอัลกอริธึมการแยกข้อมูลแบบฟอร์ม
ต้องการดึงข้อมูลจากแบบฟอร์มที่พิมพ์หรือเขียนด้วยลายมือ ? ดู นาโนเน็ต™ form data extractor ฟรี & ส่งออกข้อมูลจากแบบฟอร์มใด ๆ โดยอัตโนมัติ!
อะไรทำให้การดึงข้อมูลแบบฟอร์มมีความท้าทาย?
การดึงข้อมูลเป็นปัญหาที่น่าตื่นเต้นด้วยเหตุผลหลายประการ ประการหนึ่ง มันคือปัญหาการจดจำรูปภาพ แต่ต้องพิจารณาข้อความที่อาจปรากฏในรูปภาพและเลย์เอาต์ของแบบฟอร์ม ซึ่งทำให้การสร้างอัลกอริธึมซับซ้อนยิ่งขึ้น ส่วนนี้กล่าวถึงความท้าทายทั่วไปบางประการที่ผู้คนพบเมื่อสร้างอัลกอริธึมการดึงข้อมูลแบบฟอร์ม
- ขาดข้อมูล: อัลกอริธึมการดึงข้อมูลมักจะสร้างโดยใช้อัลกอริธึมการเรียนรู้เชิงลึกที่ทรงพลังและอัลกอริธึมจากการมองเห็นของคอมพิวเตอร์ โดยทั่วไปแล้วสิ่งเหล่านี้ต้องอาศัยข้อมูลจำนวนมหาศาลเพื่อให้ได้ประสิทธิภาพที่ล้ำสมัย ดังนั้น การค้นหาชุดข้อมูลที่สอดคล้องกันและเชื่อถือได้และการประมวลผลจึงเป็นสิ่งสำคัญสำหรับเครื่องมือหรือซอฟต์แวร์ในการดึงข้อมูลทุกรูปแบบ ตัวอย่างเช่น สมมติว่าเรามีแบบฟอร์มที่มีเทมเพลตหลายแบบ ดังนั้นอัลกอริธึมเหล่านี้ควรสามารถเข้าใจรูปแบบต่างๆ ได้หลากหลาย ดังนั้นการฝึกอบรมพวกเขาในชุดข้อมูลที่มีประสิทธิภาพจะมีประสิทธิภาพที่แม่นยำยิ่งขึ้น
- การจัดการฟอนต์ ภาษา และเลย์เอาต์: มีแบบอักษร การออกแบบ และเทมเพลตต่างๆ มากมายสำหรับข้อมูลแบบฟอร์มประเภทต่างๆ พวกเขาอาจจัดอยู่ในประเภทที่แตกต่างกันโดยสิ้นเชิง ซึ่งทำให้ยากต่อการรับรองการจดจำที่แม่นยำเมื่อมีประเภทอักขระที่แตกต่างกันจำนวนมากที่ต้องนำมาพิจารณา ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องจำกัดคอลเลกชั่นฟอนต์เป็นภาษาและประเภทเฉพาะ เนื่องจากจะสร้างกระบวนการหลายอย่างที่ไหลได้อย่างราบรื่นเมื่อคุณมีการประมวลผลเอกสารเหล่านั้นอย่างเหมาะสม ในกรณีหลายภาษา จำเป็นต้องเตรียมการเล่นปาหี่ระหว่างอักขระจากหลายภาษาและดูแลการพิมพ์ที่ซับซ้อนด้วย
- การวางแนวและเอียง (การหมุน): ในระหว่างการดูแลข้อมูล เรามักจะสแกนภาพเพื่อฝึกอัลกอริทึมสำหรับการรวบรวมข้อมูลอินพุต หากคุณเคยใช้เครื่องสแกนหรือกล้องดิจิตอล คุณอาจสังเกตเห็นว่ามุมที่คุณถ่ายภาพเอกสารในบางครั้งอาจทำให้ภาพดูเบี้ยวได้ สิ่งนี้เรียกว่าความเบ้ซึ่งหมายถึงระดับของมุม ความเบ้นี้สามารถลดความแม่นยำของแบบจำลองได้ โชคดีที่สามารถใช้เทคนิคต่างๆ เพื่อแก้ไขปัญหานี้ได้โดยเพียงแค่ปรับเปลี่ยนวิธีที่ซอฟต์แวร์ของเราตรวจพบคุณลักษณะในพื้นที่เฉพาะของรูปภาพ ตัวอย่างของเทคนิคดังกล่าวคือวิธี Projection Profile หรือวิธี Fourier Transformation ซึ่งช่วยให้ได้ผลลัพธ์ที่ชัดเจนยิ่งขึ้นในการจดจำรูปร่าง มิติ และพื้นผิว! แม้ว่าการวางแนวและความเบ้อาจเป็นข้อผิดพลาดง่ายๆ แต่สิ่งเหล่านี้อาจส่งผลต่อความถูกต้องของแบบจำลองเป็นจำนวนมาก
- ความปลอดภัยของข้อมูล: หากคุณกำลังดึงข้อมูลจากแหล่งต่าง ๆ สำหรับการรวบรวมข้อมูล สิ่งสำคัญคือต้องตระหนักถึงมาตรการรักษาความปลอดภัยที่มีอยู่ มิฉะนั้น คุณเสี่ยงที่จะประนีประนอมกับข้อมูลที่กำลังถ่ายโอน ซึ่งอาจนำไปสู่สถานการณ์ที่ข้อมูลส่วนบุคคลถูกละเมิดหรือข้อมูลที่ส่งไปยัง API ไม่ปลอดภัย ดังนั้น ในขณะที่ทำงานกับสคริปต์ ETL และ API ออนไลน์สำหรับการดึงข้อมูล เราจะต้องตระหนักถึงปัญหาด้านความปลอดภัยของข้อมูลด้วย
- การแยกตาราง: บางครั้ง เราเห็นข้อมูลแบบฟอร์มภายในตาราง การสร้างอัลกอริธึมที่แข็งแกร่งซึ่งสามารถจัดการทั้งการแยกแบบฟอร์มและการแยกตารางอาจเป็นสิ่งที่ท้าทาย วิธีปกติคือการสร้างอัลกอริทึมเหล่านี้โดยอิสระและนำไปใช้กับข้อมูล แต่จะนำไปสู่การใช้กำลังในการคำนวณที่มากขึ้นซึ่งจะเป็นการเพิ่มต้นทุน ดังนั้น การแยกแบบฟอร์มในอุดมคติควรจะสามารถดึงทั้งข้อมูลแบบฟอร์มและข้อมูลจากเอกสารที่กำหนดได้
- หลังการประมวลผล / ส่งออกผลลัพธ์: ข้อมูลเอาท์พุตจากการดึงข้อมูลใดๆ ไม่เป็นเส้นตรง ดังนั้น นักพัฒนาจึงอาศัยเทคนิคหลังการประมวลผลเพื่อกรองผลลัพธ์ให้อยู่ในรูปแบบที่มีโครงสร้างมากขึ้น หลังจากประมวลผลข้อมูลแล้ว ข้อมูลจะถูกส่งออกเป็นรูปแบบที่มีโครงสร้างมากขึ้น เช่น CSV, Excel หรือฐานข้อมูล องค์กรพึ่งพาการผสานรวมของบุคคลที่สามหรือพัฒนา API เพื่อทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติ ซึ่งใช้เวลานานอีกครั้ง ดังนั้น อัลกอริธึมการดึงข้อมูลในอุดมคติจึงควรมีความยืดหยุ่นและง่ายต่อการสื่อสารกับแหล่งข้อมูลภายนอก
ต้องการดึงข้อมูลจากแบบฟอร์มที่พิมพ์หรือเขียนด้วยลายมือ ? ดู นาโนเน็ต™ form data extractor ฟรี & ส่งออกข้อมูลจากแบบฟอร์มใด ๆ โดยอัตโนมัติ!
ทำความเข้าใจความลึกของการสกัดแบบฟอร์มด้วยสถานการณ์ต่างๆ
จนถึงตอนนี้ เราได้พูดถึงพื้นฐานและความท้าทายของการดึงข้อมูลแบบฟอร์ม ในส่วนนี้ เราจะเจาะลึกในสถานการณ์ต่างๆ และทำความเข้าใจความลึกของการดึงข้อมูลแบบฟอร์ม นอกจากนี้ เราจะพิจารณาว่าเราจะทำให้กระบวนการแยกข้อมูลเป็นอัตโนมัติสำหรับสถานการณ์เฉพาะเหล่านี้ได้อย่างไร
สถานการณ์ #1: การจดจำลายมือเขียนสำหรับแบบฟอร์มออฟไลน์
แบบฟอร์มออฟไลน์มักพบในชีวิตประจำวัน จำเป็นสำหรับแบบฟอร์มที่จะกรอกและส่งได้ง่าย การทำแบบฟอร์มออฟไลน์ให้เป็นดิจิทัลด้วยตนเองอาจเป็นงานที่ยุ่งยากและมีราคาแพง ซึ่งเป็นเหตุให้ต้องใช้อัลกอริทึมการเรียนรู้เชิงลึก เอกสารที่เขียนด้วยลายมือเป็นความท้าทายหลักในการดึงข้อมูลเนื่องจากความซับซ้อนของอักขระที่เขียนด้วยลายมือ ดังนั้นอัลกอริธึมการรู้จำข้อมูลจึงถูกใช้อย่างมากโดยที่เครื่องเรียนรู้ที่จะอ่านและตีความข้อความที่เขียนด้วยลายมือ กระบวนการนี้เกี่ยวข้องกับการสแกนรูปภาพของคำที่เขียนด้วยลายมือและแปลงเป็นข้อมูลที่สามารถประมวลผลและวิเคราะห์โดยอัลกอริทึม จากนั้นอัลกอริธึมจะสร้างแผนผังอักขระตามจังหวะและจดจำตัวอักษรที่เกี่ยวข้องเพื่อแยกข้อความ
สถานการณ์ #2: การระบุช่องทำเครื่องหมายในแบบฟอร์ม
แบบฟอร์มช่องทำเครื่องหมายคือรูปแบบการป้อนข้อมูลที่ใช้ในการรวบรวมข้อมูลจากผู้ใช้ในช่องป้อนข้อมูล ข้อมูลประเภทนี้มักพบในรายการและตารางที่กำหนดให้ผู้ใช้เลือกหนึ่งรายการขึ้นไป เช่น รายการที่ต้องการให้ติดต่อ สามารถพบได้ในสถานที่ต่างๆ เช่น แบบฟอร์มออนไลน์ แบบสอบถาม แบบสำรวจ และอื่นๆ ทุกวันนี้ อัลกอริธึมบางตัวสามารถทำให้กระบวนการดึงข้อมูลเป็นไปโดยอัตโนมัติ แม้กระทั่งจากช่องทำเครื่องหมาย เป้าหมายหลักของอัลกอริธึมนี้คือการระบุพื้นที่อินพุตโดยใช้เทคนิคการมองเห็นด้วยคอมพิวเตอร์ สิ่งเหล่านี้เกี่ยวข้องกับการระบุเส้น (แนวนอนและแนวตั้ง) การใช้ฟิลเตอร์ เส้นขอบ และการตรวจจับขอบบนภาพ หลังจากระบุขอบเขตการป้อนข้อมูลแล้ว การแยกเนื้อหาในกล่องกาเครื่องหมายที่มีการทำเครื่องหมายหรือไม่ทำเครื่องหมายทำได้ง่าย
สถานการณ์ #3: การเปลี่ยนแปลงเค้าโครงของแบบฟอร์มเป็นครั้งคราว
เมื่อพูดถึงการกรอกแบบฟอร์ม โดยทั่วไปแล้วจะมีตัวเลือกสองประเภทที่แตกต่างกัน สำหรับบางแบบฟอร์ม เราจำเป็นต้องให้ข้อมูลของเราโดยเขียนลงในฟิลด์ที่เกี่ยวข้องทั้งหมด ในขณะที่สำหรับรูปแบบอื่นๆ เราสามารถให้ข้อมูลได้โดยการเลือกจากช่องทำเครื่องหมายสองสามช่อง เลย์เอาต์ของฟอร์มยังเปลี่ยนแปลงตามประเภทของฟอร์มและบริบท ดังนั้นจึงเป็นสิ่งสำคัญที่จะสร้างอัลกอริธึมที่สามารถจัดการเอกสารที่ไม่มีโครงสร้างหลายฉบับและแยกเนื้อหาอย่างชาญฉลาดโดยขึ้นอยู่กับป้ายกำกับของแบบฟอร์ม เทคนิคยอดนิยมอย่างหนึ่งของสถาปัตยกรรมการเรียนรู้เชิงลึกในการจัดการเค้าโครงเอกสารคือ CNN ของกราฟ แนวคิดเบื้องหลัง Graph Convolutional Networks (GCNs) คือการทำให้แน่ใจว่าการกระตุ้นเซลล์ประสาทนั้นขับเคลื่อนด้วยข้อมูล ออกแบบมาเพื่อใช้งานบนกราฟ ซึ่งประกอบด้วยโหนดและขอบ เลเยอร์ convolutional ของกราฟสามารถจดจำรูปแบบได้ในกรณีที่ไม่มีสัญญาณการฝึกอบรมเฉพาะงาน ดังนั้นสิ่งเหล่านี้จึงเหมาะสมเมื่อข้อมูลมีความแข็งแกร่ง
สถานการณ์ #4: การตรวจจับเซลล์ตาราง
ในบางกรณี ธุรกิจอาจพบรูปแบบพิเศษที่ประกอบด้วยเซลล์ตาราง เซลล์ตารางเป็นพื้นที่สี่เหลี่ยมภายในตารางที่เก็บข้อมูล สามารถจัดประเภทเป็นส่วนหัว แถว หรือคอลัมน์ อัลกอริทึมในอุดมคติควรระบุเซลล์ทุกประเภทและขอบเขตของเซลล์เหล่านี้เพื่อดึงข้อมูลจากเซลล์เหล่านี้ เทคนิคยอดนิยมสำหรับการแยกตาราง ได้แก่ Stream และ Lattice เหล่านี้เป็นอัลกอริธึมที่ช่วยตรวจจับเส้น รูปร่าง รูปหลายเหลี่ยมโดยใช้การดำเนินการแบบไอโซมอร์ฟิกอย่างง่ายบนรูปภาพ
โซลูชันการดึงข้อมูลแบบฟอร์มมีวิวัฒนาการอย่างไร
การดึงข้อมูลแบบฟอร์มมีต้นกำเนิดมาจากยุคก่อนคอมพิวเตอร์ เมื่อมีคนจัดการกับแบบฟอร์มกระดาษ ด้วยการถือกำเนิดของการคำนวณ ทำให้สามารถจัดเก็บข้อมูลทางอิเล็กทรอนิกส์ได้ โปรแกรมคอมพิวเตอร์สามารถใช้ข้อมูลเพื่อสร้างรายงานได้ เช่น สถิติการขาย ซอฟต์แวร์นี้ยังสามารถใช้เพื่อพิมพ์ฉลากสำหรับส่งไปรษณีย์ เช่น ชื่อและที่อยู่ของลูกค้า และพิมพ์ใบแจ้งหนี้ เช่น จำนวนเงินที่ครบกำหนดชำระและที่อยู่ที่จะส่ง อย่างไรก็ตาม วันนี้เราเห็นซอฟต์แวร์แยกข้อมูลแบบฟอร์มเวอร์ชันอื่น ข้อมูลเหล่านี้มีความแม่นยำสูง รวดเร็ว และส่งข้อมูลในลักษณะที่เป็นระเบียบและมีโครงสร้างสูง ตอนนี้ เรามาพูดถึงเทคนิคการดึงข้อมูลแบบฟอร์มประเภทต่างๆ สั้นๆ กัน
- ตามกฎจากการดึงข้อมูล: การดึงข้อมูลตามกฎเป็นเทคนิคที่ดึงข้อมูลจากแบบฟอร์มเทมเพลตเฉพาะโดยอัตโนมัติ สามารถดึงข้อมูลได้โดยไม่ต้องมีการแทรกแซงของมนุษย์ พวกเขาทำงานโดยการตรวจสอบฟิลด์ต่างๆ บนหน้าและตัดสินใจว่าจะแยกฟิลด์ใดตามข้อความ ป้ายกำกับ และเบาะแสบริบทอื่นๆ อัลกอริธึมเหล่านี้มักจะพัฒนาและทำงานอัตโนมัติโดยใช้สคริปต์ ETL หรือการขูดเว็บ อย่างไรก็ตาม เมื่อทดสอบกับข้อมูลที่มองไม่เห็น จะล้มเหลวโดยสิ้นเชิง
- แยกข้อมูลแบบฟอร์มโดยใช้OCR: OCR เป็นโซลูชันที่ใช้งานได้จริงสำหรับปัญหาการดึงข้อมูลทุกรูปแบบ อย่างไรก็ตาม เราต้องเขียนสคริปต์และโปรแกรมเพิ่มเติมเพื่อให้ได้ประสิทธิภาพที่ถูกต้อง เพื่อให้ OCR ทำงานได้ จะต้องมีการป้อนรูปภาพที่มีข้อความอยู่ จากนั้นซอฟต์แวร์จะอ่านแต่ละพิกเซลและเปรียบเทียบแต่ละพิกเซลกับตัวอักษรที่เกี่ยวข้องกัน หากตรงกัน มันจะส่งออกตัวอักษรนั้นและตัวเลขหรือสัญลักษณ์ใด ๆ ที่ใกล้เคียงกับตัวอักษรนั้น ความท้าทายที่ยิ่งใหญ่ที่สุดกับ OCR คือการหาวิธีแยกตัวอักษร ตัวอย่างเช่น เมื่อโน้ตอยู่ใกล้กันหรือทับซ้อนกัน เช่น "a" และ "e" ดังนั้น สิ่งเหล่านี้อาจไม่ทำงานเมื่อเราแยกฟอร์มออฟไลน์
- NER สำหรับการดึงข้อมูลแบบฟอร์ม: การรับรู้เอนทิตีที่มีชื่อเป็นงานในการระบุและจัดประเภทเอนทิตีที่กำหนดไว้ล่วงหน้าในข้อความภาษาธรรมชาติ มักใช้เพื่อดึงข้อมูลจากแบบฟอร์ม โดยที่ผู้คนพิมพ์ชื่อ ที่อยู่ ความคิดเห็น ฯลฯ หน้าที่ในการจดจำเอนทิตีที่มีชื่อนั้นมีความเกี่ยวข้องอย่างใกล้ชิดกับงานแก้ปัญหาในวงกว้าง ซึ่งกำหนดว่าการกล่าวถึงเอนทิตีเดียวกันนั้นอ้างถึง หน่วยงานในโลกแห่งความเป็นจริงเดียวกัน วันนี้ด้วยเครื่องมือและเฟรมเวิร์กในการเขียนโปรแกรมขั้นสูง เราสามารถใช้ประโยชน์จากโมเดลที่ได้รับการฝึกอบรมมาล่วงหน้าเพื่อสร้างโมเดลตาม NER สำหรับงานดึงข้อมูล
- การใช้การเรียนรู้เชิงลึกสำหรับการดึงข้อมูลแบบฟอร์ม: การเรียนรู้เชิงลึกไม่ใช่เรื่องใหม่ มีมานานหลายทศวรรษแล้ว แต่การพัฒนาล่าสุดในสถาปัตยกรรมการเรียนรู้เชิงลึกและพลังการประมวลผลได้นำไปสู่ผลลัพธ์ที่ก้าวล้ำ การแยกข้อมูลแบบฟอร์มโดยใช้การเรียนรู้เชิงลึกทำให้ได้ประสิทธิภาพที่ล้ำหน้าในเกือบทุกรูปแบบ ไม่ว่าจะเป็นแบบดิจิทัลหรือแบบเขียนด้วยลายมือ กระบวนการเริ่มต้นด้วยการให้ตัวอย่างที่แตกต่างกันหลายพันหรือล้านตัวอย่างกับเครือข่ายประสาทลึก (DNN) ที่มีป้ายกำกับว่าเป็นอย่างไร ตัวอย่างเช่น ป้ายกำกับรูปแบบรูปภาพที่มีเอนทิตี เช่น ชื่อ อีเมล รหัส ฯลฯ DNN ประมวลผลข้อมูลทั้งหมดนี้และเรียนรู้ด้วยตัวเองว่าชิ้นส่วนเหล่านี้เชื่อมต่อกันอย่างไร อย่างไรก็ตาม การสร้างแบบจำลองที่มีความแม่นยำสูงนั้นต้องใช้ความเชี่ยวชาญและการทดลองอย่างมาก
ต้องการดึงข้อมูลจากแบบฟอร์มที่พิมพ์หรือเขียนด้วยลายมือ ? ดู นาโนเน็ต™ form data extractor ฟรี & ส่งออกข้อมูลจากแบบฟอร์มใด ๆ โดยอัตโนมัติ!
แยกข้อมูลแบบฟอร์มโดยใช้ OCRs
มีไลบรารีต่างๆ มากมายสำหรับดึงข้อมูลจากแบบฟอร์ม แต่ถ้าคุณต้องการดึงข้อมูลจากรูปภาพของแบบฟอร์มล่ะ นี่คือที่มาของ Tesseract OCR (Optical Character Recognition) Tesseract เป็นเอ็นจิ้น OCR (Optical Character Recognition) แบบโอเพ่นซอร์สที่พัฒนาโดย HP การใช้ Tesseract OCR ทำให้สามารถแปลงเอกสารที่สแกน เช่น ใบแจ้งหนี้ที่เป็นกระดาษ ใบเสร็จ และเช็คเป็นไฟล์ดิจิทัลที่ค้นหาได้และสามารถแก้ไขได้ มีให้บริการในหลายภาษาและสามารถจดจำอักขระในรูปแบบภาพต่างๆ โดยทั่วไปแล้ว Tesseract จะใช้ร่วมกับไลบรารีอื่น ๆ เพื่อประมวลผลรูปภาพเพื่อแยกข้อความ
เพื่อทดสอบสิ่งนี้ ตรวจสอบให้แน่ใจว่าคุณติดตั้ง Tesseract บนเครื่องของคุณ คุณสามารถใช้ Tesseract CLI หรือการเชื่อมโยง Python สำหรับการรัน OCR Python-tesseract เป็น wrapper สำหรับ Tesseract-OCR Engine ของ Google สามารถใช้อ่านรูปภาพทุกประเภทที่รองรับโดยไลบรารีภาพ Pillow and Leptonica รวมทั้ง jpeg, png, gif, bmp, tiff และอื่นๆ คุณสามารถใช้เป็นสคริปต์การเรียกใช้แบบสแตนด์อโลนได้อย่างง่ายดายเพื่อ tesseract หากจำเป็น
ตอนนี้ มาดูใบเสร็จที่มีข้อมูลแบบฟอร์มและพยายามระบุตำแหน่งของข้อความโดยใช้ Computer Vision และ Tesseract
import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')
ในผลลัพธ์นี้ อย่างที่เราเห็น โปรแกรมสามารถระบุข้อความทั้งหมดภายในแบบฟอร์มได้ ตอนนี้ ลองใช้ OCR กับสิ่งนี้เพื่อดึงข้อมูลทั้งหมด เราสามารถทำได้โดยใช้ปุ่ม image_to_string ฟังก์ชันในไพทอน
extracted_text = pytesseract.image_to_string(img, lang = 'deu')
Output:
Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch
ที่นี่เราสามารถดึงข้อมูลทั้งหมดออกจากแบบฟอร์มได้ อย่างไรก็ตาม ในกรณีส่วนใหญ่ การใช้เพียง OCR จะไม่ช่วย เนื่องจากข้อมูลที่ดึงออกมาจะไม่มีโครงสร้างอย่างสมบูรณ์ ดังนั้น ผู้ใช้จึงอาศัยการดึงคู่คีย์-ค่าในแบบฟอร์ม ซึ่งสามารถระบุเอนทิตีเฉพาะเช่น ID วันที่ จำนวนเงินภาษี ฯลฯ ซึ่งเป็นไปได้เฉพาะกับการเรียนรู้เชิงลึกเท่านั้น ในหัวข้อถัดไป มาดูวิธีที่เราสามารถใช้ประโยชน์จากเทคนิคการเรียนรู้เชิงลึกต่างๆ เพื่อสร้างอัลกอริธึมการดึงข้อมูลได้อย่างไร
การแก้ปัญหาการดึงข้อมูลแบบฟอร์มโดยใช้การเรียนรู้เชิงลึก
กราฟ Convolution สำหรับการดึงข้อมูลหลายรูปแบบจากเอกสารที่มองเห็นได้ชัดเจน
กราฟ Convolutional Networks (กราฟ CNN) เป็นคลาสของ Deep Convolutional Neural Network (CNNs) ที่สามารถเรียนรู้คุณลักษณะที่ไม่เป็นเชิงเส้นในระดับสูงในโครงสร้างข้อมูลกราฟได้อย่างมีประสิทธิภาพ ในขณะที่ยังคงรักษาโครงสร้างโหนดและขอบไว้ พวกเขาสามารถใช้โครงสร้างข้อมูลกราฟเป็นอินพุตและสร้าง 'ฟีเจอร์แผนที่' สำหรับโหนดและขอบ คุณลักษณะที่เป็นผลลัพธ์สามารถใช้สำหรับการจัดประเภทกราฟ การทำคลัสเตอร์ หรือการตรวจจับชุมชน GCN มอบโซลูชันอันทรงพลังในการดึงข้อมูลจากเอกสารขนาดใหญ่ที่มองเห็นได้ชัดเจน เช่น ใบแจ้งหนี้และใบเสร็จ ในการประมวลผลภาพแต่ละภาพจะต้องแปลงเป็นกราฟที่ประกอบด้วยโหนดและขอบ คำใดๆ บนรูปภาพจะแสดงด้วยโหนดของตัวเอง การแสดงภาพข้อมูลที่เหลือจะถูกเข้ารหัสในเวกเตอร์คุณสมบัติของโหนด
โมเดลนี้จะเข้ารหัสแต่ละส่วนข้อความในเอกสารเป็นลำดับแรกในการฝังกราฟ การทำเช่นนี้จะเป็นการจับภาพบริบทภาพและข้อความที่ล้อมรอบแต่ละองค์ประกอบข้อความ พร้อมด้วยตำแหน่งหรือตำแหน่งภายในกลุ่มข้อความ จากนั้นจะรวมกราฟเหล่านี้กับการฝังข้อความเพื่อสร้างการนำเสนอโดยรวมของโครงสร้างของเอกสารและสิ่งที่เขียนอยู่ภายใน โมเดลเรียนรู้ที่จะกำหนดน้ำหนักให้สูงขึ้นในข้อความที่น่าจะเป็นเอนทิตีตามตำแหน่งที่ตั้งที่สัมพันธ์กันและบริบทที่ปรากฏภายในกลุ่มผู้อ่านที่ใหญ่ขึ้น สุดท้าย ใช้โมเดล BiLSTM-CRF มาตรฐานสำหรับการแยกเอนทิตี ผลการวิจัยพบว่าอัลกอริธึมนี้มีประสิทธิภาพเหนือกว่าโมเดลพื้นฐาน (BiLSTM-CRF) บนระยะขอบที่กว้าง
LayoutLM: การฝึกอบรมข้อความและเลย์เอาต์ล่วงหน้าสำหรับการทำความเข้าใจภาพเอกสาร
สถาปัตยกรรมของโมเดล LayoutLM ได้รับแรงบันดาลใจอย่างมากจาก BERT และรวมการฝังรูปภาพจาก R-CNN ที่เร็วกว่า LayoutLM input embeddings ถูกสร้างเป็นการรวมข้อความและตำแหน่ง embedding แล้วรวมเข้ากับภาพ embedding ที่สร้างโดยโมเดล Faster R-CNN โมเดลภาษาภาพที่มีการปิดบังและการจัดประเภทเอกสารหลายป้ายกำกับนั้นส่วนใหญ่จะใช้เป็นงานเตรียมการล่วงหน้าสำหรับ LayoutLM โมเดล LayoutLM มีค่า ไดนามิก และแข็งแกร่งเพียงพอสำหรับงานที่ต้องการความเข้าใจเกี่ยวกับเลย์เอาต์ เช่น การดึงแบบฟอร์ม/ใบเสร็จรับเงิน การจัดประเภทรูปภาพในเอกสาร หรือแม้แต่การตอบคำถามด้วยภาพ สามารถทำได้ด้วยโมเดลการฝึกอบรมนี้
โมเดล LayoutLM ได้รับการฝึกอบรมเกี่ยวกับ IIT-CDIP Test Collection 1.0 ซึ่งประกอบด้วยเอกสารมากกว่า 6 ล้านฉบับและรูปภาพเอกสารที่สแกนมากกว่า 11 ล้านภาพซึ่งมีข้อมูลรวมกว่า 12GB โมเดลนี้มีประสิทธิภาพเหนือกว่ารุ่นก่อนการฝึกอบรม SOTA หลายรุ่นอย่างมากในด้านความเข้าใจในแบบฟอร์ม ความเข้าใจในการรับ และงานการจำแนกภาพเอกสารที่สแกน
Form2Seq: กรอบงานสำหรับการสกัดโครงสร้างแบบฟอร์มระดับสูง
Form2Seq เป็นเฟรมเวิร์กที่เน้นการแยกโครงสร้างออกจากข้อความอินพุตโดยใช้ลำดับตำแหน่ง ต่างจากเฟรมเวิร์ก seq2seq แบบดั้งเดิม Form2Seq ใช้ประโยชน์จากตำแหน่งเชิงพื้นที่สัมพัทธ์ของโครงสร้าง มากกว่าที่จะเรียงลำดับ
ในวิธีนี้ อันดับแรก เราจัดประเภทองค์ประกอบระดับต่ำที่จะช่วยให้การประมวลผลและการจัดระเบียบที่ดีขึ้น แบบฟอร์มมี 10 ชนิด เช่น คำอธิบายฟิลด์ รายการ และอื่นๆ ต่อไป เราจัดกลุ่มองค์ประกอบระดับล่าง เช่น Text Fields และ ChoiceFields เป็นโครงสร้างลำดับที่สูงกว่าที่เรียกว่า ChoiceGroups สิ่งเหล่านี้ถูกใช้เป็นกลไกการรวบรวมข้อมูลเพื่อให้ผู้ใช้ได้รับประสบการณ์ที่ดีขึ้นองค์ประกอบระดับล่างในโครงสร้างที่มีลำดับสูงกว่า เช่น Text Fields, ChoiceFields และ ChoiceGroups ซึ่งใช้เป็นกลไกการรวบรวมข้อมูลในแบบฟอร์ม สิ่งนี้เป็นไปได้โดยการจัดองค์ประกอบองค์ประกอบในลำดับเชิงเส้นในลำดับการอ่านตามธรรมชาติ และป้อนการนำเสนอเชิงพื้นที่และข้อความไปยังเฟรมเวิร์ก Seq2Seq เฟรมเวิร์ก Seq2Seq จะทำการคาดการณ์สำหรับแต่ละองค์ประกอบของประโยคตามลำดับโดยขึ้นอยู่กับบริบท ทำให้สามารถประมวลผลข้อมูลเพิ่มเติมและทำความเข้าใจกับงานในมือได้ดียิ่งขึ้น
โมเดลนี้มีความแม่นยำถึง 90% ในงานจำแนกประเภท ซึ่งสูงกว่าโมเดลพื้นฐานตามการแบ่งกลุ่ม F1 บนบล็อคข้อความ ฟิลด์ข้อความ และฟิลด์ตัวเลือกคือ 86.01%, 61.63% ตามลำดับ กรอบงานนี้บรรลุสถานะของผลลัพธ์ในชุดข้อมูล ICDAR สำหรับการรับรู้โครงสร้างตาราง
ต้องการดึงข้อมูลจากแบบฟอร์มที่พิมพ์หรือเขียนด้วยลายมือ ? ดู นาโนเน็ต™ form data extractor ฟรี & ส่งออกข้อมูลจากแบบฟอร์มใด ๆ โดยอัตโนมัติ!
เหตุใด OCR ที่ใช้ AI ของ Nanonets จึงเป็นตัวเลือกที่ดีที่สุด
แม้ว่าซอฟต์แวร์ OCR จะสามารถแปลงรูปภาพที่สแกนของข้อความเป็นไฟล์ดิจิทัลที่จัดรูปแบบแล้ว เช่น PDF, DOC และ PPT แต่ก็ไม่แม่นยำเสมอไป ซอฟต์แวร์ระดับแนวหน้าในปัจจุบัน เช่น ระบบ Deep Learning OCR ที่ใช้ AI ของ Nanonets ได้เอาชนะความท้าทายมากมายที่ระบบ OCR แบบเดิมต้องเผชิญขณะสร้างไฟล์ที่แก้ไขได้จากเอกสารที่สแกน ได้กลายเป็นตัวเลือกที่ดีที่สุดสำหรับการดึงข้อมูลเนื่องจากสามารถให้อัตราความแม่นยำสูงและระดับความทนทานสูงสำหรับสัญญาณรบกวน องค์ประกอบกราฟิก และการเปลี่ยนแปลงการจัดรูปแบบ ตอนนี้ มาพูดคุยกันสองสามประเด็นว่า OCR ที่ใช้ AI เป็นตัวเลือกที่ดีที่สุดได้อย่างไร
- ตามที่กล่าวไว้ OCR เป็นเทคนิคที่ตรงไปตรงมาในการดึงข้อมูล อย่างไรก็ตาม มันจะไม่ทำงานอย่างสม่ำเสมอเมื่อใส่ข้อมูลที่มองไม่เห็น/ใหม่ อย่างไรก็ตาม OCR ที่ใช้ AI สามารถจัดการกับสถานการณ์เช่นนี้ได้ เนื่องจากพวกเขาฝึกกับข้อมูลที่หลากหลาย
- OCR ปกติไม่สามารถจัดการรูปแบบที่ซับซ้อนสำหรับการดึงข้อมูลแบบฟอร์ม ดังนั้น เมื่อขับเคลื่อนด้วยการเรียนรู้เชิงลึกหรือ AI พวกมันจะให้ผลลัพธ์ที่ดีที่สุดโดยการทำความเข้าใจเลย์เอาต์ ข้อความ และบริบทของข้อมูล
- OCR อาจมีประสิทธิภาพต่ำกว่าเมื่อมีสัญญาณรบกวนในข้อมูล เช่น ความเบ้ ภาพที่สแกนในสภาวะแสงน้อย ฯลฯ ในขณะที่โมเดลการเรียนรู้เชิงลึกสามารถจัดการกับสภาวะดังกล่าวและยังคงให้ผลลัพธ์ที่แม่นยำสูง
- OCR ที่ใช้ AI นั้นปรับแต่งได้สูงและยืดหยุ่นเมื่อเทียบกับ OCR แบบเดิม สามารถสร้างจากข้อมูลประเภทต่างๆ เพื่อแปลงข้อมูลที่ไม่มีโครงสร้างเป็นรูปแบบที่มีโครงสร้างได้
- เอาต์พุตหลังการประมวลผลจาก OCR ที่ใช้ AI สามารถเข้าถึงได้เมื่อเปรียบเทียบกับ OCR ธรรมดา สามารถส่งออกไปยังรูปแบบข้อมูลใดๆ เช่น JSON, CSV, ชีต Excel หรือแม้แต่ฐานข้อมูล เช่น Postgres ได้โดยตรงจากโมเดล
- OCR ที่ใช้ AI สามารถส่งออกเป็น API อย่างง่ายได้โดยใช้โมเดลที่ได้รับการฝึกอบรมล่วงหน้า วิธีนี้ยังคงเป็นไปได้ในวิธีการดั้งเดิมอื่นๆ แต่อาจเป็นเรื่องยากที่จะปรับปรุงแบบจำลองอย่างสม่ำเสมอในเวลาที่เหมาะสม ในขณะที่ใช้ OCR แบบ AI จะสามารถปรับค่าได้โดยอัตโนมัติเมื่อมีข้อผิดพลาด
- การแยกตารางทำได้ยากมากโดยใช้ OCR แบบตรง อย่างไรก็ตาม สามารถทำได้อย่างง่ายดายด้วยพลังของ AI/DL วันนี้ OCR ที่ใช้ AI สามารถชี้แบบฟอร์มแบบตารางในเอกสารและดึงข้อมูลในเชิงบวกได้
- หากมีข้อมูลทางการเงินหรือข้อมูลที่เป็นความลับในเอกสาร โมเดล AI ก็สามารถดำเนินการตรวจสอบการฉ้อโกงได้เช่นกัน โดยทั่วไปจะค้นหาข้อความที่แก้ไข/เบลอจากเอกสารที่สแกนและแจ้งให้ผู้ดูแลระบบทราบ เอกสารหรือข้อมูลที่ซ้ำกันสามารถระบุได้ผ่านแบบจำลองเหล่านี้ แม้ว่า OCR จะล้มเหลวในกรณีเช่นนี้
- &
- 67
- 7
- 9
- ลงชื่อเข้าใช้
- ถูกต้อง
- ประสบความสำเร็จ
- ข้าม
- เพิ่มเติม
- ที่อยู่
- สูง
- AI
- ขั้นตอนวิธี
- อัลกอริทึม
- ทั้งหมด
- แม้ว่า
- จำนวน
- จำนวน
- อื่น
- API
- APIs
- การใช้งาน
- การประยุกต์ใช้
- เข้าใกล้
- สถาปัตยกรรม
- รอบ
- อัตโนมัติ
- ใช้ได้
- พื้นหลัง
- baseline
- เป็นพื้น
- รากฐาน
- กลายเป็น
- กำลัง
- ที่ดีที่สุด
- ที่ใหญ่ที่สุด
- ปิดกั้น
- บล็อก
- ชายแดน
- สร้าง
- การก่อสร้าง
- ธุรกิจ
- ความจุ
- คำอธิบายภาพ
- ซึ่ง
- กรณี
- ก่อให้เกิด
- ท้าทาย
- ความท้าทาย
- การตรวจสอบ
- การจัดหมวดหมู่
- รวบรวม
- การเก็บรวบรวม
- ชุด
- การผสมผสาน
- รวม
- ความคิดเห็น
- ร่วมกัน
- ชุมชน
- เมื่อเทียบกับ
- ซับซ้อน
- การคำนวณ
- พลังคอมพิวเตอร์
- เนื้อหา
- เนื้อหา
- ค่าใช้จ่าย
- ได้
- สร้าง
- การสร้าง
- สำคัญมาก
- ลูกค้า
- ข้อมูล
- ความปลอดภัยของข้อมูล
- ฐานข้อมูล
- วันที่
- การออกแบบ
- การตรวจพบ
- พัฒนา
- พัฒนา
- นักพัฒนา
- การพัฒนา
- ต่าง
- ดิจิตอล
- Dimension
- สนทนา
- เอกสาร
- พลวัต
- อีเมล
- อย่างง่ายดาย
- ขอบ
- มีประสิทธิภาพ
- ที่มีประสิทธิภาพ
- อีเมล
- จำเป็น
- ยูโร
- ตัวอย่าง
- Excel
- ประสบการณ์
- ความชำนาญ
- สารสกัดจาก
- ต้องเผชิญกับ
- เร็วขึ้น
- ลักษณะ
- คุณสมบัติ
- สาขา
- ฟิลเตอร์
- ในที่สุด
- ทางการเงิน
- ชื่อจริง
- แก้ไขปัญหา
- ไหล
- ฟอร์ม
- รูป
- รูปแบบ
- พบ
- กรอบ
- การหลอกลวง
- ฟรี
- ฟังก์ชัน
- ความรู้พื้นฐาน
- สร้าง
- เป้าหมาย
- บัญชีกลุ่ม
- ช่วย
- เป็นประโยชน์
- จุดสูง
- อย่างสูง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- ความคิด
- ประจำตัว
- แยกแยะ
- ภาพ
- ส่งผลกระทบ
- สำคัญ
- เป็นไปไม่ได้
- ปรับปรุง
- ในอื่น ๆ
- ประกอบด้วย
- รวมทั้ง
- ข้อมูล
- แรงบันดาลใจ
- การผสานรวม
- ปัญหา
- IT
- การสัมภาษณ์
- ที่รู้จักกัน
- ป้ายกำกับ
- ภาษา
- ภาษา
- ใหญ่
- ที่มีขนาดใหญ่
- นำ
- การเรียนรู้
- นำ
- เลฟเวอเรจ
- ยกระดับ
- รายการ
- รายการ
- ในประเทศ
- ที่ตั้ง
- วันหยุด
- เครื่อง
- สำคัญ
- คู่มือ
- ด้วยมือ
- แผนที่
- กล่าวถึง
- ล้าน
- ล้าน
- แบบ
- โมเดล
- มากที่สุด
- ชื่อ
- โดยธรรมชาติ
- เครือข่าย
- เครือข่าย
- โหนด
- สัญญาณรบกวน
- หมายเหตุ / รายละเอียดเพิ่มเติม
- ตัวเลข
- ออนไลน์
- การดำเนินการ
- ตัวเลือกเสริม (Option)
- Options
- ใบสั่ง
- organizacja
- องค์กร
- อื่นๆ
- มิฉะนั้น
- กระดาษ
- ผู้เข้าร่วม
- รูปแบบไฟล์ PDF
- คน
- การปฏิบัติ
- ส่วนบุคคล
- ยอดนิยม
- เป็นไปได้
- อำนาจ
- ที่มีประสิทธิภาพ
- การคาดการณ์
- นำเสนอ
- ประถม
- ปัญหา
- กระบวนการ
- กระบวนการ
- โปรไฟล์
- โครงการ
- การเขียนโปรแกรม
- โปรแกรม
- เงื้อม
- ให้
- คำถาม
- พิสัย
- ราคา
- RE
- ผู้อ่าน
- การอ่าน
- เหตุผล
- ตระหนักถึงความ
- ลด
- รายงาน
- ต้องการ
- REST
- ผลสอบ
- ความเสี่ยง
- วิ่ง
- ขาย
- การสแกน
- การสแกน
- ปลอดภัย
- ความปลอดภัย
- การแบ่งส่วน
- เลือก
- รูปร่าง
- สั้น
- ง่าย
- So
- ซอฟต์แวร์
- โซลูชัน
- ข้อความที่เริ่ม
- สถานะ
- รัฐของศิลปะ
- สถิติ
- จัดเก็บ
- กระแส
- แข็งแรง
- ที่สนับสนุน
- ระบบ
- ระบบ
- งาน
- ภาษี
- เทคนิค
- ทดสอบ
- ของบุคคลที่สาม
- พัน
- ตลอด
- เวลา
- ต้องใช้เวลามาก
- ในวันนี้
- ร่วมกัน
- ความอดทน
- เครื่องมือ
- แบบดั้งเดิม
- การฝึกอบรม
- การแปลง
- เข้าใจ
- ใช้
- ผู้ใช้
- มักจะ
- วิสัยทัศน์
- การสร้างภาพ
- W
- เว็บ
- อะไร
- ความหมายของ
- ว่า
- ภายใน
- ไม่มี
- คำ
- งาน
- การทำงาน
- โรงงาน
- การเขียน
- X