การประมวลผลเอกสารคืออะไร?
การประมวลผลเอกสารเป็นกระบวนการในการดึงข้อมูลที่มีโครงสร้างออกจากเอกสารโดยอัตโนมัติ ซึ่งอาจใช้กับเอกสารอะไรก็ได้ เช่น ใบแจ้งหนี้ ประวัติย่อ บัตรประจำตัว ฯลฯ ส่วนที่ท้าทายนี้ไม่ได้มีแค่ OCR เท่านั้น มีตัวเลือกมากมายในราคาประหยัดที่สามารถดึงข้อความและระบุตำแหน่งได้ ความท้าทายที่แท้จริงคือการติดป้ายกำกับข้อความเหล่านี้อย่างถูกต้องและอัตโนมัติ
ผลกระทบทางธุรกิจจากการประมวลผลเอกสาร
หลายอุตสาหกรรมพึ่งพาการประมวลผลเอกสารอย่างมากสำหรับการดำเนินงานในแต่ละวัน องค์กรทางการเงินจำเป็นต้องเข้าถึงการยื่นต่อ SEC, การยื่นเรื่องประกัน, บริษัทอีคอมเมิร์ซหรือซัพพลายเชน อาจจำเป็นต้องเข้าถึงใบแจ้งหนี้ที่กำลังใช้งาน รายการจะดำเนินต่อไป ความถูกต้องของข้อมูลนี้มีความสำคัญพอๆ กับเวลาที่บันทึกไว้ ซึ่งเป็นเหตุผลว่าทำไมเราจึงแนะนำให้ใช้วิธีการเรียนรู้เชิงลึกขั้นสูงที่มีลักษณะทั่วไปมากกว่าและมีความแม่นยำมากกว่า
ตามรายงานนี้โดย PwC [ลิงค์] แม้แต่การดึงข้อมูลที่มีโครงสร้างในปริมาณพื้นฐานที่สุดก็สามารถช่วยประหยัดเวลาของพนักงานได้ 30-50% ในการคัดลอกและวางข้อมูลจาก PDF ไปยังสเปรดชีต Excel ด้วยตนเอง โมเดลอย่าง LayoutLM นั้นไม่ใช่พื้นฐานอย่างแน่นอน พวกเขาได้รับการสร้างขึ้นให้เป็นตัวแทนที่ชาญฉลาดอย่างยิ่งที่สามารถดึงข้อมูลได้อย่างแม่นยำในขนาดต่างๆ ในกรณีการใช้งานที่แตกต่างกัน แม้แต่กับลูกค้าของเราเองจำนวนมาก เราก็ได้ลดเวลาที่ใช้ในการดึงข้อมูลด้วยตนเองลงจาก 20 นาทีต่อเอกสารเหลือน้อยกว่า 10 วินาที นั่นคือการเปลี่ยนแปลงครั้งใหญ่ ซึ่งช่วยให้พนักงานมีประสิทธิผลมากขึ้น และสำหรับปริมาณงานโดยรวมที่สูงขึ้น
แล้ว AI ที่คล้ายกับ LayoutLM สามารถนำไปใช้ที่ไหนได้บ้าง? ที่นาโนเน็ตส์ เราได้ใช้เทคโนโลยีดังกล่าวเพื่อ
และการใช้งานอื่นๆ อีกมากมาย
ทำไมต้อง LayoutLM?
โมเดลการเรียนรู้เชิงลึกเข้าใจได้อย่างไรว่าข้อความที่ระบุเป็นคำอธิบายสินค้าในใบแจ้งหนี้หรือหมายเลขใบแจ้งหนี้ พูดง่ายๆ ก็คือ โมเดลเรียนรู้วิธีกำหนดป้ายกำกับอย่างถูกต้องได้อย่างไร
วิธีหนึ่งคือใช้การฝังข้อความจากโมเดลภาษาขนาดใหญ่ เช่น BERT หรือ GPT-3 และเรียกใช้ผ่านตัวแยกประเภท แม้ว่าจะไม่ได้ผลมากนักก็ตาม มีข้อมูลมากมายที่ไม่สามารถวัดได้โดยใช้ข้อความเพียงอย่างเดียว หรืออาจใช้ประโยชน์จากข้อมูลที่เป็นรูปภาพ ซึ่งทำได้โดยใช้โมเดล R-CNN และ Faster R-CNN อย่างไรก็ตาม ยังใช้ข้อมูลที่มีอยู่ในเอกสารได้ไม่เต็มที่ อีกวิธีหนึ่งที่ใช้คือ Graph Convolutional Neural Networks ซึ่งรวมทั้งข้อมูลตำแหน่งและข้อความ แต่ไม่ได้คำนึงถึงข้อมูลภาพ
แล้วเราจะใช้ข้อมูลทั้งสามมิติ เช่น ข้อความ รูปภาพ และตำแหน่งของข้อความที่ให้มาได้อย่างไร นั่นคือที่มาของโมเดลอย่าง LayoutLM แม้ว่าจะเป็นพื้นที่การวิจัยที่ใช้งานจริงมาหลายปีก่อนหน้านี้ LayoutLM ก็เป็นหนึ่งในโมเดลแรกๆ ที่ประสบความสำเร็จในการรวมชิ้นส่วนต่างๆ เข้าด้วยกันเพื่อสร้างแบบจำลองเอกพจน์ที่ดำเนินการติดฉลากโดยใช้ข้อมูลตำแหน่ง ข้อมูลตามข้อความ และข้อมูลภาพ
เค้าโครงLM Tutorial
บทความนี้อนุมานว่าคุณเข้าใจว่ารูปแบบภาษาคืออะไร ถ้าไม่ไม่ต้องกังวล เราเขียนบทความเกี่ยวกับเรื่องนั้นเช่นกัน! หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับรุ่นของหม้อแปลงไฟฟ้า และความสนใจคืออะไร ที่นี่ เป็นบทความที่น่าทึ่งโดย Jay Alammar.
สมมติว่าเราได้จัดการสิ่งเหล่านี้แล้ว มาเริ่มกันเลยกับบทช่วยสอนนี้ เราจะใช้กระดาษ LayoutLM ดั้งเดิมเป็นข้อมูลอ้างอิงหลัก
การแยกข้อความ OCR
สิ่งแรกที่เราทำกับเอกสารคือการดึงข้อมูลที่เป็นข้อความออกจากเอกสาร และค้นหาตำแหน่งที่เกี่ยวข้อง ตามสถานที่ เราหมายถึงสิ่งที่เรียกว่า 'กล่องขอบเขต' bounding box เป็นรูปสี่เหลี่ยมผืนผ้าที่ห่อหุ้มส่วนของข้อความบนหน้า
ในกรณีส่วนใหญ่ จะถือว่ากล่องขอบเขตมีจุดเริ่มต้นที่มุมซ้ายบน และแกน x บวกถูกนำจากจุดกำเนิดไปทางขวาของหน้า และแกน y บวกจะนำจากจุดเริ่มต้นไปยัง ด้านล่างของหน้า โดยที่หนึ่งพิกเซลถือเป็นหน่วยวัด
การฝังภาษาและสถานที่
ต่อไป เราใช้เลเยอร์การฝังที่แตกต่างกันห้าชั้น หนึ่งคือการเข้ารหัสข้อมูลที่เกี่ยวข้องกับภาษา – เช่นการฝังข้อความ
อีกสี่รายการสงวนไว้สำหรับการฝังตำแหน่ง สมมติว่าเราทราบค่าของ xmin, ymin, xmax และ ymax เราสามารถกำหนดกรอบขอบเขตทั้งหมดได้ (หากนึกภาพไม่ออก นี่คือลิงค์สำหรับคุณ). พิกัดเหล่านี้จะถูกส่งผ่านเลเยอร์การฝังตามลำดับเพื่อเข้ารหัสข้อมูลสำหรับตำแหน่ง
การฝังทั้งห้าแบบ – แบบหนึ่งสำหรับข้อความและอีกสี่แบบสำหรับพิกัด – จะถูกรวมเข้าด้วยกันเพื่อสร้างค่าสุดท้ายของการฝังที่ส่งผ่าน LayoutLM เอาต์พุตเรียกว่าการฝัง LayoutLM
การฝังรูปภาพ
โอเค ดังนั้นเราจึงสามารถค้นหาข้อความและตำแหน่งที่เกี่ยวข้องกับข้อมูลโดยการรวมการฝังและส่งผ่านแบบจำลองภาษา ตอนนี้เราจะดำเนินการเกี่ยวกับขั้นตอนการรวมข้อมูลที่เกี่ยวข้องกับรูปภาพเข้าไปได้อย่างไร
ขณะที่กำลังเข้ารหัสข้อมูลข้อความและเลย์เอาต์แบบคู่ขนาน เราใช้ Faster R-CNN เพื่อแยกขอบเขตของข้อความที่เกี่ยวข้องกับเอกสาร R-CNN ที่เร็วขึ้นคือโมเดลรูปภาพที่ใช้สำหรับการตรวจจับวัตถุ ในกรณีของเรา เราใช้มันเพื่อตรวจหาส่วนต่างๆ ของข้อความ (สมมติว่าแต่ละวลีเป็นวัตถุ) จากนั้นจึงส่งภาพที่แบ่งกลุ่มผ่านเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์เพื่อช่วยสร้างการฝังสำหรับรูปภาพด้วย
การฝัง LayoutLM และการฝังรูปภาพจะรวมกันเพื่อสร้างการฝังขั้นสุดท้าย ซึ่งสามารถนำไปใช้ในการประมวลผลดาวน์สตรีมได้
เลย์เอาต์ก่อนการฝึกอบรมLM
ทั้งหมดข้างต้นสมเหตุสมผลก็ต่อเมื่อเราเข้าใจวิธีการที่ LayoutLM ได้รับการฝึกฝน ท้ายที่สุด ไม่ว่าการเชื่อมต่อประเภทใดที่เราสร้างขึ้นในโครงข่ายประสาทเทียม จนกว่าจะได้รับการฝึกฝนโดยมีวัตถุประสงค์การเรียนรู้ที่ถูกต้อง ก็ไม่ฉลาดนัก ผู้เขียน LayoutLM ต้องการติดตามวิธีการที่คล้ายกับที่ใช้ในการเตรียมการฝึกอบรม BERT
โมเดลภาษาภาพที่ถูกปิดบัง (MVLM)
เพื่อช่วยให้โมเดลเรียนรู้ว่าข้อความใดที่อาจอยู่ในตำแหน่งใดตำแหน่งหนึ่ง ผู้เขียนสุ่มมาสก์ข้อความสองสามโทเค็นในขณะที่ยังคงเก็บข้อมูลที่เกี่ยวข้องกับสถานที่และการฝังไว้ วิธีนี้ช่วยให้ LayoutLM ก้าวไปไกลกว่าการสร้างแบบจำลองภาษาที่ปิดบังแบบธรรมดา และช่วยเชื่อมโยงการฝังข้อความกับรูปแบบที่เกี่ยวข้องกับสถานที่ด้วย
การจำแนกเอกสารหลายฉลาก (MDC)
การใช้ข้อมูลทั้งหมดในเอกสารเพื่อจำแนกเป็นหมวดหมู่ช่วยให้แบบจำลองเข้าใจว่าข้อมูลใดที่เกี่ยวข้องกับเอกสารบางประเภท อย่างไรก็ตาม ผู้เขียนทราบว่าสำหรับชุดข้อมูลขนาดใหญ่ ข้อมูลเกี่ยวกับคลาสเอกสารอาจไม่พร้อมใช้งาน ดังนั้นพวกเขาจึงได้ให้ผลลัพธ์พื้นฐานทั้งการฝึกอบรม MVLM เพียงอย่างเดียว และการฝึกอบรม MVLM + MDC
Fine Tuning LayoutLM สำหรับงานดาวน์สตรีม
มีงานดาวน์สตรีมหลายอย่างที่สามารถดำเนินการได้ด้วย LayoutLM เราจะหารือเกี่ยวกับสิ่งที่ผู้เขียนดำเนินการ
แบบฟอร์มความเข้าใจ
งานนี้เกี่ยวข้องกับการเชื่อมโยงประเภทป้ายกำกับกับข้อความที่กำหนด เมื่อใช้สิ่งนี้ เราสามารถดึงข้อมูลที่มีโครงสร้างจากเอกสารประเภทใดก็ได้ จากผลลัพธ์สุดท้าย เช่น LayouLM embeddings + Image embeddings พวกมันจะถูกส่งผ่านเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์แล้วส่งผ่าน softmax เพื่อทำนายความน่าจะเป็นของคลาสสำหรับ label ของข้อความที่กำหนด
ความเข้าใจในการรับ
ในงานนี้ ช่องข้อมูลหลายช่องเว้นว่างไว้บนใบเสร็จ และแบบจำลองต้องจัดตำแหน่งข้อความในส่วนต่างๆ อย่างถูกต้อง
การจัดประเภทภาพเอกสาร
ข้อมูลจากข้อความและรูปภาพของเอกสารถูกรวมเข้าด้วยกันเพื่อช่วยให้เข้าใจคลาสของเอกสารโดยเพียงแค่ส่งผ่านเลเยอร์ softmax
เค้าโครงหน้ากอด LM
เหตุผลหลักประการหนึ่งที่ LayoutLM ถูกกล่าวถึงอย่างมากก็เพราะว่าโมเดลดังกล่าวเป็นโอเพ่นซอร์สมาระยะหนึ่งแล้ว มันคือ ได้ที่ Hugging Faceดังนั้นการใช้ LayoutLM จึงง่ายกว่ามากในตอนนี้
ก่อนที่เราจะลงลึกในรายละเอียดเฉพาะของวิธีการปรับแต่ง LayoutLM ให้ตรงกับความต้องการของคุณ มีบางสิ่งที่ควรพิจารณา
การติดตั้งไลบรารี
ในการเรียกใช้ LayoutLM คุณจะต้องใช้ไลบรารี Transformers จาก Hugging Face ซึ่งจะขึ้นอยู่กับไลบรารี PyTorch ในการติดตั้ง (หากยังไม่ได้ติดตั้ง) ให้รันคำสั่งต่อไปนี้
บนขอบกล่อง
ในการสร้างรูปแบบการฝังที่เหมือนกันโดยไม่คำนึงถึงขนาดภาพ พิกัดของกรอบขอบเขตจะถูกทำให้เป็นมาตรฐานในระดับ 1000
องค์ประกอบ
การใช้หม้อแปลงคลาสเลย์เอาต์ LMConfig คุณสามารถกำหนดขนาดของโมเดลเพื่อให้เหมาะกับความต้องการของคุณมากที่สุด เนื่องจากโดยทั่วไปแล้ว โมเดลเหล่านี้มีน้ำหนักมากและต้องใช้กำลังประมวลผลค่อนข้างน้อย การตั้งค่าให้เป็นรุ่นที่เล็กกว่าอาจช่วยให้คุณเรียกใช้ในเครื่องได้ คุณสามารถ เรียนรู้เพิ่มเติมเกี่ยวกับชั้นเรียนที่นี่.
LayoutLM สำหรับการจัดประเภทเอกสาร (ลิงค์)
หากคุณต้องการจัดประเภทเอกสาร คุณจะต้องมีคลาส Transformers.LayoutLMForSequenceClassification ลำดับที่นี่คือลำดับของข้อความจากเอกสารที่คุณได้แยกออกมา นี่คือตัวอย่างโค้ดเล็กๆ จาก Hugging Face.co ที่จะอธิบายวิธีใช้งาน
LayoutLM สำหรับการติดฉลากข้อความ (ลิงค์)
ในการดำเนินการติดฉลากเชิงความหมาย เช่น กำหนดป้ายกำกับให้กับส่วนต่าง ๆ ของข้อความในเอกสาร คุณจะต้องใช้คลาส Transformers.LayoutLMForTokenClassification คุณสามารถดูรายละเอียดเพิ่มเติมเกี่ยวกับ เหมือนกันที่นี่นี่คือตัวอย่างโค้ดเล็กๆ น้อยๆ เพื่อดูว่าโค้ดนี้ใช้ได้ผลสำหรับคุณอย่างไร
ข้อสังเกตบางประการเกี่ยวกับการกอดเค้าโครงใบหน้า LM
- ปัจจุบัน โมเดล Hugging Face LayoutLM ใช้ประโยชน์จากไลบรารีโอเพนซอร์ส Tesseract ในการแยกข้อความ ซึ่งไม่ค่อยแม่นยำ คุณอาจต้องการพิจารณาใช้เครื่องมือ OCR อื่นที่ต้องเสียค่าใช้จ่าย เช่น AWS Texttract หรือ Google Cloud Vision
- โมเดลที่มีอยู่มีเฉพาะโมเดลภาษาเท่านั้น เช่น การฝัง LayoutLM ไม่ใช่เลเยอร์สุดท้ายที่รวมคุณลักษณะด้านภาพ เลย์เอาต์LMv2 (กล่าวถึงในหัวข้อถัดไป) ใช้ไลบรารี Detectron เพื่อเปิดใช้งานการฝังคุณสมบัติภาพเช่นกัน
- การจัดประเภทของป้ายกำกับเกิดขึ้นที่ระดับคำ ดังนั้นจึงขึ้นอยู่กับเอ็นจิ้นการแยกข้อความ OCR เพื่อให้แน่ใจว่าคำทั้งหมดในฟิลด์อยู่ในลำดับที่ต่อเนื่องกัน หรือหนึ่งฟิลด์อาจถูกคาดเดาเป็นสอง
เลย์เอาต์LMv2
LayoutLM เป็นการปฏิวัติวิธีการดึงข้อมูลออกจากเอกสาร อย่างไรก็ตาม การวิจัยเชิงลึกเกี่ยวกับการเรียนรู้เชิงลึก โมเดลต่างๆ จะพัฒนามากขึ้นเรื่อยๆ เมื่อเวลาผ่านไป LayoutLM ก็ประสบความสำเร็จเช่นเดียวกันโดย LayoutLMv2 โดยที่ผู้เขียนได้ทำการเปลี่ยนแปลงที่สำคัญสองสามประการเกี่ยวกับวิธีการฝึกฝนโมเดล
รวม 1-D Spatial Embeddings และ Visual Token Embeddings
LayoutLMv2 มีข้อมูลเกี่ยวกับตำแหน่งสัมพันธ์ 1-D เช่นเดียวกับข้อมูลที่เกี่ยวข้องกับรูปภาพโดยรวม เหตุผลนี้มีความสำคัญเนื่องจากวัตถุประสงค์การฝึกอบรมใหม่ ซึ่งตอนนี้เราจะหารือกัน
วัตถุประสงค์การฝึกอบรมใหม่
LayoutLMv2 รวมวัตถุประสงค์การฝึกอบรมที่แก้ไขแล้วบางส่วน เหล่านี้มีดังนี้:
- Masked Visual Language Modelling: สิ่งนี้เหมือนกับใน LayoutLM
- การจัดตำแหน่งรูปภาพข้อความ: ข้อความถูกสุ่มคลุมจากรูปภาพ ในขณะที่มอบโทเค็นข้อความให้กับโมเดล สำหรับแต่ละโทเค็น ตัวแบบต้องเรียนรู้ว่าข้อความที่ให้มานั้นครอบคลุมหรือไม่ ด้วยเหตุนี้ โมเดลจึงสามารถรวมข้อมูลจากรังสีทั้งแบบภาพและข้อความได้
- การจับคู่รูปภาพข้อความ: นางแบบจะถูกขอให้ตรวจสอบว่ารูปภาพที่ระบุตรงกับข้อความที่กำหนดหรือไม่ ตัวอย่างเชิงลบจะถูกป้อนเป็นภาพเท็จหรือไม่มีการฝังภาพเลย สิ่งนี้ทำเพื่อให้แน่ใจว่าโมเดลเรียนรู้เพิ่มเติมเกี่ยวกับความเกี่ยวข้องของข้อความและรูปภาพ
การใช้วิธีการและการฝังแบบใหม่เหล่านี้ ทำให้โมเดลสามารถบรรลุคะแนน F1 ที่สูงขึ้นในชุดข้อมูลทดสอบเกือบทั้งหมดในรูปแบบ LayoutLM
- เกี่ยวกับเรา
- เข้า
- ลงชื่อเข้าใช้
- ถูกต้อง
- ประสบความสำเร็จ
- ข้าม
- คล่องแคล่ว
- สูง
- ตัวแทน
- AI
- ทั้งหมด
- แล้ว
- แม้ว่า
- จำนวน
- อื่น
- เข้าใกล้
- AREA
- รอบ
- บทความ
- ผู้เขียน
- ใช้ได้
- AWS
- รากฐาน
- กำลัง
- ที่ดีที่สุด
- บิต
- กล่อง
- การ์ด
- กรณี
- ท้าทาย
- การจัดหมวดหมู่
- เมฆ
- รหัส
- รวม
- บริษัท
- คำนวณ
- องค์ประกอบ
- การเชื่อมต่อ
- การพิจารณา
- ค่าใช้จ่าย
- ได้
- ลูกค้า
- ข้อมูล
- วัน
- แม้จะมี
- การตรวจพบ
- DID
- ต่าง
- เอกสาร
- ลง
- E-commerce
- มีประสิทธิภาพ
- การเปิดใช้งาน
- สร้าง
- Excel
- ใบหน้า
- เร็วขึ้น
- ลักษณะ
- คุณสมบัติ
- เฟด
- ทางการเงิน
- ชื่อจริง
- ดังต่อไปนี้
- สร้าง
- GitHub
- ช่วย
- จะช่วยให้
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- ภาพ
- ส่งผลกระทบ
- สำคัญ
- ปรับปรุง
- รวม
- อุตสาหกรรม
- ข้อมูล
- ประกัน
- ฉลาด
- IT
- การติดฉลาก
- ป้ายกำกับ
- ภาษา
- ที่มีขนาดใหญ่
- เรียนรู้
- การเรียนรู้
- ชั้น
- ห้องสมุด
- LINK
- รายการ
- ในท้องถิ่น
- ที่ตั้ง
- วันหยุด
- ด้วยมือ
- มาก
- การจับคู่
- เรื่อง
- แบบ
- โมเดล
- มากที่สุด
- เครือข่าย
- เครือข่าย
- เปิด
- โอเพนซอร์ส
- การดำเนินการ
- Options
- ใบสั่ง
- องค์กร
- อื่นๆ
- ต้องจ่าย
- กระดาษ
- ชิ้น
- อำนาจ
- กระบวนการ
- ให้
- PWC
- เหตุผล
- แนะนำ
- รายงาน
- จำเป็นต้องใช้
- ความต้องการ
- การวิจัย
- ผลสอบ
- เรซูเม่
- วิ่ง
- ขนาด
- โครงการ
- สำนักงานคณะกรรมการ ก.ล.ต.
- ความรู้สึก
- ชุด
- การตั้งค่า
- เปลี่ยน
- สำคัญ
- คล้ายคลึงกัน
- ง่าย
- ขนาด
- เล็ก
- สมาร์ท
- So
- บางสิ่งบางอย่าง
- ข้อความที่เริ่ม
- ความสำเร็จ
- จัดหาอุปกรณ์
- ห่วงโซ่อุปทาน
- งาน
- เทคโนโลยี
- ทดสอบ
- ตลอด
- เวลา
- โทเค็น
- ราชสกุล
- ด้านบน
- การฝึกอบรม
- เข้าใจ
- ใช้
- นำไปใช้
- ความคุ้มค่า
- อะไร
- ว่า
- คำ
- งาน
- แรงงาน
- ปี