เค้าโครงLM อธิบาย

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

การประมวลผลเอกสารคืออะไร?

เค้าโครงLM อธิบาย

การประมวลผลเอกสารเป็นกระบวนการในการดึงข้อมูลที่มีโครงสร้างออกจากเอกสารโดยอัตโนมัติ ซึ่งอาจใช้กับเอกสารอะไรก็ได้ เช่น ใบแจ้งหนี้ ประวัติย่อ บัตรประจำตัว ฯลฯ ส่วนที่ท้าทายนี้ไม่ได้มีแค่ OCR เท่านั้น มีตัวเลือกมากมายในราคาประหยัดที่สามารถดึงข้อความและระบุตำแหน่งได้ ความท้าทายที่แท้จริงคือการติดป้ายกำกับข้อความเหล่านี้อย่างถูกต้องและอัตโนมัติ

ผลกระทบทางธุรกิจจากการประมวลผลเอกสาร

หลายอุตสาหกรรมพึ่งพาการประมวลผลเอกสารอย่างมากสำหรับการดำเนินงานในแต่ละวัน องค์กรทางการเงินจำเป็นต้องเข้าถึงการยื่นต่อ SEC, การยื่นเรื่องประกัน, บริษัทอีคอมเมิร์ซหรือซัพพลายเชน อาจจำเป็นต้องเข้าถึงใบแจ้งหนี้ที่กำลังใช้งาน รายการจะดำเนินต่อไป ความถูกต้องของข้อมูลนี้มีความสำคัญพอๆ กับเวลาที่บันทึกไว้ ซึ่งเป็นเหตุผลว่าทำไมเราจึงแนะนำให้ใช้วิธีการเรียนรู้เชิงลึกขั้นสูงที่มีลักษณะทั่วไปมากกว่าและมีความแม่นยำมากกว่า

ตามรายงานนี้โดย PwC [ลิงค์] แม้แต่การดึงข้อมูลที่มีโครงสร้างในปริมาณพื้นฐานที่สุดก็สามารถช่วยประหยัดเวลาของพนักงานได้ 30-50% ในการคัดลอกและวางข้อมูลจาก PDF ไปยังสเปรดชีต Excel ด้วยตนเอง โมเดลอย่าง LayoutLM นั้นไม่ใช่พื้นฐานอย่างแน่นอน พวกเขาได้รับการสร้างขึ้นให้เป็นตัวแทนที่ชาญฉลาดอย่างยิ่งที่สามารถดึงข้อมูลได้อย่างแม่นยำในขนาดต่างๆ ในกรณีการใช้งานที่แตกต่างกัน แม้แต่กับลูกค้าของเราเองจำนวนมาก เราก็ได้ลดเวลาที่ใช้ในการดึงข้อมูลด้วยตนเองลงจาก 20 นาทีต่อเอกสารเหลือน้อยกว่า 10 วินาที นั่นคือการเปลี่ยนแปลงครั้งใหญ่ ซึ่งช่วยให้พนักงานมีประสิทธิผลมากขึ้น และสำหรับปริมาณงานโดยรวมที่สูงขึ้น

แล้ว AI ที่คล้ายกับ LayoutLM สามารถนำไปใช้ที่ไหนได้บ้าง? ที่นาโนเน็ตส์ เราได้ใช้เทคโนโลยีดังกล่าวเพื่อ

และการใช้งานอื่นๆ อีกมากมาย

ทำไมต้อง LayoutLM?

โมเดลการเรียนรู้เชิงลึกเข้าใจได้อย่างไรว่าข้อความที่ระบุเป็นคำอธิบายสินค้าในใบแจ้งหนี้หรือหมายเลขใบแจ้งหนี้ พูดง่ายๆ ก็คือ โมเดลเรียนรู้วิธีกำหนดป้ายกำกับอย่างถูกต้องได้อย่างไร

วิธีหนึ่งคือใช้การฝังข้อความจากโมเดลภาษาขนาดใหญ่ เช่น BERT หรือ GPT-3 และเรียกใช้ผ่านตัวแยกประเภท แม้ว่าจะไม่ได้ผลมากนักก็ตาม มีข้อมูลมากมายที่ไม่สามารถวัดได้โดยใช้ข้อความเพียงอย่างเดียว หรืออาจใช้ประโยชน์จากข้อมูลที่เป็นรูปภาพ ซึ่งทำได้โดยใช้โมเดล R-CNN และ Faster R-CNN อย่างไรก็ตาม ยังใช้ข้อมูลที่มีอยู่ในเอกสารได้ไม่เต็มที่ อีกวิธีหนึ่งที่ใช้คือ Graph Convolutional Neural Networks ซึ่งรวมทั้งข้อมูลตำแหน่งและข้อความ แต่ไม่ได้คำนึงถึงข้อมูลภาพ

แล้วเราจะใช้ข้อมูลทั้งสามมิติ เช่น ข้อความ รูปภาพ และตำแหน่งของข้อความที่ให้มาได้อย่างไร นั่นคือที่มาของโมเดลอย่าง LayoutLM แม้ว่าจะเป็นพื้นที่การวิจัยที่ใช้งานจริงมาหลายปีก่อนหน้านี้ LayoutLM ก็เป็นหนึ่งในโมเดลแรกๆ ที่ประสบความสำเร็จในการรวมชิ้นส่วนต่างๆ เข้าด้วยกันเพื่อสร้างแบบจำลองเอกพจน์ที่ดำเนินการติดฉลากโดยใช้ข้อมูลตำแหน่ง ข้อมูลตามข้อความ และข้อมูลภาพ

เค้าโครงLM Tutorial

เค้าโครงLM อธิบาย — เค้าโครงLM Architecture

บทความนี้อนุมานว่าคุณเข้าใจว่ารูปแบบภาษาคืออะไร ถ้าไม่ไม่ต้องกังวล เราเขียนบทความเกี่ยวกับเรื่องนั้นเช่นกัน! หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับรุ่นของหม้อแปลงไฟฟ้า และความสนใจคืออะไร ที่นี่ เป็นบทความที่น่าทึ่งโดย Jay Alammar.

สมมติว่าเราได้จัดการสิ่งเหล่านี้แล้ว มาเริ่มกันเลยกับบทช่วยสอนนี้ เราจะใช้กระดาษ LayoutLM ดั้งเดิมเป็นข้อมูลอ้างอิงหลัก

การแยกข้อความ OCR

สิ่งแรกที่เราทำกับเอกสารคือการดึงข้อมูลที่เป็นข้อความออกจากเอกสาร และค้นหาตำแหน่งที่เกี่ยวข้อง ตามสถานที่ เราหมายถึงสิ่งที่เรียกว่า 'กล่องขอบเขต' bounding box เป็นรูปสี่เหลี่ยมผืนผ้าที่ห่อหุ้มส่วนของข้อความบนหน้า

ในกรณีส่วนใหญ่ จะถือว่ากล่องขอบเขตมีจุดเริ่มต้นที่มุมซ้ายบน และแกน x บวกถูกนำจากจุดกำเนิดไปทางขวาของหน้า และแกน y บวกจะนำจากจุดเริ่มต้นไปยัง ด้านล่างของหน้า โดยที่หนึ่งพิกเซลถือเป็นหน่วยวัด

การฝังภาษาและสถานที่

ต่อไป เราใช้เลเยอร์การฝังที่แตกต่างกันห้าชั้น หนึ่งคือการเข้ารหัสข้อมูลที่เกี่ยวข้องกับภาษา – เช่นการฝังข้อความ

อีกสี่รายการสงวนไว้สำหรับการฝังตำแหน่ง สมมติว่าเราทราบค่าของ xmin, ymin, xmax และ ymax เราสามารถกำหนดกรอบขอบเขตทั้งหมดได้ (หากนึกภาพไม่ออก นี่คือลิงค์สำหรับคุณ). พิกัดเหล่านี้จะถูกส่งผ่านเลเยอร์การฝังตามลำดับเพื่อเข้ารหัสข้อมูลสำหรับตำแหน่ง

การฝังทั้งห้าแบบ – แบบหนึ่งสำหรับข้อความและอีกสี่แบบสำหรับพิกัด – จะถูกรวมเข้าด้วยกันเพื่อสร้างค่าสุดท้ายของการฝังที่ส่งผ่าน LayoutLM เอาต์พุตเรียกว่าการฝัง LayoutLM

การฝังรูปภาพ

โอเค ดังนั้นเราจึงสามารถค้นหาข้อความและตำแหน่งที่เกี่ยวข้องกับข้อมูลโดยการรวมการฝังและส่งผ่านแบบจำลองภาษา ตอนนี้เราจะดำเนินการเกี่ยวกับขั้นตอนการรวมข้อมูลที่เกี่ยวข้องกับรูปภาพเข้าไปได้อย่างไร

ขณะที่กำลังเข้ารหัสข้อมูลข้อความและเลย์เอาต์แบบคู่ขนาน เราใช้ Faster R-CNN เพื่อแยกขอบเขตของข้อความที่เกี่ยวข้องกับเอกสาร R-CNN ที่เร็วขึ้นคือโมเดลรูปภาพที่ใช้สำหรับการตรวจจับวัตถุ ในกรณีของเรา เราใช้มันเพื่อตรวจหาส่วนต่างๆ ของข้อความ (สมมติว่าแต่ละวลีเป็นวัตถุ) จากนั้นจึงส่งภาพที่แบ่งกลุ่มผ่านเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์เพื่อช่วยสร้างการฝังสำหรับรูปภาพด้วย

การฝัง LayoutLM และการฝังรูปภาพจะรวมกันเพื่อสร้างการฝังขั้นสุดท้าย ซึ่งสามารถนำไปใช้ในการประมวลผลดาวน์สตรีมได้

เลย์เอาต์ก่อนการฝึกอบรมLM

ทั้งหมดข้างต้นสมเหตุสมผลก็ต่อเมื่อเราเข้าใจวิธีการที่ LayoutLM ได้รับการฝึกฝน ท้ายที่สุด ไม่ว่าการเชื่อมต่อประเภทใดที่เราสร้างขึ้นในโครงข่ายประสาทเทียม จนกว่าจะได้รับการฝึกฝนโดยมีวัตถุประสงค์การเรียนรู้ที่ถูกต้อง ก็ไม่ฉลาดนัก ผู้เขียน LayoutLM ต้องการติดตามวิธีการที่คล้ายกับที่ใช้ในการเตรียมการฝึกอบรม BERT

โมเดลภาษาภาพที่ถูกปิดบัง (MVLM)

เพื่อช่วยให้โมเดลเรียนรู้ว่าข้อความใดที่อาจอยู่ในตำแหน่งใดตำแหน่งหนึ่ง ผู้เขียนสุ่มมาสก์ข้อความสองสามโทเค็นในขณะที่ยังคงเก็บข้อมูลที่เกี่ยวข้องกับสถานที่และการฝังไว้ วิธีนี้ช่วยให้ LayoutLM ก้าวไปไกลกว่าการสร้างแบบจำลองภาษาที่ปิดบังแบบธรรมดา และช่วยเชื่อมโยงการฝังข้อความกับรูปแบบที่เกี่ยวข้องกับสถานที่ด้วย

การจำแนกเอกสารหลายฉลาก (MDC)

การใช้ข้อมูลทั้งหมดในเอกสารเพื่อจำแนกเป็นหมวดหมู่ช่วยให้แบบจำลองเข้าใจว่าข้อมูลใดที่เกี่ยวข้องกับเอกสารบางประเภท อย่างไรก็ตาม ผู้เขียนทราบว่าสำหรับชุดข้อมูลขนาดใหญ่ ข้อมูลเกี่ยวกับคลาสเอกสารอาจไม่พร้อมใช้งาน ดังนั้นพวกเขาจึงได้ให้ผลลัพธ์พื้นฐานทั้งการฝึกอบรม MVLM เพียงอย่างเดียว และการฝึกอบรม MVLM + MDC

Fine Tuning LayoutLM สำหรับงานดาวน์สตรีม

มีงานดาวน์สตรีมหลายอย่างที่สามารถดำเนินการได้ด้วย LayoutLM เราจะหารือเกี่ยวกับสิ่งที่ผู้เขียนดำเนินการ

แบบฟอร์มความเข้าใจ

งานนี้เกี่ยวข้องกับการเชื่อมโยงประเภทป้ายกำกับกับข้อความที่กำหนด เมื่อใช้สิ่งนี้ เราสามารถดึงข้อมูลที่มีโครงสร้างจากเอกสารประเภทใดก็ได้ จากผลลัพธ์สุดท้าย เช่น LayouLM embeddings + Image embeddings พวกมันจะถูกส่งผ่านเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์แล้วส่งผ่าน softmax เพื่อทำนายความน่าจะเป็นของคลาสสำหรับ label ของข้อความที่กำหนด

ความเข้าใจในการรับ

ในงานนี้ ช่องข้อมูลหลายช่องเว้นว่างไว้บนใบเสร็จ และแบบจำลองต้องจัดตำแหน่งข้อความในส่วนต่างๆ อย่างถูกต้อง

การจัดประเภทภาพเอกสาร

ข้อมูลจากข้อความและรูปภาพของเอกสารถูกรวมเข้าด้วยกันเพื่อช่วยให้เข้าใจคลาสของเอกสารโดยเพียงแค่ส่งผ่านเลเยอร์ softmax

เค้าโครงหน้ากอด LM

เหตุผลหลักประการหนึ่งที่ LayoutLM ถูกกล่าวถึงอย่างมากก็เพราะว่าโมเดลดังกล่าวเป็นโอเพ่นซอร์สมาระยะหนึ่งแล้ว มันคือ ได้ที่ Hugging Faceดังนั้นการใช้ LayoutLM จึงง่ายกว่ามากในตอนนี้

ก่อนที่เราจะลงลึกในรายละเอียดเฉพาะของวิธีการปรับแต่ง LayoutLM ให้ตรงกับความต้องการของคุณ มีบางสิ่งที่ควรพิจารณา

การติดตั้งไลบรารี

ในการเรียกใช้ LayoutLM คุณจะต้องใช้ไลบรารี Transformers จาก Hugging Face ซึ่งจะขึ้นอยู่กับไลบรารี PyTorch ในการติดตั้ง (หากยังไม่ได้ติดตั้ง) ให้รันคำสั่งต่อไปนี้

บนขอบกล่อง

ในการสร้างรูปแบบการฝังที่เหมือนกันโดยไม่คำนึงถึงขนาดภาพ พิกัดของกรอบขอบเขตจะถูกทำให้เป็นมาตรฐานในระดับ 1000

องค์ประกอบ

การใช้หม้อแปลงคลาสเลย์เอาต์ LMConfig คุณสามารถกำหนดขนาดของโมเดลเพื่อให้เหมาะกับความต้องการของคุณมากที่สุด เนื่องจากโดยทั่วไปแล้ว โมเดลเหล่านี้มีน้ำหนักมากและต้องใช้กำลังประมวลผลค่อนข้างน้อย การตั้งค่าให้เป็นรุ่นที่เล็กกว่าอาจช่วยให้คุณเรียกใช้ในเครื่องได้ คุณสามารถ เรียนรู้เพิ่มเติมเกี่ยวกับชั้นเรียนที่นี่.

LayoutLM สำหรับการจัดประเภทเอกสาร (ลิงค์)

หากคุณต้องการจัดประเภทเอกสาร คุณจะต้องมีคลาส Transformers.LayoutLMForSequenceClassification ลำดับที่นี่คือลำดับของข้อความจากเอกสารที่คุณได้แยกออกมา นี่คือตัวอย่างโค้ดเล็กๆ จาก Hugging Face.co ที่จะอธิบายวิธีใช้งาน

LayoutLM สำหรับการติดฉลากข้อความ (ลิงค์)

ในการดำเนินการติดฉลากเชิงความหมาย เช่น กำหนดป้ายกำกับให้กับส่วนต่าง ๆ ของข้อความในเอกสาร คุณจะต้องใช้คลาส Transformers.LayoutLMForTokenClassification คุณสามารถดูรายละเอียดเพิ่มเติมเกี่ยวกับ เหมือนกันที่นี่นี่คือตัวอย่างโค้ดเล็กๆ น้อยๆ เพื่อดูว่าโค้ดนี้ใช้ได้ผลสำหรับคุณอย่างไร

ข้อสังเกตบางประการเกี่ยวกับการกอดเค้าโครงใบหน้า LM

ปัจจุบัน โมเดล Hugging Face LayoutLM ใช้ประโยชน์จากไลบรารีโอเพนซอร์ส Tesseract ในการแยกข้อความ ซึ่งไม่ค่อยแม่นยำ คุณอาจต้องการพิจารณาใช้เครื่องมือ OCR อื่นที่ต้องเสียค่าใช้จ่าย เช่น AWS Texttract หรือ Google Cloud Vision
โมเดลที่มีอยู่มีเฉพาะโมเดลภาษาเท่านั้น เช่น การฝัง LayoutLM ไม่ใช่เลเยอร์สุดท้ายที่รวมคุณลักษณะด้านภาพ เลย์เอาต์LMv2 (กล่าวถึงในหัวข้อถัดไป) ใช้ไลบรารี Detectron เพื่อเปิดใช้งานการฝังคุณสมบัติภาพเช่นกัน
การจัดประเภทของป้ายกำกับเกิดขึ้นที่ระดับคำ ดังนั้นจึงขึ้นอยู่กับเอ็นจิ้นการแยกข้อความ OCR เพื่อให้แน่ใจว่าคำทั้งหมดในฟิลด์อยู่ในลำดับที่ต่อเนื่องกัน หรือหนึ่งฟิลด์อาจถูกคาดเดาเป็นสอง

เลย์เอาต์LMv2

LayoutLM เป็นการปฏิวัติวิธีการดึงข้อมูลออกจากเอกสาร อย่างไรก็ตาม การวิจัยเชิงลึกเกี่ยวกับการเรียนรู้เชิงลึก โมเดลต่างๆ จะพัฒนามากขึ้นเรื่อยๆ เมื่อเวลาผ่านไป LayoutLM ก็ประสบความสำเร็จเช่นเดียวกันโดย LayoutLMv2 โดยที่ผู้เขียนได้ทำการเปลี่ยนแปลงที่สำคัญสองสามประการเกี่ยวกับวิธีการฝึกฝนโมเดล

รวม 1-D Spatial Embeddings และ Visual Token Embeddings

LayoutLMv2 มีข้อมูลเกี่ยวกับตำแหน่งสัมพันธ์ 1-D เช่นเดียวกับข้อมูลที่เกี่ยวข้องกับรูปภาพโดยรวม เหตุผลนี้มีความสำคัญเนื่องจากวัตถุประสงค์การฝึกอบรมใหม่ ซึ่งตอนนี้เราจะหารือกัน

วัตถุประสงค์การฝึกอบรมใหม่

LayoutLMv2 รวมวัตถุประสงค์การฝึกอบรมที่แก้ไขแล้วบางส่วน เหล่านี้มีดังนี้:

Masked Visual Language Modelling: สิ่งนี้เหมือนกับใน LayoutLM
การจัดตำแหน่งรูปภาพข้อความ: ข้อความถูกสุ่มคลุมจากรูปภาพ ในขณะที่มอบโทเค็นข้อความให้กับโมเดล สำหรับแต่ละโทเค็น ตัวแบบต้องเรียนรู้ว่าข้อความที่ให้มานั้นครอบคลุมหรือไม่ ด้วยเหตุนี้ โมเดลจึงสามารถรวมข้อมูลจากรังสีทั้งแบบภาพและข้อความได้
การจับคู่รูปภาพข้อความ: นางแบบจะถูกขอให้ตรวจสอบว่ารูปภาพที่ระบุตรงกับข้อความที่กำหนดหรือไม่ ตัวอย่างเชิงลบจะถูกป้อนเป็นภาพเท็จหรือไม่มีการฝังภาพเลย สิ่งนี้ทำเพื่อให้แน่ใจว่าโมเดลเรียนรู้เพิ่มเติมเกี่ยวกับความเกี่ยวข้องของข้อความและรูปภาพ

การใช้วิธีการและการฝังแบบใหม่เหล่านี้ ทำให้โมเดลสามารถบรรลุคะแนน F1 ที่สูงขึ้นในชุดข้อมูลทดสอบเกือบทั้งหมดในรูปแบบ LayoutLM

ประทับเวลา: March 7, 2022

ประทับเวลา: กุมภาพันธ์ 7, 2023

เผยแพร่ซ้ำโดยเพลโต

การเอาท์ซอร์สบัญชีเจ้าหนี้คืออะไร?

เลิกทำการกระทบยอดใน QuickBooks Online: คำแนะนำง่ายๆ

เอาชีวิตรอดจากคัมภีร์ของศาสนาคริสต์ใน Silicon Valley Bank: การจัดการหลายธนาคารสำหรับสตาร์ทอัพ

คู่มือการทำงานอัตโนมัติของเวิร์กโฟลว์ & 5 ซอฟต์แวร์เวิร์กโฟลว์ที่ดีที่สุดสำหรับปี 2022

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้