สร้างตัวจำแนกเอนทิตีแบบกำหนดเองสำหรับเอกสาร PDF โดยใช้ Amazon Comprehend

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในหลายอุตสาหกรรม การแยกเอนทิตีแบบกำหนดเองออกจากเอกสารอย่างทันท่วงทีเป็นสิ่งสำคัญ นี้อาจเป็นสิ่งที่ท้าทาย ตัวอย่างเช่น การเคลมประกัน มักประกอบด้วยคุณลักษณะที่สำคัญหลายสิบรายการ (เช่น วันที่ ชื่อ สถานที่ และรายงาน) ที่กระจายอยู่ในเอกสารที่มีความยาวและหนาแน่น การสแกนและดึงข้อมูลด้วยตนเองอาจเกิดข้อผิดพลาดได้ง่ายและใช้เวลานาน ซอฟต์แวร์ที่อิงตามกฎสามารถช่วยได้ แต่ท้ายที่สุดแล้ว กลับเข้มงวดเกินกว่าจะปรับให้เข้ากับประเภทเอกสารและเลย์เอาต์ที่หลากหลาย

เพื่อช่วยทำให้กระบวนการนี้เป็นแบบอัตโนมัติและเร็วขึ้น คุณสามารถใช้ เข้าใจ Amazon เพื่อตรวจจับเอนทิตีแบบกำหนดเองได้อย่างรวดเร็วและแม่นยำโดยใช้การเรียนรู้ของเครื่อง (ML) วิธีการนี้มีความยืดหยุ่นและแม่นยำ เนื่องจากระบบสามารถปรับให้เข้ากับเอกสารใหม่ได้โดยใช้สิ่งที่ได้เรียนรู้ในอดีต อย่างไรก็ตาม ก่อนหน้านี้ ความสามารถนี้สามารถใช้ได้กับเอกสารข้อความธรรมดาเท่านั้น ซึ่งหมายความว่าข้อมูลตำแหน่งสูญหายเมื่อแปลงเอกสารจากรูปแบบดั้งเดิม เพื่อแก้ไขปัญหานี้ มันคือ ประกาศเมื่อเร็ว ๆ ที่ Amazon Comprehend สามารถแยกเอนทิตีแบบกำหนดเองในรูปแบบไฟล์ PDF, รูปภาพ และ Word

ในโพสต์นี้ เราจะอธิบายตัวอย่างที่เป็นรูปธรรมจากอุตสาหกรรมประกันภัยเกี่ยวกับวิธีสร้างตัวจำแนกลายมือที่กำหนดเองโดยใช้คำอธิบายประกอบ PDF

ภาพรวมโซลูชัน

เราแนะนำคุณผ่านขั้นตอนระดับสูงดังต่อไปนี้:

สร้างคำอธิบายประกอบ PDF
ใช้คำอธิบายประกอบ PDF เพื่อฝึกโมเดลที่กำหนดเองโดยใช้ Python API
รับตัวชี้วัดการประเมินจากแบบจำลองที่ได้รับการฝึกอบรม
ทำการอนุมานบนเอกสารที่มองไม่เห็น

ในตอนท้ายของโพสต์นี้ เราต้องการส่งเอกสาร PDF ดิบไปยังโมเดลที่ได้รับการฝึกอบรมของเรา และให้ไฟล์ดังกล่าวส่งออกไฟล์ที่มีโครงสร้างพร้อมข้อมูลเกี่ยวกับป้ายกำกับที่เราสนใจ โดยเฉพาะอย่างยิ่ง เราฝึกแบบจำลองของเราเพื่อตรวจหาหน่วยงานห้ารายการต่อไปนี้ที่เราเลือกเนื่องจากมีความเกี่ยวข้องกับการเคลมประกัน: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossและ InsuredMailingAddress. หลังจากอ่านผลลัพธ์ที่มีโครงสร้างแล้ว เราสามารถมองเห็นข้อมูลฉลากได้โดยตรงบนเอกสาร PDF ดังในรูปต่อไปนี้

โพสต์นี้มาพร้อมกับสมุดบันทึก Jupyter ที่มีขั้นตอนเดียวกัน อย่าลังเลที่จะปฏิบัติตามในขณะที่ทำตามขั้นตอนในนั้น สมุดบันทึก. โปรดทราบว่าคุณต้องตั้งค่า อเมซอน SageMaker สภาพแวดล้อมเพื่อให้ Amazon Comprehend อ่านจาก บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) ตามที่อธิบายไว้ที่ด้านบนของโน้ตบุ๊ก

สร้างคำอธิบายประกอบ PDF

ในการสร้างคำอธิบายประกอบสำหรับเอกสาร PDF คุณสามารถใช้ ความจริงของ Amazon SageMakerซึ่งเป็นบริการการติดฉลากข้อมูลที่มีการจัดการเต็มรูปแบบที่ทำให้ง่ายต่อการสร้างชุดข้อมูลการฝึกอบรมที่มีความแม่นยำสูงสำหรับ ML

สำหรับบทช่วยสอนนี้ เราได้ใส่คำอธิบายประกอบ PDF ในรูปแบบดั้งเดิมแล้ว (โดยไม่ต้องแปลงเป็นข้อความธรรมดา) โดยใช้ Ground Truth งาน Ground Truth สร้างสามเส้นทางที่เราต้องการสำหรับการฝึกอบรมโมเดล Amazon Comprehend แบบกำหนดเองของเรา:

แหล่งที่มา – เส้นทางไปยังไฟล์ PDF อินพุต
คำอธิบายประกอบ – เส้นทางไปยังไฟล์ JSON ของคำอธิบายประกอบที่มีข้อมูลเอนทิตีที่มีป้ายกำกับ
ประจักษ์ – ไฟล์ที่ชี้ไปยังตำแหน่งของคำอธิบายประกอบและไฟล์ PDF ต้นฉบับ ไฟล์นี้ใช้เพื่อสร้างงานฝึกอบรมการรู้จำเอนทิตีแบบกำหนดเองของ Amazon Comprehend และฝึกอบรมโมเดลที่กำหนดเอง

ภาพหน้าจอต่อไปนี้แสดงตัวอย่างคำอธิบายประกอบ

งาน Ground Truth แบบกำหนดเองจะสร้างคำอธิบายประกอบ PDF ที่รวบรวมข้อมูลระดับบล็อกเกี่ยวกับเอนทิตี ข้อมูลระดับบล็อกดังกล่าวให้พิกัดตำแหน่งที่แม่นยำของเอนทิตี (โดยมีบล็อกย่อยแทนแต่ละคำภายในบล็อกเอนทิตี) ซึ่งแตกต่างจากงาน Ground Truth มาตรฐานที่ข้อมูลใน PDF ถูกทำให้เรียบเป็นรูปแบบข้อความและจะบันทึกเฉพาะข้อมูลออฟเซ็ตเท่านั้น แต่ไม่ใช่ข้อมูลพิกัดที่แม่นยำ จะถูกบันทึกระหว่างคำอธิบายประกอบ ข้อมูลตำแหน่งที่สมบูรณ์ที่เราได้รับจากกระบวนทัศน์คำอธิบายประกอบแบบกำหนดเองนี้ช่วยให้เราฝึกโมเดลที่แม่นยำยิ่งขึ้นได้

ไฟล์ Manifest ที่สร้างจากงานประเภทนี้เรียกว่า Augmented Manifest ซึ่งต่างจาก CSV ที่ใช้สำหรับคำอธิบายประกอบมาตรฐาน ดูข้อมูลเพิ่มเติมได้ที่ คำอธิบายประกอบ.

ใช้คำอธิบายประกอบ PDF เพื่อฝึกโมเดลที่กำหนดเองโดยใช้ Python API

ไฟล์ Manifest ที่เสริมต้องอยู่ในรูปแบบ JSON Lines ในรูปแบบ JSON Lines แต่ละบรรทัดในไฟล์จะเป็นอ็อบเจ็กต์ JSON ที่สมบูรณ์ตามด้วยตัวคั่นบรรทัดใหม่

รหัสต่อไปนี้เป็นรายการภายในไฟล์รายการเสริมนี้

สิ่งที่ควรทราบ:

การติดฉลากห้าประเภทเกี่ยวข้องกับงานนี้: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossและ InsuredMailingAddress.
ไฟล์ Manifest อ้างอิงทั้งตำแหน่ง PDF ต้นทางและตำแหน่งคำอธิบายประกอบ
ข้อมูลเมตาเกี่ยวกับงานคำอธิบายประกอบ (เช่น วันที่สร้าง) ถูกจับ
Use-textract-only ถูกตั้งค่าเป็น Falseหมายความว่าเครื่องมือคำอธิบายประกอบจะตัดสินใจว่าจะใช้ PDFPlumber (สำหรับ PDF ดั้งเดิม) หรือ Amazon Text (สำหรับไฟล์ PDF ที่สแกน) หากตั้งค่าเป็น true, Amazon Texttract ถูกใช้ในทั้งสองกรณี (ซึ่งมีราคาแพงกว่าแต่อาจแม่นยำกว่า)

ตอนนี้ เราสามารถฝึกตัวจำแนกประเภทตามที่แสดงในโค้ดตัวอย่างต่อไปนี้

เราสร้างตัวจำแนกประเภทเพื่อจดจำเอนทิตีทั้งห้าประเภท เราสามารถใช้ชุดย่อยของเอนทิตีเหล่านี้ได้หากต้องการ คุณสามารถใช้เอนทิตีได้สูงสุด 25 รายการ

สำหรับรายละเอียดของแต่ละพารามิเตอร์ โปรดดูที่ create_entity_recognizer.

เวลาการฝึกอาจแตกต่างกันไปขึ้นอยู่กับขนาดของชุดการฝึก สำหรับชุดข้อมูลนี้ การฝึกอบรมใช้เวลาประมาณ 1 ชั่วโมง ในการตรวจสอบสถานะของงานฝึกอบรม คุณสามารถใช้ describe_entity_recognizer API

รับตัวชี้วัดการประเมินจากแบบจำลองที่ได้รับการฝึกอบรม

Amazon Comprehend มีตัววัดประสิทธิภาพของโมเดลสำหรับโมเดลที่ได้รับการฝึกอบรม ซึ่งบ่งชี้ว่าโมเดลที่ได้รับการฝึกนั้นคาดว่าจะคาดการณ์โดยใช้อินพุตที่คล้ายกันได้ดีเพียงใด เราสามารถรับทั้งเมตริกความแม่นยำและการเรียกคืนทั่วโลกรวมถึงเมตริกต่อเอนทิตี โมเดลที่แม่นยำมีความแม่นยำสูงและการเรียกคืนสูง ความแม่นยำสูงหมายถึงแบบจำลองมักจะถูกต้องเมื่อระบุฉลากเฉพาะ การเรียกคืนสูงหมายความว่าแบบจำลองพบฉลากส่วนใหญ่ F1 เป็นเมตริกประกอบ (ค่าเฉลี่ยฮาร์มอนิก) ของการวัดเหล่านี้ และดังนั้นจึงมีค่าสูงเมื่อส่วนประกอบทั้งสองมีค่าสูง สำหรับคำอธิบายโดยละเอียดของเมตริก โปรดดูที่ เมตริกตัวจำแนกเอนทิตีแบบกำหนดเอง.

เมื่อคุณมอบเอกสารให้กับงานฝึกอบรม Amazon Comprehend จะแยกเอกสารออกเป็นชุดฝึกอบรมและชุดทดสอบโดยอัตโนมัติ เมื่อนางแบบมาถึง TRAINED สถานะ คุณสามารถใช้ describe_entity_recognizer API อีกครั้งเพื่อรับตัวชี้วัดการประเมินในชุดการทดสอบ

ต่อไปนี้เป็นตัวอย่างตัวชี้วัดทั่วโลก

ต่อไปนี้คือตัวอย่างเมตริกต่อเอนทิตี

คะแนนที่สูงแสดงว่าโมเดลได้เรียนรู้วิธีตรวจจับเอนทิตีเหล่านี้เป็นอย่างดี

ทำการอนุมานบนเอกสารที่มองไม่เห็น

ลองทำการอนุมานด้วยโมเดลที่ได้รับการฝึกอบรมของเราในเอกสารที่ไม่ได้เป็นส่วนหนึ่งของขั้นตอนการฝึกอบรม เราสามารถใช้ API แบบอะซิงโครนัสนี้สำหรับ NER มาตรฐานหรือแบบกำหนดเอง หากใช้สำหรับ NER ที่กำหนดเอง (เช่นในโพสต์นี้) เราต้องผ่าน ARN ของโมเดลที่ผ่านการฝึกอบรม

เราสามารถตรวจทานงานที่ส่งโดยการพิมพ์คำตอบ

เราสามารถจัดรูปแบบผลลัพธ์ของงานการตรวจจับด้วย Pandas ลงในตาราง ดิ Score ค่าบ่งชี้ระดับความเชื่อมั่นที่แบบจำลองมีเกี่ยวกับเอนทิตี

สุดท้าย เราสามารถซ้อนทับคำทำนายบนเอกสารที่มองไม่เห็น ซึ่งให้ผลลัพธ์ดังแสดงที่ด้านบนของโพสต์นี้

สรุป

ในโพสต์นี้ คุณได้เห็นวิธีการแยกเอนทิตีแบบกำหนดเองในรูปแบบ PDF ดั้งเดิมโดยใช้ Amazon Comprehend ในขั้นตอนต่อไป ให้พิจารณาดำดิ่งลึกลงไป:

ฝึกการจำแนกของคุณเองโดยใช้สมุดบันทึกที่มาพร้อมเครื่อง โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม. อย่าลืมลบทรัพยากรเมื่อเสร็จสิ้นเพื่อหลีกเลี่ยงการเรียกเก็บเงินในอนาคต
ตั้งค่างานคำอธิบายประกอบแบบกำหนดเองของคุณเพื่อรวบรวมคำอธิบายประกอบ PDF สำหรับหน่วยงานที่คุณสนใจ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ คำอธิบายประกอบเอกสารที่กำหนดเองสำหรับการแยกเอนทิตีที่มีชื่อในเอกสารโดยใช้ Amazon Comprehend.
ฝึกโมเดล NER แบบกำหนดเองบนคอนโซล Amazon Comprehend ดูข้อมูลเพิ่มเติมได้ที่ แยกเอนทิตีแบบกำหนดเองจากเอกสารในรูปแบบดั้งเดิมด้วย Amazon Comprehend.

เกี่ยวกับผู้เขียน

โจชัว เลวี เป็นนักวิทยาศาสตร์ประยุกต์อาวุโสในห้องปฏิบัติการ Amazon Machine Learning Solutions ซึ่งเขาช่วยลูกค้าออกแบบและสร้างโซลูชัน AI/ML เพื่อแก้ปัญหาทางธุรกิจที่สำคัญ

แอนดรูอัง เป็นวิศวกรแมชชีนเลิร์นนิ่งใน Amazon Machine Learning Solutions Lab ซึ่งเขาช่วยลูกค้าจากหลากหลายอุตสาหกรรมในการระบุและสร้างโซลูชัน AI/ML เพื่อแก้ปัญหาทางธุรกิจเร่งด่วนที่สุดของพวกเขา นอกเวลางาน เขาชอบดูบล็อกการเดินทางและอาหาร

อเล็กซ์ จิรยาท เป็นวิศวกรซอฟต์แวร์ใน Amazon Machine Learning Solutions Lab โดยมุ่งเน้นที่การสร้างโซลูชันตามกรณีการใช้งานที่แสดงให้ลูกค้าเห็นถึงวิธีการปลดล็อกพลังของบริการ AWS AI/ML เพื่อแก้ปัญหาทางธุรกิจในโลกแห่งความเป็นจริง

เจนนิเฟอร์ จู เป็นนักวิทยาศาสตร์ประยุกต์จาก Amazon AI Machine Learning Solutions Lab เธอทำงานร่วมกับลูกค้าของ AWS ในการสร้างโซลูชัน AI/ML สำหรับความต้องการทางธุรกิจที่มีความสำคัญสูง

นิหริกา ชยันธี เป็นวิศวกรส่วนหน้าใน Amazon Machine Learning Solutions Lab – Human in the Loop เธอช่วยสร้างโซลูชันประสบการณ์ผู้ใช้สำหรับลูกค้า Amazon SageMaker Ground Truth

บอริส อารอนชิก เป็นผู้จัดการใน Amazon AI Machine Learning Solutions Lab ซึ่งเขาเป็นผู้นำทีมนักวิทยาศาสตร์และวิศวกร ML เพื่อช่วยให้ลูกค้า AWS บรรลุเป้าหมายทางธุรกิจโดยใช้โซลูชัน AI/ML

ประทับเวลา: April 8, 2022

ประทับเวลา: Mar 29, 2022

สร้างตัวจำแนกเอนทิตีแบบกำหนดเองสำหรับเอกสาร PDF โดยใช้ Amazon Comprehend

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโซลูชัน

สร้างคำอธิบายประกอบ PDF

ใช้คำอธิบายประกอบ PDF เพื่อฝึกโมเดลที่กำหนดเองโดยใช้ Python API

รับตัวชี้วัดการประเมินจากแบบจำลองที่ได้รับการฝึกอบรม

ทำการอนุมานบนเอกสารที่มองไม่เห็น

สรุป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS Machine Learning AWS

การอนุมาน ML ที่คุ้มค่าด้วยโมเดลหลายเฟรมเวิร์กบน Amazon SageMaker

Amazon Rekognition แนะนำกิจกรรมการสตรีมวิดีโอเพื่อให้การแจ้งเตือนแบบเรียลไทม์เกี่ยวกับสตรีมวิดีโอสด

Chronomics ตรวจจับผลการทดสอบ COVID-19 ด้วย Amazon Rekognition Custom Labels

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้