ในหลายอุตสาหกรรม การแยกเอนทิตีแบบกำหนดเองออกจากเอกสารอย่างทันท่วงทีเป็นสิ่งสำคัญ นี้อาจเป็นสิ่งที่ท้าทาย ตัวอย่างเช่น การเคลมประกัน มักประกอบด้วยคุณลักษณะที่สำคัญหลายสิบรายการ (เช่น วันที่ ชื่อ สถานที่ และรายงาน) ที่กระจายอยู่ในเอกสารที่มีความยาวและหนาแน่น การสแกนและดึงข้อมูลด้วยตนเองอาจเกิดข้อผิดพลาดได้ง่ายและใช้เวลานาน ซอฟต์แวร์ที่อิงตามกฎสามารถช่วยได้ แต่ท้ายที่สุดแล้ว กลับเข้มงวดเกินกว่าจะปรับให้เข้ากับประเภทเอกสารและเลย์เอาต์ที่หลากหลาย
เพื่อช่วยทำให้กระบวนการนี้เป็นแบบอัตโนมัติและเร็วขึ้น คุณสามารถใช้ เข้าใจ Amazon เพื่อตรวจจับเอนทิตีแบบกำหนดเองได้อย่างรวดเร็วและแม่นยำโดยใช้การเรียนรู้ของเครื่อง (ML) วิธีการนี้มีความยืดหยุ่นและแม่นยำ เนื่องจากระบบสามารถปรับให้เข้ากับเอกสารใหม่ได้โดยใช้สิ่งที่ได้เรียนรู้ในอดีต อย่างไรก็ตาม ก่อนหน้านี้ ความสามารถนี้สามารถใช้ได้กับเอกสารข้อความธรรมดาเท่านั้น ซึ่งหมายความว่าข้อมูลตำแหน่งสูญหายเมื่อแปลงเอกสารจากรูปแบบดั้งเดิม เพื่อแก้ไขปัญหานี้ มันคือ ประกาศเมื่อเร็ว ๆ ที่ Amazon Comprehend สามารถแยกเอนทิตีแบบกำหนดเองในรูปแบบไฟล์ PDF, รูปภาพ และ Word
ในโพสต์นี้ เราจะอธิบายตัวอย่างที่เป็นรูปธรรมจากอุตสาหกรรมประกันภัยเกี่ยวกับวิธีสร้างตัวจำแนกลายมือที่กำหนดเองโดยใช้คำอธิบายประกอบ PDF
ภาพรวมโซลูชัน
เราแนะนำคุณผ่านขั้นตอนระดับสูงดังต่อไปนี้:
- สร้างคำอธิบายประกอบ PDF
- ใช้คำอธิบายประกอบ PDF เพื่อฝึกโมเดลที่กำหนดเองโดยใช้ Python API
- รับตัวชี้วัดการประเมินจากแบบจำลองที่ได้รับการฝึกอบรม
- ทำการอนุมานบนเอกสารที่มองไม่เห็น
ในตอนท้ายของโพสต์นี้ เราต้องการส่งเอกสาร PDF ดิบไปยังโมเดลที่ได้รับการฝึกอบรมของเรา และให้ไฟล์ดังกล่าวส่งออกไฟล์ที่มีโครงสร้างพร้อมข้อมูลเกี่ยวกับป้ายกำกับที่เราสนใจ โดยเฉพาะอย่างยิ่ง เราฝึกแบบจำลองของเราเพื่อตรวจหาหน่วยงานห้ารายการต่อไปนี้ที่เราเลือกเนื่องจากมีความเกี่ยวข้องกับการเคลมประกัน: DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
และ InsuredMailingAddress
. หลังจากอ่านผลลัพธ์ที่มีโครงสร้างแล้ว เราสามารถมองเห็นข้อมูลฉลากได้โดยตรงบนเอกสาร PDF ดังในรูปต่อไปนี้
โพสต์นี้มาพร้อมกับสมุดบันทึก Jupyter ที่มีขั้นตอนเดียวกัน อย่าลังเลที่จะปฏิบัติตามในขณะที่ทำตามขั้นตอนในนั้น สมุดบันทึก. โปรดทราบว่าคุณต้องตั้งค่า อเมซอน SageMaker สภาพแวดล้อมเพื่อให้ Amazon Comprehend อ่านจาก บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) ตามที่อธิบายไว้ที่ด้านบนของโน้ตบุ๊ก
สร้างคำอธิบายประกอบ PDF
ในการสร้างคำอธิบายประกอบสำหรับเอกสาร PDF คุณสามารถใช้ ความจริงของ Amazon SageMakerซึ่งเป็นบริการการติดฉลากข้อมูลที่มีการจัดการเต็มรูปแบบที่ทำให้ง่ายต่อการสร้างชุดข้อมูลการฝึกอบรมที่มีความแม่นยำสูงสำหรับ ML
สำหรับบทช่วยสอนนี้ เราได้ใส่คำอธิบายประกอบ PDF ในรูปแบบดั้งเดิมแล้ว (โดยไม่ต้องแปลงเป็นข้อความธรรมดา) โดยใช้ Ground Truth งาน Ground Truth สร้างสามเส้นทางที่เราต้องการสำหรับการฝึกอบรมโมเดล Amazon Comprehend แบบกำหนดเองของเรา:
- แหล่งที่มา – เส้นทางไปยังไฟล์ PDF อินพุต
- คำอธิบายประกอบ – เส้นทางไปยังไฟล์ JSON ของคำอธิบายประกอบที่มีข้อมูลเอนทิตีที่มีป้ายกำกับ
- ประจักษ์ – ไฟล์ที่ชี้ไปยังตำแหน่งของคำอธิบายประกอบและไฟล์ PDF ต้นฉบับ ไฟล์นี้ใช้เพื่อสร้างงานฝึกอบรมการรู้จำเอนทิตีแบบกำหนดเองของ Amazon Comprehend และฝึกอบรมโมเดลที่กำหนดเอง
ภาพหน้าจอต่อไปนี้แสดงตัวอย่างคำอธิบายประกอบ
งาน Ground Truth แบบกำหนดเองจะสร้างคำอธิบายประกอบ PDF ที่รวบรวมข้อมูลระดับบล็อกเกี่ยวกับเอนทิตี ข้อมูลระดับบล็อกดังกล่าวให้พิกัดตำแหน่งที่แม่นยำของเอนทิตี (โดยมีบล็อกย่อยแทนแต่ละคำภายในบล็อกเอนทิตี) ซึ่งแตกต่างจากงาน Ground Truth มาตรฐานที่ข้อมูลใน PDF ถูกทำให้เรียบเป็นรูปแบบข้อความและจะบันทึกเฉพาะข้อมูลออฟเซ็ตเท่านั้น แต่ไม่ใช่ข้อมูลพิกัดที่แม่นยำ จะถูกบันทึกระหว่างคำอธิบายประกอบ ข้อมูลตำแหน่งที่สมบูรณ์ที่เราได้รับจากกระบวนทัศน์คำอธิบายประกอบแบบกำหนดเองนี้ช่วยให้เราฝึกโมเดลที่แม่นยำยิ่งขึ้นได้
ไฟล์ Manifest ที่สร้างจากงานประเภทนี้เรียกว่า Augmented Manifest ซึ่งต่างจาก CSV ที่ใช้สำหรับคำอธิบายประกอบมาตรฐาน ดูข้อมูลเพิ่มเติมได้ที่ คำอธิบายประกอบ.
ใช้คำอธิบายประกอบ PDF เพื่อฝึกโมเดลที่กำหนดเองโดยใช้ Python API
ไฟล์ Manifest ที่เสริมต้องอยู่ในรูปแบบ JSON Lines ในรูปแบบ JSON Lines แต่ละบรรทัดในไฟล์จะเป็นอ็อบเจ็กต์ JSON ที่สมบูรณ์ตามด้วยตัวคั่นบรรทัดใหม่
รหัสต่อไปนี้เป็นรายการภายในไฟล์รายการเสริมนี้
สิ่งที่ควรทราบ:
- การติดฉลากห้าประเภทเกี่ยวข้องกับงานนี้:
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
และInsuredMailingAddress
. - ไฟล์ Manifest อ้างอิงทั้งตำแหน่ง PDF ต้นทางและตำแหน่งคำอธิบายประกอบ
- ข้อมูลเมตาเกี่ยวกับงานคำอธิบายประกอบ (เช่น วันที่สร้าง) ถูกจับ
Use-textract-only
ถูกตั้งค่าเป็นFalse
หมายความว่าเครื่องมือคำอธิบายประกอบจะตัดสินใจว่าจะใช้ PDFPlumber (สำหรับ PDF ดั้งเดิม) หรือ Amazon Text (สำหรับไฟล์ PDF ที่สแกน) หากตั้งค่าเป็นtrue
, Amazon Texttract ถูกใช้ในทั้งสองกรณี (ซึ่งมีราคาแพงกว่าแต่อาจแม่นยำกว่า)
ตอนนี้ เราสามารถฝึกตัวจำแนกประเภทตามที่แสดงในโค้ดตัวอย่างต่อไปนี้
เราสร้างตัวจำแนกประเภทเพื่อจดจำเอนทิตีทั้งห้าประเภท เราสามารถใช้ชุดย่อยของเอนทิตีเหล่านี้ได้หากต้องการ คุณสามารถใช้เอนทิตีได้สูงสุด 25 รายการ
สำหรับรายละเอียดของแต่ละพารามิเตอร์ โปรดดูที่ create_entity_recognizer.
เวลาการฝึกอาจแตกต่างกันไปขึ้นอยู่กับขนาดของชุดการฝึก สำหรับชุดข้อมูลนี้ การฝึกอบรมใช้เวลาประมาณ 1 ชั่วโมง ในการตรวจสอบสถานะของงานฝึกอบรม คุณสามารถใช้ describe_entity_recognizer
API
รับตัวชี้วัดการประเมินจากแบบจำลองที่ได้รับการฝึกอบรม
Amazon Comprehend มีตัววัดประสิทธิภาพของโมเดลสำหรับโมเดลที่ได้รับการฝึกอบรม ซึ่งบ่งชี้ว่าโมเดลที่ได้รับการฝึกนั้นคาดว่าจะคาดการณ์โดยใช้อินพุตที่คล้ายกันได้ดีเพียงใด เราสามารถรับทั้งเมตริกความแม่นยำและการเรียกคืนทั่วโลกรวมถึงเมตริกต่อเอนทิตี โมเดลที่แม่นยำมีความแม่นยำสูงและการเรียกคืนสูง ความแม่นยำสูงหมายถึงแบบจำลองมักจะถูกต้องเมื่อระบุฉลากเฉพาะ การเรียกคืนสูงหมายความว่าแบบจำลองพบฉลากส่วนใหญ่ F1 เป็นเมตริกประกอบ (ค่าเฉลี่ยฮาร์มอนิก) ของการวัดเหล่านี้ และดังนั้นจึงมีค่าสูงเมื่อส่วนประกอบทั้งสองมีค่าสูง สำหรับคำอธิบายโดยละเอียดของเมตริก โปรดดูที่ เมตริกตัวจำแนกเอนทิตีแบบกำหนดเอง.
เมื่อคุณมอบเอกสารให้กับงานฝึกอบรม Amazon Comprehend จะแยกเอกสารออกเป็นชุดฝึกอบรมและชุดทดสอบโดยอัตโนมัติ เมื่อนางแบบมาถึง TRAINED
สถานะ คุณสามารถใช้ describe_entity_recognizer
API อีกครั้งเพื่อรับตัวชี้วัดการประเมินในชุดการทดสอบ
ต่อไปนี้เป็นตัวอย่างตัวชี้วัดทั่วโลก
ต่อไปนี้คือตัวอย่างเมตริกต่อเอนทิตี
คะแนนที่สูงแสดงว่าโมเดลได้เรียนรู้วิธีตรวจจับเอนทิตีเหล่านี้เป็นอย่างดี
ทำการอนุมานบนเอกสารที่มองไม่เห็น
ลองทำการอนุมานด้วยโมเดลที่ได้รับการฝึกอบรมของเราในเอกสารที่ไม่ได้เป็นส่วนหนึ่งของขั้นตอนการฝึกอบรม เราสามารถใช้ API แบบอะซิงโครนัสนี้สำหรับ NER มาตรฐานหรือแบบกำหนดเอง หากใช้สำหรับ NER ที่กำหนดเอง (เช่นในโพสต์นี้) เราต้องผ่าน ARN ของโมเดลที่ผ่านการฝึกอบรม
เราสามารถตรวจทานงานที่ส่งโดยการพิมพ์คำตอบ
เราสามารถจัดรูปแบบผลลัพธ์ของงานการตรวจจับด้วย Pandas ลงในตาราง ดิ Score
ค่าบ่งชี้ระดับความเชื่อมั่นที่แบบจำลองมีเกี่ยวกับเอนทิตี
สุดท้าย เราสามารถซ้อนทับคำทำนายบนเอกสารที่มองไม่เห็น ซึ่งให้ผลลัพธ์ดังแสดงที่ด้านบนของโพสต์นี้
สรุป
ในโพสต์นี้ คุณได้เห็นวิธีการแยกเอนทิตีแบบกำหนดเองในรูปแบบ PDF ดั้งเดิมโดยใช้ Amazon Comprehend ในขั้นตอนต่อไป ให้พิจารณาดำดิ่งลึกลงไป:
- ฝึกการจำแนกของคุณเองโดยใช้สมุดบันทึกที่มาพร้อมเครื่อง โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม. อย่าลืมลบทรัพยากรเมื่อเสร็จสิ้นเพื่อหลีกเลี่ยงการเรียกเก็บเงินในอนาคต
- ตั้งค่างานคำอธิบายประกอบแบบกำหนดเองของคุณเพื่อรวบรวมคำอธิบายประกอบ PDF สำหรับหน่วยงานที่คุณสนใจ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ คำอธิบายประกอบเอกสารที่กำหนดเองสำหรับการแยกเอนทิตีที่มีชื่อในเอกสารโดยใช้ Amazon Comprehend.
- ฝึกโมเดล NER แบบกำหนดเองบนคอนโซล Amazon Comprehend ดูข้อมูลเพิ่มเติมได้ที่ แยกเอนทิตีแบบกำหนดเองจากเอกสารในรูปแบบดั้งเดิมด้วย Amazon Comprehend.
เกี่ยวกับผู้เขียน
โจชัว เลวี เป็นนักวิทยาศาสตร์ประยุกต์อาวุโสในห้องปฏิบัติการ Amazon Machine Learning Solutions ซึ่งเขาช่วยลูกค้าออกแบบและสร้างโซลูชัน AI/ML เพื่อแก้ปัญหาทางธุรกิจที่สำคัญ
แอนดรูอัง เป็นวิศวกรแมชชีนเลิร์นนิ่งใน Amazon Machine Learning Solutions Lab ซึ่งเขาช่วยลูกค้าจากหลากหลายอุตสาหกรรมในการระบุและสร้างโซลูชัน AI/ML เพื่อแก้ปัญหาทางธุรกิจเร่งด่วนที่สุดของพวกเขา นอกเวลางาน เขาชอบดูบล็อกการเดินทางและอาหาร
อเล็กซ์ จิรยาท เป็นวิศวกรซอฟต์แวร์ใน Amazon Machine Learning Solutions Lab โดยมุ่งเน้นที่การสร้างโซลูชันตามกรณีการใช้งานที่แสดงให้ลูกค้าเห็นถึงวิธีการปลดล็อกพลังของบริการ AWS AI/ML เพื่อแก้ปัญหาทางธุรกิจในโลกแห่งความเป็นจริง
เจนนิเฟอร์ จู เป็นนักวิทยาศาสตร์ประยุกต์จาก Amazon AI Machine Learning Solutions Lab เธอทำงานร่วมกับลูกค้าของ AWS ในการสร้างโซลูชัน AI/ML สำหรับความต้องการทางธุรกิจที่มีความสำคัญสูง
นิหริกา ชยันธี เป็นวิศวกรส่วนหน้าใน Amazon Machine Learning Solutions Lab – Human in the Loop เธอช่วยสร้างโซลูชันประสบการณ์ผู้ใช้สำหรับลูกค้า Amazon SageMaker Ground Truth
บอริส อารอนชิก เป็นผู้จัดการใน Amazon AI Machine Learning Solutions Lab ซึ่งเขาเป็นผู้นำทีมนักวิทยาศาสตร์และวิศวกร ML เพื่อช่วยให้ลูกค้า AWS บรรลุเป้าหมายทางธุรกิจโดยใช้โซลูชัน AI/ML
- "
- &
- 100
- เกี่ยวกับเรา
- ถูกต้อง
- ข้าม
- ที่อยู่
- AI
- ทั้งหมด
- แล้ว
- อเมซอน
- API
- เข้าใกล้
- ประมาณ
- แอตทริบิวต์
- เติม
- โดยอัตโนมัติ
- AWS
- ปิดกั้น
- สร้าง
- การก่อสร้าง
- ธุรกิจ
- ท้าทาย
- โหลด
- เด็ก
- การเรียกร้อง
- รหัส
- รวบรวม
- ความมั่นใจ
- ปลอบใจ
- มี
- ประสานงาน
- ได้
- การสร้าง
- วิกฤติ
- ประเพณี
- ลูกค้า
- ข้อมูล
- วันที่
- ลึก
- ออกแบบ
- การตรวจพบ
- โดยตรง
- เอกสาร
- วิศวกร
- วิศวกร
- หน่วยงาน
- สิ่งแวดล้อม
- ตัวอย่าง
- ที่คาดหวัง
- ประสบการณ์
- มีความยืดหยุ่น
- ปฏิบัติตาม
- ดังต่อไปนี้
- อาหาร
- ฟอร์ม
- รูป
- พบ
- ฟรี
- อนาคต
- เหตุการณ์ที่
- เป้าหมาย
- ช่วย
- จะช่วยให้
- จุดสูง
- อย่างสูง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- เป็นมนุษย์
- แยกแยะ
- ภาพ
- สำคัญ
- อุตสาหกรรม
- อุตสาหกรรม
- ข้อมูล
- อินพุต
- ประกัน
- อยากเรียนรู้
- IT
- การสัมภาษณ์
- คีย์
- ห้องปฏิบัติการ
- การติดฉลาก
- ป้ายกำกับ
- นำไปสู่
- ได้เรียนรู้
- การเรียนรู้
- ชั้น
- การใช้ประโยชน์
- Line
- ที่ตั้ง
- วันหยุด
- เครื่อง
- เรียนรู้เครื่อง
- ทำให้
- การจัดการ
- ผู้จัดการ
- ลักษณะ
- ด้วยมือ
- ความหมาย
- ตัวชี้วัด
- ML
- แบบ
- การตรวจสอบ
- ข้อมูลเพิ่มเติม
- มากที่สุด
- ชื่อ
- สมุดบันทึก
- ชดเชย
- ของตนเอง
- ตัวอย่าง
- รูปแบบไฟล์ PDF
- การปฏิบัติ
- อำนาจ
- การคาดการณ์
- ปัญหาที่เกิดขึ้น
- กระบวนการ
- ให้
- ให้
- อย่างรวดเร็ว
- ดิบ
- การอ่าน
- โลกแห่งความจริง
- ตระหนักถึง
- รับรู้
- รายงาน
- แหล่งข้อมูล
- คำตอบ
- ทบทวน
- วิ่ง
- วิ่ง
- การสแกน
- นักวิทยาศาสตร์
- นักวิทยาศาสตร์
- บริการ
- บริการ
- ชุด
- คล้ายคลึงกัน
- ง่าย
- ขนาด
- ซอฟต์แวร์
- วิศวกรซอฟต์แวร์
- โซลูชัน
- แก้
- ความเร็ว
- มาตรฐาน
- Status
- การเก็บรักษา
- โครงสร้าง
- ส่ง
- ระบบ
- ทีม
- ทดสอบ
- ที่มา
- ตลอด
- เวลา
- ต้องใช้เวลามาก
- เครื่องมือ
- ด้านบน
- การฝึกอบรม
- การเดินทาง
- ปลดล็อก
- us
- ใช้
- มักจะ
- ความคุ้มค่า
- อะไร
- ว่า
- ในขณะที่
- ภายใน
- ไม่มี
- งาน
- โรงงาน
- โลก