ใช้ข้อมูลเมตาที่กำหนดเองที่สร้างโดย Amazon Comprehend เพื่อประมวลผลการเรียกร้องค่าสินไหมทดแทนอย่างชาญฉลาดโดยใช้ Amazon Kendra

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ข้อมูลที่มีโครงสร้าง หมายถึง ข้อมูลที่เป็นไปตามรูปแบบที่ตายตัว เช่น ข้อมูลที่จัดเก็บไว้ในคอลัมน์ภายในฐานข้อมูล และข้อมูลที่ไม่มีโครงสร้างซึ่งขาดรูปแบบหรือรูปแบบเฉพาะ เช่น ข้อความ รูปภาพ หรือโพสต์บนโซเชียลมีเดีย ทั้งสองอย่างนี้ยังคงเติบโตต่อไปเมื่อมีการผลิตและบริโภค โดยองค์กรต่างๆ ตัวอย่างเช่น จากข้อมูลของ International Data Corporation (IDC) คาดว่าปริมาณข้อมูลของโลกจะเพิ่มขึ้น 2025 เท่าภายในปี 2 โดยข้อมูลที่ไม่มีโครงสร้างถือเป็นส่วนสำคัญ องค์กรอาจต้องการเพิ่มเมตาดาต้าที่กำหนดเอง เช่น ประเภทเอกสาร (แบบฟอร์ม W-XNUMX หรือสตับ) ประเภทเอนทิตีต่างๆ เช่น ชื่อ องค์กร และที่อยู่ นอกเหนือจากเมตาดาต้ามาตรฐาน เช่น ประเภทไฟล์ วันที่สร้าง หรือขนาดเพื่อขยายความอัจฉริยะ ค้นหาขณะนำเข้าเอกสาร ข้อมูลเมตาที่กำหนดเองช่วยให้องค์กรและองค์กรจัดหมวดหมู่ข้อมูลในลักษณะที่ต้องการ ตัวอย่างเช่น สามารถใช้ข้อมูลเมตาสำหรับการกรองและค้นหาได้ ลูกค้าสามารถสร้างข้อมูลเมตาที่กำหนดเองได้โดยใช้ เข้าใจ Amazonซึ่งเป็นบริการประมวลผลภาษาธรรมชาติ (NLP) ที่จัดการโดย AWS เพื่อแยกข้อมูลเชิงลึกเกี่ยวกับเนื้อหาของเอกสารและนำเข้าลงใน อเมซอน เคนดรา พร้อมกับข้อมูลของพวกเขาลงในดัชนี Amazon Kendra เป็นบริการค้นหาระดับองค์กรที่มีความแม่นยำสูงและใช้งานง่าย ซึ่งขับเคลื่อนโดย Machine Learning (AWS) ข้อมูลเมตาที่กำหนดเองสามารถใช้เพื่อเพิ่มคุณค่าให้กับเนื้อหาให้ดีขึ้นได้ การกรองและแง่มุม ความสามารถ ใน Amazon Kendra แง่มุมคือมุมมองที่กำหนดขอบเขตของชุดผลการค้นหา ตัวอย่างเช่น คุณสามารถแสดงผลการค้นหาเมืองต่างๆ ทั่วโลก โดยที่เอกสารจะถูกกรองตามเมืองเฉพาะที่เกี่ยวข้องกับเอกสารเหล่านั้น คุณสามารถสร้างแง่มุมเพื่อแสดงผลลัพธ์โดยผู้เขียนคนใดคนหนึ่งได้

บริษัทประกันภัยมีภาระหนักจากการเรียกร้องค่าสินไหมทดแทนที่ต้องดำเนินการเพิ่มมากขึ้น นอกจากนี้ ความซับซ้อนของการประมวลผลการเรียกร้องยังเพิ่มขึ้นเนื่องจากเอกสารประกันภัยประเภทต่างๆ ที่เกี่ยวข้อง และหน่วยงานที่กำหนดเองในเอกสารแต่ละฉบับ ในโพสต์นี้ เราจะอธิบายกรณีการใช้งานสำหรับการเพิ่มเนื้อหาแบบกำหนดเองสำหรับผู้ให้บริการประกันภัย ผู้ให้บริการประกันภัยได้รับการเรียกร้องการจ่ายเงินจากทนายความของผู้รับประโยชน์สำหรับการประกันภัยประเภทต่างๆ เช่น ประกันบ้าน รถยนต์ และประกันชีวิต ในกรณีการใช้งานนี้ เอกสารที่ผู้ให้บริการประกันภัยได้รับไม่มีข้อมูลเมตาที่ช่วยให้ค้นหาเนื้อหาตามเอนทิตีและคลาสบางอย่างได้ ผู้ให้บริการประกันภัยต้องการกรองเนื้อหา Kendra ตามเอนทิตีที่กำหนดเองและคลาสเฉพาะสำหรับโดเมนธุรกิจของตน โพสต์นี้อธิบายวิธีที่คุณสามารถทำให้การสร้างข้อมูลเมตาเป็นอัตโนมัติและลดความซับซ้อนโดยใช้โมเดลที่กำหนดเองโดย Amazon Comprehend ข้อมูลเมตาที่สร้างขึ้นสามารถปรับแต่งได้ในระหว่างกระบวนการนำเข้าด้วย Amazon Kendra การเพิ่มเอกสารแบบกำหนดเอง (CDE) ตรรกะที่กำหนดเอง

ลองดูตัวอย่างเล็กๆ น้อยๆ ของการค้นหาของ Amazon Kendra ที่มีหรือไม่มีความสามารถในการกรองและแง่มุม

ในภาพหน้าจอต่อไปนี้ Amazon Kendra ให้ผลการค้นหา แต่ไม่มีตัวเลือกในการจำกัดผลการค้นหาให้แคบลงโดยใช้ตัวกรองใดๆ

ใช้ข้อมูลเมตาที่กำหนดเองที่สร้างโดย Amazon Comprehend เพื่อประมวลผลการเคลมประกันอย่างชาญฉลาดโดยใช้ Amazon Kendra | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.

ภาพหน้าจอต่อไปนี้แสดงให้เห็นว่าผลการค้นหาของ Amazon Kendra สามารถกรองได้โดยใช้แง่มุมต่างๆ เช่น สำนักงานกฎหมาย หมายเลขนโยบาย ซึ่งสร้างขึ้นโดยเมตาดาต้าที่กำหนดเองเพื่อจำกัดผลการค้นหาให้แคบลง

โซลูชันที่กล่าวถึงในโพสต์นี้สามารถนำไปใช้กับธุรกิจ/กรณีการใช้งานอื่นๆ ได้อย่างง่ายดาย เช่น การดูแลสุขภาพ การผลิต และการวิจัย

ภาพรวมโซลูชัน

ในโซลูชันที่นำเสนอนี้ เราจะ 1) จำแนกการส่งการเคลมประกันออกเป็นประเภทต่างๆ และ 2) ดึงเอนทิตีเฉพาะการประกันภัยจากเอกสารเหล่านี้ เมื่อดำเนินการเสร็จสิ้น เอกสารสามารถกำหนดเส้นทางไปยังแผนกหรือกระบวนการดาวน์สตรีมที่เหมาะสมได้

แผนภาพต่อไปนี้สรุปสถาปัตยกรรมโซลูชันที่นำเสนอ

เข้าใจ Amazon การจำแนกประเภทที่กำหนดเอง API ใช้เพื่อจัดระเบียบเอกสารของคุณเป็นหมวดหมู่ (คลาส) ที่คุณกำหนด การจำแนกประเภทแบบกำหนดเองเป็นกระบวนการสองขั้นตอน ขั้นแรก คุณฝึกโมเดลการจัดหมวดหมู่แบบกำหนดเอง (หรือที่เรียกว่าตัวแยกประเภท) เพื่อจดจำคลาสที่คุณสนใจ จากนั้น คุณใช้แบบจำลองของคุณเพื่อจัดประเภทชุดเอกสารจำนวนเท่าใดก็ได้

เข้าใจ Amazon การรับรู้เอนทิตีแบบกำหนดเอง คุณลักษณะนี้ใช้เพื่อระบุประเภทนิติบุคคลเฉพาะ (ชื่อบริษัทประกันภัย ชื่อบริษัทประกันภัย หมายเลขกรมธรรม์) นอกเหนือจากที่มีอยู่ใน ประเภทเอนทิตีทั่วไป โดยค่าเริ่มต้น. การสร้างแบบจำลองการรับรู้เอนทิตีแบบกำหนดเองเป็นแนวทางที่มีประสิทธิภาพมากกว่าการใช้การจับคู่สตริงหรือนิพจน์ทั่วไปเพื่อแยกเอนทิตีออกจากเอกสาร แบบจำลองการรับรู้เอนทิตีแบบกำหนดเองสามารถเรียนรู้บริบทที่ชื่อเหล่านั้นมีแนวโน้มที่จะปรากฏ นอกจากนี้ การจับคู่สตริงจะไม่ตรวจพบเอนทิตีที่พิมพ์ผิดหรือเป็นไปตามรูปแบบการตั้งชื่อใหม่ ในขณะที่สามารถทำได้โดยใช้โมเดลที่กำหนดเอง

ก่อนที่จะเจาะลึกไปมากกว่านี้ เราลองใช้เวลาสักครู่เพื่อสำรวจ Amazon Kendra Amazon Kendra เป็นบริการค้นหาระดับองค์กรที่มีความแม่นยำสูงและใช้งานง่ายซึ่งขับเคลื่อนโดยการเรียนรู้ของเครื่อง ช่วยให้ผู้ใช้สามารถค้นหาข้อมูลที่ต้องการภายในเนื้อหาจำนวนมหาศาลที่กระจายอยู่ทั่วทั้งองค์กร ตั้งแต่เว็บไซต์และฐานข้อมูลไปจนถึงไซต์อินทราเน็ต ก่อนอื่นเราจะสร้างดัชนี Amazon Kendra เพื่อนำเข้าเอกสาร ขณะนำเข้าข้อมูล จำเป็นต้องพิจารณาแนวคิดของ Custom Data Enrichment (CDE) CDE ช่วยให้คุณสามารถปรับปรุงความสามารถในการค้นหาโดยการรวมความรู้ภายนอกเข้ากับดัชนีการค้นหา สำหรับข้อมูลเพิ่มเติม โปรดดูที่ เพิ่มความสมบูรณ์ให้กับเอกสารของคุณระหว่างการนำเข้า. ในโพสต์นี้ ตรรกะ CDE จะเรียกใช้ API แบบกำหนดเองของ Amazon Comprehend เพื่อเพิ่มคุณค่าให้กับเอกสารด้วยคลาสและเอนทิตีที่ระบุ สุดท้ายนี้ เราใช้หน้าการค้นหาของ Amazon Kendra เพื่อแสดงให้เห็นว่าข้อมูลเมตาปรับปรุงความสามารถในการค้นหาโดยการเพิ่มความสามารถในการแยกส่วนและการกรองได้อย่างไร

ขั้นตอนระดับสูงในการใช้โซลูชันนี้มีดังนี้:

ฝึกตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend โดยใช้ข้อมูลการฝึก
ฝึกการรับรู้เอนทิตีแบบกำหนดเองของ Amazon Comprehend โดยใช้ข้อมูลการฝึก
สร้างตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend และจุดสิ้นสุดการรับรู้เอนทิตีแบบกำหนดเอง
สร้างและปรับใช้ฟังก์ชัน Lambda เพื่อเพิ่มคุณค่าหลังการแยกข้อมูล
สร้างและเติมดัชนี Amazon Kendra
ใช้เอนทิตีที่แยกออกมาเพื่อกรองการค้นหาใน Amazon Kendra

นอกจากนี้เรายังได้จัดเตรียมแอปพลิเคชันตัวอย่างไว้ใน repo GitHub สำหรับอ้างอิง.

ข้อควรพิจารณาด้านความปลอดภัยของข้อมูลและ IAM

โดยคำนึงถึงความปลอดภัยเป็นอันดับแรก โซลูชันนี้ปฏิบัติตามหลักการอนุญาตสิทธิ์ขั้นต่ำสำหรับบริการและคุณสมบัติที่ใช้ บทบาท IAM ที่ใช้โดยการจัดหมวดหมู่แบบกำหนดเองของ Amazon Comprehend และการรับรู้เอนทิตีแบบกำหนดเองมีสิทธิ์ในการเข้าถึงชุดข้อมูลจากบัคเก็ตทดสอบเท่านั้น บริการ Amazon Kendra สามารถเข้าถึงบัคเก็ต S3 เฉพาะและฟังก์ชัน Lambda ที่ใช้ในการเรียก Comprehend API ฟังก์ชัน Lambda มีสิทธิ์เรียกใช้ Amazon Comprehend API เท่านั้น หากต้องการข้อมูลเพิ่มเติม โปรดดูส่วนที่ 1.2 และ 1.3 ในสมุดบันทึก

เราขอแนะนำให้คุณทำสิ่งต่อไปนี้ในสภาพแวดล้อมที่ไม่ใช่การผลิต ก่อนที่จะนำโซลูชันไปใช้ในสภาพแวดล้อมการผลิต

ฝึกตัวแยกประเภทที่กำหนดเองของ Comprehend โดยใช้ข้อมูลการฝึก

Amazon Comprehend Custom Classification รองรับรูปแบบข้อมูลสองประเภทสำหรับไฟล์คำอธิบายประกอบ:

เนื่องจากข้อมูลของเราได้รับการติดป้ายกำกับและจัดเก็บไว้ในไฟล์ CSV แล้ว เราจะใช้รูปแบบไฟล์ CSV สำหรับไฟล์คำอธิบายประกอบเป็นตัวอย่าง เราต้องระบุข้อมูลการฝึกอบรมที่มีป้ายกำกับเป็นข้อความที่เข้ารหัส UTF-8 ในไฟล์ CSV อย่ารวมแถวส่วนหัวในไฟล์ CSV การเพิ่มแถวส่วนหัวในไฟล์อาจทำให้เกิดข้อผิดพลาดรันไทม์ ตัวอย่างไฟล์ CSV ข้อมูลการฝึกอบรมมีดังนี้:

CLASS, Text of document 1
CLASS, Text of document 2

หากต้องการจัดเตรียมข้อมูลการฝึกอบรมลักษณนาม โปรดดูที่ การเตรียมข้อมูลการฝึกอบรมลักษณนาม. สำหรับแต่ละแถวในไฟล์ CSV คอลัมน์แรกจะมีป้ายกำกับคลาสอย่างน้อย 8 รายการ ป้ายกำกับคลาสอาจเป็นสตริง UTF-XNUMX ที่ถูกต้องก็ได้ เราขอแนะนำให้ใช้ชื่อคลาสที่ชัดเจนซึ่งไม่ทับซ้อนกันในความหมาย ชื่อสามารถมีช่องว่าง และสามารถประกอบด้วยคำหลายคำที่เชื่อมต่อกันด้วยขีดล่างหรือขีดกลาง อย่าเว้นวรรคก่อนหรือหลังเครื่องหมายจุลภาคที่คั่นค่าในแถว

ต่อไปคุณจะฝึกการใช้อย่างใดอย่างหนึ่ง โหมดหลายคลาส or โหมดหลายป้ายกำกับ. โดยเฉพาะอย่างยิ่ง ในโหมดหลายคลาส การจัดประเภทจะกำหนดหนึ่งคลาสสำหรับแต่ละเอกสาร ในขณะที่ในโหมดหลายป้ายกำกับ แต่ละคลาสจะแสดงหมวดหมู่ที่แตกต่างกันซึ่งไม่ได้แยกจากกัน ในกรณีของเรา เราจะใช้โหมด Multi-Class สำหรับโมเดลข้อความธรรมดา

คุณสามารถเตรียมชุดข้อมูลการฝึกอบรมและการทดสอบแยกต่างหากสำหรับการฝึกอบรมตัวแยกประเภทที่กำหนดเองของ Amazon Comprehend และการประเมินโมเดล หรือจัดเตรียมชุดข้อมูลเพียงชุดเดียวสำหรับทั้งการฝึกและการทดสอบ Comprehend จะเลือก 10% ของชุดข้อมูลที่คุณให้มาเพื่อใช้เป็นข้อมูลทดสอบโดยอัตโนมัติ ในตัวอย่างนี้ เราจะจัดเตรียมชุดข้อมูลการฝึกอบรมและการทดสอบแยกต่างหาก

ตัวอย่างต่อไปนี้แสดงไฟล์ CSV ที่มีชื่อคลาสที่เกี่ยวข้องกับเอกสารต่างๆ

ใช้ข้อมูลเมตาที่กำหนดเองที่สร้างโดย Amazon Comprehend เพื่อประมวลผลการเคลมประกันอย่างชาญฉลาดโดยใช้ Amazon Kendra | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.

รูปแบบเอกสาร – ประเภทประกันภัย เนื้อหาเอกสาร 1

เมื่อมีการฝึกฝนแบบจำลองการจัดประเภทแบบกำหนดเอง จะสามารถบันทึกประเภทของประกันภัยที่แตกต่างกันในเอกสารได้ (ประกันภัยบ้าน รถยนต์ หรือประกันชีวิต)

ฝึกตัวจดจำเอนทิตีแบบกำหนดเอง (NER) ของ Amazon Comprehend โดยใช้ข้อมูลการฝึก

ชุดข้อมูลการฝึกอบรมสำหรับ Amazon Comprehend Custom Entity Recognition (NER) สามารถจัดเตรียมได้ด้วยวิธีใดวิธีหนึ่งจากสองวิธี:

คำอธิบายประกอบ – จัดเตรียมชุดข้อมูลที่ประกอบด้วยเอนทิตีที่มีคำอธิบายประกอบสำหรับโหมดการฝึก
รายการเอนทิตี (ข้อความธรรมดาเท่านั้น) – จัดทำรายชื่อเอนทิตีและประเภทป้ายกำกับ (เช่น “ชื่อบริษัทประกันภัย”) และชุดเอกสารที่ไม่มีคำอธิบายประกอบซึ่งมีเอนทิตีเหล่านั้นสำหรับการฝึกโมเดล

สำหรับข้อมูลเพิ่มเติมโปรดดูที่ การเตรียมข้อมูลการฝึกอบรมตัวจดจำเอนทิตี.

เมื่อฝึกโมเดลโดยใช้รายการเอนทิตี เราจำเป็นต้องจัดเตรียมข้อมูลสองส่วน: รายชื่อเอนทิตีพร้อมประเภทเอนทิตีแบบกำหนดเองที่เกี่ยวข้อง และชุดของเอกสารที่ไม่มีคำอธิบายประกอบซึ่งมีเอนทิตีปรากฏขึ้น

การฝึกอัตโนมัติจำเป็นต้องมีข้อมูลสองประเภท: เอกสารตัวอย่างและรายการเอนทิตีหรือคำอธิบายประกอบ เมื่อตัวจดจำได้รับการฝึกอบรมแล้ว คุณจะสามารถใช้เพื่อตรวจจับเอนทิตีแบบกำหนดเองในเอกสารของคุณได้ คุณสามารถวิเคราะห์ข้อความขนาดเล็กแบบเรียลไทม์ได้อย่างรวดเร็ว หรือคุณสามารถวิเคราะห์เอกสารชุดใหญ่ด้วยงานอะซิงโครนัสได้

คุณสามารถเตรียมชุดข้อมูลการฝึกอบรมและการทดสอบแยกต่างหากสำหรับการฝึกอบรมตัวจดจำเอนทิตีที่กำหนดเองของ Amazon Comprehend และการประเมินโมเดล หรือจัดเตรียมชุดข้อมูลเพียงชุดเดียวสำหรับทั้งการฝึกอบรมและการทดสอบ Amazon Comprehend จะเลือก 10% ของชุดข้อมูลที่คุณให้มาเพื่อใช้เป็นข้อมูลทดสอบโดยอัตโนมัติ ในตัวอย่างด้านล่าง เราระบุชุดข้อมูลการฝึกเป็น Documents.S3Uri ภายใต้ InputDataConfig.

ตัวอย่างต่อไปนี้แสดงไฟล์ CSV ที่มีเอนทิตี:

เมื่อโมเดลเอนทิตีแบบกำหนดเอง (NER) ได้รับการฝึกฝนแล้ว จะสามารถแยกเอนทิตีต่างๆ เช่น “PAYOUT","INSURANCE_COMPANY","LAW_FIRM","POLICY_HOLDER_NAME","POLICY_NUMBER"

สร้างตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend และจุดสิ้นสุดเอนทิตีแบบกำหนดเอง (NER)

ตำแหน่งข้อมูลของ Amazon Comprehend ทำให้โมเดลที่กำหนดเองของคุณพร้อมใช้งานสำหรับการจัดประเภทแบบเรียลไทม์ หลังจากที่คุณสร้างตำแหน่งข้อมูลแล้ว คุณสามารถทำการเปลี่ยนแปลงได้ตามความต้องการทางธุรกิจของคุณที่พัฒนาขึ้น ตัวอย่างเช่น คุณสามารถตรวจสอบการใช้งานตำแหน่งข้อมูลของคุณ และใช้การปรับขนาดอัตโนมัติเพื่อตั้งค่าการจัดเตรียมตำแหน่งข้อมูลโดยอัตโนมัติเพื่อให้เหมาะกับความต้องการด้านความจุของคุณ คุณสามารถจัดการตำแหน่งข้อมูลทั้งหมดได้จากมุมมองเดียว และเมื่อคุณไม่ต้องการตำแหน่งข้อมูลอีกต่อไป คุณสามารถลบออกเพื่อประหยัดค่าใช้จ่ายได้ Amazon Comprehend รองรับทั้งตัวเลือกซิงโครนัสและอะซิงโครนัส หากไม่จำเป็นต้องจำแนกประเภทแบบเรียลไทม์สำหรับกรณีการใช้งานของคุณ คุณสามารถส่งงานแบทช์ไปที่ Amazon Comprehend เพื่อจัดประเภทข้อมูลแบบอะซิงโครนัสได้

สำหรับกรณีการใช้งานนี้ คุณสร้างตำแหน่งข้อมูลเพื่อทำให้โมเดลที่คุณกำหนดเองพร้อมใช้งานสำหรับการวิเคราะห์แบบเรียลไทม์

เพื่อให้เป็นไปตามความต้องการในการประมวลผลข้อความ คุณต้องกำหนดหน่วยการอนุมานให้กับจุดสิ้นสุด และแต่ละหน่วยอนุญาตให้มีปริมาณงาน 100 อักขระต่อวินาที จากนั้นคุณสามารถปรับปริมาณงานขึ้นหรือลงได้

สร้างและปรับใช้ฟังก์ชัน Lambda เพื่อเพิ่มคุณค่าหลังการแยกข้อมูล

ฟังก์ชันหลังการแตกไฟล์ Lambda ช่วยให้คุณสามารถนำตรรกะไปใช้ในการประมวลผลข้อความที่แยกออกมาโดย Amazon Kendra จากเอกสารที่นำเข้า ฟังก์ชันหลังการแยกที่เรากำหนดค่าจะใช้โค้ดเพื่อเรียกใช้ Amazon Comprehend เพื่อตรวจจับเอนทิตีแบบกำหนดเองและจัดหมวดหมู่เอกสารแบบกำหนดเองจากข้อความที่แยกโดย Amazon Kendra และใช้รายการเหล่านั้นเพื่ออัปเดตข้อมูลเมตาของเอกสาร ซึ่งแสดงเป็นแง่มุมในการค้นหา Amazon Kendra . รหัสฟังก์ชันฝังอยู่ในโน้ตบุ๊ก ที่ PostExtractionLambda รหัสทำงานดังนี้:

แยกข้อความหน้าออกเป็นส่วนๆ โดยไม่เกินขีดจำกัดความยาวไบต์สูงสุดของความเข้าใจ detect_entities เอพีไอ (ดู ข้อ จำกัด ).
หมายเหตุ สคริปต์ใช้อัลกอริธึมการแยกความยาวอักขระไร้เดียงสาเพื่อความเรียบง่าย - กรณีใช้งานจริงควรใช้การแยกขอบเขตหรือทับซ้อนกันตามความยาวไบต์ UTF8
สำหรับแต่ละส่วนของข้อความ ให้เรียกจุดสิ้นสุดแบบเรียลไทม์ที่เข้าใจสำหรับเอนทิตีที่กำหนดเองและตัวแยกประเภทที่กำหนดเองเพื่อตรวจจับประเภทเอนทิตีต่อไปนี้: [“PAYOUT","INSURANCE_COMPANY","LAW_FIRM","POLICY_HOLDER_NAME","POLICY_NUMBER","INSURANCE_TYPE"].
กรองเอนทิตีที่ตรวจพบซึ่งอยู่ต่ำกว่าเกณฑ์คะแนนความเชื่อมั่นออก เรากำลังใช้เกณฑ์ 0.50 ซึ่งหมายความว่าจะใช้เฉพาะเอนทิตีที่มีความมั่นใจ 50% ขึ้นไปเท่านั้น ซึ่งสามารถปรับได้ตามกรณีการใช้งานและข้อกำหนด
ติดตามการนับความถี่ของแต่ละเอนทิตี
เลือกเฉพาะเอนทิตีที่ไม่ซ้ำกัน N (10) อันดับแรกสำหรับแต่ละเพจ ขึ้นอยู่กับความถี่ของการเกิด
สำหรับการจำแนกเอกสาร ตัวแยกประเภทหลายคลาสจะกำหนดเพียงคลาสเดียวสำหรับแต่ละเอกสาร ในฟังก์ชัน Lambda นี้ เอกสารจะถูกจัดประเภทเป็นประกันภัยรถยนต์ ประกันบ้าน หรือประกันชีวิต

#The function to read the input text and detect entities in it using Comprehend def entity_detector(doc_text): #List of JSON objects to store entities entity_data = dict() #List of observed text strings recognized as categories category_text = dict() #Frequency of each text string text_frequency = dict() for et in categories: entity_data[ et ] = [] category_text[ et ] = [] text_frequency[ et ] = dict() #Make detect_entities_v2 call in a loop to work with the text limit for i in range(0, len(doc_text), compre_text_size): try: entities = compre.detect_entities(Text=doc_text[i:i+compre_text_size], LanguageCode='en', EndpointArn=endpoint_custom_entity) except Exception as e: logger.info("Exiting - detect_entities_v2 terminated with exception") return [] for e in entities["Entities"]: #For each of the recognized entities take only those that have confidence score higher than min_score, #are printable, dont contain quotes and are previously unseen if ((e["Score"] > min_score) and (e["Text"].isprintable()) and (not '"' in e["Text"]) and (not e["Text"].upper() in category_text[e["Type"]])): #Append the text to entity data to be used for a Kendra custom attribute entity_data[e["Type"]].append(e["Text"]) #Keep track of text in upper case so that we don't treat the same text written in different cases differently category_text[e["Type"]].append(e["Text"].upper()) #Keep track of the frequency of the text so that we can take the text with highest frequency of occurrance text_frequency[e["Type"]][e["Text"].upper()] = 1 elif (e["Text"].upper() in category_text[e["Type"]]): #Keep track of the frequency of the text so that we can take the text with highest frequency of occurrance text_frequency[e["Type"]][e["Text"].upper()] += 1 #The Kendra attribute metadata JSON object to be populated metadata = dict() for et in categories: metadata[et] = [] #Take at most elimit number of recognized text strings having the highest frequency of occurrance el = [pair[0] for pair in sorted(text_frequency[et].items(), key=lambda item: item[1], reverse=True)][0:elimit] for d in entity_data[et]: if (d.upper() in el): metadata[et].append(d) for md in metadata: metaUL.append({ "name": md, "value": { "stringListValue": metadata[md] } }) return metaUL

โปรดทราบว่าในขณะที่เขียนบทความนี้ CDE รองรับเฉพาะการโทรแบบซิงโครนัสเท่านั้น หรือหากจำเป็นต้องเป็นแบบอะซิงโครนัส ก็จำเป็นต้องมีการวนซ้ำการรอที่ชัดเจน สำหรับการสกัดหลังการสกัดแลมบ์ดา เวลาดำเนินการสูงสุด คือ 1 นาที ตรรกะที่กำหนดเองของ Lambda สามารถเปลี่ยนแปลงได้ตามความต้องการที่เหมาะกับกรณีการใช้งานของคุณ

สร้างและเติมดัชนี Amazon Kendra

ในขั้นตอนนี้ เราจะนำเข้าข้อมูลไปยังดัชนี Amazon Kendra และทำให้ผู้ใช้สามารถค้นหาได้ ในระหว่างการนำเข้า เราจะใช้ฟังก์ชัน Lambda ที่สร้างขึ้นในขั้นตอนก่อนหน้าเป็นขั้นตอนการแยกข้อมูลหลัง และฟังก์ชัน Lambda จะเรียกจุดสิ้นสุดการจำแนกประเภทแบบกำหนดเองและการรับรู้เอนทิตีแบบกำหนดเอง (NER) เพื่อสร้างฟิลด์ข้อมูลเมตาที่กำหนดเอง

ขั้นตอนระดับสูงในการใช้โซลูชันนี้มีดังนี้:

สร้างบัญชีตัวแทน ดัชนีอเมซอน เคนดรา.
สร้างบัญชีตัวแทน แหล่งข้อมูล Amazon Kendra – มีแหล่งข้อมูลที่แตกต่างกันซึ่งสามารถใช้เพื่อนำเข้าชุดข้อมูลได้ ในโพสต์นี้ เรากำลังใช้บัคเก็ต S3
สร้างแง่มุม Law_Firm, Payout, Insurance_Company, Policy_Number, Policy_Holder_Name, Insurance_Type ด้วยประเภทสตริงเป็น 'STRING_LIST_VALUE'
สร้าง Kendra CDE และชี้ไปที่ฟังก์ชันหลังการแตกไฟล์ Lambda ที่สร้างไว้ก่อนหน้านี้
ดำเนินการซิงค์เพื่อนำเข้าชุดข้อมูล

เมื่อเสร็จแล้ว คุณสามารถเติมข้อมูลดัชนีลงในดัชนีได้ โดยใช้ Kendra CDE พร้อมด้วย post extraction lambda คุณสามารถกรองการค้นหาตามประเภทเอนทิตีที่กำหนดเองและการจัดหมวดหมู่ที่กำหนดเองเป็นช่องข้อมูลเมตาที่กำหนดเองได้

ใช้เอนทิตีที่แยกออกมาเพื่อกรองการค้นหาใน Kendra

ขณะนี้ดัชนีได้รับการเติมและพร้อมใช้งานแล้ว ในคอนโซล Amazon Kendra ให้เลือก ค้นหาเนื้อหาที่จัดทำดัชนีภายใต้การจัดการข้อมูล และทำสิ่งต่อไปนี้

สอบถามสิ่งต่อไปนี้: รายการประกันล้มเหลวเนื่องจากการยื่นล่าช้า?

ผลลัพธ์แสดงคำตอบจากประเภทกรมธรรม์ – HOME INSURANCE และนำ text_18 และ text_14 เป็นผลลัพธ์อันดับต้นๆ

เลือก "กรองผลการค้นหา" ทางด้านซ้าย ตอนนี้คุณจะเห็นประเภทเอนทิตีและค่าการจัดหมวดหมู่ทั้งหมดที่แยกออกมาโดยใช้ Comprehend และสำหรับค่าเอนทิตีและการจัดประเภทแต่ละรายการ คุณจะเห็นจำนวนเอกสารที่ตรงกัน

ภายใต้ INSURANCE_TYPE เลือก “ประกันภัยรถยนต์” แล้วคุณจะได้รับคำตอบจาก text_25 ไฟล์

โปรดทราบว่าผลลัพธ์ของคุณอาจแตกต่างกันเล็กน้อยจากผลลัพธ์ที่แสดงในภาพหน้าจอ

ลองค้นหาด้วยคำถามของคุณเอง และสังเกตว่าเอนทิตีและการจัดหมวดหมู่เอกสารที่ระบุโดย Amazon Comprehend ช่วยให้คุณ:

ดูว่าผลการค้นหาของคุณมีการกระจายไปตามหมวดหมู่อย่างไร
จำกัดการค้นหาของคุณให้แคบลงโดยการกรองค่าเอนทิตี/การจำแนกประเภทใดๆ

ทำความสะอาด

หลังจากที่คุณทดลองค้นหาและลองใช้สมุดบันทึกที่ให้มาในพื้นที่เก็บข้อมูล Github แล้ว ให้ลบโครงสร้างพื้นฐานที่คุณจัดเตรียมไว้ในบัญชี AWS ของคุณเพื่อหลีกเลี่ยงค่าใช้จ่ายที่ไม่ต้องการ คุณสามารถเรียกใช้เซลล์การล้างข้อมูลในสมุดบันทึกได้ หรือคุณสามารถลบทรัพยากรด้วยตนเองผ่านคอนโซล AWS:

ดัชนีอเมซอน เคนดรา
ทำความเข้าใจตัวแยกประเภทที่กำหนดเองและจุดสิ้นสุดการรับรู้เอนทิตีแบบกำหนดเอง (NER)
ทำความเข้าใจตัวแยกประเภทแบบกำหนดเองและโมเดลแบบกำหนดเองของการรับรู้เอนทิตีแบบกำหนดเอง (NER)
ฟังก์ชันแลมบ์ดา
ถัง S3
บทบาทและนโยบายของ IAM

สรุป

ในโพสต์นี้ เราได้แสดงให้เห็นว่าเอนทิตีแบบกำหนดเองและตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend เปิดใช้งานการค้นหาของ Amazon Kendra ที่ขับเคลื่อนโดยคุณสมบัติ CDE ได้อย่างไร เพื่อช่วยให้ผู้ใช้ปลายทางค้นหาข้อมูลที่มีโครงสร้าง/ไม่มีโครงสร้างได้ดีขึ้น เอนทิตีแบบกำหนดเองของ Amazon Comprehend และตัวแยกประเภทแบบกำหนดเองทำให้มีประโยชน์มากสำหรับกรณีการใช้งานที่แตกต่างกันและข้อมูลเฉพาะโดเมนต่างๆ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการใช้ Amazon Comprehend โปรดดูที่ ทรัพยากรของนักพัฒนา Amazon Comprehend และสำหรับ Amazon Kendra โปรดดูที่ แหล่งข้อมูลสำหรับนักพัฒนา Amazon Kendra.

ลองใช้โซลูชันนี้กับกรณีการใช้งานของคุณ เราขอเชิญคุณแสดงความคิดเห็นของคุณในส่วนความคิดเห็น

เกี่ยวกับผู้เขียน

อมิต โชดารี เป็นสถาปนิกโซลูชันอาวุโสที่ Amazon Web Services พื้นที่ที่เขามุ่งเน้นคือ AI/ML และเขาช่วยเหลือลูกค้าด้วย AI เชิงสร้างสรรค์ โมเดลภาษาขนาดใหญ่ และวิศวกรรมที่รวดเร็ว นอกเหนือจากงาน Amit ยังสนุกกับการใช้เวลาอยู่กับครอบครัว

หยานหยาน จาง เป็นนักวิทยาศาสตร์ข้อมูลอาวุโสในทีมจัดส่งพลังงานที่มี AWS Professional Services เธอมีความกระตือรือร้นในการช่วยให้ลูกค้าแก้ไขปัญหาที่แท้จริงด้วยความรู้ด้าน AI/ML เมื่อเร็วๆ นี้ เธอมุ่งเน้นไปที่การสำรวจศักยภาพของ Generative AI และ LLM นอกเหนือจากการทำงาน เธอชอบการเดินทาง ออกกำลังกาย และสำรวจสิ่งใหม่ๆ

นิกิล จาห์ เป็นผู้จัดการบัญชีด้านเทคนิคอาวุโสที่ Amazon Web Services จุดสนใจของเขารวมถึง AI/ML และการวิเคราะห์ ในเวลาว่าง เขาชอบเล่นแบดมินตันกับลูกสาวและสำรวจพื้นที่กลางแจ้ง

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/machine-learning/use-custom-metadata-created-by-amazon-comprehend-to-intelligently-process-insurance-claims-using-amazon-kendra/

ประทับเวลา: December 5, 2023

ประทับเวลา: พฤศจิกายน 7, 2023

เผยแพร่ซ้ำโดยเพลโต

การตรวจจับและจำแนกมัลแวร์ด้วย Amazon Rekognition

โรดโชว์ Generative AI ในอเมริกาเหนือด้วย AWS และ Hugging Face | อเมซอนเว็บเซอร์วิส

เพิ่มคุณค่าให้กับสตรีมข่าวแบบเรียลไทม์ด้วย Refinitiv Data Library, บริการ AWS และ Amazon SageMaker

“ID + Selfie” – ปรับปรุงการยืนยันตัวตนดิจิทัลโดยใช้ AWS

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้