ข้อมูลที่มีโครงสร้าง หมายถึง ข้อมูลที่เป็นไปตามรูปแบบที่ตายตัว เช่น ข้อมูลที่จัดเก็บไว้ในคอลัมน์ภายในฐานข้อมูล และข้อมูลที่ไม่มีโครงสร้างซึ่งขาดรูปแบบหรือรูปแบบเฉพาะ เช่น ข้อความ รูปภาพ หรือโพสต์บนโซเชียลมีเดีย ทั้งสองอย่างนี้ยังคงเติบโตต่อไปเมื่อมีการผลิตและบริโภค โดยองค์กรต่างๆ ตัวอย่างเช่น จากข้อมูลของ International Data Corporation (IDC) คาดว่าปริมาณข้อมูลของโลกจะเพิ่มขึ้น 2025 เท่าภายในปี 2 โดยข้อมูลที่ไม่มีโครงสร้างถือเป็นส่วนสำคัญ องค์กรอาจต้องการเพิ่มเมตาดาต้าที่กำหนดเอง เช่น ประเภทเอกสาร (แบบฟอร์ม W-XNUMX หรือสตับ) ประเภทเอนทิตีต่างๆ เช่น ชื่อ องค์กร และที่อยู่ นอกเหนือจากเมตาดาต้ามาตรฐาน เช่น ประเภทไฟล์ วันที่สร้าง หรือขนาดเพื่อขยายความอัจฉริยะ ค้นหาขณะนำเข้าเอกสาร ข้อมูลเมตาที่กำหนดเองช่วยให้องค์กรและองค์กรจัดหมวดหมู่ข้อมูลในลักษณะที่ต้องการ ตัวอย่างเช่น สามารถใช้ข้อมูลเมตาสำหรับการกรองและค้นหาได้ ลูกค้าสามารถสร้างข้อมูลเมตาที่กำหนดเองได้โดยใช้ เข้าใจ Amazonซึ่งเป็นบริการประมวลผลภาษาธรรมชาติ (NLP) ที่จัดการโดย AWS เพื่อแยกข้อมูลเชิงลึกเกี่ยวกับเนื้อหาของเอกสารและนำเข้าลงใน อเมซอน เคนดรา พร้อมกับข้อมูลของพวกเขาลงในดัชนี Amazon Kendra เป็นบริการค้นหาระดับองค์กรที่มีความแม่นยำสูงและใช้งานง่าย ซึ่งขับเคลื่อนโดย Machine Learning (AWS) ข้อมูลเมตาที่กำหนดเองสามารถใช้เพื่อเพิ่มคุณค่าให้กับเนื้อหาให้ดีขึ้นได้ การกรองและแง่มุม ความสามารถ ใน Amazon Kendra แง่มุมคือมุมมองที่กำหนดขอบเขตของชุดผลการค้นหา ตัวอย่างเช่น คุณสามารถแสดงผลการค้นหาเมืองต่างๆ ทั่วโลก โดยที่เอกสารจะถูกกรองตามเมืองเฉพาะที่เกี่ยวข้องกับเอกสารเหล่านั้น คุณสามารถสร้างแง่มุมเพื่อแสดงผลลัพธ์โดยผู้เขียนคนใดคนหนึ่งได้
บริษัทประกันภัยมีภาระหนักจากการเรียกร้องค่าสินไหมทดแทนที่ต้องดำเนินการเพิ่มมากขึ้น นอกจากนี้ ความซับซ้อนของการประมวลผลการเรียกร้องยังเพิ่มขึ้นเนื่องจากเอกสารประกันภัยประเภทต่างๆ ที่เกี่ยวข้อง และหน่วยงานที่กำหนดเองในเอกสารแต่ละฉบับ ในโพสต์นี้ เราจะอธิบายกรณีการใช้งานสำหรับการเพิ่มเนื้อหาแบบกำหนดเองสำหรับผู้ให้บริการประกันภัย ผู้ให้บริการประกันภัยได้รับการเรียกร้องการจ่ายเงินจากทนายความของผู้รับประโยชน์สำหรับการประกันภัยประเภทต่างๆ เช่น ประกันบ้าน รถยนต์ และประกันชีวิต ในกรณีการใช้งานนี้ เอกสารที่ผู้ให้บริการประกันภัยได้รับไม่มีข้อมูลเมตาที่ช่วยให้ค้นหาเนื้อหาตามเอนทิตีและคลาสบางอย่างได้ ผู้ให้บริการประกันภัยต้องการกรองเนื้อหา Kendra ตามเอนทิตีที่กำหนดเองและคลาสเฉพาะสำหรับโดเมนธุรกิจของตน โพสต์นี้อธิบายวิธีที่คุณสามารถทำให้การสร้างข้อมูลเมตาเป็นอัตโนมัติและลดความซับซ้อนโดยใช้โมเดลที่กำหนดเองโดย Amazon Comprehend ข้อมูลเมตาที่สร้างขึ้นสามารถปรับแต่งได้ในระหว่างกระบวนการนำเข้าด้วย Amazon Kendra การเพิ่มเอกสารแบบกำหนดเอง (CDE) ตรรกะที่กำหนดเอง
ลองดูตัวอย่างเล็กๆ น้อยๆ ของการค้นหาของ Amazon Kendra ที่มีหรือไม่มีความสามารถในการกรองและแง่มุม
ในภาพหน้าจอต่อไปนี้ Amazon Kendra ให้ผลการค้นหา แต่ไม่มีตัวเลือกในการจำกัดผลการค้นหาให้แคบลงโดยใช้ตัวกรองใดๆ
ภาพหน้าจอต่อไปนี้แสดงให้เห็นว่าผลการค้นหาของ Amazon Kendra สามารถกรองได้โดยใช้แง่มุมต่างๆ เช่น สำนักงานกฎหมาย หมายเลขนโยบาย ซึ่งสร้างขึ้นโดยเมตาดาต้าที่กำหนดเองเพื่อจำกัดผลการค้นหาให้แคบลง
โซลูชันที่กล่าวถึงในโพสต์นี้สามารถนำไปใช้กับธุรกิจ/กรณีการใช้งานอื่นๆ ได้อย่างง่ายดาย เช่น การดูแลสุขภาพ การผลิต และการวิจัย
ภาพรวมโซลูชัน
ในโซลูชันที่นำเสนอนี้ เราจะ 1) จำแนกการส่งการเคลมประกันออกเป็นประเภทต่างๆ และ 2) ดึงเอนทิตีเฉพาะการประกันภัยจากเอกสารเหล่านี้ เมื่อดำเนินการเสร็จสิ้น เอกสารสามารถกำหนดเส้นทางไปยังแผนกหรือกระบวนการดาวน์สตรีมที่เหมาะสมได้
แผนภาพต่อไปนี้สรุปสถาปัตยกรรมโซลูชันที่นำเสนอ
เข้าใจ Amazon การจำแนกประเภทที่กำหนดเอง API ใช้เพื่อจัดระเบียบเอกสารของคุณเป็นหมวดหมู่ (คลาส) ที่คุณกำหนด การจำแนกประเภทแบบกำหนดเองเป็นกระบวนการสองขั้นตอน ขั้นแรก คุณฝึกโมเดลการจัดหมวดหมู่แบบกำหนดเอง (หรือที่เรียกว่าตัวแยกประเภท) เพื่อจดจำคลาสที่คุณสนใจ จากนั้น คุณใช้แบบจำลองของคุณเพื่อจัดประเภทชุดเอกสารจำนวนเท่าใดก็ได้
เข้าใจ Amazon การรับรู้เอนทิตีแบบกำหนดเอง คุณลักษณะนี้ใช้เพื่อระบุประเภทนิติบุคคลเฉพาะ (ชื่อบริษัทประกันภัย ชื่อบริษัทประกันภัย หมายเลขกรมธรรม์) นอกเหนือจากที่มีอยู่ใน ประเภทเอนทิตีทั่วไป โดยค่าเริ่มต้น. การสร้างแบบจำลองการรับรู้เอนทิตีแบบกำหนดเองเป็นแนวทางที่มีประสิทธิภาพมากกว่าการใช้การจับคู่สตริงหรือนิพจน์ทั่วไปเพื่อแยกเอนทิตีออกจากเอกสาร แบบจำลองการรับรู้เอนทิตีแบบกำหนดเองสามารถเรียนรู้บริบทที่ชื่อเหล่านั้นมีแนวโน้มที่จะปรากฏ นอกจากนี้ การจับคู่สตริงจะไม่ตรวจพบเอนทิตีที่พิมพ์ผิดหรือเป็นไปตามรูปแบบการตั้งชื่อใหม่ ในขณะที่สามารถทำได้โดยใช้โมเดลที่กำหนดเอง
ก่อนที่จะเจาะลึกไปมากกว่านี้ เราลองใช้เวลาสักครู่เพื่อสำรวจ Amazon Kendra Amazon Kendra เป็นบริการค้นหาระดับองค์กรที่มีความแม่นยำสูงและใช้งานง่ายซึ่งขับเคลื่อนโดยการเรียนรู้ของเครื่อง ช่วยให้ผู้ใช้สามารถค้นหาข้อมูลที่ต้องการภายในเนื้อหาจำนวนมหาศาลที่กระจายอยู่ทั่วทั้งองค์กร ตั้งแต่เว็บไซต์และฐานข้อมูลไปจนถึงไซต์อินทราเน็ต ก่อนอื่นเราจะสร้างดัชนี Amazon Kendra เพื่อนำเข้าเอกสาร ขณะนำเข้าข้อมูล จำเป็นต้องพิจารณาแนวคิดของ Custom Data Enrichment (CDE) CDE ช่วยให้คุณสามารถปรับปรุงความสามารถในการค้นหาโดยการรวมความรู้ภายนอกเข้ากับดัชนีการค้นหา สำหรับข้อมูลเพิ่มเติม โปรดดูที่ เพิ่มความสมบูรณ์ให้กับเอกสารของคุณระหว่างการนำเข้า. ในโพสต์นี้ ตรรกะ CDE จะเรียกใช้ API แบบกำหนดเองของ Amazon Comprehend เพื่อเพิ่มคุณค่าให้กับเอกสารด้วยคลาสและเอนทิตีที่ระบุ สุดท้ายนี้ เราใช้หน้าการค้นหาของ Amazon Kendra เพื่อแสดงให้เห็นว่าข้อมูลเมตาปรับปรุงความสามารถในการค้นหาโดยการเพิ่มความสามารถในการแยกส่วนและการกรองได้อย่างไร
ขั้นตอนระดับสูงในการใช้โซลูชันนี้มีดังนี้:
- ฝึกตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend โดยใช้ข้อมูลการฝึก
- ฝึกการรับรู้เอนทิตีแบบกำหนดเองของ Amazon Comprehend โดยใช้ข้อมูลการฝึก
- สร้างตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend และจุดสิ้นสุดการรับรู้เอนทิตีแบบกำหนดเอง
- สร้างและปรับใช้ฟังก์ชัน Lambda เพื่อเพิ่มคุณค่าหลังการแยกข้อมูล
- สร้างและเติมดัชนี Amazon Kendra
- ใช้เอนทิตีที่แยกออกมาเพื่อกรองการค้นหาใน Amazon Kendra
นอกจากนี้เรายังได้จัดเตรียมแอปพลิเคชันตัวอย่างไว้ใน repo GitHub สำหรับอ้างอิง.
ข้อควรพิจารณาด้านความปลอดภัยของข้อมูลและ IAM
โดยคำนึงถึงความปลอดภัยเป็นอันดับแรก โซลูชันนี้ปฏิบัติตามหลักการอนุญาตสิทธิ์ขั้นต่ำสำหรับบริการและคุณสมบัติที่ใช้ บทบาท IAM ที่ใช้โดยการจัดหมวดหมู่แบบกำหนดเองของ Amazon Comprehend และการรับรู้เอนทิตีแบบกำหนดเองมีสิทธิ์ในการเข้าถึงชุดข้อมูลจากบัคเก็ตทดสอบเท่านั้น บริการ Amazon Kendra สามารถเข้าถึงบัคเก็ต S3 เฉพาะและฟังก์ชัน Lambda ที่ใช้ในการเรียก Comprehend API ฟังก์ชัน Lambda มีสิทธิ์เรียกใช้ Amazon Comprehend API เท่านั้น หากต้องการข้อมูลเพิ่มเติม โปรดดูส่วนที่ 1.2 และ 1.3 ในสมุดบันทึก
เราขอแนะนำให้คุณทำสิ่งต่อไปนี้ในสภาพแวดล้อมที่ไม่ใช่การผลิต ก่อนที่จะนำโซลูชันไปใช้ในสภาพแวดล้อมการผลิต
ฝึกตัวแยกประเภทที่กำหนดเองของ Comprehend โดยใช้ข้อมูลการฝึก
Amazon Comprehend Custom Classification รองรับรูปแบบข้อมูลสองประเภทสำหรับไฟล์คำอธิบายประกอบ:
เนื่องจากข้อมูลของเราได้รับการติดป้ายกำกับและจัดเก็บไว้ในไฟล์ CSV แล้ว เราจะใช้รูปแบบไฟล์ CSV สำหรับไฟล์คำอธิบายประกอบเป็นตัวอย่าง เราต้องระบุข้อมูลการฝึกอบรมที่มีป้ายกำกับเป็นข้อความที่เข้ารหัส UTF-8 ในไฟล์ CSV อย่ารวมแถวส่วนหัวในไฟล์ CSV การเพิ่มแถวส่วนหัวในไฟล์อาจทำให้เกิดข้อผิดพลาดรันไทม์ ตัวอย่างไฟล์ CSV ข้อมูลการฝึกอบรมมีดังนี้:
หากต้องการจัดเตรียมข้อมูลการฝึกอบรมลักษณนาม โปรดดูที่ การเตรียมข้อมูลการฝึกอบรมลักษณนาม. สำหรับแต่ละแถวในไฟล์ CSV คอลัมน์แรกจะมีป้ายกำกับคลาสอย่างน้อย 8 รายการ ป้ายกำกับคลาสอาจเป็นสตริง UTF-XNUMX ที่ถูกต้องก็ได้ เราขอแนะนำให้ใช้ชื่อคลาสที่ชัดเจนซึ่งไม่ทับซ้อนกันในความหมาย ชื่อสามารถมีช่องว่าง และสามารถประกอบด้วยคำหลายคำที่เชื่อมต่อกันด้วยขีดล่างหรือขีดกลาง อย่าเว้นวรรคก่อนหรือหลังเครื่องหมายจุลภาคที่คั่นค่าในแถว
ต่อไปคุณจะฝึกการใช้อย่างใดอย่างหนึ่ง โหมดหลายคลาส or โหมดหลายป้ายกำกับ. โดยเฉพาะอย่างยิ่ง ในโหมดหลายคลาส การจัดประเภทจะกำหนดหนึ่งคลาสสำหรับแต่ละเอกสาร ในขณะที่ในโหมดหลายป้ายกำกับ แต่ละคลาสจะแสดงหมวดหมู่ที่แตกต่างกันซึ่งไม่ได้แยกจากกัน ในกรณีของเรา เราจะใช้โหมด Multi-Class สำหรับโมเดลข้อความธรรมดา
คุณสามารถเตรียมชุดข้อมูลการฝึกอบรมและการทดสอบแยกต่างหากสำหรับการฝึกอบรมตัวแยกประเภทที่กำหนดเองของ Amazon Comprehend และการประเมินโมเดล หรือจัดเตรียมชุดข้อมูลเพียงชุดเดียวสำหรับทั้งการฝึกและการทดสอบ Comprehend จะเลือก 10% ของชุดข้อมูลที่คุณให้มาเพื่อใช้เป็นข้อมูลทดสอบโดยอัตโนมัติ ในตัวอย่างนี้ เราจะจัดเตรียมชุดข้อมูลการฝึกอบรมและการทดสอบแยกต่างหาก
ตัวอย่างต่อไปนี้แสดงไฟล์ CSV ที่มีชื่อคลาสที่เกี่ยวข้องกับเอกสารต่างๆ
เมื่อมีการฝึกฝนแบบจำลองการจัดประเภทแบบกำหนดเอง จะสามารถบันทึกประเภทของประกันภัยที่แตกต่างกันในเอกสารได้ (ประกันภัยบ้าน รถยนต์ หรือประกันชีวิต)
ฝึกตัวจดจำเอนทิตีแบบกำหนดเอง (NER) ของ Amazon Comprehend โดยใช้ข้อมูลการฝึก
ชุดข้อมูลการฝึกอบรมสำหรับ Amazon Comprehend Custom Entity Recognition (NER) สามารถจัดเตรียมได้ด้วยวิธีใดวิธีหนึ่งจากสองวิธี:
- คำอธิบายประกอบ – จัดเตรียมชุดข้อมูลที่ประกอบด้วยเอนทิตีที่มีคำอธิบายประกอบสำหรับโหมดการฝึก
- รายการเอนทิตี (ข้อความธรรมดาเท่านั้น) – จัดทำรายชื่อเอนทิตีและประเภทป้ายกำกับ (เช่น “ชื่อบริษัทประกันภัย”) และชุดเอกสารที่ไม่มีคำอธิบายประกอบซึ่งมีเอนทิตีเหล่านั้นสำหรับการฝึกโมเดล
สำหรับข้อมูลเพิ่มเติมโปรดดูที่ การเตรียมข้อมูลการฝึกอบรมตัวจดจำเอนทิตี.
เมื่อฝึกโมเดลโดยใช้รายการเอนทิตี เราจำเป็นต้องจัดเตรียมข้อมูลสองส่วน: รายชื่อเอนทิตีพร้อมประเภทเอนทิตีแบบกำหนดเองที่เกี่ยวข้อง และชุดของเอกสารที่ไม่มีคำอธิบายประกอบซึ่งมีเอนทิตีปรากฏขึ้น
การฝึกอัตโนมัติจำเป็นต้องมีข้อมูลสองประเภท: เอกสารตัวอย่างและรายการเอนทิตีหรือคำอธิบายประกอบ เมื่อตัวจดจำได้รับการฝึกอบรมแล้ว คุณจะสามารถใช้เพื่อตรวจจับเอนทิตีแบบกำหนดเองในเอกสารของคุณได้ คุณสามารถวิเคราะห์ข้อความขนาดเล็กแบบเรียลไทม์ได้อย่างรวดเร็ว หรือคุณสามารถวิเคราะห์เอกสารชุดใหญ่ด้วยงานอะซิงโครนัสได้
คุณสามารถเตรียมชุดข้อมูลการฝึกอบรมและการทดสอบแยกต่างหากสำหรับการฝึกอบรมตัวจดจำเอนทิตีที่กำหนดเองของ Amazon Comprehend และการประเมินโมเดล หรือจัดเตรียมชุดข้อมูลเพียงชุดเดียวสำหรับทั้งการฝึกอบรมและการทดสอบ Amazon Comprehend จะเลือก 10% ของชุดข้อมูลที่คุณให้มาเพื่อใช้เป็นข้อมูลทดสอบโดยอัตโนมัติ ในตัวอย่างด้านล่าง เราระบุชุดข้อมูลการฝึกเป็น Documents.S3Uri
ภายใต้ InputDataConfig
.
ตัวอย่างต่อไปนี้แสดงไฟล์ CSV ที่มีเอนทิตี:
เมื่อโมเดลเอนทิตีแบบกำหนดเอง (NER) ได้รับการฝึกฝนแล้ว จะสามารถแยกเอนทิตีต่างๆ เช่น “PAYOUT
","INSURANCE_COMPANY
","LAW_FIRM
","POLICY_HOLDER_NAME
","POLICY_NUMBER
"
สร้างตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend และจุดสิ้นสุดเอนทิตีแบบกำหนดเอง (NER)
ตำแหน่งข้อมูลของ Amazon Comprehend ทำให้โมเดลที่กำหนดเองของคุณพร้อมใช้งานสำหรับการจัดประเภทแบบเรียลไทม์ หลังจากที่คุณสร้างตำแหน่งข้อมูลแล้ว คุณสามารถทำการเปลี่ยนแปลงได้ตามความต้องการทางธุรกิจของคุณที่พัฒนาขึ้น ตัวอย่างเช่น คุณสามารถตรวจสอบการใช้งานตำแหน่งข้อมูลของคุณ และใช้การปรับขนาดอัตโนมัติเพื่อตั้งค่าการจัดเตรียมตำแหน่งข้อมูลโดยอัตโนมัติเพื่อให้เหมาะกับความต้องการด้านความจุของคุณ คุณสามารถจัดการตำแหน่งข้อมูลทั้งหมดได้จากมุมมองเดียว และเมื่อคุณไม่ต้องการตำแหน่งข้อมูลอีกต่อไป คุณสามารถลบออกเพื่อประหยัดค่าใช้จ่ายได้ Amazon Comprehend รองรับทั้งตัวเลือกซิงโครนัสและอะซิงโครนัส หากไม่จำเป็นต้องจำแนกประเภทแบบเรียลไทม์สำหรับกรณีการใช้งานของคุณ คุณสามารถส่งงานแบทช์ไปที่ Amazon Comprehend เพื่อจัดประเภทข้อมูลแบบอะซิงโครนัสได้
สำหรับกรณีการใช้งานนี้ คุณสร้างตำแหน่งข้อมูลเพื่อทำให้โมเดลที่คุณกำหนดเองพร้อมใช้งานสำหรับการวิเคราะห์แบบเรียลไทม์
เพื่อให้เป็นไปตามความต้องการในการประมวลผลข้อความ คุณต้องกำหนดหน่วยการอนุมานให้กับจุดสิ้นสุด และแต่ละหน่วยอนุญาตให้มีปริมาณงาน 100 อักขระต่อวินาที จากนั้นคุณสามารถปรับปริมาณงานขึ้นหรือลงได้
สร้างและปรับใช้ฟังก์ชัน Lambda เพื่อเพิ่มคุณค่าหลังการแยกข้อมูล
ฟังก์ชันหลังการแตกไฟล์ Lambda ช่วยให้คุณสามารถนำตรรกะไปใช้ในการประมวลผลข้อความที่แยกออกมาโดย Amazon Kendra จากเอกสารที่นำเข้า ฟังก์ชันหลังการแยกที่เรากำหนดค่าจะใช้โค้ดเพื่อเรียกใช้ Amazon Comprehend เพื่อตรวจจับเอนทิตีแบบกำหนดเองและจัดหมวดหมู่เอกสารแบบกำหนดเองจากข้อความที่แยกโดย Amazon Kendra และใช้รายการเหล่านั้นเพื่ออัปเดตข้อมูลเมตาของเอกสาร ซึ่งแสดงเป็นแง่มุมในการค้นหา Amazon Kendra . รหัสฟังก์ชันฝังอยู่ในโน้ตบุ๊ก ที่ PostExtractionLambda
รหัสทำงานดังนี้:
- แยกข้อความหน้าออกเป็นส่วนๆ โดยไม่เกินขีดจำกัดความยาวไบต์สูงสุดของความเข้าใจ
detect_entities
เอพีไอ (ดู ข้อ จำกัด ).
หมายเหตุ สคริปต์ใช้อัลกอริธึมการแยกความยาวอักขระไร้เดียงสาเพื่อความเรียบง่าย - กรณีใช้งานจริงควรใช้การแยกขอบเขตหรือทับซ้อนกันตามความยาวไบต์ UTF8 - สำหรับแต่ละส่วนของข้อความ ให้เรียกจุดสิ้นสุดแบบเรียลไทม์ที่เข้าใจสำหรับเอนทิตีที่กำหนดเองและตัวแยกประเภทที่กำหนดเองเพื่อตรวจจับประเภทเอนทิตีต่อไปนี้: [“
PAYOUT
","INSURANCE_COMPANY
","LAW_FIRM
","POLICY_HOLDER_NAME
","POLICY_NUMBER
","INSURANCE_TYPE
"]. - กรองเอนทิตีที่ตรวจพบซึ่งอยู่ต่ำกว่าเกณฑ์คะแนนความเชื่อมั่นออก เรากำลังใช้เกณฑ์ 0.50 ซึ่งหมายความว่าจะใช้เฉพาะเอนทิตีที่มีความมั่นใจ 50% ขึ้นไปเท่านั้น ซึ่งสามารถปรับได้ตามกรณีการใช้งานและข้อกำหนด
- ติดตามการนับความถี่ของแต่ละเอนทิตี
- เลือกเฉพาะเอนทิตีที่ไม่ซ้ำกัน N (10) อันดับแรกสำหรับแต่ละเพจ ขึ้นอยู่กับความถี่ของการเกิด
- สำหรับการจำแนกเอกสาร ตัวแยกประเภทหลายคลาสจะกำหนดเพียงคลาสเดียวสำหรับแต่ละเอกสาร ในฟังก์ชัน Lambda นี้ เอกสารจะถูกจัดประเภทเป็นประกันภัยรถยนต์ ประกันบ้าน หรือประกันชีวิต
โปรดทราบว่าในขณะที่เขียนบทความนี้ CDE รองรับเฉพาะการโทรแบบซิงโครนัสเท่านั้น หรือหากจำเป็นต้องเป็นแบบอะซิงโครนัส ก็จำเป็นต้องมีการวนซ้ำการรอที่ชัดเจน สำหรับการสกัดหลังการสกัดแลมบ์ดา เวลาดำเนินการสูงสุด คือ 1 นาที ตรรกะที่กำหนดเองของ Lambda สามารถเปลี่ยนแปลงได้ตามความต้องการที่เหมาะกับกรณีการใช้งานของคุณ
สร้างและเติมดัชนี Amazon Kendra
ในขั้นตอนนี้ เราจะนำเข้าข้อมูลไปยังดัชนี Amazon Kendra และทำให้ผู้ใช้สามารถค้นหาได้ ในระหว่างการนำเข้า เราจะใช้ฟังก์ชัน Lambda ที่สร้างขึ้นในขั้นตอนก่อนหน้าเป็นขั้นตอนการแยกข้อมูลหลัง และฟังก์ชัน Lambda จะเรียกจุดสิ้นสุดการจำแนกประเภทแบบกำหนดเองและการรับรู้เอนทิตีแบบกำหนดเอง (NER) เพื่อสร้างฟิลด์ข้อมูลเมตาที่กำหนดเอง
ขั้นตอนระดับสูงในการใช้โซลูชันนี้มีดังนี้:
- สร้างบัญชีตัวแทน ดัชนีอเมซอน เคนดรา.
- สร้างบัญชีตัวแทน แหล่งข้อมูล Amazon Kendra – มีแหล่งข้อมูลที่แตกต่างกันซึ่งสามารถใช้เพื่อนำเข้าชุดข้อมูลได้ ในโพสต์นี้ เรากำลังใช้บัคเก็ต S3
- สร้างแง่มุม
Law_Firm
,Payout
,Insurance_Company
,Policy_Number
,Policy_Holder_Name
,Insurance_Type
ด้วยประเภทสตริงเป็น 'STRING_LIST_VALUE
' - สร้าง Kendra CDE และชี้ไปที่ฟังก์ชันหลังการแตกไฟล์ Lambda ที่สร้างไว้ก่อนหน้านี้
- ดำเนินการซิงค์เพื่อนำเข้าชุดข้อมูล
เมื่อเสร็จแล้ว คุณสามารถเติมข้อมูลดัชนีลงในดัชนีได้ โดยใช้ Kendra CDE พร้อมด้วย post extraction lambda คุณสามารถกรองการค้นหาตามประเภทเอนทิตีที่กำหนดเองและการจัดหมวดหมู่ที่กำหนดเองเป็นช่องข้อมูลเมตาที่กำหนดเองได้
ใช้เอนทิตีที่แยกออกมาเพื่อกรองการค้นหาใน Kendra
ขณะนี้ดัชนีได้รับการเติมและพร้อมใช้งานแล้ว ในคอนโซล Amazon Kendra ให้เลือก ค้นหาเนื้อหาที่จัดทำดัชนีภายใต้การจัดการข้อมูล และทำสิ่งต่อไปนี้
สอบถามสิ่งต่อไปนี้: รายการประกันล้มเหลวเนื่องจากการยื่นล่าช้า?
ผลลัพธ์แสดงคำตอบจากประเภทกรมธรรม์ – HOME INSURANCE
และนำ text_18
และ text_14
เป็นผลลัพธ์อันดับต้นๆ
เลือก "กรองผลการค้นหา" ทางด้านซ้าย ตอนนี้คุณจะเห็นประเภทเอนทิตีและค่าการจัดหมวดหมู่ทั้งหมดที่แยกออกมาโดยใช้ Comprehend และสำหรับค่าเอนทิตีและการจัดประเภทแต่ละรายการ คุณจะเห็นจำนวนเอกสารที่ตรงกัน
ภายใต้ INSURANCE_TYPE
เลือก “ประกันภัยรถยนต์” แล้วคุณจะได้รับคำตอบจาก text_25
ไฟล์
โปรดทราบว่าผลลัพธ์ของคุณอาจแตกต่างกันเล็กน้อยจากผลลัพธ์ที่แสดงในภาพหน้าจอ
ลองค้นหาด้วยคำถามของคุณเอง และสังเกตว่าเอนทิตีและการจัดหมวดหมู่เอกสารที่ระบุโดย Amazon Comprehend ช่วยให้คุณ:
- ดูว่าผลการค้นหาของคุณมีการกระจายไปตามหมวดหมู่อย่างไร
- จำกัดการค้นหาของคุณให้แคบลงโดยการกรองค่าเอนทิตี/การจำแนกประเภทใดๆ
ทำความสะอาด
หลังจากที่คุณทดลองค้นหาและลองใช้สมุดบันทึกที่ให้มาในพื้นที่เก็บข้อมูล Github แล้ว ให้ลบโครงสร้างพื้นฐานที่คุณจัดเตรียมไว้ในบัญชี AWS ของคุณเพื่อหลีกเลี่ยงค่าใช้จ่ายที่ไม่ต้องการ คุณสามารถเรียกใช้เซลล์การล้างข้อมูลในสมุดบันทึกได้ หรือคุณสามารถลบทรัพยากรด้วยตนเองผ่านคอนโซล AWS:
- ดัชนีอเมซอน เคนดรา
- ทำความเข้าใจตัวแยกประเภทที่กำหนดเองและจุดสิ้นสุดการรับรู้เอนทิตีแบบกำหนดเอง (NER)
- ทำความเข้าใจตัวแยกประเภทแบบกำหนดเองและโมเดลแบบกำหนดเองของการรับรู้เอนทิตีแบบกำหนดเอง (NER)
- ฟังก์ชันแลมบ์ดา
- ถัง S3
- บทบาทและนโยบายของ IAM
สรุป
ในโพสต์นี้ เราได้แสดงให้เห็นว่าเอนทิตีแบบกำหนดเองและตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend เปิดใช้งานการค้นหาของ Amazon Kendra ที่ขับเคลื่อนโดยคุณสมบัติ CDE ได้อย่างไร เพื่อช่วยให้ผู้ใช้ปลายทางค้นหาข้อมูลที่มีโครงสร้าง/ไม่มีโครงสร้างได้ดีขึ้น เอนทิตีแบบกำหนดเองของ Amazon Comprehend และตัวแยกประเภทแบบกำหนดเองทำให้มีประโยชน์มากสำหรับกรณีการใช้งานที่แตกต่างกันและข้อมูลเฉพาะโดเมนต่างๆ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการใช้ Amazon Comprehend โปรดดูที่ ทรัพยากรของนักพัฒนา Amazon Comprehend และสำหรับ Amazon Kendra โปรดดูที่ แหล่งข้อมูลสำหรับนักพัฒนา Amazon Kendra.
ลองใช้โซลูชันนี้กับกรณีการใช้งานของคุณ เราขอเชิญคุณแสดงความคิดเห็นของคุณในส่วนความคิดเห็น
เกี่ยวกับผู้เขียน
อมิต โชดารี เป็นสถาปนิกโซลูชันอาวุโสที่ Amazon Web Services พื้นที่ที่เขามุ่งเน้นคือ AI/ML และเขาช่วยเหลือลูกค้าด้วย AI เชิงสร้างสรรค์ โมเดลภาษาขนาดใหญ่ และวิศวกรรมที่รวดเร็ว นอกเหนือจากงาน Amit ยังสนุกกับการใช้เวลาอยู่กับครอบครัว
หยานหยาน จาง เป็นนักวิทยาศาสตร์ข้อมูลอาวุโสในทีมจัดส่งพลังงานที่มี AWS Professional Services เธอมีความกระตือรือร้นในการช่วยให้ลูกค้าแก้ไขปัญหาที่แท้จริงด้วยความรู้ด้าน AI/ML เมื่อเร็วๆ นี้ เธอมุ่งเน้นไปที่การสำรวจศักยภาพของ Generative AI และ LLM นอกเหนือจากการทำงาน เธอชอบการเดินทาง ออกกำลังกาย และสำรวจสิ่งใหม่ๆ
นิกิล จาห์ เป็นผู้จัดการบัญชีด้านเทคนิคอาวุโสที่ Amazon Web Services จุดสนใจของเขารวมถึง AI/ML และการวิเคราะห์ ในเวลาว่าง เขาชอบเล่นแบดมินตันกับลูกสาวและสำรวจพื้นที่กลางแจ้ง
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/use-custom-metadata-created-by-amazon-comprehend-to-intelligently-process-insurance-claims-using-amazon-kendra/
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- $ ขึ้น
- 1
- 1.3
- 10
- 100
- 19
- 2025
- 33
- 50
- 500
- 7
- 9
- a
- สามารถ
- เกี่ยวกับเรา
- เข้า
- ตาม
- ลงชื่อเข้าใช้
- การบัญชี
- ถูกต้อง
- ข้าม
- เพิ่ม
- เพิ่ม
- นอกจากนี้
- นอกจากนี้
- ที่อยู่
- หลังจาก
- AI
- AI / ML
- ขั้นตอนวิธี
- ทั้งหมด
- ช่วยให้
- ตาม
- แล้ว
- ด้วย
- อเมซอน
- เข้าใจ Amazon
- อเมซอน เคนดรา
- Amazon Web Services
- จำนวน
- an
- การวิเคราะห์
- การวิเคราะห์
- วิเคราะห์
- และ
- คำตอบ
- ใด
- API
- APIs
- ปรากฏ
- การใช้งาน
- ประยุกต์
- ใช้
- เข้าใกล้
- เหมาะสม
- สถาปัตยกรรม
- เป็น
- AREA
- พื้นที่
- AS
- ที่เกี่ยวข้อง
- At
- อัยการ
- ผู้เขียน
- รถยนต์
- โดยอัตโนมัติ
- อัตโนมัติ
- ใช้ได้
- หลีกเลี่ยง
- AWS
- บริการระดับมืออาชีพของ AWS
- ตาม
- BE
- รับ
- ก่อน
- ด้านล่าง
- ดีกว่า
- เกิน
- ร่างกาย
- ทั้งสอง
- เขตแดน
- นำ
- การก่อสร้าง
- ธุรกิจ
- แต่
- by
- โทรศัพท์
- ที่เรียกว่า
- โทร
- CAN
- ความสามารถในการ
- ความสามารถ
- ความจุ
- จับ
- กรณี
- กรณี
- หมวดหมู่
- ก่อให้เกิด
- เซลล์
- บาง
- การเปลี่ยนแปลง
- การเปลี่ยนแปลง
- ตัวอักษร
- อักขระ
- โหลด
- Choose
- เมือง
- เมือง
- การเรียกร้อง
- ชั้น
- ชั้นเรียน
- การจัดหมวดหมู่
- จัด
- แยกประเภท
- ชัดเจน
- รหัส
- ชุด
- คอลัมน์
- คอลัมน์
- ความคิดเห็น
- บริษัท
- บริษัท
- สมบูรณ์
- เสร็จ
- ความซับซ้อน
- เข้าใจ
- แนวคิด
- ความมั่นใจ
- การกำหนดค่า
- งานที่เชื่อมต่อ
- พิจารณา
- ปลอบใจ
- ถูกใช้
- บรรจุ
- มี
- เนื้อหา
- สิ่งแวดล้อม
- ต่อ
- การประชุม
- บริษัท
- ค่าใช้จ่าย
- ได้
- สร้าง
- ที่สร้างขึ้น
- ประเพณี
- ลูกค้า
- การปรับแต่ง
- ข้อมูล
- การเพิ่มคุณค่าข้อมูล
- การจัดการข้อมูล
- นักวิทยาศาสตร์ข้อมูล
- ชุดข้อมูล
- ฐานข้อมูล
- ชุดข้อมูล
- วันที่
- ลึก
- ค่าเริ่มต้น
- กำหนด
- กำหนด
- การจัดส่ง
- แผนก
- ปรับใช้
- บรรยาย
- ตรวจจับ
- ตรวจพบ
- ผู้พัฒนา
- ต่าง
- ต่างกัน
- กล่าวถึง
- แสดง
- กระจาย
- หลาย
- การดำน้ำ
- do
- เอกสาร
- เอกสาร
- โดเมน
- สวม
- Dont
- ลง
- สอง
- ในระหว่าง
- e
- E&T
- แต่ละ
- อย่างง่ายดาย
- ง่ายต่อการใช้งาน
- มีประสิทธิภาพ
- ทั้ง
- el
- ที่ฝัง
- ช่วยให้
- ปลายทาง
- พลังงาน
- ชั้นเยี่ยม
- เสริม
- ที่เพิ่มขึ้น
- ประเทือง
- การตกแต่ง
- Enterprise
- ผู้ประกอบการ
- หน่วยงาน
- เอกลักษณ์
- สิ่งแวดล้อม
- ข้อผิดพลาด
- จำเป็น
- การประเมินผล
- คาย
- ตัวอย่าง
- ตัวอย่าง
- เกินกว่า
- ยกเว้น
- ข้อยกเว้น
- พิเศษ
- การปฏิบัติ
- ออกจาก
- ที่คาดหวัง
- สำรวจ
- สำรวจ
- การแสดงออก
- ขยายออก
- ภายนอก
- สารสกัด
- การสกัด
- แง่มุม
- ล้มเหลว
- ครอบครัว
- ลักษณะ
- คุณสมบัติ
- ข้อเสนอแนะ
- สองสาม
- สาขา
- เนื้อไม่มีมัน
- ไฟล์
- ยื่น
- กรอง
- กรอง
- ฟิลเตอร์
- ในที่สุด
- หา
- บริษัท
- ชื่อจริง
- พอดี
- การแก้ไข
- โฟกัส
- ปฏิบัติตาม
- ดังต่อไปนี้
- ดังต่อไปนี้
- สำหรับ
- ฟอร์ม
- รูป
- รูปแบบ
- เวลา
- ราคาเริ่มต้นที่
- ฟังก์ชัน
- ต่อไป
- สร้าง
- รุ่น
- กำเนิด
- กำเนิด AI
- ได้รับ
- GitHub
- ขึ้น
- มี
- มี
- he
- การดูแลสุขภาพ
- ช่วย
- การช่วยเหลือ
- จะช่วยให้
- เธอ
- ระดับสูง
- สูงกว่า
- ที่สูงที่สุด
- อย่างสูง
- ของเขา
- หน้าแรก
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTML
- HTTPS
- i
- ไอดีซี
- ระบุ
- แยกแยะ
- if
- แสดงให้เห็นถึง
- ภาพ
- การดำเนินการ
- การดำเนินการ
- การดำเนินการ
- in
- ประกอบด้วย
- ผสมผสาน
- เพิ่ม
- ที่เพิ่มขึ้น
- ดัชนี
- การจัดทำดัชนี
- เป็นรายบุคคล
- ข้อมูล
- โครงสร้างพื้นฐาน
- อินพุต
- ข้อมูลเชิงลึก
- ตัวอย่าง
- ประกัน
- ฉลาด
- อยากเรียนรู้
- International
- อินเตอร์เนชั่นแนล ดาต้า คอร์ปอเรชั่น (IDC)
- เข้าไป
- เชิญ
- จะเรียก
- ร่วมมือ
- IT
- การสัมภาษณ์
- JSON
- ความรู้
- ฉลาก
- ป้ายกำกับ
- ภาษา
- ใหญ่
- ปลาย
- กฏหมาย
- บริษัท กฎหมาย
- เรียนรู้
- การเรียนรู้
- น้อยที่สุด
- ทิ้ง
- ซ้าย
- ความยาว
- ชีวิต
- กดไลก์
- น่าจะ
- LIMIT
- รายการ
- รายการ
- LLM
- ตรรกะ
- อีกต่อไป
- ดู
- รัก
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- ทำให้
- จัดการ
- การจัดการ
- การจัดการ
- ผู้จัดการ
- ด้วยมือ
- การผลิต
- การจับคู่
- แม็กซ์
- อาจ..
- ความหมาย
- วิธี
- ภาพบรรยากาศ
- พบ
- เมตาดาต้า
- นาที
- โหมด
- แบบ
- โมเดล
- ขณะ
- การตรวจสอบ
- ข้อมูลเพิ่มเติม
- มากที่สุด
- หลาย
- ต้อง
- ซึ่งกันและกัน
- ชื่อ
- ชื่อ
- การตั้งชื่อ
- แคบ
- จำเป็นต้อง
- จำเป็น
- ความต้องการ
- ใหม่
- NLP
- ไม่
- สมุดบันทึก
- ตอนนี้
- จำนวน
- ตัวเลข
- วัตถุ
- วัตถุ
- สังเกต
- การเกิดขึ้น
- of
- on
- ครั้งเดียว
- ONE
- เพียง
- ตัวเลือกเสริม (Option)
- Options
- or
- organizacja
- องค์กร
- อื่นๆ
- ของเรา
- ออก
- กลางแจ้ง
- โครงร่าง
- ด้านนอก
- ของตนเอง
- หน้า
- คู่
- หลงใหล
- แบบแผน
- ต่อ
- ดำเนินการ
- สิทธิ์
- ชิ้น
- ที่ราบ
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- เล่น
- จุด
- นโยบาย
- ประชากร
- ส่วน
- เป็นไปได้
- โพสต์
- โพสต์
- ที่มีศักยภาพ
- ขับเคลื่อน
- ที่ต้องการ
- เตรียมการ
- เตรียม
- นำเสนอ
- ก่อน
- ก่อนหน้านี้
- หลัก
- ก่อน
- ลำดับความสำคัญ
- สิทธิพิเศษ
- ปัญหาที่เกิดขึ้น
- กระบวนการ
- การประมวลผล
- ผลิต
- การผลิต
- มืออาชีพ
- เสนอ
- ให้
- ให้
- ผู้จัดหา
- ผู้ให้บริการ
- ให้
- การให้
- คำสั่ง
- อย่างรวดเร็ว
- คำพูด
- ตั้งแต่
- อ่าน
- พร้อม
- จริง
- เรียลไทม์
- ที่ได้รับ
- ที่ได้รับ
- เมื่อเร็ว ๆ นี้
- การรับรู้
- รับรู้
- ได้รับการยอมรับ
- แนะนำ
- อ้างอิง
- การอ้างอิง
- ปกติ
- กรุ
- แสดง
- จำเป็นต้องใช้
- ความต้องการ
- ต้อง
- การวิจัย
- แหล่งข้อมูล
- ผล
- ผลสอบ
- กลับ
- ทบทวน
- บทบาท
- บทบาท
- แถว
- วิ่ง
- รันไทม์
- เดียวกัน
- ลด
- ปรับ
- นักวิทยาศาสตร์
- คะแนน
- ต้นฉบับ
- ค้นหา
- ค้นหา
- ค้นหา
- ที่สอง
- Section
- ส่วน
- ความปลอดภัย
- เห็น
- เลือก
- ระดับอาวุโส
- ประโยค
- แยก
- บริการ
- บริการ
- ชุด
- ชุดอุปกรณ์
- เธอ
- น่า
- โชว์
- แสดงให้เห็นว่า
- แสดง
- แสดงให้เห็นว่า
- สำคัญ
- ความง่าย
- ลดความซับซ้อน
- เดียว
- สถานที่ทำวิจัย
- ขนาด
- เล็ก
- So
- สังคม
- โซเชียลมีเดีย
- โพสต์โซเชียลมีเดีย
- ทางออก
- โซลูชัน
- แก้
- แหล่งที่มา
- ช่องว่าง
- โดยเฉพาะ
- เฉพาะ
- ที่ระบุไว้
- การใช้จ่าย
- แยก
- กระจาย
- มาตรฐาน
- ขั้นตอน
- ขั้นตอน
- จัดเก็บ
- เก็บไว้
- เชือก
- ที่ส่ง
- ส่ง
- อย่างเช่น
- สนับสนุน
- รองรับ
- ซิงค์.
- เอา
- ทีม
- วิชาการ
- ทดสอบ
- การทดสอบ
- ข้อความ
- กว่า
- ที่
- พื้นที่
- ข้อมูล
- โลก
- ของพวกเขา
- พวกเขา
- แล้วก็
- ที่นั่น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- สิ่ง
- นี้
- เหล่านั้น
- ธรณีประตู
- ตลอด
- ปริมาณงาน
- เวลา
- ไปยัง
- ด้านบน
- ลู่
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- การเดินทาง
- รักษา
- พยายาม
- ลอง
- ติดตามความคืบหน้า
- สอง
- ชนิด
- ชนิด
- ภายใต้
- ขีด
- เป็นเอกลักษณ์
- หน่วย
- หน่วย
- ที่ไม่พึงประสงค์
- บันทึก
- ใช้
- ใช้กรณี
- มือสอง
- ผู้ใช้
- ใช้
- การใช้
- ถูกต้อง
- ความคุ้มค่า
- ความคุ้มค่า
- ต่างๆ
- กว้างใหญ่
- มาก
- รายละเอียด
- ยอดวิว
- ปริมาณ
- รอ
- ต้องการ
- ต้องการ
- ทาง..
- วิธี
- we
- เว็บ
- บริการเว็บ
- เว็บไซต์
- ดี
- อะไร
- ความหมายของ
- เมื่อ
- ที่
- ในขณะที่
- ขาว
- จะ
- กับ
- ภายใน
- ไม่มี
- คำ
- งาน
- การทำงาน
- ออกกำลังกาย
- โรงงาน
- โลก
- ของโลก
- การเขียน
- เขียน
- คุณ
- ของคุณ
- ลมทะเล