ขอแนะนำการจัดหมวดหมู่และการจดจำเอนทิตีแบบขั้นตอนเดียวด้วย Amazon Comprehend สำหรับการประมวลผลเอกสารอัจฉริยะ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ขอแนะนำการจัดประเภทแบบขั้นตอนเดียวและการจดจำเอนทิตีด้วย Amazon Comprehend สำหรับการประมวลผลเอกสารอัจฉริยะ

“โซลูชันการประมวลผลเอกสารอัจฉริยะ (IDP) จะดึงข้อมูลเพื่อสนับสนุนระบบอัตโนมัติของงานประมวลผลเอกสารที่มีปริมาณมากและทำซ้ำๆ และสำหรับการวิเคราะห์และข้อมูลเชิงลึก IDP ใช้เทคโนโลยีภาษาธรรมชาติและการมองเห็นด้วยคอมพิวเตอร์เพื่อดึงข้อมูลจากเนื้อหาที่มีโครงสร้างและไม่มีโครงสร้าง โดยเฉพาะจากเอกสาร เพื่อสนับสนุนการทำงานอัตโนมัติและการเสริมเติม”  – การ์ทเนอร์

เป้าหมายของการประมวลผลเอกสารอัจฉริยะ (IDP) ของ Amazon คือการทำให้การประมวลผลเอกสารจำนวนมากเป็นไปโดยอัตโนมัติโดยใช้แมชชีนเลิร์นนิง (ML) เพื่อเพิ่มผลผลิต ลดค่าใช้จ่ายที่เกี่ยวข้องกับแรงงานมนุษย์ และมอบประสบการณ์การใช้งานที่ราบรื่น ลูกค้าใช้เวลาและความพยายามอย่างมากในการระบุเอกสารและดึงข้อมูลที่สำคัญจากเอกสารเหล่านั้นสำหรับกรณีการใช้งานต่างๆ วันนี้, เข้าใจ Amazon รองรับการจัดหมวดหมู่สำหรับเอกสารข้อความล้วน ซึ่งคุณจะต้องประมวลผลเอกสารล่วงหน้าในรูปแบบกึ่งโครงสร้าง (สแกน, PDF ดิจิทัล หรือรูปภาพ เช่น PNG, JPG, TIFF) จากนั้นจึงใช้เอาต์พุตข้อความล้วนเพื่อเรียกใช้การอนุมานกับคุณ การจำแนกประเภทที่กำหนดเอง แบบอย่าง. ในทำนองเดียวกันสำหรับ การรับรู้เอนทิตีแบบกำหนดเอง ในแบบเรียลไทม์ การประมวลผลล่วงหน้าเพื่อแยกข้อความเป็นสิ่งจำเป็นสำหรับเอกสารกึ่งโครงสร้าง เช่น ไฟล์ PDF และไฟล์รูปภาพ กระบวนการสองขั้นตอนนี้ทำให้เกิดความซับซ้อนในเวิร์กโฟลว์การประมวลผลเอกสาร

ปีที่แล้วเรา ประกาศการสนับสนุนรูปแบบเอกสารพื้นเมือง ด้วยการรับรู้เอนทิตีที่มีชื่อแบบกำหนดเอง (NER) งานอะซิงโครนัส. วันนี้เรารู้สึกตื่นเต้นที่จะประกาศการจัดประเภทเอกสารแบบขั้นตอนเดียวและการวิเคราะห์ตามเวลาจริงสำหรับ NER สำหรับเอกสารกึ่งโครงสร้างในรูปแบบดั้งเดิม (PDF, TIFF, JPG, PNG) โดยใช้ Amazon Comprehend เรากำลังประกาศความสามารถดังต่อไปนี้:

  • รองรับเอกสารในรูปแบบดั้งเดิมสำหรับการวิเคราะห์ตามเวลาจริงและงานอะซิงโครนัส
  • รองรับเอกสารในรูปแบบดั้งเดิมสำหรับการวิเคราะห์ตามเวลาจริงของการรับรู้เอนทิตีแบบกำหนดเอง

ด้วยรุ่นใหม่นี้ Amazon Comprehend การจัดหมวดหมู่แบบกำหนดเองและการจดจำเอนทิตีแบบกำหนดเอง (NER) รองรับเอกสารในรูปแบบต่างๆ เช่น PDF, TIFF, PNG และ JPEG โดยตรง โดยไม่จำเป็นต้องแยกข้อความธรรมดาที่เข้ารหัส UTF8 ออกจากเอกสารเหล่านั้น รูปภาพต่อไปนี้เปรียบเทียบกระบวนการก่อนหน้ากับขั้นตอนและการสนับสนุนใหม่

คุณลักษณะนี้ช่วยลดความซับซ้อนของเวิร์กโฟลว์การประมวลผลเอกสารโดยขจัดขั้นตอนก่อนการประมวลผลใดๆ ที่จำเป็นในการแยกข้อความธรรมดาออกจากเอกสาร และลดเวลาโดยรวมที่ต้องใช้ในการประมวลผล

ในโพสต์นี้ เราจะพูดถึงการออกแบบโซลูชันเวิร์กโฟลว์ IDP ระดับสูง กรณีการใช้งานในอุตสาหกรรมบางกรณี คุณลักษณะใหม่ของ Amazon Comprehend และวิธีการใช้งาน

ภาพรวมของโซลูชัน

เริ่มต้นด้วยการสำรวจกรณีการใช้งานทั่วไปในอุตสาหกรรมประกันภัย กระบวนการเรียกร้องค่าสินไหมทดแทนโดยทั่วไปเกี่ยวข้องกับชุดค่าสินไหมทดแทนที่อาจมีเอกสารหลายชุด เมื่อมีการเรียกร้องค่าสินไหมทดแทน จะมีเอกสารต่างๆ เช่น แบบฟอร์มเรียกร้องค่าสินไหมทดแทน รายงานเหตุการณ์ เอกสารระบุตัวตน และเอกสารเรียกร้องค่าสินไหมทดแทนจากบุคคลที่สาม ปริมาณเอกสารที่ต้องดำเนินการและตัดสินการเรียกร้องค่าสินไหมทดแทนสามารถเรียกใช้ได้ถึงหลายร้อยหรือหลายพันหน้า ทั้งนี้ขึ้นอยู่กับประเภทของการเรียกร้องและกระบวนการทางธุรกิจที่เกี่ยวข้อง ตัวแทนเคลมประกันและผู้ตัดสินมักจะใช้เวลาหลายร้อยชั่วโมงในการกลั่นกรอง จัดเรียง และดึงข้อมูลจากการยื่นคำร้องเรียกร้องค่าสินไหมทดแทนหลายร้อยหรือหลายพันรายการด้วยตนเอง

เช่นเดียวกับกรณีการใช้งานของอุตสาหกรรมประกันภัย อุตสาหกรรมการชำระเงินยังประมวลผลเอกสารกึ่งโครงสร้างจำนวนมากสำหรับข้อตกลงการชำระเงินข้ามพรมแดน ใบแจ้งหนี้ และใบแจ้งยอดอัตราแลกเปลี่ยน ผู้ใช้ทางธุรกิจใช้เวลาส่วนใหญ่ไปกับกิจกรรมด้วยตนเอง เช่น การระบุ การจัดระเบียบ การตรวจสอบ การแยก และการส่งข้อมูลที่จำเป็นไปยังแอปพลิเคชันดาวน์สตรีม กระบวนการแบบแมนนวลนี้น่าเบื่อ ซ้ำซาก เกิดข้อผิดพลาดได้ง่าย มีราคาแพง และปรับขนาดได้ยาก อุตสาหกรรมอื่น ๆ ที่เผชิญกับความท้าทายที่คล้ายกัน ได้แก่ การจำนองและการปล่อยสินเชื่อ การดูแลสุขภาพและวิทยาศาสตร์เพื่อชีวิต กฎหมาย การบัญชี และการจัดการภาษี เป็นสิ่งสำคัญอย่างยิ่งสำหรับธุรกิจในการประมวลผลเอกสารจำนวนมากในเวลาที่เหมาะสมด้วยความถูกต้องในระดับสูงและความพยายามเพียงเล็กน้อย

Amazon Comprehend มอบความสามารถที่สำคัญในการจัดหมวดหมู่เอกสารโดยอัตโนมัติและการดึงข้อมูลจากเอกสารจำนวนมากด้วยความแม่นยำสูงด้วยวิธีที่ปรับขนาดได้และประหยัดค่าใช้จ่าย แผนภาพต่อไปนี้แสดงเวิร์กโฟลว์เชิงตรรกะของ IDP ด้วย Amazon Comprehend แกนหลักของเวิร์กโฟลว์ประกอบด้วยการจัดประเภทเอกสารและการดึงข้อมูลโดยใช้ NER กับโมเดลแบบกำหนดเองของ Amazon Comprehend ไดอะแกรมยังแสดงให้เห็นวิธีการปรับปรุงโมเดลแบบกำหนดเองอย่างต่อเนื่องเพื่อให้มีความแม่นยำสูงขึ้นเมื่อเอกสารและกระบวนการทางธุรกิจพัฒนาขึ้น

ขอแนะนำการจัดหมวดหมู่และการจดจำเอนทิตีแบบขั้นตอนเดียวด้วย Amazon Comprehend สำหรับการประมวลผลเอกสารอัจฉริยะ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การจัดประเภทเอกสารแบบกำหนดเอง

ด้วยการจัดหมวดหมู่แบบกำหนดเองของ Amazon Comprehend คุณสามารถจัดระเบียบเอกสารของคุณเป็นหมวดหมู่ (คลาส) ที่กำหนดไว้ล่วงหน้า ในระดับสูง ต่อไปนี้เป็นขั้นตอนในการตั้งค่าตัวแยกประเภทเอกสารแบบกำหนดเองและดำเนินการจัดประเภทเอกสาร:

  1. เตรียมข้อมูลการฝึกอบรมเพื่อฝึกอบรมตัวแยกประเภทเอกสารที่กำหนดเอง
  2. ฝึกอบรมตัวแยกประเภทเอกสารของลูกค้าด้วยข้อมูลการฝึกอบรม
  3. หลังจากโมเดลได้รับการฝึกฝนแล้ว ให้ปรับใช้จุดสิ้นสุดตามเวลาจริง
  4. ดำเนินการจัดประเภทเอกสารด้วยงานแบบอะซิงโครนัสหรือตามเวลาจริงโดยใช้จุดสิ้นสุด

โดยทั่วไปขั้นตอนที่ 1 และ 2 จะทำเมื่อเริ่มต้นโครงการ IDP หลังจากระบุคลาสเอกสารที่เกี่ยวข้องกับกระบวนการทางธุรกิจแล้ว แบบจำลองลักษณนามแบบกำหนดเองสามารถฝึกใหม่เป็นระยะเพื่อปรับปรุงความแม่นยำและแนะนำคลาสเอกสารใหม่ คุณสามารถฝึกโมเดลการจัดประเภทแบบกำหนดเองได้ใน โหมดหลายคลาส or โหมดหลายป้ายกำกับ. การฝึกอบรมสามารถทำได้ด้วยวิธีใดวิธีหนึ่งจากสองวิธี: โดยใช้ไฟล์ CSV หรือใช้ไฟล์รายการเพิ่มเติม อ้างถึง กำลังเตรียมข้อมูลการฝึกอบรม สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการฝึกอบรมโมเดลการจัดประเภทแบบกำหนดเอง หลังจากฝึกโมเดลตัวแยกประเภทแบบกำหนดเองแล้ว เอกสารสามารถจัดประเภทโดยใช้ การวิเคราะห์ตามเวลาจริง หรือ งานอะซิงโครนัส. การวิเคราะห์ตามเวลาจริงต้องใช้ จุดสิ้นสุดที่จะปรับใช้ ด้วยโมเดลที่ผ่านการฝึกอบรมและเหมาะที่สุดสำหรับเอกสารขนาดเล็ก ทั้งนี้ขึ้นอยู่กับกรณีการใช้งาน สำหรับเอกสารจำนวนมาก งานการจัดประเภทแบบอะซิงโครนัสจะเหมาะสมที่สุด

ฝึกโมเดลการจัดประเภทเอกสารแบบกำหนดเอง

เพื่อสาธิตคุณลักษณะใหม่นี้ เราได้ฝึกโมเดลการจัดประเภทแบบกำหนดเองในโหมดหลายฉลาก ซึ่งสามารถจัดประเภทเอกสารประกันภัยออกเป็นประเภทหนึ่งจากเจ็ดประเภทที่แตกต่างกัน ชั้นเรียนคือ INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARYและ CMS1500. เราต้องการจัดประเภทเอกสารตัวอย่างในรูปแบบ PDF, PNG และ JPEG ดั้งเดิมที่จัดเก็บไว้ในไฟล์ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon ที่ฝากข้อมูล (Amazon S3) โดยใช้แบบจำลองการจัดประเภท เมื่อต้องการเริ่มงานการจัดประเภทแบบอะซิงโครนัส ให้ทำตามขั้นตอนต่อไปนี้:

  1. บนคอนโซล Amazon Comprehend ให้เลือก งานวิเคราะห์ ในบานหน้าต่างนำทาง
  2. Choose สร้างงาน.
    เลือกสร้างงาน
  3. สำหรับ Nameป้อนชื่อสำหรับงานการจัดหมวดหมู่ของคุณ
  4. สำหรับ ประเภทการวิเคราะห์¸ เลือก การจัดหมวดหมู่แบบกำหนดเอง.
  5. สำหรับ รุ่นลักษณนามให้เลือกรูปแบบการจำแนกประเภทที่ผ่านการฝึกอบรมที่เหมาะสม
  6. สำหรับ เวอร์ชั่นให้เลือกรุ่นรุ่นที่เหมาะสม
    สำหรับเวอร์ชัน ให้เลือกเวอร์ชันของรุ่นที่เหมาะสม

ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร ป้อนข้อมูล ส่วนเราระบุตำแหน่งที่เก็บเอกสารของเรา

  1. สำหรับ รูปแบบการป้อนข้อมูลเลือก หนึ่งเอกสารต่อไฟล์.
  2. สำหรับ โหมดอ่านเอกสาร¸ เลือก บังคับให้อ่านเอกสาร.
  3. สำหรับ การดำเนินการอ่านเอกสารเลือก ตรวจจับข้อความในเอกสาร.

สิ่งนี้ทำให้ Amazon Comprehend สามารถใช้ Amazon Text ตรวจหาข้อความเอกสาร API เพื่ออ่านเอกสารก่อนเรียกใช้การจัดประเภท เดอะ DetectDocumentText API มีประโยชน์ในการแยกบรรทัดและข้อความจากเอกสาร คุณยังเลือกได้ เอกสารการวิเคราะห์ข้อความ for การดำเนินการอ่านเอกสารซึ่งในกรณีนี้ Amazon Comprehend ใช้ Amazon Textract วิเคราะห์เอกสาร API เพื่ออ่านเอกสาร กับ AnalyzeDocument API คุณสามารถเลือกแยกได้ ตาราง, รูปแบบ, หรือทั้งคู่. โหมดอ่านเอกสาร ตัวเลือกช่วยให้ Amazon Comprehend แยกข้อความจากเอกสารเบื้องหลัง ซึ่งช่วยลดขั้นตอนพิเศษในการแยกข้อความจากเอกสาร ซึ่งจำเป็นในเวิร์กโฟลว์การประมวลผลเอกสารของเรา
ตัวเลือกโหมดอ่านเอกสารช่วยให้ Amazon Comprehend แยกข้อความจากเอกสารเบื้องหลัง ซึ่งช่วยลดขั้นตอนพิเศษในการแยกข้อความออกจากเอกสาร ซึ่งจำเป็นในเวิร์กโฟลว์การประมวลผลเอกสารของเรา

ตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend ยังสามารถประมวลผลการตอบสนอง JSON ดิบที่สร้างโดย DetectDocumentText และ AnalyzeDocument APIs โดยไม่มีการแก้ไขหรือประมวลผลล่วงหน้าใดๆ สิ่งนี้มีประโยชน์สำหรับเวิร์กโฟลว์ที่มีอยู่ซึ่ง Amazon Texttract มีส่วนร่วมในการแยกข้อความจากเอกสารอยู่แล้ว ในกรณีนี้ สามารถป้อนเอาต์พุต JSON จาก Amazon Texttract ไปยัง API การจัดประเภทเอกสารของ Amazon Comprehend ได้โดยตรง

  1. ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร ข้อมูลเอาต์พุต ส่วนสำหรับ ที่ตั้ง S3ระบุตำแหน่ง Amazon S3 ที่คุณต้องการให้งานอะซิงโครนัสเขียนผลการอนุมาน
  2. ปล่อยให้ตัวเลือกที่เหลือเป็นค่าเริ่มต้น
  3. Choose สร้างงาน เพื่อเริ่มงาน
    เลือก สร้างงาน เพื่อเริ่มงาน

คุณสามารถดูสถานะของงานได้ที่ งานวิเคราะห์ หน้า.

เมื่องานเสร็จสมบูรณ์ เราสามารถดูผลลัพธ์ของงานการวิเคราะห์ ซึ่งจัดเก็บไว้ในตำแหน่ง Amazon S3 ที่ให้ไว้ระหว่างการกำหนดค่างาน ผลลัพธ์การจัดประเภทสำหรับเอกสาร PDF ตัวอย่าง CMS1500 หน้าเดียวของเรามีดังนี้ เอาต์พุตเป็นไฟล์ในรูปแบบบรรทัด JSON ซึ่งได้รับการจัดรูปแบบเพื่อปรับปรุงการอ่าน

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

ตัวอย่างก่อนหน้านี้เป็นเอกสาร PDF หน้าเดียว; อย่างไรก็ตาม การจัดหมวดหมู่แบบกำหนดเองยังสามารถจัดการเอกสาร PDF หลายหน้าได้อีกด้วย ในกรณีของเอกสารหลายหน้า เอาต์พุตประกอบด้วยบรรทัด JSON หลายบรรทัด โดยที่แต่ละบรรทัดคือผลลัพธ์การจัดประเภทของแต่ละหน้าในเอกสาร ต่อไปนี้คือตัวอย่างเอาต์พุตการจัดประเภทหลายหน้า:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

การรับรู้เอนทิตีแบบกำหนดเอง

ด้วยเครื่องมือจำแนกเอนทิตีแบบกำหนดเองของ Amazon Comprehend คุณสามารถวิเคราะห์เอกสารและแยกเอนทิตี เช่น รหัสผลิตภัณฑ์หรือเอนทิตีเฉพาะธุรกิจที่ตรงกับความต้องการเฉพาะของคุณได้ ในระดับสูง ต่อไปนี้เป็นขั้นตอนในการตั้งค่าตัวจำแนกเอนทิตีแบบกำหนดเองและดำเนินการตรวจหาเอนทิตี:

  1. เตรียมข้อมูลการฝึกอบรมเพื่อฝึกอบรมตัวจดจำเอนทิตีแบบกำหนดเอง
  2. ฝึกฝนตัวจดจำเอนทิตีแบบกำหนดเองด้วยข้อมูลการฝึก
  3. หลังจากโมเดลได้รับการฝึกฝนแล้ว ให้ปรับใช้จุดสิ้นสุดตามเวลาจริง
  4. ดำเนินการตรวจหาเอนทิตีด้วยงานแบบอะซิงโครนัสหรือแบบเรียลไทม์โดยใช้จุดสิ้นสุด

โมเดลตัวจำแนกเอนทิตีแบบกำหนดเองสามารถฝึกซ้ำเป็นระยะๆ เพื่อปรับปรุงความแม่นยำและแนะนำประเภทเอนทิตีใหม่ คุณสามารถฝึกโมเดลตัวจำแนกเอนทิตีแบบกำหนดเองได้ด้วย รายการนิติบุคคล or คำอธิบายประกอบ. ในทั้งสองกรณี Amazon Comprehend จะเรียนรู้เกี่ยวกับประเภทของเอกสารและบริบทที่เอนทิตีเกิดขึ้นเพื่อสร้างโมเดลตัวจดจำเอนทิตีที่สามารถสรุปเพื่อตรวจจับเอนทิตีใหม่ได้ อ้างถึง การเตรียมข้อมูลการอบรม เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการเตรียมข้อมูลการฝึกอบรมสำหรับตัวจำแนกเอนทิตีแบบกำหนดเอง

หลังจากฝึกโมเดลตัวจำแนกเอนทิตีแบบกำหนดเองแล้ว การตรวจหาเอนทิตีสามารถทำได้โดยใช้ การวิเคราะห์ตามเวลาจริง หรือ งานอะซิงโครนัส. การวิเคราะห์ตามเวลาจริงต้องใช้ จุดสิ้นสุดที่จะปรับใช้ ด้วยโมเดลที่ผ่านการฝึกอบรมและเหมาะที่สุดสำหรับเอกสารขนาดเล็ก ทั้งนี้ขึ้นอยู่กับกรณีการใช้งาน สำหรับเอกสารจำนวนมาก งานการจัดประเภทแบบอะซิงโครนัสจะเหมาะสมที่สุด

ฝึกฝนแบบจำลองการรับรู้เอนทิตีแบบกำหนดเอง

เพื่อสาธิตการตรวจหาเอนทิตีแบบเรียลไทม์ เราได้ฝึกโมเดลตัวจำแนกเอนทิตีแบบกำหนดเองพร้อมเอกสารประกันและไฟล์รายการเพิ่มเติมโดยใช้คำอธิบายประกอบแบบกำหนดเอง และปรับใช้จุดสิ้นสุดโดยใช้โมเดลที่ผ่านการฝึกอบรม ประเภทเอนทิตีคือ Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Actionและ Sender. เราต้องการตรวจหาเอนทิตีจากเอกสารตัวอย่างในรูปแบบ PDF, PNG และ JPEG ดั้งเดิมที่จัดเก็บไว้ในบัคเก็ต S3 โดยใช้โมเดลตัวจำแนก

โปรดทราบว่าคุณสามารถใช้แบบจำลองการจดจำเอนทิตีแบบกำหนดเองซึ่งฝึกกับเอกสาร PDF เพื่อแยกเอนทิตีแบบกำหนดเองจากเอกสาร PDF, TIFF, รูปภาพ, Word และข้อความล้วน ถ้าแบบจำลองของคุณได้รับการฝึกฝนโดยใช้เอกสารข้อความและรายการเอนทิตี คุณสามารถใช้เฉพาะเอกสารข้อความล้วนเพื่อแยกเอนทิตี

เราจำเป็นต้องตรวจหาเอนทิตีจากเอกสารตัวอย่างในรูปแบบ PDF, PNG และ JPEG ดั้งเดิมโดยใช้โมเดลตัวจำแนก เมื่อต้องการเริ่มงานการตรวจหาเอนทิตีแบบซิงโครนัส ให้ทำตามขั้นตอนต่อไปนี้:

  1. บนคอนโซล Amazon Comprehend ให้เลือก การวิเคราะห์ตามเวลาจริง ในบานหน้าต่างนำทาง
  2. ภายใต้ ประเภทการวิเคราะห์ให้เลือก ประเพณี.
  3. สำหรับ การรับรู้เอนทิตีแบบกำหนดเองเลือกประเภทโมเดลแบบกำหนดเอง
  4. สำหรับ ปลายทางเลือกตำแหน่งข้อมูลตามเวลาจริงที่คุณสร้างขึ้นสำหรับโมเดลตัวจำแนกเอนทิตีของคุณ
  5. เลือก อัพโหลดไฟล์ และเลือก เลือกไฟล์ เพื่ออัปโหลดไฟล์ PDF หรือไฟล์รูปภาพสำหรับการอนุมาน
  6. ขยาย การป้อนเอกสารขั้นสูง ส่วนและสำหรับ โหมดอ่านเอกสารเลือก ค่าเริ่มต้นของบริการ.
  7. สำหรับ การดำเนินการอ่านเอกสารเลือก ตรวจจับข้อความในเอกสาร.
  8. Choose วิเคราะห์ เพื่อวิเคราะห์เอกสารแบบเรียลไทม์
    เลือกวิเคราะห์เพื่อวิเคราะห์เอกสารแบบเรียลไทม์

กิจการที่ได้รับการยอมรับมีรายชื่ออยู่ใน ข้อมูลเชิงลึก ส่วน. แต่ละเอนทิตีประกอบด้วยค่าเอนทิตี (ข้อความ) ประเภทของเอนทิตีที่คุณกำหนดในระหว่างกระบวนการฝึกอบรม และคะแนนความเชื่อมั่นที่สอดคล้องกัน
เอนทิตีที่ได้รับการยอมรับจะแสดงอยู่ในส่วนข้อมูลเชิงลึก แต่ละเอนทิตีประกอบด้วยค่าเอนทิตี (ข้อความ) ประเภทของเอนทิตีที่คุณกำหนดในระหว่างกระบวนการฝึกอบรม และคะแนนความเชื่อมั่นที่สอดคล้องกัน

สำหรับรายละเอียดเพิ่มเติมและคำแนะนำแบบสมบูรณ์เกี่ยวกับวิธีฝึกโมเดลตัวจำแนกเอนทิตีแบบกำหนดเอง และใช้เพื่อดำเนินการอนุมานแบบอะซิงโครนัสโดยใช้งานการวิเคราะห์แบบอะซิงโครนัส โปรดดูที่ แยกเอนทิตีแบบกำหนดเองจากเอกสารในรูปแบบดั้งเดิมด้วย Amazon Comprehend.

สรุป

โพสต์นี้สาธิตวิธีจัดประเภทและจัดหมวดหมู่เอกสารกึ่งโครงสร้างในรูปแบบดั้งเดิม และตรวจหาเอนทิตีเฉพาะธุรกิจจากเอกสารเหล่านั้นโดยใช้ Amazon Comprehend คุณสามารถใช้ API แบบเรียลไทม์สำหรับกรณีการใช้งานที่มีเวลาแฝงต่ำ หรือใช้งานการวิเคราะห์แบบอะซิงโครนัสสำหรับการประมวลผลเอกสารจำนวนมาก

ในขั้นตอนต่อไป เราขอแนะนำให้คุณไปที่ Amazon Comprehend พื้นที่เก็บข้อมูล GitHub สำหรับตัวอย่างโค้ดแบบเต็มเพื่อทดลองใช้คุณสมบัติใหม่เหล่านี้ คุณยังสามารถเยี่ยมชม คู่มือนักพัฒนา Amazon Comprehen และ ทรัพยากรของนักพัฒนา Amazon Comprehend สำหรับวิดีโอ บทช่วยสอน บล็อก และอื่นๆ


เกี่ยวกับผู้แต่ง

ขอแนะนำการจัดหมวดหมู่และการจดจำเอนทิตีแบบขั้นตอนเดียวด้วย Amazon Comprehend สำหรับการประมวลผลเอกสารอัจฉริยะ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.Wrick ตะลักดาร์ เป็นสถาปนิกอาวุโสกับทีม Amazon Comprehend Service เขาทำงานร่วมกับลูกค้า AWS เพื่อช่วยให้พวกเขานำการเรียนรู้ของเครื่องไปใช้ในวงกว้าง นอกเวลางาน เขาชอบอ่านหนังสือและถ่ายรูป

ขอแนะนำการจัดหมวดหมู่และการจดจำเอนทิตีแบบขั้นตอนเดียวด้วย Amazon Comprehend สำหรับการประมวลผลเอกสารอัจฉริยะ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.อัญชัน บิสวาส เป็นสถาปนิกอาวุโสด้านโซลูชันบริการ AI โดยมุ่งเน้นที่ AI/ML และการวิเคราะห์ข้อมูล Anjan เป็นส่วนหนึ่งของทีมบริการ AI ทั่วโลก และทำงานร่วมกับลูกค้าเพื่อช่วยให้พวกเขาเข้าใจและพัฒนาวิธีแก้ปัญหาทางธุรกิจด้วย AI และ ML Anjan มีประสบการณ์มากกว่า 14 ปีในการทำงานกับซัพพลายเชน การผลิต และองค์กรค้าปลีกระดับโลก และคอยช่วยเหลือลูกค้าในการเริ่มต้นและปรับขนาดบนบริการ AWS AI

ขอแนะนำการจัดหมวดหมู่และการจดจำเอนทิตีแบบขั้นตอนเดียวด้วย Amazon Comprehend สำหรับการประมวลผลเอกสารอัจฉริยะ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ก็อดวิน สหยาราช วินเซนต์ เป็น Enterprise Solutions Architect ที่ AWS ผู้หลงใหลในแมชชีนเลิร์นนิงและให้คำแนะนำแก่ลูกค้าในการออกแบบ ปรับใช้ และจัดการปริมาณงานและสถาปัตยกรรม AWS ของตน ในเวลาว่าง เขาชอบเล่นคริกเก็ตกับเพื่อน ๆ และเล่นเทนนิสกับลูก ๆ ทั้งสามของเขา

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS