การประมวลผลเอกสารอัจฉริยะด้วยบริการ AWS AI: ตอนที่ 2

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

การประมวลผลเอกสารอัจฉริยะ (IDP) ของ Amazon ช่วยให้คุณเร่งรอบการตัดสินใจทางธุรกิจและลดค่าใช้จ่าย ในหลายอุตสาหกรรม ลูกค้าต้องดำเนินการเอกสารหลายล้านฉบับต่อปีในการดำเนินธุรกิจ สำหรับลูกค้าที่ประมวลผลเอกสารหลายล้านฉบับ นี่เป็นสิ่งสำคัญสำหรับประสบการณ์ของผู้ใช้ปลายทางและมีความสำคัญสูงสุดในการแปลงเป็นดิจิทัล เนื่องจากรูปแบบที่หลากหลาย บริษัทส่วนใหญ่จึงประมวลผลเอกสารด้วยตนเอง เช่น W2, การอ้างสิทธิ์, เอกสาร ID, ใบแจ้งหนี้ และสัญญาทางกฎหมาย หรือใช้โซลูชัน OCR (การรู้จำอักขระด้วยแสง) แบบดั้งเดิมที่ใช้เวลานาน เกิดข้อผิดพลาดได้ง่าย และมีค่าใช้จ่ายสูง ไปป์ไลน์ IDP พร้อมบริการ AI ของ AWS ช่วยให้คุณไปไกลกว่า OCR ด้วยการดึงข้อมูลที่แม่นยำและหลากหลายมากขึ้น ประมวลผลเอกสารได้เร็วขึ้น ประหยัดเงิน และเปลี่ยนทรัพยากรให้เป็นงานที่มีมูลค่าสูงขึ้น

ในชุดนี้ เราจะให้ภาพรวมของไปป์ไลน์ IDP เพื่อลดระยะเวลาและความพยายามในการนำเข้าเอกสารและรับข้อมูลสำคัญไปยังระบบดาวน์สตรีม รูปต่อไปนี้แสดงขั้นตอนที่โดยทั่วไปเป็นส่วนหนึ่งของเวิร์กโฟลว์ IDP

ในซีรีส์สองส่วนนี้ เราจะพูดถึงวิธีที่คุณสามารถทำให้เอกสารเป็นอัตโนมัติและประมวลผลอย่างชาญฉลาดตามขนาดโดยใช้บริการ AI ของ AWS ใน 1 ส่วนหนึ่งเราได้กล่าวถึงสามขั้นตอนแรกของเวิร์กโฟลว์ IDP ในโพสต์นี้ เราจะพูดถึงขั้นตอนเวิร์กโฟลว์ที่เหลือ

ภาพรวมโซลูชัน

สถาปัตยกรรมอ้างอิงต่อไปนี้แสดงวิธีการใช้บริการ AWS AI เช่น Amazon Text และ เข้าใจ Amazonพร้อมด้วยบริการอื่นๆ ของ AWS เพื่อใช้เวิร์กโฟลว์ IDP ในตอนที่ 1 เราได้อธิบายขั้นตอนการเก็บข้อมูลและการจัดหมวดหมู่เอกสาร ซึ่งเราได้จัดหมวดหมู่และแท็กเอกสาร เช่น ใบแจ้งยอดธนาคาร ใบแจ้งหนี้ และเอกสารใบเสร็จรับเงิน นอกจากนี้ เรายังกล่าวถึงขั้นตอนการดึงข้อมูล ซึ่งคุณสามารถดึงข้อมูลทางธุรกิจที่มีความหมายออกจากเอกสารของคุณได้ ในโพสต์นี้ เราขยายไปป์ไลน์ IDP โดยดูที่เอนทิตีเริ่มต้นและกำหนดเองของ Amazon Comprehend ในขั้นตอนการแยกข้อมูล ดำเนินการเพิ่มความสมบูรณ์ของเอกสาร และยังดูสั้นๆ ที่ความสามารถของ อเมซอน เสริม AI (Amazon A2I) เพื่อรวมทีมงานตรวจสอบโดยมนุษย์ไว้ในขั้นตอนการตรวจสอบและการตรวจสอบความถูกต้อง

เรายังใช้ Amazon Comprehen Medical เป็นส่วนหนึ่งของโซลูชันนี้ ซึ่งเป็นบริการดึงข้อมูลจากข้อความทางการแพทย์ที่ไม่มีโครงสร้างอย่างถูกต้องและรวดเร็ว และระบุความสัมพันธ์ระหว่างข้อมูลสุขภาพที่ดึงออกมา และเชื่อมโยงไปยังออนโทโลยีทางการแพทย์ เช่น ICD-10-CM, RxNorm และ SNOMED CT

Amazon A2I เป็นบริการแมชชีนเลิร์นนิง (ML) ที่ช่วยให้สร้างเวิร์กโฟลว์ที่จำเป็นสำหรับการตรวจสอบโดยมนุษย์ได้ง่าย Amazon A2I นำการตรวจสอบโดยเจ้าหน้าที่มาสู่นักพัฒนาทุกคน โดยขจัดปัญหาหนักอกที่ไม่แยกแยะซึ่งเกี่ยวข้องกับการสร้างระบบการตรวจสอบโดยเจ้าหน้าที่หรือการจัดการผู้ตรวจสอบจำนวนมากไม่ว่าจะทำงานบน AWS หรือไม่ก็ตาม Amazon A2I ทำงานร่วมกับ Amazon Text และ เข้าใจ Amazon เพื่อให้คุณสามารถแนะนำขั้นตอนการตรวจสอบโดยเจ้าหน้าที่ภายในเวิร์กโฟลว์ IDP ของคุณ

เบื้องต้น

ก่อนที่คุณจะเริ่มต้น โปรดดูที่ 1 ส่วนหนึ่ง สำหรับภาพรวมระดับสูงของ IDP และรายละเอียดเกี่ยวกับขั้นตอนการเก็บข้อมูล การจำแนกประเภท และการดึงข้อมูล

ขั้นตอนการสกัด

ในส่วนที่ 1 ของชุดนี้ เราได้พูดถึงวิธีที่เราสามารถใช้คุณสมบัติ Amazon Texttract เพื่อดึงข้อมูลที่ถูกต้องสำหรับเอกสารทุกประเภท ในการขยายระยะนี้ เราใช้เอนทิตีที่ได้รับการฝึกอบรมล่วงหน้าของ Amazon Comprehend และตัวจดจำเอนทิตีที่กำหนดเองของ Amazon Comprehend เพื่อแยกเอกสารเพิ่มเติม วัตถุประสงค์ของตัวจดจำเอนทิตีแบบกำหนดเองคือการระบุเอนทิตีเฉพาะและสร้างข้อมูลเมตาที่กำหนดเองเกี่ยวกับเอกสารของเราในรูปแบบ CSV หรือรูปแบบที่มนุษย์อ่านได้เพื่อให้ผู้ใช้ทางธุรกิจวิเคราะห์ในภายหลัง

การรับรู้ชื่อนิติบุคคล

การรู้จำเอนทิตีที่มีชื่อ (NER) เป็นงานย่อยของการประมวลผลภาษาธรรมชาติ (NLP) ที่เกี่ยวข้องกับการกรองข้อมูลข้อความเพื่อค้นหาวลีนามที่เรียกว่าเอนทิตีที่มีชื่อ และจัดหมวดหมู่แต่ละรายการด้วยป้ายกำกับ เช่น แบรนด์ วันที่ เหตุการณ์ สถานที่ องค์กร บุคคล ปริมาณ หรือชื่อเรื่อง ตัวอย่างเช่น ในข้อความ “ฉันเพิ่งสมัครรับข้อมูล Amazon Prime” Amazon Prime เป็นหน่วยงานที่มีชื่อและสามารถจัดหมวดหมู่เป็นแบรนด์ได้

Amazon Comprehend ช่วยให้คุณสามารถตรวจจับเอนทิตีแบบกำหนดเองดังกล่าวในเอกสารของคุณได้ แต่ละเอนทิตียังมีคะแนนระดับความเชื่อมั่นที่ Amazon Comprehend ส่งคืนสำหรับเอนทิตีแต่ละประเภท แผนภาพต่อไปนี้แสดงกระบวนการรับรู้กิจการ

การรับรู้เอนทิตีที่มีชื่อด้วย Amazon Comprehend

ในการรับเอนทิตีจากเอกสารข้อความ เราเรียกว่า comprehend.detect_entities() วิธีและกำหนดค่ารหัสภาษาและข้อความเป็นพารามิเตอร์อินพุต:

def get_entities(text):
    try:
        #detect entities
        entities = comprehend.detect_entities(LanguageCode="en", Text=text)  
        df = pd.DataFrame(entities["Entities"], columns = ['Text', 'Type'])
        display(HTML(df.to_html(index=False)))
    except Exception as e:
        print(e)

เราดำเนินการ get_entities() วิธีการในเอกสารธนาคารและรับรายชื่อนิติบุคคลในผลลัพธ์

การตอบสนองจากเมธอด get_entities จาก Comprehend

แม้ว่าการแยกเอนทิตีจะทำงานได้ค่อนข้างดีในการระบุประเภทเอนทิตีเริ่มต้นสำหรับทุกอย่างในเอกสารธนาคาร แต่เราต้องการให้ระบบจดจำเอนทิตีเฉพาะสำหรับกรณีการใช้งานของเรา โดยเฉพาะอย่างยิ่ง เราจำเป็นต้องระบุหมายเลขบัญชีเงินฝากออมทรัพย์ของลูกค้าและบัญชีเงินฝากกระแสรายวันในใบแจ้งยอดจากธนาคาร เราสามารถแยกข้อกำหนดทางธุรกิจที่สำคัญเหล่านี้ได้โดยใช้การจดจำเอนทิตีแบบกำหนดเองของ Amazon Comprehend

ฝึกโมเดลการรู้จำเอนทิตีแบบกำหนดเองของ Amazon Comprehend

ในการตรวจหาเอนทิตีเฉพาะที่เราสนใจจากใบแจ้งยอดจากธนาคารของลูกค้า เราจะฝึกตัวจดจำเอนทิตีแบบกำหนดเองด้วยเอนทิตีแบบกำหนดเองสองรายการ: SAVINGS_AC และ CHECKING_AC.

จากนั้นเราจะฝึกแบบจำลองการรับรู้เอนทิตีแบบกำหนดเอง เราสามารถเลือกหนึ่งในสองวิธีในการให้ข้อมูลแก่ Amazon Comprehend: คำอธิบายประกอบหรือรายการเอนทิตี

วิธีการใส่คำอธิบายประกอบมักทำให้ได้ผลลัพธ์ที่ละเอียดยิ่งขึ้นสำหรับไฟล์รูปภาพ, PDF หรือเอกสาร Word เนื่องจากคุณฝึกโมเดลโดยส่งบริบทที่ถูกต้องมากขึ้นเป็นคำอธิบายประกอบพร้อมกับเอกสารของคุณ อย่างไรก็ตาม วิธีการบันทึกย่ออาจใช้เวลานานและทำงานหนัก เพื่อความเรียบง่ายของบล็อกโพสต์นี้ เราใช้วิธีรายการเอนทิตี ซึ่งคุณสามารถใช้กับเอกสารข้อความธรรมดาเท่านั้น วิธีนี้ทำให้เราได้ไฟล์ CSV ที่ควรมีข้อความธรรมดาและประเภทเอนทิตีที่เกี่ยวข้อง ดังที่แสดงในตัวอย่างก่อนหน้านี้ เอนทิตีในไฟล์นี้จะเฉพาะเจาะจงกับความต้องการทางธุรกิจของเรา (การออมและการตรวจสอบหมายเลขบัญชี)

สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับวิธีเตรียมข้อมูลการฝึกอบรมสำหรับกรณีการใช้งานต่างๆ โดยใช้คำอธิบายประกอบหรือวิธีการแสดงรายการเอนทิตี โปรดดูที่ การเตรียมข้อมูลการอบรม.

ภาพหน้าจอต่อไปนี้แสดงตัวอย่างรายการเอนทิตีของเรา

ภาพรวมของรายการเอนทิตี

สร้างตำแหน่งข้อมูล NER แบบเรียลไทม์ของ Amazon Comprehend แบบกำหนดเอง

ต่อไป เราสร้างตำแหน่งข้อมูลตัวจำแนกเอนทิตีแบบเรียลไทม์โดยใช้แบบจำลองที่เราฝึกฝน เราใช้ สร้างจุดสิ้นสุด API ผ่าน comprehend.create_endpoint() วิธีการสร้างจุดสิ้นสุดตามเวลาจริง:

#create comprehend endpoint
model_arn = entity_recognizer_arn
ep_name = 'idp-er-endpoint'

try:
    endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ER_ENDPOINT_ARN=endpoint_response['EndpointArn']
    print(f'Endpoint created with ARN: {ER_ENDPOINT_ARN}')
    %store ER_ENDPOINT_ARN
except Exception as error:
    if error.response['Error']['Code'] == 'ResourceInUseException':
        print(f'An endpoint with the name "{ep_name}" already exists.')
        ER_ENDPOINT_ARN = f'arn:aws:comprehend:{region}:{account_id}:entity-recognizer-endpoint/{ep_name}'
        print(f'The classifier endpoint ARN is: "{ER_ENDPOINT_ARN}"')
        %store ER_ENDPOINT_ARN
    else:
        print(error)

หลังจากที่เราฝึกตัวจดจำเอนทิตีแบบกำหนดเอง เราจะใช้ตำแหน่งข้อมูลแบบเรียลไทม์แบบกำหนดเองเพื่อดึงข้อมูลที่สมบูรณ์บางส่วนจากเอกสาร จากนั้นดำเนินการแก้ไขเอกสารด้วยความช่วยเหลือของเอนทิตีแบบกำหนดเองที่ Amazon Comprehend รู้จักและข้อมูลกล่องขอบเขตจาก Amazon Textract

ขั้นตอนการเสริมสิริมงคล

ในขั้นตอนการเพิ่มประสิทธิภาพเอกสาร เราสามารถดำเนินการปรับปรุงเอกสารได้โดยการปกปิดข้อมูลส่วนบุคคล (PII) ข้อมูล การแยกข้อกำหนดทางธุรกิจที่กำหนดเอง และอื่นๆ เอกสารตัวอย่างก่อนหน้าของเรา (ใบแจ้งยอดจากธนาคาร) มีหมายเลขบัญชีออมทรัพย์และบัญชีเงินฝากของลูกค้าซึ่งเราต้องการแก้ไข เนื่องจากเรารู้จักเอนทิตีแบบกำหนดเองเหล่านี้โดยใช้โมเดล NER แบบกำหนดเองของ Amazon Comprehend เราจึงสามารถใช้ประเภทข้อมูลเรขาคณิตของ Amazon Textract เพื่อตรวจทานเอนทิตี PII เหล่านี้ได้อย่างง่ายดายไม่ว่าจะปรากฏในเอกสารที่ใดก็ตาม ในสถาปัตยกรรมต่อไปนี้ เราแก้ไขข้อกำหนดทางธุรกิจที่สำคัญ (บัญชีออมทรัพย์และบัญชีเงินฝากกระแสรายวัน) จากเอกสารใบแจ้งยอดจากธนาคาร

ขั้นตอนการปรับปรุงเอกสาร

ดังที่คุณเห็นในตัวอย่างต่อไปนี้ เลขที่บัญชีกระแสรายวันและบัญชีออมทรัพย์ถูกซ่อนไว้ในใบแจ้งยอดจากธนาคารในขณะนี้

ตัวอย่างใบแจ้งยอดธนาคารที่แก้ไขแล้ว

โซลูชัน OCR แบบดั้งเดิมประสบปัญหาในการแยกข้อมูลอย่างถูกต้องจากเอกสารที่ไม่มีโครงสร้างและกึ่งโครงสร้างส่วนใหญ่ เนื่องจากรูปแบบและรูปแบบต่างๆ ของเอกสารเหล่านี้มีรูปแบบและรูปแบบที่แตกต่างกันอย่างมาก จากนั้น คุณอาจต้องใช้ตรรกะการประมวลผลล่วงหน้าแบบกำหนดเอง หรือแม้แต่แยกข้อมูลออกจากเอกสารเหล่านี้ด้วยตนเอง ในกรณีนี้ ไปป์ไลน์ IDP รองรับคุณสมบัติสองอย่างที่คุณสามารถใช้ได้: การสืบค้น NER ที่กำหนดเองของ Amazon Comprehend และ Amazon Texttract บริการทั้งสองนี้ใช้ NLP เพื่อดึงข้อมูลเชิงลึกเกี่ยวกับเนื้อหาของเอกสาร

แยกด้วยข้อความค้นหา Amazon Text

เมื่อประมวลผลเอกสารด้วย Amazon Textract คุณสามารถเพิ่มคุณสมบัติการสืบค้นข้อมูลใหม่ในการวิเคราะห์เพื่อระบุข้อมูลที่คุณต้องการ สิ่งนี้เกี่ยวข้องกับการส่งคำถาม NLP เช่น "หมายเลขประกันสังคมของลูกค้าคืออะไร" ไปที่ Amazon Text Amazon Textract ค้นหาข้อมูลในเอกสารสำหรับคำถามนั้น และส่งกลับในโครงสร้างการตอบสนองที่แยกจากข้อมูลส่วนที่เหลือของเอกสาร แบบสอบถามสามารถดำเนินการโดยลำพังหรือร่วมกับการดำเนินการอื่นๆ FeatureTypeเช่น Tables or Forms.

การดึงข้อมูลจากข้อความค้นหาโดยใช้ Amazon Texttract

เมื่อใช้การสืบค้น Amazon Textract คุณสามารถแยกข้อมูลด้วยความแม่นยำสูง โดยไม่คำนึงว่าข้อมูลจะถูกจัดวางอย่างไรในโครงสร้างเอกสาร เช่น แบบฟอร์ม ตาราง และช่องทำเครื่องหมาย หรืออยู่ภายในส่วนที่ซ้อนกันในเอกสาร

เพื่อสาธิตคุณลักษณะการสืบค้น เราดึงข้อมูลที่มีค่า เช่น ชื่อและนามสกุลของผู้ป่วย ผู้ผลิตขนาดยา และอื่นๆ จากเอกสาร เช่น บัตรฉีดวัคซีนโควิด-19

บัตรตัวอย่างการฉีดวัคซีน

เราใช้ textract.analyze_document() ฟังก์ชันและระบุ FeatureType as QUERIES พร้อมทั้งเพิ่มคำถามในรูปแบบคำถามภาษาธรรมชาติเข้าไปด้วย QueriesConfig.

รหัสต่อไปนี้ถูกตัดทอนเพื่อวัตถุประสงค์ในการทำให้เข้าใจง่าย สำหรับรหัสเต็ม โปรดดูที่ GitHub โค้ดตัวอย่าง for analyze_document().

response = None
with open(image_filename, 'rb') as document:
    imageBytes = bytearray(document.read())

# Call Textract
response = textract.analyze_document(
    Document={'Bytes': imageBytes},
    FeatureTypes=["QUERIES"],
    QueriesConfig={
            "Queries": [{
                "Text": "What is the date for the 1st dose covid-19?",
                "Alias": "COVID_VACCINATION_FIRST_DOSE_DATE"
            },
# code trimmed down for simplification
#..
]
})

สำหรับฟีเจอร์การสืบค้นข้อมูลนั้น textract.analyze_document() ฟังก์ชันจะแสดง OCR WORDS และ LINES ข้อมูลรูปทรงเรขาคณิต และคะแนนความเชื่อมั่นทั้งหมดใน JSON ตอบกลับ อย่างไรก็ตาม เราสามารถพิมพ์ข้อมูลที่เราสอบถามออกไปได้

Document เป็นฟังก์ชัน wrapper ที่ใช้เพื่อช่วยแยกวิเคราะห์การตอบสนอง JSON จาก API ให้นามธรรมระดับสูงและทำให้เอาต์พุต API สามารถวนซ้ำได้และดึงข้อมูลออกมาได้ง่าย สำหรับข้อมูลเพิ่มเติม โปรดดูที่ ตัวแยกวิเคราะห์การตอบกลับข้อความ และ ตัวแยกข้อความ ที่เก็บ GitHub หลังจากที่เราดำเนินการตอบกลับ เราจะได้รับข้อมูลต่อไปนี้ตามที่แสดงในภาพหน้าจอ

import trp.trp2 as t2
from tabulate import tabulate

d = t2.TDocumentSchema().load(response)
page = d.pages[0]

query_answers = d.get_query_answers(page=page)

print(tabulate(query_answers, tablefmt="github"))

การตอบสนองจากการดึงแบบสอบถาม

ขั้นตอนการทบทวนและตรวจสอบ

นี่คือขั้นตอนสุดท้ายของไปป์ไลน์ IDP ของเรา ในขั้นตอนนี้ เราสามารถใช้กฎทางธุรกิจเพื่อตรวจสอบความสมบูรณ์ของเอกสาร ตัวอย่างเช่น จากเอกสารการเรียกร้องค่าสินไหมทดแทน รหัสการเรียกร้องจะถูกดึงออกมาอย่างถูกต้องและสำเร็จ เราสามารถใช้เทคโนโลยีไร้เซิร์ฟเวอร์ของ AWS เช่น AWS แลมบ์ดา เพื่อให้กฎทางธุรกิจเหล่านี้ทำงานอัตโนมัติต่อไป ยิ่งไปกว่านั้น เรายังสามารถรวมทีมงานมนุษย์สำหรับการตรวจสอบเอกสารเพื่อให้แน่ใจว่าการคาดการณ์นั้นแม่นยำ Amazon A2I เร่งการสร้างเวิร์กโฟลว์ที่จำเป็นสำหรับการตรวจสอบโดยมนุษย์สำหรับการคาดการณ์ ML

ด้วย Amazon A2I คุณสามารถอนุญาตให้ผู้ตรวจสอบที่เป็นมนุษย์เข้ามาดำเนินการเมื่อแบบจำลองไม่สามารถคาดการณ์ด้วยความมั่นใจสูงหรือตรวจสอบการคาดการณ์อย่างต่อเนื่องได้ เป้าหมายของไปป์ไลน์ IDP คือการลดปริมาณการป้อนข้อมูลของมนุษย์ที่จำเป็นในการรับข้อมูลที่ถูกต้องเข้าสู่ระบบการตัดสินใจของคุณ ด้วย IDP คุณสามารถลดปริมาณการป้อนข้อมูลของมนุษย์สำหรับกระบวนการเอกสารของคุณ รวมทั้งต้นทุนรวมของการประมวลผลเอกสาร

หลังจากที่คุณดึงข้อมูลที่ถูกต้องทั้งหมดจากเอกสารแล้ว คุณสามารถเพิ่มกฎเฉพาะธุรกิจเพิ่มเติมได้โดยใช้ฟังก์ชัน Lambda และรวมโซลูชันเข้ากับฐานข้อมูลหรือแอปพลิเคชันดาวน์สตรีมในที่สุด

ขั้นตอนการตรวจสอบและยืนยันโดยมนุษย์

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีสร้างเวิร์กโฟลว์ Amazon A2I ให้ทำตามคำแนะนำจาก เตรียมความพร้อมสำหรับโมดูล 4 ขั้นตอนที่สิ้นสุดของ 03-idp-document-enrichment.ipynb ในของเรา repo GitHub.

ทำความสะอาด

เพื่อป้องกันการเรียกเก็บเงินจากบัญชี AWS ของคุณในอนาคต ให้ลบทรัพยากรที่เราจัดเตรียมไว้ในการตั้งค่าพื้นที่เก็บข้อมูลโดยไปที่ ส่วนการล้างข้อมูล ใน repo ของเรา

สรุป

ในโพสต์สองส่วนนี้ เราได้เห็นวิธีสร้างไปป์ไลน์ IDP แบบ end-to-end ด้วยประสบการณ์ ML เพียงเล็กน้อยหรือไม่มีเลย เราได้พูดคุยเกี่ยวกับขั้นตอนต่างๆ ของไปป์ไลน์และโซลูชันแบบลงมือปฏิบัติจริงด้วยบริการ AWS AI เช่น Amazon Textract, Amazon Comprehend, Amazon Comprehend Medical และ Amazon A2I สำหรับการออกแบบและสร้างกรณีการใช้งานเฉพาะอุตสาหกรรม ใน โพสต์แรก ในซีรีส์นี้ เราได้สาธิตวิธีใช้ Amazon Textract และ Amazon Comprehend เพื่อดึงข้อมูลจากเอกสารต่างๆ ในโพสต์นี้ เราได้เจาะลึกเกี่ยวกับวิธีฝึกตัวจดจำเอนทิตีแบบกำหนดเองของ Amazon Comprehend เพื่อแยกเอนทิตีแบบกำหนดเองออกจากเอกสารของเรา เรายังใช้เทคนิคการเพิ่มคุณค่าเอกสาร เช่น การทำซ้ำโดยใช้ Amazon Textract รวมถึงรายการเอนทิตีจาก Amazon Comprehend สุดท้าย เราได้เห็นวิธีที่คุณสามารถใช้เวิร์กโฟลว์การตรวจสอบโดยมนุษย์ของ Amazon A2I สำหรับ Amazon Textract โดยรวมทีมงานส่วนตัว

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวอย่างโค้ดแบบเต็มในโพสต์นี้ โปรดดูที่ repo GitHub.

เราขอแนะนำให้คุณตรวจสอบส่วนความปลอดภัยของ Amazon Text, เข้าใจ Amazonและ อเมซอน A2I เอกสารและปฏิบัติตามแนวทางที่ให้ไว้ นอกจากนี้ โปรดสละเวลาสักครู่เพื่อตรวจสอบและทำความเข้าใจราคาสำหรับ Amazon Text, เข้าใจ Amazonและ อเมซอน A2I.

เกี่ยวกับผู้แต่ง

ชิน เรน เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญ AI/ML ที่ Amazon Web Services เธอหลงใหลเกี่ยวกับคณิตศาสตร์ประยุกต์และการเรียนรู้ของเครื่อง เธอมุ่งเน้นที่การออกแบบโซลูชันการประมวลผลเอกสารอัจฉริยะสำหรับลูกค้า AWS นอกงาน เธอชอบเต้นซัลซ่าและบาคาต้า

โซนาลี ซาฮู เป็นผู้นำทีมสถาปนิกโซลูชันการประมวลผลเอกสารอัจฉริยะ AI/ML ที่ Amazon Web Services เธอเป็นผู้หลงใหลในเทคโนโลยีและสนุกกับการทำงานร่วมกับลูกค้าเพื่อแก้ปัญหาที่ซับซ้อนโดยใช้นวัตกรรม จุดสนใจหลักของเธอคือปัญญาประดิษฐ์และการเรียนรู้ของเครื่องสำหรับการประมวลผลเอกสารอัจฉริยะ

อัญชัน บิสวาส เป็นสถาปนิกโซลูชันอาวุโสผู้เชี่ยวชาญด้าน AI/ML Anjan ทำงานร่วมกับลูกค้าระดับองค์กรและมีความกระตือรือร้นเกี่ยวกับการพัฒนา การปรับใช้ และการอธิบาย AI/ML การวิเคราะห์ข้อมูล และโซลูชันข้อมูลขนาดใหญ่ Anjan มีประสบการณ์มากกว่า 14 ปีในการทำงานกับซัพพลายเชน การผลิต และองค์กรค้าปลีกระดับโลก และคอยช่วยเหลือลูกค้าในการเริ่มต้นและปรับขนาดบน AWS

ศุภกาศ ดุตตา เป็นสถาปนิกโซลูชันที่ Amazon Web Services เขามุ่งเน้นไปที่กลยุทธ์การเปลี่ยนแปลงทางดิจิทัล การทำให้แอปพลิเคชันทันสมัยและการโยกย้าย การวิเคราะห์ข้อมูล และการเรียนรู้ของเครื่อง เขาเป็นส่วนหนึ่งของชุมชน AI/ML ที่ AWS และออกแบบโซลูชันการประมวลผลเอกสารอัจฉริยะ