การประมวลผลเอกสารอัจฉริยะด้วยบริการ AWS AI: ตอนที่ 1

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

องค์กรในอุตสาหกรรมต่างๆ เช่น การดูแลสุขภาพ การเงินและสินเชื่อ กฎหมาย การค้าปลีก และการผลิต มักจะต้องจัดการกับเอกสารจำนวนมากในกระบวนการทางธุรกิจในแต่ละวัน เอกสารเหล่านี้ประกอบด้วยข้อมูลที่สำคัญซึ่งเป็นกุญแจสำคัญในการตัดสินใจตรงเวลา เพื่อรักษาระดับความพึงพอใจสูงสุดของลูกค้า การเริ่มต้นใช้งานของลูกค้าที่รวดเร็วขึ้น และความปั่นป่วนของลูกค้าที่ลดลง ในกรณีส่วนใหญ่ เอกสารจะได้รับการประมวลผลด้วยตนเองเพื่อดึงข้อมูลและข้อมูลเชิงลึก ซึ่งใช้เวลานาน เกิดข้อผิดพลาด มีราคาแพง และปรับขนาดได้ยาก ปัจจุบันมีการทำงานอัตโนมัติที่จำกัดในการประมวลผลและดึงข้อมูลจากเอกสารเหล่านี้ การประมวลผลเอกสารอัจฉริยะ (IDP) พร้อมบริการปัญญาประดิษฐ์ของ AWS (AI) ช่วยให้ดึงข้อมูลจากเอกสารประเภทและรูปแบบต่างๆ ได้โดยอัตโนมัติ รวดเร็วและแม่นยำสูง โดยไม่ต้องใช้ทักษะการเรียนรู้ของเครื่อง (ML) การดึงข้อมูลที่รวดเร็วขึ้นด้วยความแม่นยำสูงช่วยในการตัดสินใจทางธุรกิจที่มีคุณภาพตรงเวลา ในขณะที่ลดต้นทุนโดยรวม

แม้ว่าขั้นตอนในเวิร์กโฟลว์ IDP อาจแตกต่างกันและได้รับอิทธิพลจากกรณีการใช้งานและข้อกำหนดทางธุรกิจ รูปต่อไปนี้แสดงขั้นตอนที่โดยทั่วไปแล้วเป็นส่วนหนึ่งของเวิร์กโฟลว์ IDP เอกสารการประมวลผล เช่น แบบฟอร์มภาษี การเรียกร้อง บันทึกการรักษาพยาบาล แบบฟอร์มลูกค้าใหม่ ใบแจ้งหนี้ สัญญาทางกฎหมาย และอื่นๆ เป็นเพียงตัวอย่างบางส่วนสำหรับ IDP

ในซีรีส์สองส่วนนี้ เราจะหารือเกี่ยวกับวิธีที่คุณสามารถดำเนินการเอกสารตามขนาดโดยอัตโนมัติและชาญฉลาดโดยใช้บริการ AWS AI ในโพสต์นี้ เราจะพูดถึงสามขั้นตอนแรกของเวิร์กโฟลว์ IDP ใน 2 ส่วนหนึ่งเราพูดถึงขั้นตอนเวิร์กโฟลว์ที่เหลือ

ภาพรวมโซลูชัน

ไดอะแกรมสถาปัตยกรรมต่อไปนี้แสดงขั้นตอนของเวิร์กโฟลว์ IDP เริ่มต้นด้วยขั้นตอนการเก็บข้อมูลเพื่อจัดเก็บและรวมรูปแบบไฟล์ต่างๆ (PDF, JPEG, PNG, TIFF) และเลย์เอาต์ของเอกสารอย่างปลอดภัย ขั้นต่อไปคือการจัดประเภท ซึ่งคุณจัดหมวดหมู่เอกสารของคุณ (เช่น สัญญา แบบฟอร์มเรียกร้อง ใบแจ้งหนี้ หรือใบเสร็จรับเงิน) ตามด้วยการแยกเอกสาร ในขั้นตอนการแยกข้อมูล คุณสามารถดึงข้อมูลทางธุรกิจที่มีความหมายออกจากเอกสารของคุณได้ ข้อมูลที่ดึงออกมานี้มักใช้เพื่อรวบรวมข้อมูลเชิงลึกผ่านการวิเคราะห์ข้อมูล หรือส่งไปยังระบบดาวน์สตรีม เช่น ฐานข้อมูลหรือระบบธุรกรรม ขั้นต่อไปคือการปรับปรุง โดยที่เอกสารสามารถปรับปรุงได้โดยการแก้ไขข้อมูลสุขภาพที่ได้รับการคุ้มครอง (PHI) หรือข้อมูลข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้ (PII) การแยกข้อกำหนดทางธุรกิจที่กำหนดเอง และอื่นๆ สุดท้าย ในขั้นตอนการตรวจสอบและการตรวจสอบ คุณสามารถรวมพนักงานที่เป็นมนุษย์เพื่อตรวจทานเอกสารเพื่อให้แน่ใจว่าผลลัพธ์มีความถูกต้อง

สำหรับวัตถุประสงค์ของโพสต์นี้ เราจะพิจารณาชุดเอกสารตัวอย่าง เช่น ใบแจ้งยอดจากธนาคาร ใบแจ้งหนี้ และใบเสร็จของร้านค้า ตัวอย่างเอกสารพร้อมกับโค้ดตัวอย่างสามารถพบได้ใน พื้นที่เก็บข้อมูล GitHub. ในส่วนต่อไปนี้ เราจะแนะนำตัวอย่างโค้ดเหล่านี้พร้อมกับการใช้งานจริง เราสาธิตวิธีการใช้ความสามารถของ ML ด้วย Amazon Text, เข้าใจ Amazonและ อเมซอน เสริม AI (Amazon A2I) เพื่อประมวลผลเอกสารและตรวจสอบข้อมูลที่ดึงออกมา

Amazon Texttract เป็นบริการ ML ที่แยกข้อความ ลายมือ และข้อมูลจากเอกสารที่สแกนโดยอัตโนมัติ นอกเหนือไปจากการรู้จำอักขระด้วยแสง (OCR) อย่างง่ายในการระบุ ทำความเข้าใจ และดึงข้อมูลจากแบบฟอร์มและตาราง Amazon Texttract ใช้ ML เพื่ออ่านและประมวลผลเอกสารประเภทใดก็ได้ แยกข้อความ ลายมือ ตาราง และข้อมูลอื่นๆ ได้อย่างแม่นยำโดยไม่ต้องใช้ความพยายามด้วยตนเอง

Amazon Comprehend เป็นบริการประมวลผลภาษาธรรมชาติ (NLP) ที่ใช้ ML เพื่อดึงข้อมูลเชิงลึกเกี่ยวกับเนื้อหาของเอกสาร Amazon Comprehend สามารถระบุองค์ประกอบที่สำคัญในเอกสาร รวมถึงการอ้างอิงถึงภาษา บุคคล และสถานที่ และจัดประเภทเป็นหัวข้อหรือคลัสเตอร์ที่เกี่ยวข้อง สามารถทำการวิเคราะห์ความรู้สึกเพื่อกำหนดความรู้สึกของเอกสารในแบบเรียลไทม์โดยใช้การตรวจหาเอกสารชุดเดียวหรือแบบกลุ่ม ตัวอย่างเช่น สามารถวิเคราะห์ความคิดเห็นในโพสต์บล็อกเพื่อดูว่าผู้อ่านของคุณชอบโพสต์หรือไม่ Amazon Comprehend ยังตรวจจับ PII เช่น ที่อยู่ หมายเลขบัญชีธนาคาร และหมายเลขโทรศัพท์ในเอกสารข้อความแบบเรียลไทม์และงานแบตช์แบบอะซิงโครนัส นอกจากนี้ยังสามารถ redact เอนทิตี PII ในงานแบทช์แบบอะซิงโครนัส

Amazon A2I เป็นบริการ ML ที่ทำให้ง่ายต่อการสร้างเวิร์กโฟลว์ที่จำเป็นสำหรับการตรวจสอบโดยเจ้าหน้าที่ Amazon A2I นำการตรวจสอบโดยเจ้าหน้าที่มาสู่นักพัฒนาทุกคน ขจัดภาระงานหนักที่ไม่แตกต่างซึ่งเกี่ยวข้องกับการสร้างระบบการตรวจสอบโดยเจ้าหน้าที่หรือการจัดการผู้ตรวจสอบที่เป็นเจ้าหน้าที่จำนวนมาก ไม่ว่าจะทำงานบน AWS หรือไม่ก็ตาม Amazon A2I รวมเข้ากับ Amazon Text และ เข้าใจ Amazon เพื่อให้คุณสามารถแนะนำขั้นตอนการตรวจสอบโดยเจ้าหน้าที่ภายในเวิร์กโฟลว์การประมวลผลเอกสารอัจฉริยะของคุณ

ขั้นตอนการเก็บข้อมูล

คุณสามารถจัดเก็บเอกสารในที่จัดเก็บที่ปรับขนาดได้สูงและคงทนเช่น บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3). Amazon S3 เป็นบริการพื้นที่จัดเก็บอ็อบเจ็กต์ที่นำเสนอความสามารถในการปรับขนาด ความพร้อมใช้งานของข้อมูล ความปลอดภัย และประสิทธิภาพระดับแนวหน้าของอุตสาหกรรม Amazon S3 ออกแบบมาเพื่อความทนทาน 11 9 และจัดเก็บข้อมูลสำหรับลูกค้าหลายล้านรายทั่วโลก เอกสารสามารถมาในรูปแบบและเลย์เอาต์ต่างๆ และอาจมาจากช่องทางต่างๆ เช่น เว็บพอร์ทัลหรือไฟล์แนบในอีเมล

ขั้นตอนการจำแนกประเภท

ในขั้นตอนที่แล้ว เราได้รวบรวมเอกสารประเภทต่างๆ และรูปแบบต่างๆ ในขั้นตอนนี้ เราจำเป็นต้องจัดหมวดหมู่เอกสารก่อนที่เราจะทำการสกัดเพิ่มเติมได้ เพื่อการนั้น เราใช้ Amazon Comprehend การจำแนกประเภทที่กำหนดเอง. การจัดประเภทเอกสารเป็นกระบวนการสองขั้นตอน ขั้นแรก คุณฝึกตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend เพื่อให้รู้จักคลาสที่คุณสนใจ ถัดไป คุณปรับใช้โมเดลด้วย a ตัวแยกประเภทที่กำหนดเองปลายทางตามเวลาจริง และส่งเอกสารที่ไม่มีป้ายกำกับไปยังปลายทางแบบเรียลไทม์เพื่อจัดประเภท

รูปต่อไปนี้แสดงถึงเวิร์กโฟลว์การจัดประเภทเอกสารทั่วไป

ขั้นตอนการจำแนกประเภท

ในการฝึกอบรมตัวแยกประเภท ให้ระบุชั้นเรียนที่คุณสนใจและจัดเตรียมเอกสารตัวอย่างสำหรับแต่ละชั้นเรียนเป็นสื่อการฝึกอบรม ตามตัวเลือกที่คุณระบุ Amazon Comprehend จะสร้างโมเดล ML ที่กำหนดเองซึ่งจะฝึกตามเอกสารที่คุณให้มา โมเดลที่กำหนดเองนี้ (ตัวแยกประเภท) จะตรวจสอบเอกสารแต่ละฉบับที่คุณส่ง โดยจะส่งคืนคลาสเฉพาะที่แสดงถึงเนื้อหาได้ดีที่สุด (หากคุณใช้โหมดหลายคลาส) หรือชุดของคลาสที่ปรับใช้กับเนื้อหานั้น (หากคุณใช้โหมดหลายป้ายกำกับ)

เตรียมข้อมูลการฝึก

ขั้นตอนแรกคือการดึงข้อความจากเอกสารที่จำเป็นสำหรับตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend ในการดึงข้อมูลข้อความดิบสำหรับเอกสารทั้งหมดใน Amazon S3 เราใช้ Amazon Text detect_document_text() เอพีไอ เรายังติดป้ายกำกับข้อมูลตามประเภทเอกสารที่จะใช้ฝึกตัวแยกประเภท Amazon Comprehend แบบกำหนดเอง

รหัสต่อไปนี้ถูกตัดออกเพื่อให้เข้าใจง่ายขึ้น สำหรับรหัสเต็ม โปรดดูที่ GitHub โค้ดตัวอย่าง for textract_extract_text(). ฟังก์ชั่น call_textract() เป็นฟังก์ชัน wr4apper ที่เรียกใช้ วิเคราะห์เอกสาร ภายใน API และพารามิเตอร์ที่ส่งผ่านไปยังวิธีการสรุปการกำหนดค่าบางอย่างที่ API จำเป็นต้องเรียกใช้งานการแยก

def textract_extract_text(document, bucket=data_bucket):        
    try:
        print(f'Processing document: {document}')
        lines = ""
        row = []
        
        # using amazon-textract-caller
        response = call_textract(input_document=f's3://{bucket}/{document}') 
        # using pretty printer to get all the lines
        lines = get_string(textract_json=response, output_type=[Textract_Pretty_Print.LINES])
        
        label = [name for name in names if(name in document)]  
        row.append(label[0])
        row.append(lines)        
        return row
    except Exception as e:
        print (e)

ฝึกลักษณนามแบบกำหนดเอง

ในขั้นตอนนี้ เราใช้การจัดประเภทแบบกำหนดเองของ Amazon Comprehend เพื่อฝึกโมเดลของเราสำหรับการจัดประเภทเอกสาร เราใช้ สร้างตัวแยกประเภทเอกสาร API เพื่อสร้างตัวแยกประเภทที่ฝึกโมเดลที่กำหนดเองโดยใช้ข้อมูลที่มีป้ายกำกับของเรา ดูรหัสต่อไปนี้:

create_response = comprehend.create_document_classifier(
        InputDataConfig={
            'DataFormat': 'COMPREHEND_CSV',
            'S3Uri': f's3://{data_bucket}/{key}'
        },
        DataAccessRoleArn=role,
        DocumentClassifierName=document_classifier_name,
        VersionName=document_classifier_version,
        LanguageCode='en',
        Mode='MULTI_CLASS'
    )

ปรับใช้ปลายทางแบบเรียลไทม์

ในการใช้ตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend เราสร้างปลายทางแบบเรียลไทม์โดยใช้ CreateEndpoint ไฟ:

endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ENDPOINT_ARN=endpoint_response['EndpointArn']
print(f'Endpoint created with ARN: {ENDPOINT_ARN}')

จำแนกเอกสารด้วยปลายทางแบบเรียลไทม์

หลังจากสร้างตำแหน่งข้อมูล Amazon Comprehend แล้ว เราสามารถใช้ปลายทางแบบเรียลไทม์เพื่อจัดประเภทเอกสารได้ เราใช้ comprehend.classify_document() ฟังก์ชันที่มีข้อความเอกสารที่แยกออกมาและจุดสิ้นสุดการอนุมานเป็นพารามิเตอร์อินพุต:

response = comprehend.classify_document(
      Text= document,
      EndpointArn=ENDPOINT_ARN
      )

Amazon Comprehend ส่งคืนเอกสารทุกคลาสด้วยคะแนนความมั่นใจที่เชื่อมโยงกับแต่ละคลาสในอาร์เรย์ของคู่คีย์-ค่า (ชื่อ-คะแนน) เราเลือกคลาสเอกสารที่มีคะแนนความมั่นใจสูงสุด ภาพหน้าจอต่อไปนี้เป็นตัวอย่างการตอบสนอง

จำแนกเอกสารด้วยปลายทางแบบเรียลไทม์

เราแนะนำให้อ่านโค้ดตัวอย่างการจัดประเภทเอกสารโดยละเอียดที่ GitHub.

ขั้นตอนการสกัด

Amazon Texttract ให้คุณแยกข้อความและข้อมูลที่มีโครงสร้างโดยใช้ Amazon Texttract ตรวจหาข้อความเอกสาร และ วิเคราะห์เอกสาร API ตามลำดับ API เหล่านี้ตอบสนองด้วยข้อมูล JSON ซึ่งประกอบด้วย WORDS, LINES, FORMS, TABLES, ข้อมูลเรขาคณิตหรือขอบเขต ความสัมพันธ์ และอื่นๆ ทั้งคู่ DetectDocumentText และ AnalyzeDocument เป็นการดำเนินการแบบซิงโครนัส ในการวิเคราะห์เอกสารแบบอะซิงโครนัส ให้ใช้ เริ่มการตรวจหาข้อความเอกสาร.

การแยกข้อมูลที่มีโครงสร้าง

คุณสามารถดึงข้อมูลที่มีโครงสร้าง เช่น ตารางจากเอกสาร ในขณะที่รักษาโครงสร้างข้อมูลและความสัมพันธ์ระหว่างรายการที่ตรวจพบ คุณสามารถใช้ วิเคราะห์เอกสาร API กับ FeatureType as TABLE เพื่อตรวจหาตารางทั้งหมดในเอกสาร รูปต่อไปนี้แสดงให้เห็นถึงกระบวนการนี้

การแยกข้อมูลที่มีโครงสร้าง

ดูรหัสต่อไปนี้:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["TABLES"])

เราดำเนินการ analyze_document() วิธีการกับ FeatureType as TABLES ในเอกสารประวัติพนักงานและรับการดึงตารางในผลลัพธ์ต่อไปนี้

วิเคราะห์การตอบสนอง API ของเอกสารสำหรับการแยกตาราง

การแยกข้อมูลแบบกึ่งโครงสร้าง

คุณสามารถดึงข้อมูลกึ่งโครงสร้าง เช่น แบบฟอร์มหรือคู่คีย์-ค่าจากเอกสาร ในขณะที่ยังคงรักษาโครงสร้างข้อมูลและความสัมพันธ์ระหว่างรายการที่ตรวจพบ คุณสามารถใช้ วิเคราะห์เอกสาร API กับ FeatureType as FORMS เพื่อตรวจจับทุกรูปแบบในเอกสาร ไดอะแกรมต่อไปนี้แสดงกระบวนการนี้

การแยกข้อมูลแบบกึ่งโครงสร้าง

ดูรหัสต่อไปนี้:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["FORMS"])

ที่นี่เราเรียกใช้ analyze_document() วิธีการกับ FeatureType as FORMS ในเอกสารการสมัครพนักงานและรับการดึงตารางในผลลัพธ์

การประมวลผลเอกสารอัจฉริยะด้วยบริการ AWS AI: ส่วนที่ 1 PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การแยกข้อมูลแบบไม่มีโครงสร้าง

Amazon Texttract เหมาะสมที่สุดสำหรับการดึงข้อความที่มีความหนาแน่นสูงด้วยความแม่นยำ OCR ชั้นนำของอุตสาหกรรม คุณสามารถใช้ ตรวจหาข้อความเอกสาร API เพื่อตรวจหาบรรทัดข้อความและคำที่ประกอบขึ้นเป็นบรรทัดข้อความ ดังแสดงในรูปต่อไปนี้

การแยกข้อมูลแบบไม่มีโครงสร้าง

ดูรหัสต่อไปนี้:

response = textract.detect_document_text(Document={'Bytes': imageBytes})

# Print detected text
for item in response["Blocks"]:
	if item["BlockType"] == "LINE":
 		print (item["Text"])

ตอนนี้เราเรียกใช้ detect_document_text() วิธีการบนภาพตัวอย่างและรับการสกัดข้อความดิบในผลลัพธ์

ใบแจ้งหนี้และใบเสร็จรับเงิน

Amazon Texttract ให้การสนับสนุนพิเศษในการประมวลผลใบแจ้งหนี้และใบเสร็จตามขนาด ดิ วิเคราะห์ค่าใช้จ่าย API สามารถดึงข้อมูลที่มีป้ายกำกับอย่างชัดเจน ข้อมูลโดยนัย และรายการเฉพาะรายการจากรายการสินค้าหรือบริการที่แยกรายการออกจากใบแจ้งหนี้หรือใบเสร็จเกือบทั้งหมด โดยไม่ต้องใช้แม่แบบหรือการกำหนดค่าใดๆ รูปต่อไปนี้แสดงให้เห็นถึงกระบวนการนี้

การแยกใบแจ้งหนี้และใบเสร็จรับเงิน

ดูรหัสต่อไปนี้:

response = textract.analyze_expense(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    })

Amazon Texttract สามารถค้นหาชื่อผู้ขายบนใบเสร็จ แม้ว่าจะระบุไว้ในโลโก้บนหน้าเท่านั้นโดยไม่มีป้ายกำกับที่เรียกว่า “ผู้ขาย” อย่างชัดเจน นอกจากนี้ยังสามารถค้นหาและแยกรายการค่าใช้จ่าย ปริมาณ และราคาที่ไม่ได้ติดป้ายกำกับด้วยส่วนหัวของคอลัมน์สำหรับรายการโฆษณา

วิเคราะห์การตอบสนอง API ค่าใช้จ่าย

เอกสารประจำตัว

สารสกัดอเมซอน วิเคราะห์ID API สามารถช่วยให้คุณดึงข้อมูลจากเอกสารระบุตัวตนได้โดยอัตโนมัติ เช่น ใบขับขี่และหนังสือเดินทาง โดยไม่ต้องใช้แม่แบบหรือการกำหนดค่า เราสามารถดึงข้อมูลเฉพาะ เช่น วันหมดอายุและวันเกิด ตลอดจนระบุและดึงข้อมูลโดยนัยอย่างชาญฉลาด เช่น ชื่อและที่อยู่ ไดอะแกรมต่อไปนี้แสดงกระบวนการนี้

การแยกเอกสารประจำตัว

ดูรหัสต่อไปนี้:

textract_client = boto3.client('textract')
j = call_textract_analyzeid(document_pages=["s3://amazon-textract-public-content/analyzeid/driverlicense.png"],boto3_textract_client=textract_client)

เราสามารถใช้ tabulate เพื่อให้ได้ผลงานพิมพ์ที่สวยงาม:

from tabulate import tabulate

print(tabulate([x[1:3] for x in result]))

เราแนะนำให้อ่านรายละเอียดการแยกเอกสาร โค้ดตัวอย่าง บน GitHub สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวอย่างโค้ดแบบเต็มในโพสต์นี้ โปรดดูที่ repo GitHub.

สรุป

ในโพสต์แรกของซีรีส์สองส่วนนี้ เราได้พูดถึงขั้นตอนต่างๆ ของ IDP และสถาปัตยกรรมโซลูชัน เรายังกล่าวถึงการจัดประเภทเอกสารโดยใช้ตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend ต่อไป เราสำรวจวิธีที่คุณสามารถใช้ Amazon Text เพื่อดึงข้อมูลจากประเภทเอกสารที่ไม่มีโครงสร้าง กึ่งโครงสร้าง มีโครงสร้าง และเฉพาะทาง

In 2 ส่วนหนึ่ง ของซีรีส์นี้ เรายังคงหารือเกี่ยวกับคุณสมบัติการแยกและสืบค้นข้อมูลของ Amazon Text เราดูวิธีใช้เอนทิตีที่กำหนดไว้ล่วงหน้าของ Amazon Comprehend และเอนทิตีแบบกำหนดเองเพื่อแยกเงื่อนไขทางธุรกิจที่สำคัญออกจากเอกสารที่มีข้อความหนาแน่น และวิธีผสานรวมการตรวจสอบโดยมนุษย์ของ Amazon A2I ในกระบวนการ IDP ของคุณ

เราขอแนะนำให้ตรวจสอบส่วนความปลอดภัยของ Amazon Text, เข้าใจ Amazonและ อเมซอน A2I เอกสารและปฏิบัติตามคำแนะนำที่ให้ไว้ นอกจากนี้ โปรดใช้เวลาสักครู่เพื่อตรวจสอบและทำความเข้าใจราคาสำหรับ Amazon Text, เข้าใจ Amazonและ อเมซอน A2I.

เกี่ยวกับผู้แต่ง

ศุภกาศ ดุตตา เป็นสถาปนิกโซลูชันที่ Amazon Web Services เขามุ่งเน้นไปที่กลยุทธ์การเปลี่ยนแปลงทางดิจิทัล การปรับให้ทันสมัยและการย้ายแอปพลิเคชัน การวิเคราะห์ข้อมูล และการเรียนรู้ของเครื่อง

โซนาลี ซาฮู เป็นผู้นำทีมสถาปนิกโซลูชัน AI/ML Solutions ของการประมวลผลเอกสารอัจฉริยะที่ Amazon Web Services เธอเป็นคนที่หลงใหลในเทคโนโลยีและชอบที่จะทำงานร่วมกับลูกค้าในการแก้ปัญหาที่ซับซ้อนโดยใช้นวัตกรรม จุดสนใจหลักของเธอคือปัญญาประดิษฐ์และการเรียนรู้ของเครื่องสำหรับการประมวลผลเอกสารอัจฉริยะ

อัญชัน บิสวาส เป็นสถาปนิกอาวุโสด้านโซลูชันบริการ AI โดยมุ่งเน้นที่ AI/ML และการวิเคราะห์ข้อมูล Anjan เป็นส่วนหนึ่งของทีมบริการ AI ทั่วโลกและทำงานร่วมกับลูกค้าเพื่อช่วยให้พวกเขาเข้าใจและพัฒนาวิธีแก้ปัญหาทางธุรกิจด้วย AI และ ML Anjan มีประสบการณ์มากกว่า 14 ปีในการทำงานกับองค์กรซัพพลายเชน การผลิต และการค้าปลีกระดับโลก และคอยช่วยเหลือลูกค้าในการเริ่มต้นและปรับขนาดบริการ AWS AI

ชินมยีระเนะ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญ AI/ML ที่ Amazon Web Services เธอหลงใหลเกี่ยวกับคณิตศาสตร์ประยุกต์และการเรียนรู้ของเครื่อง เธอมุ่งเน้นที่การออกแบบโซลูชันการประมวลผลเอกสารอัจฉริยะสำหรับลูกค้า AWS นอกงาน เธอชอบเต้นซัลซ่าและบาคาต้า

ประทับเวลา: สิงหาคม 15, 2022สิงหาคม 16, 2022

ประทับเวลา: ม.ค. 13, 2023

การประมวลผลเอกสารอัจฉริยะด้วยบริการ AWS AI: ตอนที่ 1

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโซลูชัน

ขั้นตอนการเก็บข้อมูล

ขั้นตอนการจำแนกประเภท

เตรียมข้อมูลการฝึก

ฝึกลักษณนามแบบกำหนดเอง

ปรับใช้ปลายทางแบบเรียลไทม์

จำแนกเอกสารด้วยปลายทางแบบเรียลไทม์

ขั้นตอนการสกัด

การแยกข้อมูลที่มีโครงสร้าง

การแยกข้อมูลแบบกึ่งโครงสร้าง

การแยกข้อมูลแบบไม่มีโครงสร้าง

ใบแจ้งหนี้และใบเสร็จรับเงิน

เอกสารประจำตัว

สรุป

เกี่ยวกับผู้แต่ง

เพิ่มเติมจาก AWS Machine Learning AWS

ราคาที่เหมาะสมเพื่อผลกำไรสูงสุดโดยใช้ Amazon SageMaker

เลือกอนุกรมเวลาเฉพาะที่จะคาดการณ์ด้วย Amazon Forecast

เร่งความเร็วโครงการการยืนยันตัวตนของคุณโดยใช้ตัวอย่างการใช้งาน AWS Amplify และ Amazon Rekognition

ขณะนี้ไลบรารีแบบขนานของโมเดล Amazon SageMaker ช่วยเร่งปริมาณงาน PyTorch FSDP ได้สูงสุดถึง 20% | อเมซอนเว็บเซอร์วิส

ลดค่าใช้จ่ายและความซับซ้อนของการประมวลผลล่วงหน้า ML ด้วย Amazon S3 Object Lambda

เรียกใช้ปริมาณงานการอนุมานของแมชชีนเลิร์นนิงบนอินสแตนซ์ที่ใช้ AWS Graviton ด้วย Amazon SageMaker

ตัวชี้วัดสำหรับการประเมินการกลั่นกรองเนื้อหาใน Amazon Rekognition และบริการควบคุมเนื้อหาอื่นๆ

ใช้ประโยชน์จากปัญญาประดิษฐ์และการเรียนรู้ของเครื่องที่ Parsons ด้วย AWS DeepRacer

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้