ใช้ดัชนีการค้นหาเอกสารอัจฉริยะด้วย Amazon Textract และ Amazon OpenSearch

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

สำหรับบริษัทยุคใหม่ที่ต้องจัดการกับเอกสารจำนวนมหาศาล เช่น สัญญา ใบแจ้งหนี้ ประวัติย่อ และรายงาน การประมวลผลและการดึงข้อมูลที่เกี่ยวข้องอย่างมีประสิทธิภาพถือเป็นสิ่งสำคัญในการรักษาความได้เปรียบทางการแข่งขัน อย่างไรก็ตาม วิธีการจัดเก็บและค้นหาเอกสารแบบดั้งเดิมอาจใช้เวลานานและมักส่งผลให้ต้องใช้ความพยายามอย่างมากในการค้นหาเอกสารเฉพาะเจาะจง โดยเฉพาะอย่างยิ่งเมื่อมีการเขียนด้วยลายมือ จะเกิดอะไรขึ้นหากมีวิธีประมวลผลเอกสารอย่างชาญฉลาดและทำให้สามารถค้นหาเอกสารเหล่านั้นได้ด้วยความแม่นยำสูง

สิ่งนี้ทำให้เป็นไปได้ด้วย Amazon Text, บริการประมวลผลเอกสารอัจฉริยะของ AWS ควบคู่ไปกับความสามารถในการค้นหาที่รวดเร็วของ OpenSearch. ในโพสต์นี้ เราจะพาคุณเดินทางเพื่อสร้างและปรับใช้โซลูชันการจัดทำดัชนีการค้นหาเอกสารที่ช่วยให้องค์กรของคุณควบคุมและแยกข้อมูลเชิงลึกจากเอกสารได้ดียิ่งขึ้น

ไม่ว่าคุณจะอยู่ในฝ่ายทรัพยากรบุคคลที่กำลังมองหาข้อกำหนดเฉพาะในสัญญาพนักงาน หรือนักวิเคราะห์ทางการเงินที่กำลังค้นหาใบแจ้งหนี้จำนวนมากเพื่อดึงข้อมูลการชำระเงิน โซลูชันนี้ได้รับการออกแบบมาเพื่อให้คุณเข้าถึงข้อมูลที่คุณต้องการได้อย่างรวดเร็วและแม่นยำอย่างที่ไม่เคยมีมาก่อน

ด้วยโซลูชันที่นำเสนอ เอกสารของคุณจะถูกนำเข้าโดยอัตโนมัติ เนื้อหาจะถูกแยกวิเคราะห์และจัดทำดัชนีเป็นดัชนี OpenSearch ที่ตอบสนองสูงและปรับขนาดได้

เราจะกล่าวถึงเทคโนโลยีต่างๆ เช่น Amazon Textract AWS แลมบ์ดา, บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน S3) และ บริการ Amazon OpenSearch สามารถรวมเข้ากับขั้นตอนการทำงานที่ประมวลผลเอกสารได้อย่างราบรื่น จากนั้นเราจะเจาะลึกในการจัดทำดัชนีข้อมูลนี้ใน OpenSearch และสาธิตความสามารถในการค้นหาที่พร้อมใช้งานเพียงปลายนิ้วสัมผัส

ไม่ว่าองค์กรของคุณกำลังก้าวแรกเข้าสู่ยุคการเปลี่ยนแปลงทางดิจิทัลหรือเป็นยักษ์ใหญ่ที่ก่อตั้งขึ้นที่ต้องการเพิ่มพลังในการเรียกข้อมูล คู่มือนี้เป็นเข็มทิศของคุณในการไขว่คว้าโอกาสที่ AWS Intelligent Document Processing และ OpenSearch นำเสนอ

พื้นที่ การดำเนินงาน ที่ใช้ในโพสต์นี้ใช้ โครงสร้าง Amazon Text IDP CDK – ส่วนประกอบ AWS Cloud Development Kit (CDK) เพื่อกำหนดโครงสร้างพื้นฐานสำหรับเวิร์กโฟลว์การประมวลผลเอกสารอัจฉริยะ (IDP) ซึ่งช่วยให้คุณสร้างเวิร์กโฟลว์ IDP ที่ปรับแต่งได้เฉพาะกรณีการใช้งาน โครงสร้างและตัวอย่าง IDP CDK คือชุดของส่วนประกอบเพื่อให้สามารถกำหนดกระบวนการ IDP บน AWS และเผยแพร่ไปยัง GitHub. แนวคิดหลักที่ใช้คือ AWS ชุดพัฒนาระบบคลาวด์ (CDK) โครงสร้างที่เกิดขึ้นจริง สแต็คซีดีเค และ ฟังก์ชันขั้นตอนของ AWS. การประชุมเชิงปฏิบัติการ ใช้การเรียนรู้ของเครื่องเพื่อทำให้เอกสารเป็นอัตโนมัติและประมวลผลตามขนาดที่ต้องการ เป็นจุดเริ่มต้นที่ดีในการเรียนรู้เพิ่มเติมเกี่ยวกับการกำหนดเวิร์กโฟลว์เอง และใช้เวิร์กโฟลว์ตัวอย่างอื่นๆ เป็นฐานสำหรับตัวคุณเอง

ภาพรวมโซลูชัน

ในโซลูชันนี้ เรามุ่งเน้นที่การสร้างดัชนีเอกสารลงในดัชนี OpenSearch เพื่อการค้นหาและดึงข้อมูลและเอกสารอย่างรวดเร็ว เอกสารในรูปแบบ PDF, TIFF, JPEG หรือ PNG จะอยู่ใน Amazon Simple Storage Service (Amazon S3) และจัดทำดัชนีลงใน OpenSearch ในภายหลังโดยใช้เวิร์กโฟลว์ Step Functions นี้

รูปที่ 1: เวิร์กโฟลว์ Step Functions OpenSearch

พื้นที่ OpenSearchWorkflow-ผู้ตัดสินใจ ดูเอกสารและตรวจสอบว่าเอกสารเป็นหนึ่งในประเภท MIME ที่รองรับ (PDF, TIFF, PNG หรือ JPEG) ประกอบด้วยหนึ่ง AWS แลมบ์ดา ฟังก์ชัน

พื้นที่ ตัวแยกเอกสาร สร้างชิ้นเอกสารได้สูงสุด 2500 หน้า ซึ่งหมายความว่าแม้ว่า Amazon Textract จะรองรับเอกสารได้มากถึง 3000 หน้า แต่คุณสามารถส่งผ่านเอกสารที่มีหลายหน้าได้ และกระบวนการนี้ยังคงทำงานได้ดีและใส่หน้าต่างๆ ลงใน OpenSearch และสร้างหมายเลขหน้าที่ถูกต้อง ที่ ตัวแยกเอกสาร ถูกนำไปใช้เป็นฟังก์ชัน AWS Lambda

พื้นที่ รัฐแผนที่ ประมวลผลแต่ละส่วนพร้อมกัน

พื้นที่ TextAsync งานเรียก Amazon Texttract โดยใช้อะซิงโครนัส อินเตอร์เฟซการเขียนโปรแกรมประยุกต์ (API) ตามมา ปฏิบัติที่ดีที่สุด ด้วยบริการแจ้งเตือนแบบง่ายของ Amazon (อเมซอน SNS) การแจ้งเตือน และ OutputConfig เพื่อจัดเก็บเอาต์พุต Amazon Textract JSON ไปยังบัคเก็ต Amazon S3 ของลูกค้า ประกอบด้วยฟังก์ชัน Amazon Lambda สองฟังก์ชัน: ฟังก์ชันหนึ่งสำหรับส่งเอกสารเพื่อการประมวลผล และอีกฟังก์ชันหนึ่งเรียกใช้การแจ้งเตือนของ Amazon SNS

เพราะว่า สารสกัดจากAsyงาน nc สามารถสร้างไฟล์เอาต์พุตที่มีการแบ่งหน้าได้หลายไฟล์ ข้อความ AsyncToJSON2 กระบวนการรวมเข้าด้วยกันเป็นไฟล์ JSON ไฟล์เดียว

บริบทของ Step Functions เต็มไปด้วยข้อมูลที่ควรจะค้นหาได้ในดัชนี OpenSearch ใน SetMetaData ขั้นตอน การใช้งานตัวอย่างเพิ่ม ORIGIN_FILE_NAME, START_PAGE_NUMBERและ ORIGIN_FILE_URI. คุณสามารถเพิ่มข้อมูลใดๆ เพื่อเพิ่มประสบการณ์การค้นหา เช่น ข้อมูลจากระบบแบ็กเอนด์อื่นๆ รหัสเฉพาะ หรือข้อมูลการจัดหมวดหมู่

พื้นที่ สร้าง OpenSearchBatch นำเอาต์พุต JSON ของ Amazon Textract ที่สร้างขึ้นมารวมกับข้อมูลจากบริบทที่กำหนดโดย SetMetaData และเตรียมไฟล์ที่ได้รับการปรับให้เหมาะสมสำหรับการนำเข้าแบบแบตช์ไปยัง OpenSearch

ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร OpenSearchPushInriggไฟล์นำเข้าแบทช์นี้จะถูกส่งไปยังดัชนี OpenSearch และพร้อมสำหรับการค้นหา ฟังก์ชัน AWS Lambda นี้เชื่อมต่อกับ aws-แลมบ์ดา-opensearch สร้างจาก โซลูชัน AWS ไลบรารีที่ใช้อินสแตนซ์ m6g.large.search, OpenSearch เวอร์ชัน 2.7 และกำหนดค่า Amazon Elastic Block Service (อเมซอน EBS) ขนาดวอลุ่มเป็น General Purpose 2 (GP2) ขนาด 200 GB คุณสามารถเปลี่ยนการกำหนดค่า OpenSearch ได้ตามความต้องการของคุณ

สุดท้าย งาน OpenSearchMapping ขั้นตอน ล้างบริบท ซึ่งอาจเกินกว่านั้น โควต้าฟังก์ชันขั้นตอน of ขนาดอินพุตหรือเอาต์พุตสูงสุดสำหรับงาน สถานะ หรือการดำเนินการ.

เบื้องต้น

หากต้องการปรับใช้ตัวอย่าง คุณต้องมีบัญชี AWS ชุดพัฒนา AWS Cloud (AWS CDK)ต้องใช้เวอร์ชัน Python ปัจจุบันและ Docker คุณต้องมีสิทธิ์ในการปรับใช้เทมเพลต AWS CloudFormation กดไปที่ การลงทะเบียน Amazon Elastic Container (Amazon ECR) สร้าง การจัดการตัวตนและการเข้าถึงของ Amazon บทบาท (AWS IAM), ฟังก์ชัน Amazon Lambda, บัคเก็ต Amazon S3, Amazon Step Functions, คลัสเตอร์ Amazon OpenSearch และ Amazon Cognito Co กลุ่มผู้ใช้ ตรวจสอบให้แน่ใจว่าคุณ สภาพแวดล้อม AWS CLI ได้รับการตั้งค่าแล้ว โดยได้รับอนุญาตตามนั้น

คุณยังสามารถหมุนได้ AWS Cloud9 อินสแตนซ์ที่ติดตั้ง AWS CDK, Python และ Docker ไว้ล่วงหน้าเพื่อเริ่มการปรับใช้

คำแนะนำแบบ

การใช้งาน

หลังจากที่คุณตั้งค่าสิ่งที่จำเป็นต้องมีแล้ว คุณต้องโคลนที่เก็บก่อน:

git clone https://github.com/aws-solutions-library-samples/guidance-for-low-code-intelligent-document-processing-on-aws.git

จากนั้น cd ลงในโฟลเดอร์ที่เก็บและติดตั้งการอ้างอิง:

cd guidance-for-low-code-intelligent-document-processing-on-aws/ pip install -r requirements.txt

ปรับใช้สแต็ก OpenSearchWorkflow:

cdk deploy OpenSearchWorkflow

การปรับใช้ใช้เวลาประมาณ 25 นาทีด้วยการตั้งค่าการกำหนดค่าเริ่มต้นจากตัวอย่าง GitHub และสร้างเวิร์กโฟลว์ Step Functions ซึ่งจะถูกเรียกใช้เมื่อเอกสารถูกวางที่บัคเก็ต/คำนำหน้า Amazon S3 และต่อมาได้รับการประมวลผลจนกระทั่งเนื้อหาของเอกสารได้รับการจัดทำดัชนี ในคลัสเตอร์ OpenSearch

ต่อไปนี้คือผลลัพธ์ตัวอย่างซึ่งรวมถึงลิงก์ที่เป็นประโยชน์และข้อมูลที่สร้างขึ้นcdk deploy OpenSearchWorkflowคำสั่ง:

OpenSearchWorkflow.CognitoUserPoolLink = https://us-east-1.console.aws.amazon.com/cognito/v2/idp/user-pools/us-east-1_1234abcdef/users?region=us-east-1
OpenSearchWorkflow.DocumentQueueLink = https://us-east-1.console.aws.amazon.com/sqs/v2/home?region=us-east-1#/queues/https%3A%2F%2Fsqs.us-east-1.amazonaws.com%2F123412341234%2FOpenSearchWorkflow-ExecutionThrottleDocumentQueueABC1234-ABCDEFG1234.fifo
OpenSearchWorkflow.DocumentUploadLocation = s3://opensearchworkflow-opensearchworkflowbucketabcdef1234/uploads/
OpenSearchWorkflow.OpenSearchDashboard = https://search-idp-cdk-opensearch-abcdef1234.us-east-1.es.amazonaws.com/states/_dashboards
OpenSearchWorkflow.OpenSearchLink = https://us-east-1.console.aws.amazon.com/aos/home?region=us-east-1#/opensearch/domains/idp-cdk-opensearch
OpenSearchWorkflow.StepFunctionFlowLink = https://us-east-1.console.aws.amazon.com/states/home?region=us-east-1#/statemachines/view/arn:aws:states:us-east-1:123412341234:stateMachine:OpenSearchWorkflow12341234

ข้อมูลนี้มีอยู่ใน AWS CloudFormation Console ด้วย

เมื่อมีการวางเอกสารใหม่ไว้ใต้ OpenSearchWorkflow.DocumentUploadLocationเวิร์กโฟลว์ Step Functions ใหม่สำหรับเอกสารนี้เริ่มต้นแล้ว

หากต้องการตรวจสอบสถานะของเอกสารนี้ ให้ไปที่ OpenSearchWorkflow.StepFunctionFlowLink ให้ลิงก์ไปยังรายการการดำเนินการ StepFunction ใน AWS Management Console ซึ่งแสดงสถานะของการประมวลผลเอกสารสำหรับแต่ละเอกสารที่อัปโหลดไปยัง Amazon S3 บทช่วยสอน การดูและการดีบักการดำเนินการบนคอนโซล Step Functions ให้ภาพรวมของส่วนประกอบและมุมมองในคอนโซล AWS

การทดสอบ

ทดสอบครั้งแรกโดยใช้ไฟล์ตัวอย่าง

aws s3 cp s3://amazon-textract-public-content/idp-cdk-samples/moby-dick-hidden-paystub-and-w2.pdf $(aws cloudformation list-exports --query 'Exports[?Name==`OpenSearchWorkflow-DocumentUploadLocation`].Value' --output text)

หลังจากเลือกลิงก์ไปยังเวิร์กโฟลว์ StepFunction หรือเปิด AWS Management Console และไปที่หน้าบริการ Step Functions คุณสามารถดูการเรียกใช้เวิร์กโฟลว์ต่างๆ ได้

รูปที่ 2: รายการการดำเนินการ Step Functions

ดูการดำเนินการตัวอย่างเอกสารที่กำลังดำเนินการอยู่ ซึ่งคุณสามารถติดตามการดำเนินการของงานเวิร์กโฟลว์แต่ละรายการได้

การดำเนินการเวิร์กโฟลว์ Step Functions เอกสารเดียว

รูปที่ 3: การดำเนินการเวิร์กโฟลว์ Step Functions ของเอกสารหนึ่งรายการ

ค้นหา

เมื่อกระบวนการเสร็จสิ้น เราสามารถตรวจสอบได้ว่าเอกสารได้รับการจัดทำดัชนีในดัชนี OpenSearch หรือไม่

ในการทำเช่นนั้น ขั้นแรกเราสร้างผู้ใช้ Amazon Cognito Amazon Cognito ใช้สำหรับการตรวจสอบสิทธิ์ผู้ใช้กับดัชนี OpenSearch เลือกลิงก์ในเอาต์พุตจากการปรับใช้ cdk (หรือดูที่ไฟล์ การก่อตัวของ AWS Cloud เอาต์พุตใน AWS Management Console) ที่มีชื่อ OpenSearchWorkflow.CognitoUserPoolLink.

รูปที่ 4: กลุ่มผู้ใช้ Cognito

จากนั้นเลือก สร้างผู้ใช้ ซึ่งจะนำคุณไปยังหน้าเพื่อป้อนชื่อผู้ใช้และรหัสผ่านสำหรับการเข้าถึง OpenSearch Dashboard

รูปที่ 5: กล่องโต้ตอบการสร้างผู้ใช้ของ Cognito

หลังจากเลือก สร้างผู้ใช้คุณสามารถดำเนินการต่อไปยัง OpenSearch Dashboard ได้โดยคลิกที่ OpenSearchWorkflow.OpenSearchDashboard จากเอาต์พุตการปรับใช้ CDK เข้าสู่ระบบโดยใช้ชื่อผู้ใช้และรหัสผ่านที่สร้างไว้ก่อนหน้านี้ เข้าสู่ระบบครั้งแรกจะต้องเปลี่ยนรหัสผ่าน
เมื่อเข้าสู่ระบบ OpenSearch Dashboard แล้ว ให้เลือก การจัดการกอง ส่วนตามด้วย รูปแบบดัชนีเพื่อสร้างดัชนีการค้นหา

รูปที่ 6: การจัดการสแต็กแดชบอร์ด OpenSearch

รูปที่ 7: ภาพรวมรูปแบบดัชนี OpenSearch

ชื่อเริ่มต้นสำหรับดัชนีคือ เอกสารดัชนี และชื่อรูปแบบดัชนีของ เอกสารดัชนี* จะตรงกับสิ่งนั้น

รูปที่ 8: กำหนดรูปแบบดัชนี OpenSearch

หลังจากคลิก ขั้นตอนต่อไปให้เลือก การประทับเวลา เป็น เขตเวลา และ สร้างรูปแบบดัชนี.

รูปที่ 9: ฟิลด์เวลารูปแบบดัชนี OpenSearch

ตอนนี้จากเมนูให้เลือก ค้นพบ.

รูปที่ 10: OpenSearch Discover

ในกรณีส่วนใหญ่ คุณจะต้องเปลี่ยนช่วงเวลาตามการนำเข้าครั้งล่าสุด ค่าเริ่มต้นคือ 15 นาที และมักไม่มีกิจกรรมใดๆ ในช่วง 15 นาทีที่ผ่านมา ในตัวอย่างนี้ เปลี่ยนเป็น 15 วันเพื่อให้เห็นภาพการนำเข้า

รูปที่ 11: การเปลี่ยนแปลงช่วงเวลาของ OpenSearch

ตอนนี้คุณสามารถเริ่มค้นหาได้แล้ว นวนิยายได้รับการจัดทำดัชนี คุณสามารถค้นหาคำใดก็ได้เช่น เรียกฉันว่าอิชมาเอล และดูผลลัพธ์

รูปที่ 12: คำค้นหา OpenSearch

ในกรณีนี้ คำว่า เรียกฉันว่าอิชมาเอล ปรากฏในหน้าที่ 6 ของเอกสารที่ Uniform Resource Identifier (URI) ที่กำหนด ซึ่งชี้ไปยังตำแหน่ง Amazon S3 ของไฟล์ ทำให้ระบุเอกสารและค้นหาข้อมูลในคลังข้อมูลขนาดใหญ่ของเอกสาร PDF, TIFF หรือรูปภาพได้รวดเร็วยิ่งขึ้น เมื่อเทียบกับการข้ามเอกสารเหล่านั้นด้วยตนเอง

ทำงานในระดับ

เพื่อประเมินขนาดและระยะเวลาของกระบวนการจัดทำดัชนี ได้มีการทดสอบการใช้งานกับเอกสาร 93,997 ฉบับ และผลรวม 1,583,197 หน้า (เฉลี่ย 16.84 หน้า/เอกสาร และไฟล์ที่ใหญ่ที่สุดมี 3755 หน้า) ซึ่งทั้งหมดได้รับการจัดทำดัชนีไว้ใน OpenSearch การประมวลผลไฟล์ทั้งหมดและจัดทำดัชนีลงใน OpenSearch ใช้เวลา 5.5 ชั่วโมงในภูมิภาคสหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียเหนือ – us-east-1) โดยใช้ค่าเริ่มต้น โควต้าบริการ Amazon Textract. กราฟด้านล่างแสดงการทดสอบครั้งแรกเวลา 18 น. ตามด้วยการกินหลักเวลา 00 น. และเสร็จสิ้นภายในเวลา 21 น.

รูปที่ 13: ภาพรวมการจัดทำดัชนี OpenSearch

สำหรับการประมวลผลนั้น tcdk.SFExecutionsStartThrottle ถูกตั้งค่าเป็น executions_concurrency_threshold=550 ซึ่งหมายความว่าเวิร์กโฟลว์การประมวลผลเอกสารที่เกิดขึ้นพร้อมกันจะถูกจำกัดไว้ที่ 550 และคำขอที่เกินมาจะถูกจัดคิวไว้ที่ อเมซอน SQS คิวเข้าก่อนออกก่อน (FIFO) ซึ่งจะถูกระบายออกในภายหลังเมื่อเวิร์กโฟลว์ปัจจุบันเสร็จสิ้น ขีดจำกัด 550 ขึ้นอยู่กับโควต้า Textract Service 600 ในภูมิภาค us-east-1 ดังนั้นความลึกของคิวและอายุของข้อความที่เก่าที่สุดจึงเป็นตัวชี้วัดที่ควรค่าแก่การติดตาม

รูปที่ 14: การตรวจสอบ Amazon SQS

ในการทดสอบนี้ เอกสารทั้งหมดจะถูกอัปโหลดไปยัง Amazon S3 ในคราวเดียว ดังนั้น จำนวนข้อความโดยประมาณที่มองเห็นได้ มีการเพิ่มขึ้นอย่างมากและจากนั้นก็ลดลงอย่างช้าๆ เนื่องจากไม่มีการนำเข้าเอกสารใหม่ ที่ อายุโดยประมาณของข้อความที่เก่าแก่ที่สุด เพิ่มขึ้นจนกว่าข้อความทั้งหมดจะได้รับการประมวลผล Amazon SQS ระยะเวลาการเก็บรักษาข้อความ ตั้งไว้เป็น 14 วัน สำหรับการประมวลผล Backlog ที่ใช้เวลานานมากซึ่งอาจใช้เวลาประมวลผลเกิน 14 วัน ให้เริ่มต้นด้วยการประมวลผลชุดย่อยย่อยของเอกสารตัวแทน และตรวจสอบระยะเวลาของการดำเนินการเพื่อประมาณจำนวนเอกสารที่คุณสามารถส่งผ่านได้ก่อนที่จะเกิน 14 วัน ตัววัด Amazon SQS CloudWatch มีลักษณะคล้ายกันสำหรับกรณีการใช้งานในการประมวลผลเอกสารที่ค้างอยู่จำนวนมาก ซึ่งจะถูกนำเข้าในครั้งเดียวแล้วจึงประมวลผลอย่างสมบูรณ์ หากกรณีการใช้งานของคุณมีเอกสารไหลเข้ามาอย่างต่อเนื่อง เมตริกทั้งสอง จำนวนข้อความโดยประมาณที่มองเห็นได้ และ อายุโดยประมาณของข้อความที่เก่าแก่ที่สุด จะเป็นเส้นตรงมากขึ้น คุณยังสามารถใช้พารามิเตอร์เกณฑ์เพื่อผสมโหลดที่มั่นคงกับการประมวลผล Backlog และจัดสรรกำลังการผลิตตามความต้องการในการประมวลผลของคุณ

ตัวชี้วัดอื่นที่ต้องตรวจสอบคือความสมบูรณ์ของคลัสเตอร์ OpenSearch ซึ่งคุณควรตั้งค่าตาม แนวทางปฏิบัติที่ดีที่สุดในการดำเนินการสำหรับ Amazon OpenSearch Service. การปรับใช้เริ่มต้นใช้อินสแตนซ์ m6g.large.search

รูปที่ 15: การตรวจสอบ OpenSearch

นี่คือภาพรวมของตัวบ่งชี้ประสิทธิภาพหลัก (KPI) สำหรับคลัสเตอร์ OpenSearch ไม่มีข้อผิดพลาด อัตราข้อมูลการจัดทำดัชนีคงที่และเวลาแฝง

การดำเนินการเวิร์กโฟลว์ Step Functions จะแสดงสถานะการประมวลผลสำหรับเอกสารแต่ละฉบับ หากพบเห็นการประหารชีวิตใน ล้มเหลว สถานะ จากนั้นเลือกรายละเอียด ตัวชี้วัดที่ดีในการตรวจสอบคือ AWS แดชบอร์ดอัตโนมัติ CloudWatch สำหรับ Step Functions ซึ่งจะเปิดเผยบางส่วนของ Step Functions ตัววัด CloudWatch.

รูปที่ 16: Step Functions ติดตามการดำเนินการสำเร็จ

ในกราฟ AWS CloudWatch Dashboard นี้ คุณจะเห็นการดำเนินการ Step Functions ที่ประสบความสำเร็จเมื่อเวลาผ่านไป

รูปที่ 17: การดำเนินการตรวจสอบ OpenSearch ล้มเหลว

และอันนี้แสดงการดำเนินการที่ล้มเหลว สิ่งเหล่านี้คุ้มค่าที่จะตรวจสอบผ่านภาพรวม AWS Console Step Functions

ภาพหน้าจอต่อไปนี้แสดงตัวอย่างหนึ่งของการดำเนินการที่ล้มเหลวเนื่องจากไฟล์ต้นฉบับมีขนาด 0 ซึ่งสมเหตุสมผลเนื่องจากไฟล์ไม่มีเนื้อหาและไม่สามารถประมวลผลได้ สิ่งสำคัญคือต้องกรองกระบวนการที่ล้มเหลวและแสดงภาพความล้มเหลว เพื่อให้คุณกลับไปที่เอกสารต้นฉบับและตรวจสอบสาเหตุที่แท้จริง

รูปที่ 18: Step Functions ล้มเหลวในขั้นตอนการทำงาน

ความล้มเหลวอื่นๆ อาจรวมถึงเอกสารที่ไม่ใช่ประเภท mime: application/pdf, image/png, image/jpeg หรือ image/tiff เนื่องจาก Amazon Textract ไม่รองรับเอกสารประเภทอื่น

ราคา

ต้นทุนรวมในการนำเข้า 1,583,278 เพจถูกแบ่งตามบริการของ AWS ที่ใช้ในการปรับใช้ รายการต่อไปนี้ทำหน้าที่เป็นตัวเลขโดยประมาณ เนื่องจากต้นทุนจริงและระยะเวลาการประมวลผลจะแตกต่างกันไปขึ้นอยู่กับขนาดของเอกสาร จำนวนหน้าต่อเอกสาร ความหนาแน่นของข้อมูลในเอกสาร และภูมิภาค AWS อเมซอน ไดนาโมดีบี ใช้เงิน 0.55 ดอลลาร์, Amazon S3 3.33 ดอลลาร์, OpenSearch Service 14.71 ดอลลาร์, Step Functions 17.92 ดอลลาร์, AWS Lambda 28.95 ดอลลาร์ และ Amazon Textract 1,849.97 ดอลลาร์ นอกจากนี้ โปรดทราบว่าคลัสเตอร์ Amazon OpenSearch Service ที่ปรับใช้จะถูกเรียกเก็บเงินเป็นรายชั่วโมง และจะสะสมต้นทุนที่สูงขึ้นเมื่อใช้งานในช่วงระยะเวลาหนึ่ง

การปรับเปลี่ยน

เป็นไปได้มากว่าคุณต้องการแก้ไขการใช้งานและปรับแต่งสำหรับกรณีการใช้งานและเอกสารของคุณ การประชุมเชิงปฏิบัติการ ใช้การเรียนรู้ของเครื่องเพื่อทำให้เอกสารเป็นอัตโนมัติและประมวลผลตามขนาดที่ต้องการ นำเสนอภาพรวมที่ดีเกี่ยวกับวิธีการจัดการเวิร์กโฟลว์จริง การเปลี่ยนแปลงโฟลว์ และการเพิ่มส่วนประกอบใหม่ หากต้องการเพิ่มฟิลด์ที่กำหนดเองลงในดัชนี OpenSearch ให้ดูที่ SetMetaData งานในเวิร์กโฟลว์โดยใช้ ชุดรายการ-meta-data-opensearch ฟังก์ชัน AWS Lambda เพื่อเพิ่มข้อมูลเมตาลงในบริบท ซึ่งจะถูกเพิ่มเป็นฟิลด์ในดัชนี OpenSearch ข้อมูลเมตาดาต้าใดๆ จะกลายเป็นส่วนหนึ่งของดัชนี

การทำความสะอาด

ลบทรัพยากรตัวอย่างหากคุณไม่ต้องการใช้อีกต่อไป เพื่อหลีกเลี่ยงค่าใช้จ่ายในอนาคตโดยใช้คำสั่งต่อไปนี้:

cdk destroy OpenSearchWorkflow

ในสภาพแวดล้อมเดียวกันกับ cdk deploy สั่งการ. โปรดทราบว่าการดำเนินการนี้จะลบทุกอย่าง รวมถึงคลัสเตอร์ OpenSearch และเอกสารทั้งหมดและบัคเก็ต Amazon S3 หากคุณต้องการรักษาข้อมูลดังกล่าว ให้สำรองข้อมูลบัคเก็ต Amazon S3 ของคุณและ สร้างสแนปชอตดัชนีจากคลัสเตอร์ OpenSearch ของคุณ. หากคุณประมวลผลไฟล์จำนวนมาก คุณอาจต้องล้างบัคเก็ต Amazon S3 ก่อนโดยใช้ AWS Management Console (เช่น หลังจากที่คุณได้สำรองข้อมูลหรือซิงค์ไฟล์เหล่านั้นกับบัคเก็ตอื่นแล้ว หากคุณต้องการเก็บรักษาข้อมูล) เนื่องจากฟังก์ชันการล้างข้อมูล สามารถหมดเวลาแล้วทำลายสแต็ก AWS CloudFormation

สรุป

ในโพสต์นี้ เราได้แสดงให้คุณเห็นถึงวิธีการปรับใช้โซลูชันสแตกแบบเต็มเพื่อนำเข้าเอกสารจำนวนมากลงในดัชนี OpenSearch ซึ่งพร้อมใช้สำหรับกรณีการใช้งานการค้นหา มีการพูดคุยถึงองค์ประกอบแต่ละส่วนของการใช้งาน รวมถึงข้อควรพิจารณาในการปรับขนาด ต้นทุน และตัวเลือกการแก้ไข รหัสทั้งหมดสามารถเข้าถึงได้เป็น OpenSource บน GitHub เช่นเดียวกับ ตัวอย่าง IDP CDK และในขณะที่ โครงสร้าง IDP CDK เพื่อสร้างโซลูชันของคุณเองตั้งแต่เริ่มต้น ในขั้นตอนถัดไป คุณสามารถเริ่มแก้ไขเวิร์กโฟลว์ เพิ่มข้อมูลลงในเอกสารในดัชนีการค้นหา และสำรวจ การประชุมเชิงปฏิบัติการ IDP. โปรดแสดงความคิดเห็นด้านล่างเกี่ยวกับประสบการณ์และแนวคิดของคุณเพื่อขยายโซลูชันปัจจุบัน

เกี่ยวกับผู้เขียน

มาร์ติน เชด เป็น ML Product SA อาวุโสกับทีม Amazon Text เขามีประสบการณ์มากกว่า 20 ปีในด้านเทคโนโลยีที่เกี่ยวข้องกับอินเทอร์เน็ต วิศวกรรม และโซลูชั่นด้านสถาปัตยกรรม เขาร่วมงานกับ AWS ในปี 2014 โดยครั้งแรกจะแนะนำลูกค้า AWS รายใหญ่ที่สุดบางส่วนเกี่ยวกับการใช้บริการของ AWS อย่างมีประสิทธิภาพและปรับขนาดได้มากที่สุด และต่อมาก็เน้นที่ AI/ML โดยเน้นที่การมองเห็นด้วยคอมพิวเตอร์ ปัจจุบันเขาหมกมุ่นอยู่กับการดึงข้อมูลจากเอกสาร

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. ยานยนต์ / EVs, คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ChartPrime. ยกระดับเกมการซื้อขายของคุณด้วย ChartPrime เข้าถึงได้ที่นี่.
BlockOffsets การปรับปรุงการเป็นเจ้าของออฟเซ็ตด้านสิ่งแวดล้อมให้ทันสมัย เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/machine-learning/implement-smart-document-search-index-with-amazon-textract-and-amazon-opensearch/

ประทับเวลา: September 8, 2023

ประทับเวลา: ธันวาคม 16, 2022

เผยแพร่ซ้ำโดยเพลโต

เปิดใช้งานผู้พิการทางสายตาเพื่อฟังเอกสารโดยใช้ Amazon Texttract และ Amazon Polly

ระบุข้อมูลเชิงลึกที่สำคัญจากเอกสารข้อความผ่านการปรับแต่งอย่างละเอียดและ HPO ด้วย Amazon SageMaker JumpStart

ฝึกฝนและปรับใช้โมเดล ML ในสภาพแวดล้อมมัลติคลาวด์โดยใช้ Amazon SageMaker | อเมซอนเว็บเซอร์วิส

ขอแนะนำ Fortuna: ห้องสมุดสำหรับการวัดปริมาณที่ไม่แน่นอน

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้