สำหรับบริษัทยุคใหม่ที่ต้องจัดการกับเอกสารจำนวนมหาศาล เช่น สัญญา ใบแจ้งหนี้ ประวัติย่อ และรายงาน การประมวลผลและการดึงข้อมูลที่เกี่ยวข้องอย่างมีประสิทธิภาพถือเป็นสิ่งสำคัญในการรักษาความได้เปรียบทางการแข่งขัน อย่างไรก็ตาม วิธีการจัดเก็บและค้นหาเอกสารแบบดั้งเดิมอาจใช้เวลานานและมักส่งผลให้ต้องใช้ความพยายามอย่างมากในการค้นหาเอกสารเฉพาะเจาะจง โดยเฉพาะอย่างยิ่งเมื่อมีการเขียนด้วยลายมือ จะเกิดอะไรขึ้นหากมีวิธีประมวลผลเอกสารอย่างชาญฉลาดและทำให้สามารถค้นหาเอกสารเหล่านั้นได้ด้วยความแม่นยำสูง
สิ่งนี้ทำให้เป็นไปได้ด้วย Amazon Text, บริการประมวลผลเอกสารอัจฉริยะของ AWS ควบคู่ไปกับความสามารถในการค้นหาที่รวดเร็วของ OpenSearch. ในโพสต์นี้ เราจะพาคุณเดินทางเพื่อสร้างและปรับใช้โซลูชันการจัดทำดัชนีการค้นหาเอกสารที่ช่วยให้องค์กรของคุณควบคุมและแยกข้อมูลเชิงลึกจากเอกสารได้ดียิ่งขึ้น
ไม่ว่าคุณจะอยู่ในฝ่ายทรัพยากรบุคคลที่กำลังมองหาข้อกำหนดเฉพาะในสัญญาพนักงาน หรือนักวิเคราะห์ทางการเงินที่กำลังค้นหาใบแจ้งหนี้จำนวนมากเพื่อดึงข้อมูลการชำระเงิน โซลูชันนี้ได้รับการออกแบบมาเพื่อให้คุณเข้าถึงข้อมูลที่คุณต้องการได้อย่างรวดเร็วและแม่นยำอย่างที่ไม่เคยมีมาก่อน
ด้วยโซลูชันที่นำเสนอ เอกสารของคุณจะถูกนำเข้าโดยอัตโนมัติ เนื้อหาจะถูกแยกวิเคราะห์และจัดทำดัชนีเป็นดัชนี OpenSearch ที่ตอบสนองสูงและปรับขนาดได้
เราจะกล่าวถึงเทคโนโลยีต่างๆ เช่น Amazon Textract AWS แลมบ์ดา, บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน S3) และ บริการ Amazon OpenSearch สามารถรวมเข้ากับขั้นตอนการทำงานที่ประมวลผลเอกสารได้อย่างราบรื่น จากนั้นเราจะเจาะลึกในการจัดทำดัชนีข้อมูลนี้ใน OpenSearch และสาธิตความสามารถในการค้นหาที่พร้อมใช้งานเพียงปลายนิ้วสัมผัส
ไม่ว่าองค์กรของคุณกำลังก้าวแรกเข้าสู่ยุคการเปลี่ยนแปลงทางดิจิทัลหรือเป็นยักษ์ใหญ่ที่ก่อตั้งขึ้นที่ต้องการเพิ่มพลังในการเรียกข้อมูล คู่มือนี้เป็นเข็มทิศของคุณในการไขว่คว้าโอกาสที่ AWS Intelligent Document Processing และ OpenSearch นำเสนอ
พื้นที่ การดำเนินงาน ที่ใช้ในโพสต์นี้ใช้ โครงสร้าง Amazon Text IDP CDK – ส่วนประกอบ AWS Cloud Development Kit (CDK) เพื่อกำหนดโครงสร้างพื้นฐานสำหรับเวิร์กโฟลว์การประมวลผลเอกสารอัจฉริยะ (IDP) ซึ่งช่วยให้คุณสร้างเวิร์กโฟลว์ IDP ที่ปรับแต่งได้เฉพาะกรณีการใช้งาน โครงสร้างและตัวอย่าง IDP CDK คือชุดของส่วนประกอบเพื่อให้สามารถกำหนดกระบวนการ IDP บน AWS และเผยแพร่ไปยัง GitHub. แนวคิดหลักที่ใช้คือ AWS ชุดพัฒนาระบบคลาวด์ (CDK) โครงสร้างที่เกิดขึ้นจริง สแต็คซีดีเค และ ฟังก์ชันขั้นตอนของ AWS. การประชุมเชิงปฏิบัติการ ใช้การเรียนรู้ของเครื่องเพื่อทำให้เอกสารเป็นอัตโนมัติและประมวลผลตามขนาดที่ต้องการ เป็นจุดเริ่มต้นที่ดีในการเรียนรู้เพิ่มเติมเกี่ยวกับการกำหนดเวิร์กโฟลว์เอง และใช้เวิร์กโฟลว์ตัวอย่างอื่นๆ เป็นฐานสำหรับตัวคุณเอง
ภาพรวมโซลูชัน
ในโซลูชันนี้ เรามุ่งเน้นที่การสร้างดัชนีเอกสารลงในดัชนี OpenSearch เพื่อการค้นหาและดึงข้อมูลและเอกสารอย่างรวดเร็ว เอกสารในรูปแบบ PDF, TIFF, JPEG หรือ PNG จะอยู่ใน Amazon Simple Storage Service (Amazon S3) และจัดทำดัชนีลงใน OpenSearch ในภายหลังโดยใช้เวิร์กโฟลว์ Step Functions นี้
พื้นที่ OpenSearchWorkflow-ผู้ตัดสินใจ ดูเอกสารและตรวจสอบว่าเอกสารเป็นหนึ่งในประเภท MIME ที่รองรับ (PDF, TIFF, PNG หรือ JPEG) ประกอบด้วยหนึ่ง AWS แลมบ์ดา ฟังก์ชัน
พื้นที่ ตัวแยกเอกสาร สร้างชิ้นเอกสารได้สูงสุด 2500 หน้า ซึ่งหมายความว่าแม้ว่า Amazon Textract จะรองรับเอกสารได้มากถึง 3000 หน้า แต่คุณสามารถส่งผ่านเอกสารที่มีหลายหน้าได้ และกระบวนการนี้ยังคงทำงานได้ดีและใส่หน้าต่างๆ ลงใน OpenSearch และสร้างหมายเลขหน้าที่ถูกต้อง ที่ ตัวแยกเอกสาร ถูกนำไปใช้เป็นฟังก์ชัน AWS Lambda
พื้นที่ รัฐแผนที่ ประมวลผลแต่ละส่วนพร้อมกัน
พื้นที่ TextAsync งานเรียก Amazon Texttract โดยใช้อะซิงโครนัส อินเตอร์เฟซการเขียนโปรแกรมประยุกต์ (API) ตามมา ปฏิบัติที่ดีที่สุด ด้วยบริการแจ้งเตือนแบบง่ายของ Amazon (อเมซอน SNS) การแจ้งเตือน และ OutputConfig เพื่อจัดเก็บเอาต์พุต Amazon Textract JSON ไปยังบัคเก็ต Amazon S3 ของลูกค้า ประกอบด้วยฟังก์ชัน Amazon Lambda สองฟังก์ชัน: ฟังก์ชันหนึ่งสำหรับส่งเอกสารเพื่อการประมวลผล และอีกฟังก์ชันหนึ่งเรียกใช้การแจ้งเตือนของ Amazon SNS
เพราะว่า สารสกัดจากAsyงาน nc สามารถสร้างไฟล์เอาต์พุตที่มีการแบ่งหน้าได้หลายไฟล์ ข้อความ AsyncToJSON2 กระบวนการรวมเข้าด้วยกันเป็นไฟล์ JSON ไฟล์เดียว
บริบทของ Step Functions เต็มไปด้วยข้อมูลที่ควรจะค้นหาได้ในดัชนี OpenSearch ใน SetMetaData ขั้นตอน การใช้งานตัวอย่างเพิ่ม ORIGIN_FILE_NAME
, START_PAGE_NUMBER
และ ORIGIN_FILE_URI
. คุณสามารถเพิ่มข้อมูลใดๆ เพื่อเพิ่มประสบการณ์การค้นหา เช่น ข้อมูลจากระบบแบ็กเอนด์อื่นๆ รหัสเฉพาะ หรือข้อมูลการจัดหมวดหมู่
พื้นที่ สร้าง OpenSearchBatch นำเอาต์พุต JSON ของ Amazon Textract ที่สร้างขึ้นมารวมกับข้อมูลจากบริบทที่กำหนดโดย SetMetaData และเตรียมไฟล์ที่ได้รับการปรับให้เหมาะสมสำหรับการนำเข้าแบบแบตช์ไปยัง OpenSearch
ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร OpenSearchPushInriggไฟล์นำเข้าแบทช์นี้จะถูกส่งไปยังดัชนี OpenSearch และพร้อมสำหรับการค้นหา ฟังก์ชัน AWS Lambda นี้เชื่อมต่อกับ aws-แลมบ์ดา-opensearch สร้างจาก โซลูชัน AWS ไลบรารีที่ใช้อินสแตนซ์ m6g.large.search, OpenSearch เวอร์ชัน 2.7 และกำหนดค่า Amazon Elastic Block Service (อเมซอน EBS) ขนาดวอลุ่มเป็น General Purpose 2 (GP2) ขนาด 200 GB คุณสามารถเปลี่ยนการกำหนดค่า OpenSearch ได้ตามความต้องการของคุณ
สุดท้าย งาน OpenSearchMapping ขั้นตอน ล้างบริบท ซึ่งอาจเกินกว่านั้น โควต้าฟังก์ชันขั้นตอน of ขนาดอินพุตหรือเอาต์พุตสูงสุดสำหรับงาน สถานะ หรือการดำเนินการ.
เบื้องต้น
หากต้องการปรับใช้ตัวอย่าง คุณต้องมีบัญชี AWS ชุดพัฒนา AWS Cloud (AWS CDK)ต้องใช้เวอร์ชัน Python ปัจจุบันและ Docker คุณต้องมีสิทธิ์ในการปรับใช้เทมเพลต AWS CloudFormation กดไปที่ การลงทะเบียน Amazon Elastic Container (Amazon ECR) สร้าง การจัดการตัวตนและการเข้าถึงของ Amazon บทบาท (AWS IAM), ฟังก์ชัน Amazon Lambda, บัคเก็ต Amazon S3, Amazon Step Functions, คลัสเตอร์ Amazon OpenSearch และ Amazon Cognito Co กลุ่มผู้ใช้ ตรวจสอบให้แน่ใจว่าคุณ สภาพแวดล้อม AWS CLI ได้รับการตั้งค่าแล้ว โดยได้รับอนุญาตตามนั้น
คุณยังสามารถหมุนได้ AWS Cloud9 อินสแตนซ์ที่ติดตั้ง AWS CDK, Python และ Docker ไว้ล่วงหน้าเพื่อเริ่มการปรับใช้
คำแนะนำแบบ
การใช้งาน
- หลังจากที่คุณตั้งค่าสิ่งที่จำเป็นต้องมีแล้ว คุณต้องโคลนที่เก็บก่อน:
- จากนั้น cd ลงในโฟลเดอร์ที่เก็บและติดตั้งการอ้างอิง:
- ปรับใช้สแต็ก OpenSearchWorkflow:
การปรับใช้ใช้เวลาประมาณ 25 นาทีด้วยการตั้งค่าการกำหนดค่าเริ่มต้นจากตัวอย่าง GitHub และสร้างเวิร์กโฟลว์ Step Functions ซึ่งจะถูกเรียกใช้เมื่อเอกสารถูกวางที่บัคเก็ต/คำนำหน้า Amazon S3 และต่อมาได้รับการประมวลผลจนกระทั่งเนื้อหาของเอกสารได้รับการจัดทำดัชนี ในคลัสเตอร์ OpenSearch
ต่อไปนี้คือผลลัพธ์ตัวอย่างซึ่งรวมถึงลิงก์ที่เป็นประโยชน์และข้อมูลที่สร้างขึ้นcdk deploy OpenSearchWorkflow
คำสั่ง:
ข้อมูลนี้มีอยู่ใน AWS CloudFormation Console ด้วย
เมื่อมีการวางเอกสารใหม่ไว้ใต้ OpenSearchWorkflow.DocumentUploadLocationเวิร์กโฟลว์ Step Functions ใหม่สำหรับเอกสารนี้เริ่มต้นแล้ว
หากต้องการตรวจสอบสถานะของเอกสารนี้ ให้ไปที่ OpenSearchWorkflow.StepFunctionFlowLink ให้ลิงก์ไปยังรายการการดำเนินการ StepFunction ใน AWS Management Console ซึ่งแสดงสถานะของการประมวลผลเอกสารสำหรับแต่ละเอกสารที่อัปโหลดไปยัง Amazon S3 บทช่วยสอน การดูและการดีบักการดำเนินการบนคอนโซล Step Functions ให้ภาพรวมของส่วนประกอบและมุมมองในคอนโซล AWS
การทดสอบ
- ทดสอบครั้งแรกโดยใช้ไฟล์ตัวอย่าง
- หลังจากเลือกลิงก์ไปยังเวิร์กโฟลว์ StepFunction หรือเปิด AWS Management Console และไปที่หน้าบริการ Step Functions คุณสามารถดูการเรียกใช้เวิร์กโฟลว์ต่างๆ ได้
- ดูการดำเนินการตัวอย่างเอกสารที่กำลังดำเนินการอยู่ ซึ่งคุณสามารถติดตามการดำเนินการของงานเวิร์กโฟลว์แต่ละรายการได้
ค้นหา
เมื่อกระบวนการเสร็จสิ้น เราสามารถตรวจสอบได้ว่าเอกสารได้รับการจัดทำดัชนีในดัชนี OpenSearch หรือไม่
- ในการทำเช่นนั้น ขั้นแรกเราสร้างผู้ใช้ Amazon Cognito Amazon Cognito ใช้สำหรับการตรวจสอบสิทธิ์ผู้ใช้กับดัชนี OpenSearch เลือกลิงก์ในเอาต์พุตจากการปรับใช้ cdk (หรือดูที่ไฟล์ การก่อตัวของ AWS Cloud เอาต์พุตใน AWS Management Console) ที่มีชื่อ OpenSearchWorkflow.CognitoUserPoolLink.
- จากนั้นเลือก สร้างผู้ใช้ ซึ่งจะนำคุณไปยังหน้าเพื่อป้อนชื่อผู้ใช้และรหัสผ่านสำหรับการเข้าถึง OpenSearch Dashboard
- หลังจากเลือก สร้างผู้ใช้คุณสามารถดำเนินการต่อไปยัง OpenSearch Dashboard ได้โดยคลิกที่ OpenSearchWorkflow.OpenSearchDashboard จากเอาต์พุตการปรับใช้ CDK เข้าสู่ระบบโดยใช้ชื่อผู้ใช้และรหัสผ่านที่สร้างไว้ก่อนหน้านี้ เข้าสู่ระบบครั้งแรกจะต้องเปลี่ยนรหัสผ่าน
- เมื่อเข้าสู่ระบบ OpenSearch Dashboard แล้ว ให้เลือก การจัดการกอง ส่วนตามด้วย รูปแบบดัชนีเพื่อสร้างดัชนีการค้นหา
- ชื่อเริ่มต้นสำหรับดัชนีคือ เอกสารดัชนี และชื่อรูปแบบดัชนีของ เอกสารดัชนี* จะตรงกับสิ่งนั้น
- หลังจากคลิก ขั้นตอนต่อไปให้เลือก การประทับเวลา เป็น เขตเวลา และ สร้างรูปแบบดัชนี.
- ตอนนี้จากเมนูให้เลือก ค้นพบ.
ในกรณีส่วนใหญ่ คุณจะต้องเปลี่ยนช่วงเวลาตามการนำเข้าครั้งล่าสุด ค่าเริ่มต้นคือ 15 นาที และมักไม่มีกิจกรรมใดๆ ในช่วง 15 นาทีที่ผ่านมา ในตัวอย่างนี้ เปลี่ยนเป็น 15 วันเพื่อให้เห็นภาพการนำเข้า
- ตอนนี้คุณสามารถเริ่มค้นหาได้แล้ว นวนิยายได้รับการจัดทำดัชนี คุณสามารถค้นหาคำใดก็ได้เช่น เรียกฉันว่าอิชมาเอล และดูผลลัพธ์
ในกรณีนี้ คำว่า เรียกฉันว่าอิชมาเอล ปรากฏในหน้าที่ 6 ของเอกสารที่ Uniform Resource Identifier (URI) ที่กำหนด ซึ่งชี้ไปยังตำแหน่ง Amazon S3 ของไฟล์ ทำให้ระบุเอกสารและค้นหาข้อมูลในคลังข้อมูลขนาดใหญ่ของเอกสาร PDF, TIFF หรือรูปภาพได้รวดเร็วยิ่งขึ้น เมื่อเทียบกับการข้ามเอกสารเหล่านั้นด้วยตนเอง
ทำงานในระดับ
เพื่อประเมินขนาดและระยะเวลาของกระบวนการจัดทำดัชนี ได้มีการทดสอบการใช้งานกับเอกสาร 93,997 ฉบับ และผลรวม 1,583,197 หน้า (เฉลี่ย 16.84 หน้า/เอกสาร และไฟล์ที่ใหญ่ที่สุดมี 3755 หน้า) ซึ่งทั้งหมดได้รับการจัดทำดัชนีไว้ใน OpenSearch การประมวลผลไฟล์ทั้งหมดและจัดทำดัชนีลงใน OpenSearch ใช้เวลา 5.5 ชั่วโมงในภูมิภาคสหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียเหนือ – us-east-1) โดยใช้ค่าเริ่มต้น โควต้าบริการ Amazon Textract. กราฟด้านล่างแสดงการทดสอบครั้งแรกเวลา 18 น. ตามด้วยการกินหลักเวลา 00 น. และเสร็จสิ้นภายในเวลา 21 น.
สำหรับการประมวลผลนั้น tcdk.SFExecutionsStartThrottle ถูกตั้งค่าเป็น executions_concurrency_threshold
=550 ซึ่งหมายความว่าเวิร์กโฟลว์การประมวลผลเอกสารที่เกิดขึ้นพร้อมกันจะถูกจำกัดไว้ที่ 550 และคำขอที่เกินมาจะถูกจัดคิวไว้ที่ อเมซอน SQS คิวเข้าก่อนออกก่อน (FIFO) ซึ่งจะถูกระบายออกในภายหลังเมื่อเวิร์กโฟลว์ปัจจุบันเสร็จสิ้น ขีดจำกัด 550 ขึ้นอยู่กับโควต้า Textract Service 600 ในภูมิภาค us-east-1 ดังนั้นความลึกของคิวและอายุของข้อความที่เก่าที่สุดจึงเป็นตัวชี้วัดที่ควรค่าแก่การติดตาม
ในการทดสอบนี้ เอกสารทั้งหมดจะถูกอัปโหลดไปยัง Amazon S3 ในคราวเดียว ดังนั้น จำนวนข้อความโดยประมาณที่มองเห็นได้ มีการเพิ่มขึ้นอย่างมากและจากนั้นก็ลดลงอย่างช้าๆ เนื่องจากไม่มีการนำเข้าเอกสารใหม่ ที่ อายุโดยประมาณของข้อความที่เก่าแก่ที่สุด เพิ่มขึ้นจนกว่าข้อความทั้งหมดจะได้รับการประมวลผล Amazon SQS ระยะเวลาการเก็บรักษาข้อความ ตั้งไว้เป็น 14 วัน สำหรับการประมวลผล Backlog ที่ใช้เวลานานมากซึ่งอาจใช้เวลาประมวลผลเกิน 14 วัน ให้เริ่มต้นด้วยการประมวลผลชุดย่อยย่อยของเอกสารตัวแทน และตรวจสอบระยะเวลาของการดำเนินการเพื่อประมาณจำนวนเอกสารที่คุณสามารถส่งผ่านได้ก่อนที่จะเกิน 14 วัน ตัววัด Amazon SQS CloudWatch มีลักษณะคล้ายกันสำหรับกรณีการใช้งานในการประมวลผลเอกสารที่ค้างอยู่จำนวนมาก ซึ่งจะถูกนำเข้าในครั้งเดียวแล้วจึงประมวลผลอย่างสมบูรณ์ หากกรณีการใช้งานของคุณมีเอกสารไหลเข้ามาอย่างต่อเนื่อง เมตริกทั้งสอง จำนวนข้อความโดยประมาณที่มองเห็นได้ และ อายุโดยประมาณของข้อความที่เก่าแก่ที่สุด จะเป็นเส้นตรงมากขึ้น คุณยังสามารถใช้พารามิเตอร์เกณฑ์เพื่อผสมโหลดที่มั่นคงกับการประมวลผล Backlog และจัดสรรกำลังการผลิตตามความต้องการในการประมวลผลของคุณ
ตัวชี้วัดอื่นที่ต้องตรวจสอบคือความสมบูรณ์ของคลัสเตอร์ OpenSearch ซึ่งคุณควรตั้งค่าตาม แนวทางปฏิบัติที่ดีที่สุดในการดำเนินการสำหรับ Amazon OpenSearch Service. การปรับใช้เริ่มต้นใช้อินสแตนซ์ m6g.large.search
นี่คือภาพรวมของตัวบ่งชี้ประสิทธิภาพหลัก (KPI) สำหรับคลัสเตอร์ OpenSearch ไม่มีข้อผิดพลาด อัตราข้อมูลการจัดทำดัชนีคงที่และเวลาแฝง
การดำเนินการเวิร์กโฟลว์ Step Functions จะแสดงสถานะการประมวลผลสำหรับเอกสารแต่ละฉบับ หากพบเห็นการประหารชีวิตใน ล้มเหลว สถานะ จากนั้นเลือกรายละเอียด ตัวชี้วัดที่ดีในการตรวจสอบคือ AWS แดชบอร์ดอัตโนมัติ CloudWatch สำหรับ Step Functions ซึ่งจะเปิดเผยบางส่วนของ Step Functions ตัววัด CloudWatch.
ในกราฟ AWS CloudWatch Dashboard นี้ คุณจะเห็นการดำเนินการ Step Functions ที่ประสบความสำเร็จเมื่อเวลาผ่านไป
และอันนี้แสดงการดำเนินการที่ล้มเหลว สิ่งเหล่านี้คุ้มค่าที่จะตรวจสอบผ่านภาพรวม AWS Console Step Functions
ภาพหน้าจอต่อไปนี้แสดงตัวอย่างหนึ่งของการดำเนินการที่ล้มเหลวเนื่องจากไฟล์ต้นฉบับมีขนาด 0 ซึ่งสมเหตุสมผลเนื่องจากไฟล์ไม่มีเนื้อหาและไม่สามารถประมวลผลได้ สิ่งสำคัญคือต้องกรองกระบวนการที่ล้มเหลวและแสดงภาพความล้มเหลว เพื่อให้คุณกลับไปที่เอกสารต้นฉบับและตรวจสอบสาเหตุที่แท้จริง
ความล้มเหลวอื่นๆ อาจรวมถึงเอกสารที่ไม่ใช่ประเภท mime: application/pdf, image/png, image/jpeg หรือ image/tiff เนื่องจาก Amazon Textract ไม่รองรับเอกสารประเภทอื่น
ราคา
ต้นทุนรวมในการนำเข้า 1,583,278 เพจถูกแบ่งตามบริการของ AWS ที่ใช้ในการปรับใช้ รายการต่อไปนี้ทำหน้าที่เป็นตัวเลขโดยประมาณ เนื่องจากต้นทุนจริงและระยะเวลาการประมวลผลจะแตกต่างกันไปขึ้นอยู่กับขนาดของเอกสาร จำนวนหน้าต่อเอกสาร ความหนาแน่นของข้อมูลในเอกสาร และภูมิภาค AWS อเมซอน ไดนาโมดีบี ใช้เงิน 0.55 ดอลลาร์, Amazon S3 3.33 ดอลลาร์, OpenSearch Service 14.71 ดอลลาร์, Step Functions 17.92 ดอลลาร์, AWS Lambda 28.95 ดอลลาร์ และ Amazon Textract 1,849.97 ดอลลาร์ นอกจากนี้ โปรดทราบว่าคลัสเตอร์ Amazon OpenSearch Service ที่ปรับใช้จะถูกเรียกเก็บเงินเป็นรายชั่วโมง และจะสะสมต้นทุนที่สูงขึ้นเมื่อใช้งานในช่วงระยะเวลาหนึ่ง
การปรับเปลี่ยน
เป็นไปได้มากว่าคุณต้องการแก้ไขการใช้งานและปรับแต่งสำหรับกรณีการใช้งานและเอกสารของคุณ การประชุมเชิงปฏิบัติการ ใช้การเรียนรู้ของเครื่องเพื่อทำให้เอกสารเป็นอัตโนมัติและประมวลผลตามขนาดที่ต้องการ นำเสนอภาพรวมที่ดีเกี่ยวกับวิธีการจัดการเวิร์กโฟลว์จริง การเปลี่ยนแปลงโฟลว์ และการเพิ่มส่วนประกอบใหม่ หากต้องการเพิ่มฟิลด์ที่กำหนดเองลงในดัชนี OpenSearch ให้ดูที่ SetMetaData งานในเวิร์กโฟลว์โดยใช้ ชุดรายการ-meta-data-opensearch ฟังก์ชัน AWS Lambda เพื่อเพิ่มข้อมูลเมตาลงในบริบท ซึ่งจะถูกเพิ่มเป็นฟิลด์ในดัชนี OpenSearch ข้อมูลเมตาดาต้าใดๆ จะกลายเป็นส่วนหนึ่งของดัชนี
การทำความสะอาด
ลบทรัพยากรตัวอย่างหากคุณไม่ต้องการใช้อีกต่อไป เพื่อหลีกเลี่ยงค่าใช้จ่ายในอนาคตโดยใช้คำสั่งต่อไปนี้:
ในสภาพแวดล้อมเดียวกันกับ cdk deploy
สั่งการ. โปรดทราบว่าการดำเนินการนี้จะลบทุกอย่าง รวมถึงคลัสเตอร์ OpenSearch และเอกสารทั้งหมดและบัคเก็ต Amazon S3 หากคุณต้องการรักษาข้อมูลดังกล่าว ให้สำรองข้อมูลบัคเก็ต Amazon S3 ของคุณและ สร้างสแนปชอตดัชนีจากคลัสเตอร์ OpenSearch ของคุณ. หากคุณประมวลผลไฟล์จำนวนมาก คุณอาจต้องล้างบัคเก็ต Amazon S3 ก่อนโดยใช้ AWS Management Console (เช่น หลังจากที่คุณได้สำรองข้อมูลหรือซิงค์ไฟล์เหล่านั้นกับบัคเก็ตอื่นแล้ว หากคุณต้องการเก็บรักษาข้อมูล) เนื่องจากฟังก์ชันการล้างข้อมูล สามารถหมดเวลาแล้วทำลายสแต็ก AWS CloudFormation
สรุป
ในโพสต์นี้ เราได้แสดงให้คุณเห็นถึงวิธีการปรับใช้โซลูชันสแตกแบบเต็มเพื่อนำเข้าเอกสารจำนวนมากลงในดัชนี OpenSearch ซึ่งพร้อมใช้สำหรับกรณีการใช้งานการค้นหา มีการพูดคุยถึงองค์ประกอบแต่ละส่วนของการใช้งาน รวมถึงข้อควรพิจารณาในการปรับขนาด ต้นทุน และตัวเลือกการแก้ไข รหัสทั้งหมดสามารถเข้าถึงได้เป็น OpenSource บน GitHub เช่นเดียวกับ ตัวอย่าง IDP CDK และในขณะที่ โครงสร้าง IDP CDK เพื่อสร้างโซลูชันของคุณเองตั้งแต่เริ่มต้น ในขั้นตอนถัดไป คุณสามารถเริ่มแก้ไขเวิร์กโฟลว์ เพิ่มข้อมูลลงในเอกสารในดัชนีการค้นหา และสำรวจ การประชุมเชิงปฏิบัติการ IDP. โปรดแสดงความคิดเห็นด้านล่างเกี่ยวกับประสบการณ์และแนวคิดของคุณเพื่อขยายโซลูชันปัจจุบัน
เกี่ยวกับผู้เขียน
มาร์ติน เชด เป็น ML Product SA อาวุโสกับทีม Amazon Text เขามีประสบการณ์มากกว่า 20 ปีในด้านเทคโนโลยีที่เกี่ยวข้องกับอินเทอร์เน็ต วิศวกรรม และโซลูชั่นด้านสถาปัตยกรรม เขาร่วมงานกับ AWS ในปี 2014 โดยครั้งแรกจะแนะนำลูกค้า AWS รายใหญ่ที่สุดบางส่วนเกี่ยวกับการใช้บริการของ AWS อย่างมีประสิทธิภาพและปรับขนาดได้มากที่สุด และต่อมาก็เน้นที่ AI/ML โดยเน้นที่การมองเห็นด้วยคอมพิวเตอร์ ปัจจุบันเขาหมกมุ่นอยู่กับการดึงข้อมูลจากเอกสาร
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. ยานยนต์ / EVs, คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ChartPrime. ยกระดับเกมการซื้อขายของคุณด้วย ChartPrime เข้าถึงได้ที่นี่.
- BlockOffsets การปรับปรุงการเป็นเจ้าของออฟเซ็ตด้านสิ่งแวดล้อมให้ทันสมัย เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/implement-smart-document-search-index-with-amazon-textract-and-amazon-opensearch/
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- $3
- $ ขึ้น
- 1
- 10
- 100
- 11
- 12
- 13
- 14
- 15%
- 16
- 17
- 20
- 200
- 2014
- 216
- 220
- 25
- 30
- 3000
- 32
- 33
- 7
- 700
- 8
- 820
- 84
- 9
- a
- เกี่ยวกับเรา
- เข้า
- สามารถเข้าถึงได้
- การเข้าถึง
- ตาม
- ลงชื่อเข้าใช้
- ซื้อสะสม
- ความถูกต้อง
- ข้าม
- อยากทำกิจกรรม
- ที่เกิดขึ้นจริง
- เพิ่ม
- ที่เพิ่ม
- เพิ่ม
- เพิ่ม
- หลังจาก
- กับ
- อายุ
- AI / ML
- ทั้งหมด
- จัดสรร
- อนุญาต
- ด้วย
- อเมซอน
- Amazon Cognito Co
- บริการ Amazon OpenSearch
- Amazon Text
- Amazon Web Services
- an
- นักวิเคราะห์
- และ
- ใด
- API
- ปรากฏ
- ประมาณ
- เป็น
- รอบ
- AS
- At
- การยืนยันตัวตน
- โดยอัตโนมัติ
- อัตโนมัติ
- อัตโนมัติ
- ใช้ได้
- เฉลี่ย
- หลีกเลี่ยง
- AWS
- การก่อตัวของ AWS Cloud
- AWS แลมบ์ดา
- คอนโซลการจัดการ AWS
- กลับ
- แบ็กเอนด์
- สำรอง
- ฐาน
- ตาม
- BE
- เพราะ
- กลายเป็น
- ก่อน
- กำลัง
- ด้านล่าง
- ที่ดีที่สุด
- ปฏิบัติที่ดีที่สุด
- ดีกว่า
- ระวัง
- ปิดกั้น
- ทั้งสอง
- สร้าง
- ปุ่ม
- by
- โทร
- CAN
- ความสามารถในการ
- ความจุ
- กรณี
- กรณี
- ก่อให้เกิด
- CD
- เปลี่ยนแปลง
- การเปลี่ยนแปลง
- เปลี่ยนแปลง
- ตรวจสอบ
- เลือก
- การจัดหมวดหมู่
- เมฆ
- Cluster
- รหัส
- ชุด
- รวม
- ความเห็น
- บริษัท
- เมื่อเทียบกับ
- เข็มทิศ
- การแข่งขัน
- ส่วนประกอบ
- คอมพิวเตอร์
- วิสัยทัศน์คอมพิวเตอร์
- แนวความคิด
- พร้อมกัน
- องค์ประกอบ
- การกำหนดค่า
- งานที่เชื่อมต่อ
- การพิจารณา
- ประกอบ
- ปลอบใจ
- คงที่
- สร้าง
- ภาชนะ
- เนื้อหา
- สิ่งแวดล้อม
- ต่อ
- สัญญา
- แก้ไข
- ราคา
- ค่าใช้จ่าย
- ได้
- ควบคู่
- หน้าปก
- สร้าง
- ที่สร้างขึ้น
- สร้าง
- วิกฤติ
- ปัจจุบัน
- ขณะนี้
- ประเพณี
- ลูกค้า
- ลูกค้า
- ปรับแต่งได้
- ปรับแต่ง
- หน้าปัด
- แดชบอร์ด
- ข้อมูล
- วัน
- จัดการ
- ลดลง
- ค่าเริ่มต้น
- กำหนด
- คำนิยาม
- สาธิต
- การอ้างอิง
- ทั้งนี้ขึ้นอยู่กับ
- ปรับใช้
- นำไปใช้
- การใช้งาน
- ความลึก
- ทำลาย
- รายละเอียด
- พัฒนาการ
- บทสนทนา
- ต่าง
- ดิจิตอล
- แปลงดิจิตอล
- ค้นพบ
- กล่าวถึง
- แสดง
- การดำน้ำ
- do
- นักเทียบท่า
- เอกสาร
- เอกสาร
- ทำ
- การระบายน้ำ
- สอง
- ระยะเวลา
- e
- แต่ละ
- ตะวันออก
- ขอบ
- ที่มีประสิทธิภาพ
- อย่างมีประสิทธิภาพ
- ความพยายาม
- ลูกจ้าง
- ให้อำนาจ
- ทำให้สามารถ
- ชั้นเยี่ยม
- มหาศาล
- ประเทือง
- อุดม
- เข้าสู่
- สิ่งแวดล้อม
- ยุค
- ข้อผิดพลาด
- โดยเฉพาะอย่างยิ่ง
- ที่จัดตั้งขึ้น
- ประมาณการ
- แม้
- ทุกอย่าง
- ตัวอย่าง
- เกินกว่า
- มากกว่า
- ส่วนเกิน
- การปฏิบัติ
- แสดง
- ประสบการณ์
- สำรวจ
- สารสกัด
- ล้มเหลว
- FAST
- เร็วขึ้น
- สนาม
- สาขา
- รูป
- เนื้อไม่มีมัน
- ไฟล์
- กรอง
- สุดท้าย
- ทางการเงิน
- หา
- ปลาย
- ปลายนิ้ว
- เสร็จสิ้น
- ชื่อจริง
- ก้าวแรก
- ครั้งแรก
- ไหล
- โฟกัส
- มุ่งเน้น
- ปฏิบัติตาม
- ตาม
- ดังต่อไปนี้
- สำหรับ
- รูป
- ราคาเริ่มต้นที่
- เต็ม
- กองเต็ม
- อย่างเต็มที่
- ฟังก์ชัน
- ฟังก์ชั่น
- อนาคต
- General
- สร้าง
- สร้าง
- ได้รับ
- ยักษ์
- GitHub
- กำหนด
- Go
- ไป
- ดี
- กราฟ
- ให้คำแนะนำ
- เทียม
- มี
- มี
- he
- สุขภาพ
- จะช่วยให้
- จุดสูง
- สูงกว่า
- อย่างสูง
- ชั่วโมง
- ชั่วโมง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTML
- HTTPS
- เป็นมนุษย์
- ทรัพยากรมนุษย์
- i
- ความคิด
- ระบุ
- แยกแยะ
- เอกลักษณ์
- รหัส
- if
- ภาพ
- การดำเนินการ
- การดำเนินงาน
- การดำเนินการ
- นำเข้า
- สำคัญ
- in
- ประกอบด้วย
- รวมทั้ง
- เพิ่ม
- เพิ่มขึ้น
- ดัชนี
- การจัดทำดัชนี
- ตัวชี้วัด
- เป็นรายบุคคล
- ข้อมูล
- โครงสร้างพื้นฐาน
- แรกเริ่ม
- เริ่มต้น
- อินพุต
- ข้อมูลเชิงลึก
- ติดตั้ง
- ตัวอย่าง
- แบบบูรณาการ
- ฉลาด
- การประมวลผลเอกสารอัจฉริยะ
- เข้าไป
- งานค้นคว้า
- เรียก
- IT
- เข้าร่วม
- การเดินทาง
- jpg
- JSON
- เก็บ
- คีย์
- ใหญ่
- ใหญ่ที่สุด
- ชื่อสกุล
- ความแอบแฝง
- ต่อมา
- เรียนรู้
- การเรียนรู้
- ห้องสมุด
- กดไลก์
- น่าจะ
- LINK
- การเชื่อมโยง
- รายการ
- โหลด
- ที่ตั้ง
- เข้า
- เข้าสู่ระบบ
- นาน
- อีกต่อไป
- ดู
- ที่ต้องการหา
- LOOKS
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- หลัก
- เก็บรักษา
- การบำรุงรักษา
- ทำ
- ทำให้
- การจัดการ
- ด้วยมือ
- หลาย
- การจับคู่
- สูงสุด
- อาจ..
- me
- วิธี
- เมนู
- ข่าวสาร
- ข้อความ
- วิธีการ
- เมตริก
- ตัวชี้วัด
- อาจ
- ใจ
- นาที
- ผสม
- ML
- ทันสมัย
- แก้ไข
- การตรวจสอบ
- การตรวจสอบ
- ข้อมูลเพิ่มเติม
- มากที่สุด
- ภูเขา
- หลาย
- ชื่อ
- ที่มีชื่อ
- การนำทาง
- จำเป็นต้อง
- ความต้องการ
- ใหม่
- ถัดไป
- ไม่
- การประกาศ
- การแจ้งเตือน
- นวนิยาย
- จำนวน
- ตัวเลข
- of
- เสนอ
- มักจะ
- เก่าแก่ที่สุด
- on
- ครั้งเดียว
- ONE
- เปิด
- โอเพ่นซอร์ส
- โอกาส
- การปรับให้เหมาะสม
- Options
- or
- ใบสั่ง
- organizacja
- ที่มา
- อื่นๆ
- มิฉะนั้น
- ออก
- เอาท์พุต
- เกิน
- ภาพรวม
- ของตนเอง
- หน้า
- หน้า
- Parallel
- พารามิเตอร์
- ส่วนหนึ่ง
- ส่ง
- รหัสผ่าน
- แบบแผน
- รูปแบบ
- การชำระเงิน
- รูปแบบไฟล์ PDF
- ต่อ
- การปฏิบัติ
- ระยะเวลา
- สิทธิ์
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- กรุณา
- จุด
- จุด
- สระ
- เป็นไปได้
- โพสต์
- การปฏิบัติ
- เตรียมความพร้อม
- ข้อกำหนดเบื้องต้น
- นำเสนอ
- ก่อนหน้านี้
- กระบวนการ
- แปรรูปแล้ว
- กระบวนการ
- การประมวลผล
- ก่อ
- ผลิตภัณฑ์
- การเขียนโปรแกรม
- เสนอ
- ให้
- การตีพิมพ์
- วัตถุประสงค์
- ผลัก
- ใส่
- ทำให้
- หลาม
- รวดเร็ว
- อย่างรวดเร็ว
- คะแนน
- พร้อม
- ภูมิภาค
- รายงาน
- กรุ
- ตัวแทน
- การร้องขอ
- จำเป็นต้องใช้
- ความต้องการ
- ทรัพยากร
- แหล่งข้อมูล
- การตอบสนอง
- ผล
- ผลสอบ
- รักษา
- บทบาท
- ราก
- วิ่ง
- วิ่ง
- SA
- เดียวกัน
- ที่ปรับขนาดได้
- ขนาด
- ปรับ
- รอยขีดข่วน
- ได้อย่างลงตัว
- ค้นหา
- ค้นหา
- Section
- เห็น
- ที่กำลังมองหา
- การเลือก
- ระดับอาวุโส
- ความรู้สึก
- ส่ง
- ให้บริการอาหาร
- บริการ
- บริการ
- ชุด
- การตั้งค่า
- การติดตั้ง
- น่า
- โชว์
- แสดงให้เห็นว่า
- แสดงให้เห็นว่า
- คล้ายคลึงกัน
- ง่าย
- ขนาด
- ช้า
- มีขนาดเล็กกว่า
- สมาร์ท
- ภาพย่อ
- So
- ทางออก
- โซลูชัน
- บาง
- แหล่ง
- โดยเฉพาะ
- ความเร็ว
- สปิน
- แยก
- กอง
- เริ่มต้น
- ข้อความที่เริ่ม
- ที่เริ่มต้น
- สถานะ
- สหรัฐอเมริกา
- Status
- คงที่
- ขั้นตอน
- ขั้นตอน
- ยังคง
- การเก็บรักษา
- จัดเก็บ
- การเก็บรักษา
- ส่ง
- ต่อจากนั้น
- ที่ประสบความสำเร็จ
- อย่างเช่น
- ที่สนับสนุน
- รองรับ
- แน่ใจ
- ระบบ
- ปรับปรุง
- เอา
- ใช้เวลา
- การ
- งาน
- งาน
- ทีม
- เทคโนโลยี
- แม่แบบ
- ระยะ
- เงื่อนไขการใช้บริการ
- ทดสอบ
- การทดสอบ
- ข้อความ
- ที่
- พื้นที่
- กราฟ
- ข้อมูล
- ที่มา
- รัฐ
- ของพวกเขา
- พวกเขา
- แล้วก็
- ที่นั่น
- ดังนั้น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- นี้
- แต่?
- ธรณีประตู
- ตลอด
- ไปยัง
- เวลา
- ต้องใช้เวลามาก
- ไปยัง
- เอา
- รวม
- แบบดั้งเดิม
- การแปลง
- ทริกเกอร์
- เกี่ยวกับการสอน
- สอง
- ชนิด
- ชนิด
- ภายใต้
- เป็นประวัติการณ์
- จนกระทั่ง
- อัปโหลด
- us
- ใช้
- ใช้กรณี
- มือสอง
- ผู้ใช้งาน
- ผู้ใช้
- ใช้
- การใช้
- ใช้ประโยชน์
- ตรวจสอบความถูกต้อง
- ความคุ้มค่า
- รุ่น
- มาก
- ยอดวิว
- virginia
- วิสัยทัศน์
- เห็นภาพ
- ปริมาณ
- ไดรฟ์
- ต้องการ
- คือ
- ทาง..
- we
- เว็บ
- บริการเว็บ
- ดี
- คือ
- อะไร
- เมื่อ
- ที่
- จะ
- กับ
- เวิร์กโฟลว์
- ขั้นตอนการทำงาน
- โรงงาน
- การประชุมเชิงปฏิบัติการ
- การประชุมเชิงปฏิบัติการ
- คุ้มค่า
- ปี
- คุณ
- ของคุณ
- ลมทะเล