ลูกค้า AWS ในด้านการดูแลสุขภาพ บริการทางการเงิน ภาครัฐ และอุตสาหกรรมอื่นๆ จัดเก็บเอกสารหลายพันล้านรายการเป็นรูปภาพหรือ PDF บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน S3). อย่างไรก็ตาม พวกเขาไม่สามารถรับข้อมูลเชิงลึก เช่น การใช้ข้อมูลที่ล็อกอยู่ในเอกสารสำหรับโมเดลภาษาขนาดใหญ่ (LLM) หรือค้นหาจนกว่าจะแยกข้อความ แบบฟอร์ม ตาราง และข้อมูลที่มีโครงสร้างอื่นๆ ด้วยการประมวลผลเอกสารอัจฉริยะของ AWS (IDP) โดยใช้บริการ AI เช่น Amazon Textคุณสามารถใช้ประโยชน์จากเทคโนโลยีการเรียนรู้ของเครื่อง (ML) ชั้นนำของอุตสาหกรรมเพื่อประมวลผลข้อมูลจาก PDF หรือรูปภาพเอกสาร (TIFF, JPEG, PNG) ได้อย่างรวดเร็วและแม่นยำ หลังจากแยกข้อความออกจากเอกสารแล้ว คุณสามารถใช้ข้อความนี้เพื่อปรับแต่งโมเดลพื้นฐานได้ สรุปข้อมูลโดยใช้แบบจำลองพื้นฐานหรือส่งไปยังฐานข้อมูล
ในโพสต์นี้ เรามุ่งเน้นไปที่การประมวลผลชุดเอกสารจำนวนมากเป็นไฟล์ข้อความ Raw และจัดเก็บไว้ใน Amazon S3 เรามีโซลูชันที่แตกต่างกันสองแบบสำหรับกรณีการใช้งานนี้ วิธีแรกช่วยให้คุณสามารถเรียกใช้สคริปต์ Python จากเซิร์ฟเวอร์หรืออินสแตนซ์ใด ๆ รวมถึงสมุดบันทึก Jupyter นี่เป็นวิธีที่เร็วที่สุดในการเริ่มต้น แนวทางที่สองคือการปรับใช้ส่วนประกอบโครงสร้างพื้นฐานต่างๆ แบบครบวงจรโดยใช้ ชุดพัฒนา AWS Cloud (AWS ซีดีเค) โครงสร้าง. โครงสร้าง AWS CDK มอบเฟรมเวิร์กที่ยืดหยุ่นและยืดหยุ่นเพื่อประมวลผลเอกสารของคุณและสร้างไปป์ไลน์ IDP จากต้นทางถึงปลายทาง ด้วยการใช้ AWS CDK คุณสามารถขยายฟังก์ชันการทำงานเพื่อรวมการแก้ไข เก็บเอาต์พุตไว้ใน Amazon OpenSearchหรือเพิ่มแบบกำหนดเอง AWS แลมบ์ดา ทำงานด้วยตรรกะทางธุรกิจของคุณเอง
โซลูชันทั้งสองนี้ช่วยให้คุณสามารถประมวลผลหน้าหลายล้านหน้าได้อย่างรวดเร็ว ก่อนที่จะใช้งานโซลูชันใดโซลูชันหนึ่งเหล่านี้ในวงกว้าง เราขอแนะนำให้ทดสอบกับชุดย่อยของเอกสารของคุณเพื่อให้แน่ใจว่าผลลัพธ์จะตรงตามความคาดหวังของคุณ ในส่วนต่อไปนี้ เราจะอธิบายโซลูชันสคริปต์ก่อน ตามด้วยโซลูชันโครงสร้าง AWS CDK
โซลูชันที่ 1: ใช้สคริปต์ Python
โซลูชันนี้ประมวลผลเอกสารสำหรับข้อความดิบผ่าน Amazon Textract อย่างรวดเร็วเท่าที่บริการจะอนุญาต โดยคาดหวังว่าหากสคริปต์เกิดความล้มเหลว กระบวนการจะดำเนินต่อไปจากจุดเดิม โซลูชันใช้บริการที่แตกต่างกันสามบริการ: Amazon S3, อเมซอน ไดนาโมดีบีและข้อความอเมซอน
แผนภาพต่อไปนี้แสดงลำดับของเหตุการณ์ภายในสคริปต์ เมื่อสคริปต์สิ้นสุดลง สถานะเสร็จสมบูรณ์พร้อมกับเวลาที่ใช้จะถูกส่งกลับไปยังคอนโซลสตูดิโอของ SageMaker
เราได้บรรจุโซลูชันนี้ไว้ใน สคริปต์ .ipynb และ .py สคริปต์. คุณสามารถใช้โซลูชันที่ปรับใช้ได้ตามความต้องการของคุณ
เบื้องต้น
หากต้องการเรียกใช้สคริปต์นี้จากสมุดบันทึก Jupyter ให้ทำดังนี้ AWS Identity และการจัดการการเข้าถึง บทบาท (IAM) ที่กำหนดให้กับสมุดบันทึกจะต้องมีสิทธิ์ที่อนุญาตให้โต้ตอบกับ DynamoDB, Amazon S3 และ Amazon Textract คำแนะนำทั่วไปคือการให้สิทธิ์สิทธิ์ขั้นต่ำสำหรับแต่ละบริการเหล่านี้แก่คุณ AmazonSageMaker-ExecutionRole
บทบาท. หากต้องการเรียนรู้เพิ่มเติม โปรดดูที่ เริ่มต้นใช้งานนโยบายที่ได้รับการจัดการของ AWS และก้าวไปสู่สิทธิ์ที่มีสิทธิ์น้อยที่สุด.
หรือคุณสามารถเรียกใช้สคริปต์นี้จากสภาพแวดล้อมอื่นเช่น อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (Amazon EC2) อินสแตนซ์หรือคอนเทนเนอร์ที่คุณจะจัดการ โดยมีเงื่อนไขว่า Python, Pip3 และ AWS SDK สำหรับ Python (Boto3) มีการติดตั้ง ขอย้ำอีกครั้งว่าต้องใช้นโยบาย IAM เดียวกันเพื่อให้สคริปต์โต้ตอบกับบริการที่ได้รับการจัดการต่างๆ
คำแนะนำแบบ
หากต้องการใช้โซลูชันนี้ คุณต้องโคลนพื้นที่เก็บข้อมูลก่อน GitHub.
คุณต้องตั้งค่าตัวแปรต่อไปนี้ในสคริปต์ก่อนจึงจะสามารถรันได้:
- ติดตาม_ตาราง – นี่คือชื่อของตาราง DynamoDB ที่จะถูกสร้างขึ้น
- input_bucket – นี่คือตำแหน่งต้นทางของคุณใน Amazon S3 ที่มีเอกสารที่คุณต้องการส่งไปยัง Amazon Textract เพื่อการตรวจจับข้อความ สำหรับตัวแปรนี้ ให้ระบุชื่อของที่เก็บข้อมูล เช่น
mybucket
. - output_bucket – ใช้สำหรับจัดเก็บตำแหน่งที่คุณต้องการให้ Amazon Textract เขียนผลลัพธ์ไป สำหรับตัวแปรนี้ ให้ระบุชื่อของที่เก็บข้อมูล เช่น
myoutputbucket
. - _input_prefix (ไม่บังคับ) – หากคุณต้องการเลือกไฟล์บางไฟล์จากภายในโฟลเดอร์ในบัคเก็ต S3 ของคุณ คุณสามารถระบุชื่อโฟลเดอร์นี้เป็นคำนำหน้าอินพุตได้ มิฉะนั้น ให้ปล่อยค่าเริ่มต้นว่างไว้เพื่อเลือกทั้งหมด
สคริปต์มีดังนี้:
สคีมาตาราง DynamoDB ต่อไปนี้จะถูกสร้างขึ้นเมื่อเรียกใช้สคริปต์:
เมื่อเรียกใช้สคริปต์เป็นครั้งแรก สคริปต์จะตรวจสอบว่ามีตาราง DynamoDB อยู่หรือไม่ และจะสร้างโดยอัตโนมัติหากจำเป็น หลังจากสร้างตารางแล้ว เราจำเป็นต้องเติมรายการการอ้างอิงออบเจ็กต์เอกสารจาก Amazon S3 ที่เราต้องการประมวลผล สคริปต์โดยการออกแบบจะแจกแจงเหนือวัตถุที่ระบุ input_bucket
และเติมชื่อตารางของเราโดยอัตโนมัติเมื่อรัน ใช้เวลาประมาณ 10 นาทีในการระบุเอกสารมากกว่า 100,000 รายการและเติมชื่อเหล่านั้นลงในตาราง DynamoDB จากสคริปต์ หากคุณมีอ็อบเจ็กต์หลายล้านรายการในบัคเก็ต คุณสามารถใช้คุณสมบัติสินค้าคงคลังของ Amazon S3 ที่สร้างชื่อไฟล์ CSV จากนั้นเติมตาราง DynamoDB จากรายการนี้ด้วยสคริปต์ของคุณเองล่วงหน้า และไม่ใช้ฟังก์ชันที่เรียกว่า fetchAllObjectsInBucketandStoreName
โดยการแสดงความคิดเห็น หากต้องการเรียนรู้เพิ่มเติม โปรดดูที่ การกำหนดค่าสินค้าคงคลัง Amazon S3.
ตามที่กล่าวไว้ข้างต้น มีทั้งเวอร์ชันโน้ตบุ๊กและเวอร์ชันสคริปต์ Python สมุดบันทึกเป็นวิธีการเริ่มต้นที่ตรงไปตรงมาที่สุด เพียงเรียกใช้แต่ละเซลล์ตั้งแต่ต้นจนจบ
หากคุณตัดสินใจที่จะรันสคริปต์ Python จาก CLI ขอแนะนำให้คุณใช้เทอร์มินัลมัลติเพล็กเซอร์ เช่น tmux นี่เป็นการป้องกันไม่ให้สคริปต์หยุดหากเซสชัน SSH ของคุณเสร็จสิ้น ตัวอย่างเช่น: tmux new -d ‘python3 textractFeeder.py’
.
ต่อไปนี้คือ จุดเริ่มต้นของสคริปต์; จากที่นี่คุณสามารถแสดงความคิดเห็นถึงวิธีการที่ไม่จำเป็น:
ฟิลด์ต่อไปนี้ได้รับการตั้งค่าเมื่อสคริปต์กำลังเติมข้อมูลในตาราง DynamoDB:
- ชื่อวัตถุ – ชื่อของเอกสารที่อยู่ใน Amazon S3 ที่จะถูกส่งไปยัง Amazon Textract
- ชื่อถัง – ที่เก็บข้อมูลซึ่งวัตถุเอกสารถูกจัดเก็บ
ต้องเติมข้อมูลทั้งสองช่องนี้หากคุณตัดสินใจใช้ไฟล์ CSV จากรายงานสินค้าคงคลัง S3 และข้ามการเติมข้อมูลอัตโนมัติที่เกิดขึ้นภายในสคริปต์
ตอนนี้ตารางถูกสร้างขึ้นและเติมด้วยการอ้างอิงออบเจ็กต์เอกสารแล้ว สคริปต์ก็พร้อมที่จะเริ่มเรียกใช้ Amazon Textract StartDocumentTextDetection
เอพีไอ Amazon Textract ซึ่งคล้ายกับบริการที่ได้รับการจัดการอื่นๆ มี ขีดจำกัดเริ่มต้น บน API ที่เรียกว่าธุรกรรมต่อวินาที (TPS) หากจำเป็น คุณสามารถขอเพิ่มโควต้าได้จาก Amazon Textract Console โค้ดได้รับการออกแบบให้ใช้หลายเธรดพร้อมกันเมื่อเรียกใช้ Amazon Textract เพื่อเพิ่มปริมาณการประมวลผลด้วยบริการให้สูงสุด คุณสามารถเปลี่ยนแปลงสิ่งนี้ได้ภายในโค้ดโดยการแก้ไข threadCountforTextractAPICall
ตัวแปร. โดยค่าเริ่มต้น ค่านี้จะตั้งไว้ที่ 20 เธรด ในตอนแรกสคริปต์จะอ่าน 200 แถวจากตาราง DynamoDB และจัดเก็บไว้ในรายการในหน่วยความจำที่รวมคลาสเพื่อความปลอดภัยของเธรด จากนั้นเธรดผู้เรียกแต่ละเธรดจะเริ่มต้นและรันภายในช่องทางว่ายน้ำของตัวเอง โดยพื้นฐานแล้ว เธรดผู้เรียก Amazon Textract จะดึงรายการจากรายการในหน่วยความจำที่มีการอ้างอิงอ็อบเจ็กต์ของเรา จากนั้นจะเรียกอะซิงโครนัส start_document_text_detection
API และรอการตอบรับด้วยรหัสงาน จากนั้น ID งานจะได้รับการอัปเดตกลับไปยังแถว DynamoDB สำหรับออบเจ็กต์นั้น และเธรดจะทำซ้ำโดยดึงข้อมูลรายการถัดไปจากรายการ
ต่อไปนี้เป็นรหัสการเรียบเรียงหลัก ต้นฉบับ:
เธรดผู้เรียกจะทำซ้ำต่อไปจนกว่าจะไม่มีรายการใด ๆ ในรายการอีกต่อไป ซึ่ง ณ จุดนี้เธรดจะหยุดทำงาน เมื่อเธรดทั้งหมดที่ทำงานภายในช่องทางว่ายน้ำหยุดลง แถว 200 แถวถัดไปจาก DynamoDB จะถูกดึงข้อมูล และชุดใหม่ที่มี 20 เธรดจะเริ่มต้นขึ้น และกระบวนการทั้งหมดจะทำซ้ำจนกว่าทุกแถวที่ไม่มี ID งานจะถูกดึงมาจาก DynamoDB และ ปรับปรุงแล้ว หากสคริปต์หยุดทำงานเนื่องจากปัญหาที่ไม่คาดคิด สคริปต์จะสามารถเรียกใช้ได้อีกครั้งจาก orchestrate()
วิธี. เพื่อให้แน่ใจว่าเธรดจะดำเนินการประมวลผลแถวที่มีรหัสงานว่างต่อไป โปรดทราบว่าเมื่อทำการรันไฟล์ orchestrate()
หลังจากที่สคริปต์หยุดทำงานแล้ว ก็มีแนวโน้มว่าเอกสารบางส่วนจะถูกส่งไปยัง Amazon Textract อีกครั้ง จำนวนนี้จะเท่ากับหรือน้อยกว่าจำนวนเธรดที่กำลังรันอยู่ ณ เวลาที่เกิดการขัดข้อง
เมื่อไม่มีแถวที่มี ID งานว่างในตาราง DynamoDB อีกต่อไป สคริปต์จะหยุดทำงาน เอาต์พุต JSON ทั้งหมดจาก Amazon Textract สำหรับอ็อบเจ็กต์ทั้งหมดจะอยู่ในไฟล์ output_bucket
โดยค่าเริ่มต้นภายใต้ textract_output
โฟลเดอร์ แต่ละโฟลเดอร์ย่อยภายใน textract_output
จะถูกตั้งชื่อด้วยรหัสงานที่สอดคล้องกับรหัสงานที่จัดเก็บไว้ในตาราง DynamoDB สำหรับออบเจ็กต์นั้น ภายในโฟลเดอร์รหัสงาน คุณจะพบ JSON ซึ่งจะตั้งชื่อเป็นตัวเลขเริ่มต้นที่ 1 และอาจขยายไฟล์ JSON เพิ่มเติมที่จะมีป้ายกำกับ 2, 3 และอื่นๆ การขยายไฟล์ JSON เป็นผลมาจากเอกสารที่มีความหนาแน่นสูงหรือหลายหน้า โดยที่ปริมาณเนื้อหาที่แยกออกมาเกินขนาด JSON เริ่มต้นของ Amazon Textract ที่ 1,000 บล็อก อ้างถึง ปิดกั้น สำหรับข้อมูลเพิ่มเติมเกี่ยวกับบล็อก ไฟล์ JSON เหล่านี้จะมีข้อมูลเมตาของ Amazon Textract ทั้งหมด รวมถึงข้อความที่ดึงมาจากภายในเอกสาร
คุณสามารถค้นหาเวอร์ชันสมุดบันทึกโค้ด Python และสคริปต์สำหรับโซลูชันนี้ได้ใน GitHub.
ทำความสะอาด
เมื่อสคริปต์ Python เสร็จสมบูรณ์ คุณสามารถประหยัดค่าใช้จ่ายได้โดยการปิดหรือหยุดการทำงาน สตูดิโอ Amazon SageMaker สมุดบันทึกหรือภาชนะที่คุณปั่นขึ้นมา
มาถึงโซลูชันที่สองของเราสำหรับเอกสารในวงกว้าง
โซลูชันที่ 2: ใช้โครงสร้าง AWS CDK แบบไร้เซิร์ฟเวอร์
วิธีนี้ใช้ ฟังก์ชันขั้นตอนของ AWS และฟังก์ชัน Lambda เพื่อประสานไปป์ไลน์ IDP เราใช้ โครงสร้าง IDP AWS CDKซึ่งทำให้การทำงานกับ Amazon Textract ในวงกว้างเป็นเรื่องง่าย นอกจากนี้ เรายังใช้ a แผนที่แบบกระจาย Step Functions เพื่อวนซ้ำไฟล์ทั้งหมดในบัคเก็ต S3 และเริ่มการประมวลผล ฟังก์ชัน Lambda แรกจะกำหนดจำนวนหน้าในเอกสารของคุณ ซึ่งจะทำให้ไปป์ไลน์ใช้ API แบบซิงโครนัส (สำหรับเอกสารหน้าเดียว) หรืออะซิงโครนัส (สำหรับเอกสารหลายหน้า) โดยอัตโนมัติ เมื่อใช้ API แบบอะซิงโครนัส ฟังก์ชัน Lambda เพิ่มเติมจะถูกเรียกไปยังไฟล์ JSON ทั้งหมดที่ Amazon Textract จะสร้างสำหรับเพจทั้งหมดของคุณเป็นไฟล์ JSON ไฟล์เดียว เพื่อให้แอปพลิเคชันดาวน์สตรีมของคุณทำงานกับข้อมูลได้อย่างตรงไปตรงมา
โซลูชันนี้ยังมีฟังก์ชัน Lambda เพิ่มเติมอีกสองฟังก์ชันอีกด้วย ฟังก์ชันแรกแยกวิเคราะห์ข้อความจาก JSON และบันทึกเป็นไฟล์ข้อความใน Amazon S3 ฟังก์ชันที่สองวิเคราะห์ JSON และจัดเก็บ JSON ดังกล่าวไว้สำหรับการวัดปริมาณงาน
ไดอะแกรมต่อไปนี้แสดงเวิร์กโฟลว์ของ Step Functions
เบื้องต้น
ฐานโค้ดนี้ใช้ AWS CDK และต้องใช้ Docker คุณสามารถปรับใช้สิ่งนี้ได้จากไฟล์ AWS Cloud9 อินสแตนซ์ซึ่งมี AWS CDK และ Docker ตั้งค่าไว้แล้ว
คำแนะนำแบบ
หากต้องการใช้โซลูชันนี้ คุณต้องโคลนไฟล์ก่อน กรุ
หลังจากที่คุณโคลนที่เก็บแล้ว ให้ติดตั้งการขึ้นต่อกัน:
จากนั้นใช้โค้ดต่อไปนี้เพื่อปรับใช้สแต็ก AWS CDK:
คุณต้องระบุทั้งที่เก็บข้อมูลต้นทางและคำนำหน้าแหล่งที่มา (ตำแหน่งของไฟล์ที่คุณต้องการประมวลผล) สำหรับโซลูชันนี้
เมื่อการปรับใช้เสร็จสมบูรณ์ ให้ไปที่คอนโซล Step Functions ซึ่งคุณจะเห็นเครื่องสถานะ ServerlessIDPArchivePipeline
.
เปิดหน้ารายละเอียดเครื่องสถานะและบน การประหารชีวิต เลือกแท็บ เริ่มดำเนินการ.
Choose เริ่มดำเนินการ อีกครั้งเพื่อรันเครื่องสถานะ
หลังจากที่คุณสตาร์ทเครื่องสถานะ คุณสามารถตรวจสอบไปป์ไลน์ได้โดยดูที่การเรียกใช้แผนที่ คุณจะเห็นก สถานะการประมวลผลรายการ ส่วนเช่นภาพหน้าจอต่อไปนี้ อย่างที่คุณเห็น สิ่งนี้สร้างขึ้นเพื่อดำเนินการและติดตามว่าสิ่งใดประสบความสำเร็จและสิ่งใดล้มเหลว กระบวนการนี้จะยังคงทำงานต่อไปจนกว่าเอกสารทั้งหมดจะถูกอ่าน
ด้วยโซลูชันนี้ คุณควรจะสามารถประมวลผลไฟล์นับล้านไฟล์ในบัญชี AWS ของคุณได้โดยไม่ต้องกังวลกับวิธีการระบุอย่างถูกต้องว่าไฟล์ใดที่จะส่งไปยัง API ใดหรือไฟล์ที่เสียหายที่ทำให้ไปป์ไลน์ของคุณล้มเหลว คุณจะสามารถดูและตรวจสอบไฟล์ของคุณได้แบบเรียลไทม์ผ่านคอนโซล Step Functions
ทำความสะอาด
หลังจากที่ไปป์ไลน์ของคุณทำงานเสร็จแล้ว หากต้องการล้างข้อมูล คุณสามารถกลับเข้าไปในโปรเจ็กต์ของคุณและป้อนคำสั่งต่อไปนี้:
การดำเนินการนี้จะลบบริการใดๆ ที่ทำให้ใช้งานได้สำหรับโปรเจ็กต์นี้
สรุป
ในโพสต์นี้ เราได้นำเสนอโซลูชันที่ทำให้การแปลงรูปภาพเอกสารและ PDF เป็นไฟล์ข้อความเป็นเรื่องง่าย นี่เป็นข้อกำหนดเบื้องต้นที่สำคัญในการใช้เอกสารของคุณสำหรับ AI เชิงสร้างสรรค์และการค้นหา หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการใช้ข้อความเพื่อฝึกหรือปรับแต่งโมเดลพื้นฐานของคุณ โปรดดูที่ ปรับแต่ง Llama 2 อย่างละเอียดสำหรับการสร้างข้อความบน Amazon SageMaker JumpStart. หากต้องการใช้กับการค้นหา โปรดดูที่ ใช้ดัชนีการค้นหาเอกสารอัจฉริยะด้วย Amazon Textract และ Amazon OpenSearch. หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับความสามารถในการประมวลผลเอกสารขั้นสูงที่นำเสนอโดยบริการ AWS AI โปรดดูที่ คำแนะนำสำหรับการประมวลผลเอกสารอัจฉริยะบน AWS.
เกี่ยวกับผู้เขียน
ทิม คอนเดลโล เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้านปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่องจักร (ML) อาวุโสที่ Amazon Web Services (AWS) ความสนใจของเขาคือการประมวลผลภาษาธรรมชาติและการมองเห็นคอมพิวเตอร์ Tim สนุกกับการนำแนวคิดของลูกค้ามาเปลี่ยนให้เป็นโซลูชันที่ปรับขนาดได้
เดวิด เกิลลิง เป็นสถาปนิกอาวุโสด้านโซลูชัน AI/ML ที่มีประสบการณ์มากกว่า 20 ปีในการออกแบบ เป็นผู้นำ และพัฒนาระบบองค์กร David เป็นส่วนหนึ่งของทีมผู้เชี่ยวชาญที่มุ่งเน้นการช่วยให้ลูกค้าเรียนรู้ สร้างสรรค์ และใช้บริการที่มีความสามารถสูงเหล่านี้พร้อมข้อมูลสำหรับกรณีการใช้งานของพวกเขา
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/create-a-document-lake-using-large-scale-text-extraction-from-documents-with-amazon-textract/
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- $ ขึ้น
- 000
- 1
- 10
- 100
- 12
- 20
- 200
- 7
- 710
- 8
- a
- สามารถ
- เกี่ยวกับเรา
- เข้า
- ลงชื่อเข้าใช้
- แม่นยำ
- เพิ่ม
- เพิ่มเติม
- นอกจากนี้
- ความก้าวหน้า
- สูง
- ความได้เปรียบ
- หลังจาก
- อีกครั้ง
- AI
- บริการ AI
- AI / ML
- ทั้งหมด
- อนุญาต
- ช่วยให้
- ตาม
- แล้ว
- ด้วย
- อเมซอน
- Amazon EC2
- อเมซอน SageMaker
- Amazon Text
- Amazon Web Services
- Amazon Web Services (AWS)
- จำนวน
- an
- การวิเคราะห์
- และ
- ใด
- API
- APIs
- การใช้งาน
- ประยุกต์
- เข้าใกล้
- ประมาณ
- เป็น
- เทียม
- ปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ (AI)
- AS
- ที่ได้รับมอบหมาย
- At
- รถยนต์
- อัตโนมัติ
- AWS
- กลับ
- ฐาน
- เป็นพื้น
- BE
- รับ
- ก่อน
- พันล้าน
- Blocks
- บูต
- ทั้งสอง
- สร้าง
- สร้าง
- ธุรกิจ
- by
- โทรศัพท์
- ที่เรียกว่า
- ผู้เรียก
- โทร
- CAN
- ความสามารถในการ
- สามารถ
- กรณี
- กรณี
- เซลล์
- บาง
- เปลี่ยนแปลง
- ตรวจสอบ
- Choose
- ชั้น
- ปลาเดยส์
- เมฆ
- รหัส
- ฐานรหัส
- ชุด
- ความเห็น
- แสดงความคิดเห็น
- สมบูรณ์
- เสร็จสิ้น
- ส่วนประกอบ
- คำนวณ
- คอมพิวเตอร์
- วิสัยทัศน์คอมพิวเตอร์
- ปลอบใจ
- สร้าง
- บรรจุ
- ภาชนะ
- มี
- เนื้อหา
- ต่อ
- แปลง
- สอดคล้อง
- ค่าใช้จ่าย
- ได้
- Crash
- สร้าง
- ที่สร้างขึ้น
- ประเพณี
- ลูกค้า
- ลูกค้า
- ข้อมูล
- ฐานข้อมูล
- เดวิด
- ตัดสินใจ
- ค่าเริ่มต้น
- การอ้างอิง
- ปรับใช้
- นำไปใช้
- การใช้งาน
- บรรยาย
- ออกแบบ
- ได้รับการออกแบบ
- การออกแบบ
- รายละเอียด
- การตรวจพบ
- กำหนด
- แน่นอน
- ที่กำลังพัฒนา
- พัฒนาการ
- ต่าง
- กระจาย
- นักเทียบท่า
- เอกสาร
- เอกสาร
- ไม่
- ลง
- สอง
- แต่ละ
- ก่อน
- ทั้ง
- ช่วยให้
- จบสิ้น
- สิ้นสุด
- เข้าสู่
- Enterprise
- การเข้า
- สภาพแวดล้อม
- เท่ากัน
- เหตุการณ์
- ทุกๆ
- ตัวอย่าง
- เกินกว่า
- การปฏิบัติ
- ที่มีอยู่
- ความคาดหวัง
- ความคาดหวัง
- ประสบการณ์
- ขยายออก
- สารสกัด
- การสกัด
- ล้มเหลว
- ความล้มเหลว
- ความล้มเหลว
- ลักษณะ
- สองสาม
- สาขา
- เนื้อไม่มีมัน
- ไฟล์
- ทางการเงิน
- บริการทางการเงิน
- หา
- เสร็จสิ้น
- ชื่อจริง
- ครั้งแรก
- มีความยืดหยุ่น
- โฟกัส
- มุ่งเน้นไปที่
- ตาม
- ดังต่อไปนี้
- ดังต่อไปนี้
- สำหรับ
- รูปแบบ
- พบ
- รากฐาน
- กรอบ
- ราคาเริ่มต้นที่
- ฟังก์ชัน
- ฟังก์ชั่น
- ฟังก์ชั่น
- ได้รับ
- General
- สร้าง
- รุ่น
- กำเนิด
- กำเนิด AI
- ได้รับ
- Go
- คำแนะนำ
- ที่เกิดขึ้น
- มี
- การดูแลสุขภาพ
- การช่วยเหลือ
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- อย่างสูง
- ของเขา
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTML
- ที่ http
- HTTPS
- i
- ID
- ความคิด
- เอกลักษณ์
- รหัส
- if
- แสดงให้เห็นถึง
- ภาพ
- การดำเนินการ
- in
- ประกอบด้วย
- รวมทั้ง
- เพิ่ม
- ดัชนี
- อุตสาหกรรม
- ชั้นนำของอุตสาหกรรม
- ข้อมูล
- โครงสร้างพื้นฐาน
- ในขั้นต้น
- เริ่มต้น
- เราสร้างสรรค์สิ่งใหม่ ๆ
- อินพุต
- ข้อมูลเชิงลึก
- ติดตั้ง
- การติดตั้ง
- ตัวอย่าง
- Intelligence
- ฉลาด
- การประมวลผลเอกสารอัจฉริยะ
- โต้ตอบ
- เข้าไป
- สินค้าคงคลัง
- IT
- รายการ
- ITS
- การสัมภาษณ์
- jpg
- JSON
- คีย์
- ทะเลสาบ
- เลน
- ภาษา
- ใหญ่
- ขนาดใหญ่
- ชั้นนำ
- เรียนรู้
- การเรียนรู้
- ทิ้ง
- ซ้าย
- น้อยลง
- กดไลก์
- รายการ
- ดูรายละเอียด
- ที่ตั้งอยู่
- ที่ตั้ง
- ล็อค
- ตรรกะ
- อีกต่อไป
- ที่ต้องการหา
- เครื่อง
- เรียนรู้เครื่อง
- หลัก
- ทำ
- ทำให้
- จัดการ
- การจัดการ
- หลาย
- แผนที่
- เพิ่ม
- พบ
- กล่าวถึง
- เมตาดาต้า
- วิธี
- วิธีการ
- ตัวชี้วัด
- ล้าน
- นาที
- ML
- แบบ
- โมเดล
- การตรวจสอบ
- ข้อมูลเพิ่มเติม
- มากที่สุด
- ย้าย
- หลาย
- ต้อง
- ชื่อ
- ที่มีชื่อ
- ชื่อ
- โดยธรรมชาติ
- ประมวลผลภาษาธรรมชาติ
- นำทาง
- จำเป็นต้อง
- จำเป็น
- ใหม่
- ถัดไป
- ไม่
- หมายเหตุ
- สมุดบันทึก
- ตอนนี้
- จำนวน
- วัตถุ
- วัตถุ
- of
- ปิด
- เสนอ
- on
- ONE
- การดำเนินงาน
- or
- ประสาน
- อื่นๆ
- มิฉะนั้น
- ของเรา
- ออก
- เอาท์พุต
- เกิน
- ของตนเอง
- แพคเกจ
- หน้า
- หน้า
- ส่วนหนึ่ง
- ต่อ
- สิทธิ์
- เลือก
- ท่อ
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- จุด
- นโยบาย
- ประชากร
- โพสต์
- ที่มีศักยภาพ
- ที่อาจเกิดขึ้น
- นำเสนอ
- ป้องกัน
- ปัญหา
- กระบวนการ
- กระบวนการ
- การประมวลผล
- ก่อ
- โครงการ
- อย่างถูกต้อง
- ให้
- ให้
- ให้
- สาธารณะ
- ใส่
- หลาม
- ที่เร็วที่สุด
- อย่างรวดเร็ว
- ดิบ
- อ่าน
- พร้อม
- จริง
- เรียลไทม์
- แนะนำ
- แนะนำ
- ระเบียน
- บันทึก
- อ้างอิง
- การอ้างอิง
- การอ้างอิง
- ทำซ้ำ
- รายงาน
- กรุ
- ขอ
- จำเป็นต้องใช้
- ความต้องการ
- ต้อง
- ยืดหยุ่น
- ผล
- ผลสอบ
- บทบาท
- แถว
- วิ่ง
- วิ่ง
- ทำงาน
- ปลอดภัย
- ความปลอดภัย
- sagemaker
- เดียวกัน
- ลด
- ที่ปรับขนาดได้
- ขนาด
- ต้นฉบับ
- SDK
- ค้นหา
- ที่สอง
- Section
- ส่วน
- ภาค
- เห็น
- เลือก
- ส่ง
- ระดับอาวุโส
- ส่ง
- ลำดับ
- เซิร์ฟเวอร์
- serverless
- บริการ
- บริการ
- เซสชั่น
- ชุด
- น่า
- ปิด
- คล้ายคลึงกัน
- ง่าย
- ง่ายดาย
- ขนาด
- สมาร์ท
- So
- ทางออก
- โซลูชัน
- บาง
- แหล่ง
- ระยะ
- ความตึงเครียด
- ผู้เชี่ยวชาญ
- ที่ระบุไว้
- ปั่น
- กอง
- เริ่มต้น
- ข้อความที่เริ่ม
- ที่เริ่มต้น
- สถานะ
- Status
- ขั้นตอน
- หยุด
- หยุด
- การหยุด
- การเก็บรักษา
- จัดเก็บ
- เก็บไว้
- ร้านค้า
- การเก็บรักษา
- ซื่อตรง
- เชือก
- โครงสร้าง
- สตูดิโอ
- ที่ประสบความสำเร็จ
- อย่างเช่น
- แน่ใจ
- ระบบ
- ตาราง
- เอา
- นำ
- ใช้เวลา
- การ
- ทีม
- เทคโนโลยี
- สถานีปลายทาง
- การทดสอบ
- ข้อความ
- กว่า
- ที่
- พื้นที่
- ข้อมูล
- ที่มา
- รัฐ
- ของพวกเขา
- พวกเขา
- แล้วก็
- ที่นั่น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- นี้
- เหล่านั้น
- สาม
- ตลอด
- ปริมาณงาน
- ทิม
- เวลา
- ไปยัง
- ไปทาง
- TPS
- ลู่
- รถไฟ
- การทำธุรกรรม
- การหมุน
- ผู้คุมในเรือนจำ
- สอง
- ไม่สามารถ
- ภายใต้
- ไม่คาดฝัน
- จนกระทั่ง
- ให้กับคุณ
- ใช้
- ใช้กรณี
- ใช้
- การใช้
- นำไปใช้
- ใช้ประโยชน์
- ตัวแปร
- ต่างๆ
- รุ่น
- วิสัยทัศน์
- รอ
- ต้องการ
- คือ
- นาฬิกา
- ทาง..
- we
- เว็บ
- บริการเว็บ
- คือ
- อะไร
- เมื่อ
- ที่
- ทั้งหมด
- จะ
- กับ
- ภายใน
- ไม่มี
- งาน
- เวิร์กโฟลว์
- น่าหนักใจ
- จะ
- ตะลึง
- เขียน
- ปี
- คุณ
- ของคุณ
- ลมทะเล