บริษัทในอุตสาหกรรมต่างๆ สร้าง สแกน และจัดเก็บเอกสาร PDF จำนวนมาก ในหลายกรณี เนื้อหามีข้อความจำนวนมากและมักเขียนในภาษาอื่นและต้องมีการแปล เพื่อแก้ไขปัญหานี้ คุณต้องมีโซลูชันอัตโนมัติเพื่อแยกเนื้อหาภายใน PDF เหล่านี้และแปลอย่างรวดเร็วและคุ้มค่า
ธุรกิจจำนวนมากมีผู้ใช้ทั่วโลกที่หลากหลายและจำเป็นต้องแปลข้อความเพื่อให้สามารถสื่อสารข้ามภาษาระหว่างกันได้ นี่เป็นความพยายามของมนุษย์ ช้า และมีค่าใช้จ่ายสูง จำเป็นต้องค้นหาโซลูชันที่ปรับขนาดได้ เชื่อถือได้ และคุ้มค่าในการแปลเอกสารโดยที่ยังคงรักษารูปแบบเอกสารต้นฉบับไว้
สำหรับประเภทธุรกิจ เช่น การดูแลสุขภาพ เนื่องจากข้อกำหนดด้านกฎระเบียบ เอกสารที่แปลจำเป็นต้องมีคนเพิ่มเติมในลูปเพื่อตรวจสอบความถูกต้องของเอกสารที่แปลด้วยคอมพิวเตอร์
หากเอกสารที่แปลไม่คงรูปแบบและโครงสร้างเดิมไว้ เอกสารนั้นจะสูญเสียบริบทไป ซึ่งอาจทำให้ผู้ตรวจสอบที่เป็นมนุษย์ตรวจสอบความถูกต้องและแก้ไขได้ยาก
ในโพสต์นี้ เราจะสาธิตวิธีสร้าง PDF ที่แปลใหม่จาก PDF ที่สแกนโดยยังคงรักษาโครงสร้างเอกสารต้นฉบับและการจัดรูปแบบโดยใช้วิธีการตามรูปทรงเรขาคณิตด้วย Amazon Text, อเมซอนแปลภาษาและ อาปาเช่ PDFBox.
ภาพรวมโซลูชัน
โซลูชันที่นำเสนอในโพสต์นี้ใช้ส่วนประกอบต่อไปนี้:
- Amazon Text – บริการแมชชีนเลิร์นนิง (ML) ที่มีการจัดการเต็มรูปแบบ ซึ่งจะแยกข้อความที่พิมพ์ ลายมือ และข้อมูลอื่นๆ โดยอัตโนมัติจากเอกสารที่สแกน ซึ่งนอกเหนือไปจากการรู้จำอักขระด้วยแสงอย่างง่าย (OCR) เพื่อระบุ ทำความเข้าใจ และดึงข้อมูลจากแบบฟอร์มและตาราง Amazon Textract สามารถตรวจจับข้อความในเอกสารต่างๆ รวมถึงรายงานทางการเงิน เวชระเบียน และแบบฟอร์มภาษี
- อเมซอนแปลภาษา – บริการแปลภาษาด้วยเครื่องประสาทที่ให้การแปลภาษาที่รวดเร็ว คุณภาพสูง และราคาย่อมเยา Amazon Translate มอบความสามารถในการแปลตามความต้องการคุณภาพสูงและเป็นกลุ่มสำหรับคู่ภาษามากกว่า 2,970 คู่ ในขณะที่ลดต้นทุนการแปลของคุณ
- PDF แปล – ไลบรารีโอเพ่นซอร์สที่เขียนด้วยภาษาจาวาและเผยแพร่บน ตัวอย่าง AWS ใน GitHub ไลบรารีนี้มีตรรกะในการสร้างเอกสาร PDF ที่แปลเป็นภาษาที่คุณต้องการด้วย Amazon Texttract และ Amazon Translate นอกจากนี้ยังใช้ไลบรารี Java แบบโอเพนซอร์ส Apache PDFBox เพื่อสร้างเอกสาร PDF มีไลบรารีการประมวลผล PDF ที่คล้ายคลึงกันในภาษาการเขียนโปรแกรมอื่นๆ เป็นต้น โหนด PDFBox.
ขณะทำการแปลด้วยคอมพิวเตอร์ คุณอาจมีสถานการณ์ที่คุณต้องการรักษาข้อความบางส่วนไม่ให้แปล เช่น ชื่อหรือตัวระบุเฉพาะ Amazon Translate อนุญาตให้แก้ไขแท็ก ซึ่งช่วยให้คุณระบุข้อความที่ไม่ควรแปลได้ Amazon Translate ยังรองรับการปรับแต่งที่เป็นทางการ ซึ่งช่วยให้คุณปรับแต่งระดับของความเป็นทางการในผลลัพธ์การแปลของคุณได้
สำหรับรายละเอียดเกี่ยวกับข้อจำกัดของ Amazon Text โปรดดูที่ โควต้าใน Amazon Text.
โซลูชันนี้จำกัดเฉพาะภาษาที่ Amazon Texttract สามารถแยกได้ ซึ่งปัจจุบันรองรับภาษาอังกฤษ สเปน อิตาลี โปรตุเกส ฝรั่งเศส และเยอรมัน ภาษาเหล่านี้ยังรองรับโดย Amazon Translate สำหรับรายการภาษาทั้งหมดที่รองรับโดย Amazon Translate โปรดดูที่ ภาษาที่รองรับและรหัสภาษา.
เราใช้ PDF ต่อไปนี้เพื่อสาธิตการแปลข้อความจากภาษาอังกฤษเป็นภาษาสเปน โซลูชันนี้ยังรองรับการสร้างเอกสารที่แปลแล้วโดยไม่ต้องจัดรูปแบบใดๆ ตำแหน่งของข้อความที่แปลจะยังคงอยู่ สามารถดูต้นฉบับและเอกสาร PDF ที่แปลได้ใน ที่เก็บตัวอย่าง GitHub ของ AWS.
ในส่วนต่อไปนี้ เราจะสาธิตวิธีการเรียกใช้รหัสการแปลบนเครื่องท้องถิ่น และดูรายละเอียดเพิ่มเติมเกี่ยวกับรหัสการแปล
เบื้องต้น
ก่อนที่คุณจะเริ่มต้น ให้ตั้งค่าบัญชี AWS ของคุณและ อินเทอร์เฟซบรรทัดคำสั่ง AWS AWS (AWS CLI) สำหรับการเข้าถึงบริการต่างๆ ของ AWS เช่น ข้อความและการแปล จำเป็นต้องได้รับสิทธิ์ IAM ที่เหมาะสม ขอแนะนำให้ใช้สิทธิ์ขั้นต่ำ หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการอนุญาต IAM โปรดดู นโยบายและการอนุญาตใน IAM และ Amazon Texttract ทำงานร่วมกับ IAM อย่างไร และ Amazon Translate ทำงานร่วมกับ IAM อย่างไร.
เรียกใช้รหัสการแปลบนเครื่องท้องถิ่น
โซลูชันนี้มุ่งเน้นไปที่โค้ด Java แบบสแตนด์อโลนเพื่อแยกและแปลเอกสาร PDF นี่คือการทดสอบและการปรับแต่งที่ง่ายขึ้นเพื่อให้ได้เอกสาร PDF ที่แปลแล้วและเรนเดอร์ได้ดีที่สุด โค้ดดังกล่าวสามารถรวมเข้ากับโซลูชันอัตโนมัติเพื่อปรับใช้และเรียกใช้ใน AWS ดู การแปลเอกสาร PDF โดยใช้ Amazon Translate และ Amazon Texttract สำหรับสถาปัตยกรรมตัวอย่างที่ใช้ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) เพื่อจัดเก็บเอกสารและ AWS แลมบ์ดา เพื่อเรียกใช้รหัส
ในการรันโค้ดบนเครื่องโลคัล ให้ทำตามขั้นตอนต่อไปนี้ ตัวอย่างโค้ดมีอยู่ใน ที่เก็บ GitHub
- โคลน repo GitHub:
- เรียกใช้คำสั่งต่อไปนี้:
- เรียกใช้คำสั่งต่อไปนี้เพื่อแปลจากภาษาอังกฤษเป็นภาษาสเปน:
เอกสาร PDF ที่แปลแล้วสองฉบับถูกสร้างขึ้นในโฟลเดอร์เอกสาร โดยมีและไม่มีรูปแบบต้นฉบับ (SampleOutput-es.pdf
และ SampleOutput-min-es.pdf
).
รหัสเพื่อสร้าง PDF ที่แปลแล้ว
ข้อมูลโค้ดต่อไปนี้แสดงวิธีนำเอกสาร PDF และสร้างเอกสาร PDF ที่แปลแล้วที่เกี่ยวข้อง โดยจะแยกข้อความโดยใช้ Amazon Texttract และสร้าง PDF ที่แปลแล้วโดยเพิ่มข้อความที่แปลแล้วเป็นเลเยอร์ให้กับรูปภาพ มันสร้างขึ้นจากโซลูชันที่แสดงในโพสต์ สร้าง PDF ที่ค้นหาได้จากเอกสารที่สแกนโดยอัตโนมัติด้วย Amazon Textract.
โค้ดแรกจะรับข้อความแต่ละบรรทัดด้วย Amazon Texttract Amazon Translate ใช้เพื่อรับข้อความที่แปลและบันทึกรูปทรงเรขาคณิตของข้อความที่แปล
ขนาดตัวอักษรคำนวณดังนี้และสามารถกำหนดค่าได้ง่าย:
PDF ที่แปลถูกสร้างขึ้นจากรูปทรงเรขาคณิตที่บันทึกไว้และข้อความที่แปลแล้ว สามารถกำหนดค่าการเปลี่ยนแปลงสีของข้อความที่แปลได้อย่างง่ายดาย
ภาพต่อไปนี้แสดงเอกสารที่แปลเป็นภาษาสเปนด้วยรูปแบบต้นฉบับ (SampleOutput-es.pdf
).
รูปภาพต่อไปนี้แสดง PDF ที่แปลเป็นภาษาสเปนโดยไม่มีการจัดรูปแบบใดๆ (SampleOutput-min-es.pdf
).
ระยะเวลาดำเนินการ
ใบสมัครงาน pdf ใช้เวลาประมาณ 10 วินาทีในการแยก ประมวลผล และเรนเดอร์ไฟล์ pdf ที่แปลแล้ว เวลาดำเนินการสำหรับเอกสารที่มีข้อความจำนวนมากเช่น ประกาศอิสรภาพ PDF ใช้เวลาน้อยกว่าหนึ่งนาที
ราคา
ด้วย Amazon Texttract คุณจะจ่ายตามจำนวนหน้าและภาพที่ประมวลผล ด้วย Amazon Translate คุณจะจ่ายตามจำนวนอักขระที่ได้รับการประมวลผล อ้างถึง ราคา Amazon Text และ ราคา Amazon Translate สำหรับค่าใช้จ่ายจริง
สรุป
โพสต์นี้แสดงวิธีใช้ Amazon Textract และ Amazon Translate เพื่อสร้างเอกสาร PDF ที่แปลแล้วโดยที่ยังคงโครงสร้างเอกสารต้นฉบับไว้ คุณสามารถเลือกประมวลผลผลลัพธ์ของ Amazon Textract ภายหลังเพื่อปรับปรุงคุณภาพของการแปลได้ ตัวอย่างเช่น สามารถส่งผ่านคำที่แยกออกมาผ่านการตรวจการสะกดแบบ ML เช่น ซิมสะกด สำหรับการตรวจสอบความถูกต้องของข้อมูล หรือสามารถใช้อัลกอริทึมการจัดกลุ่มเพื่อรักษาลำดับการอ่าน คุณยังสามารถใช้ อเมซอน เสริม AI (Amazon A2I) เพื่อสร้างเวิร์กโฟลว์การตรวจสอบโดยเจ้าหน้าที่ ซึ่งคุณสามารถใช้พนักงานส่วนตัวของคุณเพื่อตรวจสอบต้นฉบับและเอกสาร PDF ที่แปลแล้วเพื่อให้มีความถูกต้องและบริบทมากขึ้น ดู การออกแบบเวิร์กโฟลว์การตรวจสอบโดยเจ้าหน้าที่ด้วย Amazon Translate และ Amazon Augmented AI และ สร้างเวิร์กโฟลว์การแปลเอกสารหลายภาษาด้วยการปรับแต่งเฉพาะโดเมนและเฉพาะภาษา ที่จะเริ่มต้น
เกี่ยวกับผู้เขียน
อนุภา สิงหฬ เป็นสถาปนิกระบบคลาวด์อาวุโสที่ Amazon Web Services ในองค์กร AWS Professional Services
ฌอน ลอว์เรนซ์ เคยเป็น Front End Engineer ที่ AWS เขาเชี่ยวชาญด้านการพัฒนาส่วนหน้าในองค์กร AWS Professional Services และทีม Amazon Privacy
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. ยานยนต์ / EVs, คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- BlockOffsets การปรับปรุงการเป็นเจ้าของออฟเซ็ตด้านสิ่งแวดล้อมให้ทันสมัย เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :เป็น
- :ไม่
- :ที่ไหน
- $ ขึ้น
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- เกี่ยวกับเรา
- เข้า
- ลงชื่อเข้าใช้
- ความถูกต้อง
- ข้าม
- ที่เกิดขึ้นจริง
- เพิ่ม
- เพิ่มเติม
- ที่อยู่
- ราคาไม่แพง
- อัลกอริทึม
- ช่วยให้
- ด้วย
- อเมซอน
- Amazon Text
- อเมซอนแปลภาษา
- Amazon Web Services
- an
- และ
- ใด
- อาปาเช่
- การใช้งาน
- เข้าใกล้
- เหมาะสม
- สถาปัตยกรรม
- เป็น
- AS
- At
- เติม
- อัตโนมัติ
- อัตโนมัติ
- ใช้ได้
- AWS
- บริการระดับมืออาชีพของ AWS
- ตาม
- BE
- กำลัง
- ระหว่าง
- เกิน
- Black
- ปิดกั้น
- Blocks
- กล่อง
- สร้าง
- สร้าง
- ธุรกิจ
- by
- คำนวณ
- CAN
- ความสามารถในการ
- กรณี
- การเปลี่ยนแปลง
- ตัวอักษร
- การรู้จำอักขระ
- อักขระ
- เมฆ
- การจัดกลุ่ม
- รหัส
- สี
- การสื่อสาร
- สมบูรณ์
- การกำหนดค่า
- มี
- เนื้อหา
- เนื้อหา
- สิ่งแวดล้อม
- การแก้ไข
- ตรงกัน
- ค่าใช้จ่ายที่มีประสิทธิภาพ
- ค่าใช้จ่าย
- สร้าง
- ที่สร้างขึ้น
- สร้าง
- ขณะนี้
- การปรับแต่ง
- ปรับแต่ง
- ข้อมูล
- มอบ
- สาธิต
- ปรับใช้
- ที่ต้องการ
- รายละเอียด
- รายละเอียด
- พัฒนาการ
- ต่าง
- ยาก
- หลาย
- เอกสาร
- เอกสาร
- ไม่
- สอง
- แต่ละ
- ง่ายดาย
- อย่างง่ายดาย
- ความพยายาม
- อื่น
- การจ้าง
- ทำให้สามารถ
- ปลาย
- วิศวกร
- ภาษาอังกฤษ
- ตัวอย่าง
- ตัวอย่าง
- แพง
- สารสกัด
- สารสกัดจาก
- เท็จ
- FAST
- ใส่
- ทางการเงิน
- หา
- ชื่อจริง
- ลอย
- มุ่งเน้นไปที่
- ดังต่อไปนี้
- ดังต่อไปนี้
- สำหรับ
- สมัยก่อน
- รูปแบบ
- พบ
- ภาษาฝรั่งเศส
- ราคาเริ่มต้นที่
- ด้านหน้า
- ปลายด้านหน้า
- การพัฒนาส่วนหน้า
- เต็ม
- อย่างเต็มที่
- สร้าง
- การสร้าง
- ภาษาเยอรมัน
- ได้รับ
- GitHub
- เหตุการณ์ที่
- Go
- ไป
- มี
- he
- การดูแลสุขภาพ
- หนัก
- ความสูง
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- ที่มีคุณภาพสูง
- บ้าน
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTML
- ที่ http
- HTTPS
- เป็นมนุษย์
- ตัวบ่งชี้
- แยกแยะ
- if
- ภาพ
- ภาพ
- ปรับปรุง
- in
- ในอื่น ๆ
- ประกอบด้วย
- รวมทั้ง
- อุตสาหกรรม
- อินพุต
- แบบบูรณาการ
- เข้าไป
- IT
- ITS
- ชวา
- ภาษา
- ภาษา
- ใหญ่
- ชั้น
- เรียนรู้
- การเรียนรู้
- น้อยที่สุด
- ซ้าย
- น้อยลง
- ชั้น
- ห้องสมุด
- ห้องสมุด
- ขีด จำกัด
- Line
- เส้น
- รายการ
- ในประเทศ
- ตรรกะ
- ดู
- สูญเสีย
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- การจัดการ
- คู่มือ
- หลาย
- อาจ..
- ทางการแพทย์
- นาที
- ML
- การปรับเปลี่ยน
- ข้อมูลเพิ่มเติม
- ชื่อ
- จำเป็นต้อง
- จำเป็น
- ใหม่
- จำนวน
- วัตถุ
- OCR
- of
- มักจะ
- on
- ตามความต้องการ
- โอเพนซอร์ส
- การดำเนินการ
- การรู้จำอักขระด้วยแสง
- or
- ใบสั่ง
- organizacja
- เป็นต้นฉบับ
- อื่นๆ
- เอาท์พุต
- ของตนเอง
- หน้า
- หน้า
- คู่
- ผ่าน
- ชำระ
- รูปแบบไฟล์ PDF
- ที่มีประสิทธิภาพ
- สิทธิ์
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- โปรตุเกส
- ตำแหน่ง
- โพสต์
- นำเสนอ
- ความเป็นส่วนตัว
- ส่วนตัว
- สิทธิพิเศษ
- กระบวนการ
- แปรรูปแล้ว
- การประมวลผล
- มืออาชีพ
- การเขียนโปรแกรม
- การเขียนโปรแกรมภาษา
- ให้
- ให้
- การตีพิมพ์
- คุณภาพ
- อย่างรวดเร็ว
- การอ่าน
- การรับรู้
- แนะนำ
- บันทึก
- ภูมิภาค
- หน่วยงานกำกับดูแล
- น่าเชื่อถือ
- รายงาน
- ต้องการ
- ความต้องการ
- ต้อง
- หวงห้าม
- ผลสอบ
- รักษา
- การรักษา
- กลับ
- ทบทวน
- วิ่ง
- ลด
- ที่ปรับขนาดได้
- การสแกน
- วินาที
- ส่วน
- เห็น
- ระดับอาวุโส
- บริการ
- บริการ
- ชุด
- น่า
- โชว์
- แสดงให้เห็นว่า
- แสดง
- แสดงให้เห็นว่า
- คล้ายคลึงกัน
- ง่าย
- สถานการณ์
- ขนาด
- ช้า
- ทางออก
- แหล่ง
- สเปน
- เฉพาะ
- โดยเฉพาะ
- สแตนด์อโลน
- ข้อความที่เริ่ม
- ขั้นตอน
- การเก็บรักษา
- จัดเก็บ
- เชือก
- โครงสร้าง
- อย่างเช่น
- ที่สนับสนุน
- รองรับ
- TAG
- เอา
- ภาษี
- ทีม
- การทดสอบ
- กว่า
- ที่
- พื้นที่
- ที่มา
- พวกเขา
- แล้วก็
- ที่นั่น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- นี้
- ตลอด
- เวลา
- ไปยัง
- เอา
- ด้านบน
- แปลความ
- การแปลภาษา
- เข้าใจ
- เป็นเอกลักษณ์
- ใช้
- มือสอง
- ผู้ใช้
- ใช้
- การใช้
- การใช้ประโยชน์
- ตรวจสอบความถูกต้อง
- การตรวจสอบ
- ความหลากหลาย
- ต่างๆ
- ตรวจสอบ
- แนวดิ่ง
- รายละเอียด
- ไดรฟ์
- คือ
- we
- เว็บ
- บริการเว็บ
- ดี
- อะไร
- ที่
- ในขณะที่
- ขาว
- ความกว้าง
- กับ
- ภายใน
- ไม่มี
- คำ
- เวิร์กโฟลว์
- ขั้นตอนการทำงาน
- กำลังแรงงาน
- โรงงาน
- เขียน
- คุณ
- ของคุณ
- ลมทะเล