Các công ty trong nhiều ngành khác nhau tạo, quét và lưu trữ khối lượng lớn tài liệu PDF. Trong nhiều trường hợp, nội dung chứa nhiều văn bản và thường được viết bằng một ngôn ngữ khác và yêu cầu dịch thuật. Để giải quyết vấn đề này, bạn cần một giải pháp tự động để trích xuất nội dung trong các tệp PDF này và dịch chúng một cách nhanh chóng và tiết kiệm chi phí.
Nhiều doanh nghiệp có người dùng toàn cầu đa dạng và cần dịch văn bản để cho phép giao tiếp đa ngôn ngữ giữa họ. Đây là một nỗ lực thủ công, chậm và tốn kém của con người. Cần phải tìm một giải pháp có thể mở rộng, đáng tin cậy và tiết kiệm chi phí để dịch tài liệu trong khi vẫn giữ nguyên định dạng tài liệu gốc.
Đối với các ngành dọc như chăm sóc sức khỏe, do các yêu cầu về quy định, các tài liệu đã dịch cần có thêm một người trong quy trình để xác minh tính hợp lệ của tài liệu được dịch bằng máy.
Nếu tài liệu đã dịch không giữ nguyên định dạng và cấu trúc ban đầu, thì nó sẽ mất ngữ cảnh. Điều này có thể gây khó khăn cho người đánh giá xác thực và thực hiện các chỉnh sửa.
Trong bài đăng này, chúng tôi trình bày cách tạo một tệp PDF đã dịch mới từ một tệp PDF được quét trong khi vẫn giữ nguyên cấu trúc và định dạng tài liệu gốc bằng cách sử dụng phương pháp dựa trên hình học với Văn bản Amazon, Amazon Dịchvà Hộp PDF Apache.
Tổng quan về giải pháp
Giải pháp được trình bày trong bài đăng này sử dụng các thành phần sau:
- Văn bản Amazon – Dịch vụ máy học (ML) được quản lý hoàn toàn tự động trích xuất văn bản in, chữ viết tay và dữ liệu khác từ các tài liệu được quét vượt xa khả năng nhận dạng ký tự quang học (OCR) đơn giản để xác định, hiểu và trích xuất dữ liệu từ các biểu mẫu và bảng. Amazon Textract có thể phát hiện văn bản trong nhiều loại tài liệu, bao gồm báo cáo tài chính, hồ sơ y tế và biểu mẫu thuế.
- Amazon Dịch – Dịch vụ dịch máy thần kinh cung cấp bản dịch ngôn ngữ nhanh, chất lượng cao và giá cả phải chăng. Amazon Translate cung cấp khả năng dịch hàng loạt và theo yêu cầu chất lượng cao trên hơn 2,970 cặp ngôn ngữ, đồng thời giảm chi phí dịch thuật của bạn.
- Dịch PDF – Một thư viện mã nguồn mở được viết bằng Java và xuất bản trên Các mẫu AWS trong GitHub. Thư viện này chứa logic để tạo các tài liệu PDF đã dịch sang ngôn ngữ bạn muốn với Amazon Textract và Amazon Translate. Nó cũng sử dụng thư viện mã nguồn mở Java Apache PDFBox để tạo tài liệu PDF. Chẳng hạn, có các thư viện xử lý PDF tương tự trong các ngôn ngữ lập trình khác Nút PDFBox.
Trong khi thực hiện dịch máy, bạn có thể gặp các tình huống mà bạn muốn giữ lại các phần cụ thể của văn bản không bị dịch, chẳng hạn như tên hoặc số nhận dạng duy nhất. Amazon Translate cho phép sửa đổi thẻ, cho phép bạn chỉ định văn bản nào không được dịch. Amazon Translate cũng hỗ trợ tùy chỉnh hình thức, cho phép bạn tùy chỉnh mức độ hình thức trong đầu ra bản dịch của mình.
Để biết chi tiết về giới hạn Amazon Textract, hãy tham khảo Hạn ngạch trong Amazon Textract.
Giải pháp chỉ áp dụng cho các ngôn ngữ mà Amazon Textract có thể trích xuất. Ngôn ngữ này hiện hỗ trợ tiếng Anh, tiếng Tây Ban Nha, tiếng Ý, tiếng Bồ Đào Nha, tiếng Pháp và tiếng Đức. Những ngôn ngữ này cũng được hỗ trợ bởi Amazon Translate. Để biết danh sách đầy đủ các ngôn ngữ được Amazon Translate hỗ trợ, hãy tham khảo Ngôn ngữ và mã ngôn ngữ được hỗ trợ.
Chúng tôi sử dụng bản PDF sau đây để minh họa việc dịch văn bản từ tiếng Anh sang tiếng Tây Ban Nha. Giải pháp này cũng hỗ trợ tạo tài liệu đã dịch mà không cần bất kỳ định dạng nào. Vị trí của văn bản dịch được giữ nguyên. Các tài liệu PDF nguồn và đã dịch cũng có thể được tìm thấy trong AWS Mẫu GitHub repo.
Trong các phần sau, chúng tôi trình bày cách chạy mã dịch trên máy cục bộ và xem mã dịch chi tiết hơn.
Điều kiện tiên quyết
Trước khi bạn bắt đầu, hãy thiết lập tài khoản AWS của bạn và Giao diện dòng lệnh AWS (AWS CLI). Để truy cập vào bất kỳ Dịch vụ AWS nào, chẳng hạn như Textract và Dịch, cần có các quyền IAM thích hợp. Chúng tôi khuyên bạn nên sử dụng các quyền đặc quyền tối thiểu. Để tìm hiểu thêm về quyền IAM, hãy xem Chính sách và quyền trong IAM cũng như Cách Amazon Textract hoạt động với IAM và Cách Amazon Dịch hoạt động với IAM.
Chạy mã dịch trên máy cục bộ
Giải pháp này tập trung vào mã Java độc lập để trích xuất và dịch tài liệu PDF. Điều này là để kiểm tra và tùy chỉnh dễ dàng hơn để có được tài liệu PDF đã dịch được kết xuất tốt nhất. Sau đó, mã này có thể được tích hợp vào một giải pháp tự động để triển khai và chạy trong AWS. Nhìn thấy Dịch tài liệu PDF bằng Amazon Translate và Amazon Textract cho một kiến trúc mẫu sử dụng Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) để lưu trữ tài liệu và AWS Lambda để chạy mã.
Để chạy mã trên máy cục bộ, hãy hoàn thành các bước sau. Các ví dụ mã có sẵn trên Kho lưu trữ GitHub.
- Sao chép repo GitHub:
- Chạy lệnh sau:
- Chạy lệnh sau để dịch từ tiếng Anh sang tiếng Tây Ban Nha:
Hai tài liệu PDF đã dịch được tạo trong thư mục tài liệu, có và không có định dạng gốc (SampleOutput-es.pdf
và SampleOutput-min-es.pdf
).
Mã để tạo PDF đã dịch
Đoạn mã sau cho biết cách lấy tài liệu PDF và tạo tài liệu PDF đã dịch tương ứng. Nó trích xuất văn bản bằng Amazon Textract và tạo tệp PDF đã dịch bằng cách thêm văn bản đã dịch dưới dạng một lớp vào hình ảnh. Nó được xây dựng trên giải pháp được hiển thị trong bài viết Tự động tạo các tệp PDF có thể tìm kiếm từ các tài liệu được quét bằng Amazon Textract.
Trước tiên, mã nhận từng dòng văn bản với Amazon Textract. Amazon Translate được sử dụng để nhận văn bản đã dịch và lưu hình học của văn bản đã dịch.
Kích thước phông chữ được tính toán như sau và có thể dễ dàng cấu hình:
PDF đã dịch được tạo từ hình đã lưu và văn bản đã dịch. Có thể dễ dàng định cấu hình các thay đổi đối với màu của văn bản đã dịch.
Hình ảnh sau đây cho thấy tài liệu được dịch sang tiếng Tây Ban Nha với định dạng ban đầu (SampleOutput-es.pdf
).
Hình ảnh sau đây hiển thị bản PDF đã dịch bằng tiếng Tây Ban Nha mà không có bất kỳ định dạng nào (SampleOutput-min-es.pdf
).
Thời gian xử lý
Bản pdf đơn xin việc mất khoảng 10 giây để trích xuất, xử lý và hiển thị bản pdf đã dịch. Thời gian xử lý tài liệu nặng văn bản như Tuyên bố độc lập PDF mất chưa đầy một phút.
Phí Tổn
Với Amazon Textract, bạn trả tiền khi sử dụng dựa trên số lượng trang và hình ảnh được xử lý. Với Amazon Translate, bạn trả tiền khi sử dụng dựa trên số lượng ký tự văn bản được xử lý. tham khảo Định giá Amazon Textract và Định giá trên Amazon Dịch cho chi phí thực tế.
Kết luận
Bài đăng này hướng dẫn cách sử dụng Amazon Textract và Amazon Translate để tạo tài liệu PDF đã dịch trong khi vẫn giữ nguyên cấu trúc tài liệu gốc. Bạn có thể tùy ý xử lý hậu kỳ các kết quả của Amazon Textract để cải thiện chất lượng của bản dịch, ví dụ: các từ được trích xuất có thể được chuyển qua kiểm tra chính tả dựa trên ML, chẳng hạn như SymSpell để xác thực dữ liệu hoặc thuật toán phân cụm có thể được sử dụng để duy trì thứ tự đọc. Bạn cũng có thể dùng AI tăng cường của Amazon (Amazon A2I) để xây dựng quy trình đánh giá của con người, nơi bạn có thể sử dụng lực lượng lao động riêng của mình để đánh giá các tài liệu PDF gốc và đã dịch để cung cấp độ chính xác và ngữ cảnh cao hơn. Nhìn thấy Thiết kế quy trình đánh giá của con người với Amazon Dịch và Amazon Augmented AI và Xây dựng quy trình dịch tài liệu đa ngôn ngữ với khả năng tùy chỉnh theo miền và ngôn ngữ cụ thể để bắt đầu.
Về các tác giả
Anubha Singhal là Kiến trúc sư đám mây cấp cao tại Amazon Web Services trong tổ chức Dịch vụ chuyên nghiệp AWS.
Sean Lawrence trước đây là Kỹ sư giao diện người dùng tại AWS. Ông chuyên về phát triển giao diện người dùng trong tổ chức Dịch vụ chuyên nghiệp AWS và nhóm Quyền riêng tư của Amazon.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Ô tô / Xe điện, Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- BlockOffsets. Hiện đại hóa quyền sở hữu bù đắp môi trường. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :là
- :không phải
- :Ở đâu
- $ LÊN
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- Giới thiệu
- truy cập
- Tài khoản
- chính xác
- ngang qua
- thực tế
- thêm
- thêm vào
- địa chỉ
- giá cả phải chăng
- thuật toán
- cho phép
- Ngoài ra
- đàn bà gan dạ
- Văn bản Amazon
- Amazon Dịch
- Amazon Web Services
- an
- và
- bất kì
- Apache
- Các Ứng Dụng
- phương pháp tiếp cận
- thích hợp
- kiến trúc
- LÀ
- AS
- At
- tăng cường
- Tự động
- tự động
- có sẵn
- AWS
- Dịch vụ chuyên nghiệp của AWS
- dựa
- BE
- được
- giữa
- Ngoài
- Đen
- Chặn
- Khối
- Hộp
- xây dựng
- xây dựng
- các doanh nghiệp
- by
- tính
- CAN
- khả năng
- trường hợp
- Những thay đổi
- tính cách
- nhận dạng nhân vật
- nhân vật
- đám mây
- tập hợp
- mã
- màu sắc
- Giao tiếp
- hoàn thành
- cấu hình
- chứa
- nội dung
- nội dung
- bối cảnh
- Sửa chữa
- Tương ứng
- chi phí-hiệu quả
- Chi phí
- tạo
- tạo ra
- tạo ra
- Hiện nay
- tùy biến
- tùy chỉnh
- dữ liệu
- cung cấp
- chứng minh
- triển khai
- mong muốn
- chi tiết
- chi tiết
- Phát triển
- khác nhau
- khó khăn
- khác nhau
- tài liệu
- tài liệu
- Không
- hai
- mỗi
- dễ dàng hơn
- dễ dàng
- nỗ lực
- khác
- việc làm
- cho phép
- cuối
- ky sư
- Tiếng Anh
- ví dụ
- ví dụ
- đắt tiền
- trích xuất
- Chất chiết xuất
- sai
- NHANH
- điền
- tài chính
- Tìm kiếm
- Tên
- Phao
- tập trung
- tiếp theo
- sau
- Trong
- trước kia
- các hình thức
- tìm thấy
- Tiếng Pháp
- từ
- trước mặt
- Mặt trận cuối cùng
- Phát triển giao diện người dùng
- Full
- đầy đủ
- tạo ra
- tạo ra
- Tiếng Đức
- được
- GitHub
- Toàn cầu
- Go
- Đi
- Có
- he
- chăm sóc sức khỏe
- nặng
- cao
- tại đây
- chất lượng cao
- House
- Độ đáng tin của
- Hướng dẫn
- HTML
- http
- HTTPS
- Nhân loại
- định danh
- xác định
- if
- hình ảnh
- hình ảnh
- nâng cao
- in
- Mặt khác
- bao gồm
- Bao gồm
- các ngành công nghiệp
- đầu vào
- tích hợp
- trong
- IT
- ITS
- Java
- Ngôn ngữ
- Ngôn ngữ
- lớn
- lớp
- LEARN
- học tập
- ít nhất
- trái
- ít
- Cấp
- thư viện
- Thư viện
- giới hạn
- Dòng
- dòng
- Danh sách
- địa phương
- logic
- Xem
- Mất
- máy
- học máy
- làm cho
- quản lý
- nhãn hiệu
- nhiều
- Có thể..
- y khoa
- phút
- ML
- Sửa đổi
- chi tiết
- tên
- Cần
- cần thiết
- Mới
- con số
- vật
- OCR
- of
- thường
- on
- Theo yêu cầu
- mã nguồn mở
- hoạt động
- nhận dạng ký tự quang học
- or
- gọi món
- cơ quan
- nguyên
- Nền tảng khác
- đầu ra
- riêng
- trang
- trang
- cặp
- thông qua
- Trả
- biểu diễn
- quyền
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Bồ Đào Nha
- vị trí
- Bài đăng
- trình bày
- riêng tư
- riêng
- đặc quyền
- quá trình
- Xử lý
- xử lý
- chuyên nghiệp
- Lập trình
- ngôn ngữ lập trình
- cho
- cung cấp
- công bố
- chất lượng
- Mau
- Reading
- công nhận
- giới thiệu
- hồ sơ
- khu
- nhà quản lý
- đáng tin cậy
- Báo cáo
- yêu cầu
- Yêu cầu
- đòi hỏi
- hạn chế
- Kết quả
- giữ lại
- giữ lại
- trở lại
- xem xét
- chạy
- Lưu
- khả năng mở rộng
- quét
- giây
- phần
- xem
- cao cấp
- dịch vụ
- DỊCH VỤ
- định
- nên
- hiển thị
- cho thấy
- thể hiện
- Chương trình
- tương tự
- Đơn giản
- tình huống
- Kích thước máy
- chậm
- giải pháp
- nguồn
- Tiếng Tây Ban Nha
- chuyên nghành
- riêng
- độc lập
- bắt đầu
- Các bước
- là gắn
- hàng
- Chuỗi
- cấu trúc
- như vậy
- Hỗ trợ
- Hỗ trợ
- TAG
- Hãy
- thuế
- nhóm
- Kiểm tra
- hơn
- việc này
- Sản phẩm
- Nguồn
- Them
- sau đó
- Đó
- Kia là
- điều này
- Thông qua
- thời gian
- đến
- mất
- hàng đầu
- dịch
- Dịch
- hiểu
- độc đáo
- sử dụng
- đã sử dụng
- Người sử dụng
- sử dụng
- sử dụng
- Bằng cách sử dụng
- HIỆU LỰC
- xác nhận
- nhiều
- khác nhau
- xác minh
- ngành dọc
- Xem
- khối lượng
- là
- we
- web
- các dịch vụ web
- TỐT
- Điều gì
- cái nào
- trong khi
- trắng
- chiều rộng
- với
- ở trong
- không có
- từ
- quy trình làm việc
- Luồng công việc
- Lực lượng lao động
- công trinh
- viết
- Bạn
- trên màn hình
- zephyrnet