Tiếng mẹ đẻ của một người là một phần của các đặc điểm khiến họ trở nên độc đáo. Thường có vô số cách khác nhau để thể hiện một ý tưởng cụ thể. Khi một công ty giao tiếp với khách hàng của họ, điều quan trọng là thông điệp phải được truyền tải theo cách thể hiện tốt nhất thông tin mà họ đang cố gắng truyền tải. Điều này càng trở nên quan trọng hơn khi nói đến dịch thuật ngôn ngữ chuyên nghiệp. Khách hàng của các hệ thống và dịch vụ dịch thuật mong đợi kết quả đầu ra chính xác và có tính tùy chỉnh cao. Để đạt được điều này, họ thường sử dụng lại các đầu ra dịch trước đó — được gọi là bộ nhớ dịch (TM) —và so sánh chúng với văn bản đầu vào mới. Trong dịch thuật có sự hỗ trợ của máy tính, kỹ thuật này được gọi là kết hợp mờ. Chức năng chính của so khớp mờ là hỗ trợ người dịch bằng cách đẩy nhanh quá trình dịch. Khi không thể tìm thấy kết quả khớp chính xác trong cơ sở dữ liệu TM cho văn bản đang được dịch, các hệ thống quản lý bản dịch (TMS) thường có tùy chọn để tìm kiếm kết quả phù hợp ít chính xác hơn. Các kết quả phù hợp tiềm năng được cung cấp cho người dịch như một đầu vào bổ sung cho bản dịch cuối cùng. Những người dịch nâng cao quy trình làm việc của họ với khả năng dịch máy, chẳng hạn như Amazon Dịch thường mong đợi dữ liệu đối sánh mờ được sử dụng như một phần của giải pháp dịch tự động.
Trong bài đăng này, bạn học cách tùy chỉnh đầu ra từ Amazon Dịch theo điểm chất lượng đối sánh mờ của bộ nhớ dịch.
Đối sánh chất lượng bản dịch
Định dạng tệp trao đổi bản địa hóa XML (XLIFF) tiêu chuẩn thường được sử dụng làm định dạng trao đổi dữ liệu giữa TMS và Amazon Dịch. Các tệp XLIFF do TMS tạo ra bao gồm dữ liệu văn bản nguồn và đích cùng với điểm chất lượng đối sánh dựa trên TM có sẵn. Những điểm số này — thường được biểu thị bằng phần trăm — cho biết mức độ gần của bộ nhớ dịch với văn bản đang được dịch.
Một số khách hàng có yêu cầu rất khắt khe chỉ muốn sử dụng bản dịch máy khi điểm chất lượng đối sánh dưới một ngưỡng nhất định. Vượt quá ngưỡng này, họ hy vọng bộ nhớ dịch của riêng họ sẽ được ưu tiên hơn. Người dịch thường cần áp dụng các tùy chọn này theo cách thủ công trong TMS của họ hoặc bằng cách thay đổi dữ liệu văn bản. Luồng này được minh họa trong sơ đồ sau. Hệ thống dịch máy xử lý dữ liệu dịch — văn bản và điểm đối sánh mờ — sau đó được người dịch xem xét và chỉnh sửa thủ công, dựa trên ngưỡng chất lượng mong muốn của họ. Việc áp dụng các ngưỡng như một phần của bước dịch máy cho phép bạn loại bỏ các bước thủ công này, giúp cải thiện hiệu quả và tối ưu hóa chi phí.
Giải pháp được trình bày trong bài đăng này cho phép bạn thực thi các quy tắc dựa trên ngưỡng điểm chất lượng đối sánh để xác định xem một văn bản đầu vào nhất định có nên được dịch bằng máy bởi Amazon Translate hay không. Khi không được dịch bằng máy, văn bản kết quả được để tùy ý của người dịch xem xét đầu ra cuối cùng.
giải pháp xây dựng
Kiến trúc giải pháp được minh họa trong Hình 2 thúc đẩy các dịch vụ sau:
- Dịch vụ lưu trữ đơn giản của Amazon - Nhóm Amazon S3 chứa nội dung sau:
- Tệp cấu hình ngưỡng đối sánh mờ
- Văn bản nguồn sẽ được dịch
- Vị trí dữ liệu đầu vào và đầu ra của Amazon Dịch
- Người quản lý hệ thống AWS - Chúng tôi sử dụng Cửa hàng thông số tham số để lưu trữ các giá trị cấu hình ngưỡng chất lượng đối sánh
- AWS Lambda - Chúng tôi sử dụng hai hàm Lambda:
- Một chức năng xử lý trước các tệp cấu hình ngưỡng đối sánh chất lượng và lưu giữ dữ liệu vào Cửa hàng thông số
- Một chức năng tự động tạo các công việc dịch không đồng bộ
- Dịch vụ xếp hàng đơn giản trên Amazon - Hàng đợi Amazon SQS kích hoạt luồng dịch do kết quả của các tệp mới vào nhóm nguồn
Trước tiên, bạn thiết lập ngưỡng chất lượng cho công việc dịch thuật của mình bằng cách chỉnh sửa tệp cấu hình và tải tệp đó lên nhóm cấu hình ngưỡng khớp mờ S3. Sau đây là cấu hình mẫu ở định dạng CSV. Chúng tôi chọn CSV vì sự đơn giản, mặc dù bạn có thể sử dụng bất kỳ định dạng nào. Mỗi dòng đại diện cho một ngưỡng được áp dụng cho một công việc dịch cụ thể hoặc làm giá trị mặc định cho bất kỳ công việc nào.
Các thông số kỹ thuật của tệp cấu hình như sau:
- Cột 1 phải được điền tên của tệp XLIFF — không có phần mở rộng — được cung cấp cho công việc Amazon Dịch dưới dạng dữ liệu đầu vào.
- Cột 2 phải được điền bằng ngưỡng phần trăm đối sánh chất lượng. Đối với bất kỳ điểm nào dưới giá trị này, dịch máy sẽ được sử dụng.
- Đối với tất cả các tệp XLIFF có tên không khớp với bất kỳ tên nào được liệt kê trong tệp cấu hình, ngưỡng mặc định được sử dụng — dòng có từ khóa
default
đặt trong Cột 1.
Khi một tệp mới được tải lên, Amazon S3 sẽ kích hoạt chức năng Lambda chịu trách nhiệm xử lý các tham số. Hàm này đọc và lưu trữ các tham số ngưỡng vào Parameter Store để sử dụng trong tương lai. Việc sử dụng Parameter Store tránh thực hiện các yêu cầu dư thừa của Amazon S3 GET mỗi khi bắt đầu một công việc dịch mới. Tệp cấu hình mẫu tạo ra các thẻ tham số được hiển thị trong ảnh chụp màn hình sau.
Hàm Lambda khởi tạo công việc sử dụng các tham số này để xử lý trước dữ liệu trước khi gọi Amazon Dịch. Chúng tôi sử dụng tệp đầu vào XLIFF dịch từ tiếng Anh sang tiếng Tây Ban Nha, như được hiển thị trong đoạn mã sau. Nó chứa văn bản ban đầu được dịch, được chia nhỏ thành những gì được gọi là phân đoạn, được thể hiện trong các thẻ nguồn.
Văn bản nguồn đã được đối sánh trước với bộ nhớ dịch trước đó. Dữ liệu chứa các lựa chọn dịch thuật thay thế tiềm năng — được trình bày dưới dạng <alt-trans>
- cùng với thuộc tính chất lượng đối sánh, được biểu thị dưới dạng phần trăm. Quy tắc kinh doanh như sau:
- Các phân đoạn nhận được với các bản dịch thay thế và chất lượng đối sánh dưới ngưỡng không bị ảnh hưởng hoặc trống rỗng. Điều này báo hiệu cho Amazon Dịch rằng chúng phải được dịch.
- Các phân đoạn nhận được với các bản dịch thay thế có chất lượng đối sánh cao hơn ngưỡng được điền trước với văn bản mục tiêu được đề xuất. Amazon Dịch bỏ qua các phân đoạn đó.
Giả sử ngưỡng đối sánh chất lượng được định cấu hình cho công việc này là 80%. Phân đoạn đầu tiên có chất lượng đối sánh 99% không phải do máy dịch, trong khi phân đoạn thứ hai thì do chất lượng đối sánh của nó thấp hơn ngưỡng đã xác định. Trong cấu hình này, Amazon Translate tạo ra kết quả sau:
Trong phân đoạn thứ hai, Amazon Dịch ghi đè văn bản mục tiêu được đề xuất ban đầu (Selección
) với bản dịch chất lượng cao hơn: Visita de selección
.
Một phần mở rộng khả thi cho trường hợp sử dụng này có thể là sử dụng lại đầu ra đã dịch và tạo bộ nhớ dịch của riêng chúng ta. Amazon Dịch hỗ trợ tùy chỉnh bản dịch máy bằng bộ nhớ dịch nhờ vào dữ liệu song song tính năng. Các đoạn văn bản đã được máy dịch trước đó do điểm chất lượng thấp ban đầu của chúng sau đó có thể được sử dụng lại trong các dự án dịch mới.
Trong các phần tiếp theo, chúng tôi sẽ hướng dẫn bạn quy trình triển khai và thử nghiệm giải pháp này. Bạn sử dụng Hình thành đám mây AWS tập lệnh và mẫu dữ liệu để khởi chạy công việc dịch không đồng bộ được cá nhân hóa với ngưỡng đối sánh chất lượng có thể định cấu hình.
Điều kiện tiên quyết
Đối với hướng dẫn này, bạn phải có Tài khoản AWS. Nếu bạn chưa có tài khoản, bạn có thể tạo và kích hoạt một.
Khởi chạy ngăn xếp AWS CloudFormation
- Chọn Khởi chạy Stack:
- Trong Tên ngăn xếp, nhập tên.
- Trong Tên nhóm cấu hình, nhập nhóm S3 chứa các tệp cấu hình ngưỡng.
- Trong Tham sốStoreRoot, nhập đường dẫn gốc của các tham số được tạo bởi hàm Lambda xử lý tham số.
- Trong Tên hàng đợi, nhập hàng đợi SQS mà bạn tạo để đăng thông báo tệp mới từ nhóm nguồn lên hàm Lambda khởi tạo công việc. Đây là chức năng đọc tệp cấu hình.
- Trong NguồnBucketName, nhập nhóm S3 chứa các tệp XLIFF cần dịch. Nếu muốn sử dụng nhóm có sẵn, bạn cần thay đổi giá trị của tham số CreateSourceBucket thành Không.
- Trong Tên nhóm làm việc, nhập nhóm S3 mà Amazon Dịch sử dụng cho dữ liệu đầu vào và đầu ra.
- Chọn Sau.
- Tùy chọn trên Sắp xếp Các lựa chọn , thêm các tên và giá trị chính cho các thẻ mà bạn có thể muốn gán cho các tài nguyên sắp được tạo.
- Chọn Sau.
- trên Đánh giá trang, chọn Tôi xác nhận rằng mẫu này có thể khiến AWS CloudFormation tạo tài nguyên IAM.
- Xem lại các cài đặt khác, sau đó chọn Tạo ngăn xếp.
AWS CloudFormation mất vài phút để thay mặt bạn tạo tài nguyên. Bạn có thể xem tiến trình trên Sự Kiện trên bảng điều khiển AWS CloudFormation. Khi ngăn xếp đã được tạo, bạn có thể thấy CREATE_COMPLETE
tin nhắn trong Trạng thái cột trên Giới thiệu chung tab.
Kiểm tra giải pháp
Hãy đi qua một ví dụ đơn giản.
- Tải về sau đây dữ liệu mẫu.
- Giải nén nội dung.
Phải có hai tệp: tệp .xlf ở định dạng XLIFF và tệp cấu hình ngưỡng với .cfg làm phần mở rộng. Sau đây là phần trích dẫn của tệp XLIFF.
- Trên bảng điều khiển Amazon S3, hãy tải tệp cấu hình ngưỡng chất lượng lên nhóm cấu hình mà bạn đã chỉ định trước đó.
Giá trị được đặt cho test_En_to_Fr
là 75%. Bạn sẽ có thể xem các thông số trên bảng điều khiển Trình quản lý hệ thống trong phần Lưu trữ thông số.
- Vẫn trên bảng điều khiển Amazon S3, hãy tải tệp .xlf lên bộ chứa S3 mà bạn đã định cấu hình làm nguồn. Đảm bảo rằng tệp nằm trong một thư mục có tên
translate
(ví dụ,<my_bucket>/translate/test_En_to_Fr.xlf
).
Điều này bắt đầu luồng dịch.
- Mở bảng điều khiển Amazon Translate.
Một công việc mới sẽ xuất hiện với trạng thái Đang tiến hành.
- Sau khi công việc hoàn tất, hãy nhấp vào liên kết của công việc và tham khảo kết quả đầu ra. Tất cả các phân đoạn lẽ ra phải được dịch.
Tất cả các phân đoạn lẽ ra phải được dịch. Trong tệp XLIFF đã dịch, hãy tìm các phân đoạn có các thuộc tính bổ sung được đặt tên lscustom:match-quality
, như được hiển thị trong ảnh chụp màn hình sau đây. Các thuộc tính tùy chỉnh này xác định các phân đoạn mà bản dịch đề xuất được giữ lại dựa trên điểm số.
Chúng được lấy từ bộ nhớ dịch theo ngưỡng chất lượng. Tất cả các phân đoạn khác đã được dịch bằng máy.
Bạn hiện đã triển khai và thử nghiệm một trợ lý công việc dịch không đồng bộ tự động thực thi các ngưỡng chất lượng khớp với bộ nhớ dịch có thể định cấu hình. Bạn đã làm rất tốt!
Dọn dẹp
Nếu bạn đã triển khai giải pháp vào tài khoản của mình, đừng quên xóa ngăn xếp CloudFormation để tránh bất kỳ chi phí không mong muốn nào. Bạn cần làm trống các nhóm S3 theo cách thủ công trước đó.
Kết luận
Trong bài đăng này, bạn đã học cách tùy chỉnh các công việc dịch thuật trên Amazon Translate của mình dựa trên các chỉ số chất lượng đối sánh mờ XLIFF tiêu chuẩn. Với giải pháp này, bạn có thể giảm đáng kể lao động thủ công liên quan đến việc xem xét văn bản được dịch bằng máy đồng thời tối ưu hóa việc sử dụng Amazon Dịch của bạn. Bạn cũng có thể mở rộng giải pháp với khả năng tự động nhập dữ liệu và điều phối quy trình làm việc, như được mô tả trong Tăng tốc công việc dịch thuật với Trợ lý hệ thống dịch hoàn toàn tự động.
Về các tác giả
Narcisse Zekpa là một Kiến trúc sư Giải pháp có trụ sở tại Boston. Anh ấy giúp khách hàng ở Đông Bắc Hoa Kỳ đẩy nhanh việc áp dụng AWS Cloud, bằng cách cung cấp các hướng dẫn về kiến trúc, thiết kế các giải pháp sáng tạo và có thể mở rộng. Khi Narcisse không đi xây dựng, anh ấy thích dành thời gian cho gia đình, đi du lịch, nấu ăn và chơi bóng rổ.
Dimitri Restaino là Kiến trúc sư Giải pháp tại AWS, có trụ sở tại Brooklyn, New York. Ông chủ yếu làm việc với các công ty Chăm sóc sức khỏe và Dịch vụ Tài chính ở Đông Bắc, giúp thiết kế các giải pháp đổi mới và sáng tạo để phục vụ tốt nhất cho khách hàng của họ. Xuất thân từ nền tảng phát triển phần mềm, anh ấy rất phấn khích trước những khả năng mới mà công nghệ không máy chủ có thể mang lại cho thế giới. Ngoài giờ làm việc, anh ấy thích đi bộ đường dài và khám phá cảnh ẩm thực ở NYC.
- Coinsmart. Sàn giao dịch Bitcoin và tiền điện tử tốt nhất Châu Âu.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. TRUY CẬP MIỄN PHÍ.
- CryptoHawk. Radar Altcoin. Dùng thử miễn phí.
- Nguồn: https://aws.amazon.com/blogs/machine-learning/personalize-your-machine-translation-results-by-using-fuzzy-matching-with-amazon-translate/
- "
- 100
- 420
- 7
- Giới thiệu
- đẩy nhanh tiến độ
- Theo
- Tài khoản
- chính xác
- Đạt được
- thêm vào
- Nhận con nuôi
- Tất cả
- thay thế
- Mặc dù
- đàn bà gan dạ
- Nộp đơn
- kiến trúc
- kiến trúc
- Trợ lý
- thuộc tính
- Tự động
- Tự động hóa
- có sẵn
- AWS
- lý lịch
- Bóng rổ
- được
- phía dưới
- BEST
- Ngoài
- biên giới
- boston
- Xây dựng
- kinh doanh
- khả năng
- Nguyên nhân
- nhất định
- thay đổi
- phí
- Chọn
- đám mây
- mã
- Cột
- đến
- Các công ty
- Cấu hình
- đồng ý
- An ủi
- chứa
- nội dung
- có thể
- tạo
- tạo ra
- tạo ra
- Sáng tạo
- quan trọng
- khách hàng
- khách hàng
- dữ liệu
- Cơ sở dữ liệu
- giao
- triển khai
- triển khai
- mô tả
- Thiết kế
- Phát triển
- khác nhau
- tùy ý
- Không
- xuống
- lái xe
- hiệu quả
- Tiếng Anh
- đăng ký hạng mục thi
- ví dụ
- Sàn giao dịch
- kích thích
- mong đợi
- khám phá
- bày tỏ
- thêm
- gia đình
- Đặc tính
- Hình
- tài chính
- dịch vụ tài chính
- Công ty
- Tên
- dòng chảy
- tiếp theo
- sau
- thực phẩm
- định dạng
- tìm thấy
- Tiếng Pháp
- chức năng
- chức năng
- tương lai
- tuyệt vời
- rất nhiều
- Nhóm
- hướng dẫn
- chăm sóc sức khỏe
- giúp đỡ
- giúp
- cao hơn
- cao
- Độ đáng tin của
- Hướng dẫn
- HTTPS
- ý tưởng
- xác định
- xác định
- quan trọng
- bao gồm
- thông tin
- sáng tạo
- đầu vào
- tham gia
- IT
- Việc làm
- việc làm
- Key
- nổi tiếng
- nhân công
- Ngôn ngữ
- phóng
- LEARN
- học
- đòn bẩy
- Dòng
- LINK
- Liệt kê
- máy
- quản lý
- giám đốc
- nhãn hiệu
- thủ công
- Trận đấu
- phù hợp
- Bộ nhớ
- Metrics
- Might
- chi tiết
- tên
- Newyork
- Bắc
- NYC
- tối ưu hóa
- Tùy chọn
- dàn nhạc
- Nền tảng khác
- riêng
- một phần
- tỷ lệ phần trăm
- biểu diễn
- cá nhân
- chơi
- khả năng
- có thể
- tiềm năng
- trước
- chính
- quá trình
- Quy trình
- xử lý
- Sản xuất
- chuyên nghiệp
- dự án
- cung cấp
- chất lượng
- nhận
- giảm
- đại diện
- đại diện cho
- yêu cầu
- Yêu cầu
- Thông tin
- Kết quả
- xem xét
- quy tắc
- khả năng mở rộng
- bối cảnh
- Tìm kiếm
- phân khúc
- phân đoạn
- Không có máy chủ
- DỊCH VỤ
- định
- thể hiện
- Đơn giản
- Phần mềm
- phát triển phần mềm
- rắn
- giải pháp
- Giải pháp
- thông số kỹ thuật
- Chi
- ngăn xếp
- Tiêu chuẩn
- bắt đầu
- Trạng thái
- là gắn
- hàng
- cửa hàng
- Hỗ trợ
- hệ thống
- hệ thống
- Mục tiêu
- Công nghệ
- Kiểm tra
- Nguồn
- thế giới
- ngưỡng
- Thông qua
- thời gian
- Dịch
- Đi du lịch
- chúng tôi
- độc đáo
- sử dụng
- giá trị
- Đồng hồ đeo tay
- Điều gì
- Là gì
- liệu
- trong khi
- CHÚNG TÔI LÀ
- ở trong
- Công việc
- công trinh
- thế giới
- XML