Đi sâu vào Deep Learning (D2L.ái) là sách giáo khoa mã nguồn mở giúp mọi người có thể tiếp cận học sâu. Nó có các sổ ghi chép Jupyter tương tác với mã độc lập trong PyTorch, JAX, TensorFlow và MXNet, cũng như các ví dụ thực tế, số liệu trình bày và toán học. Cho đến nay, D2L đã được hơn 400 trường đại học trên thế giới áp dụng, chẳng hạn như Đại học Cambridge, Đại học Stanford, Viện Công nghệ Massachusetts, Đại học Carnegie Mellon và Đại học Thanh Hoa. Tác phẩm này cũng có sẵn bằng tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Bồ Đào Nha, tiếng Thổ Nhĩ Kỳ và tiếng Việt, với kế hoạch ra mắt tiếng Tây Ban Nha và các ngôn ngữ khác.
Đó là một nỗ lực đầy thách thức để có một cuốn sách trực tuyến được cập nhật liên tục, được viết bởi nhiều tác giả và có sẵn bằng nhiều ngôn ngữ. Trong bài đăng này, chúng tôi trình bày một giải pháp mà D2L.ai đã sử dụng để giải quyết thách thức này bằng cách sử dụng Tính năng Active Custom Translation (ACT) of Amazon Dịch và xây dựng hệ thống dịch tự động đa ngôn ngữ.
Chúng tôi trình bày cách sử dụng Bảng điều khiển quản lý AWS và API công khai của Amazon Translate để cung cấp bản dịch hàng loạt bằng máy tự động và phân tích bản dịch giữa hai cặp ngôn ngữ: tiếng Anh và tiếng Trung, tiếng Anh và tiếng Tây Ban Nha. Chúng tôi cũng đề xuất các phương pháp hay nhất khi sử dụng Amazon Translate trong quy trình dịch tự động này để đảm bảo chất lượng và hiệu quả của bản dịch.
Tổng quan về giải pháp
Chúng tôi đã xây dựng quy trình dịch tự động cho nhiều ngôn ngữ bằng cách sử dụng tính năng ACT trong Amazon Translate. ACT cho phép bạn tùy chỉnh đầu ra bản dịch một cách nhanh chóng bằng cách cung cấp các ví dụ bản dịch phù hợp dưới dạng dữ liệu song song. Dữ liệu song song bao gồm một tập hợp các ví dụ văn bản bằng ngôn ngữ nguồn và các bản dịch mong muốn sang một hoặc nhiều ngôn ngữ đích. Trong quá trình dịch, ACT tự động chọn các phân đoạn phù hợp nhất từ dữ liệu song song và cập nhật mô hình dịch một cách nhanh chóng dựa trên các cặp phân đoạn đó. Điều này dẫn đến các bản dịch phù hợp hơn với phong cách và nội dung của dữ liệu song song.
Kiến trúc chứa nhiều đường ống phụ; mỗi đường ống phụ xử lý một bản dịch ngôn ngữ, chẳng hạn như tiếng Anh sang tiếng Trung, tiếng Anh sang tiếng Tây Ban Nha, v.v. Nhiều đường ống phụ dịch thuật có thể được xử lý song song. Trong mỗi quy trình phụ, trước tiên chúng tôi xây dựng dữ liệu song song trong Amazon Translate bằng cách sử dụng bộ dữ liệu chất lượng cao gồm các ví dụ dịch theo đuôi từ sách D2L do con người dịch. Sau đó, chúng tôi tạo đầu ra bản dịch máy tùy chỉnh một cách nhanh chóng trong thời gian chạy, giúp đạt được chất lượng và độ chính xác cao hơn.
Trong các phần sau, chúng tôi trình bày cách xây dựng từng quy trình dịch bằng cách sử dụng Amazon Translate với ACT, cùng với Amazon SageMaker và Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3).
Đầu tiên, chúng tôi đặt các tài liệu nguồn, tài liệu tham khảo và tập huấn luyện dữ liệu song song vào một bộ chứa S3. Sau đó, chúng tôi xây dựng sổ ghi chép Jupyter trong SageMaker để chạy quy trình dịch bằng API công khai của Amazon Translate.
Điều kiện tiên quyết
Để làm theo các bước trong bài đăng này, hãy đảm bảo bạn có tài khoản AWS với các thông tin sau:
- Truy cập vào Quản lý truy cập và nhận dạng AWS (IAM) cho cấu hình vai trò và chính sách
- Truy cập vào Amazon Translate, SageMaker và Amazon S3
- Bộ chứa S3 để lưu trữ tài liệu nguồn, tài liệu tham khảo, tập dữ liệu song song và đầu ra của bản dịch
Tạo vai trò IAM và chính sách cho Amazon Translate bằng ACT
Vai trò IAM của chúng tôi cần có chính sách tin cậy tùy chỉnh cho Amazon Translate:
Vai trò này cũng phải có chính sách quyền cấp cho Amazon Translate quyền truy cập đọc vào thư mục đầu vào và các thư mục con trong Amazon S3 chứa tài liệu nguồn, cũng như quyền truy cập đọc/ghi vào bộ chứa S3 đầu ra và thư mục chứa tài liệu đã dịch:
Để chạy sổ ghi chép Jupyter trong SageMaker cho các công việc dịch thuật, chúng tôi cần cấp chính sách quyền nội tuyến cho vai trò thực thi SageMaker. Vai trò này chuyển vai trò dịch vụ Amazon Translate cho SageMaker để cho phép sổ ghi chép SageMaker có quyền truy cập vào nguồn và tài liệu đã dịch trong bộ chứa S3 được chỉ định:
Chuẩn bị các mẫu đào tạo dữ liệu song song
Dữ liệu song song trong ACT cần được đào tạo bởi một tệp đầu vào bao gồm danh sách các cặp ví dụ văn bản, ví dụ: một cặp ngôn ngữ nguồn (tiếng Anh) và ngôn ngữ đích (tiếng Trung). Tệp đầu vào có thể ở định dạng TMX, CSV hoặc TSV. Ảnh chụp màn hình sau đây hiển thị ví dụ về tệp đầu vào CSV. Cột đầu tiên là dữ liệu ngôn ngữ nguồn (bằng tiếng Anh) và cột thứ hai là dữ liệu ngôn ngữ đích (bằng tiếng Trung). Ví dụ sau được trích từ sách D2L-en và sách D2L-zh.
Thực hiện đào tạo dữ liệu song song tùy chỉnh trong Amazon Translate
Trước tiên, chúng tôi thiết lập bộ chứa S3 và các thư mục như trong ảnh chụp màn hình sau. Các source_data
thư mục chứa tài liệu gốc trước khi dịch; các tài liệu đã tạo sau khi dịch hàng loạt được đưa vào thư mục đầu ra. Các ParallelData
thư mục chứa tệp nhập dữ liệu song song đã chuẩn bị ở bước trước.
Sau khi tải các tệp đầu vào lên source_data
thư mục, chúng ta có thể sử dụng Tạo API dữ liệu song song để chạy tác vụ tạo dữ liệu song song trong Amazon Translate:
Để cập nhật dữ liệu song song hiện có với tập dữ liệu huấn luyện mới, chúng ta có thể sử dụng Cập nhật API dữ liệu song song:
S3_BUCKET = “YOUR-S3_BUCKET-NAME”
pd_name = “pd-d2l-short_test_sentence_enzh_all”
pd_description = “Parallel Data for English to Chinese”
pd_fn = “d2l_short_test_sentence_enzh_all.csv”
response_t = translate_client.update_parallel_data( Name=pd_name, # pd_name is the parallel data name Description=pd_description, # pd_description is the parallel data description ParallelDataConfig={ 'S3Uri': 's3://'+S3_BUCKET+'/Paralleldata/'+pd_fn, # S3_BUCKET is the S3 bucket name defined in the previous step 'Format': 'CSV' },
)
print(pd_name, ": ", response_t['Status'], " updated.")
Chúng tôi có thể kiểm tra tiến độ công việc đào tạo trên bảng điều khiển Amazon Translate. Khi công việc hoàn tất, trạng thái dữ liệu song song hiển thị dưới dạng hoạt động và đã sẵn sàng để sử dụng.
Chạy bản dịch hàng loạt không đồng bộ bằng dữ liệu song song
Bản dịch hàng loạt có thể được tiến hành trong một quy trình trong đó nhiều tài liệu nguồn được dịch tự động sang tài liệu ở ngôn ngữ đích. Quá trình bao gồm việc tải tài liệu nguồn lên thư mục đầu vào của bộ chứa S3, sau đó áp dụng API StartTextTranslationJob của Amazon Translate để bắt đầu công việc dịch thuật không đồng bộ:
Chúng tôi đã chọn năm tài liệu nguồn bằng tiếng Anh từ sách D2L (D2L-en) để dịch số lượng lớn. Trên bảng điều khiển Amazon Translate, chúng tôi có thể theo dõi tiến trình công việc dịch thuật. Khi trạng thái công việc thay đổi thành Hoàn thành, chúng ta có thể tìm thấy các tài liệu đã dịch bằng tiếng Trung (D2L-zh) trong thư mục đầu ra của bộ chứa S3.
Đánh giá chất lượng bản dịch
Để chứng minh tính hiệu quả của tính năng ACT trong Amazon Translate, chúng tôi cũng đã áp dụng phương pháp dịch truyền thống của Amazon Translate theo thời gian thực không có dữ liệu song song để xử lý cùng một tài liệu và so sánh đầu ra với đầu ra dịch hàng loạt bằng ACT. Chúng tôi đã sử dụng điểm số BLEU (Đánh giá song ngữ) để so sánh chất lượng bản dịch giữa hai phương pháp. Cách duy nhất để đo lường chính xác chất lượng đầu ra của bản dịch máy là nhờ chuyên gia đánh giá và xếp loại chất lượng. Tuy nhiên, BLEU cung cấp ước tính về sự cải thiện chất lượng tương đối giữa hai đầu ra. Điểm BLEU thường là một số trong khoảng từ 0–1; nó tính toán sự giống nhau của bản dịch máy với bản dịch tham chiếu của con người. Điểm cao hơn thể hiện chất lượng hiểu ngôn ngữ tự nhiên (NLU) tốt hơn.
Chúng tôi đã thử nghiệm một bộ tài liệu theo bốn quy trình: tiếng Anh sang tiếng Trung (en sang zh), tiếng Trung sang tiếng Anh (zh sang en), tiếng Anh sang tiếng Tây Ban Nha (en sang es) và tiếng Tây Ban Nha sang tiếng Anh (es sang en). Hình dưới đây cho thấy bản dịch bằng ACT tạo ra điểm BLEU trung bình cao hơn trong tất cả các quy trình dịch.
Chúng tôi cũng nhận thấy rằng, các cặp dữ liệu song song càng chi tiết thì hiệu suất dịch càng tốt. Ví dụ: chúng tôi sử dụng tệp nhập dữ liệu song song sau đây với các cặp đoạn văn, chứa 10 mục nhập.
Với cùng một nội dung, chúng tôi sử dụng tệp nhập dữ liệu song song sau đây với các cặp câu và 16 mục từ.
Chúng tôi đã sử dụng cả hai tệp nhập dữ liệu song song để xây dựng hai thực thể dữ liệu song song trong Amazon Translate, sau đó tạo hai tác vụ dịch hàng loạt với cùng một tài liệu nguồn. Hình dưới đây so sánh các bản dịch đầu ra. Nó cho thấy rằng đầu ra sử dụng dữ liệu song song với các cặp câu hoạt động tốt hơn đầu ra sử dụng dữ liệu song song với các cặp đoạn văn, cho cả bản dịch tiếng Anh sang tiếng Trung và bản dịch tiếng Trung sang tiếng Anh.
Nếu bạn muốn tìm hiểu thêm về các phân tích điểm chuẩn này, hãy tham khảo Tự động dịch và đồng bộ hóa máy để “Đi sâu vào học sâu”.
Làm sạch
Để tránh chi phí định kỳ trong tương lai, chúng tôi khuyên bạn nên dọn sạch các tài nguyên bạn đã tạo:
- Trên bảng điều khiển Amazon Translate, chọn dữ liệu song song bạn đã tạo và chọn Xóa bỏ. Ngoài ra, bạn có thể sử dụng API xóa dữ liệu song song hoặc là Giao diện dòng lệnh AWS (AWS CLI) xóa-song song-dữ liệu lệnh xóa dữ liệu song song.
- Xóa bộ chứa S3 được sử dụng để lưu trữ tài liệu nguồn và tài liệu tham khảo, tài liệu đã dịch và tệp nhập dữ liệu song song.
- Xóa chính sách và vai trò IAM. Để biết hướng dẫn, hãy tham khảo Xóa vai trò hoặc hồ sơ cá thể và Xóa chính sách IAM.
Kết luận
Với giải pháp này, chúng tôi đặt mục tiêu giảm 80% khối lượng công việc của người dịch, đồng thời duy trì chất lượng bản dịch và hỗ trợ nhiều ngôn ngữ. Bạn có thể sử dụng giải pháp này để nâng cao chất lượng và hiệu quả bản dịch của mình. Chúng tôi đang nỗ lực cải thiện hơn nữa kiến trúc giải pháp và chất lượng dịch thuật cho các ngôn ngữ khác.
Phản hồi của bạn luôn được chào đón; hãy để lại suy nghĩ và câu hỏi của bạn trong phần bình luận.
Giới thiệu về tác giả
Vân Phi Bạch là Kiến trúc sư giải pháp cấp cao tại AWS. Với nền tảng về AI/ML, khoa học dữ liệu và phân tích, Yunfei giúp khách hàng áp dụng các dịch vụ AWS để mang lại kết quả kinh doanh. Ông thiết kế các giải pháp AI/ML và phân tích dữ liệu để vượt qua các thách thức kỹ thuật phức tạp và thúc đẩy các mục tiêu chiến lược. Yunfei có bằng Tiến sĩ về Kỹ thuật Điện và Điện tử. Ngoài công việc, Yunfei thích đọc sách và âm nhạc.
Rachel Hồ là một nhà khoa học ứng dụng tại AWS Machine Learning University (MLU). Cô ấy đã dẫn đầu một số thiết kế khóa học, bao gồm Hoạt động ML (MLOps) và Thị giác Máy tính Máy gia tốc. Rachel là diễn giả cấp cao của AWS và đã phát biểu tại các hội nghị hàng đầu bao gồm AWS re:Invent, NVIDIA GTC, KDD và MLOps Summit. Trước khi gia nhập AWS, Rachel là kỹ sư máy học xây dựng các mô hình xử lý ngôn ngữ tự nhiên. Ngoài công việc, cô ấy thích tập yoga, ném đĩa, đọc sách và đi du lịch.
Watson Srivathsan là Giám đốc sản phẩm chính của Amazon Translate, dịch vụ xử lý ngôn ngữ tự nhiên của AWS. Vào cuối tuần, bạn sẽ thấy anh ấy khám phá ngoài trời ở Tây Bắc Thái Bình Dương.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- EVM tài chính. Giao diện hợp nhất cho tài chính phi tập trung. Truy cập Tại đây.
- Tập đoàn truyền thông lượng tử. Khuếch đại IR/PR. Truy cập Tại đây.
- PlatoAiStream. Thông minh dữ liệu Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/build-a-multilingual-automatic-translation-pipeline-with-amazon-translate-active-custom-translation/
- : có
- :là
- :Ở đâu
- $ LÊN
- 10
- 100
- 11
- 12
- 14
- 16
- 17
- 7
- a
- Giới thiệu
- gia tốc
- truy cập
- có thể truy cập
- Tài khoản
- chính xác
- chính xác
- Đạt được
- Hành động
- Hoạt động
- hoạt động
- địa chỉ
- nhận nuôi
- con nuôi
- Sau
- AI
- AI / ML
- nhằm mục đích
- Tất cả
- cho phép
- cho phép
- dọc theo
- Ngoài ra
- luôn luôn
- đàn bà gan dạ
- Amazon Dịch
- Amazon Web Services
- an
- phân tích
- phân tích
- phân tích
- và
- API
- áp dụng
- Nộp đơn
- kiến trúc
- LÀ
- xung quanh
- AS
- At
- tác giả
- tự động
- Tự động
- tự động
- có sẵn
- Trung bình cộng
- tránh
- AWS
- Học máy AWS
- AWS re: Invent
- lý lịch
- dựa
- BE
- được
- trước
- điểm chuẩn
- BEST
- thực hành tốt nhất
- Hơn
- giữa
- cuốn sách
- Sách
- cả hai
- xây dựng
- Xây dựng
- xây dựng
- kinh doanh
- by
- tính toán
- cambridge
- CAN
- Carnegie Mellon
- thách thức
- thách thức
- thách thức
- Những thay đổi
- kiểm tra
- Trung Quốc
- Chọn
- mã
- bộ sưu tập
- Cột
- COM
- Bình luận
- so
- hoàn thành
- phức tạp
- máy tính
- Tầm nhìn máy tính
- thực hiện
- hội nghị
- Bao gồm
- bao gồm
- An ủi
- xây dựng
- chứa
- chứa
- nội dung
- liên tục
- Chi phí
- Khóa học
- tạo ra
- tạo
- khách hàng
- khách hàng
- tùy chỉnh
- tùy chỉnh
- dữ liệu
- Phân tích dữ liệu
- khoa học dữ liệu
- bộ dữ liệu
- Ngày
- sâu
- học kĩ càng
- xác định
- cung cấp
- chứng minh
- Mô tả
- được chỉ định
- thiết kế
- mong muốn
- tài liệu
- tài liệu
- lái xe
- suốt trong
- mỗi
- hiệu lực
- hiệu quả
- hiệu quả
- điện tử
- nỗ lực
- ky sư
- Kỹ Sư
- Tiếng Anh
- đảm bảo
- thực thể
- ước tính
- đánh giá
- mọi người
- ví dụ
- ví dụ
- thực hiện
- hiện tại
- chuyên gia
- Khám phá
- xa
- Đặc tính
- Tính năng
- thông tin phản hồi
- vài
- Hình
- Số liệu
- Tập tin
- Các tập tin
- Tìm kiếm
- Tên
- theo
- tiếp theo
- Trong
- hình thức
- định dạng
- 4
- từ
- xa hơn
- tương lai
- tạo ra
- tạo ra
- cấp
- cấp
- tài trợ
- Xử lý
- Có
- he
- giúp
- chất lượng cao
- cao hơn
- anh ta
- giữ
- chủ nhà
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTML
- http
- HTTPS
- Nhân loại
- Bản sắc
- nâng cao
- cải thiện
- cải thiện
- in
- Bao gồm
- bắt đầu
- đầu vào
- ví dụ
- Viện
- hướng dẫn
- tương tác
- quan tâm
- trong
- IT
- Tiếng Nhật
- Việc làm
- việc làm
- tham gia
- jpg
- giữ
- Tiếng Hàn
- Ngôn ngữ
- Ngôn ngữ
- phóng
- hàng đầu
- học tập
- Rời bỏ
- Dòng
- Danh sách
- máy
- học máy
- thực hiện
- Duy trì
- làm cho
- LÀM CHO
- quản lý
- giám đốc
- massachusetts
- Viện công nghệ Massachusetts
- Trận đấu
- toán học
- đo
- dưa hấu
- phương pháp
- phương pháp
- ML
- MLOps
- kiểu mẫu
- mô hình
- Màn Hình
- chi tiết
- hầu hết
- nhiều
- Âm nhạc
- phải
- tên
- Tự nhiên
- Xử lý ngôn ngữ tự nhiên
- Cần
- nhu cầu
- Mới
- con số
- Nvidia
- mục tiêu
- of
- on
- ONE
- Trực tuyến
- có thể
- mã nguồn mở
- Hoạt động
- or
- Nền tảng khác
- ngoài trời
- đầu ra
- bên ngoài
- Vượt qua
- Hòa bình
- đôi
- cặp
- Song song
- vượt qua
- hiệu suất
- cho phép
- quyền
- đường ống dẫn
- kế hoạch
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- xin vui lòng
- Chính sách
- điều luật
- Bồ Đào Nha
- Bài đăng
- thực hành
- chuẩn bị
- trình bày
- trước
- Hiệu trưởng
- quá trình
- Xử lý
- xử lý
- Sản xuất
- Sản phẩm
- giám đốc sản xuất
- Tiến độ
- cung cấp
- cung cấp
- công khai
- đặt
- ngọn đuốc
- chất lượng
- Câu hỏi
- RE
- Đọc
- Reading
- sẵn sàng
- thế giới thực
- thời gian thực
- giới thiệu
- định kỳ
- giảm
- tương đối
- có liên quan
- đại diện cho
- tài nguyên
- Thông tin
- phản ứng
- Kết quả
- xem xét
- Vai trò
- vai trò
- chạy
- nhà làm hiền triết
- tương tự
- Khoa học
- Nhà khoa học
- Điểm số
- Thứ hai
- Phần
- phần
- phân khúc
- phân đoạn
- chọn
- cao cấp
- dịch vụ
- DỊCH VỤ
- định
- chị ấy
- thể hiện
- Chương trình
- Đơn giản
- So
- cho đến nay
- giải pháp
- Giải pháp
- nguồn
- Tiếng Tây Ban Nha
- Loa
- nói
- stanford
- Đại học Stanford
- Tuyên bố
- Trạng thái
- Bước
- Các bước
- là gắn
- hàng
- Chiến lược
- phong cách
- như vậy
- Hội nghị thượng đỉnh
- Hỗ trợ
- đồng bộ hóa
- phù hợp
- Mục tiêu
- Kỹ thuật
- Công nghệ
- tensorflow
- thử nghiệm
- sách giáo khoa
- hơn
- việc này
- Sản phẩm
- Tương lai
- Nguồn
- thế giới
- sau đó
- Kia là
- điều này
- những
- thời gian
- đến
- hàng đầu
- truyền thống
- đào tạo
- Hội thảo
- dịch
- Dịch
- Đi du lịch
- NIỀM TIN
- Thanh Hoa
- Tiếng Thổ Nhĩ Kỳ
- hai
- thường
- cuối cùng
- sự hiểu biết
- Các trường Đại học
- trường đại học
- đại học Cambridge
- Cập nhật
- cập nhật
- Cập nhật
- Đang tải lên
- sử dụng
- đã sử dụng
- sử dụng
- phiên bản
- Tiếng Việt
- tầm nhìn
- Watson
- Đường..
- we
- web
- các dịch vụ web
- chào mừng
- TỐT
- khi nào
- cái nào
- trong khi
- sẽ
- với
- không có
- Công việc
- làm việc
- đang làm việc
- thế giới
- viết
- Yoga
- Bạn
- trên màn hình
- zephyrnet