Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.

Xây dựng quy trình dịch tài liệu đa ngôn ngữ với tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể

Trong thế giới kỹ thuật số, cung cấp thông tin bằng ngôn ngữ địa phương không phải là điều mới lạ, nhưng nó có thể là một nhiệm vụ tẻ nhạt và tốn kém. Những tiến bộ trong học máy (ML) và xử lý ngôn ngữ tự nhiên (NLP) đã làm cho công việc này trở nên dễ dàng và ít tốn kém hơn nhiều.

Chúng tôi đã thấy việc áp dụng ML ngày càng tăng đối với khối lượng công việc xử lý tài liệu và dữ liệu đa ngôn ngữ. Các khách hàng doanh nghiệp và chính phủ đang di chuyển khối lượng công việc dịch thủ công của họ để tận dụng các dịch vụ dịch ML tự động. Amazon Translate là một dịch máy thần kinh dịch vụ cung cấp bản dịch ngôn ngữ nhanh chóng, chất lượng cao và giá cả phải chăng giữa hàng nghìn cặp ngôn ngữ có thể được sử dụng cho các tác vụ dịch đồng bộ (thời gian thực) hoặc không đồng bộ. Để có danh sách đầy đủ các cặp bản dịch có sẵn, hãy tham khảo Ngôn ngữ và mã ngôn ngữ được hỗ trợ.

Khách hàng di chuyển và hiện đại hóa khối lượng công việc dịch thuật của họ cần có khả năng tùy chỉnh các bản dịch cho miền doanh nghiệp của họ. Khối lượng công việc dịch thuật cũng có thể cần khả năng thích ứng với cách sử dụng hoặc phương ngữ ngôn ngữ khu vực. Ví dụ, bản dịch tiếng Tây Ban Nha của "người cao tuổi" là anciano (a) nhưng ở Puerto Rico từ envejeciente được ưu tiên hơn.

Trong bài đăng này, chúng tôi trình bày cách kết hợp tính năng Bản dịch tùy chỉnh chủ động (ACT) của Amazon Translate. Chúng tôi đề xuất giải pháp tạo quy trình dịch tài liệu đa ngôn ngữ với các tùy chỉnh theo miền và ngôn ngữ cụ thể mà bạn có thể xem xét và bổ sung khi cần thiết để liên tục cải thiện kết quả và làm hài lòng người dùng cuối.

Tổng quan về giải pháp

ACT tạo ra đầu ra được dịch tùy chỉnh mà không cần phải xây dựng và duy trì một mô hình dịch tùy chỉnh. Sử dụng ACT, Amazon Dịch sẽ sử dụng các ví dụ dịch ưa thích của bạn làm dữ liệu song song để tùy chỉnh kết quả dịch của bạn, loại bỏ thời gian và chi phí cần thiết để xây dựng và đào tạo một mô hình học máy mới.

Giải pháp được đề cập trong bài đăng này giải thích cách tạo quy trình làm việc liên tục bằng cách sử dụng AI tăng cường của Amazon (Amazon A2I) để liên tục cải thiện bản dịch tùy chỉnh. Amazon A2I cung cấp một cách đơn giản để tích hợp sự giám sát của con người vào quy trình làm việc ML của bạn mà không yêu cầu kinh nghiệm ML. Amazon A2I giúp dễ dàng tích hợp khả năng phán đoán của con người và AI vào bất kỳ ứng dụng ML nào, bất kể nó chạy trên AWS hay trên nền tảng khác.

Để biết thêm thông tin tham khảo Thiết kế quy trình đánh giá của con người với Amazon Dịch và Amazon Augmented AI bài đăng.

Sơ đồ sau đây hiển thị luồng lệnh và luồng dữ liệu của giải pháp. Luồng lệnh hiển thị chuỗi sự kiện hợp lý trong quy trình làm việc. Luồng dữ liệu cho biết cách dữ liệu đang được tạo hoặc sử dụng bởi các thành phần khác nhau trong giải pháp.

Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.

Biểu đồ trình tự sau đây cho thấy hai quy trình riêng biệt trong giải pháp: quy trình dịch (A) và quy trình cập nhật dữ liệu song song (B).

Quy trình dịch thuật được bắt đầu bởi một amazoncloudwatch sự kiện đã lên lịch bắt đầu Thư mời Công việc Dịch thuật AWS Lambda hàm số. Chức năng này tạo công việc dịch không đồng bộ trong Amazon Translate, truyền dọc tài liệu cần dịch và vị trí của dữ liệu song song để tùy chỉnh bản dịch. Công việc dịch thuật đọc dữ liệu song song, thực hiện dịch và ghi kết quả đã dịch trở lại một Amazon S3 Gầu múc. Theo cách viết này, chỉ các công việc dịch không đồng bộ mới có thể sử dụng dữ liệu song song.

Khi công việc dịch hoàn tất, một sự kiện được tạo ra để kích hoạt chức năng Lambda xử lý hoàn thành công việc dịch. Chức năng này tạo ra một vòng lặp quy trình làm việc của con người — thành phần chính của phần Amazon A2I của quy trình làm việc.

Người đánh giá con người đánh giá bản dịch và chấp nhận hoặc sửa đổi bản dịch. Mọi chỉnh sửa đều được sử dụng để cập nhật tài liệu đã dịch và cũng được thêm vào từ điển tùy chỉnh. Khi quá trình xem xét được hoàn tất, một sự kiện khác sẽ được tạo để kích hoạt chức năng Xử lý Hoàn thành Quy trình Công việc. Chức năng này ghi tài liệu đã dịch mới nhất trở lại Amazon S3. Dữ liệu tùy chỉnh được sử dụng để cập nhật Máy phát điện Amazon bảng với các cặp văn bản nguồn và đã dịch.

Để đóng vòng lặp, chúng tôi phải kết hợp dữ liệu tùy chỉnh này được lưu trữ trong DynamoDB trở lại với dữ liệu song song được lưu trữ trong Amazon S3. Để thực hiện điều này, chúng tôi sử dụng sự kiện CloudWatch đã lên lịch để kích hoạt chức năng Trình làm mới dữ liệu song song, chức năng này đọc dữ liệu từ bảng DynamoDB, định dạng lại nó thành dữ liệu song song và cập nhật nhóm S3, lưu trữ dữ liệu song song.

Triển khai giải pháp với AWS CloudFormation

Khởi chạy được cung cấp Hình thành đám mây AWS mẫu để triển khai giải pháp trong tài khoản của bạn. Ngăn xếp này chỉ hoạt động ở Khu vực phía đông-1 chúng tôi. Nếu bạn muốn triển khai giải pháp này ở các Khu vực khác, hãy tham khảo phần sau Repo GitHub.

  1. Chọn Khởi chạy Stack:
    Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.
  2. Làm theo hướng dẫn để điền các thông số cần thiết. Nếu bạn đang chạy ngăn xếp này lần đầu tiên, Email SNS là tham số bắt buộc duy nhất.
  3. trên Đánh giá trang, trong Khả năng chọn hộp kiểm và chọn Tạo ngăn xếp.

Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.

Ngăn xếp tạo ra các thành phần chính sau:

  • Dữ liệu tùy chỉnh - Một bảng DynamoDB (translate_parallel_data) để duy trì dữ liệu tùy chỉnh. Bạn di chuyển dữ liệu tùy chỉnh hiện có sang bảng này. Bảng này được sử dụng để liên tục thêm và cập nhật các tùy chỉnh.
  • Trình làm mới dữ liệu song song - Hàm Lambda để chuyển đổi dữ liệu tùy chỉnh trong bảng DynamoDB sang định dạng dữ liệu song song — CSV, TSV hoặc TMX — và lưu trữ trong Amazon S3. Nó tạo và cập nhật dữ liệu song song với tệp dữ liệu song song mới trong Amazon S3.
  • Người mời dịch công việc - Chức năng Lambda để bắt đầu công việc hàng loạt Amazon Dịch với dữ liệu song song.
  • Trình xử lý hoàn thành công việc dịch - Chức năng Lambda này được kích hoạt khi công việc hàng loạt của Amazon Dịch hoàn tất. Hàm tạo một vòng lặp con người cho mỗi tài liệu (chúng tôi sẽ tinh chỉnh điều này trong tương lai để chỉ tạo một vòng lặp con người cho một phần trăm tài liệu được xử lý). Nó sử dụng tài liệu gốc và tài liệu đã dịch để tạo ra vòng lặp của con người.
  • Mẫu tùy chỉnh Amazon A2I - Mẫu này được sử dụng để kết xuất cặp bản dịch để con người xem xét. Mẫu có Thêm tùy chọn cho mọi phân đoạn dịch. Người dùng có thể chọn tùy chọn này để thêm các chỉnh sửa vào dữ liệu tùy chỉnh. Dữ liệu tùy chỉnh mới được sử dụng trong công việc dịch hàng loạt tiếp theo.
  • Trình xử lý hoàn thành quy trình làm việc - Chức năng Lambda này được kích hoạt khi quy trình làm việc của con người hoàn tất. Chức năng cập nhật tài liệu đã dịch với các chỉnh sửa và kiểm tra các bản cập nhật dữ liệu song song. Dữ liệu song song mới được thêm vào bảng DynamoDB.
  • Nhóm riêng của Amazon A2I - Một nhóm riêng của Amazon A2I được tạo với một nhân viên là con người bằng cách sử dụng email được cung cấp. Thông tin đăng nhập ban đầu được gửi qua email khi tạo thành công nhóm riêng. Bạn sử dụng email và thông tin đăng nhập này để đăng nhập vào cổng công nhân Amazon A2I.

Kiểm tra giải pháp

Sản phẩm sample_text.txt tệp sẽ được tạo dưới tiền tố đầu vào của nhóm S3 được tạo bởi ngăn xếp. Chúng tôi sử dụng tệp này để thử nghiệm của chúng tôi. Nó chứa nội dung sau:

Life insurance companies have the freedom to charge different premiums based on risk
factors that predict mortality. Purchasing a life insurance policy often entails a health 
status check or medical exam, and asking for vaccination status is not banned.

Health insurers are a different story. A slew of state and federal regulations in the 
last three decades have heavily restricted their ability to use health factors in issuing 
or pricing polices. The use of health status in any group health insurance policy is 
prohibited by law. The Affordable Care Act, passed in 2014, prevents insurers from pricing 
plans according to health – with one exception: smoking status.

Để kiểm tra giải pháp, hãy hoàn thành các bước sau:

  1. Gọi chức năng Người mời công việc dịch theo cách thủ công hoặc đợi nó được CloudWatch kích hoạt dựa trên lịch trình cron mà bạn đã chỉ định.
    Chức năng này kích hoạt công việc hàng loạt Amazon Translate. Bạn có thể quan sát tiến trình công việc trên bảng điều khiển Amazon Translate.
    Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.Công việc hàng loạt này mất khoảng 30 phút để hoàn thành. Khi hoàn tất, TextTranslationJob sự kiện thay đổi trạng thái sẽ kích hoạt chức năng Xử lý Hoàn thành Công việc Dịch. Chức năng này tạo ra một vòng lặp của con người trên mỗi tài liệu được dịch.
  2. Điều hướng đến Lực lượng lao động Amazon A2I .
  3. Chọn Riêng tab.
    Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.
  4. Đăng nhập vào cổng công nhân Amazon A2I bằng cách chọn liên kết cho Gắn nhãn URL đăng nhập cổng thông tin.
  5. Chọn nhiệm vụ Human review task trong danh sách công việc.
  6. Chọn Bắt đầu làm việc.
    Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.
    Bạn có thể thấy trang sau được hiển thị.
    Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.
  7. Làm theo hướng dẫn để thực hiện các chỉnh sửa theo miền và ngôn ngữ cụ thể.
    Trong ảnh chụp màn hình trước đó, cụm từ “Việc sử dụng tình trạng sức khỏe trong bất kỳ chính sách bảo hiểm y tế nhóm nào bị pháp luật cấm” đã được dịch thành “La ley prohíbe el uso del estado de salud en cualquier póliza de seguro médico de grupo.” Mặc dù bản dịch là chính xác, các cụm từ đã được sắp xếp lại.
  8. Hãy sửa đổi điều này thành “El uso del estado de salud en cualquier póliza de seguro de salud grupal está Cấmido por ley” để làm cho bản dịch này trực tiếp hơn phản ánh cụm từ gốc.
  9. Chọn Thêm để thêm điều này vào từ điển.
  10. Khi bạn hoàn thành, hãy chọn Gửi.
    Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.

Điều này kích hoạt chức năng Trình xử lý hoàn thành quy trình làm việc và dữ liệu tùy chỉnh được cập nhật trong bảng DynamoDB. Chức năng này cũng lưu trữ bản dịch đã sửa dưới tiền tố sau chỉnh sửa.

Bạn có thể quan sát các tùy chỉnh được thêm vào translate_parallel_data trên bảng điều khiển DynamoDB.

Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.

Dòng lệnh

Chức năng Trình làm mới dữ liệu song song được kích hoạt mỗi giờ bởi một sự kiện theo lịch trình CloudWatch. Chức năng này kiểm tra các bản cập nhật mới trong translate_parallel_data bảng, tạo một tệp TMX dữ liệu song song mới trong Amazon S3 trong parallel_data tiền tố và cập nhật thành phần dữ liệu song song của Amazon Dịch. Bạn có thể kích hoạt chức năng này theo cách thủ công nếu bạn không muốn chờ kích hoạt sự kiện đã lên lịch.

Bạn có thể quan sát dữ liệu song song đang được cập nhật trên bảng điều khiển Amazon Translate.

Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.

Khi hoàn tất, trạng thái công việc sẽ là hoạt động và giá trị cho Cập nhật hồ sơ sẽ phản ánh số lượng tùy chỉnh bạn đã thêm (trong trường hợp này là 1).

Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.

Bây giờ chúng tôi có thể chạy lại công việc dịch với dữ liệu được cập nhật. Kích hoạt lại chức năng Người mời công việc dịch để quan sát tùy chỉnh được thêm vào bản dịch trong lần lặp thứ hai. Amazon Dịch hiện sử dụng dữ liệu song song được cung cấp để tùy chỉnh bản dịch.

Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.

Bạn có thể quan sát sự thay đổi trong đầu ra bản dịch trong cổng ghi nhãn. Thay vì bản dịch mặc định, chúng tôi thấy bản dịch tùy chỉnh đang được áp dụng.

Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.

Quy trình làm việc này giúp tạo ra một chu trình hiệu quả để liên tục cải thiện đầu ra bản dịch bằng cách sử dụng các tính năng tùy chỉnh Amazon A2I và Amazon Translate.

Phí Tổn

Với Amazon Translate và Amazon A2I, bạn thanh toán khi bạn sử dụng dựa trên số lượng ký tự văn bản mà bạn đã xử lý và cho từng đối tượng do con người đánh giá. Chúng tôi sử dụng chế độ theo yêu cầu DynamoDB cho ví dụ này. DynamoDB tính phí bạn cho các lần đọc và ghi được thực hiện trên bảng của bạn. Tham khảo các trang định giá cho Amazon Dịch, amazon A2IMáy phát điện Amazon cho chi phí thực tế.

Làm sạch

Khi bạn hoàn thành thử nghiệm với giải pháp này, hãy dọn dẹp tài nguyên của bạn bằng cách sử dụng bảng điều khiển AWS CloudFormation để xóa tất cả tài nguyên được triển khai trong ví dụ này. Điều này giúp bạn tránh các chi phí tiếp tục trong tài khoản của mình.

Kết luận

Bạn có thể sử dụng giải pháp được trình bày trong bài đăng này để xây dựng quy trình dịch thuật đa ngôn ngữ sử dụng và tăng cường tùy chỉnh theo miền cụ thể từng bước để liên tục cải thiện kết quả dịch. Chúng tôi đã cung cấp một cơ chế đơn giản để tích hợp các tài sản tùy chỉnh hiện có của bạn với các dịch vụ AI được quản lý như Amazon Translate và Amazon A2I để xây dựng một dịch vụ dịch mạnh mẽ cho ứng dụng của bạn. Amazon Dịch có thể giúp bạn mở rộng giải pháp này để hỗ trợ hơn 5,550 cặp bản dịch. Amazon A2I có thể giúp bạn dễ dàng tích hợp với chuyên gia ngôn ngữ nội bộ của mình hoặc tận dụng lực lượng lao động bên ngoài để mở rộng giải pháp.

Để biết thêm thông tin về Amazon Dịch, hãy truy cập Tài nguyên của Amazon Dịch để tìm tài nguyên video và bài đăng trên blog, đồng thời tham khảo Câu hỏi thường gặp về Dịch AWS. Hãy chia sẻ suy nghĩ của bạn với chúng tôi trong phần nhận xét hoặc trong phần vấn đề của dự án Kho lưu trữ Github.


Về các tác giả

Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.Sathya Balakrishnan là Sr Customer Delivery Architect trong nhóm Dịch vụ Chuyên nghiệp tại AWS, chuyên về các giải pháp Dữ liệu / ML. Anh ấy làm việc với các khách hàng tài chính liên bang của Hoa Kỳ. Anh ấy đam mê xây dựng các giải pháp thực tế để giải quyết các vấn đề kinh doanh của khách hàng. Khi rảnh rỗi, anh ấy thích xem phim và đi bộ đường dài cùng gia đình.

Xây dựng quy trình dịch tài liệu đa ngôn ngữ với PlatoBlockchain Data Intelligence tùy chỉnh theo miền cụ thể và ngôn ngữ cụ thể. Tìm kiếm dọc. Ái.Paul W. Joireman là Kiến trúc sư Phân phối Khách hàng của Sr trong Dịch vụ Chuyên nghiệp tại AWS, chuyên về Di chuyển Ứng dụng và làm việc với các khách hàng tài chính liên bang của Hoa Kỳ. Paul thích tạo ra các giải pháp công nghệ, đi du lịch cùng gia đình và đi bộ đường dài trong Công viên Quốc gia Shenandoah, miễn là quá trình đi bộ kết thúc tại một nhà máy bia thủ công ở địa phương.

Dấu thời gian:

Thêm từ Học máy AWS