Tự động xác định ngôn ngữ trong âm thanh đa ngôn ngữ bằng Amazon Transcribe

Được xuất bản lại bởi Plato

Người theo dõi: 0

Nếu bạn hoạt động ở một quốc gia có nhiều ngôn ngữ chính thức hoặc ở nhiều khu vực, các tệp âm thanh của bạn có thể chứa các ngôn ngữ khác nhau. Người tham gia có thể nói các ngôn ngữ hoàn toàn khác nhau hoặc có thể chuyển đổi giữa các ngôn ngữ. Hãy xem xét một cuộc gọi dịch vụ khách hàng để báo cáo một vấn đề trong một khu vực có dân số đa ngôn ngữ đáng kể. Mặc dù cuộc trò chuyện có thể bắt đầu bằng một ngôn ngữ, nhưng khả thi là khách hàng có thể đổi sang ngôn ngữ khác để mô tả vấn đề, tùy thuộc vào mức độ thoải mái hoặc tùy chọn sử dụng với các ngôn ngữ khác. Theo cách tương tự, đại diện chăm sóc khách hàng có thể chuyển đổi giữa các ngôn ngữ trong khi truyền đạt hướng dẫn vận hành hoặc xử lý sự cố.

Với tối thiểu 3 giây âm thanh, Phiên âm Amazon có thể tự động xác định và tạo bản ghi một cách hiệu quả bằng ngôn ngữ được nói trong âm thanh mà không cần con người chỉ định ngôn ngữ. Điều này áp dụng cho các trường hợp sử dụng khác nhau, chẳng hạn như phiên âm cuộc gọi của khách hàng, chuyển đổi thư thoại thành văn bản, ghi lại các tương tác trong cuộc họp, theo dõi thông tin liên lạc trên diễn đàn của người dùng hoặc giám sát quy trình sản xuất và bản địa hóa nội dung đa phương tiện.

Bài đăng này hướng dẫn các bước sao chép tệp âm thanh đa ngôn ngữ bằng Amazon Transcribe. Chúng tôi thảo luận về cách cung cấp các tệp âm thanh cho Amazon Transcribe và cho phép phiên âm các tệp âm thanh đa ngôn ngữ khi gọi các API của Amazon Transcribe.

Tổng quan về giải pháp

Amazon Transcribe là một dịch vụ AWS giúp bạn dễ dàng chuyển lời nói thành văn bản. Việc thêm chức năng giọng nói thành văn bản vào bất kỳ ứng dụng nào thật đơn giản với sự trợ giúp của Amazon Transcribe, dịch vụ nhận dạng giọng nói tự động (ASR). Bạn có thể nhập đầu vào âm thanh bằng Amazon Transcribe, tạo bản chép lời rõ ràng, dễ đọc và dễ đánh giá, tăng độ chính xác bằng tùy chỉnh và lọc thông tin để bảo vệ quyền riêng tư của khách hàng.

Giải pháp cũng sử dụng Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), một dịch vụ lưu trữ đối tượng được xây dựng để lưu trữ và truy xuất bất kỳ lượng dữ liệu nào từ mọi nơi. Đó là một dịch vụ lưu trữ đơn giản cung cấp độ bền, tính khả dụng, hiệu suất, bảo mật hàng đầu trong ngành và khả năng mở rộng hầu như không giới hạn với chi phí rất thấp. Khi bạn lưu trữ dữ liệu trong Amazon S3, bạn làm việc với các tài nguyên được gọi là Xô và đối tượng. Một cái xô là một thùng chứa cho các đối tượng. Một đối tượng là một tệp và bất kỳ siêu dữ liệu nào mô tả tệp đó.

Trong bài đăng này, chúng tôi hướng dẫn bạn các bước sau để triển khai giải pháp sao chép âm thanh đa ngôn ngữ:

Tạo một nhóm S3.
Tải tệp âm thanh của bạn lên thùng.
Tạo công việc sao chép.
Xem xét đầu ra công việc.

Điều kiện tiên quyết

Đối với hướng dẫn này, bạn nên có các điều kiện tiên quyết sau:

Amazon Transcribe cung cấp tùy chọn lưu trữ đầu ra được sao chép trong bộ chứa S3 do dịch vụ quản lý hoặc do khách hàng quản lý. Đối với bài đăng này, chúng tôi yêu cầu Amazon Transcribe ghi kết quả vào bộ chứa S3 do dịch vụ quản lý.

Lưu ý rằng Amazon Transcribe là một dịch vụ Khu vực và các điểm cuối API Amazon Transcribe được gọi cần phải ở cùng Khu vực với bộ chứa S3.

Tạo vùng lưu trữ S3 để lưu trữ các tệp đầu vào âm thanh của bạn

Để tạo bộ chứa S3 của bạn, hãy hoàn thành các bước sau:

Trên bảng điều khiển Amazon S3, chọn Tạo xô.
Trong Tên nhóm, hãy nhập tên duy nhất trên toàn cầu cho bộ chứa.
Trong Khu vực AWS, hãy chọn cùng một Khu vực làm điểm cuối API Amazon Transcribe của bạn.
Để nguyên tất cả các giá trị mặc định.
Chọn Tạo xô.

Tải tệp âm thanh của bạn lên bộ chứa S3

Tải tệp âm thanh đa ngôn ngữ lên bộ chứa S3 trong tài khoản AWS của bạn. Với mục đích của bài tập này, chúng tôi sử dụng mẫu sau tập tin âm thanh đa ngôn ngữ. Nó ghi lại một cuộc gọi hỗ trợ khách hàng liên quan đến tiếng Anh và tiếng Tây Ban Nha.

Trên bảng điều khiển Amazon S3, chọn xô trong khung điều hướng.
Chọn bộ chứa bạn đã tạo trước đó để lưu trữ các tệp âm thanh đầu vào.
Chọn Tải lên.
Chọn Thêm file.
Chọn tệp âm thanh bạn muốn phiên âm từ máy tính cục bộ của mình.
Chọn Tải lên.

Tệp âm thanh của bạn sẽ sớm có sẵn trong bộ chứa S3.

Tạo công việc sao chép

Với tệp âm thanh đã tải lên, bây giờ chúng tôi tạo một công việc phiên âm.

Trên bảng điều khiển Amazon Transcribe, hãy chọn Công việc phiên âm trong khung điều hướng.
Chọn Tạo việc làm.
Trong Họ tên, nhập tên duy nhất cho công việc.
Đây cũng sẽ là tên của tệp bảng điểm đầu ra.
Trong Cài đặt ngôn ngữ, lựa chọn Tự động nhận dạng nhiều ngôn ngữ.
Tính năng này cho phép Amazon Transcribe tự động xác định và phiên âm tất cả các ngôn ngữ được nói trong tệp âm thanh.
Trong Tùy chọn ngôn ngữ để nhận dạng ngôn ngữ tự động, bỏ chọn nó.
Amazon Transcribe tự động xác định và phiên âm tất cả ngôn ngữ được nói trong âm thanh. Để cải thiện độ chính xác của bản chép lời, bạn có thể tùy ý chọn hai hoặc nhiều ngôn ngữ mà bạn biết đã được nói trong âm thanh.
Trong Loại mô hình, chỉ Mô hình chung tùy chọn có sẵn tại thời điểm viết bài này.
Trong Dữ liệu đầu vào, chọn Duyệt qua S3.
Chọn tệp nguồn âm thanh mà chúng tôi đã tải lên trước đó.
Trong Dữ liệu đầu ra, bạn có thể chọn một trong hai Bộ chứa S3 được quản lý dịch vụ or Nhóm S3 do khách hàng chỉ định. Đối với bài đăng này, hãy chọn Bộ chứa S3 do dịch vụ quản lý.
Chọn Sau.
Chọn Tạo việc làm.

Xem lại kết quả công việc

Khi công việc phiên âm hoàn tất, hãy mở công việc phiên âm.

Cuộn xuống Bản xem trước phiên âm tiết diện. Phiên âm âm thanh được hiển thị trên bản văn chuyển hướng. Phiên âm bao gồm cả phần tiếng Anh và tiếng Tây Ban Nha của cuộc hội thoại.

Bạn có thể tùy chọn tải xuống bản sao của bản chép lời dưới dạng tệp JSON mà bạn có thể sử dụng để tiếp tục phân tích sau cuộc gọi.

Làm sạch

Để tránh bị tính phí trong tương lai, hãy làm trống và xóa bộ chứa S3 mà bạn đã tạo để lưu trữ tệp nguồn âm thanh đầu vào. Đảm bảo rằng bạn có các tệp được lưu trữ ở nơi khác vì điều này sẽ xóa vĩnh viễn tất cả các đối tượng có trong bộ chứa. Trên bảng điều khiển Amazon Transcribe, chọn và xóa công việc đã tạo trước đó cho bản chép lời.

Kết luận

Trong bài đăng này, chúng tôi đã tạo quy trình làm việc từ đầu đến cuối để tự động nhận dạng và phiên âm các tệp âm thanh đa ngôn ngữ mà không cần viết bất kỳ mã nào. Chúng tôi đã sử dụng chức năng mới trong Amazon Transcribe để tự động xác định các ngôn ngữ khác nhau trong tệp âm thanh và phiên âm từng ngôn ngữ một cách chính xác.

Để biết thêm thông tin, tham khảo Nhận dạng ngôn ngữ với công việc sao chép hàng loạt.

Về các tác giả

Murtuza Bootwala là Kiến trúc sư giải pháp cấp cao tại AWS quan tâm đến công nghệ AI/ML. Anh ấy thích làm việc với khách hàng để giúp họ đạt được kết quả kinh doanh. Ngoài công việc, anh ấy thích các hoạt động ngoài trời và dành thời gian cho gia đình.

Victor Red đam mê AI/ML và phát triển phần mềm. Anh ấy đã giúp thiết lập và vận hành Amazon Alexa ở Hoa Kỳ và Mexico. Anh ấy cũng đã đưa Amazon Textract đến với Đối tác AWS và đưa AWS Contact Center Intelligence (CCI) vào hoạt động. Anh ấy hiện là Nhà lãnh đạo công nghệ toàn cầu cho Đối tác AI đàm thoại.

Babu Srinivasan là Chuyên gia SA (Dịch vụ AI ngôn ngữ) của AWS Sr. có trụ sở tại Chicago. Anh ấy tập trung vào Amazon Transcribe (chuyển lời nói thành văn bản), giúp khách hàng của chúng tôi sử dụng các dịch vụ AI để giải quyết các vấn đề kinh doanh. Ngoài công việc, anh ấy thích chế biến gỗ và biểu diễn ảo thuật.

Dấu thời gian: 14 Tháng mười hai, 202214 Tháng mười hai, 2022

Dấu thời gian: Tháng Sáu 12, 2023

Tự động xác định ngôn ngữ trong âm thanh đa ngôn ngữ bằng Amazon Transcribe

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Điều kiện tiên quyết

Tạo vùng lưu trữ S3 để lưu trữ các tệp đầu vào âm thanh của bạn

Tải tệp âm thanh của bạn lên bộ chứa S3

Tạo công việc sao chép

Xem lại kết quả công việc

Làm sạch

Kết luận

Về các tác giả

Thêm từ Học máy AWS

Hình dung kết quả bất thường trên Amazon Lookout for Metrics của bạn với Amazon QuickSight

Tăng tốc đào tạo mạng lưới thần kinh quy mô lớn trên CPU với ThirdAI và AWS Graviton | Dịch vụ web của Amazon

Chạy nhiều mô hình học sâu trên GPU với các điểm cuối đa mô hình của Amazon SageMaker

Amazon SageMaker Automatic Model Tuning hiện tự động chọn cấu hình điều chỉnh để cải thiện khả năng sử dụng và tiết kiệm chi phí | Dịch vụ web của Amazon

Cách giải pháp canh tác kỹ thuật số xarvio tăng tốc phát triển với khả năng không gian địa lý của Amazon SageMaker

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản