Amazon Polly, một dịch vụ chuyển văn bản thành giọng nói do AI tạo ra, cho phép bạn tự động hóa và mở rộng các giải pháp giọng nói tương tác của mình, giúp cải thiện năng suất và giảm chi phí.
Khi khách hàng của chúng tôi tiếp tục sử dụng Amazon Polly vì bộ tính năng phong phú và tính dễ sử dụng của nó, chúng tôi đã nhận thấy nhu cầu về khả năng tạo đồng thời âm thanh và phụ đề hoặc phụ đề cho một đầu vào văn bản nhất định. Tại AWS, chúng tôi liên tục làm việc ngược lại so với yêu cầu của khách hàng, vì vậy trong bài đăng này, chúng tôi phác thảo phương pháp tạo âm thanh và phụ đề cùng một lúc cho một văn bản nhất định.
Mặc dù phụ đề và chú thích thường được sử dụng thay thế cho nhau, bao gồm cả trong bài đăng này, có sự khác biệt nhỏ giữa chúng:
- Phụ đề - Trong phụ đề, ngôn ngữ văn bản hiển thị trên màn hình khác với ngôn ngữ âm thanh và không hiển thị bất kỳ thứ gì không phải đối thoại như âm thanh quan trọng. Mục tiêu chính là tiếp cận khán giả không nói ngôn ngữ âm thanh trong video.
- Chú thích (đóng / mở) - Phụ đề hiển thị các đoạn hội thoại đang được nói bằng âm thanh bằng cùng một ngôn ngữ. Mục đích chính của nó là tăng khả năng tiếp cận trong trường hợp người tiêu dùng cuối không thể nghe thấy âm thanh do một loạt vấn đề. Phụ đề chi tiết là một phần của tệp khác với nguồn âm thanh / video và có thể tắt và bật theo quyết định của người dùng, trong khi phụ đề mở là một phần của tệp video và người dùng không thể tắt phụ đề.
Lợi ích của việc sử dụng Amazon Polly để tạo âm thanh có phụ đề
Hãy tưởng tượng trường hợp sử dụng sau: bạn chuẩn bị một bản trình bày dựa trên slide cho một cổng thông tin học tập trực tuyến. Mỗi slide bao gồm nội dung trên màn hình và tường thuật. Nội dung trên màn hình là một phác thảo cơ bản và tường thuật đi vào chi tiết. Thay vì ghi âm giọng nói của con người, điều này có thể rườm rà và không nhất quán, bạn có thể sử dụng Amazon Polly để tạo lời tường thuật. Amazon Polly tạo ra giọng nói nhất quán, chất lượng cao. Không cần hậu kỳ. Trong tương lai, nếu bạn cần cập nhật một phần của bản trình bày, bạn chỉ cần cập nhật các trang trình bày bị ảnh hưởng. Giọng nói phù hợp với các trang trình bày gốc. Ngoài ra, khi Amazon Polly tạo âm thanh của bạn, phụ đề sẽ được đưa vào cùng lúc với âm thanh. Bạn tiết kiệm thời gian vì không cần ghi thủ công và tiết kiệm thêm thời gian khi cần cập nhật. Bản trình bày của bạn cũng mang lại nhiều giá trị hơn vì phụ đề giúp sinh viên tiếp thu nội dung. Đó là một giải pháp đôi bên cùng có lợi.
Có vô số trường hợp sử dụng cho phụ đề, chẳng hạn như quảng cáo trong không gian xã hội, phòng tập thể dục, quán cà phê và những nơi khác, nơi thường có nội dung nào đó trên TV với âm thanh bị tắt tiếng và nhạc trong nền; đào tạo trực tuyến và các lớp học; các cuộc họp ảo; thông báo điện tử công cộng; xem video khi đang đi lại mà không cần tai nghe và không làm phiền người đi cùng; và nhiều hơn nữa.
Bất kể lĩnh vực ứng dụng, phụ đề chi tiết có thể giúp thực hiện những điều sau:
- Khả Năng Tiếp Cận - Những người bị khiếm thính có thể tiêu thụ nội dung của bạn tốt hơn.
- Retention - Học trực tuyến dễ dàng nắm bắt và lưu giữ hơn đối với người học điện tử khi có nhiều giác quan của con người hơn.
- Khả năng tiếp cận - Nội dung của bạn có thể tiếp cận những người có các ưu tiên cạnh tranh, chẳng hạn như chơi game và xem tin tức đồng thời hoặc những người có ngôn ngữ mẹ đẻ khác với ngôn ngữ âm thanh.
- Searchability - Nội dung có thể tìm kiếm được bởi các công cụ tìm kiếm. Trong khi hầu hết các công cụ tìm kiếm không thể tìm kiếm video một cách tối ưu, các công cụ tìm kiếm có thể sử dụng tệp văn bản phụ đề và làm cho nội dung của bạn dễ khám phá hơn.
- Lịch sự xã hội - Đôi khi, việc phát âm thanh do môi trường xung quanh bạn có thể là bất tiện hoặc âm thanh có thể khó nghe do tiếng ồn của môi trường xung quanh bạn.
- sự hiểu - Nội dung dễ hiểu hơn bất kể giọng của người nói, ngôn ngữ mẹ đẻ của người nói, hoặc tốc độ nói. Bạn cũng có thể ghi chú mà không cần xem nhiều lần cùng một cảnh.
Tổng quan về giải pháp
Thư viện được trình bày trong bài đăng này sử dụng Amazon Polly để tạo âm thanh và phụ đề chi tiết cho văn bản đầu vào. Bạn có thể dễ dàng tích hợp thư viện này trong các ứng dụng chuyển văn bản thành giọng nói của mình. Nó hỗ trợ một số định dạng âm thanh và chú thích ở cả định dạng tệp VTT và SRT, được sử dụng phổ biến nhất trong toàn ngành.
Trong bài đăng này, chúng tôi tập trung vào PollyVTT()
cú pháp và các tùy chọn, đồng thời đưa ra một vài ví dụ minh họa cách sử dụng Python SubtitleGeneratorForPolly
để tạo đồng thời các tệp phụ đề và âm thanh đồng bộ cho một đầu vào văn bản nhất định. Định dạng tệp âm thanh đầu ra có thể là PCM (wav), OGG hoặc MP3 và định dạng tệp phụ đề có thể là VTT hoặc SRT. Hơn nữa, SubtitleGeneratorForPolly
hỗ trợ tất cả Amazon Polly synthesize_speech
và bổ sung vào bộ tính năng Amazon Polly phong phú.
Sản phẩm polly-vtt
thư viện và các phụ thuộc của nó có sẵn trên GitHub.
Cài đặt và sử dụng chức năng
Trước khi chúng ta xem xét một số ví dụ về việc sử dụng PollyVTT()
, chức năng cung cấp năng lượng SubtitleGeneratorForPolly
, hãy xem cách cài đặt và cú pháp của nó.
Cài đặt thư viện bằng đoạn mã sau:
Để chạy từ dòng lệnh, bạn chỉ cần chạy polly-vtt
:
Đoạn mã sau hiển thị các tùy chọn của bạn:
Bây giờ chúng ta hãy xem xét một vài ví dụ.
Ví dụ 1
Ví dụ này tạo tệp âm thanh PCM cùng với tệp phụ đề SRT cho hai câu đơn giản:
Ví dụ 2
Ví dụ này trình bày cách sử dụng một đoạn văn bản làm đầu vào. Điều này tạo ra các tệp âm thanh trong WAV, MP3 và OGG và phụ đề trong SRT và VTT. Ví dụ sau tạo sáu tệp cho văn bản đầu vào đã cho:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Xem mã sau đây:
Ví dụ 3
Tuy nhiên, trong hầu hết các trường hợp, bạn muốn chuyển văn bản dưới dạng tệp đầu vào. Sau đây là một ví dụ Python về điều này, với đầu ra giống như ví dụ trước:
Sau đây là bài đăng chứng thực từ nhóm đào tạo nội bộ của AWS về việc sử dụng Amazon Polly với phụ đề chi tiết:
Video sau đây cung cấp bản giới thiệu ngắn về cách nhóm đào tạo nội bộ tại AWS sử dụng PollyVTT()
:
Kết luận
Trong bài đăng này, chúng tôi đã chia sẻ phương pháp tạo âm thanh và phụ đề cùng một lúc cho một văn bản nhất định. Các PollyVTT()
chức năng và SubtitleGeneratorForPolly
giải quyết một yêu cầu chung về phụ đề một cách hiệu quả và hiệu quả. Nhóm Amazon Polly tiếp tục phát minh và cung cấp các giải pháp đơn giản hóa cho các yêu cầu phức tạp của khách hàng.
Để biết thêm hướng dẫn và thông tin về Amazon Polly, hãy xem Blog Học máy AWS.
Về các tác giả
Abhishek Soni là Kiến trúc sư Giải pháp Đối tác tại AWS. Anh ấy làm việc với khách hàng để cung cấp hướng dẫn kỹ thuật cho kết quả tốt nhất của khối lượng công việc trên AWS.
Dan McKee sử dụng âm thanh, video và cà phê để chắt lọc nội dung thành các khóa học được nhắm mục tiêu, mô-đun và có cấu trúc. Với vai trò là Giám đốc Dự án Nhà phát triển Chương trình giảng dạy cho Miền NetSec tại Amazon Web Services, anh ấy tận dụng kinh nghiệm của mình trong Mạng Trung tâm Dữ liệu để giúp các chuyên gia về chủ đề đưa các ý tưởng vào cuộc sống.
Orlando Karam là một Nhà phát triển chương trình giảng dạy kỹ thuật tại Amazon Web Services, có nghĩa là anh ấy có thể chơi với các công nghệ mới thú vị và sau đó nói về nó. Thỉnh thoảng, anh ấy cũng sử dụng những công nghệ hay ho đó để giúp công việc của mình trở nên dễ dàng hơn.
- AI
- nghệ thuật ai
- máy phát điện nghệ thuật ai
- ai rô bốt
- Amazon Polly
- trí tuệ nhân tạo
- chứng nhận trí tuệ nhân tạo
- trí tuệ nhân tạo trong ngân hàng
- robot trí tuệ nhân tạo
- robot trí tuệ nhân tạo
- phần mềm trí tuệ nhân tạo
- Học máy AWS
- blockchain
- hội nghị blockchain ai
- thiên tài
- trí tuệ nhân tạo đàm thoại
- hội nghị tiền điện tử ai
- dall's
- học kĩ càng
- google ai
- học máy
- plato
- Plato ai
- Thông tin dữ liệu Plato
- Trò chơi Plato
- PlatoDữ liệu
- Platogaming
- quy mô ai
- cú pháp
- zephyrnet