Tạo phụ đề và âm thanh được đồng bộ hóa bằng Trình tạo phụ đề Amazon Polly

Được xuất bản lại bởi Plato

Người theo dõi: 0

Amazon Polly, một dịch vụ chuyển văn bản thành giọng nói do AI tạo ra, cho phép bạn tự động hóa và mở rộng các giải pháp giọng nói tương tác của mình, giúp cải thiện năng suất và giảm chi phí.

Khi khách hàng của chúng tôi tiếp tục sử dụng Amazon Polly vì bộ tính năng phong phú và tính dễ sử dụng của nó, chúng tôi đã nhận thấy nhu cầu về khả năng tạo đồng thời âm thanh và phụ đề hoặc phụ đề cho một đầu vào văn bản nhất định. Tại AWS, chúng tôi liên tục làm việc ngược lại so với yêu cầu của khách hàng, vì vậy trong bài đăng này, chúng tôi phác thảo phương pháp tạo âm thanh và phụ đề cùng một lúc cho một văn bản nhất định.

Mặc dù phụ đề và chú thích thường được sử dụng thay thế cho nhau, bao gồm cả trong bài đăng này, có sự khác biệt nhỏ giữa chúng:

Phụ đề - Trong phụ đề, ngôn ngữ văn bản hiển thị trên màn hình khác với ngôn ngữ âm thanh và không hiển thị bất kỳ thứ gì không phải đối thoại như âm thanh quan trọng. Mục tiêu chính là tiếp cận khán giả không nói ngôn ngữ âm thanh trong video.
Chú thích (đóng / mở) - Phụ đề hiển thị các đoạn hội thoại đang được nói bằng âm thanh bằng cùng một ngôn ngữ. Mục đích chính của nó là tăng khả năng tiếp cận trong trường hợp người tiêu dùng cuối không thể nghe thấy âm thanh do một loạt vấn đề. Phụ đề chi tiết là một phần của tệp khác với nguồn âm thanh / video và có thể tắt và bật theo quyết định của người dùng, trong khi phụ đề mở là một phần của tệp video và người dùng không thể tắt phụ đề.

Lợi ích của việc sử dụng Amazon Polly để tạo âm thanh có phụ đề

Hãy tưởng tượng trường hợp sử dụng sau: bạn chuẩn bị một bản trình bày dựa trên slide cho một cổng thông tin học tập trực tuyến. Mỗi slide bao gồm nội dung trên màn hình và tường thuật. Nội dung trên màn hình là một phác thảo cơ bản và tường thuật đi vào chi tiết. Thay vì ghi âm giọng nói của con người, điều này có thể rườm rà và không nhất quán, bạn có thể sử dụng Amazon Polly để tạo lời tường thuật. Amazon Polly tạo ra giọng nói nhất quán, chất lượng cao. Không cần hậu kỳ. Trong tương lai, nếu bạn cần cập nhật một phần của bản trình bày, bạn chỉ cần cập nhật các trang trình bày bị ảnh hưởng. Giọng nói phù hợp với các trang trình bày gốc. Ngoài ra, khi Amazon Polly tạo âm thanh của bạn, phụ đề sẽ được đưa vào cùng lúc với âm thanh. Bạn tiết kiệm thời gian vì không cần ghi thủ công và tiết kiệm thêm thời gian khi cần cập nhật. Bản trình bày của bạn cũng mang lại nhiều giá trị hơn vì phụ đề giúp sinh viên tiếp thu nội dung. Đó là một giải pháp đôi bên cùng có lợi.

Có vô số trường hợp sử dụng cho phụ đề, chẳng hạn như quảng cáo trong không gian xã hội, phòng tập thể dục, quán cà phê và những nơi khác, nơi thường có nội dung nào đó trên TV với âm thanh bị tắt tiếng và nhạc trong nền; đào tạo trực tuyến và các lớp học; các cuộc họp ảo; thông báo điện tử công cộng; xem video khi đang đi lại mà không cần tai nghe và không làm phiền người đi cùng; và nhiều hơn nữa.

Bất kể lĩnh vực ứng dụng, phụ đề chi tiết có thể giúp thực hiện những điều sau:

Khả Năng Tiếp Cận - Những người bị khiếm thính có thể tiêu thụ nội dung của bạn tốt hơn.
Retention - Học trực tuyến dễ dàng nắm bắt và lưu giữ hơn đối với người học điện tử khi có nhiều giác quan của con người hơn.
Khả năng tiếp cận - Nội dung của bạn có thể tiếp cận những người có các ưu tiên cạnh tranh, chẳng hạn như chơi game và xem tin tức đồng thời hoặc những người có ngôn ngữ mẹ đẻ khác với ngôn ngữ âm thanh.
Searchability - Nội dung có thể tìm kiếm được bởi các công cụ tìm kiếm. Trong khi hầu hết các công cụ tìm kiếm không thể tìm kiếm video một cách tối ưu, các công cụ tìm kiếm có thể sử dụng tệp văn bản phụ đề và làm cho nội dung của bạn dễ khám phá hơn.
Lịch sự xã hội - Đôi khi, việc phát âm thanh do môi trường xung quanh bạn có thể là bất tiện hoặc âm thanh có thể khó nghe do tiếng ồn của môi trường xung quanh bạn.
sự hiểu - Nội dung dễ hiểu hơn bất kể giọng của người nói, ngôn ngữ mẹ đẻ của người nói, hoặc tốc độ nói. Bạn cũng có thể ghi chú mà không cần xem nhiều lần cùng một cảnh.

Tổng quan về giải pháp

Thư viện được trình bày trong bài đăng này sử dụng Amazon Polly để tạo âm thanh và phụ đề chi tiết cho văn bản đầu vào. Bạn có thể dễ dàng tích hợp thư viện này trong các ứng dụng chuyển văn bản thành giọng nói của mình. Nó hỗ trợ một số định dạng âm thanh và chú thích ở cả định dạng tệp VTT và SRT, được sử dụng phổ biến nhất trong toàn ngành.

Trong bài đăng này, chúng tôi tập trung vào PollyVTT() cú pháp và các tùy chọn, đồng thời đưa ra một vài ví dụ minh họa cách sử dụng Python SubtitleGeneratorForPolly để tạo đồng thời các tệp phụ đề và âm thanh đồng bộ cho một đầu vào văn bản nhất định. Định dạng tệp âm thanh đầu ra có thể là PCM (wav), OGG hoặc MP3 và định dạng tệp phụ đề có thể là VTT hoặc SRT. Hơn nữa, SubtitleGeneratorForPolly hỗ trợ tất cả Amazon Polly synthesize_speech và bổ sung vào bộ tính năng Amazon Polly phong phú.

Sản phẩm polly-vtt thư viện và các phụ thuộc của nó có sẵn trên GitHub.

Cài đặt và sử dụng chức năng

Trước khi chúng ta xem xét một số ví dụ về việc sử dụng PollyVTT(), chức năng cung cấp năng lượng SubtitleGeneratorForPolly, hãy xem cách cài đặt và cú pháp của nó.

Cài đặt thư viện bằng đoạn mã sau:

pip install

Để chạy từ dòng lệnh, bạn chỉ cần chạy polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

Đoạn mã sau hiển thị các tùy chọn của bạn:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

Bây giờ chúng ta hãy xem xét một vài ví dụ.

Ví dụ 1

Ví dụ này tạo tệp âm thanh PCM cùng với tệp phụ đề SRT cho hai câu đơn giản:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

Ví dụ 2

Ví dụ này trình bày cách sử dụng một đoạn văn bản làm đầu vào. Điều này tạo ra các tệp âm thanh trong WAV, MP3 và OGG và phụ đề trong SRT và VTT. Ví dụ sau tạo sáu tệp cho văn bản đầu vào đã cho:

pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt

Xem mã sau đây:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
)

Ví dụ 3

Tuy nhiên, trong hầu hết các trường hợp, bạn muốn chuyển văn bản dưới dạng tệp đầu vào. Sau đây là một ví dụ Python về điều này, với đầu ra giống như ví dụ trước:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

Sau đây là bài đăng chứng thực từ nhóm đào tạo nội bộ của AWS về việc sử dụng Amazon Polly với phụ đề chi tiết:

Video sau đây cung cấp bản giới thiệu ngắn về cách nhóm đào tạo nội bộ tại AWS sử dụng PollyVTT():

Kết luận

Trong bài đăng này, chúng tôi đã chia sẻ phương pháp tạo âm thanh và phụ đề cùng một lúc cho một văn bản nhất định. Các PollyVTT() chức năng và SubtitleGeneratorForPolly giải quyết một yêu cầu chung về phụ đề một cách hiệu quả và hiệu quả. Nhóm Amazon Polly tiếp tục phát minh và cung cấp các giải pháp đơn giản hóa cho các yêu cầu phức tạp của khách hàng.

Để biết thêm hướng dẫn và thông tin về Amazon Polly, hãy xem Blog Học máy AWS.

Về các tác giả

Abhishek Soni là Kiến trúc sư Giải pháp Đối tác tại AWS. Anh ấy làm việc với khách hàng để cung cấp hướng dẫn kỹ thuật cho kết quả tốt nhất của khối lượng công việc trên AWS.

Dan McKee sử dụng âm thanh, video và cà phê để chắt lọc nội dung thành các khóa học được nhắm mục tiêu, mô-đun và có cấu trúc. Với vai trò là Giám đốc Dự án Nhà phát triển Chương trình giảng dạy cho Miền NetSec tại Amazon Web Services, anh ấy tận dụng kinh nghiệm của mình trong Mạng Trung tâm Dữ liệu để giúp các chuyên gia về chủ đề đưa các ý tưởng vào cuộc sống.

Orlando Karam là một Nhà phát triển chương trình giảng dạy kỹ thuật tại Amazon Web Services, có nghĩa là anh ấy có thể chơi với các công nghệ mới thú vị và sau đó nói về nó. Thỉnh thoảng, anh ấy cũng sử dụng những công nghệ hay ho đó để giúp công việc của mình trở nên dễ dàng hơn.