Amazon Polly 자막 생성기를 사용하여 동기화된 자막 및 오디오 생성

플라톤에 의해 재발행

팔로워 : 0

아마존 폴리, AI 생성 TTS(텍스트 음성 변환) 서비스를 사용하면 대화형 음성 솔루션을 자동화하고 확장하여 생산성을 향상하고 비용을 절감할 수 있습니다.

고객이 다양한 기능과 사용 편의성을 위해 Amazon Polly를 계속 사용함에 따라 주어진 텍스트 입력에 대해 동기화된 오디오와 자막 또는 폐쇄 캡션을 동시에 생성하는 기능에 대한 수요를 관찰했습니다. AWS에서는 고객의 요청에 따라 지속적으로 역방향 작업을 수행하므로 이 게시물에서는 주어진 텍스트에 대해 오디오와 자막을 동시에 생성하는 방법을 간략하게 설명합니다.

이 게시물을 포함하여 자막과 캡션은 종종 같은 의미로 사용되지만 미묘한 차이가 있습니다.

자막 – 자막에서 화면에 표시되는 텍스트 언어는 오디오 언어와 다르며 중요한 소리와 같이 대화가 아닌 경우 아무 것도 표시하지 않습니다. 주요 목표는 비디오에서 오디오 언어를 사용하지 않는 청중에게 다가가는 것입니다.
캡션(닫힘/열림) – 캡션은 동일한 언어로 오디오에서 말하는 대화를 표시합니다. 주요 목적은 다양한 문제로 인해 최종 소비자가 오디오를 들을 수 없는 경우 접근성을 높이는 것입니다. 닫힌 캡션은 오디오/비디오 소스와 다른 파일의 일부이며 사용자의 재량에 따라 켜고 끌 수 있는 반면, 열린 캡션은 비디오 파일의 일부이며 사용자가 끌 수 없습니다.

Amazon Polly를 사용하여 자막 또는 폐쇄 캡션이 있는 오디오 생성의 이점

다음 사용 사례를 상상해 보십시오. 온라인 학습 포털을 위한 슬라이드 기반 프레젠테이션을 준비합니다. 각 슬라이드에는 화면 콘텐츠와 내레이션이 포함되어 있습니다. 화면 내용은 기본 개요이며 나레이션이 자세히 설명됩니다. 번거롭고 일관성이 없을 수 있는 사람의 목소리를 녹음하는 대신 Amazon Polly를 사용하여 내레이션을 생성할 수 있습니다. Amazon Polly는 고품질의 일관된 음성을 생성합니다. 포스트 프로덕션이 필요하지 않습니다. 앞으로 프레젠테이션의 일부를 업데이트해야 하는 경우 영향을 받는 슬라이드만 업데이트하면 됩니다. 음성은 원본 슬라이드와 일치합니다. 또한 Amazon Polly가 오디오를 생성할 때 오디오와 함께 표시되는 캡션이 포함됩니다. 수동 녹화가 필요 없기 때문에 시간을 절약하고 업데이트가 필요할 때 추가 시간을 절약할 수 있습니다. 캡션은 학생들이 콘텐츠를 소비하는 데 도움이 되기 때문에 프레젠테이션도 더 많은 가치를 제공합니다. 윈-윈-윈 솔루션입니다.

사교 공간, 체육관, 커피숍 및 일반적으로 오디오가 음소거되고 음악이 배경에 있는 텔레비전에 무언가가 있는 기타 장소의 광고와 같이 캡션에 대한 사용 사례가 많이 있습니다. 온라인 교육 및 수업; 가상 회의; 공개 전자 발표; 헤드폰 없이 동승자를 방해하지 않고 출퇴근하는 동안 비디오 시청 그리고 몇 가지 더.

적용 분야에 관계없이 폐쇄 자막은 다음과 같은 경우에 도움이 될 수 있습니다.

접근 용이성 – 청각 장애가 있는 사람들이 콘텐츠를 더 잘 소비할 수 있습니다.
보유 – 온라인 학습은 더 많은 인간의 감각이 관련될 때 e-학습자가 파악하고 유지하기가 더 쉽습니다.
접근성 – 귀하의 콘텐츠는 게임과 동시에 뉴스 시청과 같이 우선 순위가 경쟁적인 사람들 또는 오디오 언어와 다른 모국어를 사용하는 사람들에게 도달할 수 있습니다.
검색 가능성 – 콘텐츠는 검색 엔진으로 검색할 수 있습니다. 대부분의 검색 엔진에서는 동영상을 최적으로 검색할 수 없지만 검색 엔진은 캡션 텍스트 파일을 사용하여 콘텐츠를 보다 쉽게 검색할 수 있습니다.
사회적 예의 – 간혹 주변 환경 때문에 오디오 재생이 무례할 수 있으며, 주변 소음으로 인해 오디오가 잘 들리지 않을 수 있습니다.
이해 – 화자의 억양, 화자의 모국어, 말의 속도에 관계없이 내용을 이해하기 쉽습니다. 같은 장면을 반복해서 보지 않고도 메모를 할 수도 있습니다.

솔루션 개요

이 게시물에 제공된 라이브러리는 Amazon Polly를 사용하여 입력 텍스트에 대한 사운드 및 폐쇄 캡션을 생성합니다. 이 라이브러리를 TTS(텍스트 음성 변환) 응용 프로그램에 쉽게 통합할 수 있습니다. 여러 오디오 형식과 업계에서 가장 일반적으로 사용되는 VTT 및 SRT 파일 형식의 캡션을 지원합니다.

이번 포스팅에서는 중점적으로 PollyVTT() 구문 및 옵션을 제공하고 Python 사용 방법을 보여주는 몇 가지 예를 제공합니다. SubtitleGeneratorForPolly 주어진 텍스트 입력에 대한 동기 오디오 및 자막 파일을 동시에 생성합니다. 출력 오디오 파일 형식은 PCM(wav), OGG 또는 MP3가 될 수 있으며 자막 파일 형식은 VTT 또는 SRT가 될 수 있습니다. 뿐만 아니라, SubtitleGeneratorForPolly 모든 Amazon Polly 지원 synthesize_speech 매개변수를 추가하고 풍부한 Amazon Polly 기능 세트에 추가합니다.

XNUMXD덴탈의 polly-vtt 라이브러리 및 해당 종속성은 다음에서 사용할 수 있습니다. GitHub의.

기능 설치 및 사용

사용 예를 살펴보기 전에 PollyVTT(), 전원을 공급하는 기능 SubtitleGeneratorForPolly, 설치 및 구문을 살펴보겠습니다.

다음 코드를 사용하여 라이브러리를 설치합니다.

pip install

명령줄에서 실행하려면 다음을 실행하기만 하면 됩니다. polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

다음 코드는 옵션을 보여줍니다.

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

이제 몇 가지 예를 살펴보겠습니다.

예제 1

이 예에서는 두 개의 간단한 문장에 대한 SRT 캡션 파일과 함께 PCM 오디오 파일을 생성합니다.

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

예제 2

이 예는 텍스트 단락을 입력으로 사용하는 방법을 보여줍니다. 이것은 WAV, MP3 및 OGG의 오디오 파일과 SRT 및 VTT의 자막을 생성합니다. 다음 예제에서는 주어진 입력 텍스트에 대해 XNUMX개의 파일을 생성합니다.

pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt

다음 코드를 참조하십시오.

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
)

예제 3

그러나 대부분의 경우 텍스트를 입력 파일로 전달하려고 합니다. 다음은 이전 예제와 동일한 출력을 가진 이에 대한 Python 예제입니다.

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

다음은 폐쇄 캡션과 함께 Amazon Polly를 사용하는 AWS 내부 교육 팀의 평가 게시물입니다.

다음 비디오는 AWS의 내부 교육 팀이 사용하는 방법에 대한 짧은 데모를 제공합니다. PollyVTT():

결론

이 게시물에서는 주어진 텍스트에 대해 오디오와 자막을 동시에 생성하는 방법을 공유했습니다. 그만큼 PollyVTT() 기능과 SubtitleGeneratorForPolly 자막에 대한 공통 요구 사항을 효율적이고 효과적인 방식으로 해결합니다. Amazon Polly 팀은 복잡한 고객 요구 사항에 대한 간소화된 솔루션을 지속적으로 개발하고 제공합니다.

Amazon Polly에 대한 자세한 자습서 및 정보는 다음을 확인하십시오. AWS 머신 러닝 블로그.

저자에 관하여

아비섹 소니 AWS의 파트너 솔루션 아키텍트입니다. 그는 고객과 협력하여 AWS에서 최상의 워크로드 결과를 얻을 수 있는 기술 지침을 제공합니다.

단 맥키 오디오, 비디오 및 커피를 사용하여 콘텐츠를 대상화되고 모듈화된 구조화된 코스로 추출합니다. Amazon Web Services에서 NetSec 도메인의 커리큘럼 개발자 프로젝트 관리자 역할을 하면서 그는 데이터 센터 네트워킹에 대한 자신의 경험을 활용하여 주제 전문가가 아이디어를 실현할 수 있도록 돕습니다.