สร้างคำบรรยายและเสียงที่ซิงโครไนซ์โดยใช้ตัวสร้างคำบรรยายของ Amazon Polly

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

Amazon Pollyซึ่งเป็นบริการแปลงข้อความเป็นคำพูดที่สร้างโดย AI ช่วยให้คุณสามารถปรับและปรับขนาดโซลูชันเสียงแบบโต้ตอบได้โดยอัตโนมัติ ช่วยปรับปรุงประสิทธิภาพการทำงานและลดต้นทุน

เนื่องจากลูกค้าของเรายังคงใช้ Amazon Polly สำหรับชุดคุณสมบัติที่หลากหลายและใช้งานง่าย เราสังเกตเห็นความต้องการความสามารถในการสร้างเสียงและคำบรรยายที่ซิงโครไนซ์พร้อมกันสำหรับการป้อนข้อความที่กำหนด ที่ AWS เราดำเนินการย้อนกลับอย่างต่อเนื่องจากคำขอของลูกค้า ดังนั้นในโพสต์นี้ เราจึงสรุปวิธีการสร้างเสียงและคำบรรยายพร้อมกันสำหรับข้อความที่กำหนด

แม้ว่าคำบรรยายและคำอธิบายภาพมักจะใช้สลับกันได้ รวมถึงในโพสต์นี้ แต่ก็มีความแตกต่างเล็กน้อยระหว่างพวกเขา:

คำบรรยาย – ในคำบรรยาย ภาษาของข้อความที่แสดงบนหน้าจอจะแตกต่างจากภาษาของเสียง และไม่แสดงสิ่งใดที่ไม่ใช่เสียงสนทนา เช่น เสียงที่มีนัยสำคัญ วัตถุประสงค์หลักคือการเข้าถึงผู้ชมที่ไม่ได้พูดภาษาของเสียงในวิดีโอ
คำบรรยายภาพ (ปิด/เปิด) – คำอธิบายภาพแสดงบทสนทนาที่พูดด้วยเสียงในภาษาเดียวกัน จุดประสงค์หลักคือเพื่อเพิ่มความสามารถในการเข้าถึงในกรณีที่ผู้ใช้ปลายทางไม่ได้ยินเสียงเนื่องจากปัญหาหลายประการ คำอธิบายภาพเป็นส่วนหนึ่งของไฟล์ที่แตกต่างจากแหล่งที่มาของเสียง/วิดีโอ และสามารถปิดและเปิดได้ตามดุลยพินิจของผู้ใช้ ในขณะที่คำบรรยายแบบเปิดเป็นส่วนหนึ่งของไฟล์วิดีโอและผู้ใช้ไม่สามารถปิดได้

ประโยชน์ของการใช้ Amazon Polly เพื่อสร้างเสียงพร้อมคำบรรยาย

ลองนึกภาพกรณีการใช้งานต่อไปนี้: คุณเตรียมการนำเสนอแบบสไลด์สำหรับพอร์ทัลการเรียนรู้ออนไลน์ แต่ละสไลด์มีเนื้อหาบนหน้าจอและการบรรยาย เนื้อหาบนหน้าจอเป็นโครงร่างพื้นฐาน และการบรรยายจะลงรายละเอียด แทนที่จะบันทึกเสียงมนุษย์ ซึ่งอาจยุ่งยากและไม่สอดคล้องกัน คุณสามารถใช้ Amazon Polly เพื่อสร้างคำบรรยายได้ Amazon Polly สร้างเสียงที่มีคุณภาพสูงและสม่ำเสมอ ไม่จำเป็นต้องมีขั้นตอนหลังการผลิต ในอนาคต หากคุณต้องการอัปเดตบางส่วนของงานนำเสนอ คุณจะต้องอัปเดตสไลด์ที่ได้รับผลกระทบเท่านั้น เสียงตรงกับสไลด์ต้นฉบับ นอกจากนี้ เมื่อ Amazon Polly สร้างเสียงของคุณ คำบรรยายจะรวมอยู่ด้วยซึ่งปรากฏในเวลาพร้อมกับเสียง คุณประหยัดเวลาเนื่องจากไม่มีการบันทึกด้วยตนเอง และประหยัดเวลาเพิ่มเติมเมื่อจำเป็นต้องอัปเดต การนำเสนอของคุณยังให้คุณค่ามากกว่าเพราะคำบรรยายช่วยให้นักเรียนใช้เนื้อหาได้ เป็นวิธีแก้ปัญหาแบบ win-win-win

มีกรณีการใช้งานมากมายสำหรับคำอธิบายภาพ เช่น โฆษณาในพื้นที่สังคม โรงยิม ร้านกาแฟ และสถานที่อื่นๆ ที่ปกติแล้วจะมีบางสิ่งในโทรทัศน์ที่ปิดเสียงและเพลงอยู่เบื้องหลัง การฝึกอบรมและชั้นเรียนออนไลน์ การประชุมเสมือนจริง ประกาศทางอิเล็กทรอนิกส์สาธารณะ ดูวิดีโอขณะเดินทางโดยไม่ใช้หูฟังและไม่รบกวนผู้โดยสารร่วม และอีกมากมาย

คำบรรยายใต้ภาพสามารถช่วยในเรื่องต่อไปนี้โดยไม่คำนึงถึงสาขาวิชา:

การเข้าถึง – ผู้ที่มีความบกพร่องทางการได้ยินสามารถบริโภคเนื้อหาของคุณได้ดีขึ้น
การเก็บรักษา – การเรียนรู้ออนไลน์เป็นเรื่องง่ายสำหรับอีเลิร์นนิงที่จะเข้าใจและรักษาไว้เมื่อมีประสาทสัมผัสของมนุษย์เข้ามาเกี่ยวข้องมากขึ้น
reachability – เนื้อหาของคุณสามารถเข้าถึงผู้ที่มีลำดับความสำคัญที่แข่งขันกัน เช่น การเล่นเกมและการดูข่าวพร้อมกัน หรือผู้ที่มีภาษาแม่แตกต่างจากภาษาเสียง
searchability – เนื้อหาสามารถค้นหาได้โดยเครื่องมือค้นหา ในขณะที่เครื่องมือค้นหาส่วนใหญ่ไม่สามารถค้นหาวิดีโอได้อย่างเหมาะสมที่สุด เครื่องมือค้นหาสามารถใช้ไฟล์ข้อความคำอธิบายภาพและทำให้เนื้อหาของคุณถูกค้นพบมากขึ้น
มารยาททางสังคม – บางครั้งการเล่นเสียงเนื่องจากสภาพแวดล้อมของคุณอาจดูไม่สุภาพ หรือเสียงอาจได้ยินได้ยากเนื่องจากเสียงรบกวนจากสิ่งแวดล้อมของคุณ
ความเข้าใจ – เนื้อหาเข้าใจง่ายขึ้นโดยไม่คำนึงถึงสำเนียงของผู้พูด ภาษาเจ้าของภาษา หรือความเร็วในการพูด คุณยังสามารถจดบันทึกโดยไม่ต้องดูฉากเดิมซ้ำๆ

ภาพรวมโซลูชัน

ไลบรารีที่นำเสนอในโพสต์นี้ใช้ Amazon Polly เพื่อสร้างเสียงและคำบรรยายสำหรับข้อความที่ป้อน คุณสามารถรวมไลบรารีนี้ในแอปพลิเคชันแปลงข้อความเป็นคำพูดของคุณได้อย่างง่ายดาย รองรับรูปแบบเสียงหลายรูปแบบและคำอธิบายภาพทั้งในรูปแบบไฟล์ VTT และ SRT ซึ่งเป็นที่นิยมใช้กันมากที่สุดในอุตสาหกรรม

ในโพสต์นี้เราเน้นที่ PollyVTT() ไวยากรณ์และตัวเลือก และนำเสนอตัวอย่างบางส่วนที่สาธิตวิธีใช้Python SubtitleGeneratorForPolly เพื่อสร้างไฟล์เสียงและคำบรรยายแบบซิงโครนัสพร้อมกันสำหรับการป้อนข้อความที่กำหนด รูปแบบไฟล์เสียงที่ส่งออกอาจเป็น PCM(wav), OGG หรือ MP3 และรูปแบบไฟล์คำบรรยายอาจเป็น VTT หรือ SRT นอกจากนี้, SubtitleGeneratorForPolly รองรับ Amazon Polly ทั้งหมด synthesize_speech และเพิ่มไปยังชุดคุณสมบัติ Amazon Polly ที่สมบูรณ์

พื้นที่ polly-vtt ไลบรารีและการพึ่งพามีอยู่ใน GitHub.

ติดตั้งและใช้ฟังก์ชัน

ก่อนที่เราจะดูตัวอย่างการใช้ PollyVTT(), ฟังก์ชันที่ให้พลัง SubtitleGeneratorForPollyลองดูที่การติดตั้งและไวยากรณ์ของมัน

ติดตั้งไลบรารีโดยใช้รหัสต่อไปนี้:

pip install

หากต้องการเรียกใช้จากบรรทัดคำสั่ง คุณเพียงแค่เรียกใช้ polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

รหัสต่อไปนี้แสดงตัวเลือกของคุณ:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

ลองดูตัวอย่างบางส่วนตอนนี้

1 ตัวอย่าง

ตัวอย่างนี้สร้างไฟล์เสียง PCM พร้อมกับไฟล์คำบรรยาย SRT สำหรับสองประโยคง่ายๆ:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

2 ตัวอย่าง

ตัวอย่างนี้สาธิตวิธีการใช้ย่อหน้าของข้อความเป็นอินพุต สิ่งนี้จะสร้างไฟล์เสียงใน WAV, MP3 และ OGG และคำบรรยายใน SRT และ VTT ตัวอย่างต่อไปนี้สร้างไฟล์หกไฟล์สำหรับข้อความอินพุตที่กำหนด:

pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt

ดูรหัสต่อไปนี้:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
)

3 ตัวอย่าง

อย่างไรก็ตาม ในกรณีส่วนใหญ่ คุณต้องการส่งข้อความเป็นไฟล์อินพุต ต่อไปนี้คือตัวอย่าง Python ของสิ่งนี้ โดยมีผลลัพธ์เหมือนกับตัวอย่างก่อนหน้า:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

ต่อไปนี้คือข้อความรับรองจากทีมฝึกอบรมภายในของ AWS เกี่ยวกับการใช้ Amazon Polly พร้อมคำบรรยาย:

วิดีโอต่อไปนี้นำเสนอตัวอย่างสั้นๆ ว่าทีมฝึกอบรมภายในที่ AWS ใช้อย่างไร PollyVTT():

สรุป

ในโพสต์นี้ เราได้แชร์วิธีการสร้างเสียงและคำบรรยายพร้อมกันสำหรับข้อความที่กำหนด ดิ PollyVTT() และฟังก์ชั่น SubtitleGeneratorForPolly ระบุข้อกำหนดทั่วไปสำหรับคำบรรยายในลักษณะที่มีประสิทธิภาพและประสิทธิผล ทีม Amazon Polly ยังคงคิดค้นและนำเสนอโซลูชันที่ง่ายขึ้นสำหรับความต้องการของลูกค้าที่ซับซ้อน

สำหรับบทแนะนำและข้อมูลเพิ่มเติมเกี่ยวกับ Amazon Polly โปรดดูที่ บล็อก AWS Machine Learning.

เกี่ยวกับผู้เขียน

อภิเษก โสนี เป็น Partner Solutions Architect ที่ AWS เขาทำงานร่วมกับลูกค้าเพื่อให้คำแนะนำทางเทคนิคเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดของปริมาณงานบน AWS

แดน แมค ใช้เสียง วิดีโอ และกาแฟเพื่อกลั่นเนื้อหาเป็นหลักสูตรที่กำหนดเป้าหมาย แบบแยกส่วน และแบบมีโครงสร้าง ในบทบาทของเขาในฐานะผู้จัดการโครงการ Curriculum Developer Project สำหรับโดเมน NetSec ที่ Amazon Web Services เขาใช้ประโยชน์จากประสบการณ์ของเขาใน Data Center Networking เพื่อช่วยให้ผู้เชี่ยวชาญเฉพาะด้านนำแนวคิดมาสู่ชีวิต

ออร์แลนโด้ คารัม เป็นนักพัฒนาหลักสูตรด้านเทคนิคของ Amazon Web Services ซึ่งหมายความว่าเขาจะได้เล่นกับเทคโนโลยีใหม่เจ๋งๆ แล้วพูดถึงมัน ในบางครั้ง เขายังใช้เทคโนโลยีเจ๋งๆ เหล่านี้เพื่อทำให้งานของเขาง่ายขึ้น