צור כיתובים ושמע מסונכרנים באמצעות מחולל הכתוביות של אמזון פולי

הועלה מחדש על ידי אפלטון

עוקב: 0

אמזון פולי, שירות טקסט לדיבור שנוצר על ידי AI, מאפשר לך להפוך אוטומטית ולהרחיב את הפתרונות הקוליים האינטראקטיביים שלך, ומסייע בשיפור הפרודוקטיביות והפחתת עלויות.

מכיוון שהלקוחות שלנו ממשיכים להשתמש באמזון פולי בשל מערך התכונות העשיר שלה וקלות השימוש שלה, ראינו דרישה ליכולת ליצור בו-זמנית אודיו מסונכרנים וכתוביות או כתוביות עבור קלט טקסט נתון. ב-AWS, אנו עובדים ברציפות לאחור מבקשת הלקוח שלנו, אז בפוסט זה, אנו מתארים שיטה ליצור אודיו וכתוביות בו-זמנית עבור טקסט נתון.

למרות שכתוביות וכיתובים משמשים לעתים קרובות לסירוגין, כולל בפוסט הזה, יש ביניהם הבדלים עדינים:

כתוביות – בכתוביות, שפת הטקסט המוצגת על המסך שונה משפת האודיו ואינה מציגה שום דבר ללא דיאלוג כמו צלילים משמעותיים. המטרה העיקרית היא להגיע לקהל שאינו דובר את שפת האודיו בסרטון.
כיתובים (סגור/פתוח) - כיתובים מציגים את הדיאלוגים הנאמרים באודיו באותה שפה. מטרתו העיקרית היא להגביר את הנגישות במקרים בהם הקול אינו יכול להישמע על ידי הצרכן הסופי עקב מגוון בעיות. כתוביות סגורות הן חלק מקובץ שונה ממקור האודיו/וידאו וניתן לכבות ולהפעיל לפי שיקול דעתו של המשתמש, בעוד שכתוביות פתוחות הן חלק מקובץ הווידאו ולא ניתן לבטל אותן על ידי המשתמש.

יתרונות השימוש באמזון פולי ליצירת אודיו עם כתוביות או כתוביות

דמיינו את מקרה השימוש הבא: אתם מכינים מצגת מבוססת שקופיות עבור פורטל למידה מקוון. כל שקופית כוללת תוכן וקריינות על המסך. התוכן על המסך הוא מתווה בסיסי, והקריינות נכנסת לפרטים. במקום להקליט קול אנושי, שיכול להיות מסורבל ולא עקבי, אתה יכול להשתמש באמזון פולי כדי ליצור את הקריינות. אמזון פולי מפיקה קולות איכותיים ועקביים. אין צורך בפוסט פרודקשן. בעתיד, אם תצטרך לעדכן חלק מהמצגת, תצטרך לעדכן רק את השקופיות המושפעות. הקול תואם את השקופיות המקוריות. בנוסף, כאשר אמזון פולי מייצרת את האודיו שלך, כלולים כיתובים המופיעים בזמן עם האודיו. אתה חוסך זמן כי אין צורך בהקלטה ידנית, וחוסך זמן נוסף כאשר יש צורך בעדכונים. המצגת שלך גם מספקת יותר ערך מכיוון שהכתוביות עוזרות לתלמידים לצרוך את התוכן. זה פתרון של win-win-win.

יש שפע של מקרי שימוש לכיתובים, כגון פרסומות במרחבים חברתיים, אולמות כושר, בתי קפה ומקומות אחרים שבהם בדרך כלל יש משהו בטלוויזיה עם האודיו מושתק ומוזיקה ברקע; הדרכה ושיעורים מקוונים; פגישות וירטואליות; הודעות אלקטרוניות לציבור; צפייה בסרטונים תוך כדי נסיעה בלי אוזניות ובלי להפריע לנוסעים המשותפים; ועוד כמה.

ללא קשר לתחום היישום, כיתוב סגור יכול לעזור עם הדברים הבאים:

נגישות - אנשים עם ליקויי שמיעה יכולים לצרוך טוב יותר את התוכן שלך.
עצירה - למידה מקוונת קלה יותר לתפיסה ושימור של לומדים אלקטרוניים כאשר מעורבים יותר חושים אנושיים.
יכולת הגעה - התוכן שלך יכול להגיע לאנשים שיש להם סדרי עדיפויות מתחרים, כגון משחקים וצפייה בחדשות בו זמנית, או אנשים שיש להם שפת אם שונה משפת האודיו.
Searchability - ניתן לחפש את התוכן במנועי חיפוש. בעוד שרוב מנועי החיפוש לא יכולים לחפש סרטונים בצורה מיטבית, מנועי חיפוש יכולים להשתמש בקבצי הטקסט של הכיתוב ולהפוך את התוכן שלך לגלוי יותר.
אדיבות חברתית - לפעמים זה עשוי להיות גס רוח לנגן אודיו בגלל הסביבה שלך, או שהשמע יכול להיות קשה לשמוע בגלל הרעש של הסביבה שלך.
הֲבָנָה - קל יותר להבין את התוכן ללא קשר למבטא של הדובר, לשפת האם של הדובר או למהירות הדיבור. אתה יכול גם לרשום הערות מבלי לצפות שוב ושוב באותה סצנה.

סקירת פתרונות

הספרייה המוצגת בפוסט זה משתמשת באמזון פולי כדי ליצור סאונד וכיתובים סגורים עבור טקסט קלט. אתה יכול בקלות לשלב ספרייה זו ביישומי הטקסט לדיבור שלך. הוא תומך במספר פורמטי אודיו, וכיתובים בפורמטים של קבצי VTT ו- SRT, שהם הנפוצים ביותר בתעשייה.

בפוסט זה, אנו מתמקדים ב PollyVTT() תחביר ואפשרויות, ומציעים כמה דוגמאות המדגימות כיצד להשתמש ב-Python SubtitleGeneratorForPolly ליצור בו זמנית קבצי אודיו וכתוביות סינכרוניים עבור קלט טקסט נתון. פורמט קובץ האודיו הפלט יכול להיות PCM(wav), OGG או MP3, ופורמט קובץ הכתוביות יכול להיות VTT או SRT. יתר על כן, SubtitleGeneratorForPolly תומך בכל אמזון פולי synthesize_speech פרמטרים ומוסיף לסט התכונות העשיר של Amazon Polly.

אל האני polly-vtt הספרייה והתלות שלה זמינים ב GitHub.

התקן והשתמש בפונקציה

לפני שנסתכל על כמה דוגמאות לשימוש PollyVTT(), הפונקציה שמפעילה SubtitleGeneratorForPolly, בואו נסתכל על ההתקנה והתחביר שלה.

התקן את הספרייה באמצעות הקוד הבא:

pip install

כדי לרוץ משורת הפקודה, אתה פשוט רץ polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

הקוד הבא מציג את האפשרויות שלך:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

בואו נסתכל על כמה דוגמאות עכשיו.

דוגמה 1

דוגמה זו יוצרת קובץ שמע PCM יחד עם קובץ כיתוב SRT לשני משפטים פשוטים:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

דוגמה 2

דוגמה זו מדגימה כיצד להשתמש בפסקת טקסט כקלט. זה יוצר קבצי שמע ב-WAV, MP3 ו-OGG, וכתוביות ב-SRT ו-VTT. הדוגמה הבאה יוצרת שישה קבצים עבור טקסט הקלט הנתון:

pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt

ראה את הקוד הבא:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
)

דוגמה 3

עם זאת, ברוב המקרים, אתה רוצה להעביר את הטקסט כקובץ קלט. להלן דוגמה של Python לכך, עם אותו פלט כמו הדוגמה הקודמת:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

להלן פוסט עדות מצוות ההדרכה הפנימי של AWS לשימוש באמזון פולי עם כתוביות:

הסרטון הבא מציע הדגמה קצרה של האופן שבו צוות ההדרכה הפנימי ב-AWS משתמש PollyVTT():

סיכום

בפוסט זה, שיתפנו שיטה ליצור אודיו וכתוביות בו-זמנית עבור טקסט נתון. ה PollyVTT() ופונקציה SubtitleGeneratorForPolly לטפל בדרישה נפוצה לכתוביות בצורה יעילה ואפקטיבית. צוות אמזון פולי ממשיך להמציא ולהציע פתרונות פשוטים לדרישות מורכבות של לקוחות.

למדריכים נוספים ומידע על אמזון פולי, עיין ב- בלוג למידת מכונות AWS.

על הכותבים

אבישק סוני הוא אדריכל פתרונות שותפים ב- AWS. הוא עובד עם לקוחות בכדי לספק הדרכה טכנית לקבלת התוצאה הטובה ביותר של עומסי העבודה ב- AWS.

דן מקי משתמש באודיו, וידאו וקפה כדי לזקק תוכן לקורסים ממוקדים, מודולריים ומובנים. בתפקידו כמנהל פרויקטים של מפתח לימודים עבור תחום NetSec בשירותי האינטרנט של אמזון, הוא ממנף את ניסיונו ב-Data Center Networking כדי לעזור למומחי נושאים להביא רעיונות לחיים.

אורלנדו קאראם הוא מפתח תכניות לימודים טכניות ב- Amazon Web Services, מה שאומר שהוא יכול לשחק עם טכנולוגיות חדשות ומגניבות ואז לדבר על זה. מדי פעם, הוא גם משתמש בטכנולוגיות המגניבות האלה כדי להקל על העבודה שלו.

בול זמן: 18 ביולי 202218 ביולי 2022

בול זמן: מאי 4, 2023

צור כתוביות ושמע מסונכרנים באמצעות מחולל הכתוביות של Amazon Polly

הועלה מחדש על ידי אפלטון

יתרונות השימוש באמזון פולי ליצירת אודיו עם כתוביות או כתוביות

סקירת פתרונות

התקן והשתמש בפונקציה

דוגמה 1

דוגמה 2

דוגמה 3

סיכום

על הכותבים

עוד מ למידת מכונות AWS

יישום Amazon Forecast בענף הקמעונאות: מסע מ-POC לייצור

בנה פלטפורמת נתונים אגרונומית עם יכולות גיאו-מרחביות של Amazon SageMaker

פרוס דגמים גדולים ב-Amazon SageMaker באמצעות מסקנות מקבילות של מודל DJLServing ו-DeepSpeed

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן