אמזון פולי, שירות טקסט לדיבור שנוצר על ידי AI, מאפשר לך להפוך אוטומטית ולהרחיב את הפתרונות הקוליים האינטראקטיביים שלך, ומסייע בשיפור הפרודוקטיביות והפחתת עלויות.
מכיוון שהלקוחות שלנו ממשיכים להשתמש באמזון פולי בשל מערך התכונות העשיר שלה וקלות השימוש שלה, ראינו דרישה ליכולת ליצור בו-זמנית אודיו מסונכרנים וכתוביות או כתוביות עבור קלט טקסט נתון. ב-AWS, אנו עובדים ברציפות לאחור מבקשת הלקוח שלנו, אז בפוסט זה, אנו מתארים שיטה ליצור אודיו וכתוביות בו-זמנית עבור טקסט נתון.
למרות שכתוביות וכיתובים משמשים לעתים קרובות לסירוגין, כולל בפוסט הזה, יש ביניהם הבדלים עדינים:
- כתוביות – בכתוביות, שפת הטקסט המוצגת על המסך שונה משפת האודיו ואינה מציגה שום דבר ללא דיאלוג כמו צלילים משמעותיים. המטרה העיקרית היא להגיע לקהל שאינו דובר את שפת האודיו בסרטון.
- כיתובים (סגור/פתוח) - כיתובים מציגים את הדיאלוגים הנאמרים באודיו באותה שפה. מטרתו העיקרית היא להגביר את הנגישות במקרים בהם הקול אינו יכול להישמע על ידי הצרכן הסופי עקב מגוון בעיות. כתוביות סגורות הן חלק מקובץ שונה ממקור האודיו/וידאו וניתן לכבות ולהפעיל לפי שיקול דעתו של המשתמש, בעוד שכתוביות פתוחות הן חלק מקובץ הווידאו ולא ניתן לבטל אותן על ידי המשתמש.
יתרונות השימוש באמזון פולי ליצירת אודיו עם כתוביות או כתוביות
דמיינו את מקרה השימוש הבא: אתם מכינים מצגת מבוססת שקופיות עבור פורטל למידה מקוון. כל שקופית כוללת תוכן וקריינות על המסך. התוכן על המסך הוא מתווה בסיסי, והקריינות נכנסת לפרטים. במקום להקליט קול אנושי, שיכול להיות מסורבל ולא עקבי, אתה יכול להשתמש באמזון פולי כדי ליצור את הקריינות. אמזון פולי מפיקה קולות איכותיים ועקביים. אין צורך בפוסט פרודקשן. בעתיד, אם תצטרך לעדכן חלק מהמצגת, תצטרך לעדכן רק את השקופיות המושפעות. הקול תואם את השקופיות המקוריות. בנוסף, כאשר אמזון פולי מייצרת את האודיו שלך, כלולים כיתובים המופיעים בזמן עם האודיו. אתה חוסך זמן כי אין צורך בהקלטה ידנית, וחוסך זמן נוסף כאשר יש צורך בעדכונים. המצגת שלך גם מספקת יותר ערך מכיוון שהכתוביות עוזרות לתלמידים לצרוך את התוכן. זה פתרון של win-win-win.
יש שפע של מקרי שימוש לכיתובים, כגון פרסומות במרחבים חברתיים, אולמות כושר, בתי קפה ומקומות אחרים שבהם בדרך כלל יש משהו בטלוויזיה עם האודיו מושתק ומוזיקה ברקע; הדרכה ושיעורים מקוונים; פגישות וירטואליות; הודעות אלקטרוניות לציבור; צפייה בסרטונים תוך כדי נסיעה בלי אוזניות ובלי להפריע לנוסעים המשותפים; ועוד כמה.
ללא קשר לתחום היישום, כיתוב סגור יכול לעזור עם הדברים הבאים:
- נגישות - אנשים עם ליקויי שמיעה יכולים לצרוך טוב יותר את התוכן שלך.
- עצירה - למידה מקוונת קלה יותר לתפיסה ושימור של לומדים אלקטרוניים כאשר מעורבים יותר חושים אנושיים.
- יכולת הגעה - התוכן שלך יכול להגיע לאנשים שיש להם סדרי עדיפויות מתחרים, כגון משחקים וצפייה בחדשות בו זמנית, או אנשים שיש להם שפת אם שונה משפת האודיו.
- Searchability - ניתן לחפש את התוכן במנועי חיפוש. בעוד שרוב מנועי החיפוש לא יכולים לחפש סרטונים בצורה מיטבית, מנועי חיפוש יכולים להשתמש בקבצי הטקסט של הכיתוב ולהפוך את התוכן שלך לגלוי יותר.
- אדיבות חברתית - לפעמים זה עשוי להיות גס רוח לנגן אודיו בגלל הסביבה שלך, או שהשמע יכול להיות קשה לשמוע בגלל הרעש של הסביבה שלך.
- הֲבָנָה - קל יותר להבין את התוכן ללא קשר למבטא של הדובר, לשפת האם של הדובר או למהירות הדיבור. אתה יכול גם לרשום הערות מבלי לצפות שוב ושוב באותה סצנה.
סקירת פתרונות
הספרייה המוצגת בפוסט זה משתמשת באמזון פולי כדי ליצור סאונד וכיתובים סגורים עבור טקסט קלט. אתה יכול בקלות לשלב ספרייה זו ביישומי הטקסט לדיבור שלך. הוא תומך במספר פורמטי אודיו, וכיתובים בפורמטים של קבצי VTT ו- SRT, שהם הנפוצים ביותר בתעשייה.
בפוסט זה, אנו מתמקדים ב PollyVTT()
תחביר ואפשרויות, ומציעים כמה דוגמאות המדגימות כיצד להשתמש ב-Python SubtitleGeneratorForPolly
ליצור בו זמנית קבצי אודיו וכתוביות סינכרוניים עבור קלט טקסט נתון. פורמט קובץ האודיו הפלט יכול להיות PCM(wav), OGG או MP3, ופורמט קובץ הכתוביות יכול להיות VTT או SRT. יתר על כן, SubtitleGeneratorForPolly
תומך בכל אמזון פולי synthesize_speech
פרמטרים ומוסיף לסט התכונות העשיר של Amazon Polly.
אל האני polly-vtt
הספרייה והתלות שלה זמינים ב GitHub.
התקן והשתמש בפונקציה
לפני שנסתכל על כמה דוגמאות לשימוש PollyVTT()
, הפונקציה שמפעילה SubtitleGeneratorForPolly
, בואו נסתכל על ההתקנה והתחביר שלה.
התקן את הספרייה באמצעות הקוד הבא:
כדי לרוץ משורת הפקודה, אתה פשוט רץ polly-vtt
:
הקוד הבא מציג את האפשרויות שלך:
בואו נסתכל על כמה דוגמאות עכשיו.
דוגמה 1
דוגמה זו יוצרת קובץ שמע PCM יחד עם קובץ כיתוב SRT לשני משפטים פשוטים:
דוגמה 2
דוגמה זו מדגימה כיצד להשתמש בפסקת טקסט כקלט. זה יוצר קבצי שמע ב-WAV, MP3 ו-OGG, וכתוביות ב-SRT ו-VTT. הדוגמה הבאה יוצרת שישה קבצים עבור טקסט הקלט הנתון:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
ראה את הקוד הבא:
דוגמה 3
עם זאת, ברוב המקרים, אתה רוצה להעביר את הטקסט כקובץ קלט. להלן דוגמה של Python לכך, עם אותו פלט כמו הדוגמה הקודמת:
להלן פוסט עדות מצוות ההדרכה הפנימי של AWS לשימוש באמזון פולי עם כתוביות:
הסרטון הבא מציע הדגמה קצרה של האופן שבו צוות ההדרכה הפנימי ב-AWS משתמש PollyVTT()
:
סיכום
בפוסט זה, שיתפנו שיטה ליצור אודיו וכתוביות בו-זמנית עבור טקסט נתון. ה PollyVTT()
ופונקציה SubtitleGeneratorForPolly
לטפל בדרישה נפוצה לכתוביות בצורה יעילה ואפקטיבית. צוות אמזון פולי ממשיך להמציא ולהציע פתרונות פשוטים לדרישות מורכבות של לקוחות.
למדריכים נוספים ומידע על אמזון פולי, עיין ב- בלוג למידת מכונות AWS.
על הכותבים
אבישק סוני הוא אדריכל פתרונות שותפים ב- AWS. הוא עובד עם לקוחות בכדי לספק הדרכה טכנית לקבלת התוצאה הטובה ביותר של עומסי העבודה ב- AWS.
דן מקי משתמש באודיו, וידאו וקפה כדי לזקק תוכן לקורסים ממוקדים, מודולריים ומובנים. בתפקידו כמנהל פרויקטים של מפתח לימודים עבור תחום NetSec בשירותי האינטרנט של אמזון, הוא ממנף את ניסיונו ב-Data Center Networking כדי לעזור למומחי נושאים להביא רעיונות לחיים.
אורלנדו קאראם הוא מפתח תכניות לימודים טכניות ב- Amazon Web Services, מה שאומר שהוא יכול לשחק עם טכנולוגיות חדשות ומגניבות ואז לדבר על זה. מדי פעם, הוא גם משתמש בטכנולוגיות המגניבות האלה כדי להקל על העבודה שלו.
- AI
- איי אמנות
- מחולל אמנות ai
- איי רובוט
- אמזון פולי
- בינה מלאכותית
- הסמכת בינה מלאכותית
- בינה מלאכותית בבנקאות
- רובוט בינה מלאכותית
- רובוטים של בינה מלאכותית
- תוכנת בינה מלאכותית
- למידת מכונות AWS
- blockchain
- blockchain conference ai
- קוינגניוס
- בינה מלאכותית של שיחה
- קריפטו כנס ai
- של דאל
- למידה עמוקה
- גוגל איי
- למידת מכונה
- אפלטון
- plato ai
- מודיעין אפלטון
- משחק אפלטון
- אפלטון נתונים
- פלטוגיימינג
- סולם ai
- תחביר
- זפירנט