Δημιουργήστε συγχρονισμένους κλειστούς υπότιτλους και ήχο χρησιμοποιώντας τη γεννήτρια υποτίτλων Amazon Polly

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Amazon Polly, μια υπηρεσία μετατροπής κειμένου σε ομιλία που δημιουργείται από τεχνητή νοημοσύνη, σας δίνει τη δυνατότητα να αυτοματοποιείτε και να κλιμακώνετε τις διαδραστικές σας λύσεις φωνής, συμβάλλοντας στη βελτίωση της παραγωγικότητας και στη μείωση του κόστους.

Καθώς οι πελάτες μας συνεχίζουν να χρησιμοποιούν το Amazon Polly για το πλούσιο σύνολο δυνατοτήτων του και την ευκολία χρήσης του, παρατηρήσαμε ότι υπάρχει ζήτηση για τη δυνατότητα ταυτόχρονης δημιουργίας συγχρονισμένου ήχου και υπότιτλων ή κλειστών λεζάντων για μια δεδομένη εισαγωγή κειμένου. Στην AWS, εργαζόμαστε συνεχώς ανάποδα από τις αιτήσεις των πελατών μας, επομένως σε αυτήν την ανάρτηση, περιγράφουμε μια μέθοδο παραγωγής ήχου και υπότιτλων ταυτόχρονα για ένα δεδομένο κείμενο.

Αν και οι υπότιτλοι και οι λεζάντες χρησιμοποιούνται συχνά εναλλακτικά, συμπεριλαμβανομένης αυτής της ανάρτησης, υπάρχουν λεπτές διαφορές μεταξύ τους:

Υπότιτλοι – Στους υπότιτλους, η γλώσσα κειμένου που εμφανίζεται στην οθόνη είναι διαφορετική από τη γλώσσα ήχου και δεν εμφανίζει τίποτα για μη διαλόγους όπως σημαντικούς ήχους. Ο πρωταρχικός στόχος είναι να προσεγγίσετε το κοινό που δεν μιλά τη γλώσσα ήχου στο βίντεο.
Υπότιτλοι (κλειστό/ανοιχτό) – Οι λεζάντες εμφανίζουν τους διαλόγους που εκφωνούνται στον ήχο στην ίδια γλώσσα. Πρωταρχικός σκοπός του είναι να αυξήσει την προσβασιμότητα σε περιπτώσεις όπου ο ήχος δεν μπορεί να ακουστεί από τον τελικό καταναλωτή λόγω μιας σειράς ζητημάτων. Οι κλειστοί υπότιτλοι αποτελούν μέρος διαφορετικού αρχείου από την πηγή ήχου/βίντεο και μπορούν να απενεργοποιηθούν και να ενεργοποιηθούν κατά την κρίση του χρήστη, ενώ οι ανοιχτοί υπότιτλοι αποτελούν μέρος του αρχείου βίντεο και δεν μπορούν να απενεργοποιηθούν από τον χρήστη.

Οφέλη από τη χρήση του Amazon Polly για τη δημιουργία ήχου με υπότιτλους ή λεζάντες

Φανταστείτε την ακόλουθη περίπτωση χρήσης: ετοιμάζετε μια παρουσίαση βασισμένη σε διαφάνειες για μια διαδικτυακή πύλη εκμάθησης. Κάθε διαφάνεια περιλαμβάνει περιεχόμενο στην οθόνη και αφήγηση. Το περιεχόμενο στην οθόνη είναι ένα βασικό περίγραμμα, και η αφήγηση εμβαθύνει σε λεπτομέρειες. Αντί να ηχογραφήσετε μια ανθρώπινη φωνή, η οποία μπορεί να είναι δυσκίνητη και ασυνεπής, μπορείτε να χρησιμοποιήσετε το Amazon Polly για να δημιουργήσετε την αφήγηση. Το Amazon Polly παράγει υψηλής ποιότητας, σταθερές φωνές. Δεν χρειάζεται post-production. Στο μέλλον, εάν χρειαστεί να ενημερώσετε ένα τμήμα της παρουσίασης, θα χρειαστεί να ενημερώσετε μόνο τις διαφάνειες που επηρεάζονται. Η φωνή ταιριάζει με τις αρχικές διαφάνειες. Επιπλέον, όταν το Amazon Polly δημιουργεί τον ήχο σας, περιλαμβάνονται λεζάντες που εμφανίζονται εγκαίρως με τον ήχο. Εξοικονομείτε χρόνο επειδή δεν υπάρχει μη αυτόματη εγγραφή και εξοικονομείτε επιπλέον χρόνο όταν απαιτούνται ενημερώσεις. Η παρουσίασή σας προσφέρει επίσης μεγαλύτερη αξία, επειδή οι υπότιτλοι βοηθούν τους μαθητές να καταναλώσουν το περιεχόμενο. Είναι μια λύση win-win-win.

Υπάρχουν πολλές περιπτώσεις χρήσης για λεζάντες, όπως διαφημίσεις σε κοινωνικούς χώρους, γυμναστήρια, καφετέριες και άλλα μέρη όπου συνήθως υπάρχει κάτι σε μια τηλεόραση με σίγαση ήχου και μουσική στο παρασκήνιο. σε απευθείας σύνδεση εκπαίδευση και μαθήματα? εικονικές συναντήσεις? δημόσιες ηλεκτρονικές ανακοινώσεις· παρακολούθηση βίντεο ενώ μετακινείστε χωρίς ακουστικά και χωρίς να ενοχλείτε τους συνεπιβάτες. και πολλά άλλα.

Ανεξάρτητα από το πεδίο εφαρμογής, οι υπότιτλοι μπορούν να βοηθήσουν στα εξής:

Προσβασιμότητα – Τα άτομα με προβλήματα ακοής μπορούν να καταναλώνουν καλύτερα το περιεχόμενό σας.
Κράτηση – Η διαδικτυακή μάθηση είναι ευκολότερο για τους e-learner να κατανοήσουν και να διατηρήσουν όταν εμπλέκονται περισσότερες ανθρώπινες αισθήσεις.
Επαναληπτικότητα – Το περιεχόμενό σας μπορεί να προσεγγίσει άτομα που έχουν ανταγωνιστικές προτεραιότητες, όπως παιχνίδια και παρακολούθηση ειδήσεων ταυτόχρονα, ή άτομα που έχουν διαφορετική μητρική γλώσσα από τη γλώσσα ήχου.
δυνατότητα αναζήτησης – Το περιεχόμενο μπορεί να αναζητηθεί από τις μηχανές αναζήτησης. Ενώ τα βίντεο δεν μπορούν να αναζητηθούν βέλτιστα από τις περισσότερες μηχανές αναζήτησης, οι μηχανές αναζήτησης μπορούν να χρησιμοποιήσουν τα αρχεία κειμένου υπότιτλων και να κάνουν το περιεχόμενό σας πιο ανιχνεύσιμο.
Κοινωνική ευγένεια – Μερικές φορές μπορεί να είναι αγενές η αναπαραγωγή ήχου λόγω του περιβάλλοντός σας ή ο ήχος μπορεί να είναι δύσκολο να ακουστεί λόγω του θορύβου του περιβάλλοντός σας.
Κατανόηση – Το περιεχόμενο είναι πιο κατανοητό ανεξάρτητα από την προφορά του ομιλητή, τη μητρική γλώσσα του ομιλητή ή την ταχύτητα της ομιλίας. Μπορείτε επίσης να κρατάτε σημειώσεις χωρίς να παρακολουθείτε επανειλημμένα την ίδια σκηνή.

Επισκόπηση λύσεων

Η βιβλιοθήκη που παρουσιάζεται σε αυτήν την ανάρτηση χρησιμοποιεί το Amazon Polly για να δημιουργήσει ήχο και υπότιτλους για ένα κείμενο εισαγωγής. Μπορείτε εύκολα να ενσωματώσετε αυτήν τη βιβλιοθήκη στις εφαρμογές μετατροπής κειμένου σε ομιλία. Υποστηρίζει πολλές μορφές ήχου και λεζάντες σε μορφές αρχείων VTT και SRT, οι οποίες χρησιμοποιούνται πιο συχνά σε ολόκληρο τον κλάδο.

Σε αυτήν την ανάρτηση, εστιάζουμε στο PollyVTT() σύνταξη και επιλογές και προσφέρετε μερικά παραδείγματα που δείχνουν πώς να χρησιμοποιείτε την Python SubtitleGeneratorForPolly για την ταυτόχρονη δημιουργία σύγχρονων αρχείων ήχου και υποτίτλων για μια δεδομένη εισαγωγή κειμένου. Η μορφή αρχείου ήχου εξόδου μπορεί να είναι PCM(wav), OGG ή MP3 και η μορφή αρχείου υπότιτλων μπορεί να είναι VTT ή SRT. Επί πλέον, SubtitleGeneratorForPolly υποστηρίζει όλο το Amazon Polly synthesize_speech παραμέτρους και προσθέτει στο πλούσιο σύνολο δυνατοτήτων Amazon Polly.

Η polly-vtt βιβλιοθήκη και τα εξαρτήματά της είναι διαθέσιμα στο GitHub.

Εγκαταστήστε και χρησιμοποιήστε τη λειτουργία

Πριν δούμε μερικά παραδείγματα χρήσης PollyVTT(), η συνάρτηση που εξουσιοδοτεί SubtitleGeneratorForPolly, ας δούμε την εγκατάσταση και τη σύνταξή του.

Εγκαταστήστε τη βιβλιοθήκη χρησιμοποιώντας τον ακόλουθο κώδικα:

pip install

Για να εκτελέσετε από τη γραμμή εντολών, απλά εκτελείτε polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

Ο παρακάτω κώδικας δείχνει τις επιλογές σας:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

Ας δούμε μερικά παραδείγματα τώρα.

Παράδειγμα 1

Αυτό το παράδειγμα δημιουργεί ένα αρχείο ήχου PCM μαζί με ένα αρχείο λεζάντας SRT για δύο απλές προτάσεις:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

Παράδειγμα 2

Αυτό το παράδειγμα δείχνει πώς να χρησιμοποιήσετε μια παράγραφο κειμένου ως είσοδο. Αυτό δημιουργεί αρχεία ήχου σε WAV, MP3 και OGG και υπότιτλους σε SRT και VTT. Το ακόλουθο παράδειγμα δημιουργεί έξι αρχεία για το δεδομένο κείμενο εισαγωγής:

pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt

Δείτε τον ακόλουθο κώδικα:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
)

Παράδειγμα 3

Στις περισσότερες περιπτώσεις, ωστόσο, θέλετε να περάσετε το κείμενο ως αρχείο εισόδου. Το παρακάτω είναι ένα παράδειγμα Python αυτού, με την ίδια έξοδο με το προηγούμενο παράδειγμα:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

Ακολουθεί μια μαρτυρική ανάρτηση από την εσωτερική εκπαιδευτική ομάδα του AWS σχετικά με τη χρήση του Amazon Polly με κλειστές λεζάντες:

Το παρακάτω βίντεο προσφέρει μια σύντομη επίδειξη του τρόπου με τον οποίο χρησιμοποιεί η εσωτερική ομάδα εκπαίδευσης στο AWS PollyVTT():

Συμπέρασμα

Σε αυτήν την ανάρτηση, μοιραστήκαμε μια μέθοδο για τη δημιουργία ήχου και υπότιτλων ταυτόχρονα για ένα δεδομένο κείμενο. ο PollyVTT() τη λειτουργία και SubtitleGeneratorForPolly αντιμετωπίζουν μια κοινή απαίτηση για υπότιτλους με αποτελεσματικό και αποτελεσματικό τρόπο. Η ομάδα του Amazon Polly συνεχίζει να επινοεί και να προσφέρει απλουστευμένες λύσεις σε περίπλοκες απαιτήσεις πελατών.

Για περισσότερα μαθήματα και πληροφορίες σχετικά με το Amazon Polly, ανατρέξτε στο Ιστολόγιο μηχανικής εκμάθησης AWS.

Σχετικά με τους Συγγραφείς

Abhishek Soni είναι Αρχιτέκτονας Partner Solutions στην AWS. Συνεργάζεται με πελάτες για να παρέχει τεχνική καθοδήγηση για το καλύτερο αποτέλεσμα του φόρτου εργασίας στο AWS.

Dan McKee χρησιμοποιεί ήχο, βίντεο και καφέ για την απόσταξη περιεχομένου σε στοχευμένα, αρθρωτά και δομημένα μαθήματα. Στο ρόλο του ως Διευθυντής Έργου Προγραμματιστή Προγραμμάτων Σπουδών για τον Τομέα NetSec στο Amazon Web Services, αξιοποιεί την εμπειρία του στη Δικτύωση Κέντρων Δεδομένων για να βοηθήσει τους ειδικούς του θέματος να ζωντανέψουν ιδέες.

Ορλάντο Καράμ είναι προγραμματιστής Τεχνικού Προγράμματος Σπουδών στο Amazon Web Services, πράγμα που σημαίνει ότι μπορεί να παίξει με δροσερές νέες τεχνολογίες και στη συνέχεια να μιλήσει για αυτό. Περιστασιακά, χρησιμοποιεί επίσης αυτές τις έξυπνες τεχνολογίες για να διευκολύνει τη δουλειά του.