Amazon Polly, en AI-genereret tekst-til-tale-tjeneste, giver dig mulighed for at automatisere og skalere dine interaktive stemmeløsninger, hvilket hjælper med at forbedre produktiviteten og reducere omkostningerne.
Da vores kunder fortsætter med at bruge Amazon Polly på grund af dets rige sæt af funktioner og brugervenlighed, har vi observeret et behov for muligheden for samtidig at generere synkroniseret lyd og undertekster eller lukkede billedtekster til en given tekstinput. Hos AWS arbejder vi løbende baglæns fra vores kundespørgsmål, så i dette indlæg skitserer vi en metode til at generere lyd og undertekster på samme tid for en given tekst.
Selvom undertekster og billedtekster ofte bruges i flæng, inklusive i dette indlæg, er der subtile forskelle mellem dem:
- Undertekster – I undertekster er tekstsproget, der vises på skærmen, forskelligt fra lydsproget og viser ikke noget for ikke-dialog, f.eks. signifikante lyde. Det primære mål er at nå ud til det publikum, der ikke taler lydsproget i videoen.
- Billedtekster (lukket/åbent) – Billedtekster viser de dialoger, der bliver talt i lyden på samme sprog. Dens primære formål er at øge tilgængeligheden i tilfælde, hvor lyden ikke kan høres af slutforbrugeren på grund af en række problemer. Undertekster er en del af en anden fil end lyd-/videokilden og kan slås fra og til efter brugerens skøn, hvorimod åbne undertekster er en del af videofilen og ikke kan slås fra af brugeren.
Fordele ved at bruge Amazon Polly til at generere lyd med undertekster eller lukkede billedtekster
Forestil dig følgende use case: du forbereder en diasbaseret præsentation til en online læringsportal. Hvert dias indeholder indhold og fortælling på skærmen. Indholdet på skærmen er en grundlæggende disposition, og fortællingen går i detaljer. I stedet for at optage en menneskelig stemme, som kan være besværlig og inkonsekvent, kan du bruge Amazon Polly til at generere fortællingen. Amazon Polly producerer højkvalitets, konsistente stemmer. Der er ikke behov for efterproduktion. Hvis du i fremtiden skal opdatere en del af præsentationen, behøver du kun at opdatere de berørte dias. Stemmen matcher de originale dias. Derudover, når Amazon Polly genererer din lyd, er billedtekster inkluderet, der vises i takt med lyden. Du sparer tid, fordi der ikke er nogen manuel optagelse involveret, og sparer ekstra tid, når der er behov for opdateringer. Din præsentation giver også mere værdi, fordi billedtekster hjælper eleverne med at forbruge indholdet. Det er en win-win-win-løsning.
Der er et væld af anvendelsesmuligheder for billedtekster, såsom annoncer i sociale rum, gymnastiksale, kaffebarer og andre steder, hvor der typisk er noget på et fjernsyn med lyden dæmpet og musik i baggrunden; online træning og klasser; virtuelle møder; offentlige elektroniske meddelelser; se videoer, mens du pendler uden hovedtelefoner og uden at forstyrre medpassagerer; og flere flere.
Uanset anvendelsesområde kan undertekster hjælpe med følgende:
- Tilgængelighed – Mennesker med hørehandicap kan bedre forbruge dit indhold.
- Retention – Online læring er nemmere for e-lærere at forstå og fastholde, når flere menneskelige sanser er involveret.
- Sikring af adgang – Dit indhold kan nå ud til personer, der har konkurrerende prioriteter, såsom spil og se nyheder samtidigt, eller personer, der har et andet modersmål end lydsproget.
- Søgbarhed – Indholdet er søgbart af søgemaskiner. Mens videoer ikke kan søges optimalt af de fleste søgemaskiner, kan søgemaskiner bruge billedtekstfilerne og gøre dit indhold mere synligt.
- Social høflighed – Nogle gange kan det være uhøfligt at afspille lyd på grund af dine omgivelser, eller lyden kan være svær at høre på grund af støjen fra dit miljø.
- Forståelse – Indholdet er lettere at forstå, uanset talerens accent, talerens modersmål eller talehastighed. Du kan også tage noter uden at se den samme scene gentagne gange.
Løsningsoversigt
Biblioteket, der præsenteres i dette indlæg, bruger Amazon Polly til at generere lyd og lukkede billedtekster til en inputtekst. Du kan nemt integrere dette bibliotek i dine tekst-til-tale-applikationer. Det understøtter flere lydformater og billedtekster i både VTT- og SRT-filformater, som er de mest almindeligt anvendte på tværs af branchen.
I dette indlæg sætter vi fokus på PollyVTT()
syntaks og muligheder, og tilbyder et par eksempler, der viser, hvordan man bruger Python SubtitleGeneratorForPolly
til samtidig at generere synkrone lyd- og undertekstfiler for en given tekstinput. Output-lydfilformatet kan være PCM(wav), OGG eller MP3, og undertekstfilformatet kan være VTT eller SRT. Desuden, SubtitleGeneratorForPolly
understøtter alle Amazon Polly synthesize_speech
parametre og tilføjer til det rige Amazon Polly-funktionssæt.
polly-vtt
biblioteket og dets afhængigheder er tilgængelige på GitHub.
Installer og brug funktionen
Før vi ser på nogle eksempler på brug PollyVTT()
, den funktion, der driver SubtitleGeneratorForPolly
, lad os se på installationen og syntaksen af den.
Installer biblioteket med følgende kode:
For at køre fra kommandolinjen, skal du blot køre polly-vtt
:
Følgende kode viser dine muligheder:
Lad os nu se på et par eksempler.
Eksempel 1
Dette eksempel genererer en PCM-lydfil sammen med en SRT-tekstfil til to simple sætninger:
Eksempel 2
Dette eksempel viser, hvordan man bruger et tekstafsnit som input. Dette genererer lydfiler i WAV, MP3 og OGG og undertekster i SRT og VTT. Følgende eksempel opretter seks filer til den givne inputtekst:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Se følgende kode:
Eksempel 3
I de fleste tilfælde vil du dog sende teksten som en inputfil. Følgende er et Python-eksempel på dette, med samme output som det forrige eksempel:
Det følgende er et vidnesbyrd fra AWS' interne træningshold om brug af Amazon Polly med lukkede billedtekster:
Den følgende video tilbyder en kort demo af, hvordan det interne træningsteam hos AWS bruger PollyVTT()
:
Konklusion
I dette indlæg delte vi en metode til at generere lyd og undertekster på samme tid for en given tekst. Det PollyVTT()
funktion og SubtitleGeneratorForPolly
løse et fælles krav om undertekster på en effektiv måde. Amazon Polly-teamet fortsætter med at opfinde og tilbyde forenklede løsninger til komplekse kundekrav.
For flere tutorials og information om Amazon Polly, tjek AWS Machine Learning Blog.
Om forfatterne
Abhishek Soni er Partner Solutions Architect hos AWS. Han arbejder med kunder for at give teknisk vejledning til det bedste resultat af arbejdsbelastninger på AWS.
Dan McKee bruger lyd, video og kaffe til at destillere indhold til målrettede, modulære og strukturerede kurser. I sin rolle som Curriculum Developer Project Manager for NetSec Domain hos Amazon Web Services, udnytter han sin erfaring inden for datacenternetværk til at hjælpe fageksperter med at føre ideer ud i livet.
Orlando Karam er en Technical Curriculum Developer hos Amazon Web Services, hvilket betyder, at han kommer til at lege med fede nye teknologier og derefter tale om det. Af og til bruger han også de seje teknologier til at gøre sit job lettere.
- AI
- ai kunst
- ai kunst generator
- en robot
- Amazon Polly
- kunstig intelligens
- certificering af kunstig intelligens
- kunstig intelligens i banksektoren
- kunstig intelligens robot
- kunstig intelligens robotter
- software til kunstig intelligens
- AWS maskinindlæring
- blockchain
- blockchain konference ai
- coingenius
- samtale kunstig intelligens
- kryptokonference ai
- dalls
- dyb læring
- du har google
- machine learning
- plato
- platon ai
- Platon Data Intelligence
- Platon spil
- PlatoData
- platogaming
- skala ai
- syntaks
- zephyrnet