Amazon Polly, en AI-generert tekst-til-tale-tjeneste, lar deg automatisere og skalere dine interaktive stemmeløsninger, noe som bidrar til å forbedre produktiviteten og redusere kostnadene.
Ettersom kundene våre fortsetter å bruke Amazon Polly for dets rike sett med funksjoner og brukervennlighet, har vi observert et behov for muligheten til samtidig å generere synkronisert lyd og undertekster for en gitt tekstinngang. Hos AWS jobber vi kontinuerlig bakover fra kundens ønsker, så i dette innlegget skisserer vi en metode for å generere lyd og undertekster samtidig for en gitt tekst.
Selv om undertekster og bildetekster ofte brukes om hverandre, inkludert i dette innlegget, er det subtile forskjeller mellom dem:
- teksting – I undertekster er tekstspråket som vises på skjermen forskjellig fra lydspråket og viser ikke noe for ikke-dialog som betydelige lyder. Hovedmålet er å nå publikum som ikke snakker lydspråket i videoen.
- Bildetekster (lukket/åpen) – Bildetekster viser dialogene som snakkes i lyden på samme språk. Dens primære formål er å øke tilgjengeligheten i tilfeller der lyden ikke kan høres av sluttforbrukeren på grunn av en rekke problemer. Teksting er en del av en annen fil enn lyd-/videokilden og kan slås av og på etter brukerens skjønn, mens åpen teksting er en del av videofilen og ikke kan slås av av brukeren.
Fordeler med å bruke Amazon Polly til å generere lyd med undertekster
Tenk deg følgende brukssituasjon: du forbereder en lysbildebasert presentasjon for en nettbasert læringsportal. Hvert lysbilde inneholder innhold på skjermen og fortellerstemme. Innholdet på skjermen er en grunnleggende disposisjon, og fortellingen går i detalj. I stedet for å spille inn en menneskelig stemme, som kan være tungvint og inkonsekvent, kan du bruke Amazon Polly til å generere fortellingen. Amazon Polly produserer høykvalitets, konsistente stemmer. Det er ikke behov for etterproduksjon. I fremtiden, hvis du trenger å oppdatere en del av presentasjonen, trenger du bare å oppdatere de berørte lysbildene. Stemmen matcher de originale lysbildene. I tillegg, når Amazon Polly genererer lyden din, inkluderes bildetekster som vises i takt med lyden. Du sparer tid fordi det ikke er noe manuelt opptak involvert, og sparer ekstra tid når oppdateringer er nødvendig. Presentasjonen din gir også mer verdi fordi bildetekster hjelper elevene med å konsumere innholdet. Det er en vinn-vinn-vinn-løsning.
Det finnes en mengde bruksområder for bildetekster, for eksempel annonser i sosiale rom, gymsaler, kaffebarer og andre steder der det vanligvis er noe på en TV med lyden dempet og musikk i bakgrunnen; nettbasert opplæring og klasser; virtuelle møter; offentlige elektroniske kunngjøringer; se på videoer mens du pendler uten hodetelefoner og uten å forstyrre medpassasjerer; og flere til.
Uavhengig av bruksområdet kan teksting hjelpe med følgende:
- tilgjengelighet – Personer med hørselshemninger kan bedre konsumere innholdet ditt.
- Oppbevaring – Nettbasert læring er lettere for e-lærere å gripe og beholde når flere menneskelige sanser er involvert.
- reachability – Innholdet ditt kan nå personer som har konkurrerende prioriteringer, for eksempel spill og å se nyheter samtidig, eller personer som har et annet morsmål enn lydspråket.
- Søkbarhet – Innholdet er søkbart av søkemotorer. Mens videoer ikke kan søkes optimalt av de fleste søkemotorer, kan søkemotorer bruke tekstfilene og gjøre innholdet ditt mer synlig.
- Sosial høflighet – Noen ganger kan det være uhøflig å spille av lyd på grunn av omgivelsene dine, eller lyden kan være vanskelig å høre på grunn av støyen fra omgivelsene.
- Forståelse – Innholdet er lettere å forstå uavhengig av aksenten til den som snakker, morsmålet til den som snakker eller talehastigheten. Du kan også ta notater uten å se den samme scenen gjentatte ganger.
Løsningsoversikt
Biblioteket som presenteres i dette innlegget bruker Amazon Polly til å generere lyd og lukkede bildetekster for en inputtekst. Du kan enkelt integrere dette biblioteket i tekst-til-tale-applikasjonene dine. Den støtter flere lydformater og bildetekster i både VTT- og SRT-filformater, som er de mest brukte i bransjen.
I dette innlegget fokuserer vi på PollyVTT()
syntaks og alternativer, og tilbyr noen få eksempler som viser hvordan du bruker Python SubtitleGeneratorForPolly
å generere synkrone lyd- og undertekstfiler samtidig for en gitt tekstinngang. Utgangslydfilformatet kan være PCM(wav), OGG eller MP3, og undertekstfilformatet kan være VTT eller SRT. Dessuten, SubtitleGeneratorForPolly
støtter alle Amazon Polly synthesize_speech
parametere og legger til det rike Amazon Polly-funksjonssettet.
De polly-vtt
biblioteket og dets avhengigheter er tilgjengelig på GitHub.
Installer og bruk funksjonen
Før vi ser på noen eksempler på bruk PollyVTT()
, funksjonen som driver SubtitleGeneratorForPolly
, la oss se på installasjonen og syntaksen for den.
Installer biblioteket med følgende kode:
For å kjøre fra kommandolinjen, løper du ganske enkelt polly-vtt
:
Følgende kode viser alternativene dine:
La oss se på noen eksempler nå.
Eksempel 1
Dette eksemplet genererer en PCM-lydfil sammen med en SRT-tekstfil for to enkle setninger:
Eksempel 2
Dette eksemplet viser hvordan du bruker et tekstavsnitt som input. Dette genererer lydfiler i WAV, MP3 og OGG, og undertekster i SRT og VTT. Følgende eksempel oppretter seks filer for den gitte inndatateksten:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Se følgende kode:
Eksempel 3
I de fleste tilfeller vil du imidlertid sende teksten som en inndatafil. Følgende er et Python-eksempel på dette, med samme utgang som forrige eksempel:
Følgende er et anbefalingsinnlegg fra AWS interne opplæringsteam for bruk av Amazon Polly med lukkede bildetekster:
Følgende video tilbyr en kort demonstrasjon av hvordan det interne opplæringsteamet på AWS bruker PollyVTT()
:
konklusjonen
I dette innlegget delte vi en metode for å generere lyd og undertekster samtidig for en gitt tekst. De PollyVTT()
funksjon og SubtitleGeneratorForPolly
adressere et felles krav til undertekster på en effektiv måte. Amazon Polly-teamet fortsetter å finne opp og tilby forenklede løsninger til komplekse kundekrav.
For flere opplæringsprogrammer og informasjon om Amazon Polly, sjekk ut AWS maskinlæringsblogg.
Om forfatterne
Abhishek Soni er Partner Solutions Architect hos AWS. Han jobber med kunder for å gi teknisk veiledning for det beste resultatet av arbeidsbelastninger på AWS.
Dan McKee bruker lyd, video og kaffe for å destillere innhold til målrettede, modulære og strukturerte kurs. I rollen som prosjektleder for læreplanutvikler for NetSec-domenet hos Amazon Web Services, utnytter han sin erfaring innen datasenternettverk for å hjelpe fageksperter med å bringe ideer ut i livet.
Orlando Karam er en Technical Curriculum Developer hos Amazon Web Services, noe som betyr at han får leke med kule nye teknologier og deretter snakke om det. Av og til bruker han også de kule teknologiene for å gjøre jobben sin enklere.
- AI
- ai kunst
- ai art generator
- du har en robot
- Amazon Polly
- kunstig intelligens
- sertifisering av kunstig intelligens
- kunstig intelligens i bankvirksomhet
- kunstig intelligens robot
- kunstig intelligens roboter
- programvare for kunstig intelligens
- AWS maskinlæring
- blockchain
- blockchain konferanse ai
- coingenius
- samtale kunstig intelligens
- kryptokonferanse ai
- dall sin
- dyp læring
- google det
- maskinlæring
- plato
- plato ai
- Platon Data Intelligence
- Platon spill
- PlatonData
- platogaming
- skala ai
- syntaks
- zephyrnet