Amazon Polly, een door AI gegenereerde tekst-naar-spraak-service, stelt u in staat uw interactieve spraakoplossingen te automatiseren en te schalen, waardoor de productiviteit wordt verbeterd en de kosten worden verlaagd.
Aangezien onze klanten Amazon Polly blijven gebruiken vanwege de uitgebreide reeks functies en het gebruiksgemak, hebben we een vraag waargenomen naar de mogelijkheid om gelijktijdig gesynchroniseerde audio en ondertitels of ondertitels te genereren voor een bepaalde tekstinvoer. Bij AWS werken we continu achteruit vanaf de vraag van onze klanten, dus in dit bericht schetsen we een methode om tegelijkertijd audio en ondertitels te genereren voor een bepaalde tekst.
Hoewel ondertitels en bijschriften vaak door elkaar worden gebruikt, ook in dit bericht, zijn er subtiele verschillen tussen hen:
- Ondertitels โ In ondertitels is de teksttaal die op het scherm wordt weergegeven, anders dan de audiotaal en wordt er niets weergegeven voor niet-dialoog zoals significante geluiden. Het primaire doel is om het publiek te bereiken dat de audiotaal in de video niet spreekt.
- Bijschriften (gesloten/open) โ Bijschriften tonen de dialogen die in de audio worden gesproken in dezelfde taal. Het primaire doel is om de toegankelijkheid te vergroten in gevallen waarin de audio door een aantal problemen niet kan worden gehoord door de eindgebruiker. Ondertitels maken deel uit van een ander bestand dan de audio-/videobron en kunnen naar goeddunken van de gebruiker worden in- en uitgeschakeld, terwijl open bijschriften deel uitmaken van het videobestand en niet door de gebruiker kunnen worden uitgeschakeld.
Voordelen van het gebruik van Amazon Polly om audio met ondertiteling of ondertiteling te genereren
Stelt u zich de volgende use case eens voor: u bereidt een presentatie op basis van dia's voor voor een online leerportaal. Elke dia bevat inhoud en gesproken tekst op het scherm. De inhoud op het scherm is een basisoverzicht en de vertelling gaat in detail. In plaats van een menselijke stem op te nemen, wat omslachtig en inconsistent kan zijn, kun je Amazon Polly gebruiken om de vertelling te genereren. Amazon Polly produceert consistente stemmen van hoge kwaliteit. Postproductie is niet nodig. Als u in de toekomst een deel van de presentatie moet bijwerken, hoeft u alleen de betreffende dia's bij te werken. De stem komt overeen met de originele dia's. Bovendien, wanneer Amazon Polly uw audio genereert, worden bijschriften opgenomen die in de tijd met de audio verschijnen. U bespaart tijd omdat er geen handmatige opname nodig is, en u bespaart extra tijd wanneer updates nodig zijn. Je presentatie levert ook meer waarde op, omdat ondertitels studenten helpen de inhoud te consumeren. Het is een win-win-win-oplossing.
Er zijn talloze toepassingen voor ondertiteling, zoals advertenties in sociale ruimtes, sporthallen, coffeeshops en andere plaatsen waar normaal gesproken iets op een televisie staat met de audio gedempt en muziek op de achtergrond; online trainingen en lessen; virtuele vergaderingen; openbare elektronische aankondigingen; het bekijken van video's tijdens het woon-werkverkeer zonder koptelefoon en zonder medepassagiers te storen; en nog een aantal.
Ongeacht het toepassingsgebied kan ondertiteling helpen bij het volgende:
- Toegankelijkheid โ Mensen met een gehoorbeperking kunnen uw inhoud beter consumeren.
- Retentie โ Online leren is voor e-leerders gemakkelijker te begrijpen en vast te houden wanneer er meer menselijke zintuigen bij betrokken zijn.
- bereikbaarheid โ Uw inhoud kan mensen bereiken die concurrerende prioriteiten hebben, zoals gamen en tegelijkertijd nieuws kijken, of mensen die een andere moedertaal hebben dan de audiotaal.
- Doorzoekbaarheid โ De inhoud is doorzoekbaar door zoekmachines. Terwijl video's door de meeste zoekmachines niet optimaal kunnen worden doorzocht, kunnen zoekmachines de bijschrifttekstbestanden gebruiken en uw inhoud beter vindbaar maken.
- sociale beleefdheid โ Soms kan het onbeleefd zijn om audio af te spelen vanwege uw omgeving, of de audio kan moeilijk te horen zijn vanwege het lawaai van uw omgeving.
- Begrip โ De inhoud is gemakkelijker te begrijpen, ongeacht het accent van de spreker, de moedertaal van de spreker of de snelheid van spreken. U kunt ook aantekeningen maken zonder herhaaldelijk naar dezelfde scรจne te kijken.
Overzicht oplossingen
De bibliotheek die in dit bericht wordt gepresenteerd, gebruikt Amazon Polly om geluid en ondertitels voor een invoertekst te genereren. U kunt deze bibliotheek eenvoudig integreren in uw tekst-naar-spraak-applicaties. Het ondersteunt verschillende audioformaten en bijschriften in zowel VTT- als SRT-bestandsindelingen, die in de branche het meest worden gebruikt.
In dit bericht richten we ons op de PollyVTT()
syntaxis en opties, en bieden een paar voorbeelden die laten zien hoe de Python SubtitleGeneratorForPolly
om gelijktijdig synchrone audio- en ondertitelbestanden te genereren voor een bepaalde tekstinvoer. Het uitvoeraudiobestandsformaat kan PCM(wav), OGG of MP3 zijn, en het ondertitelbestandsformaat kan VTT of SRT zijn. Verder, SubtitleGeneratorForPolly
ondersteunt alle Amazon Polly synthesize_speech
parameters en voegt toe aan de rijke Amazon Polly-functieset.
De polly-vtt
bibliotheek en zijn afhankelijkheden zijn beschikbaar op GitHub.
Installeer en gebruik de functie
Voordat we enkele voorbeelden van het gebruik bekijken: PollyVTT()
, de functie die drijft SubtitleGeneratorForPolly
, laten we eens kijken naar de installatie en syntaxis ervan.
Installeer de bibliotheek met behulp van de volgende code:
Om vanaf de opdrachtregel te rennen, voer je gewoon uit polly-vtt
:
De volgende code toont uw opties:
Laten we nu een paar voorbeelden bekijken.
Voorbeeld 1
Dit voorbeeld genereert een PCM-audiobestand samen met een SRT-ondertitelingsbestand voor twee eenvoudige zinnen:
Voorbeeld 2
Dit voorbeeld laat zien hoe u een alinea tekst als invoer kunt gebruiken. Dit genereert audiobestanden in WAV, MP3 en OGG en ondertitels in SRT en VTT. In het volgende voorbeeld worden zes bestanden gemaakt voor de opgegeven invoertekst:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Zie de volgende code:
Voorbeeld 3
In de meeste gevallen wilt u de tekst echter als invoerbestand doorgeven. Het volgende is een Python-voorbeeld hiervan, met dezelfde uitvoer als het vorige voorbeeld:
Het volgende is een getuigenispost van het interne trainingsteam van AWS over het gebruik van Amazon Polly met ondertiteling:
De volgende video biedt een korte demo van hoe het interne trainingsteam van AWS gebruikt PollyVTT()
:
Conclusie
In dit bericht hebben we een methode gedeeld om tegelijkertijd audio en ondertitels te genereren voor een bepaalde tekst. De PollyVTT()
functie en SubtitleGeneratorForPolly
een gemeenschappelijke eis voor ondertiteling op een efficiรซnte en effectieve manier aanpakken. Het Amazon Polly-team blijft vereenvoudigde oplossingen bedenken en aanbieden voor complexe klantvereisten.
Voor meer tutorials en informatie over Amazon Polly, bekijk de AWS Blog over machine learning.
Over de auteurs
Abhishek Sonic is Partner Solutions Architect bij AWS. Hij werkt samen met klanten om technische begeleiding te bieden voor het beste resultaat van workloads op AWS.
Dan McKee gebruikt audio, video en koffie om inhoud te distilleren in gerichte, modulaire en gestructureerde cursussen. In zijn rol als Curriculum Developer Project Manager voor het NetSec Domain bij Amazon Web Services, maakt hij gebruik van zijn ervaring in datacenternetwerken om materiedeskundigen te helpen ideeรซn tot leven te brengen.
Orlando Karam is een Technical Curriculum Developer bij Amazon Web Services, wat betekent dat hij kan spelen met coole nieuwe technologieรซn en er vervolgens over kan praten. Af en toe gebruikt hij die coole technologieรซn ook om zijn werk gemakkelijker te maken.
- AI
- ai kunst
- ai kunst generator
- je hebt een robot
- Amazon Polly
- kunstmatige intelligentie
- certificering van kunstmatige intelligentie
- kunstmatige intelligentie in het bankwezen
- kunstmatige intelligentie robot
- kunstmatige intelligentie robots
- kunstmatige intelligentiesoftware
- AWS-machine learning
- blockchain
- blockchain conferentie ai
- vindingrijk
- conversatie kunstmatige intelligentie
- crypto conferentie ai
- van dall
- diepgaand leren
- google ai
- machine learning
- Plato
- plato ai
- Plato gegevensintelligentie
- Plato-spel
- PlatoData
- platogamen
- schaal ai
- syntaxis
- zephyrnet