Skapa videoundertexter med Amazon Transcribe med hjälp av detta kodfria arbetsflöde

Återutgiven av Platon

anhängare: 0

Skapande av undertexter på videoinnehåll innebär utmaningar oavsett hur stor eller liten organisationen är. För att möta dessa utmaningar, Amazon Transcribe har en användbar funktion som gör det möjligt att skapa undertexter direkt i tjänsten. Det krävs ingen maskininlärning (ML) eller kodskrivning för att komma igång. Det här inlägget leder dig genom att ställa in ett kodfritt arbetsflöde för att skapa videoundertexter med Amazon Transcribe i ditt Amazon Web Services-konto.

Undertexter kontra dold textning

Villkoren undertexter och slutna bildtexter används ofta omväxlande och båda hänvisar till talad text som visas på skärmen. En primär skillnad mellan undertexter och dold textning (baserat på bransch- och tillgänglighetsdefinitioner) är dock att textning innehåller både transkription av det talade ordet såväl som en beskrivning av bakgrundsmusik eller ljud som förekommer i ljudspåret för en rikare tillgänglighetsupplevelse . Det här inlägget fokuserar bara på skapandet av transkriberade undertextfiler med talade ord med hjälp av automatisk taligenkänning (ASR) teknologi som inte innehåller högtalaridentifiering, ljudeffekter eller musikbeskrivningar. Amazon Transcribe stöder industristandardformaten SubRip Text (*.srt) och Web Video Text Tracks (*.vtt) för skapande av undertexter.

Följande bild visar ett exempel på undertexter som är aktiverade i en webbvideospelare.

Undertexter gynnar videoskapare genom att utöka både räckvidden och inkluderingen av deras videoinnehåll. Genom att visa den talade ljuddelen av en video på skärmen gör undertexter ljud-/videoinnehåll tillgängligt för en större publik, inklusive de som inte talar som modersmål och de som befinner sig i en miljö där ljud är ohörbart.

Även om fördelarna med undertexter är tydliga, har videoskapare traditionellt sett stött på hinder i skapandet av undertexter. Hinder uppstår på grund av de tidskrävande och resurskrävande kraven från den traditionella skapelseprocessen som är starkt beroende av manuell ansträngning. Traditionella undertextningsmetoder är manuella och kan ta dagar till veckor att slutföra, och är därför kanske inte kompatibla med alla produktionsscheman. På samma sätt använder många företag manuella transkriptionstjänster, men dessa processer skalas ofta inte och är dyra att underhålla. Amazon Transcribe gör det enkelt för dig att konvertera tal till text med hjälp av ML-baserad teknik och hjälper videoskapare att ta itu med dessa problem.

Lösningsöversikt

Det här inlägget går igenom ett arbetsflöde utan kod för att generera undertexter med hjälp av Amazon enkel lagringstjänst (Amazon S3) och Amazon Transcribe.

Amazon S3 är objektlagring byggd för att lagra och hämta vilken mängd data som helst var som helst. Det här inlägget går igenom processen för att skapa en S3-hink och ladda upp en ljudfil. När användare lagrar data i Amazon S3 arbetar de med resurser som kallas hinkar och objekt. A skopa är en behållare för föremål. En objektet är en fil och eventuell metadata som beskriver den filen.

Amazon Transcribe är en ASR-tjänst som använder fullt hanterade och kontinuerligt utbildade ML-modeller för att konvertera ljud-/videofiler till text. Amazon Transcribe in- och utdata lagras i Amazon S3. Amazon Transcribe tar ljuddata, antingen en mediefil i en Amazon S3-hink eller en mediaström, och konverterar den till textdata. Amazon Transcribe låter dig mata in ljudinmatning, producera lättlästa transkriptioner med en hög grad av noggrannhet, anpassa din utdata för domänspecifikt ordförråd med anpassade språkmodeller (CLM) och anpassade vokabulareroch filtrera innehåll för att säkerställa kundernas integritet. Kunder kan välja att använda Amazon Transcribe för en mängd olika affärsapplikationer, inklusive transkription av röstbaserade kundtjänstsamtal, generering av undertexter på ljud/videoinnehålloch genomföra (textbaserad) innehållsanalys på ljud/videoinnehåll. För det här inlägget demonstrerar vi att skapa ett transkriptionsjobb och granska jobbets resultat.

Om du föredrar en videogenomgång, se avsnittet Amazon Transcribe video snacks Skapa video undertexter utan att skriva någon kod.

Förutsättningar

För att gå igenom lösningen måste du ha följande förutsättningar:

An AWS-konto med tillräckligt AWS identitets- och åtkomsthantering (IAM) användarrättigheter
En ljud-/videofil med talade ord i en Språk som stöds av Amazon Transcribe och i en inmatningsformat som stöds

Om du inte redan har ett exempel på en ljud-/videofil kan du skapa en med ett videoinspelningsprogram på din dator eller smartphone. Se till att du talar tydligt i mikrofonen för att säkerställa högsta nivå av transkriptionskvalitet vid inspelning. Ett annat alternativ är att hitta en fritt tillgänglig nedladdning med talat ord, till exempel en podcast, eller videogenomgången i det här inlägget, som kan intas av Amazon Transcribe. Den inspelade eller nedladdade filen måste vara tillgänglig på ditt skrivbord för uppladdning till ditt AWS-konto.

Innan du börjar, granska Amazon Transcribe och Amazon S3 prissidor för tjänstpriser.

Skapa S3-hinkarna

För det här inlägget skapar vi två S3-hinkar för att hålla indata och utdata åtskilda.

Välj på Amazon S3-konsolen Skapa hink.
Ge varje hink ett globalt unikt namn.
Använd standardinställningarna för att säkerställa efterlevnad av din organisations policyer.
aktivera hinkversionering och standardkryptering på serversidan (rekommenderad).
Välja Skapa hink.

Följande skärmdump visar konfigurationen för inmatningshinken.

S3-hinken för inmatning är nu redo att ladda upp ljud-/videofilen. Vid tidpunkten för denna publikation var maximal indatastorlek för Amazon Transcribe är 2 GB. Om videofilen överstiger det beloppet eller är i en format som inte stöds av Amazon Transcribe, överväga att använda AWS Elemental MediaConvert till skapa en endast ljudutgång. Detta är fördelaktigt eftersom ljudfiler vanligtvis är mycket mindre än videofiler och Amazon Transcribe kräver bara ljudspåret, och inte videospåret, för att generera transkriptioner och undertexter.

Ladda upp källfilen till S3-bucket

För att ladda upp din källfil, utför följande steg:

På Amazon S3-konsolen väljer du din inmatningshink.
Välja Ladda.
Välj filen från skrivbordet.
Acceptera standardinställningarna för lagringsklass och kryptering eller ändra dem baserat på din organisations policy.
Välja Ladda.

Skapa ett transkriptionsjobb

Med inmatningsfilen klar i Amazon S3 skapar vi nu ett transkriptionsjobb i Amazon Transcribe.

På Amazon Transcribe-konsolväljer Transkription jobb i navigeringsfönstret.
Välja Skapa jobb.

Denna genomgång använder till stor del standardalternativ; Du bör dock välja den konfiguration som bäst passar din organisations krav.

För Namn , ange ett namn för det här jobbet och den resulterande filen.
För Språkinställningar, Välj Specifikt språk.
För Språk, välj källspråket för inmatningsfilen.
För Modell typVälj Allmän modell.

Vi använder den allmänna modellen för denna demo, men vi uppmuntrar dig att utforska träning och användning anpassade språkmodeller för förbättrad noggrannhet för specifika användningsfall som branschspecifika termer eller akronymer. För en djupare dykning i anpassade språkmodeller, titta på Amazon Transcribe-videosnacket Använder anpassade språkmodeller (CLM) för att öka transkriptionsnoggrannheten.

För Inmatningsfilens plats på S3väljer Bläddra i S3.
Välj inmatningshinken och ljud-/videofilen som ska transkriberas.
För Information om platstyp för utdata, Välj Kundspecificerad S3 hink.
För Utdatafildestination på S3väljer Bläddra i S3.
Välj den nyskapade utmatningshinken.

Smakämnen Undertext filformat avsnittet ger de två viktigaste alternativen i hela detta inlägg. Du kan välja *.srt- och *.vtt-formaterade utdata som en del av Amazon Transcribe-transkriptionsjobbet. När detta skrivs lägger det inte till någon extra kostnad för Amazon Transcribe-jobbet att välja en eller båda.

Välj båda för det här inlägget SRT och VTT.
För Ange startindexväljer 0 or 1.

Detta värde hänvisar till startnumret för den första undertexten i följd. Om du är osäker på vilket värde du ska välja, 1 är den vanligaste.

När inställningarna är på plats, välj Nästa.
Konfigurera valfria inställningar enligt dina behov.

Amazon Transcribe presenterar alternativ för ljudidentifiering för kanaler or högtalare, alternativa resultat, PII-redigering, ordförrådsfiltreringoch anpassad ordförråd. För det här inlägget kan du hoppa över dessa konfigurationsalternativ. För en djupare dykning i jobbkonfigurationsalternativ, titta på Amazon Transcribe videosnacksavsnitt för anpassad ordförråd, anpassade språkmodelleroch ordförrådsfiltrering.

Välja Skapa jobb.

Granska jobbresultatet

Transkriptionsjobbet för att skapa dina videoundertexter startar. Jobbets status, som visas i följande skärmdump, visas i panelen med jobbdetaljer. När jobbet är klart, välj utdataplatsen för att hitta de nyskapade undertexterna i S3-hinken.

Undertexter identifieras av tilläggen *.srt eller *.vtt. När du väljer objektet i S3-hinken har du möjlighet att ladda ner filen.

Eftersom dessa undertexter är i vanligt textformat kan vilken textredigerare som helst visa och redigera den resulterande transkriptionen. Att jämföra *.srt- och *.vtt-filerna visar många likheter, med subtila skillnader.

Följande är ett exempel på *.srt-format:

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

Följande är ett exempel på *.vtt-format:

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

Siffrorna anger i vilken ordning undertexten visas. Tidskoden anger när undertexten visas. Texten är själva undertexten.

Alla ändringar eller revisioner är nu möjliga direkt i textredigeraren och förblir kompatibla när de sparas med tillägget *.srt eller *.vtt. Du kan också förhandsgranska ändringar på själva videoplattformen, i ett videoredigeringsprogram eller i en videospelare.

VLC är en populär videospelare med öppen källkod och plattformsoberoende som stöder *.srt och *.vtt undertexter. För att automatiskt spela upp undertexter över en video i VLC, placera både originalvideon och undertextfilen i samma katalog med exakt samma filnamn före filtillägget.

Nu när du öppnar videofilen i VLC, bör undertextfilen automatiskt upptäcka och spela upp i videospelarfönstret.

Städa upp

För att undvika framtida avgifter, tom och radera S3-skoporna som används för inmatning och utmatning. Se till att du har alla nödvändiga filer lagrade eftersom detta kommer att permanent ta bort alla objekt som finns i hinkarna. På Transkribera konsolen, välj och ta bort alla jobb som inte längre behövs.

Slutsats

Du har nu skapat ett komplett arbetsflöde för att skapa undertexter för att förstärka och påskynda din process för att skapa undertexter, och allt utan att skriva någon kod. På några minuter skapade du S3-lagringshinkar, laddade upp en fil till Amazon S3 och använde Amazon Transcribe för att skapa undertexter. Du kan sedan ladda ner de resulterande undertextfilerna *.srt och *.vtt för granskning och ladda upp dem till destinationsplattformen.

Detta arbetsflöde fokuserade på ljud-/videoundertexter skapade med hjälp av ASR-tekniken (automatic speech recognition) i Amazon Transcribe speciellt för videoarbetsflöden. Det här arbetsflödet ensamt är inte en ersättning för en mänskligt baserad process för sluten textning, som kan uppfylla högre standarder för tillgänglighet, inklusive högtalaridentifiering, ljudeffekter, musikbeskrivning och kopieringsgranskning för noggrannhet. Du kan använda textredigeringsmetoden som beskrivs i det här inlägget för att lägga till dessa element efter att det initiala Amazon Transcribe-jobbet är klart. Dessutom, för mer avancerad webbläsarbaserad undertextskapande, förhandsgranskning och kopieringsredigering, kan du utforska implementeringen av Innehållslokalisering på AWS lösning som granskas av AWS Solution Architects och inkluderar en implementeringsguide. Denna lösning erbjuder ytterligare funktioner som t.ex förhandsgranskning och redigering av undertexter i webbläsaren, översättning av undertexter drivs av Amazon Translate, och datorseende som erbjuds av Amazon-erkännande.

Om du gillade den här demonstrationen av Amazon Transcribes förmåga att skapa undertexter, överväg att ta en djupare dykning i ytterligare funktioner och möjligheter för att påskynda dina ljud-/videoarbetsflöden. För ytterligare detaljer och kodexempel för att stödja automatisering och skalning av undertextskapande, se Skapar video undertexter. Lycka till i din utforskning och utveckling av ditt arbetsflöde för att skapa undertexter.

Om författaren

Jason O'Malley är en Sr. Partner Solutions Architect på AWS som stödjer partners som skapar lösningar för media, kommunikation och teknikindustrin. Innan han började på AWS tillbringade Jason 13 år i media- och underhållningsbranschen på företag som Conan O'Briens Team Coco, WarnerMedia och Media.Monks. Jason började sin karriär inom tv-produktion och postproduktion innan han byggde upp mediebelastningar på AWS. När Jason inte skapar lösningar för partners och kunder kan han hittas på äventyr med sin fru och son, eller läsa om hållbarhet.

Tidsstämpel: Maj 10, 2022

Tidsstämpel: Jan 10, 2023

Skapa videoundertexter med Amazon Transcribe med hjälp av detta kodfria arbetsflöde

Återutgiven av Platon

Undertexter kontra dold textning

Lösningsöversikt

Förutsättningar

Skapa S3-hinkarna

Ladda upp källfilen till S3-bucket

Skapa ett transkriptionsjobb

Granska jobbresultatet

Städa upp

Slutsats

Om författaren

Mer från AWS maskininlärning

Förbättra transkriptionsnoggrannheten för kundagentsamtal med anpassat ordförråd i Amazon Transcribe

Tillkännager den uppdaterade ServiceNow-kontakten (V2) för Amazon Kendra

Hur tjänsteleverantörer kan använda naturlig språkbehandling för att få insikter från kundbiljetter med Amazon Comprehend

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto