Opret videoundertekster med Amazon Transscribe ved hjælp af denne kodefri arbejdsgang

Genudgivet af Platon

Abonnenter: 0

Oprettelse af undertekster på videoindhold giver udfordringer, uanset hvor stor eller lille organisationen er. For at løse disse udfordringer, Amazon Transcrib har en nyttig funktion, der gør det muligt at oprette undertekster direkte i tjenesten. Der kræves ingen maskinlæring (ML) eller kodeskrivning for at komme i gang. Dette indlæg leder dig gennem opsætning af en kodefri arbejdsgang til oprettelse af videoundertekster ved hjælp af Amazon Transcribe på din Amazon Web Services-konto.

Undertekster vs. lukkede billedtekster

Vilkårene undertekster , lukkede billedtekster bruges ofte i flæng, og begge refererer til talt tekst, der vises på skærmen. Men en primær forskel mellem undertekster og lukkede billedtekster (baseret på branche- og tilgængelighedsdefinitioner) er, at lukkede billedtekster indeholder både transskriptionen af det talte ord samt en beskrivelse af baggrundsmusik eller lyde, der forekommer i lydsporet for en rigere tilgængelighedsoplevelse . Dette indlæg fokuserer kun på oprettelsen af transskriberede talte undertekstfiler ved hjælp af automatisk talegenkendelse (ASR) teknologi, der ikke indeholder højttaleridentifikation, lydeffekter eller musikbeskrivelser. Amazon Transcribe understøtter industristandardformaterne SubRip Text (*.srt) og Web Video Text Tracks (*.vtt) til oprettelse af undertekster.

Følgende billede viser et eksempel på undertekster, der er slået til i en webvideoafspiller.

Undertekster gavner videoskabere ved at udvide både rækkevidden og inklusiviteten af deres videoindhold. Ved at vise den talte lyddel af en video på skærmen gør undertekster lyd-/videoindhold tilgængeligt for et større publikum, inklusive dem, der ikke har et modersmål, og dem, der er i et miljø, hvor lyden ikke kan høres.

Selvom fordelene ved undertekster er klare, har videoskabere traditionelt stået over for forhindringer i forbindelse med skabelsen af undertekster. Forhindringer opstår på grund af de tidskrævende og ressourcekrævende krav i den traditionelle skabelsesproces, der i høj grad er afhængig af manuel indsats. Traditionelle undertekstningsmetoder er manuelle og kan tage dage til uger at gennemføre, og de er derfor muligvis ikke kompatible med alle produktionsplaner. Ligeledes bruger mange virksomheder manuelle transskriptionstjenester, men disse processer skaleres ofte ikke og er dyre at vedligeholde. Amazon Transcribe gør det nemt for dig at konvertere tale til tekst ved hjælp af ML-baserede teknologier og hjælper videoskabere med at løse disse problemer.

Løsningsoversigt

Dette indlæg gennemgår en arbejdsgang uden kode til generering af undertekster ved hjælp af Amazon Simple Storage Service (Amazon S3) og Amazon Transcribe.

Amazon S3 er objektlagring bygget til at gemme og hente enhver mængde data fra hvor som helst. Dette indlæg gennemgår processen til lav en S3-spand og upload en lydfil. Når brugere gemmer data i Amazon S3, arbejder de med ressourcer kendt som buckets og objekter. EN spand er en beholder til genstande. An objekt er en fil og alle metadata, der beskriver denne fil.

Amazon Transcribe er en ASR-tjeneste, der bruger fuldt administrerede og kontinuerligt trænede ML-modeller til at konvertere lyd-/videofiler til tekst. Amazon Transcribe input og output gemmes i Amazon S3. Amazon Transcribe tager lyddata, enten en mediefil i en Amazon S3-bøtte eller en mediestrøm, og konverterer dem til tekstdata. Amazon Transcribe giver dig mulighed for at indtage lydinput, producere letlæselige transskriptioner med en høj grad af nøjagtighed, tilpasse dit output til domænespecifikt ordforråd ved hjælp af tilpassede sprogmodeller (CLM) og tilpassede ordforrådog filtrere indhold for at sikre kundernes privatliv. Kunder kan vælge at bruge Amazon Transcribe til en række forskellige forretningsapplikationer, herunder transskription af stemmebaserede kundeserviceopkald, generering af undertekster på lyd-/videoindholdog udføre (tekstbaseret) indholdsanalyse på lyd-/videoindhold. Til dette indlæg demonstrerer vi oprettelse af et transskriptionsjob og gennemgang af joboutput.

Hvis du foretrækker en videogennemgang, kan du se afsnittet Amazon Transcribe videosnacks Oprettelse af video undertekster uden at skrive nogen kode.

Forudsætninger

For at gå igennem løsningen skal du have følgende forudsætninger:

An AWS-konto med tilstrækkelig AWS identitets- og adgangsstyring (IAM) brugerrettigheder
En lyd-/videofil med talte ord i en Amazon Transcribe understøttet sprog og i en understøttet inputformat

Hvis du ikke allerede har en prøve-lyd-/videofil, kan du oprette en ved hjælp af et videooptagelsesprogram på din computer eller smartphone. Sørg for, at du taler tydeligt ind i mikrofonen for at sikre det højeste niveau af transskriptionskvalitet, når du optager. En anden mulighed er at finde en frit tilgængelig download med talt ord, såsom en podcast eller videogennemgangen i dette indlæg, der kan indtages af Amazon Transcribe. Den optagede eller downloadede fil skal være tilgængelig på dit skrivebord for upload til din AWS-konto.

Inden du går i gang, skal du gennemgå Amazon Transcrib , Amazon S3 prissider for servicepriser.

Opret S3-bøtterne

Til dette indlæg opretter vi to S3-bøtter for at holde input og output adskilt.

På Amazon S3-konsollen skal du vælge Opret spand.
Giv hver spand et globalt unikt navn.
Brug standardindstillingerne til at sikre overholdelse af din organisations politikker.
Aktiver bucket versionering , standard kryptering på serversiden (anbefalede).
Vælg Opret spand.

Følgende skærmbillede viser konfigurationen for input-bøtten.

S3-bøtten til input er nu klar til at få uploadet lyd-/videofilen. På tidspunktet for denne udgivelse var maksimal inputstørrelse for Amazon Transcribe er 2 GB. Hvis videofilen overstiger dette beløb eller er i en format, der ikke er indbygget understøttet af Amazon Transcribe, overvej at bruge AWS Elemental MediaConvert til oprette et lydoutput. Dette er fordelagtigt, fordi lydfiler typisk er meget mindre end videofiler, og Amazon Transcribe kræver kun lydsporet og ikke videosporet for at generere transskriptioner og undertekster.

Upload kildefilen til S3-bøtten

For at uploade din kildefil skal du udføre følgende trin:

På Amazon S3-konsollen skal du vælge din inputbøtte.
Vælg Upload.
Vælg filen fra dit skrivebord.
Accepter standardlagringsklassen og krypteringsindstillingerne, eller modificer dem baseret på din organisations politikker.
Vælg Upload.

Opret et transskriptionsjob

Med inputfilen klar i Amazon S3 opretter vi nu et transskriptionsjob i Amazon Transcribe.

På Amazon Transscribe-konsol, vælg Transskription job i navigationsruden.
Vælg Skab job.

Denne gennemgang bruger i høj grad standardindstillinger; Du bør dog vælge den konfiguration, der passer bedst til din organisations krav.

Til Navn, indtast et navn for dette job og den resulterende fil.
Til Sprogindstillinger, Vælg Specifikt sprog.
Til Sprog, vælg kildesproget for inputfilen.
Til Model typeVælg Generel model.

Vi bruger den generelle model til denne demo, men vi opfordrer dig til at udforske træning og brug tilpassede sprogmodeller for forbedret nøjagtighed for specifikke brugstilfælde såsom branchespecifikke termer eller akronymer. For et dybere dyk ned i brugerdefinerede sprogmodeller, se Amazon Transcribe-videosnacket Brug af Custom Language Models (CLM) til at øge transskriptionsnøjagtigheden.

Til Indtast filplacering på S3, vælg Gennemse S3.
Vælg inputbøtten og lyd-/videofilen, der skal transskriberes.
Til Oplysninger om outputdataplaceringstype, Vælg Kundespecificeret S3 spand.
Til Outputfildestination på S3, vælg Gennemse S3.
Vælg den nyoprettede outputspand.

Undertekst filformat afsnittet giver de to mest væsentlige muligheder for hele dette indlæg. Du kan vælge de *.srt- og *.vtt-formaterede outputs som en del af Amazon Transcribe-transskriptionsjobbet. På tidspunktet for denne skrivning tilføjer valg af en eller begge ikke nogen ekstra omkostninger til Amazon Transscribe-jobbet.

Vælg begge for dette indlæg SRT , VTT.
Til Angiv startindekset, vælg 0 or 1.

Denne værdi refererer til startnummeret for den første undertekst i rækkefølge. Hvis du er i tvivl om, hvilken værdi du skal vælge, 1 er den mest almindelige.

Når indstillingerne er på plads, skal du vælge Næste.
Konfigurer eventuelle valgfrie indstillinger efter dine behov.

Amazon Transcribe præsenterer muligheder for lydidentifikation til kanaler or højttalere, alternative resultater, PII-redaktion, ordforrådsfiltreringog tilpasset ordforråd. For dette særlige indlæg kan du springe disse konfigurationsmuligheder over. For et dybere dyk ned i jobkonfigurationsmuligheder, se Amazon Transcribe videosnacks-episoder for tilpasset ordforråd, tilpassede sprogmodellerog ordforrådsfiltrering.

Vælg Skab job.

Gennemgå joboutputtet

Transskriptionsjobbet for at oprette dine videoundertekster starter. Jobstatus, som vist på det følgende skærmbillede, vises i panelet med jobdetaljer. Når jobbet er fuldført, skal du vælge outputdataplaceringen for at finde de nyoprettede undertekster i S3-bøtten.

Undertekster er identificeret med *.srt eller *.vtt udvidelser. Når du vælger objektet i S3-bøtten, har du mulighed for at downloade filen.

Fordi disse undertekster er i almindeligt tekstformat, kan enhver teksteditor se og redigere den resulterende transskription. Sammenligning af *.srt- og *.vtt-filerne afslører mange ligheder med subtile forskelle.

Følgende er et eksempel på *.srt-format:

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

Følgende er et eksempel på *.vtt-format:

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

Tallene angiver den rækkefølge, underteksten vises. Tidskoden angiver, hvornår underteksten vises. Teksten er selve undertekstteksten.

Alle ændringer eller revisioner er nu mulige direkte i teksteditoren og forbliver kompatible, når de gemmes med udvidelsen *.srt eller *.vtt. Du kan også forhåndsvise ændringer på selve videoplatformen, i et videoredigeringsprogram eller i en videoafspiller.

VLC er en populær open source og cross-platform videoafspiller, der understøtter *.srt og *.vtt undertekster. For automatisk at afspille undertekster over en video i VLC skal du placere både den originale video og undertekstfilen i samme mappe med nøjagtigt samme filnavn før filtypenavnet.

Når du nu åbner videofilen i VLC, skal undertekstfilen automatisk opdage og afspille i videoafspillervinduet.

Ryd op

For at undgå at pådrage sig fremtidige gebyrer, tom , slette S3-spandene, der bruges til input og output. Sørg for, at du har alle nødvendige filer gemt, da dette permanent vil fjerne alle objekter indeholdt i spandene. På den Transskriber konsol, vælg og slet alle job, der ikke længere er nødvendige.

Konklusion

Du har nu oprettet en komplet workflow til oprettelse af undertekster fra ende til ende for at øge og accelerere din proces til oprettelse af videoundertekster, og alt sammen uden at skrive nogen kode. I løbet af få minutter oprettede du S3-lagringsbøtter, uploadede en fil til Amazon S3 og brugte Amazon Transcribe til oprettelse af undertekster. Du kan derefter downloade de resulterende *.srt- og *.vtt-undertekstfiler til gennemgang og uploade dem til destinationsplatformen.

Denne arbejdsgang fokuserede på lyd-/videoundertekster oprettet ved hjælp af ASR-teknologien (automatic speech recognition) i Amazon Transcribe specifikt til videoarbejdsgange. Denne workflow alene er ikke en erstatning for en menneske-baseret lukket billedtekstproces, som er i stand til at opfylde højere standarder for tilgængelighed, herunder højttaleridentifikation, lydeffekter, musikbeskrivelse og kopiredigeringsgennemgang for nøjagtighed. Du kan bruge tekstredigeringsmetoden, der er beskrevet i dette indlæg, til at tilføje disse elementer, efter at det indledende Amazon Transscribe-job er fuldført. For mere avanceret browserbaseret oprettelse af undertekster, forhåndsvisning og kopiredigering kan du udforske implementeringen af Indholdslokalisering på AWS løsning, der er undersøgt af AWS Solution Architects og inkluderer en implementeringsvejledning. Denne løsning tilbyder yderligere funktioner som f.eks in-browser preview og redigering af undertekster, oversættelse af undertekster drevet af Amazon Oversæt, og computersynsfunktioner, der tilbydes af Amazon-anerkendelse.

Hvis du kunne lide denne demonstration af Amazon Transcribes evne til at skabe undertekster, så overvej at tage et dybere dyk ned i yderligere funktioner og muligheder for at fremskynde dine audio/video-arbejdsgange. For yderligere detaljer og kodeeksempler til understøttelse af automatisering og skalering af oprettelse af undertekster, se Oprettelse af video undertekster. Held og lykke med din udforskning og udvikling af din arbejdsgang til oprettelse af undertekster.

Om forfatteren

Jason O'Malley er Sr. Partner Solutions Architect hos AWS, der støtter partnere, der arkitekterer medie-, kommunikations- og teknologiindustriens løsninger. Før han kom til AWS, tilbragte Jason 13 år i medie- og underholdningsindustrien hos virksomheder, herunder Conan O'Briens Team Coco, WarnerMedia og Media.Monks. Jason startede sin karriere inden for tv-produktion og postproduktion, før han byggede mediearbejdsmængder på AWS. Når Jason ikke skaber løsninger til partnere og kunder, kan han blive fundet på eventyr med sin kone og søn eller læse om bæredygtighed.

Tidsstempel: Maj 10, 2022

Tidsstempel: Jan 10, 2023

Opret videoundertekster med Amazon Transcribe ved hjælp af denne kodefri arbejdsgang

Genudgivet af Platon

Undertekster vs. lukkede billedtekster

Løsningsoversigt

Forudsætninger

Opret S3-bøtterne

Upload kildefilen til S3-bøtten

Opret et transskriptionsjob

Gennemgå joboutputtet

Ryd op

Konklusion

Om forfatteren

Mere fra AWS maskinindlæring

Forbedre transskriptionsnøjagtigheden af kunde-agent-opkald med tilpasset ordforråd i Amazon Transcribe

Annoncering af det opdaterede ServiceNow-stik (V2) til Amazon Kendra

Hvordan tjenesteudbydere kan bruge naturlig sprogbehandling til at få indsigt fra kundebilletter med Amazon Comprehend

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto