Lag videoteksting med Amazon-transkribering ved å bruke denne arbeidsflyten uten kode

Publisert av Platon

Følgere: 0

Oppretting av undertekster på videoinnhold byr på utfordringer uansett hvor stor eller liten organisasjonen er. For å møte disse utfordringene, Amazon Transcribe har en nyttig funksjon som gjør det mulig å lage undertekster direkte i tjenesten. Det kreves ingen maskinlæring (ML) eller kodeskriving for å komme i gang. Dette innlegget leder deg gjennom å sette opp en arbeidsflyt uten kode for å lage videoundertekster ved å bruke Amazon Transcribe i Amazon Web Services-kontoen din.

Undertekster kontra lukkede tekster

Vilkårene tekster og lukkede bildetekster brukes ofte om hverandre, og begge refererer til talt tekst som vises på skjermen. Imidlertid er en primær forskjell mellom undertekster og hørselshemmede (basert på bransje- og tilgjengelighetsdefinisjoner) at hørselshemmede inneholder både transkripsjon av det talte ordet samt en beskrivelse av bakgrunnsmusikk eller lyder som forekommer i lydsporet for en rikere tilgjengelighetsopplevelse . Dette innlegget fokuserer kun på å lage transkriberte undertekstfiler med talte ord ved hjelp av automatisk talegjenkjenningsteknologi (ASR) som ikke inneholder høyttaleridentifikasjon, lydeffekter eller musikkbeskrivelser. Amazon Transcribe støtter bransjestandardformatene SubRip Text (*.srt) og Web Video Text Tracks (*.vtt) for oppretting av undertekster.

Følgende bilde viser et eksempel på undertekster som er slått på i en nettvideospiller.

Undertekster er til nytte for videoskapere ved å utvide både rekkevidden og inkluderendeheten til videoinnholdet deres. Ved å vise den talte lyddelen av en video på skjermen, gjør undertekster lyd-/videoinnhold tilgjengelig for et større publikum, inkludert de som ikke har morsmål og de som er i et miljø der lyden ikke er hørbar.

Selv om fordelene med undertekster er klare, har videoskapere tradisjonelt møtt hindringer i å lage undertekster. Hindringer oppstår på grunn av de tidkrevende og ressurskrevende kravene til den tradisjonelle skapelsesprosessen som i stor grad er avhengig av manuell innsats. Tradisjonelle tekstingmetoder er manuelle og kan ta dager til uker å fullføre, og er derfor kanskje ikke kompatible med alle produksjonsplaner. På samme måte bruker mange selskaper manuelle transkripsjonstjenester, men disse prosessene skaleres ofte ikke og er dyre å vedlikeholde. Amazon Transcribe gjør det enkelt for deg å konvertere tale til tekst ved hjelp av ML-baserte teknologier og hjelper videoskapere med å løse disse problemene.

Løsningsoversikt

Dette innlegget går gjennom en arbeidsflyt uten kode for å generere undertekster ved hjelp av Amazon enkel lagringstjeneste (Amazon S3) og Amazon Transcribe.

Amazon S3 er objektlagring bygget for å lagre og hente en hvilken som helst mengde data fra hvor som helst. Dette innlegget går gjennom prosessen til lage en S3 bøtte og last opp en lydfil. Når brukere lagrer data i Amazon S3, jobber de med ressurser kjent som bøtter og objekter. EN bøtte er en beholder for gjenstander. An objekt er en fil og alle metadata som beskriver den filen.

Amazon Transcribe er en ASR-tjeneste som bruker fullt administrerte og kontinuerlig trente ML-modeller for å konvertere lyd-/videofiler til tekst. Amazon Transcribe-innganger og -utganger lagres i Amazon S3. Amazon Transcribe tar lyddata, enten en mediefil i en Amazon S3-bøtte eller en mediestrøm, og konverterer den til tekstdata. Amazon Transcribe lar deg innta lydinndata, produsere lettleste transkripsjoner med høy grad av nøyaktighet, tilpasse utdataene dine for domenespesifikke vokabularene ved å bruke tilpassede språkmodeller (CLM) og tilpassede vokabularerog filtrer innhold for å sikre kundenes personvern. Kunder kan velge å bruke Amazon Transcribe for en rekke forretningsapplikasjoner, inkludert transkripsjon av talebaserte kundeservicesamtaler, generering av undertekster på lyd-/videoinnholdog gjennomføre (tekstbasert) innholdsanalyse på lyd-/videoinnhold. For dette innlegget demonstrerer vi å lage en transkripsjonsjobb og gjennomgå jobbresultatet.

Hvis du foretrekker en videogjennomgang, kan du se episoden med Amazon Transcribe videosnacks Lage video undertekster uten å skrive noen kode.

Forutsetninger

For å gå gjennom løsningen må du ha følgende forutsetninger:

An AWS-konto med tilstrekkelig AWS identitets- og tilgangsadministrasjon (IAM) brukerrettigheter
En lyd-/videofil med talte ord i en Språk som støttes av Amazon Transcribe og i en støttet inndataformat

Hvis du ikke allerede har et eksempel på en lyd-/videofil, kan du opprette en ved å bruke et videoopptaksprogram på datamaskinen eller smarttelefonen. Sørg for at du snakker tydelig inn i mikrofonen for å sikre høyeste nivå av transkripsjonskvalitet når du tar opp. Et annet alternativ er å finne en fritt tilgjengelig nedlasting med talt ord, for eksempel en podcasteller videogjennomgangen gitt i dette innlegget, som kan inntas av Amazon Transcribe. Den innspilte eller nedlastede filen må være tilgjengelig på skrivebordet ditt for opplasting til AWS-kontoen din.

Før du begynner, se gjennom Amazon Transcribe og Amazon S3 prissider for tjenestepriser.

Lag S3-bøttene

For dette innlegget lager vi to S3-bøtter for å holde inndata og utdata atskilt.

Velg på Amazon S3-konsollen Lag bøtte.
Gi hver bøtte et globalt unikt navn.
Bruk standardinnstillingene for å sikre samsvar med organisasjonens retningslinjer.
aktiver bøtteversjon og standard kryptering på serversiden (Anbefales).
Velg Lag bøtte.

Følgende skjermbilde viser konfigurasjonen for inndatabøtten.

S3-bøtten for input er nå klar til å laste opp lyd-/videofilen. På tidspunktet for denne publikasjonen var maksimal inndatastørrelse for Amazon Transcribe er 2 GB. Hvis videofilen overskrider dette beløpet eller er i en format som ikke er naturlig støttet av Amazon Transcribe, vurdere å bruke AWS Elemental MediaConvert til lage en lydutgang. Dette er fordelaktig fordi lydfiler vanligvis er mye mindre enn videofiler, og Amazon Transcribe krever bare lydsporet, og ikke videosporet, for å generere transkripsjoner og undertekster.

Last opp kildefilen til S3-bøtten

For å laste opp kildefilen, fullfør følgende trinn:

På Amazon S3-konsollen velger du inndatabøtte.
Velg Last opp.
Velg filen fra skrivebordet.
Godta standard lagringsklasse og krypteringsinnstillinger eller endre dem basert på retningslinjene til organisasjonen din.
Velg Last opp.

Opprett en transkripsjonsjobb

Med inndatafilen klar i Amazon S3 oppretter vi nå en transkripsjonsjobb i Amazon Transcribe.

På Amazon Transkriberingskonsoll, velg Transkripsjonsjobber i navigasjonsruten.
Velg Lag jobb.

Denne gjennomgangen bruker i stor grad standardalternativer; Du bør imidlertid velge den konfigurasjonen som passer best til organisasjonens krav.

Til Navn, skriv inn et navn for denne jobben og den resulterende filen.
Til Språkinnstillinger, plukke ut Spesifikt språk.
Til Språk, velg kildespråket for inndatafilen.
Til Modell typeå velge Generell modell.

Vi bruker den generelle modellen for denne demoen, men vi oppfordrer deg til å utforske trening og bruk tilpassede språkmodeller for forbedret nøyaktighet for spesifikke brukstilfeller som bransjespesifikke termer eller akronymer. For et dypere dykk i tilpassede språkmodeller, se Amazon Transcribe-videosnacksen Bruk av tilpassede språkmodeller (CLM) for å øke transkripsjonsnøyaktigheten.

Til Inndatafilplassering på S3, velg Bla gjennom S3.
Velg inndatabøtte og lyd-/videofil som skal transkriberes.
Til Informasjon om stedstype for utdata, plukke ut Kundespesifisert S3-bøtte.
Til Utdatafildestinasjon på S3, velg Bla gjennom S3.
Velg den nyopprettede utdatabøtten.

De Undertekst filformat delen gir de to viktigste alternativene for hele dette innlegget. Du kan velge *.srt- og *.vtt-formaterte utdata som en del av Amazon Transcribe-transkripsjonsjobben. Når dette skrives, vil det å velge en eller begge ikke legge til noen ekstra kostnad for Amazon Transcribe-jobben.

Velg begge for dette innlegget SRT og VTT.
Til Spesifiser startindeksen, velg 0 or 1.

Denne verdien refererer til startnummeret til den første underteksten i rekkefølge. Hvis du er usikker på hvilken verdi du skal velge, 1 er det vanligste.

Når innstillingene er på plass, velg neste.
Konfigurer eventuelle valgfrie innstillinger i henhold til dine behov.

Amazon Transcribe presenterer alternativer for lydidentifikasjon for kanaler or høyttalere, alternative resultater, PII-redaksjon, ordforrådsfiltreringog tilpasset ordforråd. For dette bestemte innlegget kan du hoppe over disse konfigurasjonsalternativene. For et dypere dykk inn i jobbkonfigurasjonsalternativer, se Amazon Transcribe videosnacks-episodene for tilpasset ordforråd, tilpassede språkmodellerog ordforrådsfiltrering.

Velg Lag jobb.

Se gjennom jobbutgangen

Transkripsjonsjobben for å lage videotekstingene dine starter. Jobbstatusen, som vist i følgende skjermbilde, vises i jobbdetaljpanelet. Når jobben er fullført, velg utdataplasseringen for å finne de nyopprettede undertekstene i S3-bøtten.

Undertekster identifiseres av utvidelsen *.srt eller *.vtt. Når du velger objektet i S3-bøtten, har du muligheten til å laste ned filen.

Fordi disse undertekstene er i vanlig tekstformat, kan enhver tekstredigerer se og redigere den resulterende transkripsjonen. Sammenligning av *.srt- og *.vtt-filene avslører mange likheter, med subtile forskjeller.

Følgende er et eksempel på *.srt-format:

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

Følgende er et eksempel på *.vtt-format:

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

Tallene indikerer rekkefølgen underteksten vises. Tidskoden indikerer når underteksten vises. Teksten er selve undertekstteksten.

Eventuelle endringer eller revisjoner er nå mulig direkte i tekstredigereren og forblir kompatible når de lagres med utvidelsen *.srt eller *.vtt. Du kan også forhåndsvise endringer på selve videoplattformen, i et videoredigeringsprogram eller i en videospiller.

VLC er en populær åpen kildekode og videospiller på tvers av plattformer som støtter *.srt og *.vtt undertekster. For automatisk å spille av undertekster over en video i VLC, plasser både den originale videoen og undertekstfilen i samme katalog med nøyaktig samme filnavn før filtypen.

Nå når du åpner videofilen i VLC, skal undertekstfilen automatisk oppdage og spille av i videospillervinduet.

Rydd opp

For å unngå å pådra seg fremtidige kostnader, tom og slette S3-bøttene som brukes til input og output. Sørg for at du har alle nødvendige filer lagret, da dette vil permanent fjerne alle objekter i bøttene. På Transkribere konsoll, velg og slett alle jobber som ikke lenger er nødvendige.

konklusjonen

Du har nå opprettet en komplett arbeidsflyt for å lage undertekster fra ende til ende for å forsterke og akselerere prosessen for å lage video undertekster, og alt uten å skrive noen kode. I løpet av få minutter opprettet du S3-lagringsbøtter, lastet opp en fil til Amazon S3 og brukte Amazon Transcribe for å lage undertekster. Du kan deretter laste ned de resulterende undertekstfilene *.srt og *.vtt for gjennomgang, og laste dem opp til målplattformen.

Denne arbeidsflyten fokuserte på lyd/video undertekster laget ved hjelp av automatisk talegjenkjenningsteknologi (ASR) i Amazon Transcribe spesielt for videoarbeidsflyter. Denne arbeidsflyten alene er ikke en erstatning for en menneskebasert prosess for lukket teksting, som er i stand til å møte høyere standarder for tilgjengelighet, inkludert høyttaleridentifikasjon, lydeffekter, musikkbeskrivelse og kopiredigeringsgjennomgang for nøyaktighet. Du kan bruke tekstredigeringsmetoden beskrevet i dette innlegget for å legge til disse elementene etter at den første Amazon Transkriberingsjobben er fullført. Videre, for mer avansert nettleserbasert oppretting av undertekster, forhåndsvisning og kopiering, kan du utforske distribusjon av Innholdslokalisering på AWS løsning som er kontrollert av AWS Solution Architects og inkluderer en implementeringsveiledning. Denne løsningen tilbyr tilleggsfunksjoner som f.eks forhåndsvisning og redigering av undertekster i nettleseren, undertekstoversettelse drevet av Amazon Oversett, og datasynsfunksjoner som tilbys av Amazon-anerkjennelse.

Hvis du likte denne demonstrasjonen av Amazon Transcribes evne til å lage undertekster, bør du vurdere å ta et dypere dykk i tilleggsfunksjoner og muligheter for å akselerere lyd-/videoarbeidsflytene dine. For ytterligere detaljer og kodeeksempler for å støtte automatisering og skalering av undertekstoppretting, se Lage video undertekster. Lykke til i utforskningen og utviklingen av arbeidsflyten for å lage undertekster.

om forfatteren

Jason O'Malley er Sr. Partner Solutions Architect hos AWS som støtter partnere som designer løsninger for media, kommunikasjon og teknologibransje. Før han begynte i AWS, tilbrakte Jason 13 år i medie- og underholdningsindustrien i selskaper inkludert Conan O'Briens Team Coco, WarnerMedia og Media.Monks. Jason startet sin karriere innen TV-produksjon og postproduksjon før han bygde mediearbeid på AWS. Når Jason ikke lager løsninger for partnere og kunder, kan han bli funnet på eventyr med sin kone og sønn, eller lese om bærekraft.

Tidstempel: Kan 10, 2022

Tidstempel: Jan 10, 2023

Lag videoundertekster med Amazon Transcribe ved å bruke denne arbeidsflyten uten kode

Publisert av Platon

Undertekster kontra lukkede tekster

Løsningsoversikt

Forutsetninger

Lag S3-bøttene

Last opp kildefilen til S3-bøtten

Opprett en transkripsjonsjobb

Se gjennom jobbutgangen

Rydd opp

konklusjonen

om forfatteren

Mer fra AWS maskinlæring

Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset ordforråd i Amazon Transcribe

Kunngjør den oppdaterte ServiceNow-kontakten (V2) for Amazon Kendra

Hvordan tjenesteleverandører kan bruke naturlig språkbehandling for å få innsikt fra kundebilletter med Amazon Comprehend

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn