Crea sottotitoli video con Amazon Transcribe utilizzando questo flusso di lavoro senza codice

Ripubblicato da Platone

Seguaci: 0

La creazione di sottotitoli sui contenuti video pone sfide, non importa quanto grande o piccola sia l'organizzazione. Per affrontare queste sfide, Amazon Transcribe ha una funzione utile che consente la creazione di sottotitoli direttamente all'interno del servizio. Non è necessario l'apprendimento automatico (ML) o la scrittura di codice per iniziare. Questo post ti guida attraverso l'impostazione di un flusso di lavoro senza codice per la creazione di sottotitoli video utilizzando Amazon Transcribe all'interno del tuo account Amazon Web Services.

Sottotitoli e sottotitoli

I termini sottotitoli ed sottotitoli sono comunemente usati in modo intercambiabile ed entrambi si riferiscono al testo parlato visualizzato sullo schermo. Tuttavia, una differenza principale tra sottotitoli e sottotitoli (basata sulle definizioni del settore e dell'accessibilità) è che i sottotitoli contengono sia la trascrizione della parola parlata che una descrizione della musica di sottofondo o dei suoni che si verificano all'interno della traccia audio per un'esperienza di accessibilità più ricca . Questo post si concentra solo sulla creazione di file di sottotitoli di parole pronunciate trascritte utilizzando la tecnologia di riconoscimento vocale automatico (ASR) che non contengono l'identificazione degli altoparlanti, gli effetti sonori o le descrizioni musicali. Amazon Transcribe supporta i formati standard del settore SubRip Text (*.srt) e Web Video Text Tracks (*.vtt) per creazione dei sottotitoli.

L'immagine seguente mostra un esempio di sottotitoli attivati all'interno di un video player web.

I sottotitoli avvantaggiano i creatori di video estendendo sia la portata che l'inclusività dei loro contenuti video. Visualizzando sullo schermo la parte audio parlata di un video, i sottotitoli rendono i contenuti audio/video accessibili a un pubblico più ampio, compresi quelli che non sono madrelingua e quelli che si trovano in un ambiente in cui il suono non è udibile.

Sebbene i vantaggi dei sottotitoli siano evidenti, i creatori di video hanno tradizionalmente affrontato ostacoli nella creazione dei sottotitoli. Gli ostacoli sorgono a causa dei requisiti dispendiosi in termini di tempo e risorse del tradizionale processo di creazione che dipendono fortemente dallo sforzo manuale. I metodi tradizionali di sottotitolazione sono manuali e possono richiedere giorni o settimane per essere completati e pertanto potrebbero non essere compatibili con tutti i programmi di produzione. Allo stesso modo, molte aziende utilizzano servizi di trascrizione manuale, ma questi processi spesso non sono scalabili e sono costosi da mantenere. Amazon Transcribe ti consente di convertire facilmente il parlato in testo utilizzando tecnologie basate su ML e aiuta i creatori di video a risolvere questi problemi.

Panoramica della soluzione

Questo post illustra un flusso di lavoro senza codice per la generazione dei sottotitoli utilizzando Servizio di archiviazione semplice Amazon (Amazon S3) e Amazon Transcribe.

Amazon S3 è lo storage di oggetti creato per archiviare e recuperare qualsiasi quantità di dati da qualsiasi luogo. Questo post illustra il processo di crea un bucket S3 e carica un file audio. Quando gli utenti archiviano i dati in Amazon S3, lavorano con risorse note come bucket e oggetti. UN benna è un contenitore per oggetti. Un oggetto è un file e tutti i metadati che descrivono quel file.

Amazon Transcribe è un servizio ASR che utilizza modelli ML completamente gestiti e continuamente addestrati per convertire file audio/video in testo. Gli input e gli output di Amazon Transcribe sono archiviati in Amazon S3. Amazon Transcribe acquisisce dati audio, un file multimediale in un bucket Amazon S3 o un flusso multimediale, e li converte in dati di testo. Amazon Transcribe ti consente di acquisire input audio, produrre trascrizioni di facile lettura con un elevato grado di precisione, personalizzare l'output per il vocabolario specifico del dominio utilizzando modelli linguistici personalizzati (CLM) e vocabolari personalizzatie filtrare i contenuti per garantire la privacy dei clienti. I clienti possono scegliere di utilizzare Amazon Transcribe per una varietà di applicazioni aziendali, tra cui trascrizione delle chiamate vocali del servizio clienti, generazione di sottotitoli su contenuti audio/videoe condurre un'analisi del contenuto (basata sul testo). sui contenuti audio/video. Per questo post, mostriamo la creazione di un lavoro di trascrizione e la revisione dell'output del lavoro.

Se preferisci una procedura dettagliata video, fai riferimento all'episodio degli snack video di Amazon Transcribe Creazione di sottotitoli video senza scrivere alcun codice.

Prerequisiti

Per esaminare la soluzione, è necessario disporre dei seguenti prerequisiti:

An Account AWS con sufficiente Gestione dell'identità e dell'accesso di AWS (IAM) privilegi utente
Un file audio/video con parole pronunciate in un file Lingua supportata da Amazon Transcribe e in a formato di input supportato

Se non disponi già di un file audio/video di esempio, puoi crearne uno utilizzando un'applicazione di registrazione video sul tuo computer o smartphone. Assicurati di parlare chiaramente nel microfono per garantire il massimo livello di qualità di trascrizione durante la registrazione. Un'altra opzione è trovare un download disponibile gratuitamente con parole pronunciate, come un podcast, o la procedura dettagliata video fornita in questo post, che può essere ingerito da Amazon Transcribe. Il file registrato o scaricato deve essere accessibile sul desktop per il caricamento sul tuo account AWS.

Prima di iniziare, rivedi il Amazon Transcribe ed Amazon S3 pagine dei prezzi per i prezzi dei servizi.

Crea i bucket S3

Per questo post, creiamo due bucket S3 per mantenere separati l'input e l'output.

Sulla console Amazon S3, scegli Crea un secchio.
Assegna a ogni bucket un nome univoco a livello globale.
Utilizza le impostazioni predefinite per garantire la conformità con le politiche della tua organizzazione.
permettere versione del secchio ed crittografia lato server predefinita (consigliato).
Scegli Crea un secchio.

La schermata seguente mostra la configurazione per il bucket di input.

Il bucket S3 per l'input è ora pronto per caricare il file audio/video. Al momento di questa pubblicazione, il la dimensione massima di input per Amazon Transcribe è 2 GB. Se il file video supera tale importo o è in a formato non supportato in modo nativo da Amazon Transcribe, considera l'utilizzo AWS Elemental MediaConvert a creare un output solo audio. Ciò è vantaggioso perché i file audio sono in genere molto più piccoli dei file video e Amazon Transcribe richiede solo la traccia audio, e non la traccia video, per generare trascrizioni e sottotitoli.

Carica il file di origine nel bucket S3

Per caricare il tuo file sorgente, completa i seguenti passaggi:

Sulla console Amazon S3, seleziona il tuo bucket di input.
Scegli Caricare.
Scegli il file dal desktop.
Accetta la classe di archiviazione predefinita e le impostazioni di crittografia o modificale in base alle politiche della tua organizzazione.
Scegli Caricare.

Crea un lavoro di trascrizione

Con il file di input pronto in Amazon S3, ora creiamo un processo di trascrizione in Amazon Transcribe.

Sulla Console Amazon Transcribescegli Lavori di trascrizione nel pannello di navigazione.
Scegli Crea lavoro.

Questa procedura dettagliata utilizza in gran parte le opzioni predefinite; tuttavia, dovresti scegliere la configurazione più adatta ai requisiti della tua organizzazione.

Nel Nome, inserisci un nome per questo lavoro e il file risultante.
Nel Impostazioni della lingua, selezionare Linguaggio specifico.
Nel Lingua, scegli la lingua di origine del file di input.
Nel Tipo di modelloSelezionare Modello generale.

Utilizziamo il modello generale per questa demo, ma ti invitiamo a esplorare la formazione e l'utilizzo modelli linguistici personalizzati per una maggiore precisione per casi d'uso specifici come termini o acronimi specifici del settore. Per un'analisi più approfondita dei modelli linguistici personalizzati, guarda il video snack di Amazon Transcribe Utilizzo dei modelli CLM (Custom Language Model) per potenziare la precisione della trascrizione.

Nel Inserisci la posizione del file su S3scegli Sfoglia S3.
Scegli il bucket di input e il file audio/video da trascrivere.
Nel Informazioni sul tipo di posizione dei dati di output, selezionare Secchio S3 specificato dal cliente.
Nel Destinazione file di output su S3scegli Sfoglia S3.
Scegli il bucket di output appena creato.

Il Formato del file dei sottotitoli la sezione fornisce le due opzioni più essenziali di questo intero post. Puoi selezionare gli output formattati *.srt e *.vtt come parte del processo di trascrizione di Amazon Transcribe. Al momento della stesura di questo documento, la selezione di uno o di entrambi non comporta alcun costo aggiuntivo per il processo di Amazon Transcribe.

Per questo post, seleziona entrambi SRT ed VTT.
Nel Specificare l'indice inizialescegli 0 or 1.

Questo valore si riferisce al numero iniziale del primo sottotitolo in sequenza. Se non sei sicuro di quale valore scegliere, 1 è il più comune.

Quando le impostazioni sono a posto, scegli Avanti.
Configura eventuali impostazioni opzionali in base alle tue esigenze.

Amazon Transcribe presenta opzioni per l'identificazione audio canali or Altoparlanti, risultati alternativi, Redazione PII, filtraggio del vocabolarioe vocabolario personalizzato. Per questo particolare post, puoi saltare queste opzioni di configurazione. Per un'analisi più approfondita delle opzioni di configurazione del lavoro, guarda gli episodi di snack video di Amazon Transcribe per vocabolario personalizzato, modelli linguistici personalizzatie filtraggio del vocabolario.

Scegli Crea lavoro.

Rivedere l'output del lavoro

Inizia il lavoro di trascrizione per creare i sottotitoli del tuo video. Lo stato del lavoro, come mostrato nella schermata seguente, viene visualizzato nel pannello dei dettagli del lavoro. Al termine del lavoro, scegli la posizione dei dati di output per individuare i sottotitoli appena creati nel bucket S3.

I sottotitoli sono identificati dalle estensioni *.srt o *.vtt. Quando selezioni l'oggetto nel bucket S3, hai la possibilità di scaricare il file.

Poiché questi sottotitoli sono in formato testo normale, qualsiasi editor di testo può visualizzare e modificare la trascrizione risultante. Il confronto dei file *.srt e *.vtt rivela molte somiglianze, con sottili differenze.

Quello che segue è un esempio di formato *.srt:

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

Quello che segue è un esempio di formato *.vtt:

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

I numeri indicano l'ordine di visualizzazione dei sottotitoli. Il codice temporale indica quando viene visualizzato il sottotitolo. Il testo è il testo del sottotitolo stesso.

Eventuali modifiche o revisioni sono ora possibili direttamente all'interno dell'editor di testo e rimangono compatibili se salvate con l'estensione *.srt o *.vtt. Puoi anche visualizzare in anteprima le modifiche sulla piattaforma video stessa, all'interno di un'applicazione di editing video o all'interno di un lettore video.

VLC è un popolare lettore video open source e multipiattaforma che supporta i sottotitoli *.srt e *.vtt. Per riprodurre automaticamente i sottotitoli su un video all'interno di VLC, posiziona sia il video originale che il file dei sottotitoli nella stessa directory con lo stesso identico nome file prima dell'estensione del file.

Ora, quando apri il file video all'interno di VLC, il file dei sottotitoli dovrebbe rilevare e riprodurre automaticamente all'interno della finestra del lettore video.

ripulire

Per evitare di incorrere in addebiti futuri, vuoto ed delete i bucket S3 utilizzati per l'input e l'output. Assicurati di avere tutti i file necessari archiviati in quanto ciò rimuoverà permanentemente tutti gli oggetti contenuti nei bucket. Sul Trascrivi console, seleziona ed elimina tutti i lavori che non sono più necessari.

Conclusione

Ora hai creato un flusso di lavoro completo per la creazione di sottotitoli end-to-end per aumentare e accelerare il processo di creazione dei sottotitoli video e tutto senza scrivere alcun codice. In pochi minuti hai creato bucket di archiviazione S3, caricato un file su Amazon S3 e utilizzato Amazon Transcribe per la creazione dei sottotitoli. È quindi possibile scaricare i file dei sottotitoli *.srt e *.vtt risultanti per la revisione e caricarli sulla piattaforma di destinazione.

Questo flusso di lavoro si è concentrato sui sottotitoli audio/video creati utilizzando la tecnologia di riconoscimento vocale automatico (ASR) in Amazon Transcribe specificamente per i flussi di lavoro video. Questo flusso di lavoro da solo non sostituisce un processo di sottotitoli basato sull'uomo, che è in grado di soddisfare standard più elevati per l'accessibilità, tra cui l'identificazione degli altoparlanti, gli effetti sonori, la descrizione della musica e la revisione del copyediting per la precisione. Puoi utilizzare il metodo di modifica del testo descritto in questo post per aggiungere questi elementi al termine del processo Amazon Transcribe iniziale. Inoltre, per la creazione di sottotitoli, l'anteprima e il copyediting più avanzati basati su browser, puoi esplorare la distribuzione di Localizzazione dei contenuti su AWS soluzione verificata da AWS Solution Architects e include un guida all'implementazione. Questa soluzione offre funzionalità aggiuntive come anteprima nel browser e modifica dei sottotitoli, traduzione dei sottotitoli fornita da Amazon Traduttoree le capacità di visione artificiale offerte da Rekognition di Amazon.

Se ti è piaciuta questa dimostrazione della capacità di Amazon Transcribe di creare sottotitoli, considera di approfondire le funzionalità e le capacità aggiuntive per accelerare i flussi di lavoro audio/video. Per ulteriori dettagli ed esempi di codice per supportare l'automazione e il ridimensionamento della creazione dei sottotitoli, fare riferimento a Creazione di sottotitoli video. Buona fortuna per l'esplorazione e lo sviluppo del flusso di lavoro di creazione dei sottotitoli.

L'autore

Jason O'Malley è un Sr. Partner Solutions Architect presso AWS che supporta i partner che progettano soluzioni per il settore dei media, delle comunicazioni e della tecnologia. Prima di entrare in AWS, Jason ha trascorso 13 anni nel settore dei media e dell'intrattenimento in aziende come il Team Coco di Conan O'Brien, WarnerMedia e Media.Monks. Jason ha iniziato la sua carriera nella produzione e post-produzione televisiva prima di creare carichi di lavoro multimediali su AWS. Quando Jason non sta creando soluzioni per partner e clienti, può essere trovato ad avventurarsi con sua moglie e suo figlio, oa leggere sulla sostenibilità.