Identifica automaticamente le lingue nell'audio multilingue utilizzando Amazon Transcribe

Ripubblicato da Platone

Seguaci: 0

Se operi in un paese con più lingue ufficiali o in più regioni, i tuoi file audio possono contenere lingue diverse. I partecipanti possono parlare lingue completamente diverse o possono passare da una lingua all'altra. Prendi in considerazione una chiamata al servizio clienti per segnalare un problema in un'area con una consistente popolazione multilingue. Sebbene la conversazione possa iniziare in una lingua, è possibile che il cliente passi a un'altra lingua per descrivere il problema, a seconda del livello di comfort o delle preferenze di utilizzo con altre lingue. Allo stesso modo, il rappresentante dell'assistenza clienti può passare da una lingua all'altra mentre trasmette istruzioni operative o per la risoluzione dei problemi.

Con un minimo di 3 secondi di audio, Amazon Transcribe può identificare automaticamente e generare in modo efficiente trascrizioni nelle lingue parlate nell'audio senza bisogno di persone per specificare le lingue. Ciò si applica a vari casi d'uso come la trascrizione delle chiamate dei clienti, la conversione dei messaggi vocali in testo, l'acquisizione delle interazioni durante le riunioni, il monitoraggio delle comunicazioni dei forum degli utenti o il monitoraggio della produzione di contenuti multimediali e dei flussi di lavoro di localizzazione.

Questo post illustra i passaggi per trascrivere un file audio multilingue utilizzando Amazon Transcribe. Discutiamo su come rendere disponibili i file audio per Amazon Transcribe e abilitare la trascrizione di file audio multilingue quando si chiamano le API di Amazon Transcribe.

Panoramica della soluzione

Amazon Transcribe è un servizio AWS che semplifica la conversione del parlato in testo. L'aggiunta di funzionalità di sintesi vocale a qualsiasi applicazione è semplice con l'aiuto di Amazon Transcribe, un servizio di riconoscimento vocale automatizzato (ASR). Puoi importare l'input audio utilizzando Amazon Transcribe, creare trascrizioni chiare facili da leggere e rivedere, aumentare la precisione con la personalizzazione e filtrare le informazioni per proteggere la privacy dei clienti.

La soluzione utilizza anche Servizio di archiviazione semplice Amazon (Amazon S3), un servizio di archiviazione di oggetti creato per archiviare e recuperare qualsiasi quantità di dati da qualsiasi luogo. Si tratta di un semplice servizio di archiviazione che offre durabilità, disponibilità, prestazioni, sicurezza e scalabilità praticamente illimitate a un costo molto contenuto. Quando memorizzi i dati in Amazon S3, lavori con risorse note come benne ed oggetti. Un secchio è un contenitore per oggetti. Un oggetto è un file e tutti i metadati che descrivono il file.

In questo post, ti guidiamo attraverso i seguenti passaggi per implementare una soluzione di trascrizione audio multilingue:

Crea un bucket S3.
Carica il tuo file audio nel bucket.
Crea il lavoro di trascrizione.
Rivedere l'output del lavoro.

Prerequisiti

Per questa procedura dettagliata, è necessario disporre dei seguenti prerequisiti:

Amazon Transcribe offre la possibilità di archiviare l'output trascritto in un bucket S3 gestito dal servizio o gestito dal cliente. Per questo post, Amazon Transcribe scrive i risultati in un bucket S3 gestito dal servizio.

Tieni presente che Amazon Transcribe è un servizio regionale e gli endpoint API di Amazon Transcribe chiamati devono trovarsi nella stessa regione dei bucket S3.

Crea un bucket S3 per archiviare i tuoi file di input audio

Per creare il tuo bucket S3, completa i seguenti passaggi:

Sulla console Amazon S3, scegli Crea un secchio.
Nel Nome del secchio, inserisci un nome globalmente univoco per il bucket.
Nel Regione AWS, scegli la stessa regione degli endpoint API di Amazon Transcribe.
Lascia tutte le impostazioni predefinite così come sono.
Scegli Crea un secchio.

Carica il tuo file audio nel bucket S3

Carica il tuo file audio multilingue nel bucket S3 nel tuo account AWS. Per lo scopo di questo esercizio, utilizziamo il seguente esempio file audio multilingue. Cattura una chiamata all'assistenza clienti che coinvolge le lingue inglese e spagnola.

Sulla console Amazon S3, scegli Secchi nel pannello di navigazione.
Scegli il bucket che hai creato in precedenza per archiviare i file audio di input.
Scegli Caricare.
Scegli Aggiungere file.
Scegli il file audio che desideri trascrivere dal tuo computer locale.
Scegli Caricare.

Il tuo file audio sarà presto disponibile nel bucket S3.

Crea il lavoro di trascrizione

Con il file audio caricato, ora creiamo un lavoro di trascrizione.

Sulla console Amazon Transcribe, scegli Lavori di trascrizione nel pannello di navigazione.
Scegli Crea lavoro.
Nel Nome, inserisci un nome univoco per il lavoro.
Questo sarà anche il nome del file di trascrizione di output.
Nel Impostazioni della lingua, selezionare Identificazione automatica di più lingue.
Questa funzione consente ad Amazon Transcribe di identificare e trascrivere automaticamente tutte le lingue parlate nel file audio.
Nel Opzioni di lingua per l'identificazione automatica della lingua, lasciarlo deselezionato.
Amazon Transcribe identifica e trascrive automaticamente tutte le lingue parlate nell'audio. Per migliorare la precisione della trascrizione, puoi facoltativamente selezionare due o più lingue che sai essere parlate nell'audio.
Nel Tipo di modello, solo il Modello generale l'opzione è disponibile al momento della stesura di questo post.
Nel Dati in ingressoscegli Sfoglia S3.
Scegli il file sorgente audio che abbiamo caricato in precedenza.
Nel Dati di output, puoi selezionare entrambi Bucket S3 gestito dal servizio or Secchio S3 specificato dal cliente. Per questo post, seleziona Bucket S3 gestito dal servizio.
Scegli Avanti.
Scegli Crea lavoro.

Rivedere l'output del lavoro

Quando il lavoro di trascrizione è completo, apri il lavoro di trascrizione.

Scorri verso il basso fino a Anteprima della trascrizione sezione. La trascrizione audio viene visualizzata sul Testo scheda. La trascrizione include sia la parte inglese che quella spagnola della conversazione.

Facoltativamente, puoi scaricare una copia della trascrizione come file JSON, che potresti utilizzare per ulteriori scopi analisi post-chiamata.

ripulire

Per evitare di incorrere in addebiti futuri, svuota ed elimina il bucket S3 creato per l'archiviazione del file di origine audio di input. Assicurati di avere i file archiviati altrove perché questo rimuoverà definitivamente tutti gli oggetti contenuti nel bucket. Nella console di Amazon Transcribe, seleziona ed elimina il processo precedentemente creato per la trascrizione.

Conclusione

In questo post, abbiamo creato un flusso di lavoro end-to-end per automatizzare l'identificazione e la trascrizione di file audio multilingue, senza scrivere alcun codice. Abbiamo utilizzato la nuova funzionalità di Amazon Transcribe per identificare automaticamente diverse lingue in un file audio e trascrivere correttamente ogni lingua.

Per ulteriori informazioni, fare riferimento a Identificazione della lingua con lavori di trascrizione batch.

Informazioni sugli autori

Murtuza Bootwala è un Senior Solutions Architect presso AWS con un interesse per le tecnologie AI/ML. Gli piace lavorare con i clienti per aiutarli a raggiungere i loro risultati di business. Al di fuori del lavoro, ama le attività all'aria aperta e trascorrere del tempo con la famiglia.

Victor Red è appassionato di AI/ML e sviluppo software. Ha aiutato a far funzionare Amazon Alexa negli Stati Uniti e in Messico. Ha anche portato Amazon Textract in AWS Partners e ha fatto decollare AWS Contact Center Intelligence (CCI). Attualmente è Global Tech Leader for Conversational AI Partners.

Babu Srivasan è un AWS Sr. Specialist SA (Language AI Services) con sede a Chicago. Si concentra su Amazon Transcribe (da voce a testo), aiutando i nostri clienti a utilizzare i servizi di intelligenza artificiale per risolvere i problemi aziendali. Al di fuori del lavoro, gli piace lavorare il legno e fare spettacoli di magia.