Amazon Transcribe annuncia un nuovo sistema ASR basato sul modello Speech Foundation che espande il supporto a oltre 100 lingue

Ripubblicato da Platone

Seguaci: 0

Amazon Transcribe è un servizio di riconoscimento vocale automatico (ASR) completamente gestito che semplifica l'aggiunta di funzionalità di sintesi vocale alle tue applicazioni. Oggi siamo lieti di annunciare un sistema basato su modelli di base vocale multimiliardari di prossima generazione che espande il riconoscimento vocale automatico a oltre Lingue 100. In questo post, discutiamo alcuni dei vantaggi di questo sistema, come le aziende lo utilizzano e come iniziare. Di seguito forniamo anche un esempio dell'output della trascrizione.

Il modello di base del discorso di Transcribe viene addestrato utilizzando i migliori algoritmi auto-supervisionati della categoria per apprendere i modelli universali intrinseci del discorso umano attraverso lingue e accenti. È addestrato su milioni di ore di dati audio senza etichetta provenienti da oltre 100 lingue. Le ricette di formazione sono ottimizzate attraverso il campionamento intelligente dei dati per bilanciare i dati di formazione tra le lingue, garantendo che anche le lingue tradizionalmente sottorappresentate raggiungano livelli elevati di precisione.

Carbyne è una società di software che sviluppa soluzioni di contact center mission-critical basate su cloud per gli operatori di risposta alle chiamate di emergenza. La missione di Carbyne è aiutare i soccorritori a salvare vite umane e il linguaggio non può ostacolare il raggiungimento dei loro obiettivi. Ecco come utilizzano Amazon Transcribe per perseguire la loro missione:

“La traduzione audio dal vivo di Carbyne, basata sull’intelligenza artificiale, mira direttamente a contribuire a migliorare la risposta alle emergenze per i 68 milioni di americani che parlano una lingua diversa dall’inglese a casa, oltre ai circa 79 milioni di visitatori stranieri che ogni anno visitano il Paese. Sfruttando il nuovo modello di base multilingue di Amazon Transcribe basato su ASR, Carbyne sarà ancora più attrezzata per democratizzare i servizi di emergenza salvavita, perché Every. Persona. Conta."

– Alex Dizengof, co-fondatore e CTO di Carbyne.

Sfruttando il modello di base del parlato, Amazon Transcribe offre un significativo miglioramento della precisione tra il 20% e il 50% nella maggior parte delle lingue. Nel parlato della telefonia, che è un ambito impegnativo e con scarsità di dati, il miglioramento della precisione è compreso tra il 30% e il 70%. Oltre a un sostanziale miglioramento della precisione, questo ampio modello ASR offre anche miglioramenti nella leggibilità con punteggiatura e maiuscole più accurate. Con l'avvento dell'intelligenza artificiale generativa, migliaia di aziende utilizzano Amazon Transcribe per ottenere informazioni approfondite dai propri contenuti audio. Con una precisione e un supporto notevolmente migliorati per oltre 100 lingue, Amazon Transcribe avrà un impatto positivo su tutti questi casi d'uso. Tutti i clienti esistenti e nuovi che utilizzano Amazon Transcribe in modalità batch possono accedere al riconoscimento vocale basato sul modello Speech Foundation senza dover modificare l'endpoint API o i parametri di input.

Il nuovo sistema ASR offre diverse funzionalità chiave in tutte le oltre 100 lingue relative alla facilità d'uso, alla personalizzazione, alla sicurezza dell'utente e alla privacy. Queste includono funzionalità come la punteggiatura automatica, il vocabolario personalizzato, l'identificazione automatica della lingua, la diarizzazione del relatore, i punteggi di confidenza a livello di parola e il filtro del vocabolario personalizzato. Il supporto esteso del sistema per diversi accenti, ambienti di rumore e condizioni acustiche consente di produrre output più accurati e quindi di integrare in modo efficace le tecnologie vocali nelle proprie applicazioni.

Grazie all'elevata precisione di Amazon Transcribe in diversi accenti e condizioni di rumore, al supporto di un gran numero di lingue e all'ampiezza di set di funzionalità a valore aggiunto, migliaia di aziende avranno la possibilità di sbloccare approfondimenti approfonditi dai loro contenuti audio, nonché aumentare l'accessibilità e la rilevabilità dei loro contenuti audio e video in vari domini. Ad esempio, i contact center trascrivono e analizzano le chiamate dei clienti per identificare informazioni approfondite e successivamente migliorare l'esperienza del cliente e la produttività degli agenti. I produttori di contenuti e i distributori di contenuti multimediali generano automaticamente i sottotitoli utilizzando Amazon Transcribe per migliorare l'accessibilità dei contenuti.

Inizia con Amazon Transcribe

È possibile utilizzare il Interfaccia della riga di comando di AWS (AWS CLI), Console di gestione AWSe vari SDK AWS per le trascrizioni batch e continuare a utilizzare lo stesso StartTranscriptionJob API per ottenere vantaggi in termini di prestazioni dal modello ASR migliorato senza la necessità di apportare modifiche al codice o ai parametri da parte tua. Per ulteriori informazioni sull'utilizzo di AWS CLI e della console, fare riferimento a Trascrizione con AWS CLI ed Trascrizione con la Console di gestione AWS, Rispettivamente.

Il primo passo è caricare i file multimediali in un file Servizio di archiviazione semplice Amazon (Amazon S3), un servizio di storage di oggetti creato per archiviare e recuperare qualsiasi quantità di dati da qualsiasi luogo. Amazon S3 offre durabilità, disponibilità, prestazioni, sicurezza e scalabilità praticamente illimitata leader del settore a costi molto bassi. Puoi scegliere di salvare la trascrizione nel tuo bucket S3 oppure fare in modo che Amazon Transcribe utilizzi un bucket predefinito sicuro. Per ulteriori informazioni sull'utilizzo dei bucket S3, consulta Creazione, configurazione e utilizzo dei bucket Amazon S3.

Uscita della trascrizione

Amazon Transcribe utilizza la rappresentazione JSON per il suo output. Fornisce il risultato della trascrizione in due diversi formati: formato testo e formato dettagliato. Non cambia nulla rispetto all'endpoint API o ai parametri di input.

Il formato testo fornisce la trascrizione come un blocco di testo, mentre il formato dettagliato fornisce la trascrizione sotto forma di elementi trascritti tempestivamente ordinati, insieme a metadati aggiuntivi per elemento. Entrambi i formati esistono in parallelo nel file di output.

A seconda delle funzionalità selezionate durante la creazione del processo di trascrizione, Amazon Transcribe crea visualizzazioni aggiuntive e arricchite del risultato della trascrizione. Vedere il seguente codice di esempio:

{ "jobName": "2x-speakers_2x-channels", "accountId": "************", "results": { "transcripts": [
{ "transcript": "Hi, welcome." } ], "speaker_labels": [ { "channel_label": "ch_0", "speakers": 2, "segments": [ ] }, { "channel_label": "ch_1", "speakers": 2, "segments": [ ] } ], "channel_labels": { "channels": [ ], "number_of_channels": 2 }, "items": [ ], "segments": [ ] }, "status": "COMPLETED"
}

Le opinioni sono le seguenti:

trascrizioni – Rappresentato dal transcripts elemento, contiene solo il formato testo della trascrizione. Negli scenari con più parlanti e multicanale, la concatenazione di tutte le trascrizioni viene fornita come un unico blocco.
RELATORI – Rappresentato dal speaker_labels elemento, contiene il testo e i formati dettagliati della trascrizione raggruppati per relatore. È disponibile solo quando la funzione multi-altoparlante è abilitata.
Canali – Rappresentato dal channel_labels elemento, contiene il testo e i formati dettagliati della trascrizione, raggruppati per canale. È disponibile solo quando la funzionalità multicanale è abilitata.
articoli – Rappresentato dal items elemento, contiene solo il formato dettagliato della trascrizione. Negli scenari multi-altoparlante e multi-canale, gli elementi vengono arricchiti con proprietà aggiuntive, indicando altoparlante e canale.
Settori – Rappresentato dal segments elemento, contiene il testo e i formati dettagliati della trascrizione, raggruppati per trascrizione alternativa. È disponibile solo quando la funzionalità dei risultati alternativi è abilitata.

Conclusione

In AWS innoviamo costantemente per conto dei nostri clienti. Estendendo il supporto linguistico in Amazon Transcribe a oltre 100 lingue, consentiamo ai nostri clienti di servire utenti provenienti da contesti linguistici diversi. Ciò non solo migliora l’accessibilità, ma apre anche nuove strade per la comunicazione e lo scambio di informazioni su scala globale. Per saperne di più sulle funzionalità discusse in questo post, dai un'occhiata pagina delle caratteristiche ed cosa c'è di nuovo post.

Circa gli autori

Sumit Kumar è Principal Product Manager, tecnico presso il team AWS AI Language Services. Ha 10 anni di esperienza nella gestione dei prodotti in una varietà di domini ed è appassionato di AI/ML. Al di fuori del lavoro, Sumit ama viaggiare e si diverte a giocare a cricket e tennis su prato.

Amazon Transcribe announces a new speech foundation model-powered ASR system that expands support to over 100 languages | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Vivek Singh è Senior Manager, Product Management presso il team AWS AI Language Services. Dirige il team di prodotto Amazon Transcribe. Prima di entrare in AWS, ha ricoperto ruoli di gestione dei prodotti in varie altre organizzazioni Amazon, ad esempio pagamenti al consumo e vendita al dettaglio. Vivek vive a Seattle, WA e ama correre e fare escursioni.