Amazon Transcribe est un service de reconnaissance vocale automatique (ASR) entièrement géré qui vous permet d'ajouter facilement des fonctionnalités de synthèse vocale à vos applications. Aujourd'hui, nous sommes heureux d'annoncer un système de nouvelle génération basé sur un modèle de fondation vocale de plusieurs milliards de paramètres qui étend la reconnaissance vocale automatique à plus de 100 langues . Dans cet article, nous discutons de certains des avantages de ce système, de la manière dont les entreprises l'utilisent et de la manière de démarrer. Nous fournissons également un exemple de sortie de transcription ci-dessous.
Le modèle de base de la parole de Transcribe est formé à l'aide des meilleurs algorithmes auto-supervisés pour apprendre les modèles universels inhérents à la parole humaine à travers les langues et les accents. Il est formé sur des millions d’heures de données audio non étiquetées provenant de plus de 100 langues. Les recettes de formation sont optimisées grâce à un échantillonnage intelligent des données pour équilibrer les données de formation entre les langues, garantissant ainsi que les langues traditionnellement sous-représentées atteignent également des niveaux de précision élevés.
Carbyne est une société de logiciels qui développe des solutions de centre de contact critiques basées sur le cloud pour les intervenants en cas d'appel d'urgence. La mission de Carbyne est d'aider les intervenants d'urgence à sauver des vies, et la langue ne peut pas faire obstacle à leurs objectifs. Voici comment ils utilisent Amazon Transcribe pour poursuivre leur mission :
« La traduction audio Carbyne Live, basée sur l'IA, vise directement à contribuer à améliorer les réponses d'urgence pour les 68 millions d'Américains qui parlent une langue autre que l'anglais à la maison, en plus des 79 millions de visiteurs étrangers qui visitent le pays chaque année. En tirant parti du nouveau modèle de base multilingue d'Amazon Transcribe basé sur l'ASR, Carbyne sera encore mieux équipé pour démocratiser les services d'urgence qui sauvent des vies, car Every. Personne. Ça compte.
– Alex Dizengof, co-fondateur et CTO de Carbyne.
En tirant parti du modèle de base de la parole, Amazon Transcribe offre une amélioration significative de la précision, comprise entre 20 % et 50 % dans la plupart des langues. Sur la parole téléphonique, qui est un domaine difficile et rare en données, l'amélioration de la précision se situe entre 30 % et 70 %. En plus d'une amélioration substantielle de la précision, ce grand modèle ASR offre également des améliorations en termes de lisibilité avec une ponctuation et une majuscule plus précises. Avec l'avènement de l'IA générative, des milliers d'entreprises utilisent Amazon Transcribe pour obtenir des informations riches sur leur contenu audio. Avec une précision considérablement améliorée et une prise en charge de plus de 100 langues, Amazon Transcribe aura un impact positif sur tous ces cas d'utilisation. Tous les clients existants et nouveaux utilisant Amazon Transcribe en mode batch peuvent accéder à la reconnaissance vocale basée sur le modèle Speech Foundation sans avoir besoin de modifier le point de terminaison de l'API ou les paramètres d'entrée.
Le nouveau système ASR offre plusieurs fonctionnalités clés dans plus de 100 langues liées à la facilité d'utilisation, à la personnalisation, à la sécurité des utilisateurs et à la confidentialité. Celles-ci incluent des fonctionnalités telles que la ponctuation automatique, le vocabulaire personnalisé, l'identification automatique de la langue, la diarisation du locuteur, les scores de confiance au niveau des mots et le filtre de vocabulaire personnalisé. La prise en charge étendue du système pour différents accents, environnements sonores et conditions acoustiques vous permet de produire des sorties plus précises et vous aide ainsi à intégrer efficacement les technologies vocales dans vos applications.
Grâce à la grande précision d'Amazon Transcribe dans différents accents et conditions de bruit, à sa prise en charge d'un grand nombre de langues et à l'étendue de ses fonctionnalités à valeur ajoutée, des milliers d'entreprises seront en mesure de : débloquez des informations riches sur leur contenu audio, ainsi qu’augmentez l’accessibilité et la découvrabilité de leur contenu audio et vidéo dans divers domaines. Par exemple, les centres de contact transcrivent et analysent les appels des clients pour identifier des informations et améliorer par la suite l'expérience client et la productivité des agents. Les producteurs de contenu et les distributeurs de médias génèrent automatiquement des sous-titres à l'aide d'Amazon Transcribe pour améliorer l'accessibilité du contenu.
Commencez avec Amazon Transcribe
Vous pouvez utiliser le Interface de ligne de commande AWS (AWS CLI), Console de gestion AWSet divers SDK AWS pour les transcriptions par lots et continuez à utiliser le même StartTranscriptionJob
API pour bénéficier des avantages en termes de performances du modèle ASR amélioré sans avoir à modifier le code ou les paramètres de votre côté. Pour plus d'informations sur l'utilisation de l'AWS CLI et de la console, reportez-vous à Transcription avec l'AWS CLI ainsi que Transcription avec AWS Management Console, Respectivement.
La première étape consiste à télécharger vos fichiers multimédias dans un Service de stockage simple Amazon (Amazon S3), un service de stockage d'objets conçu pour stocker et récupérer n'importe quelle quantité de données depuis n'importe où. Amazon S3 offre une durabilité, une disponibilité, des performances, une sécurité et une évolutivité pratiquement illimitées à un coût très faible. Vous pouvez choisir d'enregistrer votre transcription dans votre propre compartiment S3 ou de demander à Amazon Transcribe d'utiliser un compartiment sécurisé par défaut. Pour en savoir plus sur l'utilisation des compartiments S3, consultez Création, configuration et utilisation des compartiments Amazon S3.
Sortie de transcription
Amazon Transcribe utilise la représentation JSON pour sa sortie. Il fournit le résultat de la transcription sous deux formats différents : le format texte et le format détaillé. Rien ne change en ce qui concerne le point de terminaison de l'API ou les paramètres d'entrée.
Le format texte fournit la transcription sous forme de bloc de texte, tandis que le format détaillé fournit la transcription sous la forme d'éléments transcrits ordonnés en temps opportun, ainsi que des métadonnées supplémentaires par élément. Les deux formats existent en parallèle dans le fichier de sortie.
En fonction des fonctionnalités que vous sélectionnez lors de la création de la tâche de transcription, Amazon Transcribe crée des vues supplémentaires et enrichies du résultat de la transcription. Voir l'exemple de code suivant :
Les vues sont les suivantes :
- transcriptions – Représenté par le
transcripts
élément, il contient uniquement le format texte de la transcription. Dans les scénarios multi-locuteurs et multicanaux, la concaténation de toutes les transcriptions est fournie en un seul bloc. - Orateurs – Représenté par le
speaker_labels
élément, il contient le texte et les formats détaillés de la transcription regroupés par locuteur. Il n'est disponible que lorsque la fonctionnalité multi-haut-parleurs est activée. - Canaux – Représenté par le
channel_labels
Élément, il contient le texte et les formats détaillés de la transcription, regroupés par canal. Il n'est disponible que lorsque la fonctionnalité multicanaux est activée. - Articles – Représenté par le
items
élément, il contient uniquement le format détaillé de la transcription. Dans les scénarios multi-haut-parleurs et multi-canaux, les éléments sont enrichis de propriétés supplémentaires, indiquant le haut-parleur et le canal. - Secteurs d’activités – Représenté par le
segments
Élément, il contient le texte et les formats détaillés de la transcription, regroupés par transcription alternative. Il n'est disponible que lorsque la fonctionnalité de résultats alternatifs est activée.
Conclusion
Chez AWS, nous innovons constamment au nom de nos clients. En étendant la prise en charge linguistique dans Amazon Transcribe à plus de 100 langues, nous permettons à nos clients de servir des utilisateurs issus de divers horizons linguistiques. Cela améliore non seulement l’accessibilité, mais ouvre également de nouvelles voies de communication et d’échange d’informations à l’échelle mondiale. Pour en savoir plus sur les fonctionnalités abordées dans cet article, consultez page des fonctionnalités ainsi que quoi de neuf.
À propos des auteurs
Sumit Kumar est chef de produit principal, technique au sein de l'équipe AWS AI Language Services. Il possède 10 ans d'expérience en gestion de produits dans une variété de domaines et est passionné par l'IA/ML. En dehors du travail, Sumit adore voyager et jouer au cricket et au tennis sur gazon.
Vivek Singh est responsable principal de la gestion des produits au sein de l'équipe AWS AI Language Services. Il dirige l'équipe produit Amazon Transcribe. Avant de rejoindre AWS, il a occupé des postes de gestion de produits dans diverses autres organisations Amazon telles que les paiements des consommateurs et la vente au détail. Vivek vit à Seattle, WA et aime courir et faire de la randonnée.
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
- PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
- PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
- PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
- La source: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/
- :possède
- :est
- :ne pas
- $UP
- 10
- 100
- 14
- 24
- 7
- a
- A Propos
- accès
- accessibilité
- précision
- Avec cette connaissance vient le pouvoir de prendre
- à travers
- ajouter
- ajout
- Supplémentaire
- avènement
- Agent
- AI
- AI / ML
- Destinée
- alex
- algorithmes
- Tous
- le long de
- aussi
- alternative
- Amazon
- Amazon Transcribe
- Amazon Web Services
- Américains
- montant
- an
- il analyse
- ainsi que
- Annoncer
- Annonce
- Annuellement
- tous
- de n'importe où
- api
- applications
- SONT
- AS
- At
- acoustique
- Automatique
- automatiquement
- disponibilité
- disponibles
- pistes
- AWS
- milieux
- Balance
- BE
- car
- nom
- ci-dessous
- avantages.
- Améliorée
- jusqu'à XNUMX fois
- Block
- tous les deux
- largeur
- construit
- mais
- by
- Appelez-nous
- Appels
- CAN
- capacités
- capitalisation
- cas
- Canaux centraux
- Centres
- difficile
- Change
- Modifications
- Développement
- Voies
- vérifier
- Selectionnez
- Co-fondateur
- code
- Communication
- Sociétés
- Société
- Complété
- conditions
- confiance
- Configurer
- Console
- constamment
- consommateur
- contact
- centre de contact
- contient
- contenu
- continuer
- Prix
- Pays
- crée des
- La création
- cricket
- CTO
- Customiser
- des clients
- expérience client
- Clients
- personnalisation
- données
- Réglage par défaut
- offre
- démocratiser
- développe
- différent
- directement
- discuter
- discuté
- distributeurs
- plusieurs
- domaine
- domaines
- durabilité
- facilité
- facilité d'utilisation
- de manière efficace
- non plus
- élément
- enchâsser
- urgence climatique.
- empowered
- permettre
- activé
- permet
- fin
- Endpoint
- Anglais
- améliorée
- Améliore
- enrichi
- assurer
- entreprises
- environnements
- équipé
- Pourtant, la
- Chaque
- exemple
- échange
- exister
- existant
- étendu
- se développe
- d'experience
- extension
- Fonctionnalité
- Fonctionnalités:
- Déposez votre dernière attestation
- Fichiers
- une fonction filtre
- Prénom
- Abonnement
- suit
- Pour
- étranger
- formulaire
- le format
- Fondation
- De
- d’étiquettes électroniques entièrement
- générer
- génératif
- IA générative
- obtenez
- Global
- échelle globale
- Objectifs
- heureux vous
- Vous avez
- he
- Tenue
- vous aider
- aider
- aide
- ici
- hi
- Haute
- Accueil
- HEURES
- Comment
- How To
- HTML
- http
- HTTPS
- humain
- Identification
- identifier
- Impact
- améliorer
- amélioré
- amélioration
- améliorations
- in
- comprendre
- Améliore
- leader de l'industrie
- d'information
- inhérent
- innover
- contribution
- idées.
- instance
- développement
- IT
- articles
- SES
- Emploi
- joindre
- jpg
- json
- ACTIVITES
- langue
- Langues
- gros
- Conduit
- APPRENTISSAGE
- niveaux
- en tirant parti
- Gamme
- le travail
- Vit
- aime
- Faible
- a prendre une
- FAIT DU
- gérés
- gestion
- manager
- Médias
- Métadonnées
- million
- des millions
- Mission
- Mode
- modèle
- PLUS
- (en fait, presque toutes)
- besoin
- Nouveauté
- La prochaine génération
- Bruit
- rien
- nombre
- objet
- of
- Offres Speciales
- on
- uniquement
- ouvre
- optimisé
- or
- organisations
- Autre
- nos
- ande
- sortie
- sorties
- au contrôle
- plus de
- propre
- Parallèle
- paramètre
- paramètres
- passionné
- motifs
- Paiements
- /
- performant
- personne
- Platon
- Intelligence des données Platon
- PlatonDonnées
- jouer
- positivement
- Post
- alimenté
- Directeur
- Avant
- la confidentialité
- produire
- Nos producteurs
- Produit
- gestion des produits
- chef de produit
- productivité
- propriétés
- fournir
- à condition de
- fournit
- poursuivre
- nous joindre
- reconnaissance
- reportez-vous
- en relation
- représentation
- représenté
- respect
- respectivement
- réponse
- résultat
- Résultats
- détail
- Rich
- rôle
- pour le running
- Sécurité
- même
- Épargnez
- Évolutivité
- Escaliers intérieurs
- scénarios
- Seattle
- sécurisé
- sécurité
- sur le lien
- segments
- Sélectionner
- supérieur
- besoin
- service
- Services
- Sets
- plusieurs
- significative
- de façon significative
- étapes
- unique
- smart
- Logiciels
- Solutions
- quelques
- parler
- Speaker
- haut-parleurs
- discours
- Reconnaissance vocale
- parole-texte
- j'ai commencé
- Statut
- étapes
- storage
- Boutique
- simple
- Par la suite
- Ces
- les sous-titres
- tel
- Support
- combustion propre
- équipe
- Technique
- Les technologies
- texte
- que
- qui
- La
- leur
- ainsi
- Ces
- l'ont
- this
- milliers
- Avec
- opportun
- à
- aujourd'hui
- traditionnellement
- qualifié
- Formation
- Transcription
- Traduction
- Voyage
- deux
- Universel
- illimité
- ouvrir
- utilisé
- Utilisateur
- utilisateurs
- Usages
- en utilisant
- variété
- divers
- très
- Vidéo
- vues
- pratiquement
- visiteurs
- Voix
- Façon..
- we
- web
- services Web
- bienvenu
- WELL
- quand
- Les
- qui
- WHO
- sera
- comprenant
- sans
- activités principales
- de travail
- années
- Vous n'avez
- Votre
- zéphyrnet