L'IA est utilisée pour tout générer à partir de satellite à texte à protéines artificielles, et maintenant une autre chose a été ajoutée à la liste : la parole. La semaine dernière, des chercheurs de Microsoft a publié un article sur une nouvelle IA appelée VALL-E qui peut simuler avec précision la voix de n'importe qui sur la base d'un échantillon de seulement trois secondes. VALL-E n'est pas le premier simulateur de parole à être créé, mais il est construit d'une manière différente de ses prédécesseurs et pourrait comporter un plus grand risque d'utilisation abusive potentielle.
La plupart des modèles de synthèse vocale existants utilisent des formes d'onde (représentations graphiques des ondes sonores lorsqu'elles se déplacent à travers un support au fil du temps) pour créer de fausses voix, en ajustant des caractéristiques telles que le ton ou la hauteur pour se rapprocher d'une voix donnée. VALL-E, cependant, prend un échantillon de la voix de quelqu'un et le décompose en composants appelés jetons, puis utilise ces jetons pour créer de nouveaux sons basés sur les "règles" qu'il a déjà apprises sur cette voix. Si une voix est particulièrement profonde, ou si un locuteur prononce ses A de manière nasale, ou s'il est plus monotone que la moyenne, ce sont tous des traits que l'IA détecterait et serait capable de reproduire.
Le modèle est basé sur une technologie appelée EnCodec par Meta, qui vient de sortir cette partie d'octobre. L'outil utilise un système en trois parties pour compresser l'audio à 10 fois plus petit que les MP3 sans perte de qualité ; ses créateurs voulaient que l'une de ses utilisations améliore la qualité de la voix et de la musique lors des appels passés sur des connexions à faible bande passante.
Pour former VALL-E, ses créateurs ont utilisé une bibliothèque audio appelée LibriLight, dont les 60,000 7,000 heures de discours en anglais sont principalement constituées de narration de livres audio. Le modèle donne ses meilleurs résultats lorsque la voix synthétisée est similaire à l'une des voix de la bibliothèque de formation (dont il y en a plus de XNUMX XNUMX, donc cela ne devrait pas être trop lourd).
En plus de recréer la voix de quelqu'un, VALL-E simule également l'environnement audio à partir de l'échantillon de trois secondes. Un clip enregistré par téléphone aurait un son différent de celui réalisé en personne, et si vous marchez ou conduisez tout en parlant, l'acoustique unique de ces scénarios est prise en compte.
Une partie de la échantillons semblent assez réalistes, tandis que d'autres sont encore très manifestement générés par ordinateur. Mais il y a des différences notables entre les voix; vous pouvez dire qu'ils sont basés sur des personnes qui ont des styles de parole, des hauteurs et des modèles d'intonation différents.
L'équipe qui a créé VALL-E sait qu'il pourrait très facilement être utilisé par de mauvais acteurs ; Qu'il s'agisse de simuler des extraits sonores de politiciens ou de célébrités ou d'utiliser des voix familières pour demander de l'argent ou des informations par téléphone, il existe d'innombrables façons de tirer parti de la technologie. Ils se sont sagement abstenus de rendre le code de VALL-E accessible au public et ont inclus une déclaration d'éthique à la fin de leur article (ce qui ne fera pas grand-chose pour dissuader quiconque souhaite utiliser l'IA à des fins néfastes).
Ce n'est probablement qu'une question de temps avant que des outils similaires n'apparaissent et ne tombent entre de mauvaises mains. Les chercheurs suggèrent que les risques que présenteront des modèles comme VALL-E pourraient être atténués en créant des modèles de détection pour évaluer si les clips audio sont réels ou synthétisés. Si nous avons besoin de l'IA pour nous protéger de l'IA, comment savoir si ces technologies ont un impact positif net ? Le temps nous le dira.
Crédit image: Shutterstock.com/Tancha
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
- La source: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Capable
- À propos
- Compte
- avec précision
- ajoutée
- Avantage
- AI
- Tous
- déjà
- ainsi que
- Une autre
- chacun.e
- acoustique
- disponibles
- moyen
- Mal
- basé
- before
- va
- LES MEILLEURS
- jusqu'à XNUMX fois
- pauses
- Développement
- construit
- appelé
- Appels
- porter
- célébrités
- caractéristiques
- clips
- code
- composants électriques
- généré par ordinateur
- Connexions
- pourriez
- engendrent
- créée
- créateurs
- crédit
- profond
- Détection
- différences
- différent
- down
- conduite
- même
- Anglais
- Environment
- éthique
- peut
- existant
- équitablement
- faux
- Automne
- familier
- Prénom
- de
- générer
- GitHub
- donné
- plus grand
- Mains
- ayant
- HEURES
- Comment
- HTTPS
- Impact
- l'amélioration de
- in
- inclus
- d'information
- IT
- Savoir
- Nom de famille
- savant
- Bibliothèque
- Probable
- Liste
- Location
- perte
- LES PLANTES
- Fabrication
- Matière
- moyenne
- modèle
- numériques jumeaux (digital twin models)
- de l'argent
- PLUS
- Bougez
- Musique
- Besoin
- net
- Nouveauté
- octobre
- ONE
- de commander
- Autres
- Papier
- partie
- particulièrement
- motifs
- Personnes
- personne
- Téléphone
- en particulier pendant la préparation
- Emplacement
- emplacements
- Platon
- Intelligence des données Platon
- PlatonDonnées
- Les politiciens
- positif
- défaillances
- représentent
- qui se déroulent
- protéger
- publiquement
- des fins
- qualité
- réal
- réaliste
- enregistré
- libéré
- nécessaire
- chercheurs
- Résultats
- Analyse
- risques
- scénarios
- secondes
- shutterstock
- similaires
- simulateur
- faibles
- So
- Son
- Speaker
- parlant
- discours
- printemps
- Déclaration
- Encore
- combustion propre
- Prenez
- prend
- parlant
- équipe
- Les technologies
- Technologie
- Text-to-Speech
- La
- leur
- chose
- trois
- Avec
- fiable
- fois
- à
- Tokens
- TON
- trop
- outil
- les outils
- Train
- Formation
- peaufinage
- unique
- us
- utilisé
- Voix
- VOIX
- marche
- vagues
- façons
- semaine
- que
- qui
- tout en
- WHO
- sera
- pourra
- faux
- mauvaises mains
- rendements
- Vous
- Votre
- zéphyrnet