La nouvelle IA de Microsoft peut cloner votre voix en seulement 3 secondes

Republié par Platon

Suiveurs: 0

La nouvelle IA de Microsoft peut cloner votre voix en seulement 3 secondes PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

L'IA est utilisée pour tout générer à partir de satellite à texte à protéines artificielles, et maintenant une autre chose a été ajoutée à la liste : la parole. La semaine dernière, des chercheurs de Microsoft a publié un article sur une nouvelle IA appelée VALL-E qui peut simuler avec précision la voix de n'importe qui sur la base d'un échantillon de seulement trois secondes. VALL-E n'est pas le premier simulateur de parole à être créé, mais il est construit d'une manière différente de ses prédécesseurs et pourrait comporter un plus grand risque d'utilisation abusive potentielle.

La plupart des modèles de synthèse vocale existants utilisent des formes d'onde (représentations graphiques des ondes sonores lorsqu'elles se déplacent à travers un support au fil du temps) pour créer de fausses voix, en ajustant des caractéristiques telles que le ton ou la hauteur pour se rapprocher d'une voix donnée. VALL-E, cependant, prend un échantillon de la voix de quelqu'un et le décompose en composants appelés jetons, puis utilise ces jetons pour créer de nouveaux sons basés sur les "règles" qu'il a déjà apprises sur cette voix. Si une voix est particulièrement profonde, ou si un locuteur prononce ses A de manière nasale, ou s'il est plus monotone que la moyenne, ce sont tous des traits que l'IA détecterait et serait capable de reproduire.

Le modèle est basé sur une technologie appelée EnCodec par Meta, qui vient de sortir cette partie d'octobre. L'outil utilise un système en trois parties pour compresser l'audio à 10 fois plus petit que les MP3 sans perte de qualité ; ses créateurs voulaient que l'une de ses utilisations améliore la qualité de la voix et de la musique lors des appels passés sur des connexions à faible bande passante.

Pour former VALL-E, ses créateurs ont utilisé une bibliothèque audio appelée LibriLight, dont les 60,000 7,000 heures de discours en anglais sont principalement constituées de narration de livres audio. Le modèle donne ses meilleurs résultats lorsque la voix synthétisée est similaire à l'une des voix de la bibliothèque de formation (dont il y en a plus de XNUMX XNUMX, donc cela ne devrait pas être trop lourd).

En plus de recréer la voix de quelqu'un, VALL-E simule également l'environnement audio à partir de l'échantillon de trois secondes. Un clip enregistré par téléphone aurait un son différent de celui réalisé en personne, et si vous marchez ou conduisez tout en parlant, l'acoustique unique de ces scénarios est prise en compte.

Une partie de la échantillons semblent assez réalistes, tandis que d'autres sont encore très manifestement générés par ordinateur. Mais il y a des différences notables entre les voix; vous pouvez dire qu'ils sont basés sur des personnes qui ont des styles de parole, des hauteurs et des modèles d'intonation différents.

L'équipe qui a créé VALL-E sait qu'il pourrait très facilement être utilisé par de mauvais acteurs ; Qu'il s'agisse de simuler des extraits sonores de politiciens ou de célébrités ou d'utiliser des voix familières pour demander de l'argent ou des informations par téléphone, il existe d'innombrables façons de tirer parti de la technologie. Ils se sont sagement abstenus de rendre le code de VALL-E accessible au public et ont inclus une déclaration d'éthique à la fin de leur article (ce qui ne fera pas grand-chose pour dissuader quiconque souhaite utiliser l'IA à des fins néfastes).

Ce n'est probablement qu'une question de temps avant que des outils similaires n'apparaissent et ne tombent entre de mauvaises mains. Les chercheurs suggèrent que les risques que présenteront des modèles comme VALL-E pourraient être atténués en créant des modèles de détection pour évaluer si les clips audio sont réels ou synthétisés. Si nous avons besoin de l'IA pour nous protéger de l'IA, comment savoir si ces technologies ont un impact positif net ? Le temps nous le dira.

Crédit image: Shutterstock.com/Tancha

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
La source: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

Horodatage: 12 janvier 2023

Horodatage: 17 février 2024

La nouvelle IA de Microsoft peut cloner votre voix en seulement 3 secondes

Republié par Platon

Plus de Singularity Hub

La mesure de l'hélium dans les galaxies lointaines peut donner aux physiciens un aperçu de la raison pour laquelle l'univers existe

Les éléments constitutifs de la vie peuvent s'être formés dans les embruns marins primordiaux

Le conflit en Ukraine pousse le monde à la course aux énergies renouvelables, selon un rapport de l'AIE

L’édition génétique CRISPR a connu une année décisive – et ce n’est que le début

Comment l'étude de la sensibilité animale pourrait aider à résoudre le casse-tête éthique de l'IA sensible

Tirer de la poussière de lune dans l'espace comme "écran solaire" pour la Terre pourrait aider à stopper le changement climatique

Les voitures sans conducteur de Waymo arrivent sur les autoroutes sans conducteurs sécuritaires en Arizona

Cette IA peut concevoir des protéines complexes parfaitement adaptées à nos besoins

Cette startup soutenue par Gates construit des maisons modulaires à partir de panneaux écoénergétiques

La minuscule nouvelle IA de NVIDIA transforme les photos en scènes 3D complètes en quelques secondes

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte