La science derrière la façon dont l'IA de Microsoft peut imiter la voix de n'importe qui en 3 secondes

La science derrière la façon dont l'IA de Microsoft peut imiter la voix de n'importe qui en 3 secondes

La science derrière la façon dont l'IA de Microsoft peut imiter la voix de n'importe qui en 3 secondes PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Vous comprenez peut-être à quel point les programmes d'intelligence artificielle (IA) deviennent puissants. Ils imitent les arts des grands et écrivent des scripts pour les leaders mondiaux, provoquant des conversations mondiales autour de l'expansion rapide des outils d'IA.

Plus récemment, Microsoft a développé une IA pour le mimétisme vocal. Son efficacité et sa précision sont révolutionnaires, mais les utilisateurs remettent en question son objectif et son utilisation. Comment fonctionne cet outil et comment réplique-t-il les voix en si peu de temps ?

Rencontrez VALL-E

VALL-E est l'IA qui apprend à répliquer les voix en trois secondes. VALL-E est l'un des premiers à être si rapide à s'entraîner, car les itérations précédentes des programmes de synthèse vocale (TTS) ont eu du mal avec l'efficacité et les nuances des sons. 

"Cependant, VALL-E améliore la recherche pour cette étude à tous égards, en réduisant le temps de formation et en augmentant la précision des qualités vocales complexes comme le ton et le rythme." 

L'un des objectifs de VALL-E était de reproduire des détails qui les programmes TTS précédents ne pouvaient pas, et les essais montrent des résultats mitigés pour le modèle actuel. Pour l'authenticité, un programme comme celui-ci ne peut pas seulement copier la voix de la personne - il doit reproduire la qualité audio de l'appareil d'enregistrement et les influences environnementales de fond comme la statique ou le bruit. Bien que les chercheurs restent impressionnés par ses qualités réplicatives, Microsoft cherche à améliorer encore le timbre et les inflexions basées sur les émotions.

Parce que VALL-E n'est pas encore accessible au public, on ne sait pas comment il fonctionnera à plus grande échelle. Microsoft prend son temps, l'affinant avant sa sortie publique pour garantir une utilisation correcte. 

Étant donné que VALL-E fonctionne avec un échantillonnage vocal minimal, il n'est pas certain qu'il générera des clips audio plus longs avec cohésion. Les ensembles de données d'IA et d'apprentissage automatique ont presque d'innombrables points de données à prendre en compte. C'est un saut dans l'avenir de l'IA si Microsoft perfectionne la réplication vocale avec un si petit cadre de référence. 

Connaître la science

VALL-E réussit dans son objectif car il se marie bien avec la technologie existante. Par exemple, GPT-3 toujours utilise des modèles de traitement du langage pour perfectionner ses capacités de génération TTS pour une production claire et un montage précis. Cependant, d'autres modèles manipulent leurs ensembles de données pour créer de nouveaux contenus. VALL-E fait du contenu original.

En collaboration avec Meta, Microsoft utilise EnCodec et LibriLight pour informer VALL-E. EnCodec est un réseau neuronal de compression audio capable de discerner même les changements les plus mineurs dans l'audio. LibriLight est une bibliothèque audio contenant plus de 60,000 XNUMX heures de fichiers anglophones de différentes voix. 

«Avec ces pouvoirs, VALL-E peut prendre le clip audio de trois secondes, le transformer en un jeton qu'EnCodec peut analyser et le référencer aux données de la bibliothèque pour produire des répliques vocales authentiques. Comme EnCodec génère des fichiers à faible débit, la génération est plus rapide que les autres modèles de ce type. » 

Une séquence comme celle-ci générera des clips audio au son plus naturel, capables de tromper même la technologie de reconnaissance auditive ou vocale la plus entraînée.

La possibilité que cela aide les industries n'est pas quantifiable. Cela pourrait augmenter l'efficacité et la productivité tout en atténuant le stress dans tous les secteurs, pas seulement les communications. Cependant, il a une chance égale d'exacerber activité criminelle dans l'espace numérique, ainsi que d'autres conséquences.

Participer à la conversation

Comme pour la plupart des progrès de l'IA, des préoccupations éthiques se présentent. Comme pour toute génération de texte, l'IA fonctionne à partir de données - par conséquent, le plagiat sera toujours une considération. Cependant, VALL-E fait référence à des sources libres de droit, ce n'est donc pas encore une préoccupation majeure.

Cependant, Microsoft doit également se méfier du public qui utilise une technologie comme celle-ci à des fins hostiles, telles que la diffusion de fausses nouvelles ou la confusion des enquêtes avec de faux témoignages – peut-être de témoins qui ne vivent plus. Des industries spécifiques, comme le droit, devront inventer de nouvelles politiques et structures sur comment rencontrer des deepfakes dans la salle d'audience.

"Comme pour tout progrès technologique, une mauvaise utilisation n'est pas seulement probable, elle est inévitable." 

Outre la menace de vol de propriété ou d'identité créative, une intelligence artificielle génératrice de voix compétente pourrait menacer les moyens de subsistance de certaines professions ou supprimer l'expertise artistique et professionnelle d'industries qui dépendaient auparavant d'années consacrées à un métier.

Les acteurs de la voix, les rédacteurs de discours et les représentants du service client pourraient tous devenir obsolètes avec le mimétisme vocal de l'IA. La possibilité de cela est inconnue et probablement impossible d'une manière rapide et complète. Le résultat concevable est que le mimétisme vocal complétera ces industries au lieu de les remplacer. La génération de voix par IA pourrait aider à la génération d'idées ou agir comme un autre travailleur pour déléguer des tâches, en se déchargeant des travailleurs humains.

S'entendre avec l'IA à reproduction vocale

Malgré les préoccupations éthiques concernant l'IA de reproduction de la voix, Microsoft innove avec un outil progressif et ingénieux pour la nouvelle génération, en fonction de la manière dont le public l'utilise. La science derrière cet outil est l'aspect le plus révolutionnaire, et il pourrait informer les ingénieurs et les développeurs sur la manière d'étendre et de transformer l'IA pour de futures applications dans tous les secteurs. 

La technologie mise en œuvre avec VALL-E pourrait se traduire par des changements de mentalité pour l'industrie. La nature collaborative de ce projet fera progresser l'interactivité et le développement de l'IA vers une nouvelle ère de précision et d'efficacité.

Lisez aussi Lalal.AI pour un fractionnement audio de haute qualité 

Horodatage:

Plus de Technologie AIIOT