Microsofts nye AI kan klone stemmen din på bare 3 sekunder

Publisert av Platon

Følgere: 0

Microsofts nye AI kan klone stemmen din på bare 3 sekunder PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

AI blir brukt til å generere alt fra bilder til tekst til kunstige proteiner, og nå er en annen ting lagt til listen: tale. Forrige uke forskere fra Microsoft har gitt ut et papir på en ny AI kalt VAL-E som nøyaktig kan simulere hvem som helsts stemme basert på en prøve som bare er tre sekunder lang. VALL-E er ikke den første talesimulatoren som ble opprettet, men den er bygget på en annen måte enn forgjengerne – og kan medføre en større risiko for potensiell misbruk.

De fleste eksisterende tekst-til-tale-modeller bruker bølgeformer (grafiske representasjoner av lydbølger når de beveger seg gjennom et medium over tid) for å lage falske stemmer, tilpasse egenskaper som tone eller tonehøyde for å tilnærme en gitt stemme. VALL-E tar imidlertid et utvalg av noens stemme og deler den opp i komponenter som kalles tokens, og bruker deretter disse tokenene til å lage nye lyder basert på "reglene" den allerede har lært om denne stemmen. Hvis en stemme er spesielt dyp, eller en høyttaler uttaler sine A-er på en nasal måte, eller de er mer monotone enn gjennomsnittet, er dette alle egenskaper AI vil fange opp og være i stand til å replikere.

Modellen er basert på en teknologi som kalles EnCodec av Meta, som nettopp ble utgitt denne delen av oktober. Verktøyet bruker et tredelt system for å komprimere lyd til 10 ganger mindre enn MP3-filer uten tap i kvalitet; skaperne var ment for en av bruksområder å forbedre kvaliteten på tale og musikk på samtaler som gjøres over tilkoblinger med lav båndbredde.

For å trene VALL-E brukte skaperne et lydbibliotek kalt LibriLight, hvis 60,000 7,000 timer engelsk tale hovedsakelig består av lydbokfortelling. Modellen gir sine beste resultater når stemmen som syntetiseres ligner på en av stemmene fra treningsbiblioteket (som det er over XNUMX av, så det burde ikke være for høyt).

I tillegg til å gjenskape noens stemme, simulerer ALL-E også lydmiljøet fra prøven på tre sekunder. Et klipp tatt opp over telefonen vil høres annerledes ut enn et som er laget personlig, og hvis du går eller kjører mens du snakker, tas den unike akustikken til disse scenariene i betraktning.

Noen av prøver høres ganske realistisk ut, mens andre fortsatt er veldig åpenbart datagenererte. Men det er merkbare forskjeller mellom stemmene; du kan se at de er basert på folk som har forskjellige talestiler, tonehøyder og intonasjonsmønstre.

Teamet som skapte VAL-E vet at det lett kan brukes av dårlige skuespillere; fra falske lydbiter fra politikere eller kjendiser til å bruke kjente stemmer for å be om penger eller informasjon over telefonen, det finnes utallige måter å dra nytte av teknologien på. De har klokelig avstått fra å gjøre VALL-Es kode offentlig tilgjengelig, og inkluderte en etikkerklæring på slutten av papiret deres (som ikke vil gjøre mye for å avskrekke alle som ønsker å bruke AI til uhyggelige formål).

Det er sannsynligvis bare et spørsmål om tid før lignende verktøy dukker opp og faller i feil hender. Forskerne foreslår at risikoen som modeller som VALL-E vil utgjøre kan reduseres ved å bygge deteksjonsmodeller for å måle om lydklipp er ekte eller syntetiserte. Hvis vi trenger AI for å beskytte oss mot AI, hvordan vet vi om disse teknologiene har en netto positiv effekt? Tiden vil vise.

Bilde Credit: Shutterstock.com/Tancha

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
kilde: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

Tidstempel: Januar 12, 2023

Tidstempel: Februar 17, 2024

Microsofts nye AI kan klone stemmen din på bare 3 sekunder

Publisert av Platon

Mer fra Singularity Hub

Å måle helium i fjerne galakser kan gi fysikere innsikt i hvorfor universet eksisterer

Livets byggesteiner kan ha dannet seg i Primordial Sea Spray

Ukraina-konflikt har verden på fornybar energi, sier IEA-rapporten

CRISPR-genredigering hadde et gjennombruddsår – og det er bare å komme i gang

Hvordan å studere dyrefølelse kunne bidra til å løse det etiske puslespillet til Sentient AI

Å skyte månestøv ut i verdensrommet som en "solkrem" for jorden kan bidra til å stoppe klimaendringene

Waymos førerløse biler treffer motorveien uten sikkerhetssjåfører i Arizona

Denne AI kan designe komplekse proteiner perfekt skreddersydd til våre behov

Denne portstøttede oppstarten bygger modulære hjem av energieffektive paneler

NVIDIAs lille nye AI forvandler bilder til fulle 3D-scener på få sekunder

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn