AI blir brukt til å generere alt fra bilder til tekst til kunstige proteiner, og nå er en annen ting lagt til listen: tale. Forrige uke forskere fra Microsoft har gitt ut et papir på en ny AI kalt VAL-E som nøyaktig kan simulere hvem som helsts stemme basert på en prøve som bare er tre sekunder lang. VALL-E er ikke den første talesimulatoren som ble opprettet, men den er bygget på en annen måte enn forgjengerne – og kan medføre en større risiko for potensiell misbruk.
De fleste eksisterende tekst-til-tale-modeller bruker bølgeformer (grafiske representasjoner av lydbølger når de beveger seg gjennom et medium over tid) for å lage falske stemmer, tilpasse egenskaper som tone eller tonehøyde for å tilnærme en gitt stemme. VALL-E tar imidlertid et utvalg av noens stemme og deler den opp i komponenter som kalles tokens, og bruker deretter disse tokenene til å lage nye lyder basert på "reglene" den allerede har lært om denne stemmen. Hvis en stemme er spesielt dyp, eller en høyttaler uttaler sine A-er på en nasal måte, eller de er mer monotone enn gjennomsnittet, er dette alle egenskaper AI vil fange opp og være i stand til å replikere.
Modellen er basert på en teknologi som kalles EnCodec av Meta, som nettopp ble utgitt denne delen av oktober. Verktøyet bruker et tredelt system for å komprimere lyd til 10 ganger mindre enn MP3-filer uten tap i kvalitet; skaperne var ment for en av bruksområder å forbedre kvaliteten på tale og musikk på samtaler som gjøres over tilkoblinger med lav båndbredde.
For å trene VALL-E brukte skaperne et lydbibliotek kalt LibriLight, hvis 60,000 7,000 timer engelsk tale hovedsakelig består av lydbokfortelling. Modellen gir sine beste resultater når stemmen som syntetiseres ligner på en av stemmene fra treningsbiblioteket (som det er over XNUMX av, så det burde ikke være for høyt).
I tillegg til å gjenskape noens stemme, simulerer ALL-E også lydmiljøet fra prøven på tre sekunder. Et klipp tatt opp over telefonen vil høres annerledes ut enn et som er laget personlig, og hvis du går eller kjører mens du snakker, tas den unike akustikken til disse scenariene i betraktning.
Noen av prøver høres ganske realistisk ut, mens andre fortsatt er veldig åpenbart datagenererte. Men det er merkbare forskjeller mellom stemmene; du kan se at de er basert på folk som har forskjellige talestiler, tonehøyder og intonasjonsmønstre.
Teamet som skapte VAL-E vet at det lett kan brukes av dårlige skuespillere; fra falske lydbiter fra politikere eller kjendiser til å bruke kjente stemmer for å be om penger eller informasjon over telefonen, det finnes utallige måter å dra nytte av teknologien på. De har klokelig avstått fra å gjøre VALL-Es kode offentlig tilgjengelig, og inkluderte en etikkerklæring på slutten av papiret deres (som ikke vil gjøre mye for å avskrekke alle som ønsker å bruke AI til uhyggelige formål).
Det er sannsynligvis bare et spørsmål om tid før lignende verktøy dukker opp og faller i feil hender. Forskerne foreslår at risikoen som modeller som VALL-E vil utgjøre kan reduseres ved å bygge deteksjonsmodeller for å måle om lydklipp er ekte eller syntetiserte. Hvis vi trenger AI for å beskytte oss mot AI, hvordan vet vi om disse teknologiene har en netto positiv effekt? Tiden vil vise.
Bilde Credit: Shutterstock.com/Tancha
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- I stand
- Om oss
- Logg inn
- nøyaktig
- la til
- Fordel
- AI
- Alle
- allerede
- og
- En annen
- noen
- lyd
- tilgjengelig
- gjennomsnittlig
- dårlig
- basert
- før du
- være
- BEST
- mellom
- pauser
- Bygning
- bygget
- som heter
- Samtaler
- bære
- kjendiser
- egenskaper
- klipp
- kode
- komponenter
- datagenerert
- Tilkoblinger
- kunne
- skape
- opprettet
- skaperne
- kreditt
- dyp
- Gjenkjenning
- forskjeller
- forskjellig
- ned
- kjøring
- lett
- Engelsk
- Miljø
- etikk
- alt
- eksisterende
- ganske
- forfalskning
- Fall
- kjent
- Først
- fra
- generere
- GitHub
- gitt
- større
- hender
- å ha
- TIMER
- Hvordan
- HTTPS
- Påvirkning
- bedre
- in
- inkludert
- informasjon
- IT
- Vet
- Siste
- lært
- Bibliotek
- Sannsynlig
- Liste
- Lang
- tap
- laget
- Making
- Saken
- medium
- modell
- modeller
- penger
- mer
- flytte
- musikk
- Trenger
- nett
- Ny
- oktober
- ONE
- rekkefølge
- andre
- Papir
- del
- spesielt
- mønstre
- porsjoner
- person
- telefon
- plukke
- Tonehøyde
- plasser
- plato
- Platon Data Intelligence
- PlatonData
- Politikere
- positiv
- potensiell
- presentere
- primært
- beskytte
- offentlig
- formål
- kvalitet
- ekte
- realistisk
- registrert
- utgitt
- anmode
- forskere
- Resultater
- Risiko
- risikoer
- scenarier
- sekunder
- Shutterstock
- lignende
- simulator
- mindre
- So
- Lyd
- Høyttaler
- sett
- tale
- vår
- Uttalelse
- Still
- system
- Ta
- tar
- snakker
- lag
- Technologies
- Teknologi
- Tekst-til-tale
- De
- deres
- ting
- tre
- Gjennom
- tid
- ganger
- til
- tokens
- TONE
- også
- verktøy
- verktøy
- Tog
- Kurs
- tweaking
- unik
- us
- bruke
- Voice
- STemmer
- walking
- bølger
- måter
- uke
- om
- hvilken
- mens
- HVEM
- vil
- ville
- Feil
- feil hender
- rentene
- Du
- Din
- zephyrnet