AI används för att generera allt från bilder till text till konstgjorda proteiner, och nu har ytterligare en sak lagts till på listan: tal. Förra veckan forskare från Microsoft släppte ett papper på en ny AI som heter VAL-E som exakt kan simulera vem som helsts röst baserat på ett sampel bara tre sekunder långt. VALL-E är inte den första talsimulatorn som skapas, men den är byggd på ett annat sätt än sina föregångare – och kan medföra en större risk för potentiellt missbruk.
De flesta befintliga text-till-tal-modeller använder vågformer (grafiska representationer av ljudvågor när de rör sig genom ett medium över tiden) för att skapa falska röster, för att justera egenskaper som ton eller tonhöjd för att approximera en given röst. VALL-E tar dock ett prov av någons röst och delar upp den i komponenter som kallas tokens, och använder sedan dessa tokens för att skapa nya ljud baserat på de "regler" som den redan lärt sig om denna röst. Om en röst är särskilt djup, eller om en högtalare uttalar sina A:n på ett nasalt sätt, eller om de är mer monotona än genomsnittet, är dessa egenskaper som AI skulle ta upp och kunna replikera.
Modellen bygger på en teknik som kallas EnCodec av Meta, som just släpptes denna del oktober. Verktyget använder ett tredelat system för att komprimera ljud till 10 gånger mindre än MP3-filer utan kvalitetsförlust; dess skapare menade att en av dess användningsområden var att förbättra kvaliteten på röst och musik vid samtal som görs över anslutningar med låg bandbredd.
För att träna VALL-E använde dess skapare ett ljudbibliotek som heter LibriLight, vars 60,000 7,000 timmar engelska tal i första hand består av ljudboksberättelse. Modellen ger sina bästa resultat när rösten som syntetiseras liknar en av rösterna från träningsbiblioteket (av vilka det finns över XNUMX XNUMX, så det borde inte vara för högt).
Förutom att återskapa någons röst, simulerar ALL-E även ljudmiljön från det tre sekunder långa samplet. Ett klipp inspelat via telefon skulle låta annorlunda än ett som gjorts personligen, och om du går eller kör medan du pratar, tas den unika akustiken i dessa scenarier i beaktande.
En del av den prover låter ganska realistiskt, medan andra fortfarande är väldigt uppenbart datorgenererade. Men det finns märkbara skillnader mellan rösterna; du kan se att de är baserade på människor som har olika talstilar, tonhöjder och intonationsmönster.
Teamet som skapade VAL-E vet att det mycket lätt kan användas av dåliga skådespelare; från att fejka ljud från politiker eller kändisar till att använda bekanta röster för att begära pengar eller information via telefon, det finns otaliga sätt att dra fördel av tekniken. De har klokt nog avstått från att göra VALL-E:s kod offentligt tillgänglig, och inkluderade ett etikförklaring i slutet av deras artikel (som inte kommer att göra mycket för att avskräcka alla som vill använda AI:n för skändliga syften).
Det är troligen bara en tidsfråga innan liknande verktyg dyker upp och hamnar i fel händer. Forskarna föreslår att riskerna som modeller som VALL-E kommer att innebära kan minskas genom att bygga detekteringsmodeller för att mäta om ljudklipp är verkliga eller syntetiserade. Om vi behöver AI för att skydda oss från AI, hur vet vi då om dessa tekniker har en positiv nettoeffekt? Tiden får avgöra.
Image Credit: Shutterstock.com/Tancha
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
- Källa: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Able
- Om oss
- Konto
- exakt
- lagt till
- Fördel
- AI
- Alla
- redan
- och
- Annan
- någon
- audio
- tillgänglig
- genomsnitt
- Badrum
- baserat
- innan
- Där vi får lov att vara utan att konstant prestera,
- BÄST
- mellan
- raster
- Byggnad
- byggt
- kallas
- Samtal
- bära
- kändisar
- egenskaper
- klipp
- koda
- komponenter
- datorgenererad
- Anslutningar
- kunde
- skapa
- skapas
- skaparna
- kredit
- djup
- Detektering
- skillnader
- olika
- ner
- drivande
- lätt
- Engelska
- Miljö
- etik
- allt
- befintliga
- ganska
- fejka
- Höst
- bekant
- Förnamn
- från
- generera
- GitHub
- ges
- större
- händer
- har
- ÖPPETTIDER
- Hur ser din drömresa ut
- HTTPS
- Inverkan
- förbättra
- in
- ingår
- informationen
- IT
- Vet
- Efternamn
- lärt
- Bibliotek
- sannolikt
- Lista
- Lång
- förlust
- gjord
- Framställning
- Materia
- Medium
- modell
- modeller
- pengar
- mer
- flytta
- Musik
- Behöver
- netto
- Nya
- oktober
- ONE
- beställa
- Övrigt
- Papper
- del
- särskilt
- mönster
- Personer
- personen
- telefon
- plocka
- Tonhöjd
- platser
- plato
- Platon Data Intelligence
- PlatonData
- Politiker
- positiv
- potentiell
- presentera
- primärt
- skydda
- publicly
- syfte
- kvalitet
- verklig
- realistisk
- registreras
- frigörs
- begära
- forskare
- Resultat
- Risk
- risker
- scenarier
- sekunder
- shutterstock
- liknande
- Simulatorn
- mindre
- So
- ljud
- Högtalare
- tala
- tal
- vår
- .
- Fortfarande
- system
- Ta
- tar
- tala
- grupp
- Tekniken
- Teknologi
- Text-to-Speech
- Smakämnen
- deras
- sak
- tre
- Genom
- tid
- gånger
- till
- tokens
- TON
- alltför
- verktyg
- verktyg
- Tåg
- Utbildning
- tweaking
- unika
- us
- användning
- Röst
- RÖSTER
- gående
- vågor
- sätt
- vecka
- om
- som
- medan
- VEM
- kommer
- skulle
- Fel
- fel händer
- utbyten
- Om er
- Din
- zephyrnet