Microsofts nya AI kan klona din röst på bara 3 sekunder

Återutgiven av Platon

anhängare: 0

Microsoft’s New AI Can Clone Your Voice in Just 3 Seconds PlatoBlockchain Data Intelligence. Vertical Search. Ai.

AI används för att generera allt från bilder till text till konstgjorda proteiner, och nu har ytterligare en sak lagts till på listan: tal. Förra veckan forskare från Microsoft släppte ett papper på en ny AI som heter VAL-E som exakt kan simulera vem som helsts röst baserat på ett sampel bara tre sekunder långt. VALL-E är inte den första talsimulatorn som skapas, men den är byggd på ett annat sätt än sina föregångare – och kan medföra en större risk för potentiellt missbruk.

De flesta befintliga text-till-tal-modeller använder vågformer (grafiska representationer av ljudvågor när de rör sig genom ett medium över tiden) för att skapa falska röster, för att justera egenskaper som ton eller tonhöjd för att approximera en given röst. VALL-E tar dock ett prov av någons röst och delar upp den i komponenter som kallas tokens, och använder sedan dessa tokens för att skapa nya ljud baserat på de "regler" som den redan lärt sig om denna röst. Om en röst är särskilt djup, eller om en högtalare uttalar sina A:n på ett nasalt sätt, eller om de är mer monotona än genomsnittet, är dessa egenskaper som AI skulle ta upp och kunna replikera.

Modellen bygger på en teknik som kallas EnCodec av Meta, som just släpptes denna del oktober. Verktyget använder ett tredelat system för att komprimera ljud till 10 gånger mindre än MP3-filer utan kvalitetsförlust; dess skapare menade att en av dess användningsområden var att förbättra kvaliteten på röst och musik vid samtal som görs över anslutningar med låg bandbredd.

För att träna VALL-E använde dess skapare ett ljudbibliotek som heter LibriLight, vars 60,000 7,000 timmar engelska tal i första hand består av ljudboksberättelse. Modellen ger sina bästa resultat när rösten som syntetiseras liknar en av rösterna från träningsbiblioteket (av vilka det finns över XNUMX XNUMX, så det borde inte vara för högt).

Förutom att återskapa någons röst, simulerar ALL-E även ljudmiljön från det tre sekunder långa samplet. Ett klipp inspelat via telefon skulle låta annorlunda än ett som gjorts personligen, och om du går eller kör medan du pratar, tas den unika akustiken i dessa scenarier i beaktande.

En del av den prover låter ganska realistiskt, medan andra fortfarande är väldigt uppenbart datorgenererade. Men det finns märkbara skillnader mellan rösterna; du kan se att de är baserade på människor som har olika talstilar, tonhöjder och intonationsmönster.

Teamet som skapade VAL-E vet att det mycket lätt kan användas av dåliga skådespelare; från att fejka ljud från politiker eller kändisar till att använda bekanta röster för att begära pengar eller information via telefon, det finns otaliga sätt att dra fördel av tekniken. De har klokt nog avstått från att göra VALL-E:s kod offentligt tillgänglig, och inkluderade ett etikförklaring i slutet av deras artikel (som inte kommer att göra mycket för att avskräcka alla som vill använda AI:n för skändliga syften).

Det är troligen bara en tidsfråga innan liknande verktyg dyker upp och hamnar i fel händer. Forskarna föreslår att riskerna som modeller som VALL-E kommer att innebära kan minskas genom att bygga detekteringsmodeller för att mäta om ljudklipp är verkliga eller syntetiserade. Om vi behöver AI för att skydda oss från AI, hur vet vi då om dessa tekniker har en positiv nettoeffekt? Tiden får avgöra.

Image Credit: Shutterstock.com/Tancha

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
Källa: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

Tidsstämpel: Januari 12, 2023

Tidsstämpel: Februari 17, 2024

Microsofts nya AI kan klona din röst på bara 3 sekunder

Återutgiven av Platon

Mer från Singularity Hub

Att mäta helium i avlägsna galaxer kan ge fysiker insikt i varför universum existerar

Livets byggstenar kan ha bildats i Primordial Sea Spray

Ukraina-konflikt har världen på en förnybar energikörning, säger IEA-rapporten

CRISPR-genredigering hade ett genombrottsår – och det är bara att komma igång

Hur att studera djurförnimmelser kunde hjälpa till att lösa det etiska pusslet med Sentient AI

Att skjuta ut måndamm i rymden som en "solskyddsmedel" för jorden kan hjälpa till att stoppa klimatförändringarna

Waymos förarlösa bilar kör på motorvägen utan säkerhetsförare i Arizona

Denna AI kan designa komplexa proteiner perfekt skräddarsydda för våra behov

Denna Gates-backed startup bygger modulära hem av energieffektiva paneler

NVIDIAs lilla nya AI förvandlar foton till fullständiga 3D-scener på bara några sekunder

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto