Vitenskapen bak hvordan Microsofts AI kan etterligne enhvers stemme på 3 sekunder

Vitenskapen bak hvordan Microsofts AI kan etterligne enhvers stemme på 3 sekunder

Vitenskapen bak hvordan Microsofts AI kan etterligne enhvers stemme på 3 sekunder PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Du forstår kanskje hvor kraftige programmer for kunstig intelligens (AI) får. De etterligner kunsten til storheter og skriver manus for globale ledere, og forårsaker globale samtaler rundt den raske utvidelsen av AI-verktøy.

Senest utviklet Microsoft en AI for stemmemimikk. Effektiviteten og nøyaktigheten er banebrytende, men brukerne stiller spørsmål ved formålet og bruken. Hvordan fungerer dette verktøyet, og hvordan replikerer det stemmer på så kort tid?

Møt VAL-E

VALL-E er AI-en som lærer å replikere stemmer innen tre sekunder. VALL-E er en av de første som er så raske å trene, ettersom tidligere iterasjoner av tekst-til-tale (TTS)-programmer slet med effektivitet og nyansene til lyder. 

"VALL-E forbedrer imidlertid forskningen for denne studien på alle måter, reduserer treningstiden og øker nøyaktigheten til komplekse stemmekvaliteter som tone og tempo." 

Et av VAL-Es mål var å gjenskape detaljer som tidligere TTS-programmer kunne ikke, og forsøk viser blandede resultater for gjeldende modell. For autentisitet kan et program som dette ikke bare kopiere personens stemme – det må gjenskape opptaksenhetens lydkvalitet og miljøpåvirkninger i bakgrunnen som statisk elektrisitet eller støy. Selv om forskere fortsatt er imponert over dens replikative egenskaper, søker Microsoft ytterligere forbedringer i finsliping av klangfarge og følelsesorienterte bøyninger.

Fordi VALL-E ikke er offentlig tilgjengelig ennå, er det usikkert hvordan det vil prestere på større skalaer. Microsoft tar seg god tid og finpusser den før offentlig utgivelse for å sikre riktig bruk. 

Siden VALL-E opererer med minimal stemmesampling, er det usikkert hvor godt det vil generere lengre lydklipp med kohesjon. AI- og maskinlæringsdatasett har nesten utallige datapunkter for vurdering. Det er et sprang inn i AIs fremtid hvis Microsoft perfeksjonerer stemmereplikering med en så liten referanseramme. 

Kjenn vitenskapen

VALL-E er vellykket i sin hensikt fordi den passer godt sammen med eksisterende teknologi. For eksempel GPT-3 stillbilde bruker språkbehandlingsmodeller for å perfeksjonere TTS-genereringsevnene for tydelig produksjon og nøyaktig redigering. Andre modeller manipulerer imidlertid datasettene sine for å lage nytt innhold. VAL-E lager originalt innhold.

I samarbeid med Meta bruker Microsoft EnCodec og LibriLight for å informere VALL-E. EnCodec er et nevralt nett for lydkomprimering som er i stand til å se selv de minste endringer i lyd. LibriLight er et lydbibliotek som inneholder over 60,000 XNUMX timer av engelsktalende filer fra forskjellige stemmer. 

«Med disse kreftene kan VALL-E ta det tre sekunder lange lydklippet, forvandle det til et token EnCodec kan analysere, og referere det til bibliotekets data for å produsere ekte vokale replikasjoner. Fordi EnCodec genererer filer med lave bithastigheter, er genereringen raskere enn andre modeller av sitt slag." 

En sekvens som denne vil generere mer naturlig klingende lydklipp, kompetente til å lure selv den mest trente øre- eller stemmegjenkjenningsteknologi.

Potensialet for at dette skal hjelpe næringer er ikke kvantifiserbart. Det kan øke effektiviteten og produktiviteten samtidig som det reduserer stress i alle sektorer, ikke bare kommunikasjon. Imidlertid har det en lik sjanse til å forverre kriminell aktivitet i det digitale rom, sammen med andre konsekvenser.

Delta i samtale

Som med de fleste AI-fremskritt, oppstår etiske bekymringer. Som med enhver tekstgenerering, jobber AI fra data - derfor vil plagiering alltid være en vurdering. Imidlertid, VAL-E refererer til opphavsrettsfrie kilder, så dette er ikke en primær bekymring ennå.

Microsoft må imidlertid også være på vakt mot at publikum bruker teknologi som dette til fiendtlige formål, som å spre falske nyheter eller blande etterforskninger med falske vitnesbyrd – muligens fra vitner som ikke lenger lever. Spesifikke bransjer, som lov, vil måtte finne opp nye retningslinjer og strukturer på hvordan møte deepfakes i rettssalen.

"Som med alle teknologiske fremskritt, er misbruk ikke bare sannsynlig - det er uunngåelig." 

Bortsett fra trusselen om kreativ eiendom eller identitetstyveri, kan dyktig stemmegenererende AI true levebrødet til noen yrker eller fjerne kunstnerisk og profesjonell ekspertise fra bransjer som tidligere var avhengige av årevis dedikert til et håndverk.

Stemmeskuespillere, taleforfattere og kundeservicerepresentanter kan alle bli foreldet med AI-stemmemimikk. Muligheten for dette er ukjent og sannsynligvis ikke mulig på en rask, omfattende måte. Det tenkelige resultatet er at stemmemimikk vil supplere disse bransjene i stedet for å erstatte dem. AI-stemmegenerering kan hjelpe med idégenerering eller fungere som en annen arbeider for å delegere oppgaver, avlastning fra menneskelige arbeidere.

Komme på talevilkår med stemme-replikerende AI

Til tross for etiske bekymringer med stemmereplikerende kunstig intelligens, innoverer Microsoft et progressivt, ressursrikt verktøy for den nye generasjonen – avhengig av hvordan publikum bruker det. Vitenskapen bak dette verktøyet er det mest revolusjonerende aspektet, og det kan informere ingeniører og utviklere om hvordan de kan utvide og transformere AI for fremtidige applikasjoner i alle sektorer. 

Teknologi implementert med VALL-E kan oversettes til tankesettskifter for industrien. Den samarbeidende karakteren til dette prosjektet vil føre AI-interaktivitet og utvikling inn i en ny tid med nøyaktighet og effektivitet.

Les også Lalal.AI For høykvalitets lydsplitting 

Tidstempel:

Mer fra AIIOT-teknologi