Tiede sen takana, kuinka Microsoftin tekoäly voi jäljitellä kenen tahansa ääntä 3 sekunnissa

Tiede sen takana, kuinka Microsoftin tekoäly voi jäljitellä kenen tahansa ääntä 3 sekunnissa

Tiede sen takana, kuinka Microsoftin tekoäly voi jäljitellä kenen tahansa ääntä 3 sekunnissa PlatoBlockchain-tietoälykkyydellä. Pystysuuntainen haku. Ai.

Saatat ymmärtää, kuinka tehokkaita tekoäly-ohjelmat saavat. He matkivat suurmiesten taidetta ja kirjoittavat käsikirjoituksia maailmanlaajuisille johtajille, mikä aiheuttaa maailmanlaajuisia keskusteluja tekoälytyökalujen nopeasta laajentumisesta.

Viimeksi Microsoft kehitti tekoälyn äänen matkimiseen. Sen tehokkuus ja tarkkuus ovat uraauurtavaa, mutta käyttäjät kyseenalaistavat sen tarkoituksen ja käytön. Kuinka tämä työkalu toimii ja kuinka se toistaa ääniä niin lyhyessä ajassa?

Tapaa VALL-E

VALL-E on tekoäly, joka oppii toistamaan ääniä kolmessa sekunnissa. VALL-E on ensimmäisten joukossa niin nopea harjoittelu, sillä aiemmat tekstistä puheeksi (TTS) -ohjelmien iteraatiot kamppailivat tehokkuuden ja äänien vivahteiden kanssa. 

"VALL-E kuitenkin parantaa tämän tutkimuksen tutkimusta kaikilta osin vähentäen harjoitusaikaa ja lisäämällä monimutkaisten äänenlaatujen, kuten äänen ja tahdistuksen, tarkkuutta." 

Yksi VALL-E:n tavoitteista oli toistaa sen yksityiskohdat aiemmat TTS-ohjelmat eivät voineet, ja kokeet osoittavat vaihtelevia tuloksia nykyiselle mallille. Aitouden vuoksi tällainen ohjelma ei voi vain kopioida henkilön ääntä, vaan sen on toistettava tallennuslaitteen äänenlaatu ja taustaympäristön vaikutukset, kuten staattinen sähkö tai kohina. Vaikka tutkijat ovat edelleen vaikuttuneita sen replikatiivisista ominaisuuksista, Microsoft pyrkii edelleen parantamaan sointia ja tunteisiin perustuvia taivutuksia.

Koska VALL-E ei ole vielä julkisesti saatavilla, on epävarmaa, kuinka se toimii suuremmissa mittakaavassa. Microsoft käyttää aikansa ja parantaa sitä ennen julkistamista varmistaakseen oikean käytön. 

Koska VALL-E toimii minimaalisella ääninäytteistyksellä, on epävarmaa, kuinka hyvin se tuottaa pidempiä äänileikkeitä koheesion kanssa. Tekoäly- ja koneoppimistietojoukoissa on lähes lukemattomia tietopisteitä harkittavaksi. Se on harppaus tekoälyn tulevaisuuteen, jos Microsoft täydentää äänen replikointia näin pienellä viitekehyksellä. 

Tunne Tiede

VALL-E onnistuu tarkoituksessaan, koska se sulautuu hyvin olemassa olevaan tekniikkaan. Esimerkiksi GPT-3 still käyttää kielenkäsittelymalleja täydentääkseen TTS-sukupolvikykyään selkeää tuotantoa ja tarkkaa editointia varten. Muut mallit kuitenkin muokkaavat tietojoukkojaan uuden sisällön luomiseksi. VALL-E tekee alkuperäistä sisältöä.

Yhteistyössä Metan kanssa Microsoft käyttää EnCodecia ja LibriLightia ilmoittamaan VALL-E:lle. EnCodec on äänenpakkaushermoverkko, joka pystyy havaitsemaan pienimmätkin äänen muutokset. LibriLight on äänikirjasto sisältää yli 60,000 XNUMX tuntia englanninkielisiä tiedostoja eri äänistä. 

"Näillä voimilla VALL-E voi ottaa kolmen sekunnin äänileikkeen, muuntaa sen tokeniksi, jonka EnCodec voi analysoida, ja viitata siihen kirjaston tietoihin tuottaakseen aidon kuuloisia laulukopioita. Koska EnCodec luo tiedostoja alhaisilla bittinopeuksilla, luonti on nopeampaa kuin muut mallit. 

Tällainen sarja tuottaa luonnollisemman kuuloisia äänileikkeitä, jotka ovat päteviä huijaamaan jopa koulutetuimman korva- tai äänentunnistusteknologian.

Tämän mahdollisuutta auttaa teollisuudenaloja ei voida mitata. Se voisi lisätä tehokkuutta ja tuottavuutta ja lievittää stressiä kaikilla aloilla, ei vain viestinnässä. Sillä on kuitenkin yhtäläiset mahdollisuudet pahentua rikollinen toiminta digitaalisessa tilassa, muiden seurausten ohella.

Osallistu keskusteluun

Kuten useimpien tekoälykehitysten yhteydessä, eettiset huolenaiheet tulevat esiin. Kuten mikä tahansa tekstin luominen, tekoäly toimii tiedosta – siksi plagiointi tulee aina huomioida. Kuitenkin VALL-E viittaa tekijänoikeusvapaisiin lähteisiin, joten tämä ei ole vielä ensisijainen huolenaihe.

Microsoftin on kuitenkin myös varottava yleisöä, joka käyttää tällaista tekniikkaa vihamielisiin tarkoituksiin, kuten valeuutisten levittämiseen tai tutkimusten sekoittamiseen väärillä todistajilla – mahdollisesti todistajilta, jotka eivät enää elä. Tiettyjen toimialojen, kuten lain, on keksittävä uusia politiikkoja ja rakenteita kuinka kohdata deepfakeja oikeussalissa.

"Kuten mikä tahansa teknologinen kehitys, väärinkäyttö ei ole vain todennäköistä - se on väistämätöntä." 

Luovan omaisuuden tai identiteettivarkauksien uhan lisäksi taitava ääntä tuottava tekoäly voi uhata joidenkin ammattien toimeentuloa tai poistaa taiteellisen ja ammatillisen asiantuntemuksen aloilta, jotka ovat aiemmin olleet riippuvaisia ​​käsityölle omistautuneista vuosista.

Ääninäyttelijät, puheenkirjoittajat ja asiakaspalvelun edustajat voivat kaikki vanhentua tekoälyn puhemimikriin avulla. Tämän mahdollisuutta ei tunneta, eikä se todennäköisesti ole mahdollista nopealla ja kattavalla tavalla. Ajateltavissa oleva lopputulos on, että äänimimikri täydentää näitä toimialoja sen sijaan, että se korvaa ne. Tekoälyäänen luominen voisi auttaa ideoiden luomisessa tai toimia toisena työntekijänä delegoimaan tehtäviä ihmistyöntekijöiltä.

Pääset puhumaan puheehtoja ääniä replikoivalla tekoälyllä

Huolimatta ääntä replikoivan tekoälyn eettisistä huolenaiheista, Microsoft innovoi edistyksellistä, kekseliäistä työkalua uudelle sukupolvelle – riippuen siitä, miten yleisö sitä käyttää. Tämän työkalun takana oleva tiede on vallankumouksellisin näkökohta, ja se voisi kertoa insinööreille ja kehittäjille, kuinka tekoälyä voidaan laajentaa ja muuttaa tulevia sovelluksia varten kaikilla aloilla. 

VALL-E:n kanssa toteutettu teknologia voi muuttaa alan ajattelutapaa. Tämän projektin yhteistyö luonne vie tekoälyn interaktiivisuutta ja kehitystä uudelle tarkkuuden ja tehokkuuden aikakaudelle.

Lue myös Lalal.AI laadukkaaseen äänen jakamiseen 

Aikaleima:

Lisää aiheesta AIIOT-tekniikka