Znanost, ki stoji za tem, kako lahko Microsoftov AI posnema glas kogar koli v 3 sekundah

Znanost, ki stoji za tem, kako lahko Microsoftov AI posnema glas kogar koli v 3 sekundah

The Science Behind How Microsoft’s AI Can Mimic Anyone’s Voice in 3 Seconds PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Morda razumete, kako močni postajajo programi umetne inteligence (AI). Posnemajo umetnost velikih in pišejo scenarije za svetovne voditelje, kar povzroča globalne pogovore o hitrem širjenju orodij AI.

Pred kratkim je Microsoft razvil AI za glasovno mimiko. Njegova učinkovitost in natančnost sta prelomni, vendar uporabniki dvomijo o njegovem namenu in uporabi. Kako to orodje deluje in kako posnema glasove v tako kratkem času?

Spoznajte VALL-E

VALL-E je umetna inteligenca, ki se nauči posnemati glasove v treh sekundah. VALL-E je eden prvih, ki ga je bilo tako hitro usposobiti, saj so se prejšnje iteracije programov za pretvorbo besedila v govor (TTS) borile z učinkovitostjo in niansami zvokov. 

"Vendar VALL-E izboljšuje raziskave za to študijo v vseh pogledih, skrajšuje čas usposabljanja in povečuje natančnost kompleksnih glasovnih lastnosti, kot sta ton in tempo." 

Eden od ciljev VALL-E je bil ponoviti te podrobnosti prejšnji programi TTS niso mogli, poskusi pa kažejo mešane rezultate za trenutni model. Za avtentičnost program, kot je ta, ne more le kopirati glasu osebe – posnemati mora kakovost zvoka snemalne naprave in okoljske vplive v ozadju, kot sta statika ali šum. Čeprav so raziskovalci še vedno navdušeni nad njegovimi replikativnimi lastnostmi, Microsoft išče nadaljnje izboljšave pri piljenju tembra in pregibov, ki temeljijo na čustvih.

Ker VALL-E še ni javno dostopen, ni gotovo, kako bo deloval v večjih merilih. Microsoft si vzame čas in ga pred javno objavo izboljša, da zagotovi pravilno uporabo. 

Ker VALL-E deluje z minimalnim vzorčenjem glasu, ni gotovo, kako dobro bo ustvaril daljše zvočne posnetke s kohezijo. Podatkovni nizi umetne inteligence in strojnega učenja imajo skoraj nešteto podatkovnih točk, ki jih je treba upoštevati. To je skok v prihodnost umetne inteligence, če Microsoft izpopolni glasovno replikacijo s tako majhnim referenčnim okvirom. 

Spoznajte znanost

VALL-E je uspešen pri svojem namenu, ker se dobro ujema z obstoječo tehnologijo. Na primer, GPT-3 še vedno uporablja modele jezikovne obdelave da izpopolni svoje sposobnosti generiranja TTS za jasno produkcijo in natančno urejanje. Vendar pa drugi modeli manipulirajo s svojimi nabori podatkov, da ustvarijo novo vsebino. VALL-E ustvarja izvirno vsebino.

Microsoft v sodelovanju z Meto uporablja EnCodec in LibriLight za obveščanje VALL-E. EnCodec je nevronska mreža za stiskanje zvoka, ki lahko zazna tudi najmanjše spremembe v zvoku. LibriLight je zvočna knjižnica ki vsebuje več kot 60,000 ur angleško govorečih datotek iz različnih glasov. 

»S temi močmi lahko VALL-E vzame trisekundni zvočni posnetek, ga pretvori v žeton, ki ga EnCodec lahko analizira, in ga sklicuje na podatke knjižnice za ustvarjanje pristno zvenečih vokalnih replikacij. Ker EnCodec generira datoteke z nizkimi bitnimi hitrostmi, je generiranje hitrejše od drugih modelov te vrste.« 

Takšno zaporedje bo ustvarilo bolj naravno zveneče zvočne posnetke, sposobni pretentati tudi najbolj izurjeno uho ali tehnologijo za prepoznavanje glasu.

Možnosti, da bi to pomagalo industrijam, je neizmerljivo. Lahko bi povečal učinkovitost in produktivnost, hkrati pa zmanjšal stres v vseh sektorjih, ne le v komunikacijah. Vendar ima enake možnosti za poslabšanje kriminalne dejavnosti v digitalnem prostoruskupaj z drugimi posledicami.

Sodelujte v pogovoru

Kot pri večini napredkov umetne inteligence se pojavljajo etični pomisleki. Kot pri vsakem ustvarjanju besedila, AI deluje na podlagi podatkov - zato bo plagiatorstvo vedno upoštevano. Vendar VALL-E sklicevanja na vire brez avtorskih pravic, zato to še ni glavna skrb.

Vendar pa mora biti Microsoft previden tudi do javnosti, ki uporablja takšno tehnologijo za sovražne namene, kot je širjenje lažnih novic ali zamegljevanje preiskav z lažnimi pričevanji – po možnosti prič, ki niso več žive. Posebne panoge, kot je pravo, bodo morale izumiti nove politike in strukture kako naleteti na deepfake v sodni dvorani.

"Kot pri vsakem tehnološkem napredku, zloraba ni samo verjetna - je neizogibna." 

Poleg grožnje s krajo ustvarjalne lastnine ali identitete bi lahko umetna inteligenca za ustvarjanje glasu ogrozila preživetje nekaterih poklicev ali odstranila umetniško in strokovno strokovno znanje iz panog, ki so bile prej odvisne od let, posvečenih obrti.

Glasovni igralci, pisci govorov in predstavniki službe za stranke bi lahko postali zastareli z glasovno mimiko AI. Možnost tega ni znana in verjetno ni mogoča na hiter in celovit način. Možen rezultat je, da bo glasovna mimikrija dopolnila te industrije, namesto da bi jih nadomestila. Generiranje glasu z umetno inteligenco bi lahko pomagalo pri ustvarjanju idej ali delovalo kot drug delavec za delegiranje nalog, ki bi jih prenesli na človeške delavce.

Naučite se govoriti z umetno inteligenco, ki posnema glas

Kljub etičnim pomislekom glede umetne inteligence, ki posnema glas, Microsoft uvaja napredno, iznajdljivo orodje za novo generacijo – odvisno od tega, kako ga javnost uporablja. Znanost, ki stoji za tem orodjem, je najbolj revolucionaren vidik in bi lahko inženirjem in razvijalcem povedala, kako razširiti in preoblikovati AI za prihodnje aplikacije v vseh sektorjih. 

Tehnologija, implementirana z VALL-E, bi lahko privedla do sprememb v miselnosti industrije. Sodelovalna narava tega projekta bo napredovala pri interaktivnosti in razvoju umetne inteligence v novo dobo natančnosti in učinkovitosti.

Preberite tudi Lalal.AI za visokokakovostno razdelitev zvoka 

Časovni žig:

Več od Tehnologija AIIOT