De wetenschap achter hoe de AI van Microsoft de stem van iedereen in 3 seconden kan nabootsen

De wetenschap achter hoe de AI van Microsoft de stem van iedereen in 3 seconden kan nabootsen

The Science Behind How Microsoft’s AI Can Mimic Anyone’s Voice in 3 Seconds PlatoBlockchain Data Intelligence. Vertical Search. Ai.

U begrijpt misschien hoe krachtig kunstmatige intelligentie (AI) -programma's worden. Ze bootsen de kunsten van groten na en schrijven scripts voor wereldleiders, waardoor wereldwijde gesprekken ontstaan ​​over de snelle uitbreiding van AI-tools.

Onlangs heeft Microsoft een AI ontwikkeld voor het nabootsen van stemmen. De efficiëntie en nauwkeurigheid zijn baanbrekend, maar gebruikers twijfelen aan het doel en het gebruik ervan. Hoe werkt deze tool en hoe repliceert het stemmen in zo'n korte tijd?

Maak kennis met VAL-E

VALL-E is de AI die binnen drie seconden stemmen leert repliceren. VALL-E is een van de eersten die zo snel te trainen is, omdat eerdere iteraties van tekst-naar-spraak (TTS)-programma's worstelden met efficiëntie en de nuances van geluiden. 

"VALL-E verbetert het onderzoek voor deze studie echter in elk opzicht, door de trainingstijd te verkorten en de nauwkeurigheid van complexe stemkwaliteiten zoals toon en tempo te vergroten." 

Een van de doelen van VALL-E was om details daarvan na te bootsen eerdere TTS-programma's konden dat niet, en proeven laten gemengde resultaten zien voor het huidige model. Voor authenticiteit kan een programma als dit niet alleen de stem van de persoon kopiëren - het moet ook de geluidskwaliteit van het opnameapparaat en achtergrondinvloeden zoals ruis of ruis nabootsen. Hoewel onderzoekers onder de indruk blijven van de replicatieve eigenschappen, streeft Microsoft naar verdere verbeteringen in het aanscherpen van timbre en emotie-geïnformeerde verbuigingen.

Omdat VALL-E nog niet openbaar beschikbaar is, is het onzeker hoe het op grotere schaal zal presteren. Microsoft neemt de tijd en verfijnt het voordat het openbaar wordt vrijgegeven om correct gebruik te garanderen. 

Aangezien VALL-E werkt met minimale spraakbemonstering, is het onzeker hoe goed het langere audioclips met samenhang zal genereren. AI- en machine learning-datasets hebben bijna talloze datapunten om rekening mee te houden. Het is een sprong in de toekomst van AI als Microsoft stemreplicatie perfectioneert met zo'n klein referentiekader. 

Ken de wetenschap

VALL-E is succesvol in zijn doel omdat het goed samensmelt met bestaande technologie. GPT-3 bijvoorbeeld nog steeds maakt gebruik van taalverwerkingsmodellen om zijn TTS-generatiemogelijkheden te perfectioneren voor duidelijke productie en nauwkeurige bewerking. Andere modellen manipuleren hun datasets echter om nieuwe inhoud te creëren. VALL-E maakt originele content.

In samenwerking met Meta gebruikt Microsoft EnCodec en LibriLight om VALL-E te informeren. EnCodec is een neuraal net voor audiocompressie dat in staat is om zelfs de kleinste veranderingen in audio te onderscheiden. LibriLight is een audiobibliotheek met meer dan 60,000 uur van Engelstalige bestanden van verschillende stemmen. 

“Met deze krachten kan VALL-E de audioclip van drie seconden transformeren in een token dat EnCodec kan analyseren en verwijzen naar de gegevens van de bibliotheek voor het produceren van echt klinkende vocale replicaties. Omdat EnCodec bestanden met lage bitrates genereert, gaat het genereren sneller dan andere modellen in zijn soort.” 

Een reeks als deze zal natuurlijker klinkende audioclips genereren, die zelfs de meest getrainde oor- of spraakherkenningstechnologie kunnen misleiden.

Het potentieel hiervan om industrieën te helpen is niet te kwantificeren. Het zou de efficiëntie en productiviteit kunnen verhogen en tegelijkertijd de stress in elke sector kunnen verlichten, niet alleen in de communicatiesector. Het heeft echter een gelijke kans om te verergeren criminele activiteiten in de digitale ruimte, naast andere gevolgen.

Deelnemen aan gesprek

Zoals met de meeste AI-ontwikkelingen, doen zich ethische bezwaren voor. Zoals bij elke tekstgeneratie, werkt AI op basis van gegevens - daarom zal plagiaat altijd een overweging zijn. Echter, VAL-E verwijst naar auteursrechtvrije bronnen, dus dit is nog geen primaire zorg.

Microsoft moet echter ook op zijn hoede zijn voor het publiek dat dergelijke technologie gebruikt voor vijandige doeleinden, zoals het verspreiden van nepnieuws of het verwarren van onderzoeken met valse getuigenissen – mogelijk van getuigen die niet meer in leven zijn. Specifieke bedrijfstakken, zoals de wetgeving, zullen nieuw beleid en nieuwe structuren moeten uitvinden hoe u deepfakes kunt tegenkomen in de rechtszaal.

"Zoals bij elke technologische vooruitgang, is misbruik niet alleen waarschijnlijk - het is onvermijdelijk." 

Afgezien van de dreiging van creatieve eigendom of identiteitsdiefstal, kan bekwame stemgenererende AI het levensonderhoud van sommige beroepen bedreigen of artistieke en professionele expertise verwijderen uit industrieën die voorheen afhankelijk waren van jaren toegewijd aan een ambacht.

Stemacteurs, speechwriters en vertegenwoordigers van de klantenservice kunnen allemaal achterhaald raken door AI-spraaknabootsing. De mogelijkheid hiervan is onbekend en waarschijnlijk niet mogelijk op een snelle, alomvattende manier. Het denkbare resultaat is dat spraaknabootsing deze industrieën zal aanvullen in plaats van vervangen. AI-stemgeneratie kan helpen bij het genereren van ideeën of fungeren als een andere werknemer om taken te delegeren, waarbij menselijke werknemers worden ontlast.

Spreektermen spreken met stemreplicerende AI

Ondanks ethische zorgen over stemreplicerende AI, innoveert Microsoft een vooruitstrevende, vindingrijke tool voor de nieuwe generatie - afhankelijk van hoe het publiek het gebruikt. De wetenschap achter deze tool is het meest revolutionaire aspect en het zou ingenieurs en ontwikkelaars kunnen informeren over hoe ze AI kunnen uitbreiden en transformeren voor toekomstige toepassingen in alle sectoren. 

Technologie geïmplementeerd met VALL-E kan zich vertalen in mentaliteitsveranderingen voor de industrie. Het collaboratieve karakter van dit project zal de interactiviteit en ontwikkeling van AI bevorderen naar een nieuw tijdperk van nauwkeurigheid en efficiëntie.

Lees ook Lalal.AI voor audiosplitsing van hoge kwaliteit 

Tijdstempel:

Meer van AIIOT-technologie