De nieuwe AI van Microsoft kan uw stem in slechts 3 seconden klonen

Heruitgegeven door Plato

volgers: 0

De nieuwe AI van Microsoft kan uw stem in slechts 3 seconden klonen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

AI wordt gebruikt om alles uit te genereren afbeeldingen naar tekst naar kunstmatige eiwitten, en nu is er nog iets aan de lijst toegevoegd: spraak. Vorige week onderzoekers van Microsoft heeft een paper uitgebracht op een nieuwe AI genaamd VALL-E die iemands stem nauwkeurig kan simuleren op basis van een sample van slechts drie seconden lang. VALL-E is niet de eerste spraaksimulator die is gemaakt, maar hij is op een andere manier gebouwd dan zijn voorgangers en kan een groter risico op mogelijk misbruik met zich meebrengen.

De meeste bestaande tekst-naar-spraak-modellen gebruiken golfvormen (grafische weergaven van geluidsgolven terwijl ze door een medium in de loop van de tijd bewegen) om nepstemmen te creëren, waarbij kenmerken zoals toon of toonhoogte worden aangepast om een bepaalde stem te benaderen. VALL-E neemt echter een sample van iemands stem en splitst het op in componenten die tokens worden genoemd, en gebruikt die tokens vervolgens om nieuwe geluiden te creëren op basis van de 'regels' die het al over deze stem heeft geleerd. Als een stem bijzonder diep is, of een spreker zijn A's op een nasale manier uitspreekt, of als ze monotooner zijn dan gemiddeld, zijn dit allemaal eigenschappen die de AI oppikt en kan repliceren.

Het model is gebaseerd op een technologie genaamd Codec door Meta, die net dit deel oktober is uitgebracht. De tool gebruikt een driedelig systeem om audio tot 10 keer kleiner te comprimeren dan mp3's zonder kwaliteitsverlies; de makers bedoelden een van de toepassingen ervan om de kwaliteit van spraak en muziek te verbeteren bij oproepen via verbindingen met lage bandbreedte.

Om VALL-E te trainen, gebruikten de makers een audiobibliotheek genaamd LibriLicht, wiens 60,000 uur aan Engelse spraak voornamelijk bestaat uit audioboekvertelling. Het model levert de beste resultaten op wanneer de stem die wordt gesynthetiseerd vergelijkbaar is met een van de stemmen uit de trainingsbibliotheek (waarvan er meer dan 7,000 zijn, dus dat zou niet al te veel moeten zijn).

Naast het herscheppen van iemands stem, simuleert VALL-E ook de audio-omgeving van de sample van drie seconden. Een clip die via de telefoon is opgenomen, klinkt anders dan een clip die persoonlijk is gemaakt, en als je loopt of rijdt terwijl je praat, wordt er rekening gehouden met de unieke akoestiek van die scenario's.

Enkele monsters klinken redelijk realistisch, terwijl andere nog steeds heel duidelijk door de computer zijn gegenereerd. Maar er zijn opvallende verschillen tussen de stemmen; je kunt zien dat ze zijn gebaseerd op mensen met verschillende spreekstijlen, toonhoogtes en intonatiepatronen.

Het team dat VALL-E heeft gemaakt, weet dat het heel gemakkelijk kan worden gebruikt door slechte acteurs; van het vervalsen van soundbites van politici of beroemdheden tot het gebruik van bekende stemmen om telefonisch om geld of informatie te vragen, er zijn talloze manieren om van de technologie te profiteren. Ze hebben wijselijk afgezien van het openbaar maken van de code van VALL-E en hebben een ethische verklaring aan het einde van hun paper toegevoegd (wat niet veel zal doen om iemand af te schrikken die de AI voor snode doeleinden wil gebruiken).

Het is waarschijnlijk slechts een kwestie van tijd voordat vergelijkbare tools opduiken en in verkeerde handen vallen. De onderzoekers suggereren dat de risico's die modellen zoals VALL-E met zich meebrengen, kunnen worden beperkt door detectiemodellen te bouwen om te meten of audioclips echt of gesynthetiseerd zijn. Als we AI nodig hebben om ons tegen AI te beschermen, hoe weten we dan of deze technologieën een netto positieve impact hebben? De tijd zal het leren.

Krediet van het beeld: Shutterstock.com/Tancha

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
Bron: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

Tijdstempel: 12 januari 2023

Tijdstempel: Februari 17, 2024

De nieuwe AI van Microsoft kan uw stem in slechts 3 seconden klonen

Heruitgegeven door Plato

Meer van Hub voor singulariteit

Het meten van helium in verre sterrenstelsels kan natuurkundigen inzicht geven in waarom het heelal bestaat

De bouwstenen van het leven zijn mogelijk gevormd in oerzeenevel

Door het conflict in Oekraïne draait de wereld op hernieuwbare energie, aldus het IEA-rapport

CRISPR Gene Editing heeft een jaar van doorbraak gekend, en is nog maar net begonnen

Hoe het bestuderen van dierenbewustzijn kan helpen bij het oplossen van de ethische puzzel van bewuste AI

Maanstof de ruimte in schieten als 'zonnescherm' voor de aarde kan de klimaatverandering helpen stoppen

Waymo's zelfrijdende auto's rijden op de snelweg zonder veiligheidschauffeurs in Arizona

Deze AI kan complexe eiwitten ontwerpen die perfect zijn afgestemd op onze behoeften

Deze door Gates ondersteunde startup bouwt modulaire huizen uit energiezuinige panelen

NVIDIA's kleine nieuwe AI transformeert foto's in enkele seconden in volledige 3D-scènes

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account