AI wordt gebruikt om alles uit te genereren afbeeldingen naar tekst naar kunstmatige eiwitten, en nu is er nog iets aan de lijst toegevoegd: spraak. Vorige week onderzoekers van Microsoft heeft een paper uitgebracht op een nieuwe AI genaamd VALL-E die iemands stem nauwkeurig kan simuleren op basis van een sample van slechts drie seconden lang. VALL-E is niet de eerste spraaksimulator die is gemaakt, maar hij is op een andere manier gebouwd dan zijn voorgangers en kan een groter risico op mogelijk misbruik met zich meebrengen.
De meeste bestaande tekst-naar-spraak-modellen gebruiken golfvormen (grafische weergaven van geluidsgolven terwijl ze door een medium in de loop van de tijd bewegen) om nepstemmen te creëren, waarbij kenmerken zoals toon of toonhoogte worden aangepast om een bepaalde stem te benaderen. VALL-E neemt echter een sample van iemands stem en splitst het op in componenten die tokens worden genoemd, en gebruikt die tokens vervolgens om nieuwe geluiden te creëren op basis van de 'regels' die het al over deze stem heeft geleerd. Als een stem bijzonder diep is, of een spreker zijn A's op een nasale manier uitspreekt, of als ze monotooner zijn dan gemiddeld, zijn dit allemaal eigenschappen die de AI oppikt en kan repliceren.
Het model is gebaseerd op een technologie genaamd Codec door Meta, die net dit deel oktober is uitgebracht. De tool gebruikt een driedelig systeem om audio tot 10 keer kleiner te comprimeren dan mp3's zonder kwaliteitsverlies; de makers bedoelden een van de toepassingen ervan om de kwaliteit van spraak en muziek te verbeteren bij oproepen via verbindingen met lage bandbreedte.
Om VALL-E te trainen, gebruikten de makers een audiobibliotheek genaamd LibriLicht, wiens 60,000 uur aan Engelse spraak voornamelijk bestaat uit audioboekvertelling. Het model levert de beste resultaten op wanneer de stem die wordt gesynthetiseerd vergelijkbaar is met een van de stemmen uit de trainingsbibliotheek (waarvan er meer dan 7,000 zijn, dus dat zou niet al te veel moeten zijn).
Naast het herscheppen van iemands stem, simuleert VALL-E ook de audio-omgeving van de sample van drie seconden. Een clip die via de telefoon is opgenomen, klinkt anders dan een clip die persoonlijk is gemaakt, en als je loopt of rijdt terwijl je praat, wordt er rekening gehouden met de unieke akoestiek van die scenario's.
Enkele monsters klinken redelijk realistisch, terwijl andere nog steeds heel duidelijk door de computer zijn gegenereerd. Maar er zijn opvallende verschillen tussen de stemmen; je kunt zien dat ze zijn gebaseerd op mensen met verschillende spreekstijlen, toonhoogtes en intonatiepatronen.
Het team dat VALL-E heeft gemaakt, weet dat het heel gemakkelijk kan worden gebruikt door slechte acteurs; van het vervalsen van soundbites van politici of beroemdheden tot het gebruik van bekende stemmen om telefonisch om geld of informatie te vragen, er zijn talloze manieren om van de technologie te profiteren. Ze hebben wijselijk afgezien van het openbaar maken van de code van VALL-E en hebben een ethische verklaring aan het einde van hun paper toegevoegd (wat niet veel zal doen om iemand af te schrikken die de AI voor snode doeleinden wil gebruiken).
Het is waarschijnlijk slechts een kwestie van tijd voordat vergelijkbare tools opduiken en in verkeerde handen vallen. De onderzoekers suggereren dat de risico's die modellen zoals VALL-E met zich meebrengen, kunnen worden beperkt door detectiemodellen te bouwen om te meten of audioclips echt of gesynthetiseerd zijn. Als we AI nodig hebben om ons tegen AI te beschermen, hoe weten we dan of deze technologieën een netto positieve impact hebben? De tijd zal het leren.
Krediet van het beeld: Shutterstock.com/Tancha
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
- Bron: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- in staat
- Over
- Account
- nauwkeurig
- toegevoegd
- Voordeel
- AI
- Alles
- al
- en
- Nog een
- iedereen
- audio
- Beschikbaar
- gemiddelde
- slecht
- gebaseerde
- vaardigheden
- wezen
- BEST
- tussen
- breaks
- Gebouw
- bebouwd
- Dit betekent dat we onszelf en onze geliefden praktisch vergiftigen.
- oproepen
- dragen
- beroemdheden
- kenmerken
- clips
- code
- componenten
- computer gegenereerd
- aansluitingen
- kon
- en je merk te creëren
- aangemaakt
- scheppers
- Credits
- deep
- Opsporing
- verschillen
- anders
- beneden
- aandrijving
- gemakkelijk
- Engels
- Milieu
- ethiek
- alles
- bestaand
- tamelijk
- nep
- Vallen
- vertrouwd
- Voornaam*
- oppompen van
- voortbrengen
- GitHub
- gegeven
- meer
- handen
- met
- HOURS
- Hoe
- HTTPS
- Impact
- het verbeteren van
- in
- inclusief
- informatie
- IT
- blijven
- Achternaam*
- geleerd
- Bibliotheek
- Waarschijnlijk
- Lijst
- lang
- uit
- gemaakt
- maken
- Materie
- Medium
- model
- modellen
- geld
- meer
- beweging
- Muziek
- Noodzaak
- netto
- New
- oktober
- EEN
- bestellen
- Overig
- Papier
- deel
- vooral
- patronen
- Mensen
- persoon
- phone
- kiezen
- toonhoogte
- standplaatsen
- Plato
- Plato gegevensintelligentie
- PlatoData
- Politici
- positief
- potentieel
- presenteren
- in de eerste plaats
- beschermen
- in het openbaar
- doeleinden
- kwaliteit
- vast
- realistisch
- opgenomen
- uitgebracht
- te vragen
- onderzoekers
- Resultaten
- Risico
- risico's
- scenario's
- seconden
- Shutterstock
- gelijk
- simulator
- kleinere
- So
- Geluid
- Spreker
- spreken
- toespraak
- voorjaar
- Statement
- Still
- system
- Nemen
- neemt
- praat
- team
- Technologies
- Technologie
- Text-to-Speech
- De
- hun
- ding
- drie
- Door
- niet de tijd of
- keer
- naar
- tokens
- TONE
- ook
- tools
- tools
- Trainen
- Trainingen
- tweaken
- unieke
- us
- .
- Stem
- VOICES
- wandel
- golven
- manieren
- week
- of
- welke
- en
- WIE
- wil
- zou
- Verkeerd
- verkeerde handen
- opbrengsten
- You
- Your
- zephyrnet