AI bliver brugt til at generere alt fra billeder til tekst til kunstige proteiner, og nu er der kommet en anden ting til listen: tale. Sidste uge forskere fra Microsoft udgav et papir på en ny AI kaldet VAL-E, der nøjagtigt kan simulere enhvers stemme baseret på en prøve på kun tre sekunder lang. VALL-E er ikke den første talesimulator, der blev skabt, men den er bygget på en anden måde end dens forgængere - og kan medføre en større risiko for potentielt misbrug.
De fleste eksisterende tekst-til-tale-modeller bruger bølgeformer (grafiske repræsentationer af lydbølger, når de bevæger sig gennem et medium over tid) til at skabe falske stemmer, justere karakteristika som tone eller tonehøjde for at tilnærme en given stemme. VALL-E tager dog en prøve af en persons stemme og opdeler den i komponenter kaldet tokens, og bruger derefter disse tokens til at skabe nye lyde baseret på de "regler", den allerede har lært om denne stemme. Hvis en stemme er særlig dyb, eller en højttaler udtaler deres A'er på en nasal-y måde, eller de er mere monotone end gennemsnittet, er disse alle træk, som AI ville opfange og være i stand til at replikere.
Modellen er baseret på en teknologi kaldet EnCodec af Meta, som netop er udgivet denne del oktober. Værktøjet bruger et tredelt system til at komprimere lyd til 10 gange mindre end MP3'er uden tab i kvalitet; dets skabere mente, at en af dens anvendelser var at forbedre kvaliteten af stemme og musik ved opkald foretaget over forbindelser med lav båndbredde.
For at træne VALL-E brugte dens skabere et lydbibliotek kaldet LibriLight, hvis 60,000 timers engelsk tale primært består af lydbogsfortælling. Modellen giver sine bedste resultater, når stemmen, der syntetiseres, ligner en af stemmerne fra træningsbiblioteket (som der er over 7,000 af, så det burde ikke være for højt).
Udover at genskabe en andens stemme, simulerer ALL-E også lydmiljøet fra prøven på tre sekunder. Et klip optaget over telefonen ville lyde anderledes end et, der er lavet personligt, og hvis du går eller kører, mens du taler, tages der højde for den unikke akustik i disse scenarier.
Nogle af de prøver lyder ret realistisk, mens andre stadig er meget åbenlyst computergenererede. Men der er mærkbare forskelle mellem stemmerne; du kan se, at de er baseret på mennesker, der har forskellige talestile, tonehøjder og intonationsmønstre.
Holdet, der skabte ALL-E, ved, at det meget nemt kan bruges af dårlige skuespillere; fra falske lydbiter fra politikere eller berømtheder til at bruge velkendte stemmer til at anmode om penge eller information over telefonen, der er utallige måder at drage fordel af teknologien på. De har klogt afholdt sig fra at gøre VALL-E's kode offentligt tilgængelig, og inkluderet en etisk erklæring i slutningen af deres papir (som ikke vil gøre meget for at afskrække alle, der ønsker at bruge AI'en til uhyggelige formål).
Det er sandsynligvis kun et spørgsmål om tid, før lignende værktøjer dukker op og falder i de forkerte hænder. Forskerne foreslår, at de risici, som modeller som VALL-E vil udgøre, kan afbødes ved at bygge detektionsmodeller for at måle, om lydklip er ægte eller syntetiserede. Hvis vi har brug for kunstig intelligens til at beskytte os mod kunstig intelligens, hvordan ved vi så, om disse teknologier har en netto positiv effekt? Det vil tiden vise.
Billede Credit: Shutterstock.com/Tancha
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
- Kilde: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- I stand
- Om
- Konto
- præcist
- tilføjet
- Fordel
- AI
- Alle
- allerede
- ,
- En anden
- nogen
- lyd
- til rådighed
- gennemsnit
- Bad
- baseret
- før
- være
- BEDSTE
- mellem
- pauser
- Bygning
- bygget
- kaldet
- Opkald
- bære
- berømtheder
- karakteristika
- clips
- kode
- komponenter
- computergenereret
- Tilslutninger
- kunne
- skabe
- oprettet
- skabere
- kredit
- dyb
- Detektion
- forskelle
- forskellige
- ned
- kørsel
- nemt
- Engelsk
- Miljø
- etik
- at alt
- eksisterende
- retfærdigt
- falsk
- Fall
- bekendt
- Fornavn
- fra
- generere
- GitHub
- given
- større
- hænder
- have
- HOURS
- Hvordan
- HTTPS
- KIMOs Succeshistorier
- forbedring
- in
- medtaget
- oplysninger
- IT
- Kend
- Efternavn
- lærte
- Bibliotek
- Sandsynlig
- Liste
- Lang
- off
- lavet
- Making
- Matter
- medium
- model
- modeller
- penge
- mere
- bevæge sig
- Musik
- Behov
- netto
- Ny
- oktober
- ONE
- ordrer
- Andre
- Papir
- del
- især
- mønstre
- Mennesker
- person,
- telefon
- pick
- Pitch
- pladser
- plato
- Platon Data Intelligence
- PlatoData
- Politikere
- positiv
- potentiale
- præsentere
- primært
- beskytte
- offentligt
- formål
- kvalitet
- ægte
- realistisk
- registreres
- frigivet
- anmode
- forskere
- Resultater
- Risiko
- risici
- scenarier
- sekunder
- Shutterstock
- lignende
- simulator
- mindre
- So
- Lyd
- Højttaler
- taler
- tale
- forår
- Statement
- Stadig
- systemet
- Tag
- tager
- taler
- hold
- Teknologier
- Teknologier
- Tekst-til-tale
- deres
- ting
- tre
- Gennem
- tid
- gange
- til
- Tokens
- TONE
- også
- værktøj
- værktøjer
- Tog
- Kurser
- tweaking
- enestående
- us
- brug
- Voice
- STEMMER
- gå
- bølger
- måder
- uge
- hvorvidt
- som
- mens
- WHO
- vilje
- ville
- Forkert
- forkerte hænder
- udbytter
- Du
- Din
- zephyrnet