AI se uporablja za ustvarjanje vsega iz slike do besedilo do umetne beljakovine, zdaj pa je na seznam dodana še ena stvar: govor. Prejšnji teden so raziskovalci iz Microsoft je objavil dokument na novi AI, imenovani VALL-E, ki lahko natančno simulira glas kogar koli na podlagi vzorca, dolgega le tri sekunde. VALL-E ni prvi simulator govora, ki je bil ustvarjen, vendar je zgrajen na drugačen način kot njegovi predhodniki - in bi lahko predstavljal večje tveganje za morebitno zlorabo.
Večina obstoječih modelov pretvorbe besedila v govor uporablja valovne oblike (grafične predstavitve zvočnih valov, ko se premikajo skozi medij skozi čas) za ustvarjanje lažnih glasov, prilagajanje značilnosti, kot sta ton ali višina, da se približa danemu glasu. VALL-E pa vzame vzorec glasu nekoga in ga razdeli na komponente, imenovane žetoni, nato pa te žetone uporabi za ustvarjanje novih zvokov na podlagi "pravil", ki se jih je že naučil o tem glasu. Če je glas posebej globok ali govorec izgovori svoj A nazalno ali je bolj monoton od povprečja, so vse to lastnosti, ki bi jih umetna inteligenca zaznala in jih lahko posnemala.
Model temelji na tehnologiji, imenovani EnCodec avtorja Meta, ki je izšla ravno ta del oktobra. Orodje uporablja tridelni sistem za stiskanje zvoka na 10-krat manjšo velikost kot MP3 brez izgube kakovosti; njegovi ustvarjalci so za eno od njegovih uporab predvideli izboljšanje kakovosti glasu in glasbe pri klicih prek povezav z nizko pasovno širino.
Za usposabljanje VALL-E so njegovi ustvarjalci uporabili zvočno knjižnico, imenovano LibriLight, katerega 60,000 ur angleškega govora sestavlja predvsem pripovedovanje zvočnih knjig. Model daje najboljše rezultate, ko je glas, ki se sintetizira, podoben enemu od glasov iz knjižnice za usposabljanje (ki jih je več kot 7,000, tako da to ne bi smelo biti previsoko).
Poleg poustvarjanja glasu nekoga, VALL-E tudi simulira zvočno okolje iz trisekundnega vzorca. Posnetek, posnet po telefonu, bi zvenel drugače kot posnetek, posnet osebno, in če med pogovorom hodite ali se vozite, se upošteva edinstvena akustika teh scenarijev.
Vsaka vzorce zvenijo dokaj realistično, medtem ko so drugi še vedno zelo očitno računalniško ustvarjeni. Toda med glasovi so opazne razlike; lahko ugotovite, da temeljijo na ljudeh, ki imajo različne govorne sloge, višine in intonacijske vzorce.
Ekipa, ki je ustvarila VALL-E, ve, da bi ga lahko zelo zlahka uporabili slabi igralci; Od ponarejanja zvočnih posnetkov politikov ali slavnih oseb do uporabe znanih glasov za zahtevanje denarja ali informacij po telefonu, obstaja nešteto načinov, kako izkoristiti tehnologijo. Modro so se vzdržali javnega dostopa do kode VALL-E in na koncu svojega prispevka vključili etično izjavo (ki ne bo veliko odvrnila nikogar, ki želi AI uporabiti za nečedne namene).
Verjetno je le vprašanje časa, kdaj bodo podobna orodja padla v napačne roke. Raziskovalci predlagajo, da bi lahko tveganja, ki jih bodo predstavljali modeli, kot je VALL-E, ublažili z izgradnjo modelov zaznavanja, da bi ocenili, ali so zvočni posnetki resnični ali sintetizirani. Če potrebujemo umetno inteligenco, da nas zaščiti pred umetno inteligenco, kako vedeti, ali imajo te tehnologije neto pozitiven učinek? Čas bo povedal.
Kreditno slike: Shutterstock.com/Tancha
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. Dostopite tukaj.
- vir: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Sposobna
- O meni
- Račun
- natančno
- dodano
- Prednost
- AI
- vsi
- že
- in
- Še ena
- kdo
- audio
- Na voljo
- povprečno
- Slab
- temeljijo
- pred
- počutje
- BEST
- med
- odmori
- Building
- zgrajena
- se imenuje
- poziva
- opravlja
- znane osebnosti
- lastnosti
- posnetki
- Koda
- deli
- računalniško ustvarjen
- povezave
- bi
- ustvarjajo
- ustvaril
- Ustvarjalci
- kredit
- globoko
- Odkrivanje
- razlike
- drugačen
- navzdol
- vožnjo
- enostavno
- Angleščina
- okolje
- etika
- vse
- obstoječih
- pošteno
- ponaredek
- Padec
- seznanjeni
- prva
- iz
- ustvarjajo
- GitHub
- dana
- več
- roke
- ob
- URE
- Kako
- HTTPS
- vpliv
- izboljšanju
- in
- vključeno
- Podatki
- IT
- Vedite
- Zadnja
- naučili
- Knjižnica
- Verjeten
- Seznam
- Long
- off
- je
- Izdelava
- Matter
- srednje
- Model
- modeli
- Denar
- več
- premikanje
- Glasba
- Nimate
- net
- Novo
- oktober
- ONE
- Da
- drugi
- Papir
- del
- zlasti
- vzorci
- ljudje
- oseba
- telefon
- kramp
- Smola
- parcele
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Politiki
- pozitiven
- potencial
- predstaviti
- v prvi vrsti
- zaščito
- javno
- namene
- kakovost
- pravo
- realistična
- Zabeležena
- sprosti
- zahteva
- raziskovalci
- Rezultati
- Tveganje
- tveganja
- scenariji
- sekund
- Shutterstock
- Podoben
- Simulator
- manj
- So
- zvok
- Zvočniki
- gledano
- govor
- pomlad
- Izjava
- Še vedno
- sistem
- Bodite
- meni
- pogovor
- skupina
- Tehnologije
- Tehnologija
- Besedilo v govor
- O
- njihove
- stvar
- 3
- skozi
- čas
- krat
- do
- Boni
- TONE
- tudi
- orodje
- orodja
- Vlak
- usposabljanje
- tweaking
- edinstven
- us
- uporaba
- Voice
- GLASOVI
- hoja
- valovi
- načini
- teden
- ali
- ki
- medtem
- WHO
- bo
- bi
- Napačen
- napačne roke
- donosov
- Vi
- Vaša rutina za
- zefirnet