L'intelligenza artificiale viene utilizzata per generare tutto da immagini a testo a proteine artificiali, e ora un'altra cosa è stata aggiunta alla lista: la parola. La scorsa settimana i ricercatori di Microsoft ha rilasciato un documento su una nuova intelligenza artificiale chiamata VALL-E in grado di simulare accuratamente la voce di chiunque sulla base di un campione di soli tre secondi. VALL-E non è il primo simulatore vocale da creare, ma è costruito in modo diverso rispetto ai suoi predecessori e potrebbe comportare un rischio maggiore di potenziale uso improprio.
La maggior parte dei modelli di sintesi vocale esistenti utilizza forme d'onda (rappresentazioni grafiche delle onde sonore mentre si muovono attraverso un mezzo nel tempo) per creare voci false, modificando caratteristiche come il tono o il tono per approssimare una determinata voce. VALL-E, tuttavia, prende un campione della voce di qualcuno e lo scompone in componenti chiamati token, quindi utilizza quei token per creare nuovi suoni basati sulle "regole" che ha già appreso su questa voce. Se una voce è particolarmente profonda, o un oratore pronuncia la propria A in modo nasale, o è più monotona della media, questi sono tutti tratti che l'IA raccoglierebbe e sarebbe in grado di replicare.
Il modello si basa su una tecnologia chiamata EnCodec di Meta, che è stato appena rilasciato questa parte di ottobre. Lo strumento utilizza un sistema in tre parti per comprimere l'audio fino a 10 volte più piccolo degli MP3 senza perdita di qualità; i suoi creatori intendevano che uno dei suoi usi fosse migliorare la qualità della voce e della musica durante le chiamate effettuate su connessioni a larghezza di banda ridotta.
Per addestrare VALL-E, i suoi creatori hanno utilizzato una libreria audio chiamata LibriLight, le cui 60,000 ore di discorso inglese sono costituite principalmente dalla narrazione di audiolibri. Il modello produce i migliori risultati quando la voce sintetizzata è simile a una delle voci della libreria di addestramento (di cui ce ne sono oltre 7,000, quindi non dovrebbe essere un ordine troppo alto).
Oltre a ricreare la voce di qualcuno, VALL-E simula anche l'ambiente audio dal campione di tre secondi. Una clip registrata al telefono suonerebbe in modo diverso da quella realizzata di persona, e se stai camminando o guidando mentre parli, viene presa in considerazione l'acustica unica di quegli scenari.
Alcuni dei campioni suonano abbastanza realistici, mentre altri sono ancora chiaramente generati dal computer. Ma ci sono notevoli differenze tra le voci; puoi dire che si basano su persone che hanno stili di discorso, toni e schemi di intonazione diversi.
Il team che ha creato VALL-E sa che potrebbe essere facilmente utilizzato da cattivi attori; dalla simulazione di morsi sonori di politici o celebrità all'utilizzo di voci familiari per richiedere denaro o informazioni al telefono, ci sono innumerevoli modi per sfruttare la tecnologia. Si sono saggiamente astenuti dal rendere pubblicamente disponibile il codice di VALL-E e hanno incluso una dichiarazione etica alla fine del loro documento (che non farà molto per scoraggiare chiunque voglia usare l'IA per scopi nefasti).
Probabilmente è solo una questione di tempo prima che strumenti simili nascano e cadano nelle mani sbagliate. I ricercatori suggeriscono che i rischi che presenteranno modelli come VALL-E potrebbero essere mitigati costruendo modelli di rilevamento per valutare se i clip audio sono reali o sintetizzati. Se abbiamo bisogno dell'IA per proteggerci dall'IA, come facciamo a sapere se queste tecnologie stanno avendo un impatto netto positivo? Il tempo lo dirà.
Immagine di credito: Shutterstock.com/Tancha
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. Accedi qui.
- Fonte: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- capace
- Chi siamo
- Il mio account
- con precisione
- aggiunto
- Vantaggio
- AI
- Tutti
- già
- ed
- Un altro
- chiunque
- Audio
- disponibile
- media
- Vasca
- basato
- prima
- essendo
- MIGLIORE
- fra
- pause
- Costruzione
- costruito
- detto
- Bandi
- trasportare
- celebrità
- caratteristiche
- clip
- codice
- componenti
- generato dal computer
- Connessioni
- potuto
- creare
- creato
- creatori
- credito
- deep
- rivelazione
- differenze
- diverso
- giù
- guida
- facilmente
- Inglese
- Ambiente
- etica
- qualunque cosa
- esistente
- abbastanza
- falso
- Autunno
- familiare
- Nome
- da
- generare
- GitHub
- dato
- maggiore
- Mani
- avendo
- ORE
- Come
- HTTPS
- Impact
- miglioramento
- in
- incluso
- informazioni
- IT
- Sapere
- Cognome
- imparato
- Biblioteca
- probabile
- Lista
- Lunghi
- spento
- fatto
- Fare
- Importanza
- medie
- modello
- modelli
- soldi
- Scopri di più
- cambiano
- Musica
- Bisogno
- rete
- New
- ottobre
- ONE
- minimo
- Altri
- Carta
- parte
- particolarmente
- modelli
- Persone
- persona
- telefono
- scegliere
- Intonazione
- piazzole
- Platone
- Platone Data Intelligence
- PlatoneDati
- Politici
- positivo
- potenziale
- presenti
- principalmente
- protegge
- pubblicamente
- fini
- qualità
- di rose
- realistico
- registrato
- rilasciato
- richiesta
- ricercatori
- Risultati
- Rischio
- rischi
- Scenari
- secondo
- shutterstock
- simile
- simulatore
- inferiore
- So
- Suono
- Speaker
- parlando
- discorso
- primavera
- dichiarazione
- Ancora
- sistema
- Fai
- prende
- parlando
- team
- Tecnologie
- Tecnologia
- Text-to-Speech
- I
- loro
- cosa
- tre
- Attraverso
- tempo
- volte
- a
- Tokens
- TONE
- pure
- strumenti
- Treni
- Training
- tweaking
- unico
- us
- uso
- Voce
- VOCI
- a piedi
- onde
- modi
- settimana
- se
- quale
- while
- OMS
- volere
- sarebbe
- Wrong
- mani sbagliate
- i rendimenti
- Tu
- Trasferimento da aeroporto a Sharm
- zefiro