La nuova intelligenza artificiale di Microsoft può clonare la tua voce in soli 3 secondi

Ripubblicato da Platone

Seguaci: 0

Microsoft’s New AI Can Clone Your Voice in Just 3 Seconds PlatoBlockchain Data Intelligence. Vertical Search. Ai.

L'intelligenza artificiale viene utilizzata per generare tutto da immagini a testo a proteine artificiali, e ora un'altra cosa è stata aggiunta alla lista: la parola. La scorsa settimana i ricercatori di Microsoft ha rilasciato un documento su una nuova intelligenza artificiale chiamata VALL-E in grado di simulare accuratamente la voce di chiunque sulla base di un campione di soli tre secondi. VALL-E non è il primo simulatore vocale da creare, ma è costruito in modo diverso rispetto ai suoi predecessori e potrebbe comportare un rischio maggiore di potenziale uso improprio.

La maggior parte dei modelli di sintesi vocale esistenti utilizza forme d'onda (rappresentazioni grafiche delle onde sonore mentre si muovono attraverso un mezzo nel tempo) per creare voci false, modificando caratteristiche come il tono o il tono per approssimare una determinata voce. VALL-E, tuttavia, prende un campione della voce di qualcuno e lo scompone in componenti chiamati token, quindi utilizza quei token per creare nuovi suoni basati sulle "regole" che ha già appreso su questa voce. Se una voce è particolarmente profonda, o un oratore pronuncia la propria A in modo nasale, o è più monotona della media, questi sono tutti tratti che l'IA raccoglierebbe e sarebbe in grado di replicare.

Il modello si basa su una tecnologia chiamata EnCodec di Meta, che è stato appena rilasciato questa parte di ottobre. Lo strumento utilizza un sistema in tre parti per comprimere l'audio fino a 10 volte più piccolo degli MP3 senza perdita di qualità; i suoi creatori intendevano che uno dei suoi usi fosse migliorare la qualità della voce e della musica durante le chiamate effettuate su connessioni a larghezza di banda ridotta.

Per addestrare VALL-E, i suoi creatori hanno utilizzato una libreria audio chiamata LibriLight, le cui 60,000 ore di discorso inglese sono costituite principalmente dalla narrazione di audiolibri. Il modello produce i migliori risultati quando la voce sintetizzata è simile a una delle voci della libreria di addestramento (di cui ce ne sono oltre 7,000, quindi non dovrebbe essere un ordine troppo alto).

Oltre a ricreare la voce di qualcuno, VALL-E simula anche l'ambiente audio dal campione di tre secondi. Una clip registrata al telefono suonerebbe in modo diverso da quella realizzata di persona, e se stai camminando o guidando mentre parli, viene presa in considerazione l'acustica unica di quegli scenari.

Alcuni dei campioni suonano abbastanza realistici, mentre altri sono ancora chiaramente generati dal computer. Ma ci sono notevoli differenze tra le voci; puoi dire che si basano su persone che hanno stili di discorso, toni e schemi di intonazione diversi.

Il team che ha creato VALL-E sa che potrebbe essere facilmente utilizzato da cattivi attori; dalla simulazione di morsi sonori di politici o celebrità all'utilizzo di voci familiari per richiedere denaro o informazioni al telefono, ci sono innumerevoli modi per sfruttare la tecnologia. Si sono saggiamente astenuti dal rendere pubblicamente disponibile il codice di VALL-E e hanno incluso una dichiarazione etica alla fine del loro documento (che non farà molto per scoraggiare chiunque voglia usare l'IA per scopi nefasti).

Probabilmente è solo una questione di tempo prima che strumenti simili nascano e cadano nelle mani sbagliate. I ricercatori suggeriscono che i rischi che presenteranno modelli come VALL-E potrebbero essere mitigati costruendo modelli di rilevamento per valutare se i clip audio sono reali o sintetizzati. Se abbiamo bisogno dell'IA per proteggerci dall'IA, come facciamo a sapere se queste tecnologie stanno avendo un impatto netto positivo? Il tempo lo dirà.

Immagine di credito: Shutterstock.com/Tancha

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. Accedi qui.
Fonte: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

Timestamp: Gennaio 12, 2023

Timestamp: Febbraio 17, 2024

La nuova intelligenza artificiale di Microsoft può clonare la tua voce in soli 3 secondi

Ripubblicato da Platone

Di più da Hub di singolarità

Misurare l'elio in galassie lontane può dare ai fisici un'idea del motivo per cui esiste l'universo

Gli elementi costitutivi della vita potrebbero essersi formati negli spruzzi del mare primordiale

Il conflitto ucraino ha il mondo in corsa per le energie rinnovabili, afferma il rapporto dell'AIE

L’editing genetico CRISPR ha avuto un anno di svolta ed è solo all’inizio

In che modo lo studio della sensibilità animale potrebbe aiutare a risolvere il puzzle etico dell'IA senziente

Sparare polvere lunare nello spazio come "protezione solare" per la Terra potrebbe aiutare a fermare il cambiamento climatico

Le auto senza conducente di Waymo stanno colpendo le autostrade senza guidatori in Arizona

Questa intelligenza artificiale può progettare proteine complesse perfettamente adattate alle nostre esigenze

Questa startup sostenuta da Gates costruisce case modulari con pannelli ad alta efficienza energetica

La minuscola nuova intelligenza artificiale di NVIDIA trasforma le foto in scene 3D complete in pochi secondi

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account