Il nuovo "motore vocale" di OpenAI richiede solo 15 secondi per clonare il parlato: decrittografa

Il nuovo "motore vocale" di OpenAI richiede solo 15 secondi per clonare il parlato: decrittografa

Il nuovo "motore vocale" di OpenAI richiede solo 15 secondi per clonare il parlato: decrittografa la Data Intelligence di PlatoBlockchain. Ricerca verticale. Ai.

OpenAI, la società di intelligenza artificiale dietro lo strumento di intelligenza artificiale generativa ChatGPT, ha presentato una nuova tecnologia di clonazione vocale chiamata "Voice Engine". Questo modello audio può replicare la voce, l'intonazione e altri modelli linguistici distintamente umani di una persona sulla base di un campione relativamente piccolo di audio originale.

"È interessante notare che un piccolo modello con un singolo campione di 15 secondi può creare voci emotive e realistiche", afferma l'azienda nel suo Post del blog di venerdì.

Per fare un confronto, la piattaforma vocale AI UndiciLabs dispone di uno strumento di clonazione vocale istantanea che richiede campioni di almeno un minuto. Per ottenere i migliori risultati, sono necessari quasi 10 minuti di discorso continuo per il suo livello di servizio professionale.

L'azienda ha mostrato diversi esempi di ciò che questa tecnologia è in grado di fare. In un esempio, la voce di una giovane paziente che aveva perso gran parte della capacità di parlare a causa di un tumore vascolare al cervello è stata clonata utilizzando una vecchia registrazione realizzata per un progetto scolastico. Questo è come suona oggi, secondo OpenAI.

OpenAI ha lavorato con Durata, un'organizzazione no-profit affiliata alla facoltà di medicina della Brown University e creatrice di uno strumento chiamato Livox, una "app di comunicazione alternativa" creata per le persone con disabilità. Il team ha potuto lavorare con a registrazione fatta dalla donna per una presentazione scolastica:

L'Open AI Voice Engine è stato quindi in grado di fornire funzionalità di sintesi vocale istantanea che avrebbero consentito al paziente di parlare in modo efficace parlare con la propria voce:

OpenAI ha anche mostrato come Ehi Gen sta utilizzando la sua tecnologia per generare traduzioni dal suono naturale del discorso caricato in una lingua specifica in un'altra lingua.

La società afferma che Voice Engine è stato sviluppato per la prima volta alla fine del 2022 ed è già utilizzato per alimentare le voci preimpostate disponibili nell'API di sintesi vocale di OpenAI, nonché nella funzionalità Voce e Leggi ad alta voce di ChatGPT. Con gli ultimi progressi, la società afferma di essere cauta prima di un rilascio più ampio.

"Speriamo di avviare un dialogo sull'impiego responsabile delle voci sintetiche e su come la società può adattarsi a queste nuove capacità", ha scritto OpenAI, riconoscendo la pratica ampiamente condannata dei "deepfakes". Le voci di celebrità, funzionari governativi e sempre più privati ​​cittadini vengono impersonificate per scopi nefasti campagne politiche, annunci falsi e apertamente attività criminali. Il presidente degli Stati Uniti Joe Biden lo è stato spingendo per maggiori garanzie contro l’uso dannoso delle imitazioni vocali dell’intelligenza artificiale.

Infatti, Meta ha rivelato l’estate scorsa che il suo strumento vocale AI era stato trattenuto proprio a causa del “potenziali rischi di uso improprio. "

"In linea con il nostro approccio alla sicurezza dell'IA e i nostri impegni volontari, stiamo scegliendo di visualizzare in anteprima ma di non rilasciare su larga scala questa tecnologia in questo momento", ha spiegato OpenAI.

Anche prima del rilascio pubblico, OpenAI sta imponendo restrizioni a Voice Engine, incluso un elenco di persone di spicco che non emulerà.

"Crediamo che qualsiasi ampia diffusione della tecnologia vocale sintetica dovrebbe essere accompagnata da esperienze di autenticazione vocale che verifichino che l'oratore originale stia consapevolmente aggiungendo la propria voce al servizio e da un elenco di voci vietate che rilevi e impedisca la creazione di voci troppo simili a figure di spicco", ha scritto OpenAI.

I partner che testano Voice Engine oggi hanno accettato le politiche di utilizzo di OpenAI, che vietano l'impersonificazione di un altro individuo o organizzazione senza consenso. Inoltre, l'azienda richiede il consenso esplicito e informato dell'oratore originale e non consente agli sviluppatori di creare modalità per consentire ai singoli utenti di clonare la propria voce.

“Sulla base di queste conversazioni e dei risultati di questi test su piccola scala, prenderemo una decisione più informata su se e come implementare questa tecnologia su larga scala”, si legge nel post sul blog.

Oltre a Voice Engine, Open AI sta lavorando su più progetti in parallelo. Il CEO Sam Altman ha rivelato che la società sta lavorando al rilascio di GPT-5 quest'anno. L'azienda ha anche mostrato il suo strumento video generativo Sora. L'azienda afferma che Sora sarà il generatore video più avanzato sul mercato, superando modelli come Pika, Stable Video Diffusion e Runway ML.

Sora è attualmente disponibile solo per i "red teamer" arruolati da Open AI per assicurarsi che non possa essere abusato.

Voice Engine potrebbe certamente sovraperformare altri strumenti di clonazione vocale, comprese le offerte di Meta, ElevenLabs, WellSaid Labs e modelli open source come RVC.

Open AI sta anche lavorando su a progetto segreto chiamato Q* di cui è trapelato solo il nome. Sam Altman si è rifiutato di fornire dettagli, ma ha affermato che il gruppo di ricerca è fortemente concentrato sulla ricerca di tecniche e approcci che rendano migliore la ragione dell’intelligenza artificiale.

A cura di Ryan Ozawa.

Rimani aggiornato sulle notizie crittografiche, ricevi aggiornamenti quotidiani nella tua casella di posta.

Timestamp:

Di più da decrypt