Meta rilascia l'intelligenza artificiale generativa per creare musica e suoni

Meta rilascia l'intelligenza artificiale generativa per creare musica e suoni

Meta rilascia un'intelligenza artificiale generativa per creare musica e suoni PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Meta mercoledì ha rilasciato AudioCraft, un set di tre modelli di intelligenza artificiale in grado di creare automaticamente suoni dalle descrizioni testuali.

Man mano che i modelli di intelligenza artificiale generativa che accettano suggerimenti scritti e li trasformano in immagini o più testo continuano a maturare, gli informatici stanno cercando di creare altre forme di media utilizzando l'apprendimento automatico.

L'audio è difficile per i sistemi di intelligenza artificiale, in particolare la musica, poiché il software deve imparare a produrre schemi coerenti per un numero di minuti ed essere abbastanza creativo da generare qualcosa di orecchiabile o piacevole da ascoltare.

"Una tipica traccia musicale di pochi minuti campionata a 44.1 kHz (che è la qualità standard delle registrazioni musicali) è composta da milioni di timestep", ha spiegato il Team Meta. Vale a dire, un modello di generazione audio deve produrre molti dati per costruire una traccia adatta all'uomo.

"In confronto, i modelli generativi basati su testo come Llama e Llama 2 sono alimentati con testo elaborato come sottoparole che rappresentano solo poche migliaia di timestep per campione."

Il gigante di Facebook immagina le persone che utilizzano AudioCraft per sperimentare la creazione di suoni generati dal computer senza dover imparare a suonare alcuno strumento. Il toolkit è composto da tre modelli: MusicGen, AudioGen e EnCodec. 

MusicGen è stato addestrato su 20,000 ore di registrazioni, di proprietà o concesse in licenza da Meta, insieme alle corrispondenti descrizioni testuali. AudioGen è più focalizzato sulla generazione di effetti sonori piuttosto che sulla musica ed è stato addestrato sui dati pubblici. Infine, EnCodec è descritto come un codec neurale con perdita in grado di comprimere e decomprimere i segnali audio con alta fedeltà.

Meta ha affermato che si trattava di AudioCraft "open sourcing", e lo è fino a un certo punto. Il software necessario per creare e addestrare i modelli ed eseguire l'inferenza è disponibile con una licenza MIT open source. Il codice può essere utilizzato in applicazioni gratuite (come in Freedom e Free Beer) e commerciali, nonché in progetti di ricerca.

Detto questo, i pesi del modello non sono open source. Sono condivisi con una licenza Creative Commons che vieta specificamente l'uso commerciale. Come abbiamo visto con lama 2, ogni volta che Meta parla di open source, controlla la stampa fine.

MusicGen e AudioGen generano suoni dato un prompt di testo di input. Puoi ascoltare brevi clip creati dalle descrizioni "fischio con il vento che soffia" e "brano pop dance con melodie accattivanti, percussioni tropicali e ritmi allegri, perfetto per la spiaggia" su AudioCraft di Meta pagina di destinazione, qui

I brevi effetti sonori sono realistici, anche se quelli simili alla musica non sono eccezionali secondo noi. Sembrano jingle ripetitivi e generici per musica da tenere male o canzoni da ascensore piuttosto che singoli di successo. 

I ricercatori di Meta hanno detto che AudioGen – ha descritto in profondità qui – è stato addestrato convertendo l'audio grezzo in una sequenza di token e ricostruendo l'input ritrasformandolo in audio ad alta fedeltà. Un modello linguistico associa frammenti del prompt di testo di input ai token audio per apprendere la correlazione tra parole e suoni. MusicaGen è stato addestrato utilizzando un processo simile su campioni musicali piuttosto che su effetti sonori. 

"Piuttosto che mantenere il lavoro come una scatola nera impenetrabile, essere aperti su come sviluppiamo questi modelli e garantire che siano facili da usare per le persone - che si tratti di ricercatori o della comunità musicale nel suo insieme - aiuta le persone a capire cosa possono fare questi modelli fare, capire cosa non possono fare e avere il potere di usarli effettivamente ", ha affermato il Team Meta.

"In futuro, l'IA generativa potrebbe aiutare le persone a migliorare notevolmente i tempi di iterazione consentendo loro di ottenere feedback più rapidamente durante le prime fasi di prototipazione e grayboxing, che si tratti di un grande sviluppatore che costruisce mondi per il metaverso, un musicista (dilettante, professionista o in caso contrario) lavorando alla loro prossima composizione, o un imprenditore di piccole o medie dimensioni che cerca di migliorare le proprie risorse creative.

Puoi recuperare il codice AudioCraft quie sperimenta con MusicGen qui e provalo. ®

Timestamp:

Di più da Il registro