Meta lance une IA générative pour créer de la musique et des sons

Meta lance une IA générative pour créer de la musique et des sons

Meta lance une IA générative pour créer de la musique, semble PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Meta a publié mercredi AudioCraft, un ensemble de trois modèles d'IA capables de créer automatiquement un son à partir de descriptions textuelles.

Alors que les modèles d'IA génératifs qui prennent des invites écrites et les transforment en images ou en plus de texte continuent de mûrir, les informaticiens cherchent à créer d'autres formes de médias en utilisant l'apprentissage automatique.

L'audio est difficile pour les systèmes d'IA, en particulier la musique, car le logiciel doit apprendre à produire des motifs cohérents sur plusieurs minutes et être suffisamment créatif pour générer quelque chose d'accrocheur ou d'agréable à écouter.

"Une piste musicale typique de quelques minutes échantillonnée à 44.1 kHz (qui est la qualité standard des enregistrements musicaux) se compose de millions de pas de temps", a expliqué Team Meta. C'est-à-dire qu'un modèle de génération audio doit produire beaucoup de données pour créer une piste conviviale.

"En comparaison, les modèles génératifs basés sur du texte comme Llama et Llama 2 sont alimentés avec du texte traité comme des sous-mots qui ne représentent que quelques milliers de pas de temps par échantillon."

Le géant Facebook envisage des personnes utilisant AudioCraft pour expérimenter la création de sons générés par ordinateur sans avoir à apprendre à jouer d'un instrument. La boîte à outils est composée de trois modèles : MusicGen, AudioGen et EnCodec. 

MusicGen a été formé sur 20,000 XNUMX heures d'enregistrements, détenus ou sous licence par Meta, ainsi que leurs descriptions textuelles correspondantes. AudioGen est plus axé sur la génération d'effets sonores que de musique, et a été formé sur des données publiques. Enfin, EnCodec est décrit comme un codec neuronal avec perte qui peut compresser et décompresser des signaux audio avec une haute fidélité.

Meta a dit qu'il s'agissait d'AudioCraft "open sourcing", et c'est dans une certaine mesure. Le logiciel nécessaire pour créer et former les modèles, et exécuter l'inférence, est disponible sous une licence MIT open-source. Le code peut être utilisé dans des applications gratuites (comme dans la liberté et la bière gratuite) et commerciales ainsi que dans des projets de recherche.

Cela dit, les poids du modèle ne sont pas open source. Ils sont partagés sous une licence Creative Commons qui interdit spécifiquement l'utilisation commerciale. Comme nous l'avons vu avec Llama 2, chaque fois que Meta parle d'open source, vérifiez les petits caractères.

MusicGen et AudioGen génèrent des sons à partir d'une invite de saisie de texte. Vous pouvez entendre de courts clips créés à partir des descriptions "siffler avec le vent qui souffle" et "piste de danse pop avec des mélodies entraînantes, des percussions tropicales et des rythmes entraînants, parfaits pour la plage" sur Meta's AudioCraft page de destination, ici

Les effets sonores courts sont réalistes, même si ceux qui ressemblent à de la musique ne sont pas géniaux à notre avis. Ils sonnent comme des jingles répétitifs et génériques pour de la mauvaise musique d'attente ou des chansons d'ascenseur plutôt que des singles à succès. 

Les chercheurs de Meta ont déclaré AudioGen – décrit en profondeur ici – a été formé en convertissant l'audio brut en une séquence de jetons et en reconstruisant l'entrée en les transformant en audio à haute fidélité. Un modèle de langage mappe des extraits de l'invite de texte d'entrée aux jetons audio pour apprendre la corrélation entre les mots et les sons. Musique Gen a été formé en utilisant un processus similaire sur des échantillons de musique plutôt que sur des effets sonores. 

"Plutôt que de garder le travail comme une boîte noire impénétrable, être ouvert sur la façon dont nous développons ces modèles et s'assurer qu'ils sont faciles à utiliser pour les gens - qu'il s'agisse de chercheurs ou de la communauté musicale dans son ensemble - aide les gens à comprendre ce que ces modèles peuvent faire. faire, comprendre ce qu'ils ne peuvent pas faire et être habilité à les utiliser réellement », a expliqué Team Meta.

"À l'avenir, l'IA générative pourrait aider les gens à améliorer considérablement le temps d'itération en leur permettant d'obtenir des commentaires plus rapidement au cours des premières étapes de prototypage et de grayboxing - qu'il s'agisse d'un grand développeur construisant des mondes pour le métaverse, d'un musicien (amateur, professionnel ou autrement) travaillant sur leur prochaine composition, ou un propriétaire de petite ou moyenne entreprise cherchant à améliorer ses actifs créatifs.

Vous pouvez récupérer le code AudioCraft ici, et testez MusicGen ici et essayez-le. ®

Horodatage:

Plus de Le registre