Meta brengt generatieve AI uit voor het maken van muziek, geluiden

Meta brengt generatieve AI uit voor het maken van muziek, geluiden

Meta brengt generatieve AI uit voor het maken van muziek, klinkt PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Meta heeft woensdag AudioCraft uitgebracht, een set van drie AI-modellen die automatisch geluid kunnen creëren uit tekstbeschrijvingen.

Terwijl generatieve AI-modellen die geschreven aanwijzingen omzetten in afbeeldingen of meer tekst steeds volwassener worden, onderzoeken computerwetenschappers de ontwikkeling van andere vormen van media met behulp van machinaal leren.

Audio is moeilijk voor AI-systemen, vooral muziek, omdat de software moet leren om gedurende een aantal minuten samenhangende patronen te produceren en creatief genoeg moet zijn om iets pakkends of prettigs om naar te luisteren te genereren.

“Een typisch muzieknummer van een paar minuten, gesampled op 44.1 kHz (wat de standaardkwaliteit is van muziekopnames), bestaat uit miljoenen tijdstappen”, legt Team Meta uit. Dat wil zeggen dat een audiogenererend model veel gegevens moet uitvoeren om een ​​mensvriendelijke track te bouwen.

“Ter vergelijking: op tekst gebaseerde generatieve modellen zoals Llama en Llama 2 worden gevoed met tekst die is verwerkt als subwoorden die slechts een paar duizend tijdstappen per monster vertegenwoordigen.”

De Facebook-gigant stelt zich voor dat mensen AudioCraft gebruiken om te experimenteren met het maken van door de computer gegenereerde geluiden zonder dat ze een instrument hoeven te leren bespelen. De toolkit bestaat uit drie modellen: MusicGen, AudioGen en EnCodec. 

MusicGen werd getraind op 20,000 uur aan opnames, eigendom van of onder licentie van Meta, naast de bijbehorende tekstbeschrijvingen. AudioGen is meer gericht op het genereren van geluidseffecten dan op muziek, en is getraind op openbare gegevens. Ten slotte wordt EnCodec beschreven als een neurale codec met verlies die audiosignalen met hoge betrouwbaarheid kan comprimeren en decomprimeren.

Meta zei dat het “open sourcing” AudioCraft was, en tot op zekere hoogte is dat ook zo. De software die nodig is om de modellen te maken en te trainen, en om gevolgtrekkingen uit te voeren, is beschikbaar onder een open-source MIT-licentie. De code kan worden gebruikt in gratis (zoals in vrijheid en gratis bier) en commerciële toepassingen, evenals in onderzoeksprojecten.

Dat gezegd hebbende, de modelgewichten zijn niet open source. Ze worden gedeeld onder een Creative Commons-licentie die commercieel gebruik specifiek verbiedt. Zoals we zagen met Lama 2, als Meta het over open sourcing-dingen heeft, controleer dan de kleine lettertjes.

MusicGen en AudioGen genereren geluiden op basis van een invoertekstprompt. Je kunt korte clips horen die zijn gemaakt op basis van de beschrijvingen "fluitend met waaiende wind" en "popdancetrack met pakkende melodieën, tropische percussie en vrolijke ritmes, perfect voor op het strand" op Meta's AudioCraft landingspagina, hier

De korte geluidseffecten zijn realistisch, al zijn de muziekachtige naar onze mening niet geweldig. Ze klinken als repetitieve en algemene jingles voor slechte hold-muziek of liftnummers in plaats van hitsingles. 

Onderzoekers van Meta zeiden dat AudioGen – beschreven in de diepte hier – werd getraind door onbewerkte audio om te zetten in een reeks tokens, en de invoer te reconstrueren door deze weer met hoge betrouwbaarheid om te zetten in audio. Een taalmodel wijst fragmenten van de invoertekstprompt toe aan de audiotokens om de correlatie tussen woorden en geluiden te leren. MuziekGen werd getraind met behulp van een soortgelijk proces op muzieksamples in plaats van op geluidseffecten. 

“In plaats van het werk als een ondoordringbare zwarte doos te houden, helpt openheid over hoe we deze modellen ontwikkelen en ervoor te zorgen dat ze gemakkelijk te gebruiken zijn voor mensen – of het nu onderzoekers zijn of de muziekgemeenschap als geheel – mensen te helpen begrijpen wat deze modellen kunnen betekenen. doen, begrijpen wat ze niet kunnen doen, en de kracht krijgen om ze daadwerkelijk te gebruiken”, betoogde Team Meta.

“In de toekomst zou generatieve AI mensen kunnen helpen de iteratietijd enorm te verbeteren door hen in staat te stellen sneller feedback te krijgen tijdens de vroege prototyping- en Grayboxing-fasen – of ze nu een grote ontwikkelaar zijn die werelden bouwt voor de metaverse, een muzikant (amateur, professional of anders) die aan hun volgende compositie werken, of een eigenaar van een klein of middelgroot bedrijf die zijn creatieve mogelijkheden naar een hoger niveau wil tillen.

U kunt de AudioCraft-code ophalen hieren experimenteer met MusicGen hier en probeer het uit. ®

Tijdstempel:

Meer van Het register