Meta släpper generativ AI för att skapa musik, ljud

Meta släpper generativ AI för att skapa musik, ljud

Meta släpper generativ AI för att skapa musik, låter PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Meta släppte på onsdagen AudioCraft, en uppsättning av tre AI-modeller som automatiskt kan skapa ljud från textbeskrivningar.

När generativa AI-modeller som tar skrivna uppmaningar och förvandlar dem till bilder eller mer text fortsätter att mogna, funderar datavetare på att göra andra former av media med hjälp av maskininlärning.

Ljud är svårt för AI-system, särskilt musik, eftersom programvaran måste lära sig att producera sammanhängande mönster under ett antal minuter och vara kreativ nog att generera något catchy eller trevlig att lyssna på.

"Ett typiskt musikspår på några minuter samplade vid 44.1 kHz (vilket är standardkvaliteten på musikinspelningar) består av miljontals tidssteg," förklarade Team Meta. Det vill säga, en ljudgenererande modell måste mata ut mycket data för att bygga ett människovänligt spår.

"I jämförelse matas textbaserade generativa modeller som Llama och Llama 2 med text som bearbetas som underord som representerar bara några tusen tidssteg per prov."

Facebook-jätten föreställer sig människor som använder AudioCraft för att experimentera med att skapa datorgenererade ljud utan att behöva lära sig att spela något instrument. Verktygslådan består av tre modeller: MusicGen, AudioGen och EnCodec. 

MusicGen tränades på 20,000 XNUMX timmars inspelningar, ägda eller licensierade av Meta, tillsammans med deras motsvarande textbeskrivningar. AudioGen är mer fokuserad på att generera ljudeffekter snarare än musik, och tränades på offentlig data. Slutligen beskrivs EnCodec som en förlustfri neural codec som kan komprimera och dekomprimera ljudsignaler med hög kvalitet.

Meta sa att det var "open sourcing" AudioCraft, och det är det till viss del. Mjukvaran som behövs för att skapa och träna modellerna och köra slutsatser är tillgänglig under en MIT-licens med öppen källkod. Koden kan användas i gratis (som i frihet och gratis öl) och kommersiella tillämpningar samt forskningsprojekt.

Som sagt, modellvikterna är inte öppen källkod. De delas under en Creative Commons-licens som specifikt förbjuder kommersiell användning. Som vi såg med Lama 2, när Meta pratar om saker med öppen källa, kolla det finstilta.

MusicGen och AudioGen genererar ljud med en inmatningstextprompt. Du kan höra korta klipp skapade från beskrivningarna "visslande med vinden som blåser" och "popdansspår med catchy melodier, tropiska slagverk och uppmuntrande rytmer, perfekt för stranden" på Metas AudioCraft målsida, här

De korta ljudeffekterna är realistiska, även om de musikliknande inte är bra enligt vår mening. De låter som repetitiva och generiska jinglar för dålig hållmusik eller hisslåtar snarare än hitsinglar. 

Forskare vid Meta sa AudioGen – beskrivet i djupet här – tränades genom att konvertera råljud till en sekvens av tokens och rekonstruera ingången genom att omvandla dessa tillbaka till ljud med hög kvalitet. En språkmodell mappar utdrag av inmatningstextprompten till ljudsymbolerna för att lära sig korrelationen mellan ord och ljud. Musik Gen tränades med en liknande process på musikprover snarare än ljudeffekter. 

"Istället för att behålla arbetet som en ogenomtränglig svart låda, att vara öppen med hur vi utvecklar dessa modeller och se till att de är lätta för människor att använda - oavsett om det är forskare eller musiksamhället som helhet - hjälper människor att förstå vad dessa modeller kan göra, förstå vad de inte kan göra och få befogenhet att faktiskt använda dem”, argumenterade Team Meta.

"I framtiden kan generativ AI hjälpa människor att avsevärt förbättra iterationstiden genom att tillåta dem att få feedback snabbare under de tidiga prototyp- och greyboxing-stadierna - oavsett om de är en stor utvecklare som bygger världar för metaversen, en musiker (amatör, professionell eller annars) arbetar på sin nästa sammansättning, eller en liten eller medelstor företagare som vill förbättra sina kreativa tillgångar."

Du kan hämta AudioCraft-koden här., och experimentera med MusicGen här. och prova det. ®

Tidsstämpel:

Mer från Registret