A Meta generatív mesterséges intelligenciát bocsát ki zenéléshez, hangzáshoz

A Meta generatív mesterséges intelligenciát bocsát ki zenéléshez, hangzáshoz

A Meta generatív mesterséges intelligenciát ad ki a zenéléshez, megszólaltatja a PlatoBlockchain Data Intelligence-t. Függőleges keresés. Ai.

A Meta szerdán kiadta az AudioCraftot, egy három mesterséges intelligencia modellből álló készletet, amely képes automatikusan hangot létrehozni szöveges leírásokból.

Ahogy a generatív mesterséges intelligencia modellek, amelyek írásos felszólításokat fogadnak el, és képpé vagy több szöveggé alakítják, tovább érnek, az informatikusok más médiák létrehozását vizsgálják gépi tanulás segítségével.

Az AI-rendszerek számára nehéz a hang, különösen a zene, mivel a szoftvernek meg kell tanulnia több perc alatt koherens mintákat létrehozni, és elég kreatívnak kell lennie ahhoz, hogy valami fülbemászó vagy kellemes hallgatást generáljon.

„Egy tipikus, néhány perces, 44.1 kHz-en mintavételezett zeneszám (ami a zenei felvételek szabványos minősége) több millió időlépésből áll” – magyarázta a Team Meta. Ez azt jelenti, hogy egy hanggeneráló modellnek sok adatot kell kiadnia ahhoz, hogy emberbarát sávot építsen fel.

„Összehasonlításképpen a szövegalapú generatív modellek, mint például a Llama és a Llama 2, olyan részszavakként feldolgozott szöveggel vannak táplálva, amelyek mintánként mindössze néhány ezer időlépést jelentenek.”

A Facebook óriása azt képzeli, hogy az AudioCraft segítségével az emberek számítógéppel generált hangokat adnak ki anélkül, hogy bármilyen hangszeren meg kellene tanulniuk játszani. Az eszközkészlet három modellből áll: MusicGen, AudioGen és EnCodec. 

A MusicGen-t 20,000 XNUMX órányi felvételre képezték ki, amelyek a Meta tulajdonában vannak vagy licencelték, és a megfelelő szöveges leírásokkal együtt. Az AudioGen inkább hangeffektusok generálására összpontosít, nem pedig zenére, és nyilvános adatokra képezték ki. Végül az EnCodec-et veszteséges neurális kodekként írják le, amely nagy pontossággal képes tömöríteni és kicsomagolni az audiojeleket.

Meta azt mondta, hogy „nyílt forráskódú” AudioCraft, és bizonyos mértékig az is. A modellek létrehozásához és betanításához, valamint a következtetések futtatásához szükséges szoftver nyílt forráskódú MIT licenc alatt érhető el. A kód ingyenes (mint a szabadság és az ingyenes sör esetében) és kereskedelmi alkalmazásokban, valamint kutatási projektekben használható.

Ennek ellenére a modellsúlyok nem nyílt forráskódúak. A Creative Commons licenc alatt vannak megosztva, amely kifejezetten tiltja a kereskedelmi felhasználást. Ahogy láttuk Láma 2, amikor Meta nyílt forráskódú dolgokról beszél, ellenőrizze az apró betűs.

A MusicGen és az AudioGen hangokat generál a beviteli szöveges üzenettel. A „fütyülő szél fúj” és a „pop dance szám fülbemászó dallamokkal, trópusi ütőhangszerekkel és lendületes ritmusokkal, tökéletes a strandra” leírásokból készült rövid klipeket hallhat a Meta's AudioCrafton. nyitóoldal, itt

A rövid hanghatások valósághűek, bár a zeneszerűek véleményünk szerint nem túl jók. Úgy hangzanak, mint egy ismétlődő és általános csilingelő rossz tartású zenéhez vagy liftes dalokhoz, semmint slágerekhez. 

A Meta kutatói szerint az AudioGen – leírva mélyen itt – A nyers hangot tokenek sorozatává alakították át, és a bemenetet úgy alakították át, hogy ezeket nagy hűséggel visszaalakították hanggá. Egy nyelvi modell leképezi a beviteli szöveges prompt töredékeit az audio tokenekhez, hogy megtanulja a szavak és a hangok közötti összefüggést. MusicGen hasonló eljárással képezték ki zenei mintákon, nem pedig hangeffektusokon. 

„Ahelyett, hogy áthatolhatatlan fekete dobozként tartanánk a művet, ha nyitottak vagyunk arra vonatkozóan, hogyan fejlesztjük ezeket a modelleket, és biztosítjuk, hogy az emberek – akár kutatókról, akár a zenei közösség egészéről van szó – könnyen használhatóak legyenek – segít az embereknek megérteni, mire képesek ezek a modellek. megtenni, megérteni, mit nem tehetnek meg, és felhatalmazást kapni arra, hogy ténylegesen használják őket” – érvelt a Team Meta.

„A jövőben a generatív mesterséges intelligencia jelentősen javíthatja az iterációs időt azáltal, hogy gyorsabban kaphatnak visszajelzést a prototípus-készítés és a szürkedoboz-készítés korai szakaszában – akár egy nagy fejlesztő, aki világokat épít a metaverzum számára, akár zenész (amatőr, profi vagy ellenkező esetben) a következő kompozíción dolgozik, vagy egy kis- vagy középvállalkozás tulajdonosa, aki szeretné magasabb szintre emelni kreatív eszközeit.”

Lekérheti az AudioCraft kódot itt, és kísérletezzen a MusicGennel itt és próbáld ki. ®

Időbélyeg:

Még több A regisztráció