Meta lansează AI generativ pentru a face muzică, sunete

Meta lansează AI generativ pentru a face muzică, sunete

Meta lansează AI generativ pentru a face muzică, sunete PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Meta a lansat miercuri AudioCraft, un set de trei modele AI capabile să creeze automat sunet din descrierile de text.

Pe măsură ce modelele AI generative care preiau solicitări scrise și le transformă în imagini sau mai mult text continuă să se maturizeze, oamenii de știință în domeniul informaticii caută să creeze alte forme de media folosind învățarea automată.

Audio este dificil pentru sistemele AI, în special pentru muzică, deoarece software-ul trebuie să învețe să producă modele coerente în câteva minute și să fie suficient de creativ pentru a genera ceva atrăgător sau plăcut de ascultat.

„O piesă muzicală tipică de câteva minute eșantionată la 44.1 kHz (care este calitatea standard a înregistrărilor muzicale) constă în milioane de pași de timp”, a explicat Team Meta. Adică, un model de generare audio trebuie să scoată o mulțime de date pentru a construi o pistă prietenoasă cu oamenii.

„În comparație, modelele generative bazate pe text precum Llama și Llama 2 sunt alimentate cu text procesat ca sub-cuvinte care reprezintă doar câteva mii de pași de timp per probă.”

Gigantul Facebook își imaginează oamenii care folosesc AudioCraft pentru a experimenta producerea de sunete generate de computer fără a fi nevoiți să învețe să cânte la vreun instrument. Setul de instrumente este format din trei modele: MusicGen, AudioGen și EnCodec. 

MusicGen a fost instruit pe 20,000 de ore de înregistrări, deținute sau licențiate de Meta, alături de descrierile de text corespunzătoare. AudioGen se concentrează mai mult pe generarea de efecte sonore decât pe muzică și a fost instruit pe date publice. În cele din urmă, EnCodec este descris ca un codec neuronal cu pierderi care poate comprima și decomprima semnalele audio cu fidelitate ridicată.

Meta a spus că este AudioCraft „de surse deschise” și este într-o anumită măsură. Software-ul necesar pentru a crea și antrena modelele și pentru a rula inferența este disponibil sub o licență MIT open-source. Codul poate fi folosit în aplicații gratuite (ca în libertate și bere gratuită) și comerciale, precum și în proiecte de cercetare.

Acestea fiind spuse, greutățile modelului nu sunt open source. Acestea sunt partajate sub o licență Creative Commons care interzice în mod specific utilizarea comercială. După cum am văzut cu Lama 2, ori de câte ori Meta vorbește despre chestii de surse deschise, verificați literele mici.

MusicGen și AudioGen generează sunete cu ajutorul unui text de intrare. Puteți auzi scurte clipuri create din descrierile „fluierând cu vântul” și „piesă de dans pop cu melodii captivante, percuție tropicală și ritmuri optimiste, perfecte pentru plajă” pe AudioCraft de la Meta. pagina de destinație, aici

Efectele sonore scurte sunt realiste, deși cele asemănătoare muzicii nu sunt grozave în opinia noastră. Sună mai degrabă ca niște jingle-uri repetitive și generice pentru muzică proastă sau melodii de lift, decât single-uri de succes. 

Cercetătorii de la Meta au spus că AudioGen – descris în profunzime aici – a fost antrenat prin conversia audio brută într-o secvență de jetoane și reconstruind intrarea prin transformarea acestora înapoi în audio la înaltă fidelitate. Un model de limbă mapează fragmente din solicitarea textului de intrare la indicatoarele audio pentru a afla corelația dintre cuvinte și sunete. Gen. muzical a fost antrenat folosind un proces similar pe mostre de muzică, mai degrabă decât efecte sonore. 

„În loc să păstrăm munca ca o cutie neagră de nepătruns, să fim deschisi cu privire la modul în care dezvoltăm aceste modele și să ne asigurăm că sunt ușor de utilizat de către oameni – fie că este vorba de cercetători sau de comunitatea muzicală în ansamblu – îi ajută pe oameni să înțeleagă ce pot aceste modele. să facă, să înțeleagă ce nu pot face și să fie împuterniciți să le folosească efectiv”, a argumentat Team Meta.

„În viitor, inteligența artificială generativă ar putea ajuta oamenii să îmbunătățească considerabil timpul de iterație, permițându-le să obțină feedback mai rapid în fazele timpurii de prototipare și grayboxing – fie că sunt un dezvoltator mare care construiește lumi pentru metavers, un muzician (amator, profesionist sau în caz contrar) lucrează la următoarea lor compoziție sau un proprietar de afaceri mici sau mijlocii care dorește să-și îmbunătățească activele creative.”

Puteți prelua codul AudioCraft aiciși experimentați cu MusicGen aici si incearca-l. ®

Timestamp-ul:

Mai mult de la Registrul