Meta julkaisee generatiivisen tekoälyn musiikin ja äänien tekemiseen

Meta julkaisee generatiivisen tekoälyn musiikin ja äänien tekemiseen

Meta julkaisee generatiivisen tekoälyn musiikin tekemiseen, kuulostaa PlatoBlockchain Data Intelligenceltä. Pystysuuntainen haku. Ai.

Meta julkaisi keskiviikkona AudioCraftin, kolmen tekoälymallin sarjan, jotka pystyvät luomaan automaattisesti ääntä tekstikuvauksista.

Kun generatiiviset tekoälymallit, jotka ottavat vastaan ​​kirjallisia kehotteita ja muuttavat niistä kuviksi tai lisää tekstiä, kehittyvät edelleen, tietojenkäsittelytieteilijät tutkivat muunlaisia ​​mediamuotoja koneoppimisen avulla.

Ääni on vaikea tekoälyjärjestelmille, erityisesti musiikille, koska ohjelmiston on opittava tuottamaan yhtenäisiä kuvioita useiden minuuttien aikana ja oltava riittävän luovia tuottaakseen jotain tarttuvaa tai miellyttävää kuunneltavaa.

"Tyypillinen muutaman minuutin musiikkiraita, joka on näytteillä 44.1 kHz:llä (joka on musiikkitallenteiden vakiolaatu), koostuu miljoonista aikaaskeleista", Team Meta selitti. Toisin sanoen ääntä tuottavan mallin täytyy tuottaa paljon dataa ihmisystävällisen raidan rakentamiseksi.

"Verrattuna tekstipohjaisiin generatiivisiin malleihin, kuten Llama ja Llama 2, syötetään tekstiä, joka on käsitelty osasanoina, jotka edustavat vain muutamia tuhansia aikaaskelia näytettä kohti."

Facebook-jättiläinen kuvittelee, että ihmiset käyttävät AudioCraftia tietokoneella luomien äänten tekemiseen ilman, että heidän tarvitsee opetella soittamaan mitään instrumenttia. Työkalusarja koostuu kolmesta mallista: MusicGen, AudioGen ja EnCodec. 

MusicGen koulutettiin 20,000 XNUMX tunnin mittaiseen Metan omistamaan tai lisensoimaan tallenteeseen sekä niitä vastaaviin tekstikuvauksiin. AudioGen keskittyy enemmän äänitehosteiden luomiseen musiikin sijaan, ja se on koulutettu julkisiin tietoihin. Lopuksi EnCodec kuvataan häviöiseksi hermokoodekiksi, joka voi pakata ja purkaa äänisignaaleja erittäin tarkasti.

Meta sanoi, että se oli "avoimen lähdekoodin" AudioCraft, ja se on jossain määrin. Mallien luomiseen ja kouluttamiseen sekä päätelmien suorittamiseen tarvittava ohjelmisto on saatavilla avoimen lähdekoodin MIT-lisenssillä. Koodia voidaan käyttää ilmaisissa (kuten vapaus ja ilmainen olut) ja kaupallisissa sovelluksissa sekä tutkimusprojekteissa.

Mallin painot eivät kuitenkaan ole avoimen lähdekoodin. Ne jaetaan Creative Commons -lisenssillä, joka nimenomaan kieltää kaupallisen käytön. Kuten näimme Laama 2, aina kun Meta puhuu avoimesta lähdekoodista, tarkista hieno printti.

MusicGen ja AudioGen luovat ääniä syöttötekstikehotteen perusteella. Voit kuulla lyhyitä klippejä, jotka on luotu kuvauksista "vihellään tuulen puhaltaessa" ja "pop-tanssiraita tarttuvilla melodioilla, trooppisilla lyömäsoittimilla ja pirteillä rytmeillä, täydellinen rantaan" Metan AudioCraftissa aloitussivu, tästä

Lyhyet äänitehosteet ovat realistisia, vaikka musiikkimaiset eivät ole mielestämme mahtavia. Ne kuulostavat toistuvilta ja yleisiltä jingheliltä huonon pitoisuuden musiikille tai hissikappaleille, eivätkä hittisingleiltä. 

Metan tutkijat sanoivat, että AudioGen - kuvattu täällä – koulutettiin muuntamalla raakaääni merkkijonoiksi ja rekonstruoimalla tulo muuntamalla ne takaisin ääneksi korkealla tarkkuudella. Kielimalli kartoittaa katkelmia syöttötekstikehotteesta äänimerkkeihin oppiakseen sanojen ja äänten välisen korrelaation. MusiikkiGen koulutettiin käyttämällä samanlaista prosessia musiikkinäytteissä äänitehosteiden sijaan. 

"Sen sijaan, että teoksen pitäminen läpäisemättömänä mustana laatikkona, se, että olemme avoimia siitä, kuinka kehitämme näitä malleja ja varmistavat, että ihmiset ovat helppoja käyttää niitä – olipa kyse sitten tutkijoista tai musiikkiyhteisöstä kokonaisuudessaan – auttaa ihmisiä ymmärtämään, mitä näillä malleilla voi olla. tehdä, ymmärtää, mitä he eivät voi tehdä, ja saada valtuudet todella käyttää niitä”, Team Meta väitti.

"Tulevaisuudessa generatiivinen tekoäly voisi auttaa ihmisiä parantamaan iteraatioaikaa huomattavasti antamalla heille mahdollisuuden saada palautetta nopeammin prototyyppien ja harmaalaatikon alkuvaiheessa – olipa kyseessä suuri kehittäjä, joka rakentaa maailmoja metaversumiin, muusikko (amatööri, ammattilainen tai muutoin) seuraavan kokoonpanon parissa työskentelevälle tai pienelle tai keskisuurelle yrityksen omistajalle, joka haluaa parantaa luovaa omaisuuttaan."

Voit hakea AudioCraft-koodin tätäja kokeile MusicGeniä tätä ja kokeile sitä. ®

Aikaleima:

Lisää aiheesta Rekisteri