Meta izdaja Generative AI za ustvarjanje glasbe in zvokov

Ponovno objavil Platon

Spremljevalci: 0

Meta izdaja generativni AI za ustvarjanje glasbe, sliši se na PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Meta je v sredo izdala AudioCraft, niz treh modelov umetne inteligence, ki lahko samodejno ustvarijo zvok iz besedilnih opisov.

Medtem ko generativni modeli umetne inteligence, ki sprejemajo pisne pozive in jih spreminjajo v slike ali več besedila, še naprej dozorevajo, računalniški znanstveniki iščejo druge oblike medijev s pomočjo strojnega učenja.

Zvok je težaven za sisteme umetne inteligence, zlasti glasba, saj se mora programska oprema naučiti ustvarjati koherentne vzorce v nekaj minutah in biti dovolj ustvarjalna, da ustvari nekaj privlačnega ali prijetnega za poslušanje.

"Tipična glasbena skladba, dolga nekaj minut, vzorčena pri 44.1 kHz (kar je standardna kakovost glasbenih posnetkov), je sestavljena iz milijonov časovnih korakov," je pojasnil Team Meta. To pomeni, da mora model za generiranje zvoka izpisati veliko podatkov, da ustvari človeku prijazno skladbo.

"Za primerjavo, besedilni generativni modeli, kot sta Llama in Llama 2, se hranijo z besedilom, obdelanim kot podbesede, ki predstavljajo le nekaj tisoč časovnih korakov na vzorec."

Velikan Facebook si predstavlja ljudi, ki uporabljajo AudioCraft za eksperimentiranje ustvarjanja računalniško ustvarjenih zvokov, ne da bi se jim bilo treba učiti igrati kateri koli instrument. Komplet orodij je sestavljen iz treh modelov: MusicGen, AudioGen in EnCodec.

MusicGen je bil usposobljen na 20,000 urah posnetkov, ki so v lasti ali licenci Mete, skupaj z njihovimi ustreznimi besedilnimi opisi. AudioGen je bolj osredotočen na ustvarjanje zvočnih učinkov kot glasbe in je bil usposobljen za javne podatke. Nazadnje je EnCodec opisan kot nevronski kodek z izgubo, ki lahko stisne in dekompresira zvočne signale z visoko natančnostjo.

Meta je rekla, da gre za "odprtokodni" AudioCraft in do neke mere tudi je. Programska oprema, potrebna za ustvarjanje in usposabljanje modelov ter izvajanje sklepanja, je na voljo pod odprtokodno licenco MIT. Kodo je mogoče uporabiti v brezplačnih (kot pri svobodi in brezplačnem pivu) in komercialnih aplikacijah ter raziskovalnih projektih.

Kljub temu uteži modela niso odprtokodne. Delijo se pod licenco Creative Commons, ki izrecno prepoveduje komercialno uporabo. Kot smo videli s Lama 2, kadarkoli Meta govori o odprtokodnih stvareh, preveri drobni tisk.

MusicGen in AudioGen ustvarjata zvoke glede na poziv za vnos besedila. Lahko slišite kratke posnetke, ustvarjene iz opisov "žvižganje z vetrom" in "pop plesna skladba s privlačnimi melodijami, tropskimi tolkali in optimističnimi ritmi, kot nalašč za na plažo" na Metinem AudioCraftu ciljna stran, tukaj.

Kratki zvočni učinki so realistični, čeprav glasbeni podobni učinki po našem mnenju niso odlični. Zvenijo kot ponavljajoči se in splošni džingli za slabo zadržano glasbo ali pesmi v dvigalu, ne pa kot uspešnice.

Raziskovalci pri Meti so povedali, da je AudioGen – opisano tukaj globoko – je bil usposobljen s pretvorbo surovega zvoka v zaporedje žetonov in rekonstrukcijo vhoda s pretvorbo teh nazaj v zvok z visoko zvestobo. Jezikovni model preslika izrezke poziva za vnos besedila v zvočne žetone, da se nauči korelacije med besedami in zvoki. MusicGen je bil usposobljen s podobnim postopkom na glasbenih vzorcih in ne na zvočnih učinkih.

»Namesto da delo ohranjamo kot nepregledno črno skrinjico, smo odprti glede tega, kako razvijamo te modele in zagotavljamo, da jih ljudje enostavno uporabljajo – ne glede na to, ali gre za raziskovalce ali glasbeno skupnost kot celoto – pomaga ljudem razumeti, kaj lahko ti modeli narediti, razumeti, česa ne zmorejo, in pridobiti moč, da jih dejansko uporabijo,« je trdil Team Meta.

»V prihodnosti bi lahko generativna umetna inteligenca ljudem pomagala močno izboljšati čas iteracije, tako da bi jim omogočila hitrejše pridobivanje povratnih informacij v zgodnjih fazah izdelave prototipov in grayboxinga – ne glede na to, ali so veliki razvijalci, ki gradijo svetove za metaverse, glasbeniki (amaterski, profesionalni ali sicer), ki delajo na svoji naslednji skladbi, ali lastnika malega ali srednje velikega podjetja, ki želi nadgraditi svoja ustvarjalna sredstva.«

Lahko pridobite kodo AudioCraft tukajin eksperimentirajte z MusicGen tukaj in preizkusite. ®