Meta wypuszcza generatywną sztuczną inteligencję do tworzenia muzyki, dźwięków

Meta wypuszcza generatywną sztuczną inteligencję do tworzenia muzyki, dźwięków

Meta udostępnia generatywną sztuczną inteligencję do tworzenia muzyki, brzmi PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Meta w środę wydała AudioCraft, zestaw trzech modeli AI zdolnych do automatycznego tworzenia dźwięku z opisów tekstowych.

Ponieważ generatywne modele sztucznej inteligencji, które przyjmują pisemne podpowiedzi i przekształcają je w obrazy lub więcej tekstu, wciąż dojrzewają, informatycy rozważają tworzenie innych form mediów przy użyciu uczenia maszynowego.

Dźwięk jest trudny dla systemów AI, zwłaszcza muzyka, ponieważ oprogramowanie musi nauczyć się tworzyć spójne wzorce przez kilka minut i być wystarczająco kreatywne, aby generować coś chwytliwego lub przyjemnego do słuchania.

„Typowa kilkuminutowa ścieżka muzyczna próbkowana z częstotliwością 44.1 kHz (co jest standardową jakością nagrań muzycznych) składa się z milionów kroków czasowych” — wyjaśnił Team Meta. Oznacza to, że model generujący dźwięk musi generować wiele danych, aby zbudować ścieżkę przyjazną dla człowieka.

„Dla porównania, oparte na tekście modele generatywne, takie jak Lama i Lama 2, są zasilane tekstem przetwarzanym jako słowa podrzędne, które reprezentują zaledwie kilka tysięcy kroków czasowych na próbkę”.

Gigant Facebooka przewiduje, że ludzie będą używać AudioCraft do eksperymentowania z tworzeniem dźwięków generowanych komputerowo bez konieczności nauki gry na jakimkolwiek instrumencie. Zestaw narzędzi składa się z trzech modeli: MusicGen, AudioGen i EnCodec. 

MusicGen został przeszkolony w zakresie 20,000 XNUMX godzin nagrań należących do Meta lub licencjonowanych przez Meta, wraz z odpowiadającymi im opisami tekstowymi. AudioGen jest bardziej skoncentrowany na generowaniu efektów dźwiękowych niż na muzyce i został przeszkolony na danych publicznych. Wreszcie, EnCodec jest opisywany jako stratny kodek neuronowy, który może kompresować i dekompresować sygnały audio z wysoką wiernością.

Meta powiedział, że AudioCraft jest „open source” i do pewnego stopnia tak jest. Oprogramowanie potrzebne do tworzenia i uczenia modeli oraz przeprowadzania wnioskowania jest dostępne na licencji MIT typu open source. Kod może być używany w aplikacjach darmowych (jak w Freedom i free beer) i komercyjnych, a także projektach badawczych.

To powiedziawszy, wagi modeli nie są open source. Są udostępniane na licencji Creative Commons, która wyraźnie zabrania użytku komercyjnego. Jak widzieliśmy z Lama 2, ilekroć Meta mówi o rzeczach open source, sprawdź drobnym drukiem.

MusicGen i AudioGen generują dźwięki po otrzymaniu monitu o wprowadzenie tekstu. Możesz usłyszeć krótkie klipy utworzone z opisów „gwiżdżący z wiejącym wiatrem” i „utwór pop dance z chwytliwymi melodiami, tropikalną perkusją i optymistycznymi rytmami, idealnymi na plażę” na AudioCraft Meta strona docelowa, tutaj

Krótkie efekty dźwiękowe są realistyczne, choć te muzyczne nie są naszym zdaniem rewelacyjne. Brzmią jak powtarzające się i ogólne jingle dla złej muzyki lub piosenek z windy, a nie hity. 

Naukowcy z Meta powiedzieli, że AudioGen – opisali dogłębnie tutaj – został przeszkolony poprzez konwersję surowego dźwięku na sekwencję tokenów i rekonstruowanie danych wejściowych poprzez przekształcenie ich z powrotem w dźwięk o wysokiej wierności. Model językowy odwzorowuje fragmenty monitu o tekst wejściowy na tokeny audio, aby poznać korelację między słowami i dźwiękami. Muzyka gen został przeszkolony przy użyciu podobnego procesu na próbkach muzycznych, a nie na efektach dźwiękowych. 

„Zamiast utrzymywać pracę jako nieprzeniknioną czarną skrzynkę, otwarcie mówić o tym, w jaki sposób rozwijamy te modele i zapewniać, że są łatwe w użyciu dla ludzi — niezależnie od tego, czy są to badacze, czy cała społeczność muzyczna — pomaga ludziom zrozumieć, co te modele mogą zrobić, zrozumieć, czego nie mogą zrobić, i uzyskać uprawnienia do ich faktycznego wykorzystania” – przekonywał Team Meta.

„W przyszłości generatywna sztuczna inteligencja może pomóc ludziom znacznie skrócić czas iteracji, umożliwiając im szybsze uzyskiwanie informacji zwrotnych na wczesnych etapach prototypowania i szarej skrzynki — niezależnie od tego, czy są dużymi programistami budującymi światy dla metaverse, muzykiem (amatorem, profesjonalistą czy w inny sposób) pracujący nad kolejnym utworem lub właściciel małej lub średniej firmy, który chce ulepszyć swoje kreatywne zasoby”.

Możesz pobrać kod AudioCraft tutaji eksperymentuj z MusicGen tutaj i wypróbuj to. ®

Znak czasu:

Więcej z Rejestr