Meta випускає генеративний ШІ для створення музики та звуків

Meta випускає генеративний ШІ для створення музики та звуків

Meta випускає генеративний штучний інтелект для створення музики, звучить PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Meta в середу випустила AudioCraft, набір із трьох моделей AI, здатних автоматично створювати звук із текстових описів.

Оскільки генеративні моделі штучного інтелекту, які приймають письмові підказки та перетворюють їх на зображення чи текст, продовжують розвиватися, комп’ютерники шукають можливість створювати інші форми медіа за допомогою машинного навчання.

Аудіо є складним для систем штучного інтелекту, особливо музики, оскільки програмне забезпечення має навчитися створювати узгоджені шаблони протягом декількох хвилин і бути достатньо креативним, щоб створити щось привабливе або приємне для прослуховування.

«Типовий музичний трек тривалістю кілька хвилин із частотою дискретизації 44.1 кГц (що є стандартною якістю музичних записів) складається з мільйонів часових кроків», — пояснила команда Meta. Тобто модель генерації аудіо має виводити багато даних, щоб побудувати зручну для людини доріжку.

«Для порівняння, текстові генеративні моделі, такі як Llama та Llama 2, подають текст, оброблений у вигляді підслів, які представляють лише кілька тисяч часових кроків на вибірку».

Гігант Facebook передбачає, що люди використовують AudioCraft, щоб експериментувати зі створенням комп’ютерних звуків без необхідності вчитися грати на будь-якому інструменті. Набір інструментів складається з трьох моделей: MusicGen, AudioGen і EnCodec. 

MusicGen навчався на 20,000 XNUMX годинах записів, які належать або ліцензовані Meta, разом із відповідними текстовими описами. AudioGen більше зосереджений на створенні звукових ефектів, а не на музиці, і навчався на загальнодоступних даних. Нарешті, EnCodec описується як нейронний кодек із втратами даних, який може стискати та розпаковувати аудіосигнали з високою точністю.

Meta сказав, що це AudioCraft з «відкритим вихідним кодом», і це певною мірою. Програмне забезпечення, необхідне для створення та навчання моделей, а також виконання висновків, доступне за ліцензією MIT з відкритим кодом. Код можна використовувати у безкоштовних (як у свободі та безкоштовному пиві) та комерційних програмах, а також у дослідницьких проектах.

Тим не менш, ваги моделі не є відкритим кодом. Вони поширюються за ліцензією Creative Commons, яка спеціально забороняє комерційне використання. Як ми бачили с полум'я 2, щоразу, коли Meta говорить про відкритий вихідний код, перевіряйте дрібний шрифт.

MusicGen і AudioGen створюють звуки за допомогою текстової підказки. Ви можете почути короткі кліпи, створені на основі описів «свистить вітром» і «поп-танцювальний трек із запам’ятовуючими мелодіями, тропічною перкусією та бадьорими ритмами, ідеально підходить для пляжу» на Meta AudioCraft цільова сторінка тут

Короткі звукові ефекти реалістичні, хоча музичні, на нашу думку, не дуже хороші. Вони звучать як повторювані та загальні джингли для поганої музики чи пісень у ліфті, а не як хіти. 

Дослідники Meta сказали, що AudioGen – описано тут глибоко – був навчений шляхом перетворення необробленого аудіо на послідовність токенів і реконструкції вхідних даних шляхом перетворення їх назад на аудіо з високою точністю. Мовна модель відображає фрагменти підказки введення тексту в аудіомаркери, щоб дізнатися про співвідношення між словами та звуками. MusicGen був навчений за допомогою подібного процесу на музичних зразках, а не на звукових ефектах. 

«Замість того, щоб зберігати роботу як непроникну чорну скриньку, відкрито говорити про те, як ми розробляємо ці моделі та гарантувати, що ними легко користуватися для людей — дослідників чи музичної спільноти в цілому — допомагає людям зрозуміти, на що ці моделі здатні. робити, розуміти, чого вони не можуть робити, і отримати повноваження фактично їх використовувати», — стверджувала Team Meta.

«У майбутньому генеративний штучний інтелект може допомогти людям значно скоротити час ітерації, дозволяючи їм швидше отримувати відгуки на ранніх стадіях прототипування та сірого боксу — незалежно від того, чи є вони великим розробником, який створює світи для метавсесвіту, музикантом (аматором, професіоналом чи інакше), які працюють над своєю наступною композицією, або власники малого чи середнього бізнесу, які хочуть покращити свої творчі активи».

Ви можете отримати код AudioCraft туті експериментуйте з MusicGen тут і спробуйте. ®

Часова мітка:

Більше від Реєстр