Meta выпускает генеративный ИИ для создания музыки и звуков

Meta выпускает генеративный ИИ для создания музыки и звуков

Meta выпускает генеративный искусственный интеллект для создания музыки, сообщает PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

В среду Meta выпустила AudioCraft, набор из трех моделей ИИ, способных автоматически создавать звук из текстовых описаний.

По мере того, как генеративные модели ИИ, которые принимают письменные подсказки и превращают их в изображения или текст, продолжают развиваться, ученые-компьютерщики изучают возможность создания других форм медиа с использованием машинного обучения.

Аудио сложно для систем ИИ, особенно музыка, поскольку программное обеспечение должно научиться создавать последовательные паттерны в течение нескольких минут и быть достаточно творческим, чтобы создавать что-то запоминающееся или приятное для прослушивания.

«Типичная музыкальная дорожка продолжительностью несколько минут, сэмплированная с частотой 44.1 кГц (что является стандартным качеством музыкальных записей), состоит из миллионов временных шагов», — объяснила Team Meta. Другими словами, модель генерации звука должна выводить много данных, чтобы построить удобную для человека дорожку.

«Для сравнения, текстовые генеративные модели, такие как Llama и Llama 2, получают текст, обработанный как подслова, которые представляют собой всего несколько тысяч временных шагов на выборку».

Гигант Facebook предполагает, что люди будут использовать AudioCraft для экспериментов с созданием компьютерных звуков без необходимости учиться играть на каком-либо инструменте. Инструментарий состоит из трех моделей: MusicGen, AudioGen и EnCodec. 

MusicGen был обучен на 20,000 XNUMX часов записей, принадлежащих или лицензированных Meta, вместе с их соответствующими текстовыми описаниями. AudioGen больше ориентирован на создание звуковых эффектов, чем музыки, и был обучен на общедоступных данных. Наконец, EnCodec описывается как нейронный кодек с потерями, который может сжимать и распаковывать аудиосигналы с высокой точностью.

Meta сказал, что это AudioCraft с «открытым исходным кодом», и в какой-то степени это так. Программное обеспечение, необходимое для создания и обучения моделей, а также выполнения логических выводов, доступно по лицензии MIT с открытым исходным кодом. Код можно использовать в бесплатных (как свобода и бесплатное пиво) и коммерческих приложениях, а также в исследовательских проектах.

Тем не менее, вес модели не является открытым исходным кодом. Они распространяются по лицензии Creative Commons, которая специально запрещает коммерческое использование. Как мы видели с Llama 2, всякий раз, когда Meta говорит об открытом исходном коде, проверяйте мелкий шрифт.

MusicGen и AudioGen генерируют звуки по запросу на ввод текста. Вы можете прослушать короткие клипы, созданные на основе описаний «свист и дуновение ветра» и «поп-данс с запоминающимися мелодиями, тропической перкуссией и оптимистичными ритмами, идеально подходящими для пляжа» на Meta’s AudioCraft. целевая страница, здесь

Короткие звуковые эффекты реалистичны, хотя музыкальные, на наш взгляд, не очень хороши. Они звучат как повторяющиеся и общие джинглы для плохой музыки или песен лифта, а не хит-синглы. 

Исследователи из Meta сказали, что AudioGen — описано в глубине здесь - был обучен путем преобразования необработанного звука в последовательность токенов и реконструкции ввода путем преобразования их обратно в звук с высокой точностью. Языковая модель сопоставляет фрагменты входной текстовой подсказки звуковым токенам, чтобы изучить корреляцию между словами и звуками. Генер музыки был обучен с использованием аналогичного процесса на музыкальных образцах, а не на звуковых эффектах. 

«Вместо того, чтобы держать работу в виде непроницаемого черного ящика, открыто говорить о том, как мы разрабатываем эти модели, и обеспечивать их простоту использования людьми — будь то исследователи или музыкальное сообщество в целом — помогает людям понять, на что способны эти модели. сделать, понять, чего они не могут сделать, и иметь возможность их использовать», — заявила команда Team Meta.

«В будущем генеративный ИИ может помочь людям значительно сократить время итерации, позволив им быстрее получать отзывы на ранних стадиях прототипирования и создания серого ящика — будь то крупный разработчик, создающий миры для метавселенной, музыкант (любитель, профессионал или в противном случае) работающие над своей следующей композицией, или владелец малого или среднего бизнеса, желающий повысить уровень своих творческих активов».

Вы можете получить код AudioCraft здесьи поэкспериментируйте с MusicGen здесь и попробуйте это. ®

Отметка времени:

Больше от Регистр