Meta выпускает генеративный ИИ для создания музыки и звуков

Переиздано Платоном

Читают: 0

Meta выпускает генеративный искусственный интеллект для создания музыки, сообщает PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

В среду Meta выпустила AudioCraft, набор из трех моделей ИИ, способных автоматически создавать звук из текстовых описаний.

По мере того, как генеративные модели ИИ, которые принимают письменные подсказки и превращают их в изображения или текст, продолжают развиваться, ученые-компьютерщики изучают возможность создания других форм медиа с использованием машинного обучения.

Аудио сложно для систем ИИ, особенно музыка, поскольку программное обеспечение должно научиться создавать последовательные паттерны в течение нескольких минут и быть достаточно творческим, чтобы создавать что-то запоминающееся или приятное для прослушивания.

«Типичная музыкальная дорожка продолжительностью несколько минут, сэмплированная с частотой 44.1 кГц (что является стандартным качеством музыкальных записей), состоит из миллионов временных шагов», — объяснила Team Meta. Другими словами, модель генерации звука должна выводить много данных, чтобы построить удобную для человека дорожку.

«Для сравнения, текстовые генеративные модели, такие как Llama и Llama 2, получают текст, обработанный как подслова, которые представляют собой всего несколько тысяч временных шагов на выборку».

Гигант Facebook предполагает, что люди будут использовать AudioCraft для экспериментов с созданием компьютерных звуков без необходимости учиться играть на каком-либо инструменте. Инструментарий состоит из трех моделей: MusicGen, AudioGen и EnCodec.

MusicGen был обучен на 20,000 XNUMX часов записей, принадлежащих или лицензированных Meta, вместе с их соответствующими текстовыми описаниями. AudioGen больше ориентирован на создание звуковых эффектов, чем музыки, и был обучен на общедоступных данных. Наконец, EnCodec описывается как нейронный кодек с потерями, который может сжимать и распаковывать аудиосигналы с высокой точностью.

Meta сказал, что это AudioCraft с «открытым исходным кодом», и в какой-то степени это так. Программное обеспечение, необходимое для создания и обучения моделей, а также выполнения логических выводов, доступно по лицензии MIT с открытым исходным кодом. Код можно использовать в бесплатных (как свобода и бесплатное пиво) и коммерческих приложениях, а также в исследовательских проектах.

Тем не менее, вес модели не является открытым исходным кодом. Они распространяются по лицензии Creative Commons, которая специально запрещает коммерческое использование. Как мы видели с Llama 2, всякий раз, когда Meta говорит об открытом исходном коде, проверяйте мелкий шрифт.

MusicGen и AudioGen генерируют звуки по запросу на ввод текста. Вы можете прослушать короткие клипы, созданные на основе описаний «свист и дуновение ветра» и «поп-данс с запоминающимися мелодиями, тропической перкуссией и оптимистичными ритмами, идеально подходящими для пляжа» на Meta’s AudioCraft. целевая страница, здесь.

Короткие звуковые эффекты реалистичны, хотя музыкальные, на наш взгляд, не очень хороши. Они звучат как повторяющиеся и общие джинглы для плохой музыки или песен лифта, а не хит-синглы.

Исследователи из Meta сказали, что AudioGen — описано в глубине здесь - был обучен путем преобразования необработанного звука в последовательность токенов и реконструкции ввода путем преобразования их обратно в звук с высокой точностью. Языковая модель сопоставляет фрагменты входной текстовой подсказки звуковым токенам, чтобы изучить корреляцию между словами и звуками. Генер музыки был обучен с использованием аналогичного процесса на музыкальных образцах, а не на звуковых эффектах.

«Вместо того, чтобы держать работу в виде непроницаемого черного ящика, открыто говорить о том, как мы разрабатываем эти модели, и обеспечивать их простоту использования людьми — будь то исследователи или музыкальное сообщество в целом — помогает людям понять, на что способны эти модели. сделать, понять, чего они не могут сделать, и иметь возможность их использовать», — заявила команда Team Meta.

«В будущем генеративный ИИ может помочь людям значительно сократить время итерации, позволив им быстрее получать отзывы на ранних стадиях прототипирования и создания серого ящика — будь то крупный разработчик, создающий миры для метавселенной, музыкант (любитель, профессионал или в противном случае) работающие над своей следующей композицией, или владелец малого или среднего бизнеса, желающий повысить уровень своих творческих активов».

Вы можете получить код AudioCraft здесьи поэкспериментируйте с MusicGen здесь и попробуйте это. ®

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
Источник: https://go.theregister.com/feed/www.theregister.com/2023/08/02/meta_audiocraft_release/

Отметка времени: 2 августа 2023

Отметка времени: 19 октября, 2022

Meta выпускает генеративный ИИ для создания музыки и звуков

Переиздано Платоном

Больше от Регистр

Dell и Nvidia мечтают о генеративных моделях искусственного интеллекта своими руками

DeepMind обучает роботов-футболистов плохо забивать

Подробности об обновлениях искусственного интеллекта Google в облачной инфраструктуре

Индия планирует создать суверенный суперкомпьютер с искусственным интеллектом на 10,000 XNUMX графических процессоров

Хотите понять умные технологии для следующей реальности? Начните здесь…

Роль ЦП в устойчивом искусственном интеллекте и машинном обучении

Мир находится в кризисе, так как же ИИ может помочь?

ИИ НАСА показывает, что сокращение количества серы в судоходном топливе снижает загрязнение воздуха в море

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись