В среду Meta выпустила AudioCraft, набор из трех моделей ИИ, способных автоматически создавать звук из текстовых описаний.
По мере того, как генеративные модели ИИ, которые принимают письменные подсказки и превращают их в изображения или текст, продолжают развиваться, ученые-компьютерщики изучают возможность создания других форм медиа с использованием машинного обучения.
Аудио сложно для систем ИИ, особенно музыка, поскольку программное обеспечение должно научиться создавать последовательные паттерны в течение нескольких минут и быть достаточно творческим, чтобы создавать что-то запоминающееся или приятное для прослушивания.
«Типичная музыкальная дорожка продолжительностью несколько минут, сэмплированная с частотой 44.1 кГц (что является стандартным качеством музыкальных записей), состоит из миллионов временных шагов», — объяснила Team Meta. Другими словами, модель генерации звука должна выводить много данных, чтобы построить удобную для человека дорожку.
«Для сравнения, текстовые генеративные модели, такие как Llama и Llama 2, получают текст, обработанный как подслова, которые представляют собой всего несколько тысяч временных шагов на выборку».
Гигант Facebook предполагает, что люди будут использовать AudioCraft для экспериментов с созданием компьютерных звуков без необходимости учиться играть на каком-либо инструменте. Инструментарий состоит из трех моделей: MusicGen, AudioGen и EnCodec.
MusicGen был обучен на 20,000 XNUMX часов записей, принадлежащих или лицензированных Meta, вместе с их соответствующими текстовыми описаниями. AudioGen больше ориентирован на создание звуковых эффектов, чем музыки, и был обучен на общедоступных данных. Наконец, EnCodec описывается как нейронный кодек с потерями, который может сжимать и распаковывать аудиосигналы с высокой точностью.
Meta сказал, что это AudioCraft с «открытым исходным кодом», и в какой-то степени это так. Программное обеспечение, необходимое для создания и обучения моделей, а также выполнения логических выводов, доступно по лицензии MIT с открытым исходным кодом. Код можно использовать в бесплатных (как свобода и бесплатное пиво) и коммерческих приложениях, а также в исследовательских проектах.
Тем не менее, вес модели не является открытым исходным кодом. Они распространяются по лицензии Creative Commons, которая специально запрещает коммерческое использование. Как мы видели с Llama 2, всякий раз, когда Meta говорит об открытом исходном коде, проверяйте мелкий шрифт.
MusicGen и AudioGen генерируют звуки по запросу на ввод текста. Вы можете прослушать короткие клипы, созданные на основе описаний «свист и дуновение ветра» и «поп-данс с запоминающимися мелодиями, тропической перкуссией и оптимистичными ритмами, идеально подходящими для пляжа» на Meta’s AudioCraft. целевая страница, здесь.
Короткие звуковые эффекты реалистичны, хотя музыкальные, на наш взгляд, не очень хороши. Они звучат как повторяющиеся и общие джинглы для плохой музыки или песен лифта, а не хит-синглы.
Исследователи из Meta сказали, что AudioGen — описано в глубине здесь - был обучен путем преобразования необработанного звука в последовательность токенов и реконструкции ввода путем преобразования их обратно в звук с высокой точностью. Языковая модель сопоставляет фрагменты входной текстовой подсказки звуковым токенам, чтобы изучить корреляцию между словами и звуками. Генер музыки был обучен с использованием аналогичного процесса на музыкальных образцах, а не на звуковых эффектах.
«Вместо того, чтобы держать работу в виде непроницаемого черного ящика, открыто говорить о том, как мы разрабатываем эти модели, и обеспечивать их простоту использования людьми — будь то исследователи или музыкальное сообщество в целом — помогает людям понять, на что способны эти модели. сделать, понять, чего они не могут сделать, и иметь возможность их использовать», — заявила команда Team Meta.
«В будущем генеративный ИИ может помочь людям значительно сократить время итерации, позволив им быстрее получать отзывы на ранних стадиях прототипирования и создания серого ящика — будь то крупный разработчик, создающий миры для метавселенной, музыкант (любитель, профессионал или в противном случае) работающие над своей следующей композицией, или владелец малого или среднего бизнеса, желающий повысить уровень своих творческих активов».
Вы можете получить код AudioCraft здесьи поэкспериментируйте с MusicGen здесь и попробуйте это. ®
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
- Источник: https://go.theregister.com/feed/www.theregister.com/2023/08/02/meta_audiocraft_release/
- :имеет
- :является
- :нет
- $UP
- 000
- 1
- 20
- 7
- a
- О нас
- на самом деле
- AI
- AI модели
- Системы искусственного интеллекта
- Позволяющий
- рядом
- любитель
- an
- и
- любой
- Приложения
- МЫ
- продемонстрировав тем самым
- AS
- Активы
- At
- аудио
- автоматически
- доступен
- назад
- Плохой
- BE
- Beach
- пиво
- не являетесь
- между
- Черный
- дующий
- Коробка
- строить
- Строительство
- бизнес
- by
- CAN
- способный
- проверка
- клипсы
- CO
- код
- ПОСЛЕДОВАТЕЛЬНЫЙ
- коммерческая
- Commons
- сообщество
- сравнение
- композиция
- компьютер
- генерируемые компьютером
- состоит
- продолжать
- преобразование
- Корреляция
- соответствующий
- может
- Создайте
- создали
- Создающий
- творческий
- танец
- данным
- Степень
- глубина
- описано
- развивать
- Застройщик
- трудный
- do
- в течение
- Рано
- легко
- эффекты
- уполномоченный
- достаточно
- обеспечение
- предвидит
- особенно
- эксперимент
- объяснены
- что его цель
- быстрее
- ФРС
- Обратная связь
- несколько
- верность
- в заключение
- конец
- внимание
- Что касается
- формы
- Бесплатно
- Freedom
- от
- будущее
- порождать
- порождающий
- генеративный
- Генеративный ИИ
- получить
- гигант
- данный
- большой
- имеющий
- слышать
- помощь
- помогает
- High
- Удар
- держать
- ЧАСЫ
- Как
- HTTPS
- изображений
- улучшать
- in
- вход
- инструмент
- в
- IT
- итерация
- JPG
- всего
- хранение
- язык
- большой
- УЧИТЬСЯ
- изучение
- Лицензия
- Лицензирована
- такое как
- Лама
- искать
- серия
- машина
- обучение с помощью машины
- сделанный
- Создание
- Карты
- зрелый
- Медиа
- Мета
- Metaverse
- миллионы
- Минут
- MIT
- модель
- Модели
- БОЛЕЕ
- Музыка
- Музыкант
- необходимый
- следующий
- номер
- of
- on
- те,
- открытый
- с открытым исходным кодом
- Обзор
- or
- Другое
- в противном случае
- наши
- внешний
- выходной
- за
- принадлежащих
- владелец
- страница
- паттеранами
- Люди
- для
- перкуссия
- ИДЕАЛЬНОЕ
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- поп
- процесс
- Обработанный
- производит
- профессиональный
- проектов
- макетирования
- что такое варган?
- скорее
- Сырье
- RE
- реалистичный
- выпустил
- публикации
- повторяющийся
- представлять
- исследованиям
- исследователи
- Run
- s
- Сказал
- видел
- сообщили
- Ученые
- Последовательность
- набор
- общие
- Короткое
- сигналы
- аналогичный
- с
- небольшой
- Software
- удалось
- Звук
- Источник
- Об
- конкретно
- этапы
- стандарт
- системы
- взять
- переговоры
- команда
- чем
- который
- Ассоциация
- Будущее
- метавселенная
- их
- Их
- Эти
- они
- хоть?
- тысячи
- три
- время
- в
- Лексемы
- Инструментарий
- трек
- Train
- специалистов
- превращение
- стараться
- ОЧЕРЕДЬ
- типичный
- под
- понимать
- использование
- используемый
- через
- значительно
- законопроект
- we
- Wednesday
- ЧТО Ж
- Что
- когда бы ни
- будь то
- , которые
- все
- ветер
- без
- слова
- Работа
- работает
- мире
- письменный
- Ты
- зефирнет