Meta 发布用于制作音乐和声音的生成式人工智能

Meta 发布用于制作音乐和声音的生成式人工智能

Meta 发布了用于制作音乐的生成式人工智能,听起来像是柏拉图区块链数据智能。垂直搜索。人工智能。

Meta 周三发布了 AudioCraft,这是一组三个人工智能模型,能够根据文本描述自动创建声音。

随着采用书面提示并将其转化为图像或更多文本的生成人工智能模型不断成熟,计算机科学家正在研究使用机器学习制作其他形式的媒体。

音频对于人工智能系统来说是很困难的,尤其是音乐,因为软件必须学会在几分钟内产生连贯的模式,并且有足够的创造力来产生朗朗上口或令人愉悦的声音。

“以 44.1 kHz(这是音乐录音的标准质量)采样的几分钟的典型音乐曲目由数百万个时间步组成,”Meta 团队解释道。 也就是说,音频生成模型必须输出大量数据才能构建人类友好的曲目。

“相比之下,像 Llama 和 Llama 2 这样基于文本的生成模型所输入的文本被处理为子词,每个样本仅代表几千个时间步。”

这家 Facebook 巨头设想人们使用 AudioCraft 来尝试制作计算机生成的声音,而无需学习演奏任何乐器。 该工具包由三个模型组成:MusicGen、AudioGen 和 EnCodec。 

MusicGen 接受了 20,000 小时的录音训练,这些录音由 Meta 拥有或授权,并附有相应的文本描述。 AudioGen 更专注于生成声音效果而不是音乐,并接受公共数据的训练。 最后,EnCodec 被描述为一种有损神经编解码器,可以高保真度地压缩和解压缩音频信号。

Meta 表示它是 AudioCraft 的“开源”,而且在某种程度上也是如此。 创建和训练模型以及运行推理所需的软件可根据开源 MIT 许可证获得。 该代码可用于免费(如自由和免费啤酒)和商业应用以及研究项目。

也就是说,模型权重不是开源的。 它们是在专门禁止商业用途的知识共享许可下共享的。 正如我们看到的 骆驼2,每当 Meta 谈论开源内容时,请检查 精美的印刷品.

MusicGen 和 AudioGen 在给定输入文本提示的情况下生成声音。 您可以在 Meta 的 AudioCraft 上听到根据“风吹着口哨”和“带有朗朗上口的旋律、热带打击乐和欢快的节奏的流行舞曲,非常适合海滩”的描述而创作的短片 登陆页面,在这里

简短的音效很现实,但我们认为类似音乐的音效并不是很好。 它们听起来像是重复的、通用的歌曲,用于糟糕的音乐或电梯歌曲,而不是热门单曲。 

Meta 的研究人员表示 AudioGen – 已描述 在这里深入 – 通过将原始音频转换为一系列标记,并通过将它们转换回高保真音频来重建输入来进行训练。 语言模型将输入文本提示的片段映射到音频标记,以学习单词和声音之间的相关性。 音乐创 使用类似的过程对音乐样本而不是声音效果进行训练。 

“不要把这项工作当作一个无法穿透的黑匣子,而是要公开我们如何开发这些模型,并确保它们易于人们使用——无论是研究人员还是整个音乐界——帮助人们理解这些模型可以做什么做,了解他们不能做什么,并有权实际使用它们,”Meta 团队辩称。

“未来,生成式人工智能可以帮助人们在早期原型设计和灰盒阶段更快地获得反馈,从而极大地缩短迭代时间——无论他们是为虚拟世界构建世界的大型开发人员,还是音乐家(业余、专业或否则)正在创作下一个作品,或者是希望提升创意资产水平的中小型企业主。”

您可以获取 AudioCraft 代码 相关信息,并用 MusicGen 进行实验 相关信息 并尝试一下。 ®

时间戳记:

更多来自 注册