微软人工智能如何在 3 秒内模仿任何人的声音背后的科学

微软人工智能如何在 3 秒内模仿任何人的声音背后的科学

微软人工智能如何在 3 秒内模仿任何人的声音背后的科学柏拉图区块链数据智能。垂直搜索。人工智能。

您可能了解人工智能 (AI) 程序变得多么强大。 他们正在模仿伟人的艺术并为全球领导者编写脚本,引发了围绕 AI 工具快速扩展的全球对话。

最近,微软开发了一种用于语音模仿的人工智能。 它的效率和准确性是开创性的,但用户质疑它的用途和用途。 这个工具是如何工作的,它是如何在这么短的时间内复制声音的?

认识 VALL-E

VALL-E 是人工智能学习在三秒内复制声音。 VALL-E 是首批训练速度如此之快的公司之一,因为之前的文本转语音 (TTS) 程序在效率和声音的细微差别方面苦苦挣扎。 

“然而,VALL-E 在各个方面都改进了这项研究的研究,减少了训练时间并提高了复杂语音质量(如音调和节奏)的准确性。” 

VALL-E 的目标之一是复制细节 以前的 TTS 程序不能,并且试验显示当前模型的混合结果。 为了真实性,像这样的程序不能只复制人的声音——它必须复制录音设备的音频质量和背景环境影响,如静电或噪音。 尽管研究人员对其复制特性印象深刻,但微软仍在寻求进一步改进磨练音色和情绪变化的变化。

由于 VALL-E 尚未公开,因此不确定它在更大规模上的表现如何。 微软正在花时间在公开发布之前对其进行完善,以确保正确使用。 

由于 VALL-E 以最少的语音采样进行操作,因此不确定它能否生成具有连贯性的较长音频片段。 人工智能和机器学习数据集有几乎无数的数据点可供考虑。 如果微软用这么小的参考框架完善语音复制,那将是人工智能未来的飞跃。 

了解科学

VALL-E 成功实现了它的目的,因为它与现有技术很好地融合在一起。 例如,GPT-3 仍然 使用语言处理模型 完善其 TTS 生成功能,以实现清晰的制作和准确的编辑。 但是,其他模型会操纵他们的数据集来创建新内容。 VALL-E 制作原创内容。

微软与 Meta 合作,使用 EnCodec 和 LibriLight 来通知 VALL-E。 EnCodec 是一种音频压缩神经网络,能够识别音频中最微小的变化。 LibriLight 是一个音频库 包含超过 60,000 小时 来自各种声音的英语文件。 

“凭借这些能力,VALL-E 可以获取三秒钟的音频剪辑,将其转换为 EnCodec 可以分析的标记,并将其引用到图书馆的数据中,以产生真实的声音复制。 由于 EnCodec 以低比特率生成文件,因此生成速度比同类其他模型更快。” 

像这样的序列将生成听起来更自然的音频剪辑,甚至可以欺骗最训练有素的耳朵或语音识别技术。

这对行业的帮助潜力是无法量化的。 它可以提高效率和生产力,同时减轻每个部门的压力,而不仅仅是通信。 然而,它有同等的机会加剧 数字空间中的犯罪活动,以及其他后果。

参与对话

与大多数 AI 进步一样,伦理问题也随之而来。 与任何文本生成一样,AI 从数据中工作——因此,剽窃将始终是一个考虑因素。 然而,VALL-E 引用无版权来源,所以这还不是主要问题。

然而,微软还必须警惕公众将此类技术用于敌对目的,例如传播假新闻或用虚假证词混淆调查——可能来自已故证人。 特定行业,如法律,将不得不发明新的政策和结构 如何遇到 deepfakes 在法庭上。

“与任何技术进步一样,滥用不仅是可能的——而且是不可避免的。” 

除了创意财产或身份盗窃威胁之外,熟练的语音生成人工智能可能会威胁到某些职业的生计,或者从以前依赖多年专注于手艺的行业中移除艺术和专业知识。

配音演员、演讲稿撰写人和客户服务代表都可能因 AI 语音模仿而过时。 这种可能性是未知的,并且可能无法以快速、全面的方式实现。 可以想象的结果是语音模仿将补充这些行业而不是取代它们。 AI 语音生成可以帮助产生创意或充当另一名工人来委派任务,从而减轻人类工人的负担。

与语音复制 AI 相处融洽

尽管语音复制人工智能存在伦理问题,但微软正在为新一代创新一种先进的、足智多谋的工具——这取决于公众如何使用它。 该工具背后的科学是最具革命性的方面,它可以告诉工程师和开发人员如何扩展和改造 AI 以用于未来所有领域的应用。 

与 VALL-E 一起实施的技术可以转化为行业思维方式的转变。 该项目的协作性质将使 AI 交互性和开发进入一个准确和高效的新时代。

另外,请阅读 用于高质量音频分割的 Lalal.AI 

时间戳记:

更多来自 AIIOT技术