微软人工智能如何在 3 秒内模仿任何人的声音背后的科学

由柏拉图重新发布

关注： 0

微软人工智能如何在 3 秒内模仿任何人的声音背后的科学柏拉图区块链数据智能。垂直搜索。人工智能。

您可能了解人工智能 (AI) 程序变得多么强大。他们正在模仿伟人的艺术并为全球领导者编写脚本，引发了围绕 AI 工具快速扩展的全球对话。

最近，微软开发了一种用于语音模仿的人工智能。它的效率和准确性是开创性的，但用户质疑它的用途和用途。这个工具是如何工作的，它是如何在这么短的时间内复制声音的？

认识 VALL-E

VALL-E 是人工智能学习在三秒内复制声音。 VALL-E 是首批训练速度如此之快的公司之一，因为之前的文本转语音 (TTS) 程序在效率和声音的细微差别方面苦苦挣扎。

“然而，VALL-E 在各个方面都改进了这项研究的研究，减少了训练时间并提高了复杂语音质量（如音调和节奏）的准确性。”

VALL-E 的目标之一是复制细节以前的 TTS 程序不能，并且试验显示当前模型的混合结果。为了真实性，像这样的程序不能只复制人的声音——它必须复制录音设备的音频质量和背景环境影响，如静电或噪音。尽管研究人员对其复制特性印象深刻，但微软仍在寻求进一步改进磨练音色和情绪变化的变化。

由于 VALL-E 尚未公开，因此不确定它在更大规模上的表现如何。微软正在花时间在公开发布之前对其进行完善，以确保正确使用。

由于 VALL-E 以最少的语音采样进行操作，因此不确定它能否生成具有连贯性的较长音频片段。人工智能和机器学习数据集有几乎无数的数据点可供考虑。如果微软用这么小的参考框架完善语音复制，那将是人工智能未来的飞跃。

了解科学

VALL-E 成功实现了它的目的，因为它与现有技术很好地融合在一起。例如，GPT-3 仍然使用语言处理模型完善其 TTS 生成功能，以实现清晰的制作和准确的编辑。但是，其他模型会操纵他们的数据集来创建新内容。 VALL-E 制作原创内容。

微软与 Meta 合作，使用 EnCodec 和 LibriLight 来通知 VALL-E。 EnCodec 是一种音频压缩神经网络，能够识别音频中最微小的变化。 LibriLight 是一个音频库包含超过 60,000 小时来自各种声音的英语文件。

“凭借这些能力，VALL-E 可以获取三秒钟的音频剪辑，将其转换为 EnCodec 可以分析的标记，并将其引用到图书馆的数据中，以产生真实的声音复制。由于 EnCodec 以低比特率生成文件，因此生成速度比同类其他模型更快。”

像这样的序列将生成听起来更自然的音频剪辑，甚至可以欺骗最训练有素的耳朵或语音识别技术。

这对行业的帮助潜力是无法量化的。它可以提高效率和生产力，同时减轻每个部门的压力，而不仅仅是通信。然而，它有同等的机会加剧数字空间中的犯罪活动，以及其他后果。

参与对话

与大多数 AI 进步一样，伦理问题也随之而来。与任何文本生成一样，AI 从数据中工作——因此，剽窃将始终是一个考虑因素。然而，VALL-E 引用无版权来源，所以这还不是主要问题。

然而，微软还必须警惕公众将此类技术用于敌对目的，例如传播假新闻或用虚假证词混淆调查——可能来自已故证人。特定行业，如法律，将不得不发明新的政策和结构如何遇到 deepfakes 在法庭上。

“与任何技术进步一样，滥用不仅是可能的——而且是不可避免的。”

除了创意财产或身份盗窃威胁之外，熟练的语音生成人工智能可能会威胁到某些职业的生计，或者从以前依赖多年专注于手艺的行业中移除艺术和专业知识。

配音演员、演讲稿撰写人和客户服务代表都可能因 AI 语音模仿而过时。这种可能性是未知的，并且可能无法以快速、全面的方式实现。可以想象的结果是语音模仿将补充这些行业而不是取代它们。 AI 语音生成可以帮助产生创意或充当另一名工人来委派任务，从而减轻人类工人的负担。

与语音复制 AI 相处融洽

尽管语音复制人工智能存在伦理问题，但微软正在为新一代创新一种先进的、足智多谋的工具——这取决于公众如何使用它。该工具背后的科学是最具革命性的方面，它可以告诉工程师和开发人员如何扩展和改造 AI 以用于未来所有领域的应用。

与 VALL-E 一起实施的技术可以转化为行业思维方式的转变。该项目的协作性质将使 AI 交互性和开发进入一个准确和高效的新时代。

另外，请阅读用于高质量音频分割的 Lalal.AI

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
Sumber: https://www.aiiottalk.com/science-behind-microsofts-ai-voice/

时间戳记： 2023 年 1 月 17 日

时间戳记： 2024 年 4 月 30 日

微软人工智能如何在 3 秒内模仿任何人的声音背后的科学

由柏拉图重新发布

认识 VALL-E

了解科学

参与对话

与语音复制 AI 相处融洽

另外，请阅读用于高质量音频分割的 Lalal.AI

更多来自 AIIOT技术

为什么数据科学家如此受欢迎

在职业生涯中利用人工智能的 5 种方法

机器人自动化如何应用于时装仓库？

在全球人才招聘方面，你能相信人工智能吗？

人工智能如何在学校中创造新的数字鸿沟

数据化如何推动教育行业数字化转型

人工智能如何塑造生物加工行业

电子邮件的演变：人工智能如何改变我们的沟通方式

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

认识 VALL-E

了解科学

参与对话

与语音复制 AI 相处融洽

另外，请阅读 用于高质量音频分割的 Lalal.AI

更多来自 AIIOT技术

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

另外，请阅读用于高质量音频分割的 Lalal.AI