OpenAI 的新“语音引擎”仅需 15 秒即可克隆语音 - Decrypt

OpenAI 的新“语音引擎”只需 15 秒即可克隆语音 – 解密

OpenAI 的新“语音引擎”只需 15 秒即可克隆语音 - 解密柏拉图区块链数据智能。垂直搜索。人工智能。

OpenAI 是占主导地位的生成式人工智能工具 ChatGPT 背后的人工智能公司,它推出了一种新的语音克隆技术,称为“语音引擎”。该音频模型可以基于相对较小的原始音频样本来复制人的声音、语调和其他明显的人类语音模式。

“值得注意的是,一个只有 15 秒样本的小模型可以创造出情感丰富且真实的声音,”该公司在其声明中表示。 星期五博客文章.

作为对比,AI语音平台 十一实验室 具有即时语音克隆工具 需要至少一分钟的样本。为了达到最佳效果,需要连续演讲近10分钟才能达到其专业的服务水平。

该公司展示了该技术的不同示例。在一个例子中,一名因血管性脑肿瘤而丧失大部分说话能力的年轻患者的声音是使用她为学校项目制作的旧录音克隆的。这是 她今天听起来怎么样据 OpenAI 称。

OpenAI 合作过 寿命,一个隶属于布朗大学医学院的非营利组织,也是一个名为“ 利沃克斯,一款专为残疾人士打造的“另类通讯应用程序”。该团队能够与 记录该女子所做的事情 学校演示:

然后,开放式人工智能语音引擎能够提供即时文本转语音功能,使患者能够有效地 用她自己的声音说话:

OpenAI 还展示了如何 黑根 正在利用其技术将以特定语言上传的语音生成另一种语言的自然翻译。

该公司表示,语音引擎于 2022 年底首次开发,已用于支持 OpenAI 文本转语音 API 中提供的预设语音以及 ChatGPT 的语音和朗读功能。该公司表示,随着最新进展,在更广泛的发布之前将保持谨慎态度。

OpenAI 写道:“我们希望就合成声音的负责任部署以及社会如何适应这些新功能展开对话。”他承认“深度造假”的做法受到广泛谴责。名人、政府官员和越来越多的普通公民的声音正被冒充用于邪恶目的, 政治运动, 假广告 并且彻底 犯罪活动。美国总统乔·拜登一直 推动 提供更多保护措施,防止恶意使用人工智能语音模仿。

事实上,Meta 去年夏天透露,其人工智能语音工具被推迟的原因是“滥用的潜在风险设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“

OpenAI 解释说:“根据我们对人工智能安全的态度和我们的自愿承诺,我们选择预览但目前不广泛发布这项技术。”

甚至在公开发布之前,OpenAI 就对 Voice Engine 进行了限制,其中包括一系列它不会效仿的名人。

“我们认为,任何合成语音技术的广泛部署都应该伴随着语音身份验证体验,以验证原始说话者是否有意将其语音添加到服务中,以及禁止语音列表,以检测并防止创建过度使用的语音。与杰出人物相似,”OpenAI 写道。

今天测试 Voice Engine 的合作伙伴已同意 OpenAI 的使用政策,该政策禁止未经同意冒充其他个人或组织。此外,该公司需要原始说话者的明确和知情同意,并且不允许开发人员为个人用户构建克隆自己声音的方法。

博客文章中写道:“根据这些对话和小规模测试的结果,我们将就是否以及如何大规模部署这项技术做出更明智的决定。”

除了语音引擎之外,Open AI 还在并行开展多个项目。首席执行官萨姆·奥尔特曼透露,该公司 正致力于今年发布 GPT-5。该公司还展示了其生成视频工具 。该公司声称 Sora 将成为市场上最先进的视频生成器,超越 Pika、Stable Video Diffusion 和 Runway ML 等模型。

Sora 目前仅适用于 Open AI 招募的“红队成员”,以确保它不会被滥用。

Voice Engine 的性能肯定会优于其他语音克隆工具,包括 Meta、ElevenLabs、WellSaid Labs 的产品以及开源模型,例如 RVC.

开放人工智能也在致力于 名为 Q* 的秘密项目 其中只有它的名字被泄露。萨姆·奥尔特曼拒绝透露任何细节,但表示研究团队主要致力于寻找使人工智能推理更好的技术和方法。

编辑 小泽赖恩.

随时了解加密新闻,在您的收件箱中获取每日更新。

时间戳记:

更多来自 解码