您可能了解人工智能 (AI) 程序变得多么强大。 他们正在模仿伟人的艺术并为全球领导者编写脚本,引发了围绕 AI 工具快速扩展的全球对话。
最近,微软开发了一种用于语音模仿的人工智能。 它的效率和准确性是开创性的,但用户质疑它的用途和用途。 这个工具是如何工作的,它是如何在这么短的时间内复制声音的?
认识 VALL-E
VALL-E 是人工智能学习在三秒内复制声音。 VALL-E 是首批训练速度如此之快的公司之一,因为之前的文本转语音 (TTS) 程序在效率和声音的细微差别方面苦苦挣扎。
“然而,VALL-E 在各个方面都改进了这项研究的研究,减少了训练时间并提高了复杂语音质量(如音调和节奏)的准确性。”
VALL-E 的目标之一是复制细节 以前的 TTS 程序不能,并且试验显示当前模型的混合结果。 为了真实性,像这样的程序不能只复制人的声音——它必须复制录音设备的音频质量和背景环境影响,如静电或噪音。 尽管研究人员对其复制特性印象深刻,但微软仍在寻求进一步改进磨练音色和情绪变化的变化。
由于 VALL-E 尚未公开,因此不确定它在更大规模上的表现如何。 微软正在花时间在公开发布之前对其进行完善,以确保正确使用。
由于 VALL-E 以最少的语音采样进行操作,因此不确定它能否生成具有连贯性的较长音频片段。 人工智能和机器学习数据集有几乎无数的数据点可供考虑。 如果微软用这么小的参考框架完善语音复制,那将是人工智能未来的飞跃。
了解科学
VALL-E 成功实现了它的目的,因为它与现有技术很好地融合在一起。 例如,GPT-3 仍然 使用语言处理模型 完善其 TTS 生成功能,以实现清晰的制作和准确的编辑。 但是,其他模型会操纵他们的数据集来创建新内容。 VALL-E 制作原创内容。
微软与 Meta 合作,使用 EnCodec 和 LibriLight 来通知 VALL-E。 EnCodec 是一种音频压缩神经网络,能够识别音频中最微小的变化。 LibriLight 是一个音频库 包含超过 60,000 小时 来自各种声音的英语文件。
“凭借这些能力,VALL-E 可以获取三秒钟的音频剪辑,将其转换为 EnCodec 可以分析的标记,并将其引用到图书馆的数据中,以产生真实的声音复制。 由于 EnCodec 以低比特率生成文件,因此生成速度比同类其他模型更快。”
像这样的序列将生成听起来更自然的音频剪辑,甚至可以欺骗最训练有素的耳朵或语音识别技术。
这对行业的帮助潜力是无法量化的。 它可以提高效率和生产力,同时减轻每个部门的压力,而不仅仅是通信。 然而,它有同等的机会加剧 数字空间中的犯罪活动,以及其他后果。
参与对话
与大多数 AI 进步一样,伦理问题也随之而来。 与任何文本生成一样,AI 从数据中工作——因此,剽窃将始终是一个考虑因素。 然而,VALL-E 引用无版权来源,所以这还不是主要问题。
然而,微软还必须警惕公众将此类技术用于敌对目的,例如传播假新闻或用虚假证词混淆调查——可能来自已故证人。 特定行业,如法律,将不得不发明新的政策和结构 如何遇到 deepfakes 在法庭上。
“与任何技术进步一样,滥用不仅是可能的——而且是不可避免的。”
除了创意财产或身份盗窃威胁之外,熟练的语音生成人工智能可能会威胁到某些职业的生计,或者从以前依赖多年专注于手艺的行业中移除艺术和专业知识。
配音演员、演讲稿撰写人和客户服务代表都可能因 AI 语音模仿而过时。 这种可能性是未知的,并且可能无法以快速、全面的方式实现。 可以想象的结果是语音模仿将补充这些行业而不是取代它们。 AI 语音生成可以帮助产生创意或充当另一名工人来委派任务,从而减轻人类工人的负担。
与语音复制 AI 相处融洽
尽管语音复制人工智能存在伦理问题,但微软正在为新一代创新一种先进的、足智多谋的工具——这取决于公众如何使用它。 该工具背后的科学是最具革命性的方面,它可以告诉工程师和开发人员如何扩展和改造 AI 以用于未来所有领域的应用。
与 VALL-E 一起实施的技术可以转化为行业思维方式的转变。 该项目的协作性质将使 AI 交互性和开发进入一个准确和高效的新时代。
另外,请阅读 用于高质量音频分割的 Lalal.AI
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://www.aiiottalk.com/science-behind-microsofts-ai-voice/
- 000
- a
- 能力
- 精准的
- 法案
- 活动
- 进步
- AI
- 所有类型
- 靠
- 时刻
- 量
- 分析
- 和
- 另一个
- 应用领域
- 人造的
- 人工智能
- 人工智能(AI)
- 艺术的
- 艺术
- 方面
- 协助
- 音频
- 真实性
- 可使用
- 背景
- 因为
- 成为
- before
- 背后
- 能力
- 造成
- 机会
- 更改
- 清除
- 剪辑
- 合作
- 共同
- 通信
- 胜任
- 复杂
- 全面
- 关心
- 关注
- 后果
- 考虑
- 内容
- 对话
- 可以
- 手艺
- 创建信息图
- 创意奖学金
- 电流
- 顾客
- 客户服务
- data
- 数据点
- 数据集
- 数据集
- 专用
- deepfakes
- 根据
- 详情
- 发达
- 开发
- 研发支持
- 数字
- 效率
- 工程师
- 确保
- 环境的
- 伦理
- 甚至
- 例子
- 现有
- 扩大
- 扩张
- 专门知识
- 假
- 假新闻
- 档
- (名字)
- FRAME
- 止
- 功能
- 进一步
- 未来
- 生成
- 产生
- 代
- 越来越
- GitHub上
- 全球
- 理想中
- 奠基
- 帮助
- 高品质
- 创新中心
- How To
- 但是
- HTTPS
- 人
- 主意
- 身分
- 实施
- 印象深刻
- 改善
- in
- 增加
- 增加
- 行业
- 行业中的应用:
- 创新
- 代替
- 房源搜索
- 互动
- 调查
- IT
- 迭代
- 类
- 语言
- 大
- 法律
- 领导人
- 学习
- 自学资料库
- 容易
- 活的
- 不再
- 低
- 机
- 机器学习
- 制作
- 元
- 微软
- 思维定势
- 最小
- 未成年人
- 杂
- 模型
- 模型
- 更多
- 最先进的
- 自然
- 几乎
- 净
- 全新
- 消息
- 噪声
- 过时的
- 一
- 运营
- 原版的
- 其他名称
- 演出
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 点
- 政策
- 可能性
- 可能
- 潜力
- 强大
- 权力
- 当下
- 以前
- 先前
- 小学
- 处理
- 生产
- 生产率
- 所以专业
- 曲目
- 训练课程
- 进展
- 进步
- 项目
- 正确
- 财产
- 国家
- 公然
- 目的
- 目的
- 气质
- 质量
- 题
- 快速
- 更快
- 快
- 阅读
- 最近
- 了解
- 减少
- 释放
- 留
- 去掉
- 复制
- 代表
- 研究
- 研究人员
- 足智多谋
- 成果
- 革命的
- 秤
- 科学
- 脚本
- 秒
- 扇形
- 行业
- 寻求
- 序列
- 服务
- 套数
- 转移
- 短
- 显示
- 小
- So
- 一些
- 发言
- 具体的
- 传播
- 仍
- 应力
- 学习
- 成功
- 这样
- 周围
- 采取
- 服用
- 任务
- 技术性
- 专业技术
- 条款
- 文字转语音
- 盗窃
- 其
- 他们自己
- 因此
- 威胁
- 威胁
- 三
- 次
- 至
- 象征
- TONE
- 工具
- 工具
- 培训
- 熟练
- 产品培训
- 改造
- 翻译
- 试验
- 不确定
- 理解
- 用法
- 用户
- 各个
- 音色
- VOICES
- 而
- 将
- 中
- 工人
- 工人
- 合作
- 写作
- 年
- 和风网