随着人工智能霸主地位的争夺仍在继续,微软现在希望利用其最新工具 VASA-1 将人们的肖像照片转换为会说话的面孔或视频。
根据这家科技巨头的一份研究论文,微软正在将人工智能竞赛提升到另一个水平, 瓦萨 1,用于创建具有视觉情感技能(VAS)的虚拟角色的逼真说话面孔的框架,全部来自肖像。
也可以参考: 视频游戏行业急于就人工智能问题组建工会
从肖像到会说话的面孔
尽管该工具尚未向公众开放,但它可以拍摄单张肖像照片和语音音频,并生成超现实的说话脸部视频,具有精确的唇音同步、逼真的面部行为以及实时生成的自然头部运动。
该工具仍处于微软研究团队的研究预览阶段,演示视频“看起来令人印象深刻”。
据介绍,虽然 Nvidia 和 Runway 等公司已经拥有类似的头部运动和口型同步技术,但 VASA-1 似乎“具有更高的质量和真实感”,这减少了嘴部伪影。 汤姆指南.
此外,这种音频驱动动画的方法也类似于最近的 视频博主人工智能 谷歌研究的模型。
据微软称,虽然演示示例中的所有图像都是由 Dall-E 合成的,但 VASA-1 仍然可以为真实图片制作动画。
该演示展示了不同的人以几乎自然的动作、面部表情和眼睛运动进行交谈,“在其他工具中没有看到嘴顶部和底部周围的伪影。”
它也不需要正面肖像风格的图像即可工作。
Microsoft 刚刚推出了 VASA-1。
这是一种新的人工智能模型,可以将 1 张照片和 1 段音频变成完全逼真的人类 Deepfake。
很想在选举前放弃这个😬pic.twitter.com/MuLkZVOKRM
——张罗文 (@rowancheung) 2024 年 4 月 18 日
VASA-1 让人们议论纷纷
人工智能爱好者似乎已经被 X 平台上的这项技术迷住了,他们将其描述为“狂野”和“疯狂”。
“我们在每个版本之间获得的改进令人难以置信,” 说过 莱纳斯·埃肯斯坦。
其他人则认为,世界正在见证“媒体内容创建方式及其消费方式的巨大转变”。
“这太令人兴奋了,真实感是一流的,”另一位名叫 Sam 的爱好者说道。
尽管其他人认可该工具的能力,但他们也认为微软推出一个容易被操纵的工具有点不负责任。 选举深度造假.
“在选举前就放弃这个是很疯狂的,” 写 X平台上的Rowan Cheung。
另一个用户 埃文·克斯特尔 评论中严厉警告:“微软研究院的 VASA-1 是一个游戏规则改变者,它仅通过照片和音频即可创建超现实的人工智能生成视频。”
“从复兴经典电影传奇到个性化媒体,可能性是无限的。但让我们对深度造假风险保持警惕。”
世界上已经出现大量选举深度造假事件,政客的声音或图像被人工智能操纵以传播宣传。今年全球约有三分之一的人口将参加投票。
然而,微软的研究人员表示这只是为了演示,目前没有计划公开发布或向开发人员提供。
VASA-1 如何工作?
据 Tom's Guide 报道,研究人员自己对该模型“与歌曲完美口型同步,毫无问题地反映歌手的歌词,尽管训练数据集中没有使用音乐”的能力感到惊讶。
此外,VASA-1 还可以处理不同的图像风格,包括著名的历史肖像 蒙娜丽莎.
该工具凭借其先进的口型同步功能可用于游戏。专家表示,这可能会改变沉浸感。
此外,该技术还有助于为社交媒体视频创建头像,例如 Synthesia 和 HeyGen 等公司。
基于 AI 的电影和音乐视频制作还可以利用 VASA-1 技术制作更逼真的视频。
随着微软入股 OpenAI,VASA-1 有可能成为“未来副驾驶”的一部分 空 一体化。”
- :具有
- :是
- :不是
- :在哪里
- 1
- 10
- 7
- 8
- a
- 能力
- 对,能力--
- 关于
- 根据
- 高级
- AI
- 警惕
- 所有类型
- 几乎
- 已经
- 还
- an
- 和
- 赋予生命
- 动画
- 另一个
- 的途径
- 保健
- 围绕
- AS
- At
- 音频
- 可使用
- 头像
- 背部
- BE
- 很
- before
- 行为
- 作为
- 之间
- 位
- 吹
- 半身裙/裤
- 但是
- by
- CAN
- 案件
- 可能性
- 换
- 字符
- 张
- 电影院
- 经典
- 评论
- 公司
- 消费
- 内容
- 继续
- 可以
- 创建
- 创造
- 目前
- 达尔-e
- deepfakes
- 演示
- 线上演示
- 描述
- 尽管
- 开发
- 不同
- 不
- 驱动
- 下降
- 每
- 容易
- 选举
- 无穷
- 爱好者
- 爱好者
- 例子
- 专家
- 表达式
- 眼
- 面部彩妆
- 面孔
- 面部
- 著名
- 企业
- 针对
- 骨架
- 止
- 充分
- 游戏
- 改变游戏规则
- 赌博
- 产生
- 越来越
- 巨人
- 全球
- 去
- 谷歌
- 得到了
- 指南
- 有
- 有
- 头
- 更高
- 历史的
- 创新中心
- HTTPS
- 人
- 超现实主义
- 确定
- 图片
- 图片
- 浸没
- 有声有色
- 改善
- in
- 其他
- 包含
- 难以置信
- 表示
- 行业中的应用:
- 辐辏
- 仪器的
- 积分
- 成
- 介绍
- 介绍
- 问题
- IT
- 它的
- JPEG
- 只是
- 最新
- 传奇
- Level
- 杠杆作用
- 逼真
- 喜欢
- 莱纳斯
- 制作
- 操纵
- 媒体
- 微软
- 介意
- 模型
- 更多
- 口
- 运动
- 运动
- 电影
- 许多
- 音乐
- 自然
- 全新
- 没有
- 现在
- Nvidia公司
- of
- on
- OpenAI
- or
- 其他名称
- 其它
- 超过
- 纸类
- 部分
- 员工
- 人的
- 个性化你的
- 照片
- 图片
- 图片
- 片
- 计划
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 民意调查
- 人口
- 肖像
- 肖像
- 可能性
- 精确的
- 预览
- 产生
- 制作
- 宣传
- 国家
- 质量
- 种族
- 阅读
- 真实
- 实时的
- 现实主义
- 现实
- 最近
- 承认
- 减少
- 反映
- 释放
- 要求
- 研究
- 研究人员
- 右
- 风险
- 跑道
- 赶
- s
- 说
- Sam
- 似乎
- 看到
- 转移
- 作品
- 类似
- 歌手
- 单
- 技能
- 社会
- 社会化媒体
- 歌曲
- 言语
- 传播
- 阶段
- 股权
- 留
- 仍
- 样式
- 感到惊讶
- 同步。
- 合成的
- 需要
- 服用
- 说
- 团队
- 科技
- 科技巨头
- 专业技术
- 这
- 世界
- 他们自己
- 那里。
- 他们
- 认为
- 第三
- Free Introduction
- 今年
- 至
- 工具
- 工具
- 最佳
- 产品培训
- 改造
- true
- 转
- 用过的
- 用户
- 用户
- 运用
- 容器
- 视频
- 视频
- 查看
- 在线会议
- 视觉
- VOICES
- 希望
- 警告
- 方法..
- 这
- 而
- 也完全不需要
- 见证
- 话
- 工作
- 世界
- X
- 年
- 但
- 和风网