感谢 EMO,蒙娜丽莎现在可以说话了

感谢 EMO,蒙娜丽莎现在可以说话了

阿里巴巴集团智能计算研究院的研究人员开发了一款名为 EMO:Emote Portrait Alive 的人工智能工具,可以让肖像变得栩栩如生。

该工具使用户能够将音频和视频添加到静态图像中。使用该工具,人们可以摆弄一幅古老的肖像,比如著名的列奥纳多·达·芬奇的《拉·乔康达》(更广为人知的名字是《蒙娜丽莎》),让她通过头部姿势、动作、面部表情和准确的唇形同步来说话和唱歌。

富有表现力的音频驱动肖像视频生成工具

在他们的报告中,“EMO:Emote Portrait Alive:在弱条件下使用音视频扩散模型生成富有表现力的肖像视频”  研究人员 深入了解他们的新工具、其功能以及如何使用它来获得完美的结果。

借助富有表现力的音频驱动的肖像制作人工智能工具,用户可以创建带有面部表情的声音头像视频。研究人员表示,该工具允许他们“根据输入音频的长度”创建任何持续时间的视频。

研究人员说:“输入单个角色图像和声音音频,例如唱歌,我们的方法可以生成具有表情丰富的面部表情和各种头部姿势的声音化身视频。”

“我们的方法支持各种语言的歌曲,并将不同的肖像风格带入生活。它可以直观地识别音频中的音调变化,从而生成动态、表情丰富的化身。”

也可以参考: OpenAI 声称《纽约时报》“黑掉”了 ChatGPT 以提起版权诉讼

从肖像中说话、唱歌

研究人员表示,人工智能驱动的工具不仅可以处理音乐,还可以容纳不同语言的口语音频。

研究人员表示:“此外,我们的方法能够将过去时代的肖像、绘画以及 3D 模型和人工智能生成的内容制作成动画,为它们注入栩栩如生的动作和真实感。”

但事情并没有就此结束。用户还可以使用电影明星的肖像和图像,以各种风格和语言进行独白或表演。

一些使用 X 平台的人工智能爱好者将其描述为“令人兴奋”。

缩小真实与人工智能之间的界限

EMO 工具的新闻 阿里巴巴 让其他用户认为,随着科技公司不断推出新产品,人工智能与现实之间的界限即将消失。

“人工智能和现实之间的界限比以往任何时候都更薄。” 发布鲁本 在 X 上,而其他人则认为 TikTok 很快就会被创意淹没。

“这是我第一次看到如此精确和现实的结果。 视频人工智能 今年有望是可信的,”说 保罗·科弗特.

虽然其他人认为这可能会改变创意人员的游戏规则,但 Min Choi 对此也持谨慎态度。

“希望只是为了创造性的事情。这如果落入坏人手中可能会很危险。”

感谢 EMO,蒙娜丽莎现在可以说话了

使用工具

研究人员在解释这一过程时强调,EMO 框架有两个阶段,第一个阶段称为帧编码,其中部署 ReferenceNet 从参考图像和运动帧中提取特征。

下一阶段是扩散过程阶段,其中预训练的音频编码器“处理音频嵌入”。为了创建完美的面部图像,用户集成了面部区域掩模和多帧噪声。

“这些机制分别对于保留角色的身份和调节角色的动作至关重要,”部分解释写道。

“此外,时间模块用于操纵时间维度并调整速度运动。”

时间戳记:

更多来自 元新闻