快捷搜索:

研究人员开发出一个端到端的机器学习系统Audi

浙江大年夜学和网易庖羲AI实验室的钻研职员开拓出一个端到真个机械进修系统Audio2Face,可以从音频中零丁天生实时面部动画,同时斟酌到音高和措辞风格。

我们都知道动画里的人物措辞声音都是由后期配音演员合成的。

但纵然使用CrazyTalk这样的软件,也很难将电脑天生的嘴唇、嘴型等与配音演员进行很好地匹配,尤其是当对话时长在数十以致数百小时的环境下。

但不要气馁,动画师的福音来了——Audio2Face问世!

Audio2Face是一款端到真个机械进修系统,由浙江大年夜学与网易庖羲AI实验室合营打造。

它可以从音频中零丁天生实时的面部动画,更厉害的是,它还能调节音调和措辞风格。该成果已经宣布至arXiv:

arXiv地址:

https://arxiv.org/pdf/1905.11142.pdf

团队试图构建一个系统,既要逼真又要低延迟

“我们的措施完全是基于音轨设计的,没有任何其他帮助输入(例如图像),这就使适合我们试图从声音序列中回归视觉空间的历程将会越来越具有寻衅。”论文配相助者解释道,“另一个寻衅是面部活动涉及脸部几何外面上相关区域的多重激活,这使得很难孕育发生逼真且同等的面部变形。”

该团队试图构建一个同时满意“逼真”(天生的动画必须反应可见语音运动中的措辞模式)和低延迟(系统必须能够进行近乎实时的动画)要求的系统。他们还考试测验将其推广,以便可以将天生的动画从新定位到其他3D角色。

他们的措施包括从原始输入音频中提取手工制作的高档声学特性,分外是梅尔频率倒谱系数(MFC),或声音的短期功率谱的表示。然后深度相机与mocap对象Faceshift一路,捕捉配音演员的面部动作并体例练习集。

深度相机示意图

之后钻研职员构建了带有51个参数的3D卡通人脸模型,节制了脸部的不合部位(例如,眉毛,眼睛,嘴唇和下巴)。着末,他们使用上述AI系统将音频高低文映射到参数,孕育发生唇部和面部动作。

1470个音频样本加持,机械进修模型的输出“相称可以”

团队应用一个练习语料库,此中包孕两个60分钟、每秒30帧的女性和男性演员逐行涉猎剧本中台词的视频,以及每个响应视频帧的1470个音频样本(每帧统共2496个维度)。

团队申报说,与ground truth比拟,机械进修模型的输出“相称可以”。它设法在测试音频上重现准确的面部外形,并且它不停“很好地”从新定位到不合的角色。此外,AI系统匀称只需0.68毫秒即可从给定的音频窗口中提取特性。

该团队指出,AI无法跟随演员的眨眼模式,主如果由于眨眼与言语的相关性异常弱。不过从广义上讲,该框架可能为适应性强、可扩展的音频到面部动画技巧奠定根基,这些技巧险些适用于所有措辞人和说话。

“评估结果显示,我们的措施不仅可以从音频中孕育发生准确的唇部运动,还可以成功地打消措辞人随光阴变更的面部动作,”他们写道。

您可能还会对下面的文章感兴趣: