开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了

机器之心专栏
机器之心编辑部
助力AI数字人落地 , FACEGOOD(量子动力)正式开源语音驱动表情技术Audio2Face技术 。 本文是对该技术的简要概述 。
目前 , 元宇宙热潮下 , AI数字人也开始涉及众多领域 , 包含文娱、服务、教育、营销等 。 市面上出现的AI数字人包括功能型AI数字人 , 如虚拟助手、虚拟导游、虚拟客服等;陪伴型AI数字人 , 如虚拟伴侣、虚拟家属等;社会型AI数字人 , 如虚拟主播、虚拟偶像、虚拟教师、虚拟医生、虚拟导购等 。
开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了
文章图片
浦发银行的首位银行业数字员工「小浦」
开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了
文章图片
虎牙AI数字人晚玉
开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了
文章图片
搜狐新闻客户端联合搜狗推出的首个明星「AI数字人」主播 。
为了实现虚拟数字人的多域化渗透 , 让更多AI数字人的场景落地 , FACEGOOD决定将语音驱动口型的算法技术正式开源 , 这是AI虚拟数字人的核心算法 , 技术开源后将大程度降低AI数字人的开发门槛 。
项目地址:https://github.com/FACEGOOD/Audio2Face
项目背景
2019年 , 第十届中国国际新媒体短片节组委会和FACEGOOD联合发布陆川导演AI数字人 。
开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了
文章图片
陆川导演AI数字人形象
观众可以和AI数字陆川面对面互动交流 , 为观众带来打破虚拟空间和现实空间次元壁的实时实感交流互动体验 。 为了能达到实时交互的效果 , FACEGOOD开发了一套数字人实时语音交互系统 , 实现了语音到表情动画的实时转换 。
如今 , FACEGOOD选择将全套语音驱动表情的技术代码开源 , 免费提供给广大数字人开发者使用 。
技术解读
该技术可以将语音实时转换成表情blendshape动画 。 这样做的原因是在现行的产业中 , 用BS去驱动数字形象的动画表情仍是主流 , 方便动画艺术家对最终动画产出最艺术调整 , 传输的数据量小 , 方便动画在不同的数字形象之间进行传递等等 。
基于这些实际生产中的需求 , FACEGOOD对输入和输出数据做了相应的调整 , 声音数据对应的标签不再是模型动画的点云数据而是模型动画的blendshape权重 。 最终的使用流程如下图1所示:
开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了
文章图片
在上面的流程中 , FACEGOOD主要完成Audio2Face部分 , ASR、TTS由思必驰智能机器人完成 。 如果你想用自己的声音 , 或第三方的 , ASR、TTS可以自行进行替换 。
当然 , FACEGOODAudio2face部分也可根据自己的喜好进行重新训练 , 比如你想用自己的声音或其它类型的声音 , 或者不同于FACEGOOD使用的模型绑定作为驱动数据 , 都可以根据下面提到的流程完成自己专属的动画驱动算法模型训练 。
那么Audio2Face这一步的框架是什么样呢?又如何制作自己的训练数据呢?具体如下图2所示:
开发一个自己的数字人,FACEGOOD把语音驱动表情技术开源了
文章图片
常规的神经网络模型训练大致可以分为三个阶段:数据采集制作、数据预处理和数据模型训练 。
第一阶段 , 数据采集制作 。 这里主要包含两种数据 , 分别是声音数据和声音对应的动画数据 。 声音数据主要是录制中文字母表的发音 , 以及一些特殊的爆破音 , 包含尽可能多中发音的文本 。 而动画数据就是 , 在maya中导入录制的声音数据后 , 根据自己的绑定做出符合模型面部特征的对应发音的动画;