智东西内参|数字人深度报告!元宇宙下的爆火概念,技术和应用一文看懂 | 虚拟数字人( 二 )


应用层是指虚拟数字人技术结合实际应用场景领域,切入各类,形成行业应用解决方案, 赋能行业领域。按照应用场景或行业的不同,已经出现了娱乐型数字人(如虚拟主播、虚拟偶像)、教育型数字人(如虚拟教师)、助手型数字人(如虚拟客服、虚拟导游、智能助手)、影视数字人(如替身演员或虚拟演员)等。不同外形、不同功能的虚拟数字人赋能影视、传媒、游戏、金融、文旅等领域,根据需求为用户提供定制化服务。
智东西内参|数字人深度报告!元宇宙下的爆火概念,技术和应用一文看懂 | 虚拟数字人
文章插图
虚拟数字人产业生虚拟数字人应用领域、场景及充当角色
虚拟数字人基础技术架构包括“五横两纵”。“五横”是指用于数字人制作、交互的五大技术模块,即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中,人物生成,即人物建模方面 2D 数字人较为简单,3D 数字人需要额外使用三维建模技术。人物表达包括语音生成和动画生成。动画生成则包含驱动和渲染两大部分。“两纵”是指 2D、3D 数字人,2D 数字人和 3D 数字人在技术架构方面基本一致。3D 数字人需要额外使用三维建模技术生成数字形象,信息维度增加,所需的计算量更大。
建模技术分为静态扫描建模和动态光场重建,目前主流技术仍为静态扫描,相比静态重建技术,具有高视觉保真度的动态光场三维重建技术不仅可以重建人物的几何模型,还可一次性获取动态的人物模型数据,并高品质重现不同视角下观看人体的光影效果,成为数字人建模重点发展方向。
静态扫描建模技术可分为结构光扫描重建和相机阵列扫描重建,结构光扫描重建扫描时间长,对于人体这类运动目标在友好度和适应性方面都差强人意,更多的应用于工业生产、检测领域。相机阵列扫描重建替代结构光扫描重建克服了以上问题成为人物建模主流方式。随着拍照式相机阵列扫描重建得到飞速发展,目前可实现毫秒级高速拍照扫描(高性能的相机阵列精度可达到亚毫米级),并成功应用于游戏、电影、传媒等行业。
智东西内参|数字人深度报告!元宇宙下的爆火概念,技术和应用一文看懂 | 虚拟数字人
文章插图
结构光扫描重建与相机阵列扫描重建分类
国际上 IR、Ten24 等公司将静态重建技术完全商业化,服务于好莱坞大型影视数字人制作。凌云光近年来大力发展立体视觉并研发了高精度人体3D建模系统——Human 3D+,其中核心的三维几何和彩色数据采集部分均使用了以佳能专业镜头,配合佳能 SDK 软件开发包及凌云光专用 3D 建模软件能快速、清晰成像并高速储存,自动完成高精度人体全身或局部重建,再利用三维动画制作软件对重建结果进行处理,得到高真实度数字人物。
【 智东西内参|数字人深度报告!元宇宙下的爆火概念,技术和应用一文看懂 | 虚拟数字人】动态光场重建是目前世界上最新的深度扫描技术,此技术可忽略材质,直接采集三维世界的光线,然后实时渲染出真实的动态表演者模型,为 3D 建模提供更加丰富的图像信息,它主要包含人体动态三维重建和光场成像两部分:
智东西内参|数字人深度报告!元宇宙下的爆火概念,技术和应用一文看懂 | 虚拟数字人
文章插图
人体动态三维重建与光场成像的区别
驱动:智能合成,动作捕捉迁移成为主流动作生产方式。2D、3D 数字人嘴型动作智能合成的底层逻辑类似,均建立在输入文本到输出音频与输出视觉信息的关联映射。其中 3D 视频驱动方式为以下三个步骤:
1)视频算法训练:对已采集到的文本到语音和嘴型视频的数据进行模型训练,得到一个输入任意文本均可驱动嘴型的模型。