近日,新华社以“数字虚拟人频频出圈,能在多大程度上替代真人”为题发表观点,引爆热度。近年来,数字虚拟人已经从虚拟歌手初音未来、洛天依,“进化”到虚拟员工、虚拟学生、虚拟主播等。在跨年晚会、春晚这样的节目上也频繁出现。其中涉及的原理极其复杂,但可以从TA诞生的大致节点,尝试对其进行了解。
诞生:基础架构
一般而言,数字虚拟人的目标是通过计算机图形学技术创造出与人类形象接近的数字化形象。从某种角度讲,虚拟人、数字人、虚拟数字人以及数字虚拟人之间的区别并不大。一定要划分“按照真人设定的为数字人”,“无对应真人的为虚拟人”也不是不行(医学研究领域另论),但究其本质都是运行于计算设备上的代码和数据而已。
在生命起点,数字虚拟人与人一样,从“胚胎”中就孕育出自然逼真的感知系统、感官形象与思维大脑,也就是依赖于语音、视觉、自然语言处理等多模态融合算法。很多模态任务,都需要融合两个及以上模态的特征,而数字虚拟人需要架设一个AI整体技术架构。综合来看,须具备四方面能力,即形象能力、感知能力、表达能力和娱乐互动能力等,也可以理解为基于多模态融合的3D建模。
成长:渲染与调整
与人类幼儿一样,数字虚拟人出生后,工作人员也要针对其外貌特征、表演能力、交互能力等进行打造。比如,人机对话时,在语言、表情、动作等方面要达到自然流畅,这就涉及渲染与调整。
渲染在电脑绘图中是指用软件从模型生成图像的过程。在感知上,数字虚拟人要通过语音、视觉等多元化信息融合感知,具备数据感知、数据采集的基本能力,为主动服务提供数据养料。在外貌上,人物细节,包括头发、瞳孔、牙齿、皮肤、衣物、微表情等都需要进行渲染。在动作上,每一个数字虚拟人背后都有许多动捕演员,动画师对每一帧动作进行调整,其中耗费的人力工时堪称海量。被视为2021年“现象级”虚拟人的柳夜熙,基础3D建模成本估计在50万元,每期视频投入超100万元。
最后是计算,借助AI大脑的计算分析处理引擎,将多维信息综合处理,化繁为简变成高效服务传达出来,成为无处不在的应用功能。
学习:深度神经网络
当然,现实世界与数字世界之间,需要一种更具沉浸式和情感温度的交互方式,所以虚拟人还得“上学”。
深度神经网络是机器学习领域中的一种技术,而机器学习是一门多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能。它是人工智能的核心,是使计算机具有智能的根本途径。深度学习需要收集大量的数据,并且拥有处理这些数据的能力。例如,清华大学的数字虚拟人华智冰,就宣称拥有持续的学习能力,像人类一样能够从身边经历的事情中来学习,然后变聪明。
而游戏与娱乐行业,是最早应用数字虚拟人的领域。早在2015年春晚,歌曲节目《蜀绣》中就出现了5个李宇春,观众不用佩戴任何VR眼镜,就可以看到立体的虚拟人。2021年的央视春晚上,周杰伦、刘德华等都是通过数字虚拟技术“出现”在现场的。因此,虽然目前还没有2022年春晚出现数字虚拟人的确切消息,但如果真的出现了,也请不必太过惊讶。(本报综合)