在今年天猫双十一预售日,李佳琦再次刷新了直播记录,39款商品秒光,4个多小时累积突破3000万围观。长达4小时的超负荷直播,也让很多企业想到“虚拟主播”代替真人主播这一新的发展机遇。
2018年,搜狗和新华社联合推出的全球首个AI合成主播的诞生,掀开了“AI+虚拟主播”的神秘面纱,一时间,嗅到“科技红利”的市场各方开始蜂拥而上。2019央视网络春晚推出AI虚拟主持人团队,今年两会期间,新华社推出AI虚拟主播“新小萌”,人民日报推出AI虚拟主播“小晴”。回看这两年市场热潮,总让人有一种错觉,仿佛回到了当初世界首个虚拟主持人诞生时。不过,相比当初“昙花一现”的虚拟主播,这次新增的“AI”元素,或许会为市场带来更多的机会。
虚拟主持的诞生
自工业革命起,以机器代替手工劳动就成了人类努力的方向。随后,第一台计算机的发明,让机器开始升级为“人工智能”。步入互联网时代后,“人工智能”更是加快了替代手工劳动的步伐,并从基础的体力劳动层面渐渐转向创意、创作层面。在这一时代,更是诞生了诸如旷视科技、商汤科技、依图科技、云从科技、极链科技这样的优质初创人工智能企业。
早在2001年,英国PA New Media公司曾推出世界上第一个虚拟主持人阿娜诺娃,一个只有头部的动画,可根据新闻脚本快速制作视频,并可24小时持续播报。此后,日本推出了寺井有纪,中国推出了小龙,美国推出了薇薇安,韩国推出了露西雅,市场上虚拟主播的地位一片欣欣向荣。但阿娜诺娃没多久就退出了舞台,曾经吹捧过她的媒体纷纷关闭旧栏目,开设新栏目,换上真人主持,好像阿娜诺娃从未出现过一样。
直至今日,再回看当年的这波虚拟主持人热潮,仍有几点值得反思:
1.技术的成熟是产品出现的关键,但产品的成熟度如何,是由市场评判的。市场之所以会追捧虚拟主持人,根本目的是为了节省制作成本,提升制作效率。但早期的虚拟主持人,从整个制作过程来看,成本其实远超聘请一位专业真人主持。
2.虚拟主持人具有行业特殊性,对语音、表情、肢体等都有很高的要求。相比其他行业,主持人最基本的要求就是口才。也就是说,虚拟主持人要达到与真人主持一样的口才,语音识别和自然语言处理的准确率都要求极高。显然在这方面,早期虚拟主持人还没有这种技术。其次,要让虚拟人物播报呈现出自然状态,就必须解决口型匹配、表情匹配,乃至肢体动作匹配等问题。最后,在制作播报视频时,一定要快、稳、准。新闻行业是一个极为注重时效性的行业,如果制作一个视频就需要花费几天乃至几周的时间,那虚拟主持人取代真人主持显然是伪命题。
3.虚拟主持人是否一定要像真人,这是在做产品之前必须明确好的方向。早期的虚拟主持人都格外在意“像真人”,似乎这是一条铁律。这很大程度上,源自在当时环境下,主持人大多与新闻播报捆绑,像真人才更有可信度。但从长远发展来看,“像真人”真的是必须的吗?
合成技术原理
其实所谓的“像真人”,不外乎是运用“AI合成”技术。“虚拟主播”通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征,运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。
该项技术要能够将所输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。但在此之前,出现在大众媒体上的虚拟主播,多半只有声音,或者匹配一个量身定制的虚拟形象,比如微软小冰在东方卫视担任天气预报员就是如此。
要实现这样的效果,两大要求缺一不可。其一是高逼真度。要能够自动生成语音、表情、唇动等信息完全一致的自然视频,并已达到商用级别。其二是低成本的个性化定制。小数据的学习模型,使用少量用户真实音视频数据,快速迁移生成虚拟的分身模型,快速定制出高逼真度的分身模型。最后,使用时输入一段文本,即可生成与真人无异的同步音视频。
除此之外,语音合成引擎和图像生成引擎也是重要的两点。在语音合成引擎中,基于用户少量音频数据,使用语音合成技术,快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联。
图像生成引擎,则是使用人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,生成输出分身视频。
最后,两大引擎协作打磨,最终才能实现“AI合成主播”,能够逼真模拟人类说话的声音、嘴唇动作和表情,并将三者自然匹配,做到惟妙惟肖,让机器以更逼真自然的形象呈现在用户面前。
小结:
和真人主播相比,“虚拟主播”能够不知疲倦地工作24小时,同时还掌握多国语言,大大提升效率、降低成本。甚至写好文字稿,“ 虚拟主播”就能即可播送了,还不会出现口误或NG,更是让个性化内容生成的门槛大为降低。娱乐、医疗健康、教育、法律等多个领域和场景,无一不适用。未来,这项技术或许在虚拟教师、虚拟医生,虚拟客服等需要人类参与的内容表达场景,都能发挥出其价值。