微软小冰解锁新技能的背后：正努力连接人类和世界 - 互联网

【环球网科技综合报道】从2014年在微软（亚洲）互联网工程院诞生以来，历经5年时间，微软小冰走到了第七代，她曾带来人类历史上第一本人工智能创作的诗集，也曾举办人类史上第一个AI画展，如今，微软小冰正在不断完善自身的人工智能框架，努力改变连接人类和世界的方式。

近日，微软小冰首席科学家宋睿华在微软小冰科研成果分享会上介绍，如今，不仅仅是作为聊天机器人，小冰在内容生产、智能零售、人工智能托管和智能助理方面，也都有所作为。此前，在 “第七代微软小冰”年度发布会曾表示：“我们希望小冰能够无处不在，只要有人类的地方，大家都可以看到小冰，可以和小冰交流。”

用共感模型去把控整个对话流程

会上，微软小冰首席NLP科学家武威表示，一个能够自我完备的对话机器人应该拥有学习、自主管理以及连结能力。这三项能力贯穿起来就构成了一条纵线，而这条纵线则贯穿了对话机器人这些年来，甚至可能是未来一段时间的研究与发展。在纵线之外，还有一条横线，即微软小冰核心对话引擎的进化。

经历七代发展之后，微软小冰已在对话引擎、交互感官上实现技术突破，其中，经过检索模型、生成模型、共感模型的历次技术迭代，对话引擎已经实现了从“平等对话”向“主导对话”方向的跨越。伴随着5G移动网络的普及，更高的带宽、更低的延迟来临，对融合了全双工语音交互、实时视觉与核心对话引擎的下一代多模态交互感官提出更高要求。继去年宣布率先开始多模态感官的研发后，今年2月，微软日本小冰团队已邀请当地媒体进行了公开测试。该感官有望成为5G时代的全新交互形式。

武威认为，多轮对话确实是交互里面比较难的一块，因为它涉及到非常复杂的上下文的理解甚至说一些外部知识的引入。“微软小冰在这块力图给用户带来一种不一样的体验，即通过共感模型去把控整个对话流程。不光是考虑要说什么，说什么取决于我们对上下文理解的多么准确，我们能够说的好，我们更注重的是怎么去说去交流。人的交流不是简单的你问我答的过程，而是一个有组织、有目的的交流过程，不仅仅要考虑问了什么，还要考虑之前问了什么，它是一个交流，而不是一个回复，我觉得这是我们给用户带来最不一样的体验。”

扩展人工智能创造新领域

从主持人、记者、歌手到诗人、画家，微软在不断解锁新身份的同时，也在不断挑战人工智能创造的新高度。作为人工智能创造的先行者，微软倡导通过人工智能技术解决高度定制化内容的供需矛盾。目前，在文本、声音与视觉创造包括跨越多种演唱技巧的多个声音模型、多种绘画模型等方面，微软小冰均掌握了全球领先的核心技术，并发布了实际线上产品。

近日，微软小冰相继发布《我和我的祖国》、《野狼Disco》等翻唱歌曲，其日本分身形象“凛菜”也已与日本唱片公司AVEX正式签约，成为滨崎步、奥村初音、安室奈美惠等知名歌手的同门。据悉，微软小冰从2016年开始做唱歌，主要有三个原因，一是唱歌的门槛比说话高。普通人都会说话，但是不是所有人都会唱歌的，更不是所有人都能唱的好听，在技术上有难点。二是情感表达上更加丰富激烈一些，不管是高兴还是悲伤，不管是节日还是平日，总能找到一首和心境很对应的歌。三是唱歌是很重要的娱乐形式，很有市场前景、方向。

微软小冰首席语音科学家栾剑表示：“发音、节拍、旋律构成了唱歌的最基本元素。因此，机器想要会唱歌就需要通过原唱歌手的演唱进行学习，这是一种比较简单或者广泛的学习方式，除此之外，其还可以通过读取曲谱（简谱或者五线谱）的方式学习演唱，这种输入方式也更为干净、便捷。由于从人的录音去学习，有时候会需要检测音高的曲线，需要检测每个字起始和结束的位置，还需要去判断每个发音，所以这中间都会有一些误差和错误存在，但如果是有曲谱输入的话，接下来就会更简单一些。”

传统唱歌合成的方式主要有两大类。第一类是单元拼接，首先建立一个根据把声母和韵母按不同音高进行采集的单元库，然后根发音、目标时长和目标音高，从单元库里面去挑选最符合要求的单元，通过信号处理的方法去修改时长、音高，最后拼接成最想要的效果。这个方法最大的优点是简便易行，而且可以基本上保留最佳音质，但是这一方式最大的问题在于，单元采集的过程是每个发音单独采集的，与一串语流里面连续的发音相比更显生硬一些，变化与过度稍差。

第二类是参数合成，采用隐马尔可夫模型。该方法是通过把所有录音的数据提取出声学参数，包括能量谱、时长、音高，然后去建立一个模型，要合成的时候，根据所需发音在模型内预测，然后通过预测出的声学参数、声码器进行音频的波形重构。这种方式比较灵活，变化很丰富，甚至可以创造一个从来不存在的声音。但其最大的缺陷在于声码器，音质上会比单元拼接方法下降。

目前微软小冰主要采用前景更加广阔的第二种方式，并注重其改良提高。“在最新的模型里面，我们会用到很复杂的结构，这里面可能会有卷积神经网络、其他的残差连接等，这也是因为神经网络的发展使得到了今天，我们有很多模块可以使用，使得三个参数同时建模变成了可能。用这种方式生成出来的波形，它的自然度和流畅度会得到一个明显的提升。”栾剑说道。

未来，不管是人工智能创造方面，还是唱歌提高方面，微软小冰都将“两条腿走路”，既要不断提高模型，也要不断挖据更多的数据，提高质量，扩展人工智能创造的领域，在更多领域提供更多的产品和成果。

谈及人工智能与人类的区别时，丰富的情感和生动的表达总是不可避免被提及的答案，现如今，微软小冰更进一步，已经可以创造比喻。众所周知，比喻是一种非常高级的修辞手法，可以把比较抽象、难以理解的概念降维成一个容易和具体的概念，用生动的表达抓住读者的眼球。

微软小冰首席科学家宋睿华表示：“我们有一个要求是不要在人类已有的文章里去挖掘这种比喻句，不要用“像”、“就像”、“一样”这样子的模板把它挖掘出来，因为这些都是人类创造的比喻，跟小冰没有那么大的关系，我们希望小冰真正创造出人类不曾说过的比喻。”

走过五年，第七代微软小冰已成为全球最大的跨领域人工智能系统之一。在全球多个国家，微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众，已落地商业客户覆盖金融、零售、汽车、地产、纺织等十个领域。但微软小冰并未停下自己的脚步。“小冰首先是希望自己做出一个框架，长出小冰这样一棵大树，来展示或者是催促我们来不断地了解怎样的技术是要构建一个像人的人工智能所必须的要素。我们也希望她以后能够成为一个通用的平台，能够为做出各种各样的AI做帮助，最终形成一片AI的森林”宋睿华最后说道。