作者 | 丛末
编辑 | 唐里
今年 ICCV 上,华人收录论文数量首次超越了美国,对于华人研究者而言,ICCV 2019 也成为了一场具备“转折点”意义的国际学术顶会。而从现场参会情况来看,无论是参会者、展商,还是 Oral 报告和 Poster 上,刷脸率最高的也当属华人面孔。
在这样的华人高光背景色中,商汤科技无疑是本届ICCV中的 “C 位”角色。作为一家从实验室走出来的 AI 公司,商汤科技在学术领域上一直都是一个出类拔萃的存在,而在这场会议中,则可以用“独占鳌头”做形容:ICCV 2019中,商汤科技不仅有57篇论文入选,成为全球企业中收录论文最多的企业,还在ICCV的一众竞赛项目上斩获13项世界冠军。
会议期间,AI 科技评论也有幸采访到了商汤科技联合创始人、港中文-商汤联合实验室主任林达华教授,基于商汤科技以及其团队在ICCV 2019的论文成果,聊了聊商汤科技在 ICCV 上的表现,以及商汤科技与联合实验室的整体布局情况。
不仅如此,林达华教授本人作为深度学习与计算机视觉领域的资深科学家,也难得地在本次采访中分享了一些他个人的研究经历和观点,并对华人今年在 ICCV 上的表现谈了谈自己的感受。
以下为 AI 科技评论与林达华教授的对话实录。
林达华简介
林达华,香港中文大学资讯工程系助理教授,商汤科技联合创始人,并担任香港中文大学-商汤科技联合实验室主任。加入香港中文大学前,林达华于2012年至2014年担任芝加哥丰田科技研究院研究助理教授。林达华教授的研究领域涵盖计算机视觉、机器学习、大数据分析等,近年来主要专注于深度学习及深度学习在高层次视觉理解、概率推断、大数据分析领域的应用。
林达华教授在CVPR、ICCV、ECCV、NIPS、T-PAMI等计算机视觉与机器学习顶级会议与期刊上发表过逾百篇论文。他在贝叶斯非参建模方面的开创性工作于2010年获得NIPS的最佳学生论文奖。他还曾获ICCV 2009 、ICCV 2011最佳审稿人奖,指导香港中文大学研究团队参加ImageNet2016、ActivityNet2016、ActivityNet2017等国际竞赛,并获得多个奖项。他还担任ECCV 2018、CVPR2019、AAAI2020领域主席。
林达华教授2012年获得美国麻省理工学院计算机科学博士学位,2007年获得香港中文大学资讯工程硕士学位,2004年获得中国科学技术大学电子工程与信息科学学士学位。
57篇论文!
提出、定义并解决新问题
AI科技评论:商汤科技在CVPR、ICCV 等计算机视觉领域的国际顶会上的表现一直都非常出色,其中今年的ICCV 更是中了57篇论文之多,那这些论文中,您认为比较具有突破性意义的成果有哪些?
林达华:这些论文中,有相当一部分都在某个特定方向取得了显著的进展,有在应用上的拓展,也有在核心方法上的创新。我这里主要选取我比较熟悉的两个工作来介绍:
一项工作是今年 ICCV 的一篇Oral论文 《CARAFE: Content-Aware ReAssembly of FEatures》,它解决了一个非常关键的问题:检测任务中需要将多个尺度的特征结合起来进行分析。当这些特征对齐到一个协同的分母上进行融合时,传统方法是通过升采样的方式来进行融合,然而在这个过程中我们发现,这种升采样跟传统的图像升采样有很大的区别,如果直接采用传统的升采样方法,最终的效果会受到很大的抑制。
而在这篇论文中,我们提出了一个轻量级的通用升采样算子 CARAFE,在特征升采样的融合中可以最大限度地保留其中的重要特征,并且能够广泛地应用到各种需要结合多尺度特征来进行分析的任务中。CARAFE 虽然非常简单和轻量化,但在多种不同任务中都一致并很好地提升了模型的性能,我们未来会将这种方法进行比较广泛地应用。
另一项工作则是我个人非常喜欢的一项关于舞蹈生成的工作,《Convolutional Sequence Generation for Skeleton-Based Action Synthesis》。
以前的舞蹈生成基本上生成的是一些小图片或者非常短的小视频,而长视频的生成对于计算机视觉而言一直都是非常大的挑战。
这项工作则提出通过图的反卷积和持续反卷积的叠合,使用高斯过程来逐渐生成一个非常长的任意时空尺度的视频序列。这样的话,这种方法其实就解决了视频生成中的一个关键挑战,即如何生成长时间或任意尺度的视频序列,并且在此过程中能够很好地保持序列在时间和空间上的结构。我认为这是一项非常有意义的工作,并且在未来,这项工作对于增强现实、视频内容生成等任务可能都有非常广泛的应用潜力。
AI科技评论:其中舞蹈生成这项工作具体是在什么背景下开展的?过程中遇到过什么挑战或者有趣的故事吗?
林达华:一年多以前,生成成为了计算机视觉领域一个特别受关注的方向,包括现在 ICCV 这个会上也有很多关于GAN 和生成的工作,但是其中大部分工作重点关注的还是空间结构的生成,然而我们在接触和研究了大量关于视频生成的工作后,发现现在的生成相关的工作对于时间结构的把握还存在比较大的空白,这就驱动我们开始了这个研究项目,希望能够填补该领域对于长时间尺度的生成的研究空缺。
在这个研究的开展中,我们遇到的挑战其实还挺大的:
首先,视频生成其实是一个非常新的领域,它的数据量远不如图像那么充分,并且我们研究的还是非常长时间尺度的视频生成,这项生成任务本身的复杂性与该领域数据量不足就构成了很大的矛盾点;
其次,持续的生成其实还有一个很大的特点,就是一方面要寻找不随时间变化的共同规律,另一方面又要保持多样性,寻求这一点上的平衡也成为我们面临的一个比较大的挑战。所以在模型的结构设计上,我们做了很多探索,最后才找到一个真正能够有效克服这些困难的模型结构,就是以高斯过程驱动的时空图卷积网络。
这项研究开始之初,即便生成十秒的非常简单的动作,都存在很大的困难,而现在我们的模型基本上能够生成持续十分种的舞蹈,甚至可以根据音乐和其他的一些输入作为条件做生成。这样的成果,其实是我们经历了非常多的尝试而获得的。
AI科技评论:商汤科技最近几年在ICCV 上的表现一直不错,从论文层面而言,除了数量上一直在增加,还有哪些方面的特点?
林达华:能够被 ICCV 收录的论文当然肯定存在一定的创新价值,但是大多数论文还是着眼于算法的局部提升或者针对某个算法或方法的局部提出一些新的架构和设计方法,从而实现性能上的提升。
当然,商汤科技和实验室也做了很多改进算法或性能上的工作,比如我们在很多比赛中拿了不少冠军,就是我们在算法和性能上的优化成果的重要体现。
但如果仔细观察商汤科技和联合实验室发的很多论文,能够发现这些论文和其他多数论文有着不一样的特点:我们很多工作都是在定义一个新的领域和新的问题,并且提出了我们自己的解决方案。从这个层面去实现创新的工作,其实在整个会议中占的比例并不多,因为我们通过在实践中接触到很多业务第一线的真实问题,进而能够提出很多学术界实验室所看不到的一些问题。
比如说我前面提到的两个工作,前者是我们对大量算法进行抽象后提出的一个算子,实现了算法和方法上的创新;而舞蹈生成则是我们在实际需求的背景下提炼出来的一个研究方向,我们刚开始做的时候,这个方向在学术上还是处于空白阶段的新问题。此外我们做的包括电影分析、特定约束条件下的长尾场景的理解等工作,都是我们在业务场景中所遇到的一些特殊的挑战,学术界对这些特殊挑战的探索实际上并不是很深入。
当然我们提出这些新问题的过程并不是完全被动的,并不是来了个项目遇到了问题所以要克服下,而是在大量的需求中判断整个行业的主要的痛点在哪,进而提炼和提出并定义这些新的问题,驱动研究团队来开展长远的探索,最终回应整个行业的根本需求。
AI科技评论:论文以外,今年ICCV商汤科技还举办了例如WIDER 挑战赛、 ICCV Night 等一系列的活动,就您看来,学术顶会上的成果和表现于包括商汤科技在内的企业而言,有着怎样的意义?
林达华:关于这一点,我认为可以从以下几个层次来说:
第一,能够体现了我们持续做原创技术的精神和初心。现在很多公司专注于应用和业务,通常是拿着现有的一些技术去解决一些实际问题,那它解决问题的层次和深度会受到一定局限。而商汤科技会投入很大的力量去构建这种原创技术的核心竞争力,在这个过程中会产生很多就学术本身而言就很有价值的新想法、新方法、新技术以及新挑战。而商汤科技对于这些问题的研究和成果,可以在学术会议上体现出来,并反过来成为商汤科技持续做原创技术研究的牵引力量。
第二,学术会议对于整个社区的交流而言,具有非常大的价值。实际上,学术研究中最关键的环节就是提出好的问题。比如说我们在探索过程中发现了一些新问题,提出了一些解决方法,并以学术论文的方式发表出来,当展示给社区的其他学术研究者时,能够推动整个学术界运用更大、更广泛的力量去共同解决这些问题。最后,这其实还能够反哺整个行业。
第三,在会议中举办比赛,其实可以看做是我们在寻求性能的极限和探索方法的边界方面的努力。这些比赛产生的方案,我们不一定会直接拿到业务场景中区应用,但是可以让我们探索到某项技术的边界和根本困难在哪,对我们后续的开发和探索都具有很好的指导意义。与此同时,有一些方案其实可以通过一些工程化的工作来进行简化压缩,最后也可以成为应用到业务中的效率和性能得到很好平衡的模型。
从实验室走出来的商汤科技
天然拥有技术创新的基因
AI科技评论:这些论文有一部分出自香港中文大—商汤科技联合实验室,那联合实验室对于商汤科技而言是一个怎样的存在呢?
林达华:联合实验室跟商汤科技的关系是一种非常紧密的合作关系,经过过去几年的合作,现在已经构建了带有示范性意义的产学研结合的闭合双向关系。具体而言:
所以我认为应该从发展的维度上来看待华人目前的原创性问题,并且我也相信,再过一段时间,这些投入和研究会慢慢结出果实。
AI科技评论:您作为无论在学术界和工业界都有着丰富的履历的科学家,从学术研究和职业选择方面,对于后辈研究者们分别有哪些建议?
林达华:第一,一定不要盲目跟风,要选择自己真正感兴趣和愿意长时间投入的方向。他如果因为某个研究方向热门就去试一试,而没有想清楚自己真正感兴趣和愿意长时间投入的方向是什么,那他基本上做不出太好的成果,并且不一定能坚持下去。
第二,重视培养思维能力,不要被热点方法带着走。我在指导自己学生的时候,一直都强调不要跟着热点方法走,而是要建立起寻找挑战、提出问题、定义问题并解决问题的思维,因为热点方法其实变得非常快,而不变的是他们自身具备这种思维能力。当然,将一些流行的方法用到自己的研究工作中肯定是可以的,但是他一开始做某项研究的出发点不应该是为了用某个热点方法,而应该是为了探索某个问题的本质,这样的话,无论技术路线如何发展和变迁,他都能够一直站在创新的前沿。
第三,在职业选择上,要真正想清楚自己想要走的道路是什么,并且思考如果要走这条路,需要培养怎样的素质,进而有计划地朝着某个方向锻炼和培养自己需要具备的能力。如果选择到学术界任职,那他可能要更多地培养自己寻找和定义问题的能力,而不是简单地跟着导师发论文;如果选择到工业界,那他就要培养自己观察行业痛点、寻找和归纳客户需求并规划解决这些问题的能力。
”加入 ICCV顶会交流 小组