From:iccv 编译:T.R
视频是互联网时代信息的主要载体,随着移动互联网的发展,视频特别是短视频得到了爆发式增长。但很多时候由于流量或设备的原因会造成的视频分辨率低、噪声和运动模糊的退化较为严重,大大降低了视频的感观质量。
为了提升视频的分辨率和用户的观看体验,人们开始探索和开发深度学习实现视频超分辨技术。但已有的深度学习方法在参数量、计算效率和处理效果上各有侧重,还很难在充分利用视频空时相关性的同时保证处理速度和生成质量。
最近来自武汉大学、哈工大和鹏城实验室的研究人员们通过引入渐进式的空时融合模块和非局域操作方法,有效地抽取了视频序列中的时间-空间相关性并降低了模型的复杂程度,实现了优秀的视频超分辨效果。
视频超分辨
与单张图像进行超分辨的静态任务不同,视频超分辨除了需要对单帧内部的空间信息进行有效处理,同时还需要对相邻帧间的时间信息进行抽取。如何有效地融合连续帧间的时间信息是视频超分辨的关键所在。
目前视频超分辨主要分为基于时间和基于空间两大类。其中基于时间的方法将视频帧视为时序信号来一个接一个进行处理,这种方法无法并行处理多帧且速度较慢。
而基于空间的方法将多帧图像作为输入,并将多帧作为参考帧的辅助信息来进行重建。这种方法可以在保持帧间时间相关性的同时进行多帧并行计算。现有基于空间的方法主要包括了直接融合、多阶段相邻多帧(slow fusion)以及3D 卷积的方法。
此外近年来基于深度学习的方法还将运动估计和运动补偿加入到网络中,以便模型可以更好地抽取图像中的长程相关性。虽然这些方法在不断提升超分辨的效果,但它们还存在以下问题:除了需要额外的参数进行计算,这也让模型的训练变得困难;不正确的运动估计和运动补偿会破坏原始输入并降低模型性能.
非局域操作则利用所有可能的相关位置来得到目标位置的响应(左)。运动估计与补偿通过相邻帧来补偿参考帧(右)
为了提高视频超分辨的质量和效率,在本文中研究人员采用了渐进式融合网络。通过一系列渐进融合残差网络来充分利用输入帧间的空时信息,并利用参数共享的方法减小了网络的参数量;同时使用了基于非局域方法的非局域残差块来抽取长程的时空相关性,避免了复杂的运动估计和运动补偿,减小了网络的计算量。
通过多种方式的有效结合,这种基于渐进融合与非局域操作的方法在参数量、计算量、生成质量上取得了综合的性能提升。
PFNL
本文的方法其主要流程主要包括以下几个方面:首先通过非局域方法对输入帧进行预处理,随后送入渐进融合残差模块进行帧内的空间相关性和帧间的时间相关性抽取,随后对得到的特征进行通道间融合与放大,并生成与高分辨率图等大的残差图,与输入通过双三次插值生成的图像相加得到最终的超分辨结果。
下面我们重点来观察渐进融合残差模块(progressive fusion residual blocks,PFRB)的内部结构,其操作主要分为了四个步骤。
假设网络每次输入5帧,那么在通过前面的预处理后,现在就有针对五帧图像的特征图。
PFRB的第一项操作是将输入特征图I0进行3x3的卷积,对图像内部的特征进行处理获得每帧各自独立的特征I1。随后将五帧的特征进行衔接得到特征块,用于处理时间相关信息;随后利用1x1的卷积来抽取精简的时间特征,而后这一被抽取的时间特征被衔接到了先前各帧的特征图进行卷积。此时得到的特征图将具有融合了每帧内空间特征信息和帧间混合的时间信息。最后将这一特征作为残差与输入特征相加得到输入,在保持特征图尺寸不变的情况下得到了更为精简有效的时空信息。
此外为了更好的处理帧间的长程依赖性,研究人员引入了非局域操作来代替运动估计与运动补偿方法。在数学上,非局域操作可以用下面的公式来表示:
其中x代表输入数据,g(x) 代表输入的表示,f(xi,xj) 代表了针对i位置通过计算周围位置相关性得到的权重。最终输入是周围位置的加权结果。这里的f使用了目标位置与周围位置间点乘相似性的高斯函数来计算f(xi,xj)=exp(xi·xj) 。
从下图中可以看到非局域残差模块的结构。首先将输入的T维度转换到通道维度上,间接处理时间相关性。如果直接使用HxW作为输入将会是的计算量十分巨大而无法计算,所以第二步就通过加深通道来减小特征图的大小,并与T不再相关。随后在进行残差计算与输出。
值得一提的是,非局域残差模块并不改变输入输出的维度大小,可以作为通用模块便捷地插入现有的网络中去,实现长程信息的捕捉。
实验结果
实验中从10个视频中抽取了522个片段用于训练,20个片段用于测试。训练时使用了32x32的低分辨图像作为输入,并使用了Charbonnier损失函数:
实验中首先对比了非局域操作和运动估计及补偿对于超分辨的性能。研究人员搭建了一个用于测评的baseline模型VSR并加上了包括STMC,SPMC等运动估计与补偿方法,以及非局域操作来进行性能对比。下图的训练结果显示基于非局域操作的方法优于运动估计补偿方法,同时还比这些方法更为简单。在下面的对比中非局域方法的参数比另外的方法减少了近四倍,可以处理大尺寸的输入。
我们可以从结果中看到这种方法的细节清晰,无明显人工特征,具有时空连续性可以有效捕捉长程信息。
信息融合是超分辨模型十分重要的部分,研究人员还针对直接融合、多阶段相邻多帧融合以及3D卷积等方式与本文提出的渐进式融合进行了比较。下图a可以看出在没有参数共享时,PFS(progressive fusion),虽然这种方法很好但是与3D卷积十分接近。而图b在进行参数共享的时候显示出了明显的优势,它的性能损失很小,其他方法性能损失却很大。
上图c中研究人员还探索了输入帧数与模型性能的相关性,并发现输入帧数越多模型可以通过更多的相关信息提升生成结果。
最后将完整的模型与目前的先进方法进行比较,显示出了模型较强的性能:
更好的视觉质量和细节重建,也能保证重建后纹理结构和方向的正确性。