行业视频超分辨率新标杆,快手amp;大连理工研究在CVPR2022量子比特中登场,

分辨率算法迎来了新的突破

CVPR2022上刊登的最新论文从新的视角出发,统一了低分辨率和高分辨率视频超分辨率时序建模的思路。

论文提出了一种新的视频超分辨率框架,它以更少的计算成本利用低分辨率和高分辨率的定时补充信息,为更精细的纹理带来超分辨率结果。

[2001]研究在一些公开数据集中达到了SOTA效应,为随后的视频超分辨率研究提供了新的灵感。

文章的地址是https://arxiv.org/abs/2204.07114代码地址是https://github.com/junpan19/vsr_etdm

视频超分辨率哪里难超分辨率是计算机视觉的经典技术,利用图像的自然结构信息将图像从低分辨率映射到高分辨率。卷积神经网络随着深度学习的发展,在图像的超分辨率场景中发挥了惊人的强大适应能力。

于是人们开始关注更难的视频超分辨率任务,并在视频领域大规模实践。例如,快手App的服务和移动等广泛使用。视频超分辨率的困难在于使用定时信息,即多帧图像序列之间的互补信息,生成超分辨率所需的纹理细节。

现有的时序建模方法大致分为两个方向。

一种方法是使用光流[1,2,3]、可变形卷积[4,5]和三维卷积[6,7]。这种方法在低分辨率级别显式或隐式建模前后帧的计时信息,并通过融合网络重建高分辨率结果。这些建模结构大多基于神经网络,而且很复杂,因此有时很难直接插入到任何视频框架中。

时序建模的另一种思想基于递归状态累积的方法[8,9,10,11,12],该方法通过在隐式层中持续累积历史特征来建模整个视频序列的互补信息。

原来,只利用现在的帧和前的帧和履历的积蓄的结果作为网络的输入,采用融合得到超分辨率结果的单向的循环卷积网络。这种方式的好处是,一旦积累了一定程度的信息,只需很小的网络配置和计算成本就能获得巨大的利润。但是,前几帧信息积累不足,前几帧会失去超分辨率效果。在实际场景中使用时,需要一定程度的“预热”。

双向循环卷积网络是一种解决方案,通过将影像的全部信息向正方向和反方向传播,最终组合正方向和反方向的信息生成超分辨率结果,来缓解信息的偏差。本文深入分析了这一方法,发现双向沟通策略也存在两个问题。

(1、信息利用的灵活性。由于双向传播策略通常利用前一个和后一个定时特性,因此当这些时间发生遮挡或视差变换时,误差也会累积到隐藏层特性中,从而导致当前时间的超分数错误。

直观的解决方法是将多个时刻的信息直接传递到当前时刻,但运动差异大会降低融合效果。最近,有一些方法可以通过运动补偿来弥补预测结果,但不管是光流还是可变形的卷积,都会引入大量的计算开销。

(2、实时性。在双向循环卷积网络中,由于在每次的运算中导入所有的图像序列的处理,所以在实时的因果系统中难以应用。

此外,无论是相邻帧的融合还是特征的传播,现有的视频超分辨率框架还没有统一的处理方法,往往需要针对各个定时建模对象分别设计策略。

面对上述问题,本文建议使用相邻帧的时间残差图来统一低分辨率和高分辨率时序建模的视角。

在低分辨率空间中,可以使用输入帧的时间残差图来区分两帧之间的低变化区域和高变化区域,不同区域中包含的互补信息在重建中需要区分。在高分辨率空间中,定时残差贴图可以以更少的运算成本将不同时刻的预测结果传递给过去和未来的任何时刻。

特别地,所提出的视频超分辨率框架(ETDM)是单向循环网络的传播结构,但是借助于时间残差图,当前时间点的初始超分辨率结果可以通过多个过去和未来结果进一步提高。

图1显示了在学术上公开的Vid4中ETDM的处理效果,超过了很多已经发表的视频超分辨率方案,将一张图像显示为320×180到1280×720表示分割所需的速度。ETDM方式是单向循环卷积网络结构,超过单向、双向、多帧融合的方式大部分,达到了更好的效果和速度平衡。

▲图1ETDM法和其他SOTA法的效果和速度比较

如图2所示,本文提出的视频的超分辨率结构(ETDM)是基于单向结构的循环卷积网络,即,隐层特征仅在正向传播。在每个时间点,网络的输入被分为两个级别:一个是低分辨率空间中的图像序列(前一帧I{t1}、当前帧I{t}、后一帧I{t+1})另一个是高分辨率空间的预测

ETDM的核心是使用相邻帧的差动图来统一这两个级别上的时序建模方式。这里,将当前帧定义为参考帧,时间差是参考帧与相邻帧的差,既可以表示为前后帧图像的像素的变化之差,也可以认为是从参考帧向相邻帧的变换的“桥梁”。从这两个方面,具体说明时间差地图的活用方法。

▲显示图2中ETDM网络的配置。

由于在低分辨率空间中建模和获取静态定时时的视频帧具有连续性,因此存在冗余和非冗余定时信息,并且相邻帧具有不同程度的互补信息。为了验证这一点,使用图3,在不同的区域绘制参考帧的像素变化程度,所述相邻帧表示不同颜色的不同强度。

▽图3:相邻的两个帧的每个像素点的差的程度

在相邻的帧中,可以知道像素点的运动的差分的变化程度有小的区域和大的区域。此差异的程度表示是否可以使用时间残差映射将相邻帧划分为低变化(LV)区域和高变化(HV)区域。

直观地说,LV区域的特征略有变化,因此相邻帧的互补信息可能来自小细节。HV区域总体差异较大,可从不同方面提供更粗尺度的互补信息。

但是,差分图表非常稀疏。为了得到完整的划分区域,首先将其作为3×3进行了过滤,并进行了图形处理。然后,将其作为二值化的时差图,作用于原图。得到LV和HV的区域。结果如下:。

由于自然图像的平滑性,LV可能对应帧间的小运动区域,HV可能对应大运动区域。

因此,在融合方式上,本文选择参数共享但体感野不同的融合网络。具体来说,我们为HV分支的上层网络分配了更大的空洞率,以便捕捉更大的运动信息。

对高分辨率空间中的域定时进行建模的残差图的另一含义是将参考帧变换为相邻帧的“桥”。因此,除了当前时间的超分辨率结果之外,还将重建从当前时间到过去和未来的高分辨率定时残差图。

如图2所示,我们在特征提取网络中添加了三个备用标题(spatial-residual Head、past-residual Head、future-residual Head)分别预测当前时间的超分辨率结果、从现在到过去的时间残差图的超分辨率结果以及从现在到未来的时间残差图的超分辨率结果。

通过使用预测的时间残差图,当前、未来或过去时间点预测的超分辨率结果可以传播到当前时间点,并在当前时间点提供更完善的信息。

因此,提出了定时往返优化的结构。在当前时间点,过去时间点和未来时间点的结果可以传播到当前时间点,如下所示:。

传递的结果在不同的时间点提供互补信息,从而有助于优化当前的超分辨率结果。

此外,我们还发现时间残差图具有累积转移特性。也就是说,从现在的时刻到任意的时刻的时间转移,可以在其间相邻的每一帧积累时间残差图来得到。这样,传播过程自然会扩展到任何时间序列。以下表达式表示将第tl个时间点的结果传递到当前时间点。

同样,也可以将t+l个时间点的结果传递到当前时间点:

为了利用相互不同时刻的互补信息,维持长度N的存储器,在过去和未来的时刻的N个超分辨率结果,即

是和

下图显示了内存更新过程。

△图4内存的更新步骤

这里,以在第t帧的处理后开始第t+1时刻的帧的重构的情况为例。在这种情况下,网络不仅需要更新隐藏线层的特征,还需要更新内存中的特征,并使用以下公式进行更新。

效果怎么样。一些现有的方法使用不同的数据集训练网络,这些数据集的纹理分布不同,对性能也有一定的影响,不利于公平比较。本文采用公开的数据集Vimeo-90K对网络进行训练,在此数据下再现了部分现有方法。具体的性能比较如图5所示。

△图5定量性能比较

图5示出了不同方法在公开数据集Vid4、SPMCS、UDM10和REDS4中的比较结果。ETDM方法在客观评价指标PSNR和SSIM上超过了大多数视频超分辨率。在图5的表中也记录了不同方法的4倍超分辨率320#215。180图像所需时间。

发现ETDM方法超过了大部分基于时间滑动窗口的多帧融合算法,如TGA、RBPN和EDDVR,并且超过了部分基于双向循环卷积网络的方法。值得注意的是,ETDM的主干网络是单向隐式传输,但也超过了基于双向卷积网络的方法,例如BasicVSR、GOVSR。

在使用上,ETDM具有比双向网络结构更灵活的应用能力,因为ETDM不需要将整个视频的所有帧用作输入,而是支持灵活地设定传播的将来和过去的结果的个数。

△图6的定性性能比较

图6示出了公开数据集上的定性比较结果,ETDM方法可以产生更丰富的细节和精确结构。

下面是一些视频的比较结果(上:输入,下:超分辨率后的结果):

总结视频超分辨率的一个要点是利用定时互补信息的方法,在行业内,通常基于递减隐线状态累积来使用,以分别基于多帧运动补偿对低分辨率和高分辨率进行定时建模。

本文重新思考了这个问题,从一个新的角度提出了一种利用时序差分在低分辨率和高分辨率下的时序建模方法。

由于定时差第一层意味着描述前后帧图像的像素变化的差异,所以可以使用低分辨率来区分输入序列的高变化和低变化的区域,层2意味着相邻的两帧的变换“桥”它可用于以高分辨率传播不同时间的预测结果。此外,将高分辨率下的单时刻传送扩展到任意时刻的传送,为了优化当前时刻而存储多个时刻的结果。

本文是快手与大连理工大学副教授贾旭合作完成的,包括TGA、RSDN、RRN系列视频超分辨率工作的后续工作。所提出的ETDM在多个公开数据集中取得了较好的结果,在单向循环卷积的结构上超过了SOTA的EDFR、GOVSR、BasicVSR等方法。

参考文献:

[1] Tianfan Xue, Baian Chen, Jiajun Wu, Donglai Wei, and William T Freeman. Video enhancement with task-oriented flow. International Journal of Computer Vision, 127(8、:1106– 1125, 2019。

[2] Mehdi SM Sajjadi, Raviteja Vemulapalli, and Matthew Brown. Frame-recur

返回列表
上一篇:
下一篇:

文章评论