作者 | Salted Fish
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)

作者单位:麦克马斯特大学
论文:https://arxiv.org/pdf/2102.13011.pdf
看点
近年来,大量的视频增强研究致力于同时提高时间帧速率和空间分辨率,这些方法要么不能揭示时空信息之间的内在联系,要么在最终的时空分辨率的选择上缺乏灵活性。本文主要贡献如下:
- 提出了一种无约束的时空视频超分网络(USTVSRNet),该网络综合了SOTA单阶段和两阶段方法的优点,同时避免了它们的缺点。
- 介绍了几种新的机制,包括整合图像级和特征级信息以提高中间帧的质量、推广pixelshuffle layer以增加上采样因子的自由度、生成规模感知特征以使网络更具适应性。
USTVSRNet能够在单个模型上按任意因子进行上采样。实验结果表明,该方法优于两阶段的SOTA方法,且计算量显著降低。

方法
overview
USTVSRNet的总体结构如下图所示,它主要由4个子网络组成:帧内插网络(FINet)、特征提取网络、增强网络(EnhanceNet)和重构网络。

首先,由FINet基于相邻帧(和
)和双向光流(
和
)构造LR中间帧
。然后通过特征提取器分别从
、
和
生成特征
、
和
。接下来,通过增强网络将特征
增强到
,最后,
馈入重建网络产生超分辨率帧
。
帧内插网络和特征提取器
首先,利用轻型光流估计网络PWCNet估计双向流和
,然后它们传递到反向流动层,以预测反向流
和
。具体的说:

式中,,FR表示反向流操作;
可按类似方式计算,然后合成为:

其中B是由CNN生成的混合掩模,g(·)表示翘曲函数。特征提取器由若干个卷积层和残差块组成。
增强网络
如下图所示,增强网络的目标有三:1)利用源帧特征和
以及双向光流
和
去预测中间帧特征
;2) 在特征级对生成的参考帧进行细化以减轻误差积累问题,因为第一阶段得到的预测
往往会有很多伪影;3)在
和
的指导下,将源帧融合到中间帧,以便更好地重建。

其中M表示通过从
和
提取的运动特征。
重建网络
重建网络是以残差密集网络为主干设计的。本文提出GPL来替换SPL,以使得用任意比例因子s向上采样低分辨率特征成为可能。此外,本文使用提出的SARDB替换每K个RDB中的一个,它能够生成比例自适应特征并对整体性能作出积极贡献。 GPL:提出GPL来解决SPL缺乏灵活性的问题。SPL和GPL的目标是将大小为的输入特征转换成大小为
的输出特征,但是在SPL中s不允许为分数,且
必须等于
,但在GPL中可以是任意正整数。对于SPL,特征映射如下:

对于GPL,特征映射为:

其中,是预先确定的通道位置,
表示由一个小型的全连接网络预测的自适应偏移量,该网络以
作为输入。每个3D输出位置都与一个
相关联,从而总共生成
个偏移量。在
不是整数的情况下,可以使用线性插值函数来计算采样值
:

通过这样的设计,中间特征映射上的采样位置()能够沿通道方向移动,从而对所需的特征进行采样,下图为例:

提出的GPL不仅实现了特征映射的无约束上采样,而且能够自由指定中间特征映射的通道维数;
如果令,
,
,GPL则退化为SPL。综上可以得出本文提出的GPL是SPL的一个推广版本,具有更多的自由度,可以进行有益的探索。
在本文的实现中,,
初始化为0,并设置全连接层的学习速率为与全局学习速率相同。
尺度注意剩余稠密块:Learning for scale-arbitrary…一文中提出SR网络生成的特征可分为尺度无关特征和尺度相关特征,后者应适应不同的尺度。然而尺度感知模块仅仅建立在空间注意机制上,没有使用通道注意。基于这一观察,本文提出的SARDB更彻底地利用可用的自由度,如下图所示:

LFF输出的特征F被馈入到几个卷积层中,分别生成空间注意图和通道注意图
。然后使用尺度感知卷积将特征F转换为尺度相关特征
。最后,将上、下两个分支的结果进行融合,得到尺度自适应特征。
无约束STVSR实验
本文探讨了在不同目标时间t和上采样倍数s下的性能,设置t在0到1之间变化,步长为0.125,s在1到4之间变化,步长为0.5。
在实现过程中,分别设置K=4,。
损失函数
使用损失和感知损失来训练网络。对于
损失,采用Charbonnier函数来优化损失函数并设置
。感知损失通常利用从预先训练的网络中提取的多尺度特征图来量化差异。
本文采用VGG-16作为预训练网络,并使用前三个阶段中每个阶段最后一层的特征图来测量差异(即Conv1_ 2、Conv2_2和Conv3_3),公式如下:

其中是上述三个特征映射对应
,
对应于
。总损失如下:

λ为平衡因子,实验得出 λ=0.04时效果最佳。
数据集
Adobe-240数据集由133个手持录制视频组成,每个视频的帧速率为240fps,空间分辨率为720×1280。从这个集合中,随机选取103个视频来构建训练数据集。该集合是通过连续地将每9个连续帧分组,并将它们调整为360×640以形成训练序列。
由此,总共获得了10895个序列。LR帧是从HR帧通过双三次下采样生成的。从LR帧中随机裁剪大小为56×56的图像块进行训练。水平/垂直翻转以及时间顺序反转用于数据扩充。
训练策略
在训练阶段,随机选择t和s构建每个训练批。单个批次内的图像块共享相同的t和s。采用Adam优化器,批次大小为18,其中和
分别设置为默认值0.9和0.999。总共训练30个epochs,初始学习率设置为
,第20个epoch时学习率减少了10倍。
量化评估
下图为不同s和t值时的PSNR量化图,红线为STVSR。

下图为模型大小和运行时间方面的方法比较。

消融实验
有无FINet或者EnhanceNet。

在不同的尺度上对比SPL和GPL。

强制,命名为FG-RDN,对于通道注意力的消融实验如下。

固定时空实验
在这个部分中,t只能在{0,0.5,1}之间变化,s被设置为4,这意味着网络只能对视频分别进行×2和×4倍的时间和空间分辨率的上采样。采用Vimeo90K作为数据集,其他设置与上节相同,量化评估如下。

转载请注明:《一个不限制插值个数和上采样倍数的视频增强方法》