作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)
#Transformer#
Uniformer: Unified Transformer for Efficient Spatiotemporal Representation Learning
中科院&国科大&上海人工智能实验室&商汤&香港中文大学
从高维视频中学习丰富的、多尺度的时空语义是一项具有挑战性的任务,因为视频帧之间存在大量的局部冗余和复杂的整体依赖性。这一研究的最新进展主要由三维卷积神经网络和 vision transformers 来推动的。尽管三维卷积可以有效地聚合局部环境,以抑制来自小的三维邻域的局部冗余,但由于感受野的限制,缺乏捕捉全局依赖性的能力。另外,vision transformers 可以通过自注意机制有效地捕捉长距离的依赖性,而在每一层的所有标记之间进行盲目的相似性比较以减少局部冗余方面存在局限性。
基于上述发现,作者提出一个新的 Unified transFormer (UniFormer),它将三维卷积和时空自注意力的优点无缝整合在一个简洁的 transformer 格式中,并实现计算和准确性之间的最佳平衡。与传统的transformer不同,该关系聚合器通过在浅层和深层分别学习局部和全局的token affinity,可以同时解决时空冗余和依赖性问题。
作者在流行的视频基准上进行了广泛的实验,例如,Kinetics-400、Kinetics-600和Something V1&V2。仅仅通过ImageNet-1K的预训练,UniFormer在Kinetics-400/Kinetics-600上达到了82.9%/84.8%的top-1 准确率,而需要的GFLOPs比其他最先进的方法少10倍。对于Something V1和V2,UniFormer分别达到了60.9%和71.2%的 top-1精度。
将开源:https://github.com/Sense-X/UniFormer
论文:https://arxiv.org/abs/2201.04676

#自监督##人群计数#
S2FPR: Crowd Counting via Self-Supervised Coarse to Fine Feature Pyramid Ranking
复旦大学&宾夕法尼亚州立大学&中科院
本次的工作重点是利用从粗到细的金字塔特征的部分顺序来协助神经网络加强对未标记图像的定性识别。
具体来说,所提出的S2FPR,可以提取结构信息并学习隐空间中从粗到细的金字塔特征的部分顺序,以更好地对大量无标签图像进行人群计数。此外,收集了一个新的无标签人群计数数据集(FUDAN-UCC),总共有4,000张图像用于训练。一个意外收获是,S2FPR方法可以利用无标签图像中隐空间的众多 partial orders来加强模型表示能力,并减少人群计数任务的估计误差。
在UCF-QNRF、ShanghaiTech PartA和PartB以及UCF-CC-50四个基准数据集上进行的大量实验表明,与之前的半监督方法相比,所提出方法是有效的。
将开源:https://github.com/bridgeqiqi/S2FPR
论文:https://arxiv.org/abs/2201.04819

#检索#
BridgeFormer: Bridging Video-text Retrieval with Multiple Choice Questions
香港大学&ARC Lab&腾讯&Content Understanding Center&伯克利
近年来,预先训练一个模型来学习可迁移的视频-文本表征以进行检索引起了很多人的注意。以前的主流作品主要采用两个独立的编码器来实现高效检索,但忽略了视频和文本之间的局部关联。另一个研究方向是使用联合编码器将视频与文本进行交互,但由于每个文本-视频对都需要被送入模型,因此效率很低。
本次工作,通过一个新的预文本任务,Multiple Choice Questions (MCQ),实现细粒度的视频-文本互动,同时保持高效率的检索,其中一个参数模块BridgeFormer 被训练成通过诉诸视频特征来回答由文本特征构建的 “问题”。
具体来说,作者利用文本的丰富语义(即名词和动词)来构建问题,通过这些问题可以训练视频编码器来捕捉更多的区域内容和时间动态。在问题和答案的形式下,局部视频-文本特征之间的语义关联可以适当建立。BridgeFormer能够被移除用于下游检索,呈现出一个只有两个编码器的高效和灵活的模型。
将所提出方法在五个具有不同实验设置(零样本和fine-tune)的数据集中,包括HowTo100M(一百万个视频),在流行的文本到视频检索任务上的表现超过了最先进的方法。作者进一步进行了零样本动作识别,这可以被看作是视频到文本的检索,所提出方法也大大超过了其它方法。另外一个优点是在单一模式的下游任务上用更短的预训练视频取得了有竞争力的结果,例如,用线性评估的动作识别。
将开源:httpcs://http://geyuying.github.io/MCQ.html
论文:https://arxiv.org/abs/2201.04850

#弱监督##场景文本检测##强化学习#
Weakly Supervised Scene Text Detection using Deep Reinforcement Learning
波茨坦大学
具有挑战性的场景文本检测领域需要复杂的数据标注,既费时又费钱。技术上如弱监督,可以减少所需的数据量。
本次工作,作者提出一种用于场景文本检测的弱监督方法,它利用强化学习(RL)。强化学习agent收到的奖励是由神经网络估计的,而不是从ground-truth标签推断出来的。首先,通过一些训练优化来增强现有的监督RL方法,能够缩小与基于回归算法的性能差距。然后,在真实世界的数据上使用所提出的系统进行弱监督和半监督的训练。
结果表明,在弱监督环境下的训练是可行的。然而还发现,在半监督环境下使用所提出模型,例如,当把有标签的合成数据和没有标注的真实世界数据结合起来时,会产生最好的结果。
已开源:https://github.com/emanuel-metzenthin/RL-scene-text-detection
论文:https://arxiv.org/abs/2201.04866

#视图合成#
Stereo Magnification with Multi-Layer Images
三星(俄罗斯)&俄罗斯斯科尔科沃科学技术研究所
本次工作引入一种新的视图合成方法,它基于具有场景适应性几何的多个半透明层。所提出方法分两个阶段从 stereo pairs(立体图对)中推导出这种表征。第一阶段从给定的一对视图中推导出少量的数据适应层的几何形状。第二阶段推导出这些层的颜色和透明度值,产生新视图合成的最终表示。重要的是,这两个阶段都是通过一个可微的渲染器连接的,并且是以端到端的方式进行训练。
在实验中,作者证明了所提出的方法比使用不适应场景几何的规则间隔层的优势。尽管在渲染过程中速度快了几个数量级,也超过了最近提出的基于隐式几何表示的IBRNet系统。
将开源:https://github.com/SamsungLabs/StereoLayers
论文:https://arxiv.org/abs/2201.0502
转载请注明:《【1月14日】五篇(将)开源论文代码分享》