CVPR 2021 速览 | 旷视研究院入选学术成果盘点

本文转载自旷视研究院。

日前,CVPR 2021论文接收情况正式出炉。此次,旷视研究院共入选论文22篇,其中Oral论文2篇,研究领域涵盖激活函数、神经网络、神经网络架构搜索、光流估计、无监督学习、人体姿态估计、目标检测等。

据官方消息,本届大会大约接收到7015篇有效投稿,其中有5900篇进入了决策流程,最终共1663篇论文被接收,接收率约为23.7%。与CVPR 2020相比,今年的有效投稿率和接收率都有所上升。

在恭喜旷厂小伙伴喜提中选的同时,为了帮大家第一时间查阅所关注领域的研究成果,我们整理了此次旷视研究院入选论文的摘要精选,分享给大家。

学术成果来袭,一起先睹为快吧

1

 

Neural Architecture Search with Random Labels

现有的主流NAS算法通过子网络在验证集上的预测性能来进行模型搜索,但是在参数共享机制下,验证集上的预测性能和模型真实性能存在较大的差异。我们首次打破了这种基于预测性能进行模型评估的范式,从模型收敛速度的角度来进行子网络评估并假设:模型收敛速度越快,其对应的预测性能越高。

基于模型收敛性框架,我们发现模型收敛性与图像真实标签无关,便进一步提出使用随机标签进行超网络训练的新NAS范式-RLNAS。RLNAS在多个数据集(NAS-Bench-201,ImageNet)以及多个搜索空间(DARTS,MobileNet-like)进行了验证,实验结果表明RLNAS仅使用随机标签搜索出来的结构便能达到现有的NAS SOTA的水平。RLNAS初听比较反直觉,但其出乎意料的好结果为NAS社区提出了一组更强的基线,同时也进一步启发了对NAS本质的思考。

关键词:神经网络架构搜索,模型收敛性假设,随机标签

https://arxiv.org/abs/2101.11834

2

 

Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation

目前人体姿态估计算法都是使用的热力图回归来得到最后的关节点。这些方法通常使用固定标准差的二维高斯核覆盖所有骨架关键点来构造真实热力图,并使用真实热力图来监督模型。由于不同人的关节点的真实热力图都是使用同一高斯核来构造,所以这一方法没有考虑不同人的尺度区别,会造成标签的歧义性,影响模型效果。

本论文提出了一种尺度自适应热力图回归,可以根据人体大小自适应生成构造标签所需的标准差,从而使得模型对不同尺度的人体更加鲁棒;并提出权重自适应回归平衡正负样本,进一步挖掘尺度自适应热力图回归效果。本论文最终在自底向上人体姿态估计中取得了目前最先进性能。

关键词:人体姿态估计、自底向上、自适应热力图回归

https://arxiv.org/abs/2012.15175

https://github.com/greatlog/SWAHR-HumanPose

3

 

General Instance Distillation for Object Detection

GID提出了一种基于检测任务的新型蒸馏方法。通过从teacher和studnet中分别提取general instance (GI),并提出GISM模块自适应选择差异大的instance进行feature-based、relation-based以及response-based蒸馏。本方法首次将关系型知识蒸馏应用于检测框架,且将蒸馏目标从独立考虑的正负样本蒸馏统一为更本质GI蒸馏,过程中不依赖于GT,且达到SOTA。

关键词:目标检测,知识蒸馏

https://arxiv.org/abs/2103.02340

4

 

Activate or Not: Learning Customized Activation

我们提出一种新的激活函数ACON (activate or not),可以自适应地学习激活与否。ACON建立了ReLU和Swish的联系:我们发现虽然两者形式很不一样,但Swish是ReLU的一种平滑形式。基于这个发现,我们进而提出更多变体,如meta-acon,相比于SENet取得了两倍的无cost涨点。我们在多个任务上验证了这个简洁有效的激活函数的泛化性能。

关键词:激活函数、神经网络

https://arxiv.org/abs/2009.04759

5

 

You Only Look One-level Feature

在本文中,我们首先分析了FPN在单阶段检测器RetinaNet中的作用,通过实验发现FPN中将不同尺度的物体分配到不同层级检测的分治思想对检测结果影响很大。从优化角度来说,该思想将检测中的优化问题分解,使得优化学习变得更为简单,提高了检测精度。然而,FPN基于多层级特征的设计使得检测方法的网络结构变得复杂、引入了额外的计算量、并且拖慢了检测的速度。为了避免上述几个问题,本文提出在单层级上对所有尺度的物体进行检测;同时,针对单层级特征检测中难以优化的问题,提出了空洞编码器与均衡匹配的解决方案。

本文提出的基于单层级特征的检测器YOLOF,在只使用C5特征的情况下,其检测精度也能与基于FPN的RetinaNet相当,同时检测速度是RetinaNet的2.5倍。另外,与同样只使用C5特征的DETR相比,YOLOF能在收敛速度更快的情况下(7x)达到与之相当的性能。

关键词:单阶段目标检测、单尺度特征、检测速度与精度平衡

https://arxiv.org/abs/2103.09460

https://github.com/megvii-model/YOLOF

6

 

Points as Queries: Weakly Semi-supervised Object Detection by Points

在不增加标注成本的条件下,提升检测器的性能,是本文研究的目标。本文选择少量边界框辅以大量点标注的方式训练检测器。选择点标注是因其信息丰富:包含实例的位置和类别信息,同时标注成本低。本文通过将点编码器扩展至DETR的方式,提出Point DETR,整体框架为:通过边界框数据训练Point DETR;将点标注编码为查询,预测伪框;通过边界框和伪框数据,训练学生模型。在COCO数据集上,仅使用20%完全标注的数据,我们的检测器可达33.3AP,超过基线2.0AP。

关键词:目标检测,半监督,弱监督

7

 

Practical Wide-Angle Portraits Correction with Deep Structured Models

广角镜头因其广阔的视野而备受喜爱,但存在镜头畸变和透视失真问题,表现为背景线条弯曲、人脸拉伸挤压倾斜等。为此,本文构建了一个由线校正网络,人脸校正网络和过渡模块组成的级联去畸变网络,使得背景呈现透视投影而人脸区域呈现立体投影,并且在两个区域平滑过渡,从而在保持FOV的同时消除各种畸变。本方法不需要相机参数,可达到实时,定性和定量评估均超越了现有方法。

关键词:广角人像畸变校正,深度级联网络

8

 

UPFlow:Upsampling Pyramid for Unsupervised Optical Flow Learning

我们提出了一种新的无监督光流学习方法UPFlow。我们发现目前的无监督光流方法在多尺度金字塔处理中有两个问题:flow上采样过程中存在插值模糊的问题和多尺度flow缺乏监督的问题。对此,我们提出来一种自引导的上采样模块,利用了一个插值flow和一个插值map来改变上采样插值的机制,从而实现了更加精细的上采样。另外,我们提出来将网络的最终输出结果作为伪标签来监督多尺度flow的学习。基于这些改进,我们的方法能够得到更加清晰、锐利的光流结果。我们在多个光流基准数据集上进行了实验,包括Sintel、KITTI 2012和KITTI 2015。UPFlow的性能比目前最好的无监督光流算法超出了约20%。

关键词:光流估计、无监督学习

https://arxiv.org/abs/2012.00212

9

 

NBNet: Noise Basis Learning for Image Denoising with Subspace Projection

NBNet是一种解决图像降噪问题的框架。我们以一种新颖的观点来解决这个问题:图像自适应的投影。具体来说,我们学习一组特征空间上的子空间,图像降噪可以通过选择合适的信号子空间并往该子空间上投影来完成。相比于以往一卷到底的网络结构,NBNet通过投影,能自然且更高效地提取和利用图像中的结构信息,特别是弱纹理区域,以此来帮助我们复原图像。通过这样简单的方式,NBNet以更少的计算量在DND和SIDD两个benchmark上拿到了SOTA。

关键词:图像降噪,子空间

https://arxiv.org/abs/2012.15028

10

 

Dynamic Metric Learning: Towards a Scalable Metric Space to Accommodate Multiple Semantic Scales

该工作将度量学中一个重要的属性“动态范围”引入到深度度量学习,从而得到一个新的任务叫做“动态度量学习”。我们发现,以往的深度度量其实只蕴含一个刻度,例如仅仅区分人脸、行人是相似还是不相似。这样的量具无论多精确,在实际使用中都是灵活不足、用途有限的。实际上,我们日常的量具通常具有动态范围,例如尺子总是有多个刻度(例如1mm、1cm乃至10cm)来测量不同尺度的物体。我们认为,深度度量学习领域已经到了需要引入动态范围的时候了。因为,视觉概念本身就有着不同的大小,“动物”、“植物”都对应大尺度,而“麋鹿”却对应相对较小的尺度。在小尺度下,两只麋鹿可能看上去很不一样,但是在另一个大尺度下,同样两只麋鹿却应该被认为非常相似。

为此,我们提出了这个动态度量学习任务,它要求学到一个单独的度量空间,能够同时为语义大小不同的视觉概念提供相似性度量。此外,我们还构建了三个多尺度数据集,并提出了一个简单的基准方法。我们相信,动态范围将成为深度度量学习不可或缺的属性,并为深度度量学习整个领域带来新的视角和新的应用场景。

11

 

oral论文

Fully Convolutional Networks for Panoptic Segmentation

本文旨在使用全卷积形式统一地表达和预测物体和周边环境,从而实现准确高效的全景分割。具体来说,本文提出卷积核生成器将每个物体和每类环境的语义信息编码至不同的卷结核中,并同高分辨率的特征图卷积直接输出每个前景和背景的分割结果。通过这种方法,物体和环境的个体差异和语义一致性可以被分别保留下来。该方法在多个全景分割数据集上均取得速度和精度的当前最佳结果。

关键词:统一表达,动态卷积,全景分割

arxiv: https://arxiv.org/abs/2012.00720

github: https://github.com/yanwei-li/PanopticFCN

12

 

oral论文

FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation

FFB6D提出一种网络全流双向融合的RGBD表征学习框架并应用于6D位姿估计问题。我们发现现有的表征学习方法都没能很好地利用RGB中的外观信息和深度图(点云)中的几何信息这两种互补的数据源。

对此,我们设计了一种双向稠密融合模块并应用到CNN和点云网络的每个编码和解码层。这种全流双向融合机制能让两个网络充分利用彼此提取的局部和全局互补信息,从而获得更好的表征用于下游预测任务。此外,在输出表征选择上,我们结合物品的纹理和几何信息设计了一种SIFT-FPS关键点选择算法,简化了网络定位关键点的难度并提升了位姿精度。我们的方法在多个基准上都获得显著的提升。并且这种RGBD表征学习骨干网络能通过级联不同的预测网络,应用在更多以RGBD为输入的视觉任务上。

关键词:RGBD表征学习,3D视觉,6D位姿估计

PDF: https://arxiv.org/abs/2103.02242

code: https://github.com/ethnhe/FFB6D

13

 

RepVGG: Making VGG-style ConvNets Great Again

科学技术总是螺旋式地上升。我们“复兴”了VGG式单路极简卷积神经网络架构,一路3×3卷到底,在速度和性能上达到SOTA水平,在ImageNet上超过80%正确率。

为了克服VGG式架构训练困难的问题,我们使用结构重参数化(structural re-parameterization)在训练时的模型中构造恒等映射和1×1卷积分支,然后在训练结束后将其等效融合进3×3卷积中去,因而推理时模型仅包含3×3卷积。这一架构没有任何分支结构,因此其并行度很高,速度很快。且由于主体部分仅有“3×3-ReLU”这一种算子,特别适合用于定制硬件。

关键词:结构重参数化,极简架构,高效模型

https://arxiv.org/abs/2101.03697

14

 

Dynamic Region-Aware Convolution

本文提出一种新的卷积操作—-动态区域注意卷积(DRConv: Dynamic Region-Aware Convolution),该卷积可以根据特征相似度为不同平面区域分配定制的卷积核。这种卷积方式相较于传统卷积极大地增强了对图像语义信息多样性的建模能力。标准卷积层可以增加卷积核的数量以提取更多的视觉元素,但会导致较高的计算成本。DRConv使用可学习的分配器将逐渐增加的卷积核转移到平面维度,这不仅提高了卷积的表示能力,而且还保持了计算成本和平移不变性。

DRConv是一种用于处理语义信息分布复杂多变的有效而优雅的方法,它可以以其即插即用特性替代任何现有网络中的标准卷积,且对于轻量级网络的性能有显著提升。本文在各种模型(MobileNet系列,ShuffleNetV2等)和任务(分类,面部识别,检测和分割)上对DRConv进行了评估,在ImageNet分类中,基于DRConv的ShuffleNetV2-0.5×在46M计算量的水平下可实现67.1%的性能,相对基准提升6.3%。

https://arxiv.org/abs/2003.12243

15

 

Diverse Branch Block: Building a Convolution as an Inception-like Unit

我们提出一种卷积网络基本模块(DBB),用以丰富模型训练时的微观结构而不改变其宏观架构,以此提升其性能。这种模块可以在训练后通过结构重参数化(structural re-parameterization)等效转换为一个卷积,因而不引入任何额外的推理开销。

我们归纳了六种可以此种等效转换的结构,包括1×1-KxK连续卷积、average pooling等,并用这六种变换给出了一种代表性的形似Inception的DBB实例,在多种架构上均取得了显著的性能提升。我们通过实验确认了“训练时非线性”(而推理时是线性的,如BN)和“多样的链接”(比如1×1+3×3效果好于3×3+3×3)是DBB有效的关键。

关键词:结构重参数化,无推理开销,无痛提升

16

 

Generalized Few-Shot Object Detection without Forgetting

过去的工作大都聚焦在小类样本类别性能而牺牲了大类样本的性能。本文提出一种无遗忘效应的小类样本目标检测器,能够在实现更好的小类样本类别性能的同时,不掉落大类样本类别的性能。在本文中,我们发现了预训练的检测器很少在未见过的类别上产生假阳性预测,且还发现RPN并非理想的类别无关组件。基于这两点发现,我们设计了Re-detector和Bias-Balanced RPN两个简单而有效的结构,只增加少量参数和推断时间即可实现无遗忘效应的小类样本目标检测。

关键词:小样本学习,目标检测

17

 

Distribution Alignment: A Unified Framework for Long-tail Visual Recognition

本文提出了一个处理含有长尾数据分布的视觉识别任务的统一框架。我们首先针对现有的处理长尾问题的两阶段的方法进行了实验分析,找出现有方法主要的性能瓶颈。基于实验分析,我们提出了一种分布对齐策略来系统性解决长尾视觉任务。

该框架基于两阶段方法设计,在第一阶段,使用instance-balanced 采样策略进行特征表示学习(representation learning)。在第二阶段,我们首先设计了一个input-aware的对齐函数,以实现对输入数据的得分进行矫正。同时,为了引入数据集分布的先验,我们设计了一个泛化重加权(Generalized Re-weight)方案, 来处理图像分类,语义分割,物体检测和实例分割等多种视觉任务场景。我们在四个任务上验证了我们的方法,在各个任务上均取得了明显的性能提升。

关键词:图像分类,语义分割,物体检测,实例分割

18

 

End-to-End Object Detection with Fully Convolutional Network

本文首次在全卷积目标检测器上去除了NMS(非极大值抑制)后处理,做到了端到端训练。我们分析了主流一阶段目标检测方法,并发现传统的一对多标签分配策略是这些方法依赖NMS的关键,并由此提出了预测感知的一对一标签分配策略。此外,为了提升一对一标签分配的性能,我们提出了增强特征表征能力的模块,和加速模型收敛的辅助损失函数。我们的方法在无NMS的情况下达到了与主流一阶段目标检测方法相当的性能。在密集场景上,我们的方法的召回率超过了依赖NMS的目标检测方法的理论上限。

关键词:端到端检测,标签分配,全卷积网络

https://arxiv.org/abs/2012.03544

19

 

OTA: Optimal Transport Assignment for Object Detection

我们提出了一种基于最优传输理论的目标检测样本匹配策略,利用全局信息来寻找最优样本匹配的结果,相对于现有的样本匹配技术,具有如下优势:1). 检测精度高。全局最优的匹配结果能帮助检测器以稳定高效的方式训练,最终在COCO数据集上达到最优检测性能。2). 适用场景广。现有的目标检测算法在遇到诸如目标密集或被严重遮挡等复杂场景时,需要重新设计策略或者调整参数,而最优传输模型在全局建模的过程中包括了寻找最优解的过程,不用做任何额外的调整,在各种目标密集、遮挡严重的场景下也能达到最先进的性能,具有很大的应用潜力。

关键词:目标检测、最优传输、样本匹配策略

20

 

IQDet: Instance-wise Quality Distribution Sampling for Object Detection

由于一阶段检测器的标签分配有静态、没有考虑目标框的全局信息等不足,我们提出了一种基于目标质量分布采样的目标检测器。在本文中,我们提出质量分布编码模块QDE和质量分布采样模块QDS,通过提取目标框的区域特征,并基于高斯混合模型来对预测框的质量分布进行建模,来动态的选择检测框的正负样本分配。本方法只涉及训练阶段标签分配,就可以在COCO等多个数据集上实现当前最佳结果。

关键词:标签分配

21

 

FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding

论文提出的FSCE方法旨在从优化特征表示的角度去解决小样本物体检测问题。小样本物体检测任务中受限于目标样本的数目稀少,对目标样本的分类正确与否往往对最终的性能有很大的影响。FSCE借助对比学习的思想对相关候选框进行编码优化其特征表示,加强特征的类内紧凑和类间相斥,最后方法在常见的COCO和Pascal VOC数据集上都得到有效提升。

关键词:小样本目标检测,对比学习

论文链接:https://arxiv.org/abs/2103.05950

转载请注明:《CVPR 2021 速览 | 旷视研究院入选学术成果盘点