「6月4日」八篇(将)开源论文代码分享

作者 | CV君

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)


#CVPR 2021##深度估计#

1、Single Image Depth Estimation using Wavelet Decomposition

Univ Gustave Eiffel&Niantic

本次工作中,作者将 wavelet representation(小波表示)与深度学习相结合,用于单图像的深度预测任务。证明一个神经网络可以通过监督重建的深度图与现有的损失学习预测小波系数图。使用 KITTI 和 NYUv2 数据集的实验表明,可以使用与基线模型类似的编码器-解码器神经网络架构,但使用小波表示,达到与 SOTA 模型相当的分数。

已开源:
www.github.com/nianticlabs/wavelet-monodepth

论文:
https://arxiv.org/abs/2106.02022


#CVPR 2021##超分辨率#

2、Robust Reference-based Super-Resolution via C2-Matching

南洋理工大学&腾讯pcg

基于参考的超级分辨率(Ref-SR)是近期非常值得研究的一项任务,它是通过引入额外的高分辨率(HR)参考图像来增强低分辨率(LR)输入图像。现有的 Ref-SR 方法大多依赖于隐性的对应匹配,从参考图像中借用HR纹理来补偿输入图像的信息损失。但由于在输入和参考图像之间存在两个差距:transformation gap(转换差距(如比例和旋转))和分辨率差距(如HR和LR),会导致执行局部迁移变得困难。

方案:提出 C2-Matching,它可以跨过 transformation(变换)和分辨率,产生明确的鲁棒性匹配。具体来说,对于 transformation gap,提出 contrastive correspondence network(对比性对应网络),使用输入图像的增强视图来学习 transformation-robust 对应关系;对于分辨率差距,采用 teacher-student 关联蒸馏法,从较容易的 HR-HR 匹配中进行知识蒸馏,来指导较模糊的 LR-HR 匹配;最后,通过设计一个动态聚合模块来解决隐藏的错位问题。另外,为了更好对 Ref-SR 在现实环境下的性能进行评估,作者构建了 Webly-Referenced SR(WR-SR)数据集,它模拟了实际使用场景。

结果表明,在标准的 CUFED5 基准上,C2-Matching 明显优于现有技术水平,超过 1dB。值得注意的是,它在WR-SR 数据集上也显示出它极强的泛化能力,以及对大尺度和旋转变换的鲁棒性。

已开源:
https://github.com/yumingj/C2-Matching

论文:
https://arxiv.org/abs/2106.01863

主页:
https://yumingj.github.io/projects/C2_matching


#CVPR 2021##无监督域适应#

3、Generalized Domain Adaptation

NTT Corporation

许多无监督域适应(UDA)问题的变体已经被提出并进行单独解决。它的局限性在于,对一个变体有效的方法往往对另一个变体无效,甚至不适用,对于实际应用非常不友好。

作者将此类问题表示为 Generalized Domain Adaptation(GDA),它涵盖了作为特例的主要变体,可以更好的在一个全面的框架内对其进行组织。另外,这种泛化还引起一个具有挑战性的环境设置,这种情况下,现有方法往往都不可用,例如,当域标签是未知的,每个域的类标签只被部分地给予。 为此,作者提出新方法来应对,关键是自监督的 class-destructive 学习,它可以在不使用任何域标签的情况下学习 class-invariant 表示和 domain-adversarial 分类器。

在三个基准数据集上的实验表明,所提出方法在新环境中优于最先进的 UDA 方法,而且在现有的 UDA 变体中也具有竞争力。

已开源:
https://github.com/nttcslab/Generalized-Domain-Adaptation

论文:
https://arxiv.org/abs/2106.01656


#transformer##剪枝#

4、DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification

清华&加利福尼亚大学洛杉矶分校

提出 dynamic token sparsification 框架,可以根据输入对多余的 tokens 进行逐步地动态得剪枝。具体来说,作者设计一个轻量级的预测模块来估计每个 tokens 在当前特征下的重要性得分。并将该模块添加到不同的层中,以分层次地对多余的 tokens 进行剪枝。为通过端到端的方式对预测模块进行优化,提出 attention masking 策略,通过阻断一个 tokens 与其他 tokens 的相互作用,对其进行有区别的剪枝。 得益于 self-attention 性质,非结构化的稀疏 tokens 于硬件而言是友好的,因此该框架容易实现实际的速度提升。

通过分层剪枝 66% 的输入tokens,该方法大大减少了 31%~37% 的 FLOPs,提高了 40% 以上的吞吐量,而各种vision transformers 的精度下降在 0.5% 以内。配备动态 token 稀疏化框架,DynamicViT 模型与 ImageNet 上最先进的 CNN 和 vision transformers 相比,可以实现非常有竞争力的复杂性/准确性权衡。

已开源:
https://github.com/raoyongming/DynamicViT

论文:
https://arxiv.org/abs/2106.02034

主页:
https://dynamicvit.ivg-research.xyz/


#神经渲染#

5、NeRFactor: Neural Factorization of Shape and Reflectance Under an Unknown Illumination

麻省理工学院&谷歌

所要解决得问题是,从一个未知照明条件下的物体摆放的多视角图像中恢复物体的形状和空间变化的反射率。达到可以在任意环境照明下渲染物体的新视角,并编辑物体的材料属性。

方案:提出 Neural Radiance Factorization(NeRFactor),其关键思想是将物体的神经辐射场(NeRF)表示的体积几何学蒸馏成一个表面表示,然后在解决空间变化的反射率和环境照明的同时,共同完善几何形状。

具体来说,NeRFactor 在没有任何监督的情况下,只使用了重新渲染损失、简单的平滑度先验和从真实世界BRDF测量中学习的数据驱动的BRDF先验,恢复了表面法线、光线可见度、反照率和 BRDFs 的三维神经场。通过明确地对光的可见性进行建模,NeRFactor 能够将阴影与反照率分开,并在任意的照明条件下合成真实的软阴影或硬阴影。NeRFactor 能够恢复令人信服的三维模型,以便在这种具有挑战性和欠约束的捕捉设置中对合成和真实场景进行自由视点重照明。实验表明,NeRFactor 在各种任务中的表现优于经典和基于深度学习的技术水平。

已开源:
https://github.com/google/nerfactor

主页:
https://people.csail.mit.edu/xiuming/projects/nerfactor/

视频:
https://youtu.be/UUVSPJlwhPg

论文:
https://arxiv.org/abs/2106.01970


#视频分类##ICLR 2021#

6、CT-Net: Channel Tensorization Network for Video Classification

中科院&国科大&SIAT&中佛罗里达大学

文中构建一个高效的张量可分离卷积来学习鉴别性的视频表征。将输入特征的通道维度看作是K个子维度的乘法,并沿K个子维度堆叠空间/时间张量可分离卷积。CT-模块与张量激发机制合作,可以进一步提高性能。实验验证得出CT-Net 在大规模视频数据集上获得了准确性和效率之间的理想平衡。

已开源:
https://github.com/Andy1621/CT-Net

论文:
https://arxiv.org/abs/2106.01603


#GAN##图像合成##图像编辑#

7、Barbershop: GAN-based Image Compositing using Segmentation Masks

阿卜杜拉国王科技大学&迈阿密大学

对于 GANs 可以合成逼真的头发或人脸,这项工作已非常成熟,但要将它们组合成一个单一的、连贯的、可信的图像,而不是一组不连贯的 image patches,仍具挑战性。

本次工作,作者提出基于 GAN逆映射的方法来解决 image blending,特别是针对发型迁移的问题。所提出的新的隐空间可以更好地保留细节和编码空间信息;新的 GAN-embedding 算法可以稍微修改图像以符合共同的分割掩码;新的表示法可以从多个参考图像中迁移视觉属性,包括痣和皱纹等具体细节,而且由于在隐空间中进行image blending,因此能够合成一致的图像。避免了其他方法中存在的 blending artifacts,并找到一个全局一致的图像。

实验结果表明,在一项用户研究中,所提出方法比目前的 SOTA 方法有了明显的改进,用户在 95% 以上的时间里喜欢所提出的 blending 方案。

将开源:
https://github.com/ZPdesu/Barbershop

主页:
https://zpdesu.github.io/Barbershop/

视频:
https://www.youtube.com/watch?v=ZU-yrAvoJfQ

论文:
https://arxiv.org/abs/2106.01505


#旋转目标检测#

8、Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence

上交&国科大&北京理工大学&华为

不同于当前大多数目标检测文献,本文作者从头开始为旋转检测设计一个新的回归损失,并将主流的水平检测作为其特例。在 DOTA 上进行了评估,它包含了相当多的类别,复杂的场景。其中单尺度模型 RetinaNet-KLD-R50 和R3Det-KLD-R50 分别达到 75.28% 和 77.36%,优于多尺度模型。通过大骨架和多尺度测试,所提出方法进一步实现了最先进精度 80.63%。

已开源:
https://github.com/yangxue0827/RotationDetection

论文:
https://arxiv.org/abs/2106.01883

转载请注明:《「6月4日」八篇(将)开源论文代码分享