「4月30日」八篇(将)开源论文代码分享

整理:CV君


#CVPR 2021##无监督学习#

1、A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

Facebook

文章提出一项关于从视频中进行无监督时空表征学习的大规模研究。目标是鼓励在同一视频中具有时间持续性的特征,并在以下方面效果惊人:不同的无监督框架,预训练数据集,下游数据集,以及骨干架构。并且在研究中,作者还发现,即使时间跨度为 60 秒,鼓励长时间的坚持也是有效的。除了在多个基准中取得最先进的结果外,文中还报告了一些有期望的案例,在这些案例中,无监督的预训练可以胜过其有监督的对应方法。

已开源:
https://github.com/facebookresearch/SlowFast

论文:
https://arxiv.org/abs/2104.14558


#GAN##CVPR 2021#

2、Ensembling with Deep Generative Views

MIT&Adobe Research&CMU

已开源:
https://github.com/chail/gan-ensembling

论文:
https://arxiv.org/abs/2104.14551

主页:
https://chail.github.io/gan-ensembling/


#CVPR 2021##目标跟踪#

3、LightTrack: Finding Lightweight Neural Networks for Object Tracking via One-Shot Architecture Search

微软亚洲研究院&大连理工大学&中山大学&鹏城实验室

近年来的目标跟踪已获得了很大成功,但越来越先进的跟踪器也变得越来越沉重和昂贵,使得在资源有限的应用中部署受到限制。

针对上述挑战,作者在本次研究中,提出 LightTrack,它使用神经架构搜索(NAS)来设计更轻量级和高效的目标追踪器。综合实验表明,LightTrack是有效的。与手工制作的 SOTA 追踪器(如SiamRPN++和Ocean)相比,它可以找到性能优越的追踪器,而使用的模型 Flops 和参数要少得多。此外,当部署在资源受限的移动芯片上时,所发现的跟踪器运行得更快。

例如,在 Snapdragon 845 Adreno GPU 上,LightTrack 的运行速度比 Ocean 快12倍,而使用的参数减少 13倍,Flops 减少 38 倍。作者称这种改进可能会缩小学术模型和工业部署在物体跟踪任务中的差距。

将开源:
https://github.com/researchmm/LightTrack

论文:
https://arxiv.org/abs/2104.14545


#图像分类#

4、Discover the Unknown Biased Attribute of an Image Classifier

罗切斯特大学

提出一个新问题:在没有预设或标签的情况下寻找分类器的未知偏向属性。

针对上述问题,作者通过优化 total variation loss 和 orthogonalization penalty,提出解决方案。并通过综合实验证明,证明了该方法是有效的,可以在多个领域发现有偏见的属性。在附录中,还讨论了该方法的局限性,未来的方向,以及可以从这个新的未知偏向属性发现任务中受益的相关方法和领域。

将开源:
https://github.com/hubertlee915/discover_unknown_biases

论文:
https://arxiv.org/abs/2104.14556


#CVPR2021#

5、MongeNet: Efficient Sampler for Geometric Deep Learning

CSIRO&昆士兰科技大学

文章介绍了 MongeNet,是一种快速的、基于最优传输的采样器,可以对网格进行精确的离散化,并具有更好的近似特性。作者将该方法与无处不在的随机统一采样进行了比较,结果表明,近似误差几乎为一半,而计算开销却非常小。

已开源:
https://github.com/lebrat/MongeNet

论文:
https://arxiv.org/abs/2104.14554

主页:
https://lebrat.github.io/MongeNet/


#CVPR 2021##姿态估计#

6、3D Human Action Representation Learning via Cross-View Consistency Pursuit

上海交通大学

提出 Cross-view Contrastive Learning 框架,通过利用多视角互补的监督信号,实现无监督的 3D 骨架动作表示(CrosSCLR)。CrosSCLR 由单视角对比学习(SkeletonCLR)和跨视角一致知识挖掘(CVC-KM)模块组成,以协作学习的方式进行整合。值得注意的是,CVC-KM 的工作方式是,高置信度的正/负样本及其分布根据其嵌入的相似性在各视图之间进行交换,以确保在对比性背景方面的跨视图一致性,即相似的分布。实验表明,CrosSCLR 在 NTU-60 和 NTU-120 数据集的无监督环境下取得了显著的动作识别结果,并观察到更高质量的动作表征。

已开源:
https://github.com/LinguoLi/CrosSCLR

论文:
https://arxiv.org/abs/2104.14466


#热红外图像着色#

7、Thermal Infrared Image Colorization for Nighttime Driving Scenes with Top-Down Guided Attention

电子科技大学等

设计一个 top-down guided attention(自上而下的引导注意力)模块 和一个 corresponding attentional()损失来实现分层的注意分布,并利用上下文信息减少图像编码的局部语义模糊性。引入 structured gradient alignment(结构化梯度对齐)损失,来减少 NTIR2DC 任务中的边缘失真。用像素级的类别标签对 FLIR 和 KAIST数据集的一个子集进行标注,会促进对 NTIR 图像的色彩化和语义分割的研究。

作者称是首个提出评估 NTIR2DC 方法的语义和边缘保存的评价指标。在 NTIR2DC 任务上进行的广泛实验表明,所提出的模型在语义保存和边缘一致性方面明显优于其他图像翻译方法。

将开源:
https://github.com/FuyaLuo/PearlGAN/

论文:
https://arxiv.org/abs/2104.14374


#group re-id#

8、Learning Multi-Attention Context Graph for Group-Based Re-Identification

穆罕默德·本·扎耶德人工智能大学&上海交通大学&中山大学

本次工作考虑采用上下文信息来识别人群:group re-id。提出一个新的基于图神经网络的统一框架,以同时解决基于 group 的人员重识别任务,即 group re-id 和 group-aware 人员重识别。

具体来说,构建一个以群体成员为节点的情境图,利用不同人之间的依赖关系。开发一个多层次注意力机制,以制定 intra-group 和 inter-group 的情境,并通过关注节点级的特征,开发一个额外的 self-attention 模块,以实现鲁棒性的 graph-level 表示。

所提出的模型使用 graph-level 表示也可以直接泛化到来解决 group-aware 人员重识别。同时,为了促进深度学习模型在这些任务上的部署,建立了一个新的 group re-id 数据集,其中包含超过 3.8K 的图像和 1.5K 的标注群体,比现有的 group re-id 数据集要大一个数量级。

已开源:
https://github.com/daodaofr/group_reid

论文:
https://arxiv.org/abs/2104.14236

转载请注明:《「4月30日」八篇(将)开源论文代码分享