「5月11日」九篇(将)开源论文代码分享

整理:CV君


#Transformer##自监督学习#

1、Self-Supervised Learning with Swin Transformers

清华&西安交通大学&微软亚洲研究

提出以 Vision Transformers 作为骨干架构的自监督学习方法:MoBY,是 MoCo v2 和 BYOL 的结合,经过调整,在 ImageNet-1K 的线性评估上达到了合理的高准确率。通过 300 个周期的训练,使用 DeiT-S 和 Swin-T,分别达到 72.8% 和 75.0% 的 top-1 精度。其性能略优于近期采用 DeiT 为骨干的 MoCo v3 和 DINO 的作品,但其技巧更轻便。

更值得注意是,多功能的 Swin Transformer 骨干可以在下游任务(如目标检测和语义分割)上评估所学到的表征,与最近一些建立在 ViT/DeiT 上的方法相反,由于 ViT/DeiT 没有被驯服用于这些密集的预测任务,因此只能在ImageNet-1K 上报告线性评估结果。

作者称希望该结果可以促进对为 Transformer 架构设计的自监督学习方法进行更全面的评估。

已开源:
https://github.com/SwinTransformer/Transformer-SSL

论文:
https://arxiv.org/abs/2105.04553


#CVPR 2021##视频理解#

2、Stochastic Image-to-Video Synthesis using cINNs

海德堡大学&瑞尔森大学&Vector Institute for AI&Samsung AI Centre Toronto

本次工作,作者引入一个新模型用于 image-to-video 合成,该模型基于视频域和图像域之间的双向转换,实例化为 cINN,再加上残差信息。概率性的残差表示允许在视频中以相同的初始帧进行采样和合成新的、合理的进展。此外,该框架允许纳入额外的控制因素来指导 image-to-video 合成过程。在四个不同的视频数据集上进行了实证评估并与强大的基线进行了比较,证明了随机 image-to-video 合成方法的功效。

将开源:
https://github.com/CompVis/image2video-synthesis-using-cINNs

论文:
https://arxiv.org/abs/2105.04551

主页:
https://compvis.github.io/image2video-synthesis-using-cINNs/


#半监督人脸识别#

3、Boosting Semi-Supervised Face Recognition with Noise Robustness

澳大利亚国立大学&京东&香港中文大学

首次尝试将噪声标签学习和半监督学习结合起来,用于深度人脸识别,并在广泛的基准上具有领先的准确性。

将开源:
https://github.com/liuyvchi/NROLL

论文:
https://arxiv.org/abs/2105.04431


#医学图像配准#

4、Generative Adversarial Registration for Improved Conditional Deformable Templates

纽约大学&麻省理工学院

已开源:
https://github.com/neel-dey/Atlas-GAN

主页:
https://www.neeldey.com/deformable-templates/

论文:
https://arxiv.org/abs/2105.04349


#视觉跟踪##Transformer#

5、TrTr: Visual Tracking with Transformer

东京大学学者提出一种基于强大注意力机制的新型跟踪器网络:Transformer 编码器-解码器架构,以获得全局和丰富的上下文相互依赖关系。在新的架构中,template image(模板图像)的特征由编码器部分的自注意模块处理,可以学习到强大的上下文信息,然后将其发送到解码器部分,以计算与另一个自注意模块处理的搜索图像特征的交叉注意。此外,设计了分类和回归头,使用 Transformer 的输出,基于状无关的锚进行定位目标。在 VOT2018、VOT2019、OTB-100、UAV、NfS、TrackingNet 和 LaSOT基准上广泛评估了该追踪器 TrTr,与最先进的算法相比表现良好。

已开源:
https://github.com/tongtybj/TrTr

论文:
https://arxiv.org/abs/2105.03817


#航空影像##图像检索#

6、A Novel Triplet Sampling Method for Multi-Label Remote Sensing Image Search and Retrieval

柏林工业大学

学习遥感(RS)图像之间的相似性是基于内容的RS图像检索(CBIR)的基础。最近,将图像的语义相似性映射到一个嵌入空间的深度度量学习方法在RS中非常流行。学习度量空间的常见方法依赖于选择类似(正)和不类似(负)图像的 triplets(三联体),以作为锚的参考图像。而选择 triplets(三联体)是一项艰巨的任务,特别是对于多标签 RS CBIR 来说,每个训练图像都有多个类别标签。

为了解决这个问题,作者在深度神经网络(DNNs)的框架内提出一种新的三联体采样方法,该方法是针对多标签RS CBIR 问题而定义的。所提出的方法基于两个主要步骤,选择一小部分最具代表性和信息量的三联体。在第一步中,使用迭代算法从当前的小批量中选择一组在嵌入空间中彼此不同的锚点。在第二步中,通过评估相关度、困难度和基于新的排名策略的图像之间的多样性,为每个锚选择不同的正面和负面图像集。

在两个多标签基准上获得的实验结果表明,在 DNN 的背景下,选择信息量最大和最有代表性的三联体的结果是:i)减少 DNN 训练阶段的计算复杂性,而对性能没有任何重大损失;

ii)提高学习速度,因为信息量大的三联体允许快速收敛。

已开源:
https://git.tu-berlin.de/rsim/image-retrieval-from-triplets

论文:
https://arxiv.org/abs/2105.03647


#自动驾驶##图像分割#

7、Video Class Agnostic Segmentation with Contrastive Learningfor Autonomous Driving

阿尔伯塔大学&Wayve

提出一种新方法,利用具有语义和时间指导的对比学习来学习视频类别无关的分割。与图像级的对比学习不同,所提出的变体更适合于视频序列中的像素级预测任务。在 Carla 中提供了不同的模拟驾驶场景,并在自动驾驶中生成了一个大规模的合成数据集,用于进行视频类不可知分割任务的控制实验。不同于之前在自主驾驶中识别未知物体的工作,作者对训练和测试期间被标记为未知的物体之间的关系进行了分析,以评估任务难度。

已开源:
https://github.com/MSiam/video_class_agnostic_segmentation

论文:
https://arxiv.org/abs/2105.03533


#超分辨率##遥感影像#

8、Unsupervised Remote Sensing Super-Resolution via Migration Image Prior

武汉大学&武汉工程大学&阿肯色大学

文章提出一个全新的无监督学习框架:MIP”,可以在没有低/高分辨率图像对的情况下实现了 SR 任务。首先,将随机噪声图通过一个设计好的生成对抗网络(GAN)进行重建。然后,所提出的方法将参考图像转换为隐空间作为迁移图像的先验。最后,通过隐式方法更新输入噪声,并进一步迁移参考图像的纹理和结构化信息。在 Draper 数据集上的大量实验结果表明,MIP 在数量上和质量上都比最先进的方法有了明显的改进。

已开源:
https://github.com/jiaming-wang/MIP

论文:
https://arxiv.org/abs/2105.03579


#文本识别###

9、ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text Spotting

华南理工大学&阿德莱德大学

在本次工作中,作者先是使用 Bezier curves(贝塞尔曲线)引入一种新的简明参数化的曲线场景文本表示法。与标准的边界框表示法相比,它引入的计算开销可以忽略不计。提出一个新的特征对齐方法:BezierAlign,因此,识别分支可以与整体结构无缝连接。通过共享骨干特征,识别分支可以被设计成一个轻量级的结构,以实现高效的推理。ABCNet v2 的检测模型通过考虑双向多尺度金字塔全局文本特征,在处理多尺度文本实例方面更加通用。作者称本次所提出方法是首个能够以 single-shot 方式同时检测和识别水平、多方向和任意形状文本的框架,同时保持实时推理速度。

而为了进一步加快推理速度,作者还利用了模型量化的技术,并证明 ABCNet v2 可以达到更快的推理速度,而准确率仅有微小的下降。而在各种基准上的综合实验表明,所提出的 ABCNet v2 在准确性和速度方面具有最先进的文本识别性能。

已开源:
https://github.com/aim-uofa/AdelaiDet/

论文:
https://arxiv.org/abs/2105.03620

转载请注明:《「5月11日」九篇(将)开源论文代码分享