「6月7日」七篇(将)开源论文代码分享

作者 | CV君

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)

Transformer 浓度极高!


#CVPR 2021##超分辨率#

1、MASA-SR: Matching Acceleration and Spatial Adaptation for Reference-Based Image Super-Resolution

港中文&快手&思谋科技

基于参考的图像超分辨率通过利用外部参考图像进行恢复高频细节方面取得了成功。其中纹理细节是根据它们的point- 或 patch-wise 对应关系从参考图像迁移到低分辨率(LR)图像。因此,高质量的对应关系匹配是至关重要的。现有的 RefSR 方法往往忽略了 LR 和 Ref 图像之间隐藏的巨大分布差异,使得信息利用的有效性降低。

本次工作中,作者提出用于 RefSR 的新方法:MASA 网络,设计两个新的模块来解决上述问题。所提出的 Match (匹配)和 Extraction(提取)模块通过一个从粗到细的对应匹配方案大大降低了计算成本。Spatial Adaptation(空间适应)模块用来学习 LR 和 Ref 图像之间的分布差异,并以空间适应的方式将参考特征的分布 remaps(重新映射)为 LR特征的分布。以此更加鲁棒地处理不同的参考图像。大量的定量和定性实验验证了所提出的模型的有效性。

已开源:
https://github.com/dvlab-research/MASA-SR

论文:
https://arxiv.org/abs/2106.02299

「6月7日」七篇(将)开源论文代码分享

#Transformers##视频目标分割#

2、Associating Objects with Transformers for Video Object Segmentation

百度&浙江大学&悉尼科技大学

获得第三届大规模视频目标分割挑战赛的1赛道(视频目标分割)第一名。

研究目的:如何实现更好、更有效的嵌入学习,以解决具有挑战性的多目标场景下半监督视频目标分割问题。

挑战:当前最先进方法是用单一正面目标来学习解码特征,而在多目标场景下必须对每个目标进行单独的匹配和分割,需消耗多倍的计算资源。

方案:提出 Associating Objects with Transformers(AOT)来统一匹配和解码多个目标。具体来说,AOT 采用一种识别机制,将多个目标关联到同一个高维嵌入空间。因此,可以同时处理多个目标的匹配和分割解码,就像处理单个目标一样高效。设计一个 Long Short-Term Transformer 来构建分层匹配和传播,可以更充分的模拟多目标关联。

在多目标和单目标基准上进行实验,以考察具有不同复杂性的 AOT 变体网络。AOT-L 在三个流行的基准上超过了所有的 SOTA 方法,即 YouTube-VOS(83.7% J&F)、DAVIS 2017(83.0%)和 DAVIS 2016(91.0%),并保持更好的多目标效率。同时,AOT-T 可以在上述基准上保持实时多目标速度。在第三届大规模视频目标分割挑战赛中排名第一。

将开源:
https://github.com/z-x-yang/AOT

论文:
https://arxiv.org/abs/2106.02638

「6月7日」七篇(将)开源论文代码分享

#Transformers#

3、Semantic Correspondence with Transformers

延世大学&高丽大学

提出全新的成本聚合网络:Cost Aggregation with Transformers(CATs),寻找语义相似图像之间的密集对应关系,以应对大的类内外观和几何变化所带来的额外挑战。 与以前的手工制作或基于 CNN 的方法相比,解决成本汇总阶段,这些方法要么缺乏对严重变形的鲁棒性,要么继承了 CNN 的局限性,即由于接受区域有限而无法分辨出不正确的匹配。CATs 在一些架构设计的帮助下,探索初始相关图之间的 global consensus,可以充分利用自注意机制的潜力。具体来说,包括外观亲和力模型,消除初始相关图和多级聚合,受益于基于 Transformer 的聚合器内的分层特征表示,并与交换自注意和残差连接相结合,不仅强制执行一致的匹配,而且缓解学习过程。

实验验证了所提出方法的有效性。

将开源:
https://github.com/SunghwanHong/CATs

论文:
https://arxiv.org/abs/2106.02520

「6月7日」七篇(将)开源论文代码分享

#无人机跟踪##遥感图像#

4、ADTrack: Target-Aware Dual Filter Learning for Real-Time Anti-Dark UAV Tracking

同济大学学者提出一种具有防暗功能的新型跟踪器(ADTrack)。所提出的方法将一个高效的低照度图像增强器整合到一个基于 CF 的跟踪器中。此外,凭借图像的光照变化,还同时产生了一个目标感知的掩码。目标感知掩码可用于联合训练以目标为重点的滤波器,该滤波器可协助上下文滤波器进行鲁棒性跟踪。具体来说,ADTrack 采用双重回归,在双重过滤器的学习中,上下文过滤器和以目标为中心的过滤器相互制约。

在典型的黑暗场景基准上进行了详尽的实验,包括来自权威基准的 37 个典型夜间序列,即 UAVDark 和所新构建的基准 UAVDark70。结果表明,ADTrack 的性能优于其他最先进的跟踪器,在单个 CPU 上实现了 34 帧/秒的实时速度,大大扩展了对夜间场景的强大无人机跟踪。

已开源:
https://github.com/vision4robotics/ADTrack

论文:
https://arxiv.org/abs/2106.02495

「6月7日」七篇(将)开源论文代码分享

#实例分割#

5、SOLQ: Segmenting Objects by Learning Queries

旷视研究员提出一个用于实例分割的端到端框架:SOLQ,是基于近期所提出的 DETR,通过学习统一的查询来分割目标。在 SOLQ 中,每个查询代表一个对象,并有多种表现形式:class, location 和 mask。所学的目标查询以统一的矢量形式同时进行分类、box regression 和掩码编码。

实验结果表明,SOLQ 超过了大多数现有的方法,实现了新的 SOTA。此外,统一查询表示法的联合学习可以极大地提高原始 DETR 的检测性能。作者称希望 SOLQ 可以作为基于 Transformer 实例分割的一个强有力的基线。

已开源:
https://github.com/megvii-research/SOLQ

论文:
https://arxiv.org/abs/2106.02351

「6月7日」七篇(将)开源论文代码分享

#几何深度学习##网格处理#

6、Subdivision-Based Mesh Convolution Networks

清华&卡迪夫大学

提出一个新的深度学习框架,SubdivNet,用于网格上的三维几何学习。SubdivNet 的核心是一个通用和灵活的网格卷积,使用网格金字塔结构进行有效的特征聚合。

首先利用自参数化对输入网格进行重新网格化,使其具有 Loop 细分序列的连接性。以此可以在输入形状上构建一个定义良好的、统一的网格层次结构。然后,使用网格卷积算子,支持用户指定的核大小、跨度和扩张。池化和上采样也自然得到细分连接的支持。使得著名的二维图像 CNN 可以直接应用于网格学习。

在网格分类、分割、correspondence 以及从现实世界检索的实验证明了 SubdivNet 的有效性和效率。

已开源:
https://github.com/lzhengning/SubdivNet

论文:
https://arxiv.org/abs/2106.02285

「6月7日」七篇(将)开源论文代码分享

#Transformer#

7、Glance-and-Gaze Vision Transformer

约翰斯·霍普金斯大学&上海交通大学

GG-Transformer,为适应视觉任务的 Transformers 提供一个高效的解决方案。其灵感来自于人类如何向世界学习,配备平行和互补的 Glance 分支和 Gaze分支,分别提供长期关系和短期模型。两个分支可以专注于自己的任务并相互协作,使得视觉任务的 ViT 设计更加高效。并在各种架构和基准上的实验验证了 GG-Transformer 的优势。

将开源:
https://github.com/yucornetto/GG-Transformer

论文:
https://arxiv.org/abs/2106.02277

「6月7日」七篇(将)开源论文代码分享

转载请注明:《「6月7日」七篇(将)开源论文代码分享