【12月3日】十一篇(将)开源论文代码分享

作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)

#Transformer##目标跟踪#

SwinTrack: A Simple and Strong Baseline for Transformer Tracking

华南理工大学&鹏城实验室&北得克萨斯州大学&石溪大学

文章提出一种完全基于注意力的 Transformer 跟踪算法,Swin-Transformer Tracker(SwinTrack)。SwinTrack 使用 Transformer 进行特征提取和特征融合,允许目标物体和搜索区域之间的充分互动,以进行跟踪。

为了进一步提高性能,作者对特征融合、位置编码和训练损失的不同策略进行了全面的研究。使SwinTrack成为一个简单而坚实的基线。在实验中,SwinTrack 在LaSOT 上以 0.717 的 SUC 创造了新的记录,超过了 STARK 的 4.6%,同时仍以45FPS运行。此外,它在其他具有挑战性的LaSOText、TrackingNet和GOT-10k上实现了0.483 SUC、0.832 SUC和0.694 AO的先进性能。

已开源:github.com/LitingLin/Sw

论文:arxiv.org/abs/2112.0099

 

 


#医学图像分析##对抗攻击#

FIBA: Frequency-Injection based Backdoor Attack in Medical Image Analysis

西北工业大学&悉尼大学&京东

近年来,人工智能系统的安全问题引起了越来越多的研究关注,特别是在医学影像领域。为了开发一个安全的医学图像分析(MIA)系统,必须研究后门攻击(BAs),它可以将隐藏的恶意行为嵌入到系统中。但由于成像模式(如X射线、CT和MRI)和分析任务(如分类、检测和分割)的多样性,设计一种可应用于各种 MIA 系统的统一的 BA 方法具有挑战性。大多数现有的 BA 方法被设计为攻击自然图像分类模型,应用空间触发器训练图像,不可避免地会破坏中毒像素的语义,引起攻击密集预测模型的失败。

为此,作者提出 Frequency-Injection based Backdoor Attack(FIBA)方法,可以在各种 MIA 任务中提供攻击。具体来说,FIBA 利用频域中的触发函数,通过线性组合两幅图像的频谱振幅,可以将触发图像的低频信息注入中毒图像中。由于它保留了中毒图像像素的语义,FIBA可以对分类和密集预测模型进行攻击。

在 MIA 的三个基准(即用于皮肤病变分类的 ISIC-2019、用于肾脏肿瘤分割的KiTS-19 和用于内窥镜伪影检测的 EAD-2019)上的实验,验证了 FIBA 的有效性以及它在攻击 MIA 模型以及绕过后门防御方面比最先进的方法更有优势。

将开源:github.com/HazardFY/FIB

论文:arxiv.org/abs/2112.0114

 

 


#知识蒸馏##视觉识别#

A Fast Knowledge Distillation Framework for Visual Recognition

CMU & MBZUAI

本次研究中,作者提出 Fast Knowledge Distillation(FKD)框架,它复制了蒸馏训练阶段并使用 multi-crop KD 方法生成软标签。同时,由于没有使用 RoI 对齐和softmax 操作等后处理,所以训练速度比 ReLabel 快。在同一图像中进行multi-crop 的数据加载时,FKD甚至比传统的图像分类框架更有效率。

在ImageNet-1K上,用ResNet-50获得了79.8%的成绩,比ReLabel的成绩好了~1.0%,同时速度更快。同样在自监督学习任务上,也证明了 FKD 具有效率优势。

已开源github.com/szq0214/FKD

论文:arxiv.org/abs/2112.0152

 

 


#Transformer##图像分割#

Masked-attention Mask Transformer for Universal Image Segmentation

FAIR&UIUC

本文提出一个通用于图像分割的框架 Mask2Former。Mask2Former 建立在一个简单的元框架和一个使用所提出 masked 注意力的新的 Transformer 解码器上,在四个流行的数据集上的所有三个主要图像分割任务(全景、实例和语义)中获得了最好的结果,甚至超过了为每个基准设计的最好的专门模型,同时保持容易训练。

并与为每个任务设计专门的模型相比,Mask2Former 节省了3倍的研究工作,而且计算资源有限的用户也可以使用它。

已开源github.com/facebookrese

论文:arxiv.org/abs/2112.0152

 

 


#视频分类##Transformer##目标检测#

Improved Multiscale Vision Transformers for Classification and Detection

FAIR&伯克利

本文研究了多尺度 Vision Transformers(MViT)作为图像和视频分类以及目标检测的统一架构。提出一个改进版的 MViT,包含了分解的相对位置嵌入和残余池连接。用五种规模对这一架构进行了示例说明,并对其在 ImageNet 分类、COCO 检测和 Kinetics 视频识别方面的表现进行了评估,结果优于先前的工作。

又进一步比较了 MViTs 的集合注意力和窗口注意力机制,它在准确性/计算量方面优于后者。在没有特别设计情况下,MViT 在 3 个领域具有最先进的性能。如在ImageNet分类中的准确率为88.8%,在 COCO 目标检测中的 AP 值为 56.1 box,在 Kinetics-400 视频分类中的准确率为 86.1%。

已开源:github.com/facebookrese

github.com/facebookrese

论文:arxiv.org/abs/2112.0152

 

 


#密集预测#

DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

清华&MBZUAI&CMU&牛津&PhiGent Robotics

本次研究工作,通过隐性和显性地利用 CLIP 的预训练知识,提出一个新的密集预测框架。具体来说,将 CLIP 中的原始图像-文本匹配问题转换为像素-文本匹配问题,并使用像素-文本得分图来指导密集预测模型的学习。通过进一步利用图像的上下文信息来提示语言模型,能够促进所提出模型更好地利用预训练的知识。该方法是模型无关的,可以应用于任意密集预测系统和各种预训练的视觉骨干,包括 CLIP 模型和ImageNet 预训练的模型。并通过实验验证了所提出方法在语义分割、目标检测和实例分割任务上的卓越性能。

已开源:github.com/raoyongming/

论文:arxiv.org/abs/2112.0151

 

 


#语义分割#

TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic Segmentation

湖南大学&阿里

文章中提出一个自上而下的无监督语义分割框架,它直接利用从 ImageNet 诱导出的语义信息,以免标注的方式解决细粒度分割的问题。并设计一个有效的机制,成功地将从 SSL 获得的高层次语义特征迁移到低层次的像素特征中,从而产生高质量的细粒度分割结果。实验表明,所提出方法在各种语义分割基准上达到了最先进的水平,包括 MSCOCO, Pascal-VOC, Cityscapes 和 LIP。

已开源github.com/damo-cv/Tran

论文:arxiv.org/abs/2112.0151

 

 


#Transformer#

Self-supervised Video Transformer

石溪大学&澳大利亚国立大学&MBZUAI&林雪平大学

文章中提出使用无标签的视频数据对视频Transformer进行自监督训练。从一个给定的视频,创建具有不同空间大小和帧率的局部和全局时空视图。自监督目标是使这些代表同一视频的不同视图的特征相匹配,以便不受行动的时空变化影响。作者所提出的方法是第一个在自监督视频 Transformer(SVT)中减轻对负样本或专用存储库的依赖。

此外,由于 Transformer 模型的灵活性,SVT 使用动态调整的位置编码,在一个架构内支持慢-快的视频处理,并支持沿着时空维度的长期关系建模。并在四个动作识别基准(Kinetics-400、UCF-101、HMDB-51和SSv2)上表现良好,并且在小批量时收敛更快。

将开源:github.com/kahnchana/sv

论文:arxiv.org/abs/2112.0151

 

 


#神经渲染#

Efficient Neural Radiance Fields with Learned Depth-Guided Sampling

浙江大学

本文的研究目的是减少可泛化 radiance fields (辐射场)的渲染时间。

近期的一些工作为辐射场配备了图像编码器,并可以在不同的场景中进行泛化,避免了每个场景的优化。然而,其渲染过程通常非常缓慢。一个主要因素是在推断辐射场时在空旷的空间中采样了很多点。

作者提出一种混合场景表示,它结合了隐式辐射场和显式深度图的优点,以实现高效渲染。具体来说,首先建立级联成本体,以有效地预测场景的粗略几何。粗略的几何形状允许对场景表面附近的几个点进行采样,并显著提高渲染速度。这个过程是完全可微的,能够仅从RGB图像中联合学习深度预测和辐射场网络。

实验表明,所提出的方法在DTU、Real Forward-facing和NeRF Synthetic数据集上表现出最先进的性能,同时比以前的可泛化辐射场方法至少快50倍。还证明了所提出方法能够实时合成动态人类表演者的自由视点视频。

将开源:zju3dv.github.io/enerf/

论文:arxiv.org/abs/2112.0151


#三维视觉#

Recognizing Scenes from Novel Viewpoints

RAIR&密歇根大学

文章所提出的 ViewSeg,是一种端到端的方法,只需从 4 个输入视图中学习场景的三维表示。ViewSeg 使模型能够用以前未见过的新场景的目标视点查询其学习的三维表示,以预测该视点的语义和深度,而不需要获得该视点的任何视觉信息(如RGB)。并通过广泛的定量和定性分析对该工作的局限性进行了讨论。以及作者相信这是提出的一个非常有前途的方向,即从二维数据中学习三维,在未来的工作中具有很大的潜力。

将开源:jasonqsy.github.io/view

论文:arxiv.org/abs/2112.0152

 

 


#自监督##AAAI 2022#

InsCLR: Improving Instance Retrieval with Self-Supervision

多点DMALL&美团&蚂蚁集团&阿里

文章提出一种新的SSL方法,InsCLR,它是建立在实例级的约束性学习上,用于实例检索。有别于现有的通常从图像级对比中学习的SSL方法。InsCLR 可以通过在训练过程中从mini-batches和记忆库中动态地挖掘信息性阳性来学习类内不变性。广泛的实验表明,InsCLR在实例检索方面可以达到与有监督方法相当的性能。

已开源github.com/zeludeng/ins

论文:arxiv.org/abs/2112.0139

转载请注明:《【12月3日】十一篇(将)开源论文代码分享