【1月26日】九篇(将)开源论文代码分享

作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)

#动作识别#

Capturing Temporal Information in a Single Frame: Channel Sampling Strategies for Action Recognition

本次工作解决了在不增加计算成本的情况下为2D网络的视频分类捕捉时间信息的问题。

具体来说,作者提出两种新的 video channel(视频通道)采样策略:TC Reordering 和 GrayST。前者对 RGB 通道重新排序以增加时间信息,后者使用灰度图像来使用更多的帧,从而增加 temporal receptive field(时间感受野)。方法虽然简单,但在多个具有挑战性的数据集上的性能得到了明显的提升。

重要的是,这些采样策略能够在不增加计算成本或需要对底层网络结构进行任何修改的情况下,显著提高现有轻量级视频网络的性能。

已开源:github.com/kiyoon/PyVid

论文:arxiv.org/abs/2201.1039

 

 


#关键点检测##医学图像#

Comparison of Evaluation Metrics for Landmark Detection in CMR Images

海德堡大学附属医院等

心脏磁共振(CMR)图像已广泛用于心脏诊断和心室评估。提取特定的关键点,如右心室 insertion points(插入点),对空间排列和三维建模非常重要。多个小组利用深度学习解决了此类关键点的自动检测问题,但相对而言,对这一领域评价指标的失败案例关注得很少。

本次工作用右心室插入点的额外标签扩展公共数据集,ACDC,并比较了基于热图的关键点检测管道的不同变体。并展示了表面上简单的检测和定位指标非常可能存在的陷阱,突出明确的检测策略和基于定位指标的上限定义的重要性。

初步结果表明,不同指标的组合是必要的,因为它们在方法比较中得到不同的优势。此外,还强调了全面的指标描述和评估标准化的必要性,特别是对于无法计算指标或不存在指标的下限/上限的错误情况。

将开源:github.com/Cardio-AI/rv

论文:arxiv.org/abs/2201.1041

 

 


#Transformer#

ShapeFormer: Transformer-based Shape Completion via Sparse Representation

深圳大学&伦敦大学学院&希伯来大学&以色列特拉维夫大学

ShapeFormer,一个基于Transformer的网络,在不完整的、可能是有噪声的点云条件下,生成一个物体完成度分布。然后可以对结果分布进行采样,以产生可能的完成度,每个完成度都表现出合理的形状细节,同时真实输入。为了便于使用三维Transformer,引入一个紧凑的三维表示,即 vector quantized deep implicit function(矢量量化的深度隐函数),利用空间稀疏性来表示一个由离散变量短序列组成的三维形状的近似值。

实验证明,ShapeFormer在完成质量和多样性方面都优于现有技术,可以从模糊的部分输入中完成形状。还表明,所提出方法可以有效地处理各种形状类型、不完整的模式和现实世界的扫描。

将开源:github.com/qheldiv/shap

论文:arxiv.org/abs/2201.1032

 

 


#Transformer##图像分类#

Convolutional Xformers for Vision

孟买理工学院

Vision transformers(ViTs)在某些基准上具有最先进的准确性,但在处理图像方面的实际用途有限。它们使用有限的原因包括与卷积神经网络(CNN)相比,需要更大的训练数据集和更多的计算资源,是因为它们的自注意机制的二次复杂性。

本次工作提出一个线性注意力:卷积混合架构,Convolutional X-formers for Vision(CXV),用来克服上述挑战。用线性注意机制取代二次注意,如Performer、Nyströmformer和Linear Transformer,以减少其GPU的使用。图像数据的归纳先验由卷积子层提供,从而消除了对ViTs使用的类标记和位置嵌入的需要。

还提出一种新的训练方法,在训练的不同阶段使用两种不同的优化器,并表明它能在不同的架构中提高前1名的图像分类精度。在数据和GPU资源(内核、内存、功率)有限的情况下,CXV在图像分类方面优于其他架构、标记混合器(如ConvMixer、FNet和MLP混合器)、Transformer模型(如ViT、CCT、CvT和混合Xformers)以及ResNets。

已开源:github.com/pranavphoeni

论文:arxiv.org/abs/2201.1027

 

 


#无人机##目标定位##Transformer#

A Transformer-Based Feature Segmentation and Region Alignment Method For UAV-View Geo-Localization

Cross-view geo-localization(跨视角地理定位)是一项从不同视角(如无人驾驶飞行器(UAV)和卫星)匹配同一地理图像的任务。最困难的挑战是位置移动以及距离和尺度的不确定性。

现有方法主要是为了挖掘更全面的细粒度信息。然而,低估了提取鲁棒特征表示的重要性和特征对齐的影响。基于CNN的方法在跨视角地理定位中取得了巨大的成功。然而,它仍然有一些局限性,例如,它只能提取邻域的部分信息,而且一些缩小比例的操作会使一些细粒度的信息丢失。

为此,本文引入一个简单高效的基于 Transformer 的结构,Feature Segmentation and Region Alignment(FSRA),以增强模型理解上下文信息的能力,以及理解实例的分布。在不使用额外的监督信息的情况下,FSRA根据Transformer 特征图的热量分布来划分区域,然后将不同视图中的多个特定区域一对一地对齐。最后,FSRA将每个区域整合为一组特征表示。不同的是,FSRA不是手动划分区域,而是根据特征图的热度分布自动划分。这样,当图像中存在明显的移位和比例变化时,特定的实例仍然可以被划分和对齐。此外,还提出一种多重采样策略,以克服卫星图像和其他来源的图像在数量上的差距。

实验表明,所提出的方法在无人机视图目标定位和无人机导航这两项任务中都有卓越的表现,并达到了最先进的水平。

已开源:github.com/Dmmm1997/FSR

论文:arxiv.org/abs/2201.0920

 

 


#图像分类##GAN#

Adaptive DropBlock Enhanced Generative Adversarial Networks for Hyperspectral Image Classification

中国海洋大学&密西西比州立大学

文章提出用于 HSI 分类的自适应 DropBlock-enhanced Generative Adversarial Networks(ADGAN)。首先,为了解决训练数据不平衡的问题,将判别器调整为单一的分类器,并且它不会自相矛盾。其次,提出一个自适应 DropBlock(AdapDrop),作为发生器和判别器中采用的正则化方法,以缓解模式崩溃问题。AdapDrop 生成了具有自适应形状的drop掩码,而不是一个固定大小的区域,它缓解了DropBlock在处理具有各种形状的地面物体时的局限性。

在三个HSI数据集上的实验结果表明,所提出的ADGAN取得了比最先进的基于GAN的方法更好的性能。

将开源:github.com/summitgao/HC

论文:arxiv.org/abs/2201.0893

 

 


#RGBT跟踪#

Temporal Aggregation for Adaptive RGBT Tracking

文中提出一个考虑时间信息的自适应 RGBT 追踪器(TAAT)。在有限的可用RGBT数据的限制下,跨模式融合任务由一个自适应和轻量级的融合子网络(DFM)在决策层面实现。此外,考虑到时间线索对视频分析的重要意义,作者将外观模型的构建从只包含空间信息扩展到空间-时间方式(TIAM)。在VOT-RGBT2019、GTOT和RGBT210几个基准上的详尽实验,证明了所提出方法的有效性和优势。

将开源:github.com/Zhangyong-Ta

论文:arxiv.org/abs/2201.0894

 

 


#视觉表征学习##小样本学习##图像检索#

Visual Representation Learning with Self-Supervised Attention for Low-Label High-data Regime

滑铁卢大学&亚马逊

本次工作成功地将自监督的注意力适应于低标签高数据体系中的两个重要的计算机视觉任务:小样本学习和零样本图像检索。

并证明 SSL-ViTs 可以从完全没有标签的数据中捕捉到更好的语义,并且在五个公共数据集中提高了最先进的性能。

已开源:github.com/AutoVision-c

论文:arxiv.org/abs/2201.0895

 

 


#图像合成#

FedMed-GAN: Federated Multi-Modal Unsupervised Brain Image Synthesis

萨里大学&南方科技大学&腾讯&Bielefeld University&电子科技大学

本文建立了一个新的联合多模态无监督脑图像合成的基准(称为FedMed-GAN),以弥补联合学习和医学GAN之间的差距。此外,基于多模态神经影像数据的边缘信息的相似性,提出一种新的边缘损失,以解决FedMed-GAN的生成模式崩溃问题,并缓解差异性隐私导致的性能下降。与所建立的基准中显示的最先进的方法相比,新型边缘损失可以在不牺牲不同的非配对数据分布设置下显著加快生成器收敛率。

将开源:github.com/FedMed-Meta/

论文:arxiv.org/abs/2201.0895

转载请注明:《【1月26日】九篇(将)开源论文代码分享