【9月28日】十篇(将)开源论文代码分享

#对抗攻击#
Two Souls in an Adversarial Image: Towards Universal Adversarial Example Detection using Multi-view Inconsistency
堪萨斯大学&俄克拉荷马大学

文中提出一个对抗性图像检测器,Argos。并观察到,无论攻击方法或扰动程度如何,一个对抗性实例总是包含两个内在矛盾的 “灵魂”:视觉上没有变化的内容和不可见的扰动,它们分别对应于真实和对抗性标签。作者采用生成模型来构建视图以放大固有的差异,然后设计一个基于多视图不一致的对手检测器。

实验结果表明,Argos 对六种代表性的攻击,包括低扰动和白盒攻击,实现了80.7%的平均攻击检测率(在0.95TNR下)和0.934的AUROC得分。

已开源github.com/sohaib730/Ar
论文:arxiv.org/abs/2109.1245

#行人重识别#
Hard-sample Guided Hybrid Contrast Learning for Unsupervised Person Re-Identification
北京邮电大学

HHCL,全称 Hard-sample Guided Hybrid Contrast Learning,将聚类级损失与实例级损失相结合,用于无监督的人的重新识别。该方法应用聚类中心点对比损失来确保网络以更稳定的方式更新。同时,引入 hard 实例对比损失,进一步挖掘鉴别性信息。在两个流行的大规模Re-ID基准上进行的广泛实验表明,HHCL优于以前最先进的方法,并显著提高了无监督的人员 Re-ID 的性能。

将开源:github.com/bupt-ai-cz/H
论文:arxiv.org/abs/2109.1233

#多视角检测#
Bringing Generalization to Deep Multi-view Detection
CVIT, KCIS IIIT Hyderabad

本次工作的主要贡献是在概念上强调了 MVD 中泛化的重要性,是对其实际可用性的关键关注。此外,提出新的实验设置来正式评估 MVD 方法的泛化能力。并证明,在预训练、特征聚合策略、正则化和损失函数方面的最小但细微的变化可以显著提高最先进的MVD方法的泛化能力。以及展示了在场景和配置泛化方面超过20%的惊人改进,为实用的MVD铺平了道路。

已开源github.com/jeetv/GMVD
论文:arxiv.org/abs/2109.1222

#小样本图像分类#
Disentangled Feature Representation for Few-shot Image Classification
南洋理工大学&香港城市大学

DFR,全称 Disentangled Feature Representation,用于小样本学习应用。DFR 可以自适应地将分类分支建模的鉴别性特征与变异分支的类别无关的部分解耦。一般来说,大多数流行的深度几率学习方法都可以作为分类分支插入,因此 DFR 可以提高它们在各种几率任务上的性能。此外,还提出一个基于 DomainNet 的新型 FS-DomainNet 数据集,用于衡量几率域泛化任务的基准。

DFR 在一般和细粒度的小样本分类以及小样本域泛化,使用了相应的四个基准,即 mini-ImageNet, tiered-ImageNet, CUB 以及提出的FS-DomainNet。得益于有效的特征分解,基于DFR的小样本分类器在所有数据集上都取得了最先进的结果。

将开源:github.com/chengcv/DFRF
论文:arxiv.org/abs/2109.1254

#Transformer##小样本学习#
Sparse Spatial Transformers for Few-Shot Learning
南京大学

SSFormers,全称 Sparse Spatial Transformers,一个全新的基于 Transformer 的神经网络架构,可以找到任务相关的特征,并抑制任务不相关的特征。

具体来说,首先将每个输入图像划分为几个不同大小的 image patches(图像斑块),以获得密集的局部特征。这些特征在表达局部信息的同时保留了上下文信息。然后,提出一个稀疏的空间 transformer 层来寻找查询图像和整个支持集之间的空间对应关系,以选择任务相关的图像斑块并抑制任务不相关的图像斑块。最后,提出一个 image patch matching(图像补丁匹配)模块,计算密集的局部表征之间的距离,以确定查询图像在支持集中属于哪个类别。

在流行的小样本学习基准上进行的广泛实验表明,所提出方法达到了最先进的性能。

已开源github.com/chenhaoxing/
论文:arxiv.org/abs/2109.1293

#动作检测##图卷积网络##GCPR 2021#
Fusion-GCN: Multimodal Action Recognition using Graph Convolutional Networks
科布伦茨-兰道大学

Fusion-GCN,一种使用图卷积网络(GCNs)进行多模态动作识别的方法。基于 GCNs 的动作识别方法近期在基于骨架的动作识别方面取得了最先进的性能。通过 Fusion-GCN,将各种传感器数据模式整合到一个图中,该图使用GCN 模型训练,用于多模式动作识别。额外的传感器测量数据被纳入到图的表示中,无论是在通道维度(引入额外的节点属性)还是在空间维度(引入新的节点)。Fusion-GCN 在两个公开的数据集上进行了评估,即UTD-MHAD-和MMACT数据集,并展示了RGB序列、惯性测量和骨架序列的灵活融合。

结果:在UTD-MHAD数据集上以及在大规模的MMACT数据集上,通过融合骨架估计和加速度计测量,基线提高了12.37%(F1-Measure)。

已开源github.com/mduhme/fusio
论文:arxiv.org/abs/2109.1294

#任意方向目标检测#
A General Gaussian Heatmap Labeling for Arbitrary-Oriented Object Detection
北京理工大学&特拉华大学

GGHL,全称 General Gaussian Heatmap Labeling,一种新的 AOOD 方法。具体来说,提出一种无锚的目标适应性标签分配(OLA)策略,用来定义基于二维(2-D)定向高斯热图的积极候选者,该热图反映了任意方向目标的形状和方向特征。在OLA的基础上,开发一个定向包围盒(ORB)表示组件(ORC),用于表示ORB,并通过神经网络学习自适应地调整高斯中心先验权重以适应不同目标的特征。此外,设计一个具有面积归一化和动态置信度加权的联合优化损失(JOL),以完善不同子任务的错位优化结果。

在公共数据集上进行的广泛实验表明,所提出的 GGHL 以较低的参数调整和时间成本提高了 AOOD 的性能。此外,它普遍适用于大多数 AOOD 方法,以提高其性能,包括嵌入式平台上的轻量级模型。

将开源:github.com/Shank2358
论文:arxiv.org/abs/2109.1284

#MRI重建##图像重建#
Self-Supervised Learning for MRI Reconstruction with a Parallel Network Training Framework
中科院&国科大&鹏城实验室等

问题:从欠采样的K空间数据中进行图像重建在加速MR数据的获取方面发挥着重要作用,最近有很多基于深度学习的方法被利用。尽管取得了鼓舞人心的成果,但这些方法的优化通常依赖于完全采样的参考数据,而这些数据收集起来很费时,而且很难。

方案:提出一种新的自监督学习方法。具体来说,在模型优化过程中,通过从欠采样数据中随机选择部分K空间数据来构建两个子集,然后将其输入两个并行的重建网络来进行信息恢复。在所有扫描的数据点上定义了两个重建损失,以提高网络恢复频率信息的能力。同时,为了约束网络中学习到的未扫描的数据点,设计一个差异损失来强制两个平行网络之间的一致性。通过这种方式,重建模型可以只用未采样的数据进行适当训练。在模型评估过程中,未采样数据被视为输入,两个训练好的网络中的任何一个都有望重建出高质量的结果。提出的方法很灵活,可以在任何现有的基于深度学习的方法中使用。该方法的有效性在一个开放的大脑MRI数据集上进行了评估。

结果:实验结果表明,与相应的监督学习方法相比,所提出的自监督方法在高加速率(4和8)下可以获得有竞争力的重建性能。

已开源github.com/chenhu96/Sel
论文:arxiv.org/abs/2109.1250

#Transformers##WACV 2022##事件识别#
PETA: Photo Albums Event Recognition using Transformers Attention
阿里达摩院

个人相册中的事件识别是一个高层次的语义任务,它包含了低层次和高层次的图像内容理解,以及相册图像聚合。本次工作结合效率和实际限制,提出一个高效而简单的解决方案,利用预先训练好的图像特征提取器。在三个突出的基准上明显优于已知的SotA。例如,在ML-CUFED数据集上,实现了90.09%的mAP,比以前Sot提高了7%。并进一步证明 transformers 结构能够处理带有不相关图像的可变长度的图像集合。此外,还表明transformers能够以无监督的方式学习图像重要性预测。作者称该方法可以在个人照片应用中实际使用,也可以利用基于图像内容的主观评分,而不需要具体的标注。

将开源:github.com/Alibaba-MIIL
论文:arxiv.org/abs/2109.1249

Data, Assemble: Leveraging Multiple Datasets with Heterogeneous and Partial Labels
浙江大学&约翰斯·霍普金斯大学
将开源:github.com/MrGiovanni/D
论文:arxiv.org/abs/2109.1226

转载请注明:《【9月28日】十篇(将)开源论文代码分享