【11月10日】五篇(将)开源论文代码分享

作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)

 

#目标检测#

Does Thermal data make the detection systems more reliable?

文中提出一种多模式协作(MMC)方法,利用热数据和RGB数据来提高检测器在不同光照和天气条件下的通用性。对 MMC 和三种不同的技术在两个不同的RGB-Thermal数据集(FLIR和KAIST)上进行了详细的分析。

得出 MMC不仅在白天和晚上都能提供一致的准确性,而且还能提高对自然腐败和有针对性的对抗性攻击的鲁棒性。并且对解决方案的优点和局限性都提供了一个客观全面的看法,可以帮助社区根据应用要求做出明智的决定。

已开源github.com/NeurAI-Lab/M

论文:arxiv.org/abs/2111.0519

 

 


#BMVC 2021 Oral#

MMD-ReID: A Simple but Effective Solution for Visible-Thermal Person ReID

印度科技学院

MMD-ReID,一个简单而有效的框架,它通过一个明确的差异减少约束来减少模态差距。MMD-ReID从最大平均差异(MMD)中获得灵感,MMD是一种广泛用于假设检验的统计工具,确定两个分布之间的距离。MMD-ReID使用一种新颖的基于边际的表述,来匹配可见光和热样本的类条件特征分布,以最小化类内距离,同时保持特征的可分辨性。MMD-ReID在结构和损失表述方面是一个简单的框架。广泛的实验表明,从质量和数量上证明了MMD-ReID在协调边际分布和类条件分布方面的有效性,从而学习了与模式无关和与身份一致的特征。所提出的框架在SYSU-MM01和RegDB数据集上的表现明显优于最先进的方法。

将开源:github.com/vcl-iisc/mmd

论文:arxiv.org/abs/2111.0505

 

 


#情感识别#

Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition

Ecole de technologie sup ´ erieure, Montreal, Canada

本次工作,focus 基于从视频中提取的面部和声音模态融合的维度情感识别,其中可能捕获复杂的时空关系。大多数现有的融合技术依赖于递归网络或传统的注意力机制,这些机制不能有效地利用视听(A-V)模态的互补性。

作者引入一种跨注意力的融合方法,以提取跨 A-V 模式的突出特征,从而准确预测 valence 和 arousal 的连续值。新的跨注意力的 A-V 融合模型有效地利用了模式间的关系。特别是,它计算出交叉注意力的权重,以关注各个模态中更有贡献的特征,从而将有贡献的特征表征结合起来,然后将其输入全连接层,以预测 valence 和 arousal。在RECOLA和Fatigue(私人)数据集的视频上实验验证了所提方法的有效性。

结果表明,该跨注意力A-V融合模型是一种具有成本效益的方法,其性能优于最先进的融合方法。

已开源github.com/praveena2j/C

论文:arxiv.org/abs/2111.0522

 

 


#NeurIPS 2021##数据增强#

Data Augmentation Can Improve Robustness

DeepMind

本次工作 focus 通过使用常见的数据增强方案来减少鲁棒性过拟合。证明,与之前的研究结果相反,当与模型权重平均化相结合时,数据增强可以显著提高鲁棒的准确性。此外,还比较了各种增强技术,发现空间组合技术对对抗性训练的效果最好。

在 CIFAR-10上对所提出方法进行了评估,以应对大小分别为ϵ=8/255和ϵ=128/255的ℓ∞和ℓ2规范约束的扰动。结果显示,与以前最先进的方法相比,在鲁棒性方面有很大的绝对改进,即+2.93%和+2.16%。

特别是,针对大小为ϵ=8/255的ℓ∞规范约束的扰动,该模型在不使用任何外部数据的情况下达到了60.07%的鲁棒准确性。在使用其他架构和数据集(如CIFAR-100、SVHN和TinyImageNet)时,也用这种方法实现了显著的性能提升。

已开源github.com/deepmind/dee

论文:arxiv.org/abs/2111.0532

 

 


#transformer#

Sliced Recursive Transformer

卡内基梅隆大学&MBZUAI

如何以最小的开销提高 vision transformer 的参数利用效率是一件值得考虑的事情。并在本文中总结并解释了在训练这种网络时观察到的几种行为。

专注于通过递归操作建立一个具有紧凑模型大小的高效 vision transformer,所提出的近似方法能够在递归transformer 中以更有效的方式进行训练。并强调,这样的训练方案在该领域以往的文献中还没有被探讨过。作者把递归 transformer 的优越性能归结为它能够加强中间特征的表示质量。

不仅在视觉任务上验证了该方法,还进行了全面的实验来证明其在神经机器翻译(NMT)上的有效性,显示了对不同模式和架构(如MLP-混合器)的通用能力。

将开源:github.com/szq0214/SReT

论文:arxiv.org/abs/2111.0529

转载请注明:《【11月10日】五篇(将)开源论文代码分享