【11月22日】七篇(将)开源论文代码分享

作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)

#图像到图像翻译#

Global and Local Alignment Networks for Unpaired Image-to-Image Translation

哈尔滨工业大学&University of Trento&苏黎世联邦理工学院等

对于 unpaired 图像-图像翻译的目标是生成一个反映目标域风格的输出图像,同时保持输入源图像的无关内容不变。然而,由于现有的方法缺乏对内容变化的关注,源图像的语义信息在翻译过程中通常会降质。

针对上述问题,作者在本次研究中提出 Global and Local Alignment Networks (GLA-Net)。全局对齐网络旨在将输入图像从源域迁移到目标域。为了有效地做到这一点,作者通过使用一个基于 MLP-混合器的风格编码器来学习多元高斯分布的参数(平均值和标准差)作为风格特征。为了更准确地传递风格,在编码器中采用自适应实例归一化层,将目标多变量高斯分布的参数作为输入。还采用了正则化和似然损失,以进一步减少域差距,并生成高质量的输出。此外,引入一个局部对齐网络,它采用一个预训练的自监督模型,通过一个新的局部对齐损失产生一个注意力图,确保翻译网络专注于相关像素。

在五个公共数据集上进行的广泛实验表明,所提出方法比现有的方法有效地生成了更清晰、更真实的图像。

已开源:github.com/ygjwd12345/G

论文:arxiv.org/abs/2111.1034

 

 


#语义分割#

Bi-Mix: Bidirectional Mixing for Domain Adaptive Nighttime Semantic Segmentation

哈尔滨工业大学&University of Trento&苏黎世联邦理工学院等

对于自动驾驶任务,学习一个能够适应各种环境条件的分割模型是至关重要的。特别是应对严重的光照变化是一个迫切的需求,因为在白天的数据上训练的模型在夜间的表现会很差。

本次工作着重研究了 Domain Adaptive Nighttime Semantic Segmentation (DANSS)问题,目的是通过标记的白天数据集和未标记的数据集(包括粗略排列的日夜图像对)来学习一个有辨识度的夜间模型。为此,为 DANSS 提出一个新的双向混合(Bi-Mix)框架,它可以为图像翻译和分割适应过程作出贡献。

具体来说,在图像 DeepL,Bi-Mix 利用昼夜图像对的知识来提高夜间图像重光的质量。另一方面,在分割适应阶段,Bi-Mix 有效地弥补了白天和夜间领域的分布差距,使模型适应夜间领域。在这两个过程中,Bi-Mix只是通过混合两个样本来操作,没有额外的超参数,因此它很容易实现。

在 Dark Zurich 和 Nighttime Driving 数据集上的广泛实验证明了所提出的 Bi-Mix的优势,并表明该方法在DANSS中获得了最先进的性能。

已开源:github.com/ygjwd12345/B

论文:arxiv.org/abs/2111.1033

 

 


#点云#

DSPoint: Dual-scale Point Cloud Recognition with High-frequency Fusion

上海人工智能实验室&UISEE&上海科技大学&北大&宾夕法尼亚大学

问题:由于点云的稀疏性和不规则性,使得点云处理是一项具有挑战性的任务。先前的工作在局部特征聚合器或全局几何结构上引入了微妙的设计,但很少有人将这两种的优势结合起来工作。

方案:本文提出 Dual-Scale Point Cloud Recognition with High-frequency Fusion(高频融合的双尺度点云识别DSPoint),通过同时操作 voxels 和 points 来提取局部-全局特征。颠覆了在 voxels 上应用卷积而在点上应用注意力的传统设计。

具体来说,通过通道维度分解点的特征,进行双尺度处理:一个是通过点的卷积进行细粒度的几何分析,另一个是通过体素的全局注意进行长程结构探索。设计一个共同注意融合模块,用于特征对齐,以融合局部-全局模式,通过交流高频坐标信息进行规模间的跨模式互动。

结果:在广泛采用的 ModelNet40、ShapeNet 和 S3DIS 上进行的实验和消融证明了 DSPoint 的最先进的性能。

将开源:github.com/Adonis-galax(11.25)

论文:arxiv.org/abs/2111.1033

 

 


#Transformer##GSR##BMVC 2021#

Grounded Situation Recognition with Transformers

POSTECH

Grounded Situation Recognition 任务不仅对 salient action(动词)进行分类,而且还预测与语义角色相关的实体(名词)以及它们在给定图像中的位置。受 Transformers 在视觉任务中的成功启发,提出一个基于 Transformers 编码器-解码器架构的 GSR 模型。该模型的注意机制通过有效地捕捉图像的高层次语义特征来实现准确的动词分类,并使模型能够灵活地处理实体之间复杂的、与图像有关的关系,以改进名词分类和定位。该模型是第一个用于 GSR 的Transformer架构,在 SWiG基准的每一个评估指标上都达到了最先进的水平。

已开源:github.com/jhcho99/gsrt

论文:arxiv.org/abs/2111.1013

 


#对抗攻击#

Enhanced countering adversarial attacks via input denoising and feature restoring

西安电子科技大学

本次工作,针对现有对抗性防御方法的弱点,首次引入正式的、完整的对抗性攻击防御问题定义,并揭示了 acoustic disaster,即由于 AEs 去噪造成的干净样本的损坏而导致的目标模型的鲁棒性下降。

在上述基础上,提出一种新的增强型对抗性防御方法,IDFR,它由一个增强型输入去噪器 ID 和一个高效的隐性有损特征恢复器 FR 组成,采用凸壳优化。

大量的实验结果验证了所提出的 IDFR 的有效性,并清楚地表明,与许多先进的对抗性攻击防御方法相比,IDFR 取得了新的 SOTA 对抗性防御鲁棒性性能。也表明如何进一步提高所提出的IDFR的防御性能是未来的研究方向。

已开源:github.com/ID-FR/IDFR

论文:arxiv.org/abs/2111.1007

 

 


#Image beauty assessment##图像美感评估#

Neural Image Beauty Predictor Based on Bradley-Terry Model

慕尼黑工业大学

本次工作着重于对 image beauty assessment 任务的研究,使用 pairwise 评估方法,它是基于 Bradley-Terry 模型的。并表示在一个图像组内,这种方法比其他图像评价方法更准确。

此外,适合于图像质量评估的卷积神经网络(CNN)也被用于这项工作中。工作的第一部分是关于不同图像的图像美感比较的调查。Bradley-Terry 模型被用于计算分数,这也是CNN模型的目标。第二部分侧重于图像美感预测的结果,包括景观图像、建筑图像和肖像图像。这些模型通过AVA数据集进行预训练,以提高以后的性能。

然后,用调查的图像和相应的分数来训练 CNN 模型。此外,这项工作比较了四种CNN基础网络的结果,即文献中讨论的 Alex网、VGG网、Squeeze网和LSiM网。最后,通过调查结果计算的成对准确率、相关系数和相对误差来评估该模型。所提出的方法取得了令人满意的结果,成对准确率约为70%。本次工作为新的图像美感评估方法提供了更多的启示。

将开源:github.com/lishiyu0088/

论文:arxiv.org/abs/2111.1012

 

 


#去模糊#

DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with Flow-Guided Attentive Correlation and Recursive Boosting

韩国科学技术院

文中提出一个新的联合去模糊和多帧插值(DeMFI)框架,DeMFI-Net,该框架基于 flow 引导的基于注意力相关的特征增强(FAC-FB)模块和递归增强(RB),在多帧插值(MFI)方面,将低帧率的模糊视频准确转换为高帧率的清晰视频。

DeMFI-Net联合执行去粗取精和MFI,其基线版本通过FAC-FB模块执行基于特征流的warping,以获得尖锐的内插帧,并对两个中心输入帧进行去粗取精。此外,其扩展版本在基于像素流的warping和基于GRU的RB的基础上进一步提高了联合任务性能。

FAC-FB模块有效地收集了分布在特征域的模糊输入帧上的模糊像素信息,以提高整体的联合性能,这在计算上是有效的,因为其周到的相关性只是集中在点上。因此,DeMFI-Net在不同的数据集上实现了最先进的(SOTA)性能,与最近的SOTA方法相比,在去模糊化和MFI方面都有很大的优势。

将开源:github.com/JihyongOh/De

论文:arxiv.org/abs/2111.0998

转载请注明:《【11月22日】七篇(将)开源论文代码分享