【12月6日】十篇(将)开源论文代码分享

作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)

#显著目标检测##遥感图像#

Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing Images

南洋理工大学&石溪大学

在计算机视觉领域,自然场景图像中的显著目标检测(NSI-SOD)已经取得了很大的进展;相比之下,光学遥感图像中的显著目标检测(RSI-SOD)仍然是一个具有挑战性的新兴课题。光学遥感图像的独特特征,如尺度、照度和成像方向,给NSI-SOD和RSI-SOD带来了重大差异。

文章提出一个新的Multi-Content Complementation Network (MCCNet),用来探索 RSI-SOD 的多内容互补性。具体来说,MCCNet 基于一般的编码器-解码器架构,并包含一个多内容互补模块(MCCM)的新型关键组件,它连接了编码器和解码器。在MCCM中,考虑了对RSI-SOD至关重要的多种类型的特征,包括前景特征、边缘特征、背景特征和全局图像级特征,并利用它们之间的内容互补性,通过注意力机制突出RSI特征中不同尺度的显著区域。此外,还在训练阶段全面引入了像素级、地图级和度量感知的损失。

在两个流行的数据集上进行的大量实验表明,所提出的 MCCNet 优于23种最先进的方法,包括NSI-SOD和RSI-SOD方法。

已开源github.com/MathLee/MCCN

论文:arxiv.org/abs/2112.0193

 

 


#3D目标检测#

SGM3D: Stereo Guided Monocular 3D Object Detection

复旦大学&百度

问题:由于缺乏 LiDAR 传感器捕获的准确深度信息,单目3D目标检测对于自主驾驶来说是一项关键但具有挑战性的任务。

方案:文中提出一个 Stereo 引导的单目3D目标检测网络,SGM3D,它利用从立体图像中提取的强大的三维特征来增强从单目图像中学习的特征。并创新性的研究了一个多粒度域适应模块(MG-DA)以及基于IoU匹配的对齐模块(IoU-MA),该模块可以强制单目网络在不同层次上模仿立体特征和检测行为。

结果:SGM3D 在最具挑战性的KITTI和Lyft数据集上实现了新的SoTA性能。除了stereo 模式,还证明LiDAR也可以被采用来指导单目网络学习。

作者还表示在未来,希望为 LiDAR 引导的单目3D目检测找到更好的特征表示,这可能会取得更高的性能。

将开源:github.com/zhouzheyuan/

论文:arxiv.org/abs/2112.0191

 

 


#人物交互##Transformer#

Efficient Two-Stage Detection of Human-Object Interactions with a Novel Unary-Pairwise Transformer

澳大利亚国立大学&牛津大学&Australian Centre for Robotic Vision

本文所提出的 Unary-Pairwise Transformer,是一个两阶段的检测器,利用单数和对数表示HOIs。该 transformer 网络的单数和成对部分具有特殊性,前者优先增加positive 例子的得分,后者减少 negative 例子的得分。在HICO-DET和V-COCO数据集上对所提出方法进行了评估,结果明显优于最先进的方法。在推理时间,该模型与ResNet50在单个GPU上接近实时性能。

已开源github.com/fredzzhang/u

论文:arxiv.org/abs/2112.0183


 #图像增强#

Unsupervised Low-Light Image Enhancement via Histogram Equalization Prior

华中科技大学

挑战:基于深度学习的低光照图像增强方法通常需要巨大的配对训练数据,这在现实世界的场景中是不现实的。近期研究人员探索了无监督的方法来消除对配对训练数据的依赖。但由于缺乏先验因素,在不同的现实世界场景中表现不稳定。

方案:提出 histogram equalization prior(HEP),一种基于有效先验的无监督低照度图像增强方法。灵感来自于一个有趣的观察,即直方图均衡化增强图像的特征图和 ground truth 是相似的。具体来说,制定 HEP 来提供丰富的纹理和亮度信息。嵌入到亮光模块(LUM)中,它有助于将低光图像分解为照明和反射图,而反射图可被视为修复的图像。然而,基于Retinex理论的推导发现,反射图受到了噪声的污染。然后引入一个噪声分离模块(NDM),在未配对的干净图像的可靠帮助下分离反射图中的噪声和内容。在直方图均衡先验和噪声分离的指导下,该方法可以恢复更精细的细节,并且更有能力在现实世界的低光环境中抑制噪声。

结果:广泛实验表明,所提出方法与最先进的无监督低光增强算法相比表现良好,甚至与最先进的有监督算法相匹配。

将开源:github.com/fengzhang427

论文:arxiv.org/abs/2112.0176

 

 


#文本到图像生成#

FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN Space Optimization

得克萨斯大学奥斯汀分校&加利福尼亚大学圣迭戈分校

文章所提出的 FuseDream,它能用 CLIP 引导的 GAN 实现高质量、最先进的文本到图像的生成。与传统的基于训练的方法相比,该方法是免训练的、零样本的、容易定制的,因此容易被计算资源有限或有特殊要求的用户所接受。AugCLIP 得分、过度参数化优化和组成生成的新技术具有独立的意义,在其他隐空间优化问题中也很有用。

已开源:github.com/gnobitab/Fus

论文:arxiv.org/abs/2112.0157

 

 


#图像memes生成#

Multi-modal application: Image Memes Generation

南加州大学

生成 memes 是一项具有挑战性的任务,需要进行复杂的图像-文本推理。在本次项目中,成功地展示了如何使用神经模型来生成 memes,并提出 Meme Generator,一个端到端的架构,可以为一个给定的句子自动生成一个 meme。Meme Generator 有两个组成部分,一个是选择 meme 模板图像的模型,一个是生成 meme 字幕的编码解码器模型。这两个模型都经过了微调,达到了目前的最佳性能。

已开源github.com/zliu5480/CSC

论文:arxiv.org/abs/2112.0165

 

 


#零样本学习##AAAI 2022#

TransZero: Attribute-guided Transformer for Zero-Shot Learning

华中科技大学&阿里&MBZUAI&国科大

零样本学习(ZSL)旨在通过将语义知识从已见的类迁移到未见的类中来识别新的类。语义知识是从不同类别之间共享的属性描述中学习的,这些属性描述作为定位物体属性的强大先验,代表了区别性的区域特征,实现了显著的视觉-语义互动。尽管一些基于注意力的模型试图在单一图像中学习这种区域特征,但视觉特征的可迁移性和判别性属性定位通常被忽视。

在本文中,作者提出一个属性引导的 Transformer 网络,TransZero,以完善视觉特征,并学习 ZSL 中判别性的视觉嵌入表征的属性定位。具体来说,TransZero 采取了一个特征增强编码器来缓解 ImageNet 和 ZSL 基准之间的跨数据集偏差,并通过减少区域特征之间纠缠的相对几何关系来提高视觉特征的可迁移性。为了学习定位增强的视觉特征,TransZero采用了一个视觉-语义解码器,在语义属性信息的指导下,定位与给定图像中每个属性最相关的图像区域。然后,定位增强的视觉特征和语义向量被用来在视觉-语义嵌入网络中进行有效的视觉-语义互动。

大量实验表明,TransZero在三个ZSL基准上达到了新的SOTA。

已开源github.com/shiming-chen

论文:arxiv.org/abs/2112.0168

 

 


#深度估计#

Deep Depth from Focus with Differential Focus Volume

宾夕法尼亚州立大学

Depth-from-focus(DFF)是一种利用相机的焦点变化来推断深度的技术。在本项工作中,作者提出一个卷积神经网络(CNN)来寻找焦点堆栈中的最佳焦点像素,并从焦点估计中推断出深度。该网络的关键创新点是新的deep differential focus volume(DFV)。通过计算不同焦距的堆叠特征的一阶导数,DFV能够捕捉焦点和背景信息,用于焦点分析。此外,还引入一个概率回归机制来处理稀疏采样的焦点堆栈,并为最终预测提供不确定性估计。

综合实验表明,所提出的模型在多个数据集上实现了最先进的性能,具有良好的通用性和快速的速度。

将开源:github.com/fuy34/DFV

论文:arxiv.org/abs/2112.0171

 

 


#弱监督##显著目标检测##ICCV 2021#

MFNet: Multi-filter Directive Network for Weakly Supervised Salient Object Detection

大连理工大学&鹏城实验室

弱监督显著目标检测(WSOD)的目标是只使用低成本的标注来训练基于 CNN 的显著性网络。现有的 WSOD 方法采用各种技术从低成本标注中追求单一的 “高质量 “伪标签,然后开发他们的显著性网络。尽管这些方法取得了良好的性能,但生成的单一标签不可避免地受到所采用的细化算法的影响,并显示出偏见的特征,从而进一步影响了显著性网络。

本次工作中,介绍一个新的多伪标签框架,以整合来自多个标签的更全面和准确的显著性线索,避免了上述问题。具体来说,提出一个

multi-filter directive network(MFNet),包括一个显著性网络以及多个指令性过滤器。指导性过滤器(DF)被设计用来从嘈杂的伪标签中提取和过滤更准确的显著性线索。然后,来自多个DF的多个准确线索同时传播到具有多指导性损失的显著性网络。

在四个指标的五个数据集上进行的广泛实验表明,所提出方法优于所有现有的同源方法。此外,值得注意的是,该框架足够灵活,可以应用于现有的方法并提高其性能。

已开源:github.com/OIPLab-DUT/M

论文:arxiv.org/abs/2112.0173

 

 


#深度学习#

Geometric Feature Learning for 3D Meshes

西澳大学&中佛罗里达大学

文中提出一系列的模块化操作,用于在异质三维网格上进行有效的几何深度学习。这些操作包括网格卷积、(非)池化和高效的网格抽取。并提供了这些操作的开源实现,Picasso。

Picasso 的网格抽取模块是由 GPU 加速的,可以即时处理一批网格用于深度学习。(非)池化操作为不同分辨率的网络层中新创建的神经元计算特征。网格卷积包括facet2vertex、vertex2facet和facet2facet卷积,利用vMF混合和Barycentric插值来纳入模糊建模。利用Picasso的模块化操作,贡献了一个新的分层神经网络 PicassoNet-II,以从三维网格中学习高分辨力的特征。

PicassoNet-II接受原始几何图形和网格面的精细纹理作为输入特征,同时处理完整的场景网格。该网络在各种基准上的形状分析和场景解析方面取得了极具竞争力的性能。

将开源:github.com/EnyaHermite/

论文:arxiv.org/abs/2112.0180

转载请注明:《【12月6日】十篇(将)开源论文代码分享