「11月1日」六篇(将)开源论文代码分享

作者 | CV君

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)


#NeurIPS 2021##前景提取#

Unsupervised Foreground Extraction via Deep Region Competition

加州大学洛杉矶分校&北京通用人工智能研究院

DRC,全称是 Deep Region Competition,是一种旨在以完全无监督的方式从图像中提取前景物体的算法。前景提取可以被看作是一般图像分割的一个特例,其重点是识别和分离背景中的物体。
本次工作通过调和基于能量的先验和生成性图像建模,以 Mixture of Experts(MoE)的形式重新思考前景提取,并进一步引入学习到的像素重新分配,作为捕捉背景区域规律性的基本归纳偏见。有了这种建模方式,就可以通过期望最大化(EM)自然地找到前景和背景的分界。表明,所提出的方法在分割过程中有效地利用了混合成分之间的相互作用,这与区域竞争密切相关,是通用图像分割的一种开创性方法。

实验表明,与之前的方法相比,DRC 在复杂的真实世界数据和具有挑战性的多物体场景中表现出更有竞争力的性能。此外,经验还表明,即使是在训练期间对未曾见过的类别,DRC对新的前景物体具有泛化能力。

将开源:
https://github.com/yuPeiyu98/DRC

论文:
https://arxiv.org/abs/2110.15497

「11月1日」六篇(将)开源论文代码分享


#视觉识别##无监督#

UDIS: Unsupervised Discovery of Bias in Deep Visual Recognition Models

佐治亚理工学院

文中提出UDIS,是第一个用于发现模型偏差的无监督方法,它可以识别模型在其中系统性表现不佳的数据集子群,而不需要保护属性标注。以及展示了 UDIS 在 CelebA 和 MSCOCO 数据集上识别失败模式的有效性。

将开源:
https://github.com/akrishna77/bias-discovery

论文:
https://arxiv.org/abs/2110.15499

「11月1日」六篇(将)开源论文代码分享


#超分辨率#

Scale-Aware Dynamic Network for Continuous-Scale Super-Resolution

对于超分辨率任务来说,旨在使用单一模型处理任意(整数或非整数)尺度因子的连续尺度 SR,仍然是一项具有挑战性的任务。现有的 SR 模型一般采用静态卷积来提取特征,因此无法有效感知尺度因子的变化,导致多尺度 SR 任务的泛化性能有限。此外,现有的连续尺度上采样模块没有充分利用多尺度特征,面临着 SR 结果中的棋盘效应(Checkerboard Artifacts) 和高计算复杂性等问题。
方案:提出一个用于连续规模 SR 的 scale-aware dynamic network(SADN)。

首先,设计一个 scale-aware 动态卷积(SAD-Conv)层,用于具有不同尺度的多个SR任务的特征学习。SAD-Conv 层可以根据尺度因子自适应地调整多个卷积核的注意权重,从而以可忽略不计的额外计算成本提高模型的表达能力。

其次,设计一个连续尺度上采样模块(CSUM)与多线性局部隐函数(MBLIF)用于任意尺度上采样。CSUM 构建多个尺度逐渐增大的特征空间,以接近图像的连续特征表示,然后 MBLIF 充分利用多尺度特征,将任意坐标映射到高分辨率空间中的RGB值。

结果:通过使用各种基准来对SADN进行评估。结果表明,CSUM 可以取代以前的固定规模的上采样层,获得一个连续规模的SR网络,同时保持性能。以及 SADN 所使用的参数要少得多,而且性能优于最先进的 SR 方法。

将开源:
https://github.com/hanlinwu/SADN

论文:
https://arxiv.org/abs/2110.15655

「11月1日」六篇(将)开源论文代码分享


#文本-视频检索#

Visual Spatio-temporal Relation-enhanced Network for Cross-modal Text-Video Retrieval

湖南大学&复旦大学

本文提出一个新的跨模态文本-视频检索方法,表明视频表征不仅要从全局特征中学习,还要从细粒度的时空关系中学习。为此,设计一个视觉时空关系增强网络(VSRNet)来捕捉细粒度的局部关系和全局视觉信息,用于跨模态的文本-视频检索。并在两个基准上进行的大量实验结果证明了所提出方法的有效性和优越性。另外,作者表示在处理具有更复杂的细粒度关系的长视频时,仍然面临着固有的注意力计算负担。所有将多层时空变换器的计算优化作为未来的工作。

将开源:
https://github.com/Lionel-Hing/VSR-Net

论文:
https://arxiv.org/abs/2110.15609

「11月1日」六篇(将)开源论文代码分享


#NeurIPS2021##GAN##图像合成#

A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware Image Synthesis

马普所&香港中文大学&南洋理工大学

ShadeGAN,是一个新的生成性隐式模型,用于形状精确的 3D 感知图像合成。ShadeGAN 中通过显式光照建模实现的多光照约束,大大有助于从二维图像中学习精确的三维形状。ShadeGAN还可以在图像合成过程中控制照明条件,实现自然的图像再照明效果。为了降低计算成本,进一步设计一个轻量级的表面跟踪网络,这使得生成性隐含模型的高效体积渲染技术得以实现,将训练和推理时间分别减少了 24% 和 48%。

在多个数据集上的实验表明,所提出的方法实现了逼真的 3D 感知图像合成,同时捕捉到了准确的隐 3D 形状。以及所提出方法在三维形状重建方面比现有的方法有更好的性能,并显示了它在图像重光方面的适用性。

将开源:
https://github.com/XingangPan/ShadeGAN

论文:
https://arxiv.org/abs/2110.15678

「11月1日」六篇(将)开源论文代码分享


#检索#

Learning Co-segmentation by Segment Swapping for Retrieval and Discovery

巴黎理工学院&伯克利&Facebook

本次工作的目标是有效地从一对图像中识别出视觉上相似的模式,例如识别雕刻和油画之间复制的艺术品细节,或者将一张夜间的照片与白天的照片相匹配。它的挑战在于缺乏训练数据。

解决方案:通过在一幅图像中选择物体片段并将其复制粘贴到另一幅图像中来产生合成训练对。然后学习预测重复的物体掩码。发现,把预测对应关系作为一项辅助任务,并在训练对上使用 Poisson blending(泊松融合)和风格迁移来概括真实数据是至关重要的。

结果:分析了与此联合图像分析任务相关的两个深度架构的结果:一个基于 transformer 的架构和稀疏 Nc-Net,一个最近设计的网络,使用4D卷积预测粗略的对应关系。结果显示,所提出为 Brueghel 数据集上的艺术品细节检索提供了明显的改进,并在两个 place recognition(Tokyo247 和 Pitts30K)基准上取得了有竞争力的性能。

已开源
https://github.com/XiSHEN0220/SegSwap

主页:
http://imagine.enpc.fr/~shenx/SegSwap/

论文:
https://arxiv.org/abs/2110.15904

「11月1日」六篇(将)开源论文代码分享

转载请注明:《「11月1日」六篇(将)开源论文代码分享