【4月22日】九篇(将)开源论文代码分享

作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)

#小样本分割###

Beyond the Prototype: Divide-and-conquer Proxies for Few-shot Segmentation

西北工业大学

小样本分割目的是在仅有少数密集标记的样本的情况下,对未见过的类别目标进行分割,得到了社区的广泛关注。现有的方法通常遵循 prototype learning(原型学习)范式来进行元推理,这不能充分地利用支持image-mask 对的基本信息,导致各种分割失败,例如不完整的物体、模糊的边界和干扰物的激活。

为此,本着分而治之的精神,提出一个简单而通用的框架。具体来说,首先在标注过的 support 图像上实现了一个新的自推理方案,然后将粗略的分割掩码划分为具有不同属性的多个区域。利用有效的 masked average pooling 操作,从而得出一系列支持诱导的代理,每个代理在征服上述挑战中发挥特定的作用。此外,设计一个独特的并行解码器结构,将具有类似属性的代理整合起来,以提高辨别能力。作者将所提出方法命名为 divide-and-conquer proxies(DCP),允许开发适当和可靠的信息作为 “episode “层面的指南,而不仅仅是关于物体线索本身。

在PASCAL-5i和COCO-20i上进行的大量实验表明,DCP比传统的基于原型的方法更有优势(平均可达5~10%),达到了新的 SOTA。

将开源:github.com/chunbolang/D

论文:arxiv.org/abs/2204.0990

 


#人脸预测#

ChildPredictor: A Child Face Prediction Framework with Disentangled Learning

香港城市大学&上海交通大学&商汤&字节&香港浸会大学

孩童的长相是从他们的父母那里遗传来的,因此可以根据父母的长相来预测孩童的长相。预测真实的孩童长相可能有助于解决许多社会问题,如年龄不变的人脸识别、亲属关系验证和失踪儿童识别。它可以被看作是一个图像到图像的翻译任务。现有的方法通常认为图像-图像翻译中的领域信息可以通过 “风格 “来解释,即图像内容和风格的分离。然而,这种分离对于儿童面部预测来说是不恰当的,因为儿童和父母的面部轮廓是不一样的。

为此,作者提出一个新的用于孩童人脸预测的 disentangled learning 策略。假设孩童的脸是由遗传因素(紧凑的家族特征,如脸部轮廓)、外部因素(与预测无关的面部属性,如小胡子和眼镜)和 variety factors(每个孩子的个人属性)决定的。在此基础上,将预测制定为从父母的遗传因素到子女的遗传因素的映射,并将它们与外部和品种因素分开。

实验结果表明,ChildPredictor 在预测逼真和多样化的儿童面孔方面优于其他著名的图像到图像的翻译方法。

已开源:github.com/zhaoyuzhi/Ch

论文:arxiv.org/abs/2204.0996

 


#6D姿势估计##CVPR 2022#

DGECN: A Depth-Guided Edge Convolutional Network for End-to-End 6D Pose Estimation

武汉大学&安徽大学

单目 6D 姿态估计是计算机视觉中的一项基本任务。现有的工作通常采用两阶段的管道,通过建立对应关系和利用RANSAC算法来计算 6 degrees-of-freedom(6DoF)的姿势。最近的工作试图整合可微分的RANSAC算法来实现端到端的6D姿态估计。然而,他们中的大多数几乎不考虑三维空间的几何特征,并且在执行可微分RANSAC算法时忽略了拓扑线索。

为此,作者提出了一个 Depth-Guided Edge Convolutional Network(DGECN),用于6D姿势估计任务。并从以下三个方面进行:

1利用估计的深度信息来指导对应关系的提取过程和带有几何信息的级联可微分RANSAC算法。

2利用估计深度图的不确定性来提高输出6D姿势的准确性和鲁棒性。

3提出一种通过边缘卷积的可微分 Perspective-n-Point(PnP)算法来探索二维-三维对应之间的拓扑关系。

实验证明,所提出方法在有效性和效率方面都优于目前的工作。

已开源:github.com/maplect/DGEC

论文:arxiv.org/abs/2204.0998

 


#图像分类#

GAF-NAU: Gramian Angular Field encoded Neighborhood Attention U-Net for Pixel-Wise Hyperspectral Image Classification

密歇根理工大学

高光谱图像(HSI)分类是高光谱界最活跃的研究领域,因为HSI中包含的丰富光谱信息可以极大地帮助识别感兴趣的物体。然而,材料和相应光谱图之间固有的非线性给HSI分类带来了两大挑战:类间相似性和类内差异性。

许多先进的深度学习方法都试图从基于 region/patch 的方法的角度来解决这些问题,而不是基于像素的替代方法。然而,基于斑块的方法假设目标像素在一个固定的空间窗口中的邻域像素属于同一类别。而这个假设并不总是真实的。为了解决这个问题,在此提出一个新的深度学习架构,即Gramian Angular Field encoded Neighborhood Attention U-Net(GAF-NAU),用于基于像素的HSI分类。

该方法不需要以原始目标像素为中心的区域或斑块来进行基于2D-CNN的分类,相反,它使用Gramian Angular Field(GAF)将HSI中的一维像素向量转换为二维角度特征空间,然后将其嵌入到一个新的邻域注意网络,以抑制不相关的角度特征,同时强调对HSI分类任务有用的相关特征。在三个公开的HSI数据集上的评估结果证明了所提模型的卓越性能。

已开源:github.com/MAIN-Lab/GAF

论文:arxiv.org/abs/2204.1009

 


#视频超分辨率##CVPR 2022#

A New Dataset and Transformer for Stereoscopic Video Super-Resolution

Bahcesehir University&American University of Malta&多媒体大学

Stereo video super-resolution(SVS)旨在通过重建高分辨率的视频来提高低分辨率视频的空间分辨率。SVSR的关键挑战是保持立体一致性和时间一致性,如果没有这些,观众可能会感到3D疲劳。在立体图像超分辨率方面有一些值得注意的工作,但对立体视频超分辨率的研究却很少。

本次工作,提出一种新型的基于 Transformer 的 SVSR 模型,即 Trans-SVSR。Trans-SVSR 包括两个关键的新组件:一个是 spatio-temporal convolutional self-attention(空间-时间卷积自注意)层,另一个是 optical flow-based feed-forward(基于光流的前馈)层,它可以发现不同视频帧之间的相关性并对齐特征。视差注意机制(PAM)使用跨视图信息来考虑显著的差异,用于融合立体视图。由于缺乏适合SVS任务的基准数据集,作者还收集一个新的立体视频数据集,SVSR-Set,其中包含71个使用专业立体摄像机拍摄的全高清(HD)立体视频。

在所收集的数据集以及其他两个数据集上进行的广泛实验表明,与最先进的方法相比,Trans-SVSR可以达到有竞争力的性能。

已开源:github.com/H-deep/Trans

论文:arxiv.org/abs/2204.1003

 


#超分辨率#

Deep Model-Based Super-Resolution with Non-uniform Blur

GoPro France&MAP5, CNRS & Universite Paris Cit ´ e

文章提出一种最先进的 Non-uniform 模糊的超级分辨率方法。单一图像的超级分辨率方法试图从模糊的、子采样的和嘈杂的测量中恢复高分辨率的图像。尽管它们的性能令人印象深刻,但现有的技术通常都假设有一个统一的模糊核。因此,这些技术不能很好地推广到更普遍的非均匀模糊的情况。

相反,本次工作解决的是更现实的、在计算上具有挑战性的空间变化模糊的情况。为此,首先提出一种基于线性化ADMM 分割技术的快速深度即插即用算法,该算法可以解决空间变化模糊的超级分辨率问题。其次,将迭代算法展开为一个单一的网络,并对其进行端到端的训练。通过这种方式,克服了手动调整优化方案中涉及的参数的复杂性。

所提出算法表现出显著的性能,并且在一次训练后就能很好地推广到空间变化的模糊核、噪声水平和比例因子的大系列。

已开源:anonymous.4open.science

论文:arxiv.org/abs/2204.1010

 


#3D人体形状##CVPR 2022#

OSSO: Obtaining Skeletal Shape from Outside

马普所&MATI-CNR&Universite Grenoble Alpes

本篇文章解决的问题是,从身体的三维表面推断一个人在任意姿势下的解剖骨架;也就是说,从外部(皮肤)预测内部(骨骼)。这在医学和生物力学方面有很多应用。现有的最先进的生物力学骨架很详细,但不容易推广到新的主题。此外,预测骨架的计算机视觉和图形方法通常是启发式的,不是从数据中学习的,没有利用完整的三维体表,也没有针对 ground truth 进行验证。

作者表示,该系统称为 OSSO(从外部获得骨骼形状),是第一个从真实数据中学习从三维体表到内部骨骼的映射的系统。使用1000名男性和1000名女性的 dual-energy X-ray absorptiometry (DXA)扫描来实现这一目标。对这些数据,拟合了一个参数化的三维体形模型(STAR)来捕捉体表,并拟合了一个基于部件的新型三维骨架模型来捕捉骨骼,它提供了内部/外部的训练对。作者在一个姿势正常化的空间中使用PCA对全骨骼的统计变化进行建模。然后,训练一个从身体形状参数到骨架形状参数的回归器,并完善骨架以满足对物理合理性的约束。给定一个任意的三维身体形状和姿势,OSSO预测出里面的逼真的骨架。

与以前的工作相比,作者对保持的DXA扫描的骨架形状的准确性进行了定量评估,表现优于最先进的技术。另外,还展示了来自不同的、具有挑战性的三维人体的三维骨架预测。

已开源:github.com/MarilynKelle

论文:arxiv.org/abs/2204.1012

 


#图像增强##CVPR 2022 Oral#

Toward Fast, Flexible, and Robust Low-Light Image Enhancement

大连理工大学

现有的低光照图像增强技术大多不仅难以处理视觉质量和计算效率,而且在未知的复杂场景中普遍无效。在本文中,作者开发一个新的 Self-Calibrated Illumination(SCI)学习框架,用于在现实世界的低光照场景中快速、灵活鲁棒提高图像亮度

具体来说,作者建立一个具有权重共享的级联照明学习过程来处理这个任务。考虑到级联模式的计算负担,构建 self-calibrated(自校准)模块,实现每个阶段结果之间的收敛,产生只使用单一基本块进行推理的收益(但在以前的工作中没有被利用),可以大大降低了计算成本。然后,定义无监督的训练损失,以提高模型的能力,使其能够适应一般的场景。此外,进行了全面的探索,以挖掘 SCI 的固有特性(现有作品所缺乏的),包括对操作不敏感的适应性(在不同的简单操作的设置下获得稳定的性能)和与模型无关的通用性(可应用于基于照明的现有作品以提高性能)。

最后,大量的实验和消融研究充分表明所提出方法在质量和效率方面的优势。在低光人脸检测和夜间语义分割上的应用充分显示了SCI的隐藏实用价值。

已开源:github.com/vis-opt-grou

论文:arxiv.org/abs/2204.1013

 


#CVPR 2021##人脸识别#

WebFace260M: A Benchmark for Million-Scale Deep Face Recognition

清华&XForwardAI&帝国理工学院

人脸基准使研究界能够训练和评估高性能的人脸识别系统。本次工作贡献一个新的百万规模的识别基准,包含未经整理的 400 万个身份/260万张脸(WebFace260M)和经过处理的200万个身份/42万张脸(WebFace42M)的训练数据,以及一个精心设计的时间限制的评估协议。首先,从互联网上收集400万个姓名列表并下载2.6亿张脸。然后,设计一个 Cleaning Automatically utilizing Self-Training(CAST)管道来处理巨大的WebFace260M,该管道是高效和可扩展的。作者表示,经过处理的 WebFace42M 是最大的公共人脸识别训练集,希望能缩小学术界和工业界之间的数据差距。

参照实际部署,构建推理时间约束下的人脸识别(FRUITS)协议和一个具有丰富属性的新测试集。此外,在COVID-19下收集了一个大规模的戴口罩子集用于生物识别技术的评估。为了全面评估人脸匹配器,分别在标准、遮挡和无偏见的设置下执行了三项识别任务。有了这个基准,深入研究了百万规模的人脸识别问题。并开发一个分布式框架来有效地训练人脸识别模型而不影响其性能。在WebFace42M的支持下,在具有挑战性的IJB-C集上减少了40%的失败率,在NIST-FRVT的430个条目中排名第三。即使是10%的数据(WebFace4M)也显示出与公共训练集相比的卓越性能。此外,在FRUITS-100/500/1000毫秒协议下建立了全面的基线。拟议的基准在标准、遮挡和无偏见的人脸识别场景中显示出巨大的潜力。

主页:face-benchmark.org/

论文:arxiv.org/abs/2204.1014

转载请注明:《【4月22日】九篇(将)开源论文代码分享