作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)
#拥挤计数#
TAFNet: A Three-Stream Adaptive Fusion Network for RGB-T Crowd Counting
南洋理工大学
文中提出一个三流自适应融合网络,TAFNet,它使用成对的RGB和热图像进行人群计数。具体来说,TAFNet 被分为一个主流和两个辅助流。将一对 RGB 和热图像结合起来,构成主流的输入。两个辅助流分别利用 RGB 图像和热图像来提取特定模式的特征。此外,提出一个信息改进模块(IIM),将特定模式的特征自适应地融合到主流中。在 RGBT-CC 数据集上的实验结果表明,与最先进的方法相比,所提出方法在平均误差和均方根误差方面取得了超过 20% 的改进。
将开源:https://github.com/TANGHAIHAN/TAFNet
论文:https://arxiv.org/abs/2202.08517

#自动驾驶##数据集#
V2X-Sim: A Virtual Collaborative Perception Dataset for Autonomous Driving
纽约大学&南加州大学&上海交通大学
Vehicle-to-everything(V2X)是指车辆与周围任何实体之间的协作,可以从根本上改善自动驾驶系统的感知能力。但随着个体感知的快速发展,由于公共 V2X 数据集的短缺,协作感知几乎没有进展。
为此,本次工作提出 V2X-Sim 数据集,是自动驾驶领域第一个公开的大规模协作感知数据集。V2X-Sim提供:
1)来自路边基础设施和十字路口的多辆车的良好同步记录,以实现协作感知;2)多模态传感器流,以促进多模态感知;
3)多样化的、标注良好的ground truth,以支持各种下游任务,包括检测、跟踪和分割。
作者试图激发对多 Agent 多模态多任务感知的研究,虚拟数据集有希望在现实数据集广泛可用之前促进协作感知的发展。
将开源:https://ai4ce.github.io/V2X-Sim/
论文:https://arxiv.org/abs/2202.08449

AKB-48: A Real-World Articulated Object Knowledge Base
上海交通大学
由于当前对 articulated object 的理解方案通常是基于没有物理属性的 CAD 模型的合成物体数据集,因此阻碍了在视觉和机器人任务中从模拟到现实世界应用的满意概括。
为了弥补这一差距,本次工作中,作者提出AKB-48:一个大规模的 articulated object 知识库,由 48 个类别的 2,037 个真实世界的三维 articulated object 模型组成。每个物体都由一个知识图谱 ArtiKG 来描述。为了建立 AKB-48,作者提出一个 fast articulation knowledge modeling(FArM)管道,它可以在10-15分钟内完成一个 articulated object 的 ArtiKG,并在很大程度上降低了现实世界中物体建模的成本。使用所创建得数据集,提出 AKBNet,一个用于 Category-level Visual Articulation Manipulation (C-VAM)任务的新型集成管道,并对其中三个子任务,即姿势估计、物体重建和操纵进行了基准测试。
将开源:https://liuliu66.github.io/articulationobjects/
论文:https://arxiv.org/abs/2202.08432

#域适应##水下图像增强#
Domain Adaptation for Underwater Image Enhancement via Content and Style Separation
台湾大学
文章提出一个新的域适应框架,UIESS,是通过内容和风格的分离来实现水下图像的增强,以弥补合成和真实世界水下图像的域差距。作者称,这是第一次尝试在水下图像增强的域适应中利用风格分离。所提出的框架可以同时进行图像到图像的翻译和增强。该框架可以使用原始风格的 latent 和增强的 latent 进行 latent 处理,以获得不同增强水平的连续变化,这可以作为用户的交互参数并对增强的结果进行操作。并与现成的水下图像增强算法相比,在各种公开的水下真实世界和综合数据集上的实验表明,所提出的方法在真实世界的数据集上优于目前的方法。
将开源:https://github.com/fordevoted/UIESS
论文:https://arxiv.org/abs/2202.08537

#目标计数##域泛化#
Domain Randomization for Object Counting
Insight Centre for Data Analytics, Ireland&Dublin City University
文章提出一种用于物体计数的域泛化方法,可以很容易地应用于任何领域。该计数模型仅用合成图像进行训练,并在不同的真实世界计数数据集上取得了良好的性能,如人群计数、车辆计数、企鹅计数和水果计数。
在现实世界的数据集上进行评估时,对网格应用正确的三维变换可以提高计数精度。三维变换的影响取决于物体的性质,例如可变的姿势和尺寸。并表示这一领域的未来工作将着眼于将所提出的域泛化方法扩展到视频领域,并使用合成数据的深度信息。
已开源:https://github.com/enric1994/dr4oc
论文:https://arxiv.org/abs/2202.08670

#图像质量评估#
A study of deep perceptual metrics for image quality assessment
巴黎理工学院&Safran Group
本次工作,作者提出对基于深度神经网络的感知度量进行实证研究,以解决图像质量评估(IQA)任务。根据不同的超参数,如网络的结构或训练程序,研究深度感知指标。最后,提出 multi-resolution perceptual metric(MR-Perceptual),允许在不同的分辨率下汇总知觉信息,并且在具有不同图像变形的 IQA 任务上优于标准知觉度量。
已开源:https://github.com/ENSTA-U2IS/MR_perceptual
论文:https://arxiv.org/abs/2202.08692

#水下图像增强#
A Wavelet-based Dual-stream Network for Underwater Image Enhancement
伦敦玛丽女王大学
本文提出基于 wavelet 的 dual-stream 网络,用来解决水下图像的偏色和模糊的细节。通过使用离散小波变换将输入图像分解成多个频带,从而产生下采样的结构图像和细节图像,分别处理这些伪影。sub-band 图像被用于dual-stream 网络的输入,该网络包括两个子网络:the multi-color space fusion network(多色空间融合网络)和 the detail enhancement network(细节增强网络)。前者将分解后的结构图像作为输入,并通过采用输入的不同色彩空间的特征表示来估计色彩校正后的输出。后者通过改善高频子带的图像细节来解决原始水下图像的模糊性。
作者在真实世界和合成的水下数据集上验证了所提出的方法,并显示该模型在颜色校正和模糊去除方面的有效性和低计算复杂性。
已开源:https://github.com/ZZiyin/UIE-WD_Code
论文:https://arxiv.org/abs/2202.08758

转载请注明:《【2月18日】七篇(将)开源论文代码分享》