【11月23日】八篇(将)开源论文代码分享

作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)

#目标检测#

Multi-modal Transformers Excel at Class-agnostic Object Detection

Mohamed bin Zayed University of AI&澳大利亚国立大学&阿尔托大学&加利福尼亚大学美熹德分校&延世大学&谷歌

本篇文章展示了仅在自然图像上训练的 MViTs 在不同领域的通用 OD 上引人瞩目的表现。以及系统地研究了这种泛化的主要原因,并注意到用于训练 MViTs 的图像-字幕对中的语言结构起到了关键作用。

基于这些见解,为现成的类诊断性 OD 开发一种更灵活、更高效的 MViT,它可以通过不同的文本查询来生成所需的 proposal 集。此外,还展示了各种使用案例,在这些案例中,可以使用类别无关的 proposals 来提高性能,例如,开放世界的 OD,伪装和显著 OD,监督和自监督的OD。

已开源:github.com/mmaaz60/mvit

论文:arxiv.org/abs/2111.1143

 


#航空影像检测#

FCOSR: A Simple Anchor-free Rotated Detector for Aerial Object Detection

西安电子科技大学

目标是提出一种用于航空图像检测的简单且易于部署的算法。

本次工作提出一个基于FCOS的单阶段无锚旋转目标检测器(FCOSR),它可以被部署在大多数平台上。FCOSR 有一个简单的架构,仅由卷积层组成。本次的工作重点是训练阶段的标签分配策略。作者使用椭圆中心取样法来定义一个合适的定向边界框(OBB)的取样区域。模糊的样本分配策略为重叠的对象提供了合理的标签。

为了解决采样不足的问题,设计一个多级采样模块。这些策略为训练样本分配了更合适的标签。该算法在 DOTA1.0、DOTA1.5 和 HRSC2016 数据集上分别实现了 79.25、75.41 和 90.15 的 mAP。FCOSR 在单尺度评估中表现出优于其他方法的性能。将一个轻量级的FCOSR模型转换为 TensorRT 格式,在 Jetson Xavier NX 上以 10.68 FPS 的速度在 DOTA1.0 上实现了 73.93 mAP 的单一规模。

将开源:github.com/lzh420202/FC

论文:arxiv.org/abs/2111.1078

 


#视频目标分割##光流#

FAMINet: Learning Real-time Semi-supervised Video Object Segmentation with Steepest Optimized Optical Flow

北航&Institute for Infocomm Research

半监督视频目标分割(VOS)旨在分割视频序列中的一些移动物体,这些物体是由第一帧标注指定的。许多现有的半监督VOS方法都考虑了光流,以提高分割的准确性。然而,由于光流估计的高度复杂性,基于光流的半监督VOS方法不能实时运行。

本次工作提出一个由特征提取网络(F)、外观网络(A)、运动网络(M)和集成网络(I)组成的 FAMINet,用来解决上述问题。

外观网络根据物体的静态外观输出一个初始分割结果。运动网络通过很少的参数来估计光流,这些参数通过一种名为松弛陡降的在线记忆算法快速优化。整合网络使用光流来完善初始分割结果。

广泛的实验表明,FAMINet 在 DAVIS 和 YouTube-VOS 基准上优于其他最先进的半监督 VOS 方法,并且它在准确性和效率之间实现了良好的权衡。

已开源github.com/liuziyang123

论文:arxiv.org/abs/2111.1053

 


#Transformer#

MetaFormer is Actually What You Need for Vision

Sea AI Lab&新加坡国立大学

Transformers 在计算机视觉任务中显示出巨大的潜力。一个普遍的看法是他们基于注意力的标记混合器模块对他们的能力贡献最大。然而,近期的工作表明,Transformers 中基于注意力的模块可以被空间 MLPs 所取代,所产生的模型仍然表现得相当好。基于这一观察,作者假设 Transformers 的总体结构,而不是具体的标记混合器模块,对模型的性能更为重要。

为了验证这一点,作者特意用一个令人尴尬的简单的空间池算子来代替Transformer 中的注意力模块,只进行最基本的标记混合。令人惊讶的是,所观察到衍生的模型,PoolFormer,在多个计算机视觉任务上取得了有竞争力的表现。例如,在 ImageNet-1K 上,PoolFormer 达到了82.1%的 top-1 准确率,以少 35%/52% 的参数和 48%/60% 的 MAC,超过了精心调校的 vision transformer/MLP-like 的基线 DeiT-B/ResMLP-B24 的 0.3%/1.1% 准确率。

PoolFormer的有效性验证了前面的假设,促使提出 “MetaFormer “的概念,是一个从 Transformer 中抽象出来的通用架构,没有指定标记混合器。基于广泛的实验,认为 MetaFormer是近期 Transformer 和 MLP-like 的模型在视觉任务上取得优异成绩的关键角色。

本次工作要求未来有更多的研究致力于改进 MetaFormer,而不是专注于 token mixer 模块。此外,作者表示所提出的 PoolFormer 可以作为未来 MetaFormer 架构设计的一个起始基线。

已开源github.com/sail-sg/pool

论文:arxiv.org/abs/2111.1141

 


#Transformer#

DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion

索邦大学&Heuritech&Facebook&valeo

DyTox,基于 transformer 的架构,一种新的持续学习的动态策略。在所有的任务中共享早期层,并扩展特殊的任务标记以产生任务专用的嵌入。与以前的工作相反,该动态策略既没有明显的内存开销,也不需要复杂的超参数调整。

实验表明,所提出框架可以扩展到大型数据集,如 ImageNet1000,并具有最先进的性能。此外,与之前的动态策略相反,参数数在大量任务(CIFAR100 50步)上大量增长。与通常的 ResNet 相比,该新型框架可以在不同的架构上展开更多的研究,以解决灾难性遗忘问题。

将开源:github.com/arthurdouill

论文:arxiv.org/abs/2111.1132

 


#神经渲染#

Direct Voxel Grid Optimization: Super-fast Convergence for Radiance Fields Reconstruction

台湾清华大学

文中提出一种超快的收敛方法,从一组以已知姿势捕捉场景的图像中重建每个场景的辐射场。该任务经常被应用于新的视图合成,近期因其最先进的质量和灵活性而被神经辐射场(NeRF)彻底改变。然而,NeRF 及其变种需要漫长的训练时间,单个场景的训练时间从几小时到几天不等。相比之下,所提出方法实现了与NeRF相媲美的质量,并且使用单个 GPU 在不到 15 分钟的时间内从头开始快速收敛。

作者采用一种由密度 voxel 网格和特征 voxel 网格组成的表示方法,密度体素网格用于场景几何,特征体素网格用于复杂的视线依赖的外观。用显式和离散的体积表示法进行建模并不新鲜,但作者提出了两个简单但非不必要的技术,有助于快速收敛速度和高质量的输出。

首先,介绍体素密度的后激活插值,它能够在较低的网格分辨率下产生清晰的表面。其次,直接的体素密度优化容易产生次优的几何解决方案,因此通过施加几个先验因素来稳固优化过程。最后,对五个 inward-facing 基准的评估表明,所提出方法与NeRF的质量相匹配,甚至超过了NeRF,但对一个新场景从头开始训练只需要大约15分钟。

已开源:github.com/sunset1995/D

论文:arxiv.org/abs/2111.1121

 


#文本到图像生成##图像到文本生成#

L-Verse: Bidirectional Generation Between Image and Text

LG AI Research

L-Verse,一个用于图像和文本之间双向生成的新型框架。其中特征增强变异自动编码器(AugVAE)实现了新的最先进的重建 FID,并显示了其作为生成模型的通用骨干编码器-解码器的潜力。还通过 segment embedding 实现了自回归 transformer的双向训练。所提出 BiART 将文本到图像和图像到文本作为一个整体进行学习。

实验结果表明,L-Verse 框架在图像到文本和文本到图像的生成任务中都显示出显著的性能。

将开源:github.com/tgisaturday/

论文:arxiv.org/abs/2111.1113

 


#自监督#

Towards Tokenized Human Dynamics Representation

微软亚洲研究院&哈佛大学

本次工作,主要研究了如何以自监督的方式将视频分割和聚类为反复出现的时间模式,即 acton discovery,这是视频标记化的主要障碍。

作者提出一个两阶段的框架,首先通过对比视频帧的两个增强视图,根据它们的时间背景,获得一个帧的代表。然后,通过 K-means 对整个视频集合的帧状表示进行聚类。然后,通过在同一聚类中的帧形成一个连续的运动序列来自动提取动子。通过Kendall’s Tau 来评估分帧表征学习步骤,并通过归一化互信息和语言熵来评估词典构建步骤。

以及对这种标记化的三种应用:genre classification(流派分类)、action segmentation(动作分割)和 action composition(动作组合)进行了研究。在AIST++和PKU-MMD数据集上,与几个基线相比,actons 带来了显著的性能改进。

将开源:github.com/likenneth/ac

论文:arxiv.org/abs/2111.1143

转载请注明:《【11月23日】八篇(将)开源论文代码分享