【4月7日】十篇(将)开源论文代码分享

#动作识别##CVPR 2022 Oral#

Temporal Alignment Networks for Long-term Video

牛津大学&上海交通大学

本次任务的目标是建立一个时间对齐网络,可以获取长期的视频序列和相关的文本句子,方便确定一个句子是否可以与视频对齐;如果可以对齐,则确定其对齐。

任务的挑战在于如何从大规模的数据集中训练这样的网络,比如 HowTo100M,其中相关的文本句子有很大的噪音,并且在相关的时候只有弱对齐。除了提出对齐网络外,还做出以下四个贡献:

1、提出一种新的协同训练方法,尽管存在大量的噪声,但它能够对原始教学视频进行去噪和训练,而无需使用人工标注。

2、为了衡量对齐性能,作者手动策划了 HowTo100M 的一个 10 小时的子集,总共 80 个视频,具有稀疏的时间描述。将所提出模型,在 HowTo100M 上面进行训练,结果显示比在强大的基线(CLIP,MIL-NCE)有明显的优势;

3、将训练好的模型在零样本设置中应用于多个下游的视频理解任务,并取得了最先进的结果,包括 YouCook2 上的文本视频检索,以及 Breakfast-Action 上弱监督的视频动作分割。

4、使用自动对齐的 HowTo100M 标注对骨干模型进行端到端的微调,并在下游的动作识别任务中获得更好的性能。

将开源:github.com/TengdaHan/Te

论文:arxiv.org/abs/2204.0296

 


#模型压缩#

LilNetX: Lightweight Networks with EXtreme Model Compression and Structured Sparsification

马里兰大学&谷歌

LilNetX,是一种用于神经网络的端到端可训练技术,能够学习具有特定精度-速率-计算权衡的模型。以前的工作处理这些问题,通常需要后处理或多阶段训练,对于大数据集或架构来说不太实用,而且不能很好地扩展。

所提出方法构建一个联合训练目标,在重新参数化的隐空间中惩罚网络参数的自我信息,以鼓励小的模型尺寸,同时也引入先验参数,以增加参数空间的结构化稀疏度,从而减少计算。

与现有最先进的模型压缩方法相比,在 ResNet-20 上实现了高达 50% 的模型尺寸和 98% 的模型稀疏度,同时在 CIFAR-10 数据集上保持了同样的精度,在 ImageNet 上训练的 ResNet-50 上实现了 35% 的模型尺寸和 42% 的结构化稀疏度

已开源:github.com/Sharath-giri

论文:arxiv.org/abs/2204.0296

 


#目标检测#

Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection

华中科技大学&腾讯PGG

本次工作,作者提出一种方法来有效地适用 masked image modeling(MIM)预训练的 vanilla Vision Transformer(ViT),用于目标检测。它是基于以下两个新发现:

1、即使是随机抽样的部分观察,例如只有 25%~50% 的输入序列,一个 MIM 预训练的 vanilla ViT 也能在具有挑战性的 object-level 识别场景中表现良好。

2、 为了构建用于目标检测的多尺度表征,一个随机初始化的紧凑卷积 stem 代替了预先训练的大核 patchify stem ,其中间特征可以自然地作为特征金字塔的高分辨率输入,而不需要向上取样。而预训练的ViT仅被视为检测器骨干的第三阶段,而不是整个特征提取器,从而形成一个ConvNet-ViT混合架构。

所提出的检测器被命名为 MIMDet,使 MIM 预训练的 vanilla ViT 在 COCO 上的表现优于层次化的 Swin Transformer 2.3 box AP和 2.5 个 mask AP,与其他使用更适度的微调配方的 vanilla ViT 相比,甚至取得了更好的结果,同时收敛速度快了2.8倍

已开源:github.com/hustvl/MIMDe

论文:arxiv.org/abs/2204.0296

 


#时序动作检测##CVPR 2022#

An Empirical Study of End-to-End Temporal Action Detection

华中科技大学&字节跳动

Temporal Action Detection(TAD)是视频理解中一项重要但具有挑战性的任务。它的目的是同时预测未修剪视频中每个动作实例的语义标签和时间间隔。大多数现有的方法不是端到端学习,而是采用 head-only 学习模式,即视频编码器被预先训练为动作分类,而只有编码器上的检测头被优化为 TAD。端到端学习的效果并没有得到系统的评估。此外,对端到端 TAD 的效率-精度权衡也缺乏深入研究

本文提出一个关于端到端时序动作检测的经验性研究,并验证了端到端学习相对于 head-only 学习的优势,发现高达 11% 的性能改进。此外,还研究了影响 TAD 性能和速度的多种设计选择的效果,包括检测头、视频编码器和输入视频的分辨率。

基于上述发现,建立一个中等分辨率的基线检测器,可以达到端到端方法的最先进的性能,同时运行速度快 4 倍以上

将开源:github.com/xlliu7/E2E-T

论文:arxiv.org/abs/2204.0293

 


#域适应##Source-free Domain Adaptation#

BMD: A General Class-balanced Multicentric Dynamic Prototype Strategy for Source-free Domain Adaptation

同济大学&悉尼大学&中国科学技术大学&北京科技大学&京东

Source-free Domain Adaptation(SFDA)旨在使预先训练好的源模型适应于未标记的目标域,而不需要访问标记好的源数据,由于数据隐私、安全和传输问题,这是更实际的设置。为了弥补源数据的缺失,大多数现有的方法引入了基于特征原型的伪标签策略来实现自训练的模型适应。然而,特征原型是通过基于实例级预测的特征聚类得到的,这是有类别偏见的,而且往往会导致噪声标签,因为源和目标之间的视觉域差距通常在类别之间是不同的。

此外,作者称单中心特征原型可能无法有效地代表每个类别,并引入负迁移,特别是对于那些难迁移的数据。为了解决这些问题,为 SFDA 任务提出一个通用的类别-平衡多中心动态原型(BMD)策略。具体来说,对于每个目标类别,首先引入一个全局性的类间平衡抽样策略来聚集隐代表性目标样本。然后,设计了一个类内多中心聚类策略,以实现更鲁棒和有代表性的原型生成。

与现有的在固定训练期更新伪标签的策略相比,进一步引入动态伪标签策略,以在模型适应期间纳入网络更新信息。广泛的实验表明,所提出的模型诊断性的 BMD 策略大大改善了代表性的 SFDA 方法,产生了新的最先进的结果,例如,在VisDA-C上将SHOT从82.9%提高到85.8%,在PointDA上将NRC从52.6%提高到57.0%

已开源:github.com/ispc-lab/BMD

论文:arxiv.org/abs/2204.0281

 


Georeferencing of Photovoltaic Modules from Aerial Infrared Videos using Structure-from-Motion

为了经济地识别大规模光伏电站中的异常光伏组件,经常使用无人机安装的红外(IR)相机和自动视频处理算法。虽然大多数相关工作都集中在异常组件的检测上,但在自动定位电站内的这些组件方面却做得很少。

在本次工作中,作者根据视觉线索和测量的无人机 GPS 轨迹,使用从运动中获得增量的结构来自动获得工厂中所有光伏组件的地理坐标。此外,还提取每个光伏组件的多个红外图像。使用此方法,可以成功地 map 四个大型工厂和一个屋顶工厂的 35084 个模块中的 99.3%,并提取超过 220 万个模块图像。与以前的工作相比,提取过程中遗漏的模块少了18倍(每140个模块中有一个,而每8个模块中有一个)。此外,可以同时处理两个或三个plant rows ,增加了模块的吞吐量,并将飞行时间分别减少了2.1和3.7倍

已开源:github.com/LukasBommes/

论文:arxiv.org/abs/2204.0273

 


#语义分割#

PP-LiteSeg: A Superior Real-Time Semantic Segmentation Model

百度

对于语义分割任务,其实时方法的性能仍待提升。本文提出 PP-LiteSeg,一种用于实时语义分割任务的新型轻型模型。具体来说,提出一个灵活轻便的解码器(FLD),以减少以前解码器的计算开销。为了加强特征表示,提出一个统一注意力融合模块(UAFM),它利用空间和通道注意力产生一个权重,然后将输入的特征与该权重融合。此外,还提出一个 Simple Pyramid Pooling Module(SPPM),以低计算成本聚集全局上下文。

通过广泛的评估表明,与其他方法相比,PP-LiteSeg 在准确性和速度之间实现了卓越的权衡。在Cityscapes测试集上,PP-LiteSeg在NVIDIA GTX 1080Ti上实现了72.0% mIoU/273.6 FPS和77.5% mIoU/102.6 FPS

已开源:github.com/PaddlePaddle

论文:arxiv.org/abs/2204.0268

 


#图像分割##CVPR 2022#

FocalClick: Towards Practical Interactive Image Segmentation

阿里&浙江大学&香港大学&麻省理工学院

交互式分割允许用户通过进行 positive/negative 点击来提取目标掩码。在之前的工作中进行的研究,但在学术方法和工业需求之间仍有差距:首先,现有的模型不够高效无法在低功率设备上工作;其次,在用于完善已有的掩模时,它们的表现很差,因为它们无法避免破坏正确的部分

本文所提出的 FocalClick 通过预测和更新局部区域的掩码,一次解决了上述两个问题。为了提高效率,将对整个图像的缓慢预测分解为对小作物的两个快速推断:对目标对象的粗略分割,以及对重点对象的局部细化。为了使该模型与预先存在的掩码一起工作,制定一个子任务,Interactive Mask Correction,并提出渐进式合并作为解决方案。渐进式合并利用形态学信息来决定哪里需要保留,哪里需要更新,使用户能够有效地完善任何预先存在的蒙版。

FocalClick取得了与SOTA方法竞争的结果,其FLOPs明显较小。在对预先存在的蒙版进行修正时,它也显示出明显的优势。

已开源:github.com/XavierCHEN34

论文:arxiv.org/abs/2204.0257

 


#CVPR2022 Oral##Transformer#

MixFormer: Mixing Features across Windows and Dimensions

百度&中科院

文章提出 MixFormer 作为一个高效的通用 Vision Transformer。针对基于窗口的 Vision Transformer 中存在的问题,试图缓解有限的感受野和通道维度上薄弱的建模能力。所提出的 MixFormer 有效地扩大了感受野,而不需要 shifting 或 shuffling windows,这要归功于耦合了局部窗口和深度卷积的平行设计。双向的交互作用分别在通道和空间维度上提高了局部窗口自注意和深度卷积的建模能力。

广泛的实验表明,MixFormer在图像分类和各种下游视觉任务上优于其它作品。作者表示希望 MixFormer 中的设计可以作为设计高效网络的基础设置。

已开源:github.com/PaddlePaddle

论文:arxiv.org/abs/2204.0255

 


#CVVPR 2022##LOGO设计##文本生成#

Aesthetic Text Logo Synthesis via Content-aware Layout Inferring

北大&腾讯

文字 logo 设计在很大程度上依赖于专业设计师的创造力和专业知识,其中安排元素布局是最重要的程序之一。然而,人们对这项需要考虑许多因素(如字体、语言学、主题等)的任务很少关注。

本文提出一个内容感知的布局生成网络,它将字形图像及其相应的文本作为输入,并自动为其合成美学布局。具体来说,开发一个双鉴别器模块,包括一个序列鉴别器和一个图像鉴别器,以分别评估合成的文字 logo 的字符放置轨迹和渲染形状。此外,融合来自文本的语言学信息和来自字形的视觉语义学信息来指导版面预测,这两者在专业版面设计中都起着重要作用。为了训练和评估所提出方法,还构建一个数据集,TextLogo3K,其中包括大约 3500 个文字 logo 图像及其像素级标注。

在这个数据集上的实验研究证明了所提出方法在合成视觉上优美的文字 logo 方面的有效性,还验证了其相对于现有技术水平的优越性。

将开源:github.com/yizhiwang96/

论文:arxiv.org/abs/2204.0270

转载请注明:《【4月7日】十篇(将)开源论文代码分享