【1月17日】四篇(将)开源论文代码分享

作者 | CV君
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)

#自监督学习##视频场景分割#

Boundary-aware Self-supervised Learning for Video Scene Segmentation

Kakao Brain&首尔大学&汉阳大学

BaSSL,一个用于视频场景分割的自监督框架,特别是用来学习镜头之间的上下文关系。具体来说,通过将一个镜头序列分割成两个连续的、不重叠的子序列来发现一个pseudo-boundary ,并利用它来促进预训练。

在此基础上,介绍三个新的边界感知的预案任务:Shot-Scene Matching(SSM),Contextual Group Matching(CGM)和 Pseudo-boundary Prediction(PP);SSM 和 CGM 引导模型最大化场景内的相似性和场景间的区别,而 PP 鼓励模型识别 transitional 时刻。

通过综合分析表明,预训练和迁移上下文表征对于提高视频场景分割性能都是至关重要的。并在 MovieNet-SSeg 基准上达到了新的 SOTA。

已开源:github.com/kakaobrain/b

论文:arxiv.org/abs/2201.0527

 

 


#Human activity discovery#

A Novel Skeleton-Based Human Activity Discovery Technique Using Particle Swarm Optimization with Gaussian Mutation

文莱达鲁萨兰大学

人类活动发现旨在区分人类所进行的活动,而不需要事先了解每项活动的定义。人类活动识别中提出的大多数方法都是有监督的,其中有标记的输入来训练系统。在现实中,由于数据量巨大且人类活动种类繁多,因此很难对数据进行标注。

本文提出一种新的无监督方法来进行三维骨架序列中的人类活动发现。首先,根据 kinetic energy(动能)选择重要的框架。接下来,提取关节的位移、统计集合、角度和方向特征来表示活动信息。由于并非所有提取的特征都有有用的信息,因此使用 PCA 降低特征的维度。大多数的人类活动发现方法都不是完全无监督的,在对活动进行分类之前使用预先分割的视频。

为了解决这个问题,作者使用 fragmented sliding time window 方法来分割有一些重叠的活动的时间序列。然后,通过一种新型的混合粒子群优化和高斯变异算法来发现活动,以避免卡在局部最优。最后,K-means被应用于结果中心点,以克服PSO的缓慢速率。

在三个数据集上进行了实验,结果表明,与其他最先进的方法相比,所提出的方法在发现活动的所有评价参数方面都有卓越的表现,并且平均提高了至少4%的准确性。

已开源:github.com/parhamhadikh

论文:arxiv.org/abs/2201.0531

 

 


#视觉定位##SLAM#

SRVIO: Super Robust Visual Inertial Odometry for dynamic environments and challenging Loop-closure conditions

Amirkabir University of Technology

视觉定位或测距问题是自主机器人和汽车领域的一个著名挑战。传统上,这个问题可以在昂贵的传感器(如激光雷达)的帮助下得到解决。如今,领先的研究是使用经济的传感器,如相机和IMU,进行鲁棒的定位。基于这些传感器的几何方法在照明稳定、没有动态物体的正常条件下是相当好的。

而在具有挑战性的环境中则遭受重大损失和分歧。研究人员开始使用深度神经网络(DNNs)作为缓解这一问题的救星。使用DNN的主要想法是为了更好地理解数据内部的问题,并克服复杂的条件(如摄像机前面的动态物体、极端的照明条件、保持高速的轨道等)。之前的端到端DNN方法能够克服上述的一些挑战。然而,目前还没有适用于所有这些情况的通用和强大的框架。

本次工作,作者将几何学和基于DNN的方法结合起来,以获得几何学 SLAM 框架的优点,并在 DNN 的帮助下克服其余挑战。为了做到这一点,作者修改了Vins-Mono框架(迄今为止最鲁棒和准确的框架),与基于几何和端到端DNN的SLAM相比,能够在TUM-Dynamic、TUM-VI、ADVIO和EuRoC数据集上获得最先进的结果。所提出提出的框架也能够在类似于前面提到挑战的极端模拟情况下取得可接受的结果。

将开源:github.com/aa-samad/srv

论文:arxiv.org/abs/2201.0538

 

 


#图像配准#

Multimodal registration of FISH and nanoSIMS images using convolutional neural network models

佐治亚大学

Nanoscale secondary ion mass spectrometry(nanoSIMS)和荧光原位杂交(FISH)显微镜在微生物研究中分别为目标微生物群体的身份和细胞活动提供高分辨率、多模式的图像表示。尽管它对微生物学家很重要,但鉴于FISH和nanoSIMS图像的形态失真和背景噪音,这两种图像的多模态配准是具有挑战性的。

在本次研究任务中,作者使用卷积神经网络(CNN)进行多尺度特征提取,形状上下文用于计算最小转换成本的特征匹配,以及薄板样条插值(TPS)模型用于FISH和nanoSIMS图像的多模态配准。在 VGG16、VGG19、GoogLeNet和ShuffleNet、ResNet18和ResNet101 六个测试的CNN模型上都表现良好,证明了CNN在具有明显背景噪声和形态失真的多模态图像配准中的效用。还表明,通过二值化保留的总体形状是配准多模态微生物学相关图像的一个鲁棒特征。

已开源bitbucket.org/MeileLab/

论文:arxiv.org/abs/2201.0554

转载请注明:《【1月17日】四篇(将)开源论文代码分享