「6月3日」七篇(将)开源论文代码分享

作者 | CV君

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)


#CVPR 2021##语义分割#

1、Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision

北大&微软亚洲研究

本次工作作者通过探索标记数据和额外的未标记数据对半监督语义分割的问题进行了研究。并提出一种新的一致性正则化方法,cross pseudo supervision(CPS)。通过使用从一个网络获得的 one-hot 伪分割图来监督另一个网络,从而使具有相同结构和不同初始化的两个网络之间具有一致性。CPS 的一致性有两个作用:鼓励两个扰动网络对同一输入图像预测的高度相似性,并通过使用带有伪分割图的未标记数据来扩大训练数据。在 Cityscapes 和PASCAL VOC 2012 上实现了最先进的半监督分割性能。

已开源:
https://github.com/charlesCXK/TorchSemiSeg

论文:
https://arxiv.org/abs/2106.01226

「6月3日」七篇(将)开源论文代码分享

#CVPR 2021##图像分类#

2、Towards Robust Classification Model by Counterfactual and Invariant Data Generation

多伦多大学

本次工作专注于图像分类,并提出两个数据生成过程来减少虚假性。即使用各种 counterfactual 和 invariant 数据生成来增强训练数据集,以此使得模型对虚假的相关性更具鲁棒性。并证明在有背景变化的情况下,在具有挑战性的数据集上,该增强措施使其与最先进的显著性正则化和其他鲁棒性基线结果相似或更好的精度。另外,如果将该增强措施与显著性正则化相结合,可以进一步提高性能。在几个具有挑战性的数据集中,所提出数据生成器在准确度上超过了最先进的方法,当 spurious correlations 被打破时,增加对因果特征的显著关注,提供更好的解释。

将开源:
https://github.com/zzzace2000/robust_cls_model

论文:
https://arxiv.org/abs/2106.01127

「6月3日」七篇(将)开源论文代码分享

#CVPR 2021##外手术技能评估#

3、Towards Unified Surgical Skill Assessment

北大&北京肿瘤医院&深睿医疗

传统的手术技能评估涉及艰苦的手工操作,使得效率和可重复性很低。本次研究工作作者试图利用手术视频自动预测手术的完成程度。提出一个灵活和通用的框架,可以从多个方面自动评估手术技能;创建一个新的临床手术数据集;并在模拟和临床手术数据集上都取得不错的结果。

已开源:
https://github.com/Finspire13/Towards-Unified-Surgical-Skill-Assessment

论文:
https://arxiv.org/abs/2106.01035

「6月3日」七篇(将)开源论文代码分享

#目标检测#

4、ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View General-Purpose 3D Object Detection

三星(莫斯科)

本次研究工作中,作者将基于多视角 RGB 的 3D 目标检测任务当作一个端到端的优化问题。为了解决这个问题,提出 ImVoxelNet,全新的基于单目或多视角 RGB 图像的 3D 目标检测的全卷积方法。在训练和推理过程中,每个多视角输入中的单目图像数量可能会发生变化;实际上,这个数字对于每个多视角输入可能是唯一的。ImVoxelNet 可以成功地处理室内和室外场景,因此具备通用性。具体来说,在所有接受 RGB 图像的方法中,它在 KITTI(单目)和 nuScenes(多视角)基准上取得了最先进的汽车检测结果。此外,在 SUN RGB-D 数据集上超过了现有的基于 RGB 的 3D 目标检测方法。在 ScanNet 上,ImVoxelNet 为多视角 3D 目标检测设定了一个新的基准。

已开源:
https://github.com/saic-vul/imvoxelnet

论文:
https://arxiv.org/abs/2106.01178

「6月3日」七篇(将)开源论文代码分享

#图像质量评估#

5、Consumer Image Quality Prediction using Recurrent Neural Networks for Spatial Pooling

深圳大学

提出一个图像质量模型,通过使用一个递归神经网络(RNN),将基于 CNN 的深度特征提取器从不同空间区域(patches)提取的特征进行空间汇集,试图去模仿人类视觉系统(HVS)的注意机制。实验研究通过使用近期所发布的两个图像质量数据集中不同分辨率的图像进行。结果表明所提出方法的质量预测精度与代表最先进水平的基准模型相比是有竞争力的。而且该方法在同一数据集的不同分辨率版本上的表现也很稳定。

已开源:
https://github.com/jarikorhonen/rnnbiqa

论文:
https://arxiv.org/abs/2106.00918

「6月3日」七篇(将)开源论文代码分享

#医学图像检测#

6、nnDetection: A Self-configuring Method for Medical Object Detection

German Cancer Research Center(DKFZ)&Heidelberg University Hospital

nnDetection 为医学目标检测的方法开发开辟了新的视角。它的所有设计选择都在一个与数据集无关的 metalevel 上进行了优化,使得在应用时可以开箱即用地适应特定的数据集,并消除了手动和反复配置方法的负担。在两个公共排行榜(ADAM 和 LUNA16)和 10 个新出的目标检测基准上显示出优于或与最先进的性能相当。

已开源:
https://github.com/MIC-DKFZ/nnDetection

论文:
https://arxiv.org/abs/2106.00817

「6月3日」七篇(将)开源论文代码分享

#遥感图像检测#

7、Rotation Equivariant Feature Image Pyramid Network for Object Detection in Optical Remote Sensing Imagery

格勒诺布尔-阿尔卑斯大学&莱斯特大学

在遥感图像检测任务中,当前的大多数卷积神经网络方法缺乏处理诸如尺寸和旋转变化等挑战的能力。为此,本次研究工作中,提出 rotation equivariant feature image pyramid 网络(REFIPN),基于 rotation equivariance convolution(旋转等变性卷积)的图像金字塔网络。它通过使用新的卷积滤波器在广泛的尺度和方向上提取特征,然后被用来生成 vector fields(矢量场),并确定图像上所有空间位置的最高得分方向的权重和角度。最后,提取的特征通过检测器的预测层。实验结果也证明 REFIPN 模型优于其它方法。

将开源:
https://github.com/pshams55/REFIPN

论文:
https://arxiv.org/abs/2106.00880

「6月3日」七篇(将)开源论文代码分享

转载请注明:《「6月3日」七篇(将)开源论文代码分享