CVPR 2021 论文大盘点-场景解析篇

作者 | CV君

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)

继续总结场景解析相关论文,包含3D 场景理解、场景图生成等。共计 15 篇。

大家可以在: https://openaccess.thecvf.com/CVPR2021?day=all 按照题目下载这些论文。


RobustNet: Improving Domain Generalization in Urban-Scene Segmentation via Instance Selective Whitening

作者 | Sungha Choi, Sanghun Jung, Huiwon Yun, Joanne Kim, Seungryong Kim, Jaegul Choo

单位 | LG AI;韩国科学技术院;高丽大学;西江大学

论文 | https://arxiv.org/abs/2103.15597

代码 | https://github.com/shachoi/RobustNet

备注 | CVPR 2021 Oral


CoCoNets: Continuous Contrastive 3D Scene Representations

来自 CMU 的学者提出一种 3D 场景表示方法,利用自监督对比学习和输入的RGB与 RGBD 场景数据学习而来,这种特征表示方法在目标跟踪、检测等下游任务中表现出良好的性能。

作者 | Shamit Lal, Mihir Prabhudesai, Ishita Mediratta, Adam W. Harley, Katerina Fragkiadaki

单位 | 卡内基梅隆大学

论文 | https://arxiv.org/abs/2104.03851

主页 | https://mihirp1998.github.io/project_pages/coconets/

跨模态场景理解

 

Bidirectional Projection Network for Cross Dimension Scene Understanding

作者 | Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong

单位 | 香港中文大学;牛津大学

论文 | https://arxiv.org/abs/2103.14326

代码 | https://github.com/wbhu/BPNet

备注 | CVPR 2021 Oral

点云场景理解

 

RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction

作者 | Yinyu Nie、Ji Hou、Xiaoguang Han、Matthias Nießner

单位 | 香港中文大学(深圳);伯恩茅斯大学;慕尼黑工业大学

论文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Nie_RfD-Net_Point_Scene_Understanding_by_Semantic_Instance_Reconstruction_CVPR_2021_paper.pdf

室内场景解析

 

3D-to-2D Distillation for Indoor Scene Parsing

作者 | Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu

单位 | 香港中文大学;指香港大学

论文 | https://arxiv.org/abs/2104.02243

3D场景理解

 

Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts

本文专注于通过一种新的无监督预训练算法来实现数据高效的 3D 场景理解,该算法在对比学习框架中整合了场景上下文。证明了通过利用表征学习,使用极少的数据或标注来实现具有竞争力性能的可能性。作者表示有希望在三维(互动)数据收集、无监督三维表征学习和大规模三维场景理解方面开辟新的机会。

作者 | Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie

单位 | 慕尼黑工业大学;Facebook

论文 | https://arxiv.org/abs/2012.09165

代码 | https://github.com/facebookresearch/ContrastiveSceneContexts

备注 | CVPR 2021 oral


Holistic 3D Scene Understanding From a Single Image With Implicit Representation

作者 | Cheng Zhang, Zhaopeng Cui, Yinda Zhang, Bing Zeng, Marc Pollefeys, Shuaicheng Liu

单位 | 浙江大学;电子科技大学;谷歌;苏黎世联邦理工学院

论文 | https://arxiv.org/abs/2103.06422

代码 | https://github.com/chengzhag/Implicit3DUnderstanding


Monte Carlo Scene Search for 3D Scene Understanding

作者 | Shreyas Hampali, Sinisa Stekovic, Sayan Deb Sarkar, Chetan Srinivasa Kumar, Friedrich Fraundorfer, Vincent Lepetit

单位 | 格拉茨技术大学;Universite Paris-Est

论文 | https://arxiv.org/abs/2103.07969

主页 | https://www.tugraz.at/index.php?id=50484

3D场景图预测

 

SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D Sequences

SceneGraphFusion,一种三维场景图方法,它将来自几何分割的部分图预测逐步融合到一个全局一致的语义图中。实验结果表明,它在很大程度上优于三维场景图预测方法,其准确性与其他三维语义和全景分割方法相当,同时运行频率为 35 Hz。

作者 | Shun-Cheng Wu, Johanna Wald, Keisuke Tateno, Nassir Navab, Federico Tombari

单位 | 慕尼黑工业大学;谷歌

论文 | https://arxiv.org/abs/2103.14898

代码 | https://github.com/ShunChengWu/SceneGraphFusion

主页 | https://shunchengwu.github.io/SceneGraphFusion

场景图生成SGG

 

Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation

本次工作专注于对视觉关系的语义模糊性进行建模,并提出一个新的即插即用的 Probabilistic Uncertainty Modeling(PUM)模块,可以很容易地部署在任何现有的 SGG 模型中。

在大规模 Visual Genome 基准上的广泛实验表明,将 PUM 与新提出的 ResCAGCN 结合起来可以达到最先进的性能,特别是在平均召回指标下。

作者 | Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu, Yujiu Yang

单位 | 清华大学;电子科技大学;腾讯;香港中文大学;深圳市大数据研究院

论文 | https://arxiv.org/abs/2103.05271


Exploiting Edge-Oriented Reasoning for 3D Point-based Scene Graph Analysis

利用面向边缘的推理进行基于3D点的场景图分析

作者 | Chaoyi Zhang, Jianhui Yu, Yang Song, Weidong Cai

单位 | 悉尼大学;新南威尔士大学

论文 | https://arxiv.org/abs/2103.05558

代码 | https://github.com/chaoyivision/SGGpoint

主页 | https://sggpoint.github.io/


Fully Convolutional Scene Graph Generation

文中提出首个完全卷积的场景图生成模型:FCSGG,与以前的 SGG 模型相比,它更紧凑,计算效率更高。引入一种新的关系表征:relation affinity fields,在未见过的视觉关系上有很好的泛化作用。FCSGG 在零样本召回方面取得强棒的结果。

实验验证所提出模型优于大多数 visualonly SGG方法,并且与由外部知识蒸馏的方法相比,取得了有竞争力的结果。另外,与之前几个关于模型效率的工作进行了比较,FCSG 实现了接近实时的推理。

作者 | Hengyue Liu, Ning Yan, Masood S. Mortazavi, Bir Bhanu

单位 | 加州大学河滨分校;Futurewei Technologies

论文 | https://arxiv.org/abs/2103.16083

备注 | CVPR 2021 Oral


Bipartite Graph Network with Adaptive Message Passing for Unbiased Scene Graph Generation

对于场景图生成任务,由于内在的长尾类分布和巨大的类内变化,仍然具有挑战性。为此,引入 confidence-aware bipartite 图神经网络,该网络具有自适应的信息传播机制,用于无偏见的场景图生成。此外,提出一种高效的双级数据重采样策略,以缓解训练图网络时的不平衡数据分布问题。

在几个具有挑战性的数据集上,包括 Visual Genome, Open Images V4/V6,都取得了比以前方法更好或更有竞争力的性能,证明了其有效性和通用性。

作者 | Rongjie Li, Songyang Zhang, Bo Wan, Xuming He

单位 | 上海科技大学;中科院;国科大;鲁汶大学

论文 | https://arxiv.org/abs/2104.00308

代码 | https://github.com/Scarecrow0/BGNN-SGG


Linguistic Structures as Weak Supervision for Visual Scene Graph Generation

文章介绍一种利用字幕监督来生成场景图的方法。

作者 | Keren Ye, Adriana Kovashka

单位 | 匹兹堡大学

论文 | https://arxiv.org/abs/2105.13994

代码 | https://github.com/yekeren/WSSGG


Energy-Based Learning for Scene Graph Generation

作者 | Mohammed Suhail, Abhay Mittal, Behjat Siddiquie, Chris Broaddus, Jayan Eledath, Gerard Medioni, Leonid Sigal

单位 | 不列颠哥伦比亚大学&Vector Institute for AI&Canada CIFAR AI Chair&亚马逊

论文 | https://arxiv.org/abs/2103.02221

代码 | https://github.com/mods333/energy-based-scene-graph

– END –

编辑:CV君

转载请联系本公众号授权

转载请注明:《CVPR 2021 论文大盘点-场景解析篇