CVPR 2020|不惧目标遮挡,英伟达提出全景感知的图像合成方法

 

英伟达在新公布的论文 Panoptic-based Image Synthesis 中提出一种全景感知的图像合成方法,大大提高了图像生成质量,即便是在多个物体实例相互遮挡的场景,也能生成清晰可分离的的实例图像。

该文指出以往的图像生成往往以“语义图“作为输入,而作者认为将“语义图”与“实例图”统一起来的“全景图”提供了更多的场景信息,用于图像生成更好。

01 方法
作者在卷积层和上采样层有效使用了全景图。网络架构: 

作者提出的全景感知上采样模块:
0结果
能够在具有复杂实例交互场景中生成高质量图像,即使场景中含有更多细节信息的小目标。

除了人眼视觉效果比较外,为更客观量化评估算法生成质量,作者使用语义分割模型DeepLabV2DRN-D-105对生成图像进行语义分割再与ground truth 语义图进行比较,

另外还引入了使用Faster RCNN目标检测结果的比较。
生成图像与之前方法的比较:

 

在Cityscapes数据集上与其他方法的结果比较:

 

在COCO-Stuff数据集上与其他方法的结果比较:

在Cityscapes数据集上分类别的mIoU结果比较:
该文方法在除了pole和rider两类上均为第一。

 

合成图像示例及目标检测结果:

 

 

结果显示该文提出的方法在mIoU(Intersection over Union)和detAP(Detection Average Precision)上均打败了之前的SOTA方法。

03 传送门
论文地址:https://arxiv.org/pdf/2004.10289.pdf
目前还未发现该文有开源代码。       

转载请注明:《CVPR 2020|不惧目标遮挡,英伟达提出全景感知的图像合成方法