语义图像分割是自动驾驶中基本的街景场景理解任务,高分辨率图像中的每个像素被分类为一组语义标签。与其他场景不同,自动驾驶场景中的对象表现出非常大的尺度变化,这对于高级特征表示来说是极大的挑战,因为多尺度信息必须被正确编码。
为了解决这个问题,引入了无量纲卷积来生成具有较大接受场的特征而不牺牲空间分辨率。基于无量纲卷积,Atrous Spatial Pyramid Pooling(ASPP)提出将多个使用不同膨胀率的非均匀卷积特征连接成最终特征表示。尽管ASPP能够生成多尺度特征,但我们认为尺度轴上的特征分辨率对于自主驾驶场景来说不够密集。为此,我们提出密集连接的Atrous空间金字塔池(DenseASPP),它以密集的方式连接一组卷积层,从而生成不仅覆盖更大尺度范围的多尺度特征,还涵盖规模范围密集,并且没有显着增加模型的大小。
Performance of these checkpoints:
Checkpoint name | Multi-scale inference | Cityscapes mIOU (val) | Cityscapes mIOU (test) | File Size |
---|---|---|---|---|
DenseASPP161 | False True |
78.8% 79.8 % |
– 79.0% |
142.7 MB |
MobileNetDenseASPP | False True |
74.5% 75.0 % |
– – |
10.2 MB |
https://github.com/DeepMotionAIResearch/DenseASPP
转载请注明:《DenseASPP:街道场景语义分割 DenseASPP for Semantic Segmentation in Street Scenes》