图像语义分析学习,语义分割( 三 )


图 1:左图是 L = 12 时的网络级搜索空间 。灰色节点表示固定的「stem」层,沿着蓝色节点形成的路径表示候选网络级架构 。右图展示了搜索过程中,每个单元是一个密集连接的结构 。5 实验结果图 3:使用本研究提出的分层神经架构搜索方法找到的最优网络架构和单元架构 。灰色虚线箭头表示每个节点处具备最大 β 值的连接 。
atr 指空洞卷积(atrous convolution),sep 指深度可分离卷积(depthwise-separable convolution) 。图 4:在 10 次随机试验中,40 个 epoch 中架构搜索优化的验证准确率 。表 2:不同 Auto-DeepLab 模型变体在 Cityscapes 验证集上的结果 。
F:控制模型容量的 filter multiplier 。所有 Auto-DeepLab 模型都是从头开始训练,且在推断过程中使用单尺度输入 。表 3:Cityscapes 验证集结果 。研究采用不同的训练迭代次数(50 万、100 万与 150 万次迭代)和 SDP(Scheduled Drop Path)方法进行实验 。
所有模型都是从头训练的 。表 4:模型在推断过程中使用多尺度输入时在 Cityscapes 测试集上的结果 。ImageNet:在 ImageNet 上预训练的模型 。Coarse:利用粗糙注释的模型 。表 5:PASCAL VOC 2012 验证集结果 。本研究采用多尺度推理(MS,multi-scale inference)和 COCO 预训练检查点(COCO)进行实验 。
在未经任何预训练的情况下,本研究提出的最佳模型(Auto-DeepLab-L)超越了 DropBlock 20.36% 。所有的模型都没有使用 ImageNet 图像做预训练 。表 6:PASCAL VOC 2012 测试集结果 。本研究提出的 AutoDeepLab-L 取得了可与众多在 ImageNet 和 COCO 数据集上预训练的顶级模型相媲美的结果 。
表 7:ADE20K 验证集结果 。在推断过程中使用多尺度输入 。? 表示结果分别是从他们最新的模型 zoo 网站获得的 。ImageNet:在 ImageNet 上预训练的模型 。Avg:mIOU 和像素准确率的均值 。图 5:在 Cityscapes 验证集上的可视化结果 。最后一行展示了本研究提出方法的故障模式,模型将一些较难的语义类别混淆了,如人和骑车的人 。

推荐阅读