图像语义分析学习,语义分割( 二 )


搜索非常高效,在一个 P100 GPU 上仅需 3 天 。作者在多个语义分割基准数据集上进行了实验,包括 Cityscapes、PASCAL VOC 2012 和 ADE20K 。在未经 ImageNet 预训练的情况下,最佳 Auto-DeepLab 模型在 Cityscapes 测试集上的结果超过 FRRN-B 8.6%,超过 GridNet 10.9% 。
在利用 Cityscapes 粗糙标注数据的实验中,Auto-DeepLab 与一些经过 ImageNet 预训练的当前最优模型的性能相近 。值得注意的是,本研究的最佳模型(未经过预训练)与 DeepLab v3 (有预训练)的表现相近,但在 MultiAdds 中前者的速度是后者的 2.23 倍 。另外,Auto-DeepLab 的轻量级模型性能仅比 DeepLab v3低 1.2%,而参数量需求却少了 76.7%,在 MultiAdds 中的速度是 DeepLab v3的 4.65 倍 。
在 PASCAL VOC 2012 和 ADE29K 上,Auto-DeepLab 最优模型在使用极少数据进行预训练的情况下,性能优于很多当前最优模型 。本论文主要贡献如下:这是首次将 NAS 从图像分类任务扩展到密集图像预测任务的尝试之一 。该研究提出了一个网络级架构搜索空间,它增强和补充了已经得到深入研究的单元级架构搜索,并对网络级和单元级架构进行更具挑战性的联合搜索 。
本研究提出了一种可微的连续方式,保证高效运行两级分层架构搜索,在一个 GPU 上仅需 3 天 。在未经 ImageNet 预训练的情况下,Auto-DeepLab 模型在 Cityscapes 数据集上的性能显著优于 FRRN-B 和 GridNet,同时也和 ImageNet 预训练当前最佳模型性能相当 。
在 PASCAL VOC 2012 和 ADE20K 数据集上,最好的 Auto-DeepLab 模型优于多个当前最优模型 。论文:Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation论文地址:https://arxiv.org/pdf/1901.02985v1.pdf摘要:近期,在图像分类问题上神经架构搜索(NAS)确定的神经网络架构能力超越人类设计的网络 。
本论文将研究用于语义图像分割的 NAS,语义图像分割是将语义标签分配给图像中每个像素的重要计算机视觉任务 。现有的研究通常关注搜索可重复的单元结构,对控制空间分辨率变化的外部网络结构进行人工设计 。这种做法简化了搜索空间,但对于具备大量网络级架构变体的密集图像预测而言,该方法带来的问题很多 。因此,该研究提出在搜索单元结构之外还要搜索网络级架构,从而形成一个分层架构搜索空间 。
本研究提出一种包含多种流行网络设计的网络级搜索空间,并提出一个公式来进行基于梯度的高效架构搜索(在 Cityscapes 图像上使用 1 个 P100 GPU 仅需 3 天) 。本研究展示了该方法在较难的 Cityscapes、PASCAL VOC 2012 和 ADE20K 数据集上的效果 。在不经任何 ImageNet 预训练的情况下,本研究提出的专用于语义图像分割的架构获得了当前最优性能 。
【图像语义分析学习,语义分割】4 方法这部分首先介绍了精确匹配上述分层架构搜索的离散架构的连续松弛,然后讨论了如何通过优化执行架构搜索,以及如何在搜索终止后解码离散架构 。4.2 优化连续松弛的作用在于控制不同隐藏状态之间连接强度的标量现在也是可微计算图的一部分 。因此可以使用梯度下降对其进行高效优化 。作者采用了 [49] 中的一阶近似,将训练数据分割成两个单独的数据集 trainA 和 trainB 。
优化在以下二者之间交替进行:1. 用 ?_w L_trainA(w, α, β) 更新网络权重 w;2. 用 ?_(α,β) L_trainB(w, α, β) 更新架构 α, β 。其中损失函数 L 是在语义分割小批量上计算的交叉熵 。4.3 解码离散架构单元架构和 [49] 一样,本研究首先保留每个构造块的两个最强前任者(predecessor),然后使用 argmax 函数选择最可能的 operator,从而解码离散单元架构 。
网络架构公式 7 本质上表明图 1 中每个蓝色节点处的「outgoing 概率」的总和为 1 。事实上,β 可被理解为不同「时间步」(层数)中不同「状态」(空间分辨率)之间的「transition 概率」 。本研究的目标是从头开始找到具备「最大概率」的的路径 。在实现中,作者可以使用经典维特比算法高效解码该路径 。

推荐阅读