图像语义分析学习,语义分割

图像语义分割的模型设计也能自动化了吗?

图像语义分析学习,语义分割


过去,神经网络架构大部分都是由人类研究者手动开发的,这个过程非常耗时且容易出错 。神经架构自动搜索(NAS)技术解放了人类工作,也让模型效率有了提升 。在大规模图像分类问题上,自动算出的模型已经超越了人类设计的模型 。近日,斯坦福大学李飞飞组的研究者提出了 Auto-DeepLab,其在图像语义分割问题上超越了很多业内最佳模型,甚至可以在未经过预训练的情况下达到预训练模型的表现 。
Auto-DeepLab 开发出与分层架构搜索空间完全匹配的离散架构的连续松弛,显著提高架构搜索的效率,降低算力需求 。深度神经网络已经在很多人工智能任务上取得了成功,包括图像识别、语音识别、机器翻译等 。虽然更好的优化器 [36] 和归一化技术 [32, 79] 在其中起了重要作用,但很多进步要归功于神经网络架构的设计 。
在计算机视觉中,这适用于图像分类和密集图像预测 。表 1:本研究提出的模型 Auto-DeepLab 和其它双层 CNN 架构的对比 。主要区别有:(1) Auto-DeepLab 直接搜索用于语义分割的 CNN 架构;(2) Auto-DeepLab 搜索网络级架构和单元级架构;(3) Auto-DeepLab 的高效搜索在一个 P100 GPU 上仅需 3 天 。
最近,在 AutoML 和 AI 民主化的影响下,人们对自动化设计神经网络架构产生了极大兴趣,自动化设计神经网络无需严重依赖专家经验和知识 。更重要的是,去年神经架构搜索(NAS)成功找到了在大规模图像分类任务上超越人类设计架构的网络架构 [92, 47, 61] 。图像分类对 NAS 来说是一个很好的起点,因为它是最基础且研究最深入的高级识别任务 。
此外,该研究领域存在具有规模相对较小的基准数据集(如 CIFAR-10),从而减少了计算量并加快了训练速度 。然而,图像分类不应该是 NAS 的终点,现下的成功表明它可以扩展至要求更高的领域 。在本文中,作者研究了用于语义图像分割的神经架构搜索 。这是一项重要的计算机视觉任务,它为输入图像的每个像素分配标签,如「人」或「自行车」 。
简单地移植图像分类的方法不足以进行语义分割 。在图像分类中,NAS 通常使用从低分辨率图像到高分辨率图像的迁移学习 [92],而语义分割的最佳架构必须在高分辨率图像上运行 。这表明,本研究需要:(1) 更松弛、更通用的搜索空间,以捕捉更高分辨率导致的架构变体;(2) 更高效的架构搜索技术,因为高分辨率需要的计算量更大 。
作者注意到,现代 CNN 设计通常遵循两级分层结构,其中外层网络控制空间分辨率的变化,内层单元级架构管理特定的分层计算 。目前关于 NAS 的绝大多数研究都遵循这个两级分层设计,但只自动化搜索内层网络,而手动设计外层网络 。这种有限的搜索空间对密集图像预测来说是一个问题,密集图像预测对空间分辨率变化很敏感 。
因此在本研究中,作者提出了一种格子状的网络级搜索空间,该搜索空间可以增强 [92] 首次提出的常用单元级搜索空间,以形成分层架构搜索空间 。本研究的目标是联合学习可重复单元结构和网络结构的良好组合,用于语义图像分割 。就架构搜索方法而言,强化学习和进化算法往往是计算密集型的——即便在低分辨率数据集 CIFAR-10 上,因此它们不太适合语义图像分割任务 。
受 NAS 可微分公式 [68, 49] 的启发,本研究开发出与分层架构搜索空间完全匹配的离散架构的连续松弛 。分层架构搜索通过随机梯度下降实施 。当搜索终止时,最好的单元架构会被贪婪解码,而最好的网络架构会通过维特比算法得到有效解码 。作者在从 Cityscapes 数据集中裁剪的 321×321 图像上直接搜索架构 。

推荐阅读