这5种计算机视觉技术,刷新你的世界观( 四 )


FCNT成功分析并利用VGG模型的特征图 , 这是一个经过预先训练的ImageNet , 并产生以下观察结果:
CNN特征图可用于定位和跟踪 。
许多CNN特征图区分特定目标与其背景的任务是嘈杂的或不相关的 。
较高层捕获对象类别的语义概念 , 而较低层编码更多的判别特征以捕获类内变异 。
由于这些观察 , FCNT设计了特征选择网络 , 以在VGG网络的conv4-3和conv5-3层上选择最相关的特征图 。 然后 , 为了避免在噪声上过拟合 , 它还分别为两个层的选定特征图设计了额外的两个通道(称为SNet和GNet) 。 GNet捕获目标的类别信息 , 而SNet将目标位置为中心的感兴趣区域(ROI) 。 最后 , 通过SNet和GNet , 分类器获得两个预测热图 , 并且跟踪器根据是否存在干扰者来决定将使用哪个热图来生成最终跟踪结果 。 FCNT的流程如下所示 。
与FCNT的想法不同 , MD Net使用视频的所有序列来跟踪其中的移动物体 。 上述网络使用不相关的图像数据来减少跟踪数据的训练需求 , 这种想法与跟踪有一些偏差 。 此视频中一个类的目标可以是另一个视频中的背景 , 因此MD Net提出了多域的概念 , 以独立区分每个域中的目标和背景 。 域表示包含相同类型目标的一组视频 。
如下所示 , MD Net分为两部分:共享层和特定域层的K分支 。 每个分支包含一个具有softmax损失的二进制分类层 , 用于区分每个域中的目标和背景 , 以及共享层与所有域共享以确保一般性表示 。
近年来 , 深度学习研究人员尝试了不同的方法来适应视觉跟踪任务的特征 。 他们已经探索了许多方向:应用其他网络模型 , 如递归神经网络和深度置信网络 , 设计网络结构以适应视频处理和端到端学习 , 优化过程 , 结构和参数 , 或者甚至将深度学习与传统的计算机视觉方法或语言处理和语音识别等其他领域的方法相结合 。
4--语义分割
计算机视觉的核心是分割过程 , 它将整个图像分成像素组 , 然后可以对其进行标记和分类 。 特别是 , 语义分割试图在语义上理解图像中每个像素的作用(例如 , 它是汽车 , 摩托车还是其它类型的类?) 。 例如 , 在上图中 , 除了识别人 , 道路 , 汽车 , 树木等之外 , 我们还必须描绘每个物体的边界 。 因此 , 与分类不同 , 我们需要从模型中进行密集的逐像素预测 。
与其他计算机视觉任务一样 , CNN在分割问题上取得了巨大成功 。 其中一种流行的初始方法是通过滑动窗口进行补丁分类 , 其中每个像素使用其周围的图像分别分为类 。 然而 , 这在计算上是非常低效的 , 因为我们不重用重叠补丁之间的共享特征 。
相反 , 解决方案是加州大学伯克利分校的全卷积网络(FCN) , 它推广了端到端的CNN架构 , 用于密集预测而无需任何全连接层 。 这允许为任何大小的图像生成分割图 , 并且与补丁分类方法相比也快得多 。 几乎所有后续的语义分割方法都采用了这种范式 。
然而 , 仍然存在一个问题:原始图像分辨率下的卷积将非常昂贵 。 为了解决这个问题 , FCN在网络内部使用下采样和上采样 。 下采样层称为条纹卷积 , 而上采样层称为反卷积 。
尽管采用了上采样/下采样层 , 但由于在池化期间信息丢失 , FCN会生成粗分割图 。 SegNet 是一种比使用最大池化和编码 - 解码器框架的FCN更高效的内存架构 。 在SegNet中 , 从更高分辨率的特征映射引入快捷/跳跃连接 , 以改善上采样/下采样的粗糙度 。
最近的语义分割研究在很大程度上依赖于全卷积网络 , 例如扩张卷积 , DeepLab和RefineNet 。

推荐阅读