ilsvrc,遭reddit网友质疑

新手初入人工智能(图像处理方向),我该向什么方向发展?

ilsvrc,遭reddit网友质疑


计算机视觉方向目前主要有几大方向比较热门,我下面将分别从他们的发展过程与现状以及怎么入门学习来进行介绍 。首先,计算机视觉的主要方向有:图像分类人脸识别目标检测图像分割关键点检测文字识别OCR编程与数学基础首先,人工智能毕竟是一个计算机学科,需要具备基本的编程功底与数学能力 。具体来说,编程方面,需要熟悉Python编程,熟悉Numpy,Pandas,Opencv等库的使用,同时还得熟悉某个深度学习框架的使用,比如TensorFlow,Keras,PyTorch,Caffe等 。
【ilsvrc,遭reddit网友质疑】以上这些是必须具备的,如果能再有点C,Java方面的基础就更好了 。数学方面,肯定需要对大学的数学知识有一定的了解,比如求导与积分,偏导数,梯度下降之类的高数知识,以及线代和概率与统计等知识 。如果对这方面知识不太熟悉,建议从课本上好好学学,当然也可以通过如下图所示的深度学习圣经即"花书"的前几章来学习 。
图像分类图像分类是一个计算机视觉的经典方向 。深度学习的火爆最早是因为Hinton带领他的学生使用深度神经网络参加了ImageNet大赛,其最后成绩远超使用传统方法的第二名一大截 。由此引发了最近几年越来越热门的深度学习研究,在2012年及以后,在ImageNet比赛上出现了更多的网络结构,从最开始的AlexNet,到VggNet,GoogleNet,Inception,RestNet,Inception-ResNet-v1~3,Xception等 。
每次新的网络的出现都让正确率上升了一大截,可以说ImageNet比赛推动了整个计算机视觉的发展 。但是ImageNet的数据集太大,不太适合我们入门图像分类 。我们可以使用mnist数据集,或者CIFAR-10数据集(如上图所示).CIFAR-10 数据集有 60000 张图片,每张图片均为分辨率为 32*32 的彩色图片(分为 RGB3 个信道) 。
CIFAR-10 的分类任务是将每张图片分成青蛙、卡车、飞机等 10 个类别中的一个类别 。具体关于CIFAR-10的详细介绍以及实例代码,大家可以关注我头条号置顶的那篇文章.人脸识别人脸识别在引入深度学习之前主要使用PCA降维后进行分类,在引入深度学习之后,采用了CNN来提取特征,然后使用SVM之类的分类器进行分类,但是本质上还是一个分类,需要提前录入人脸数据进行训练.直到FaceNet出现之后, 论文中提出了一种叫做triplet 的损失函数,主要目标是减低类内(同一个人)的距离,增加类间(不同的人)的距离.由此将原本的分类问题转变为了一个距离度量问题,是人脸识别变成了一个开放的问题,可以随时送入两张没有参与训练过的人脸图片提取特征向量,然后通过比较这两个向量的距离来判断相似性.后来又出现了各种各样的loss, 有些已经达到了目前state-of-art的效果,我在这里只是罗列下,具体各位可以关注我,后面我会推出人脸识别综述,与各种损失函数总结 。
目前损失函数主要有:centerLosscontrastiveLossrangeLosslarge-marginl2-normAM-softmaxCosFaceArcFace大家如果想要入门的话,可以先下载一下lfw数据集,然后用TensorFlow实践一下经典的算法.目标检测与图像分割目标检测的任务是从一个复杂场景的图像中找到不同的物体,并且给出各个物体的边界框 。
图像检测的三个著名的数据集是PASCAL VOC,ImageNet和微软COCO. PASCAL VOC包含20个物体的类别,而ImageNet包含一千多种物体类别,COCO有80中物体类别和150万个物体实例 。自从2012年的ILSVRC竞赛中基于CNN的方法一鸣惊人之后,CNN已成为图像分类、检测和分割的神器 。
其中在图像检测的任务中,R-CNN系列是一套经典的方法,从最初的R-CNN到后来的Fast R-CNN,Faster R-CNN 和今年的Mask R-CNN, 我们可以看到CNN在图像检测中是如何一点一点提高的 。还有就是采用一步到位的检测算法的SSD与YOLO系列算法.这些算法的详细介绍,大家可以关注我头条号之前发布的文章.R-CNN 系列的四篇文章如下:R-CNN: https://arxiv.org/abs/1311.2524Fast R-CNN: https://arxiv.org/abs/1504.08083Faster R-CNN: https://arxiv.org/abs/1506.01497Mask R-CNN: https://arxiv.org/abs/1703.06870关键点检测人体骨骼关键点对于描述人体姿态,预测人体行为至关重要 。

推荐阅读