多语言展示
当前在线:1965今日阅读:167今日分享:16

计算机视觉和深度学习

人工智能:如人一样具有一定的对外界事物感知的能力;20世纪50年代,数学家图灵提出判断工人智能的标准:图灵测试。机器放在一个房间,人类测试员在另一个房间,进行测试员和机器聊天,测试员事先不知道另一个房间内是人还是机器。经过聊天之后,如果测试员不能确定是否是人还是机器,那么图灵测试就通过了,即此机器具有与人一样的感知能力。随着科学技术发展,21世纪初,期间50年时间无数科学家的努力,提出很多机器学习的算法,试图让计算机具有与人一样的智力水平,直到2006年深度学习算法的成功,才带来了一丝解决的希望。
方法/步骤
2

深度学习仿生学:1981年诺贝尔医学生理学奖获得者David Hubel,发现视觉系统消息处理机制,证明大脑的可视皮层是分级的。认为:人的视觉功能一个是抽象,一个是迭代。抽象是把具体形象的元素,抽象出来形成有意义的概念;迭代是对有意义的概念向上迭代,变得更加抽象,人可以感知到的抽象概念。比如:模拟人脑识别人脸,也是抽象迭代的过程,从开始像素到第二层边缘,再到人脸的部分,然后到整张人脸,是一个抽象迭代的过程。【注】:如果要完全模拟人脑,即模拟人脑的抽象和迭代过程,把信息从最琐碎的像素级别,抽象到“种类”的概念,让人能够接受。

3

卷积的作用:计算机视觉中卷积是必不可少的,深度学习中使用的是卷积神经网络(Convolutional netural network,CNN),是一种对人脑比较精准的模拟。卷积是两个函数间的相互关系,然后得出一个新值;在连续空间做积分运算,在离散空间求和运算;【注】:在计算机视觉中,卷积相当于一个抽象的过程,就是把小区域内的信息抽象化。例:对爱因斯坦的图像,通过学习n个不同的卷积核函数,然后对这个区域进行统计;首先用学习好的卷积核对图像就行卷积,每一个卷积核生产一个特征图(feature map)。如果有多个卷积核就有多个特征图(feature map),每个卷积核代表一种统计抽象的方式。

4

池化的作用:池化操作:对一个小区域求平均值或者求最大值的统计操作;对每一个特征图(feature map)求最大的一个池化层,会得到一个比原来feature map更小的feature map。

5

LeNet网络:Le指人工智能领域的大牛Lecun;LeNet网络是深度学习网络的最初原型;LeNet在1998年,用这一网络进行字母识别,达到非常好的效果。构成:输入图像:32*32灰度图,经卷积层生成了6个28*28的特征图;经过池化层得到6个14*14的特征图;再经过一个卷积层生成16个10*10个特征图;再经过池化层生成16个5*5的特征图;经3个全连接层,达到最后的输出;流程:由于设计的是只要对0-9进行识别,所以输出空间是10,如果要对10个数字再加上26个大小字母进行识别,输出空间为62;在62维空间里,如果某一个维度上值最大,其对于的字母和数字就是预测结果。

6

AlexNet网络:AlexNet网络是由多伦多大学几个科学家开发,在ImageNet比赛上做到了非常好的效果;此后,深度学习的时代到来;AlexNet实质是LeNet的放大版;输入是224*224的图像,经若干卷积层,若干池化层,最后连接两个连接层,达到最后的标签空间;由深度学习可视化特征,在第一层是一些填充的块状物和边界等特征;中间层是学习一些纹理特征;更高接近分类器的层级,则可明显看到物体形状的特征;最后一层即分类层是物体的不同姿态;【注】:不论是人脸,车辆,等物体识别,最开始学到的都是边缘,继而是物体部分,然后更高层抽象到物体的整体;整个卷积神经网络在模拟人的抽象和迭代过程;

7

深度学习在视觉上的应用包括:人脸识别、图像问答、物体检测、物体跟踪;人脸识别:给定一张人脸,与数据库里的人脸进行比对;或同时给两张人脸,判断是不是同一个人。图片问答问题:是2014年兴起的课题,即给张图片同时问个问题,然后让计算机回答。比如有一个办公室靠海的图片,然后问“桌子后面有什么”,神经网络输出应该是“椅子和窗户”。物体检测:2014年Region CNN算法,基本思想是首先用一个非深度的方法,在图像中提取可能是物体的图形块,然后深度学习算法根据这些图像块,判断属性和一个具体物体的位置。Selective Search:先把完全不可能是物体的图像块去除,只剩2000左右的图像块放到深度网络里面判断。那么取得的成绩是AP是58.5,比以往几乎翻了一倍。Faster R-CNN方法:一个超级加速版R-CNN方法。它的速度达到了每秒七帧,即一秒钟可以处理七张图片。原因在于:不是用图像块来判断是物体还是背景,而把整张图像一起扔进深度网络里,让深度网络自行判断哪里有物体,物体的方块在哪里,种类是什么?经过深度网络运算的次数从原来的2000次降到一次,速度大大提高了。Faster R-CNN提出了让深度学习自己生成可能的物体块,再用同样深度网络来判断物体块是否是背景?同时进行分类,还要把边界和给估计出来。Faster R-CNN可以做到又快又好,在VOC2007上检测AP达到73.2,速度也提高了两三百倍。

8

YOLO网络:FACEBOOK:提出来的YOLO网络进行物体检测,最快达到每秒钟155帧,达到了完全实时。它让一整张图像进入到神经网络,让神经网络自己判断这物体可能在哪里,可能是什么。但它缩减了可能图像块的个数,从原来Faster R-CNN的2000多个缩减缩减到了98个。其取消了Faster R-CNN里面的RPN结构,代替Selective Search结构。YOLO里面没有RPN这一步,而是直接预测物体的种类和位置。YOLO的代价就是精度下降,在155帧的速度下精度只有52.7,45帧每秒时的精度是63.4。

9

SSD:Single Shot MultiBox DetectorYOLO的超级改进版,吸取了YOLO的精度下降的教训,同时保留速度快的特点。它能达到58帧每秒,精度有72.1。速度超过Faster R-CNN 有8倍,但达到类似的精度。

注意事项
1

如果要完全模拟人脑,即模拟人脑的抽象和迭代过程,把信息从最琐碎的像素级别,抽象到“种类”的概念,让人能够接受。

2

在计算机视觉中,卷积相当于一个抽象的过程,就是把小区域内的信息抽象化。

3

池化操作:对一个小区域求平均值或者求最大值的统计操作;

4

不论是人脸,车辆,等物体识别,最开始学到的都是边缘,继而是物体部分,然后更高层抽象到物体的整体;

5

整个卷积神经网络在模拟人的抽象和迭代过程;

推荐信息