1. 什么是深度学习?
百度百科的解释是这样的:深度学习的概念源于对人工神经网络的研究,具有多个隐藏层的多层感知器是一种深度学习结构。
说起人工神经网络,首先要特别感谢 1981 年诺贝尔医学奖的获得者大卫 . 休伯尔先生以及托斯坦 . 威泽尔先生。他们发现了视觉系统的信息处理方式,也就是大脑的可视皮层是分级的。
具体如何?让我们继续阅读。
我们的大脑皮层包括 V1 , V2 ,V4,PMC,PFC等区域,他们每一部分的功能是不一样的。
这就是我们通常用眼睛看事物的方式:
1.视网膜(Retina)获取图像的像素点
2.低级的V1区提取边缘特征
3.V2区获取基本形状或目标的局部
4.高层V4得到整个目标(如判定为一张人脸)
5.更高层的 PFC (前额叶皮层)进行分类判断等。
基于上述大脑的层次结构,科学家们设计了一个神经网络系统,而深度学习是一系列新的结构和新的方法演化出来的,可以让多层神经网络得到训练和运行。
2. 深度学习能做什么?
物体检测的任务是找出图像或视频中感兴趣的物体,同时检测它们的位置和大小,这是机器视觉领域的核心问题之一。
物体检测过程中存在很多不确定因素。例如,图像中物体的数量不确定,物体具有不同的外观、形状和姿势。另外,物体在成像时会受到光照、遮挡等因素的干扰,给检测算法带来一定的困难。
三、深度学习的实现过程
1. 深度学习的检测算法
基于上述所说的任务,程序猿们就开始设计各种深度学习网络以及算法来解决这个问题。现在比较主流的两类算法有一阶段(one-stage)和两阶段(two-stage)算法:
• one-stage 算法,包括 SSD , YOLO 系列算法等等,仅使用一个 CNN 网络直接预测。 One-stage 算法速度快,但是准确性要低一些。
•
• two-stage 的 R-CNN 系列算法,包括 R-CNN , Fast R-CNN, Faster R-CNN 等等,需要先使用启发式方法如选择性搜索算法( Selective Search Algorithm )或者 CNN 网络如 RPN 来产生 Region Proposal ,然后再在候选框上做目标分类与位置回归。 Two-stage 方案准确度高速度慢。
看到这里,我们可以注意到,无论是一阶段和两阶段算法,他们的核心都是 CNN 结构。那CNN是什么呢?
2. 卷积神经网络
CNN全称为卷积神经网络,在目标检测的过程中,我们可以把它看成一个黑盒子。输入一张图片,然后输出这张图片中的物体是各个类别的概率。
卷积神经网络主要包括三部分:卷积层、池化层和全连接层,是深度学习的核心部分。
典型的 CNN 由 3 个部分构成:
1.卷积层
2.池化层
3.全连接层
卷积层负责提取图像中的局部特征;它主要是通过多个卷积核与原图的 RGB 三个通道进行矩阵的点乘运算,得到一系列的特征值。这些特征值简单一点理解就是代表一定的形状。
比如我们现在要识别鼠标的屁股,我们可以设计这样一个卷积核,与原始图像进行卷积操作。当鼠标的屁股被扫描时,我们会得到一个比较大的值。而当扫描老鼠的耳朵时,发现它变小了。基于这个结果,我们可以确定图像包含一个特征,比如鼠标屁股。当然,这里的卷积核是比较抽象的。在实践中,将使用许多卷积核。卷积核的值可以由没有之前学习经验的函数随机生成,然后通过训练逐渐调整。
池化层也称为下采样过程,它的主要作用是降低数据维度,避免过拟合。一般池化有最大池化以及平均池化。图中这个主要是用到了最大池化,第一个小方块中获取最大数字 6 ,第二个取了 8 ,同理,得到了一个新的特征矩阵。这里的过拟合是指在训练集上表现好,但在测试集上表现不好,泛化性能差。举个例子,比如说有个美女对我笑,然后我就判断这个美女喜欢我。这样子是不好的。
全连接层就是结合前面的特征得到最终想要的结果。它包括三个部分:输入层、隐藏层和输出层。
一般神经网络由多个卷积层、池化层和全连接层组成。像下图图中这个 Alexnet 包含了五个卷积层、三个最大池化以及三个全连接层。因为卷积神经网络计算量很大,虽然很早以前就发现,但是由于 GPU 算力跟不上,所以一直没被用起来。直到 2012 年,算力比较好了,卷积神经网络重新复出,并且惊艳全场。
现在卷积神经网络已经重新发展了十年的时间,有很多工程师在开发这个东西,现在的深度学习网络以及变得越来越复杂(如下图yolov5算法)。但是它的基础仍然是卷积神经网络。
伴随着深度学习准确率越来越高、速度越快。现在无人驾驶已经可以实现特定场景的无人驾驶,以及现在很火的 robotax ,也就是无人出租车。虽然现在还有一定困难,但是相信在不久的将来能够落地。接下来给大家分享一个我用 yolov5 测试的一段目标检测的视频。
yolov5算法进行目标检测
免责声明:本博客是为新手无人驾驶学生创建的,旨在帮助不熟悉无人驾驶算法的学生。如有错误,请批评指正。博文中的图片参考了很多大佬的图片,没有任何商业用途。如有侵权,请联系作者删除,谢谢!
文章出处登录后可见!