基于Python的CNN模型设计文档+代码

目录
一、 CNN 模型原理 1
CNN 模型 1

什么是 CNN 2
为什么要用 CNN 2
CNN 的内在原理 2
a) 以人的神经系统识别陌生人脸为引。 2
b) 卷积层的作用 3
c) padding 的作用 3
d) 池化层的作用 4
二、网络结构图 5
三、创新点 7
四、结果分析 7
a) 有无 Batch Normalization[1] 7
b) 使用不同 batch size 9
c) 使用不同的优化器 10
𝑡 11
𝜏=1 11
d) 使用残差网络[4] 13
e) 多尺度检测 14
f) 仿 FPN 的多尺度特征图融合、多尺度特征图预测 15
数据预处理 17
实验分析及思路 17
实验基本原理 18
遗忘门 20
输入门 20
Cell state（单元状态流） 20
均方误差（MSE） 22
结果分析 23
调整batch_size大小 24
随着数据集的海量增长和内存限制，一次性载入所有的数据进来变得越来越不可行 24
训练速度太慢，没办法查看更新过程loss下降变化和参数的变化 24
模型的改进与创新 27
组员分工 32
参考文献 32
一、 CNN 模型原理
CNN 模型
1.什么是 CNN
在数字图像处理中有一个称为“边缘检测”的技术，它用到了信号的卷积操作，使用 Sobel 算子和原图像做卷积，得到的结果就是反映原图像的边界的。受该启发，我们可以通过设计特定的卷积核，让它跟图像做卷积，就可以识
别出图像中的某些特征。我们的 CNN 主要就是通过一个个的卷积核，不断地提取特征，从局部的特征到总体的特征，从而实现图像识别等功能。
而我们应该怎样去设计卷积核呢？这在数字图像处理中也是一个难题，不同的卷积核就会提取到不同的特征，而我们可能不知道应该提取哪些特征。但是结合了神经网络以后，我们就不用去考虑卷积核如何设计了，因为各个卷积核的参数都是通过神经网络自己学习得到的，这就是 CNN 的思想。
CNN 一般包含卷积层、池化层和全连接层，下面会给出解释。
2.为什么要用 CNN
权值共享。考虑32 × 32 × 3的一张 RGB 图像，即输入层有32 ∗ 32 ∗ 3 = 3072维，若隐藏层与输入层的维数一样，则输入层到隐藏层的全连接参数个数为 3072 ∗ 3072 = 9,437,184维，数目非常大，难以训练。假设使用卷积后隐藏层的每个神经元只和输入层的 5×5 个像素相连，则参数个数变为3072 ∗ 25 = 76,800，对比全连接的情况大大减少了参数个数，易于训练。
局部连接。局部连接使网络可以提取数据的局部特征，再结合池化操作实现了数据的降维，将低层次的局部特征组合成为较高层次的特征。最后再通过全连接层把卷积网络提取到的所有局部特征综合起来，得到一个全局的特征，则该全局特征既考虑了图像的各个局部细节，又考虑了图像的整体轮廓，所以有很好的识别效果。