FPGA 实现 LeNet-5 卷积神经网络数字识别，提供4套工程源码和技术支持

1、前言
2、相关方案推荐
- 卷积神经网络解决方案
- FPGA图像处理方案
3、详细设计方案
4、工程源码1详解：ov7725输入，Zynq7020版本
5、工程源码2详解：ov5640输入，Zynq7020版本
6、工程源码3详解：ov7725输入，Zynq7010版本
7、工程源码4详解：ov5640输入，Zynq7010版本
8、工程移植说明
9、上板调试验证并演示
10、福利：工程源码获取

FPGA 实现 LeNet-5 卷积神经网络数字识别，提供4套工程源码和技术支持

1、前言

LeNet-5简洁

LeNet-5诞生于上世纪90年代，是CNN的开山之作，最早的卷积神经网络之一，用于手写数字识别（图像分类任务），它的诞生极大地推动了深度学习领域的发展。LeNet在多年的研究和迭代后，Yann LeCun将完成的这项开拓性成果被命名为LeNet5，并发表在论文《Gradient-Based Learning Applied to Document Recognition》上，如今的AlexNet、ResNet等都是在其基础上发展而来的，在当年是一种用于手写体字符识别的非常高效的卷积神经网络。如今的卷积神经网络模型早已沧海桑田，但作为基础入门的学习资料，LeNet-5依然在江湖中占有极其重要的一席之地；

基于Zynq7020 的设计说明

本设计提供4套vivado2019.1版本的工程源码，两套工程的区别如下：

本文使用Xilinx的Kirtex Zynq7000系列的Zynq7020–xc7z020clg400-2和Zynq7010–xc7z010clg400-2型号FPGA 实现LeNet-5 卷积神经网络实现数字识别实验；基于Zynq7000系列FPGA的异构特性，本设计的图像采集、图像缓存、图像处理、图像输出用 PL 端的 FPGA 逻辑实现；LeNet-5 卷积神经网络的识别功能采用 PS 端的 SDK C语言软件实现；PS 端软件将识别结果通过 AXI-Lite 总线输出给 PL 端，实现了 PS 端软件与 PL 端硬件的交互；PL 端根据 PS 端软件的识别结果，将识别到的数字输出到显示器上，实现了人机交互；PL 和 PS 端是同步实时进行的；设计所用版本为vivado2019.1；

PL 端 FPGA 逻辑设计

输入视频源采用廉价的小分辨率的ov7725或ov5640摄像头；Zynq软核通过EMIO模拟i2c总线配置ov7725或ov5640摄像头分辨率为640×480；然后将输入视频送入纯verilog代码实现的视频采集模块，将DVP视频转换为RGB888视频；然后将视频送入纯verilog代码实现的图像预处理模块，该模块在640×480图像正中心框出一块122×122大小图像区域，该区域作为输入数字图像的采集区域，是后面的LeNet-5卷积神经网络进行识别的区域；然后调用Xilinx官方的 Video In to AXI4-Stream 将RGB888视频转换为AXI4-Stream视频；然后调用Xilinx官方的 VDMA 将视频缓存进PS侧DDR3再读出，为了低延时，VDMA设置为1帧缓存，需要在SDK中配置才能使用；然后调用Xilinx官方的 Video Timing Controller 和 AXI4-Stream to Video Out 将 AXI4-Stream 视频转换为 RGB888视频；然后调用Xilinx官方的 ps_pl_axi_lite 接收 PS 端软件LeNet-5数字识别结果，送入图像后处理模块，该模块例化了10个 ROM ，存储了 0~9 的9个数字，并根据识别结果输出对应的数字到显示屏的右上角显示；然后将图像送入纯verilog代码实现的RGB转HDMI模块，该模块输出HDMI视频到显示器；

PS 端 SDK 软件设计

PS 端实现LeNet-5 卷积神经网络的识别功能，并将识别结果通过AXI-Lite 总线输出给 PL 端；首先在内存开辟一些列缓存空间，用来存储图像和LeNet-5 卷积神经网络计算的中间结果；软件先从 DDR3 中读取 28×28 大小的图像，然后存入事先开辟好的内存，由于需要识别的图像大小为122×122，所以需要取4次才能完整的取完一张图片；然后将图像送入卷积层计算，计算结果存入事先开辟好的内存；然后进行池化层计算，计算结果存入事先开辟好的内存；然后进行隐藏层计算，计算结果存入事先开辟好的内存；然后进行输出层计算，最后将输出结果通过AXI-Lite 总线输出给 PL 端；

免责声明

本工程及其源码即有自己写的一部分，也有网络公开渠道获取的一部分(包括CSDN、Xilinx官网、Altera官网以及其他开源免费获取渠道等等)，若大佬们觉得有所冒犯，请私信批评教育；部分模块源码转载自上述网络，版权归原作者所有，如有侵权请联系我们删除；基于此，本工程及其源码仅限于读者或粉丝个人学习和研究，禁止用于商业用途，若由于读者或粉丝自身原因用于商业用途所导致的法律问题，与本博客及博主无关，请谨慎使用。。。

2、相关方案推荐

卷积神经网络解决方案

我的主页有FPGA 卷积神经网络专栏，该专栏有 LeNet、 CNN、 DNN等卷积神经网络FPGA实现方案；以下是专栏地址：
点击直接前往

FPGA图像处理方案

我的主页目前有FPGA图像处理专栏，改专栏收录了我目前手里已有的FPGA图像处理方案，包括图像缩放、图像识别、图像拼接、图像融合、图像去雾、图像叠加、图像旋转、图像增强、图像字符叠加等等；以下是专栏地址：
点击直接前往

3、详细设计方案

设计架构框图

本文使用Xilinx的Kirtex Zynq7000系列的Zynq7020–xc7z020clg400-2型号FPGA 实现LeNet-5 卷积神经网络实现数字识别实验；基于Zynq7020的异构特性，本设计的图像采集、图像缓存、图像处理、图像输出用 PL 端的 FPGA 逻辑实现；LeNet-5 卷积神经网络的识别功能采用 PS 端的 SDK C语言软件实现；PS 端软件将识别结果通过 AXI-Lite 总线输出给 PL 端，实现了 PS 端软件与 PL 端硬件的交互；PL 端根据 PS 端软件的识别结果，将识别到的数字输出到显示器上，实现了人机交互；设计框图如下：

PL端：ov7725、ov5640摄像头及图像采集

工程源码1输入视频源采用廉价的小分辨率的ov7725摄像头；Zynq软核通过EMIO模拟i2c总线配置ov7725摄像头分辨率为640×480；然后将输入视频送入纯verilog代码实现的视频采集模块，将DVP视频转换为RGB888视频；摄像头采集部分代码如下：

这里采用ov7725摄像头的主要原因是他的分辨率很小，只有640×480@60Hz，卷积神经网络对输入图像的大小求小不求大，因为太大的图像耗费的运算时间很长；

工程源码2输入视频源采用廉价的小分辨率的ov5640摄像头；采用纯verilog代码实现的i2c总线配置ov5640摄像头分辨率为640×480；然后将输入视频送入纯verilog代码实现的视频采集模块，将DVP视频转换为RGB888视频；摄像头配置、采集部分代码如下：

PL端：图像预处理

然后将视频送入纯verilog代码实现的图像预处理模块，该模块在640×480图像正中心框出一块122×122大小图像区域，该区域作为输入数字图像的采集区域，是后面的LeNet-5卷积神经网络进行识别的区域；图像预处理模块代码如下：

图像预处理模块首先对输入图像进行RGB转灰度操作，将RGB888视频转为8bit的灰度图，这样有利于图像识别，因为图像识别需要的只是图像边沿和轮廓的像素信息，RGB分量显然数据量太大，灰度图则完美契合；然后图像进行框选处理，即框选出需要进行识别的区域，正如前面所说，卷积神经网络对输入图像的大小求小不求大，对于640×480的采集图像，我们并不是全部都纳入识别范围，而是选择了0图像正中心框出一块122×122大小图像区域，因为数字本身就不会太大，不太可能整个屏幕全是单个数字吧？实现的效果如下：

PL端：Xilinx推荐的图像缓存架构

然后调用Xilinx官方的 Video In to AXI4-Stream 将RGB888视频转换为AXI4-Stream视频；然后调用Xilinx官方的 VDMA 将视频缓存进PS侧DDR3再读出，为了低延时，VDMA设置为1帧缓存，需要在SDK中配置才能使用；然后调用Xilinx官方的 Video Timing Controller 和 AXI4-Stream to Video Out 将 AXI4-Stream 视频转换为 RGB888视频；这是一套标准的Xilinx推荐的图像缓存架构；

PL端：识别结果的 PL 与 PS 交互

调用Xilinx官方的 ps_pl_axi_lite 接收 PS 端软件LeNet-5数字识别结果，并根据识别结果，将识别到的数字输出到显示器上；axi_lite是一个轻量级总线，在SDK里直接调用API即可写数据；

PL端：图像后处理

s_pl_axi_lite 接收 PS 端软件LeNet-5数字识别结果，送入图像后处理模块，该模块例化了10个 ROM ，存储了 0~9 的9个数字，并根据识别结果输出对应的数字到显示屏的右上角显示；图像后处理模块代码如下：

图像后处理的核心操作是像素替换，当有识别结果输入时，在显示屏右上角显示对应的数字，否则显示原始的ov7725或ov5640采集像素；实现的效果如下：

PL端：RGB 转 HDMI

然后将图像送入纯verilog代码实现的RGB转HDMI模块，该模块输出HDMI视频到显示器；RGB转HDMI模块代码如下：

PS端：图像获取

软件先从 DDR3 中读取 28×28 大小的图像，然后存入事先开辟好的内存，由于需要识别的图像大小为122×122，所以需要取4次才能完整的取完一张图片；代码如下：

PS端：卷积层计算

然后将图像送入卷积层计算，计算结果存入事先开辟好的内存；代码如下：

卷积模型由Python训练得到，并转换为C语言数组；卷积核详情请看注释，注释还在进一步优化中。。。

PS端：池化层计算

然后进行池化层计算，计算结果存入事先开辟好的内存；代码如下：

池化层详情请看注释，注释还在进一步优化中。。。

PS端：隐藏层计算

然后进行隐藏层计算，计算结果存入事先开辟好的内存；代码如下：

隐藏层详情请看注释，注释还在进一步优化中。。。

PS端：输出层计算

然后进行隐藏层计算，计算结果存入事先开辟好的内存；然后进行输出层计算，最后将输出结果通过AXI-Lite 总线输出给 PL 端；代码如下：

工程源码架构说明

工程源码架构包括PL端的Block Design逻辑设计和PS端的C语言软件设计，工程1、2、3、4的工程源码架构具有相似性，仅仅是FPGA型号与输入摄像头型号不同，所以我们仅以工程1为例介绍，其他几套工程与之类似；
工程1的Block Design如下，工程2、3、4与之类似：

工程1的PL端逻辑设计代码架构如下，工程2、3、4与之类似：

工程1的PS 端 SDK 软件工程代码架构如下，工程2、3、4与之类似：

4、工程源码1详解：ov7725输入，Zynq7020版本

开发板FPGA型号：Xilinx–Zynq7020–xc7z020clg400-2；
开发环境：Vivado2019.1；
输入：OV7725摄像头，分辨率配置为640×480；
输出：HDMI，分辨率配置为640×480；
工程作用：FPGA基于 LeNet-5 卷积神经网络实现数字识别；
工程的代码架构与详情请参考第三章节的《工程源码架构说明》：
工程资源消耗和功耗如下：

5、工程源码2详解：ov5640输入，Zynq7020版本

开发板FPGA型号：Xilinx–Zynq7020–xc7z020clg400-2；
开发环境：Vivado2019.1；
输入：ov5640摄像头，分辨率配置为640×480；
输出：HDMI，分辨率配置为640×480；
工程作用：FPGA基于 LeNet-5 卷积神经网络实现数字识别；
工程的代码架构与详情请参考第三章节的《工程源码架构说明》：
工程资源消耗和功耗如下：

6、工程源码3详解：ov7725输入，Zynq7010版本

开发板FPGA型号：Xilinx–Zynq7010–xc7z010clg400-2；
开发环境：Vivado2019.1；
输入：OV7725摄像头，分辨率配置为640×480；
输出：HDMI，分辨率配置为640×480；
工程作用：FPGA基于 LeNet-5 卷积神经网络实现数字识别；
工程的代码架构与详情请参考第三章节的《工程源码架构说明》：
工程资源消耗和功耗如下：

7、工程源码4详解：ov5640输入，Zynq7010版本

开发板FPGA型号：Xilinx–Zynq7010–xc7z010clg400-2；
开发环境：Vivado2019.1；
输入：ov5640摄像头，分辨率配置为640×480；
输出：HDMI，分辨率配置为640×480；
工程作用：FPGA基于 LeNet-5 卷积神经网络实现数字识别；
工程的代码架构与详情请参考第三章节的《工程源码架构说明》：
工程1的资源消耗和功耗如下：

8、工程移植说明

vivado版本不一致处理

1：如果你的vivado版本与本工程vivado版本一致，则直接打开工程；
2：如果你的vivado版本低于本工程vivado版本，则需要打开工程后，点击文件–>另存为；但此方法并不保险，最保险的方法是将你的vivado版本升级到本工程vivado的版本或者更高版本；

3：如果你的vivado版本高于本工程vivado版本，解决如下：

打开工程后会发现IP都被锁住了，如下：

此时需要升级IP，操作如下：