深度学习：从入门到精通课后习题解答本答案仅供参考

第一章：

1、通过本章的学习，你认为深度学习崛起的原因有哪些？

答：(1) 计算能力的发展。深度学习的起源并不晚，但是在发展初期遭遇瓶颈的最主要原因是：当时的计算资源无法支持我们实现深度学习如此庞大复杂的计算。直到我们开始使用GPU进行计算后，深度学习才终于摆脱原本计算能力的束缚，展现其强大的实力；(2) 复杂数据结构和任务的要求。深度学习处理的数据对象一般是非结构化的数据，如图像，声音，文本，甚至是它们的混杂。这样的数据越来越多的出现在新的业务场景中，如图像分类、物体检测、人脸识别、机器翻译等。传统的机器学习方法将无能为力，深度学习在处理这些问题上展现了更好的表现。

2、深度学习和机器学习的区别是什么？

答：深度学习和机器学习不能割裂开来，它们本质上都是算法或模型，通过训练数据来优化某一目标函数，从而使得模型具有预测、分类等能力。不过，它们确实具有比较多的区别点。(1) 从数据角度来看。传统的机器学习算法适合处理样本量并不大的结构化数据；深度学习算法能够处理样本量较大且非结构化的数据。(2) 从计算来看。传统的机器学习算法消耗的计算资源并不高，在CPU上也能完成，模型优化往往较快；大多数深度学习模型需要使用GPU的资源进行计算，CPU无法完成庞大的计算，优化时间通常很漫长。(3) 模型结构来看。传统的机器学习算法或者模型是处理的单一任务的。如分类，优化等等。我们可以对这些方法进行组合，而且算法的可解释性很强，背后的数学原理或统计学原理已被研究清楚；深度学习模型算法通常是一个整体，它包含了对非结构化数据的处理(特征提取和生成)，利用特征完成预测或者分类任务，而这些部分之间的协调关系是优化过程中自动调整的。这就使得用户的使用体验非常好，但是可解释性变得很差，而且我们至今对深度学习的理论性质没有完整严谨的结论。

3．除了本章提到的深度学习擅长的领域，请查阅相关资料，了解深度学习还在哪些领域见长。

答：人脸识别，拍照查询，拍照翻译，自动驾驶等。

4．尝试在 Ubuntu 系统环境中安装 TensorFlow 和 Keras。 (略)5．编写一段 Python 代码用于计算两个矩阵相加。（略）6．对于本章的观点：深度学习可以看成是一种高度复杂的非线性回归，你是如何理解的？可否举 1～2 个生活中的例子加以说明？

答：如人脸识别的一系列应用。人的面部图像数据是X，人的性别可以作为分类变量的Y1，年龄可以作为连续性变量的Y2。深度学习模型就是研究人面部图像数据X和我们关心的因变量Y1或者Y2的回归分析。高度非线性体现在，图像数据并不是像身高、体重这样的数据，可以很容易的建立传统统计学的线性回归和逻辑回归模型，他需要经过非常复杂的特征提取之后再映射到我们关心的因变量。

第二章：1．多层感知机的原理是什么？一个神经网络的基本构成有哪些？

答：(1) 在输入层和输出层之间加入了若干隐藏层，以形成能够将样本正确分类的凸域，使得神经网络对非线性情况的拟合程度大大增强。(2)神经元是神经网络的基本逻辑单元，神经网络由若干神经元构成。神经元的构成包括：输入、权重参数、偏置参数、激活函数四部分。

2．常见的激活函数有哪些？它们的优缺点是什么？

答：见下表：

激活函数	优点	缺点
Sigmoid	取值[0,1]、梯度显式二分类表现优良	计算量大容易出现梯度消失
Tanh	取值[-1,1]、梯度显式二分类表现优良	计算量大容易出现梯度消失
ReLU	梯度显式且计算简单	产生稀疏特征神经元一旦为零，就会永久失效

3．根据反向传播算法，请推导隐含层到输出层的偏置（即 2 b ）的更新，以及输入层到隐含层偏置 1 b 的更新。

答：更新值为：

更新值为：4．结合实际例子，谈谈你对几种梯度下降算法的理解。

答：(1) 从使用样本量角度来讲，GD、BGD和SGD用于计算梯度的样本量不同，用于计算梯度的样本越大，样本梯度越接近真实梯度。但是在深度学习的情境中，样本量N和参数个数p通常都很大，SGD是一种可行 (feasible) 的优化方法。(2) 从梯度改进角度来讲，动量梯度下降法考虑到了历史的梯度信息，相当于修改了梯度下降法中的”更新方向”；RMSprop方法利用梯度模长累计信息对学习率进行调整，这被称为自适应算法。自适应体现在每一步的更新步长是根据数据自动调整的；Adam方法则是前两者的结合，更新方向使用动量梯度方向，学习率则使用自适应学习率。实际当中，Adam是深度学习中最常用的优化器，但是这并不代表Adam在任何时候都是最好的选择，同学们可以自行体验这些算法的适用场景。

5．结合本章内容，谈谈你对神经网络中过拟合现象的理解。遇到过拟合，通常可以采取哪些技术手段进行处理？

答：过拟合是神经网络训练中的常见现象，其最主要的原因是模型估计的参数远远大于输入特征的维数。事实上，给定训练集我们总可以使得神经网络变得更加复杂以提高训练集的预测表现，但是在测试集上的预测表现可能会变得很差。我们本章介绍的两个解决过拟合的方法也是从简化模型结构，降低模型参数角度来考虑的。主要包含：(1)正则化方法；(2) Dropout

第三章：

1．请在实际生活中，找到 3 种基于图像的有趣应用，并梳理出其中的 X 和Y 。答：看图识别APP： X：物品的图像数据； Y：图片的类别人脸识别闸机： X：人脸图像数据； Y：是否与数据库信息匹配拍照翻译APP： X：图像数据； Y：对应文本

2．结合 3.3.2 节的美食图像评分案例，你还能想到哪些其他 X ？将其放在模型中，建立一个新的线性回归模型，并与书中模型的精度进行对比。

答：可以考虑引入一些结构化数据和非结构化数据一起分析，如食物的价格(连续型)，口味(离散型)等等。

3．除了图像这种非结构化的 X 变量，你还遇到过哪些其他非结构化变量？请举例说明。

答：声音，文本，甚至是视频。

4．对于 3.4 节的逻辑回归模型，能否对代码提出改进意见，并实现更好的精度预测？

答：可以考虑对图像数据先进行某些预处理、卷积神经网络的卷积操作、分通道分析数据等等一些方法。

5．请思考还有哪些多分类问题可以被规范成逻辑回归并可以在 TensorFlow 的框架下实现？

答：深度学习的著名数据集：CIFAR10 (10分类问题) ；CIFAR100 (100分类问题)，与之相同的图像分类问题均可以规范到这个框架下。

文章出处登录后可见！

已经登录？立即刷新

深度学习：从入门到精通课后习题解答本答案仅供参考

相关推荐