【深度学习入门基础】深度学习和微积分视角下的神经网络

【深度学习入门基础】深度学习和微积分视角下的神经网络

这是介绍深度学习的系列文章。我们尽量用最简洁的语言和最干净的表达方式,让读者快速得到想要的东西。本系列文章不断更新。一些网上能找到的基础知识,比如激活函数有哪些,就不介绍了。

前言

大多数介绍深度学习的资料,一开始就从生物神经元、轴突、树突、刺激等等讲起,本来很简单的东西,却被介绍得云里雾里。本文将从矩阵乘法和导数的角度入手,让你一下子 get 到什么是神经网络。

矩阵乘法参见神经网络

问题是这样一个问题:假设有一个列向量%5Cmathbf%7Bx%7D,我们希望它经过一个“黑盒”操作后,得到的向量和另一个已知的等长向量%5Cmathbf%7By%7D尽可能“接近”,如何衡量“亲近度””?后面听介绍。

这里的“黑匣子”是一个网络,可以简单理解为矩阵乘法向量的嵌套,即:
F%28%5Cmathbf%7Bx%7D%29%3A%3D%5Csigma%28A_n%5B%5Ccdots%20%28A_3%5B%5Csigma%28A_2%5B%5Csigma%28A_1%5Cmathbf%7Bx%7D%2B%5Cmathbf%7Bb_1%7D%29%5D%2B%5Cmathbf%7Bb_2%7D%29%5D%2B%5Cmathbf%7Bb_3%7D%29%5D%2B%5Cmathbf%7Bb_n%7D%29
这里A_1%E3%80%81A_2%E2%80%A6A_n是参数矩阵,里面的元素是一些未知参数,%5Cmathbf%20b_1%E3%80%81%5Cmathbf%20b_2%E2%80%A6%20%5Cmathbf%20b_n这里是参数列向量。 A_i%2C%20%5Cmathbf%7Bb%7D_i%2C%20i%3D1%2C%5Ccdots%2Cn的比例总是使上述公式合理。 %5Csigma是一个函数,人们喜欢称它为激活函数,它作用于一个向量来表示分别作用于向量的每个分量。 A_i%2C%20%5Cmathbf%7Bb%7D_i中的元素都是未知量,我们统称为参数。

举个简单的例子。令A%20%3D%20%5Bw_1%2Cw_2%5D。取激活函数为 sigmoid 函数:
%5Csigma%28z%29%3D%5Cfrac%7B1%7D%7B1%2Be%5E%7B-z%7D%7D
所以,F%28%5Cmathbf%7Bx%7D%29%20%3D%20%5Csigma%28A%5Cmathbf%7Bx%7D%2Bb%29,这就是逻辑回归的输出形式。逻辑回归是最简单的神经网络之一。

从微积分的角度训练

从上面可以看出,F%28%5Cmathbf%7Bx%7D%29本质上是一个带参数的表达式。神经网络需要做的是调整参数,使得对于已知的%5Cmathbf%7Bx%7D%5Cmathbf%7By%7DF%28%5Cmathbf%7Bx%7D%29%5Cmathbf%7By%7D尽可能接近。度量向量之间的距离有很多度量,例如欧几里得距离:
%5Cmathcal%7BL%7D%20%28A_1%2CA_2%2C%5Ccdots%2CA_n%2C%5Cmathbf%7Bb%7D_1%2C%5Ccdots%2C%5Cmathbf%7Bb%7D_n%29%3A%3D%20%7C%7C%20F%28%5Cmathbf%7Bx%7D%29%20-%20%5Cmathbf%7By%7D%20%7C%7C
%7C%7C%20%5Ccdot%20%7C%7C表示向量 2 范数。我们也称 $\mathcal{L} $ 为损失函数。显然,这里的%5Cmathcal%7BL%7D只是一个关于参数的函数,优化上称之为目标函数,我们想做的就是关于这个函数的参数极小化目标函数。

给定一个目标函数,我们希望相对于参数最小化它,这是一个无约束的优化问题,有很多数值解,神经网络使用梯度下降。梯度下降的步长,称为“学习率”。

要使用梯度下降,需要损失函数的梯度。梯度是由目标函数的每个参数的推导组成的向量。因此,%5Cmathcal%7BL%7D需要对每个参数进行推导。从F%28%5Cmathbf%7Bx%7D%29的表达式可以看出,不同层的参数之间存在嵌套关系。微积分告诉我们,复杂类型函数的推导需要使用链式法则。链式法则在神经网络中的应用深受人们的喜爱。称之为“反向传播”。

上面提到的只是一组输入和输出的情况。当有多组输入输出%5C%7B%5Cmathbf%20x_i%2C%5Cmathbf%20y_i%2C%20i%20%3D%201%2C2%2C%5Ccdots%2CN%5C%7D时,我们定义损失函数如下:
%5Cmathcal%7BL%7D%20%28A_1%2CA_2%2C%5Ccdots%2CA_n%2C%5Cmathbf%7Bb%7D_1%2C%5Ccdots%2C%5Cmathbf%7Bb%7D_n%29%3A%3D%20%5Cfrac%7B1%7D%7B2%7D%5Csum_%7Bi%3D1%7D%5EN%20%7C%7C%20F%28%5Cmathbf%7Bx%7D_i%29%20-%20%5Cmathbf%7By%7D_i%20%7C%7C%5E2
训练的优化过程同上。

版权声明:本文为博主陆嵩原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/lusongno1/article/details/123156975

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2022年2月28日
下一篇 2022年2月28日

相关推荐