多层感知器

隐藏层

softmax回归的模型架构通过单个仿射变换将我们的输入直接映射到输出，然后进行softmax操作。

如果我们的标签在仿射变换后确实与我们的输入数据相关，那么这种方法确实足够了。然而，仿射变换的线性是一个强有力的假设。

线性模型可能出错

例如，线性意味着单调假设：

任何特征的增加都会导致模型输出的增加（如果相应的权重为正），或者模型输出的减少（如果相应的权重为负）。

有时这是有道理的。例如，如果预测一个人是否会偿还贷款。

可以说，在其他条件相同的情况下，收入较高的申请人比收入较低的申请人更有可能偿还贷款。

然而，虽然收入和还款概率是单调的，但它们并不是线性相关的。

收入从0增加到5万，可能比从100万增加到105万带来更大的还款可能性。

解决这个问题的一种方法是对我们的数据进行预处理以使线性更合理，例如使用收入的对数作为我们的特征。

但是，可以很容易地识别出违反单调性的示例。

例如，根据体温预测死亡率。

对于体温高于37摄氏度的人来说，温度越高风险越大。然而，对于体温低于37摄氏度的人来说，温度越高风险就越低。

在这种情况下，我们也可以通过一些巧妙的预处理来解决问题。例如，我们可以使用与37摄氏度的距离作为特征。

但是，如何对猫和狗的图像进行分类呢？增加位置(13,17)处像素的强度是否总是增加（或降低）图像描绘狗的似然？

对线性模型的依赖对应于一个隐含的假设，即区分猫和狗的唯一要求是评估单个像素的强度。

在反转图像后保留类别的世界中，这种方法注定要失败。

与前面的例子相比，这里的线性是荒谬的，我们很难通过简单的预处理来解决这个问题。

这是因为任何像素的重要性都以复杂的方式取决于该像素的上下文（周围像素的值）。

我们的数据可能具有考虑到我们在特征之间的相关交互的表示。

在这种表示的基础上建立一个线性模型可能是合适的，但我不知道如何手动计算这种表示。

对于深度神经网络，我们使用观察数据来联合学习隐藏层表示和应用于该表示的线性预测器。

将隐藏层添加到网络

我们可以通过向网络添加一个或多个隐藏层来克服线性模型的局限性，使其能够处理更一般类型的函数关系。

最简单的方法是将许多完全连接的层堆叠在一起。每一层都输出到上面的层，直到产生最终的输出。

我们可以把前𝐿−1层看作表示，把最后一层看作线性预测器。

这种架构通常称为多层感知机（multilayer perceptron），缩写为MLP。下图描述了多层感知机

$L`@AVC{BRFC_YGFPFB3M5Y$

这个多层感知机有4个输入，3个输出，其隐藏层包含5个隐藏单元。

输入层不涉及任何计算，因此使用该网络生成输出只需要隐藏层和输出层的计算。

因此，这个多层感知机中的层数为2。注意，这两个层都是全连接的。

每个输入都会影响隐藏层中的每个神经元，隐藏层中的每个神经元都会影响输出层中的每个神经元。

然而，具有全连接层的多层感知器的参数开销可能非常高。

即使不改变输入或输出大小，也可以在参数保存和模型有效性之间进行权衡

从线性到非线性

我们用矩阵 𝐗∈ℝ𝑛×𝑑 表示一小批 𝑛 样本，其中每个样本都有 𝑑 输入特征。

对于具有ℎ个隐藏单元的单隐藏层多层感知机，用𝐇∈ℝ𝑛×ℎ表示隐藏层的输出，称为隐藏表示（hidden representations）。

在数学或代码中，𝐇也被称为隐藏层变量（hidden-layer variable）或隐藏变量（hidden variable）。

因为隐藏层和输出层都是全连接的，所以我们有隐藏层权重𝐖(1)∈ℝ𝑑×ℎ和隐藏层偏置𝐛(1)∈ℝ1×ℎ以及输出层权重𝐖(2)∈ℝℎ×𝑞和输出层偏置𝐛(2)∈ℝ1×𝑞。形式上，按如下方式计算单隐藏层多层感知机的输出 𝐎∈ℝ𝑛×𝑞：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KNJIwskZ-1648549511993)(C:\Users\Lenovo\Documents\Tencent Files\850604703\FileRecv\MobileFile\Image\B~[XOGXBSIFI[GEEA_L[VX8.png)]$

请注意，添加隐藏层后，模型现在需要跟踪和更新其他参数。

但我们能从中得到什么？：在上面定义的模型中，没有任何好处

原因很简单：上面的隐藏单元由输入的仿射函数给出，而输出（softmax操作前）只是隐藏单元的仿射函数。仿射函数的仿射函数本身就是仿射函数，但是我们之前的线性模型已经能够表示任何仿射函数。

我们可以证明这一等价性，即对于任意权重值，只需合并隐藏层（把H的式子带入到O中，合并一下），便可产生具有参数 𝐖=𝐖(1)𝐖(2) 和𝐛=𝐛(1)𝐖(2)+𝐛(2)的等价单层模型：

所以为了发挥多层架构的潜力，还需要一个额外的关键要素：在仿射变换之后对每个隐藏单元应用非线性的激活函数（activation function）𝜎。

激活函数的输出（例如，𝜎(⋅)）被称为活性值（activations）。

一般来说，使用激活函数，不再可能将多层感知器退化为线性模型：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-p6qI4X1t-1648549511995)(C:\Users\Lenovo\Documents\Tencent Files\850604703\FileRecv\MobileFile\Image()]U9B$0X4FPYX_~YGHCUHE5.png)$

由于 𝐗 中的每一行对应于 mini-batch 中的一个样本，为了符号约定，我们定义非线性函数 𝜎 也以逐行方式作用于其输入，即一次计算一个样本。

但是在这里，我们应用于隐藏层的激活函数通常不仅按行操作，而且按元素操作。

这意味着在计算了每一层的线性部分之后，我们可以计算每个活动值，而无需查看其他隐藏单元所取的值。大多数激活函数都是如此。

为了构建一个更通用的多层感知器，我们可以像这样堆叠隐藏层，

例如𝐇(1)=𝜎1(𝐗𝐖(1)+𝐛(1))和𝐇(2)=𝜎2(𝐇(1)𝐖(2)+𝐛(2))，一层叠一层，从而产生更有表达能力的模型。

一般逼近定理

多层感知器可以通过隐藏依赖于每个输入值的神经元来捕获输入之间的复杂交互，例如图像中像素之间的相关性。

我们可以很容易地设计隐藏节点来执行任意计算。例如，对一对输入执行基本的逻辑运算，多层感知器是一个通用逼近器。

即使是网络只有一个隐藏层，给定足够的神经元和正确的权重，我们可以对任意函数建模，尽管实际中学习该函数是很困难的。你可能认为神经网络有点像C语言。 C语言和任何其他现代编程语言一样，能够表达任何可计算的程序。但实际上，想出一个符合规范的程序才是最困难的部分。

此外，仅仅因为单个隐藏层网络可以学习任何功能并不意味着我们应该尝试用单个隐藏层网络解决所有问题。

事实上，通过使用更深（而不是更宽）的网络，我们可以更轻松地逼近许多函数。

激活函数

激活函数（activation function）通过计算加权和并加上偏置来确定神经元是否应该被激活，它们将输入信号转换为输出的可微运算。

大多数激活函数是非线性的。由于激活函数是深度学习的基础，下面简单介绍一些常见的激活函数。

%matplotlib inline
import torch
from d2l import torch as d2l

ReLU函数

最受欢迎的激活函数是修正线性单元（Rectified linear unit，ReLU），因为它实现简单，同时在各种预测任务中表现良好。

ReLU提供了一种非常简单的非线性变换。给定元素𝑥，ReLU函数被定义为该元素与0的最大值：ReLU(𝑥)=max(𝑥,0).

通俗地说，ReLU函数通过将相应的活性值设为0，仅保留正元素并丢弃所有负元素。

可以绘制函数图。如图所示，激活函数是分段线性的。

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.relu(x)
d2l.plot(x.detach(), y.detach(), 'x', 'relu(x)', figsize=(5, 2.5))

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vDs1nJPv-1648549511995)(C:\Users\Lenovo\Documents\Tencent Files\850604703\FileRecv\MobileFile\Image\2%I3F(4QS1}P8D3P]C2FZIV.png)]$

当输入为负时，ReLU函数的导数为0，而当输入为正时，ReLU函数的导数为1。

注意，当输入值精确等于0时，ReLU函数不可导。

在此时，我们默认使用左侧的导数，即当输入为0时导数为0。我们可以忽略这种情况，因为输入可能永远都不会是0。

有一种说法，“如果微妙的边界条件很重要，我们可能在做数学而不是工程”，这正是这里适用的。

下面绘制ReLU函数的导数。

y.backward(torch.ones_like(x), retain_graph=True)
d2l.plot(x.detach(), x.grad, 'x', 'grad of relu', figsize=(5, 2.5))

使用ReLU的原因是，它求导表现得特别好：要么让参数消失，要么让参数通过。

这使得优化表现得更好，并且ReLU减轻了困扰以往神经网络的梯度消失问题。

ReLU函数有许多变体，包括参数化ReLU（Parameterized ReLU，pReLU）函数。该变体为ReLU添加了一个线性项，因此即使参数是负的，某些信息仍然可以通过：

sigmoid函数

对于一个定义域在R中的输入， sigmoid函数将输入变换为区间(0, 1)上的输出。

因此，sigmoid通常称为挤压函数（squashing function）：它将范围（-inf, inf）中的任意输入压缩到区间（0, 1）中的某个值：

(

)

在最早的神经网络中，科学家们感兴趣的是对“激发”或“不激发”的生物神经元进行建模。因此，这一领域的先驱可以一直追溯到人工神经元的发明者麦卡洛克和皮茨，他们专注于阈值单元。阈值单元在其输入低于某个阈值时取值0，当输入超过阈值时取值1。

当人们逐渐关注到到基于梯度的学习时， sigmoid函数是一个自然的选择，因为它是一个平滑的、可微的阈值单元近似。

当我们想要将输出视作二元分类问题的概率时， sigmoid仍然被广泛用作输出单元上的激活函数（你可以将sigmoid视为softmax的特例）。然而，sigmoid在隐藏层中已经较少使用，它在大部分时候被更简单、更容易训练的ReLU所取代。

下面绘制sigmoid函数。注意，当输入接近0时，sigmoid函数接近线性变换。

y = torch.sigmoid(x)
d2l.plot(x.detach(), y.detach(), 'x', 'sigmoid(x)', figsize=(5, 2.5))

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-02JZ5w6E-1648549511995)(C:\Users\Lenovo\Documents\Tencent Files\850604703\FileRecv\MobileFile\Image\ZG)]~(A8_(44ZC44U[0JES_6.png)$

sigmoid函数的导数为下面的公式：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-llmxHDuF-1648549511996)(C:\Users\Lenovo\Documents\Tencent Files\850604703\FileRecv\MobileFile\Image%{3{X7EN}KD5Q[QX_DF_DIQ.png)]$

sigmoid函数的导数图像如下所示。

注意，当输入为0时，sigmoid函数的导数达到最大值0.25；而输入在任一方向上越远离0点时，导数越接近0。

# 清除以前的梯度
x.grad.data.zero_()
y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(), x.grad, 'x', 'grad of sigmoid', figsize=(5, 2.5))

tanh函数

与sigmoid函数类似，tanh(双曲正切)函数也能将其输入压缩转换到区间(-1, 1)上。 tanh函数的公式如下：

(

)

下面绘制tanh函数。注意，当输入在0附近时，tanh函数接近线性变换。函数的形状类似于sigmoid函数，不同的是tanh函数关于坐标系原点中心对称。

y = torch.tanh(x)
d2l.plot(x.detach(), y.detach(), 'x', 'tanh(x)', figsize=(5, 2.5))

tanh函数的导数是：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3kcbprnn-1648549511996)(C:\Users\Lenovo\Documents\Tencent Files\850604703\FileRecv\MobileFile\Image\45RZK2R@IVEK5FV~}3[(_ZT.png)]$

tanh函数的导数图像如下所示。当输入接近0时，tanh函数的导数接近最大值1。与在sigmoid函数图像中的类似，输入在任一方向上越远离0点，导数越接近0。

# 清除以前的梯度
x.grad.data.zero_()
y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(), x.grad, 'x', 'grad of tanh', figsize=(5, 2.5))

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ix8RllVs-1648549511997)(C:\Users\Lenovo\Documents\Tencent Files\850604703\FileRecv\MobileFile\Image(NEQJK[VFNWY[Q@0[}FJE2B.png)]$

这就是如何结合非线性函数来构建具有更强表现力的多层神经网络架构。

概括

多层感知器在输出层和输入层之间添加一个或多个全连接隐藏层，并通过激活函数变换隐藏层的输出。
常用的激活函数包括ReLU函数、sigmoid函0数和tanh函数。

文章出处登录后可见！

已经登录？立即刷新

深度学习基础17（感知机，结合非线性函数来构建具有更强表达能力的多层神经网络架构）