上期介绍了Transformer的结构、特点和作用等方面的知识，回头看下来这一模型并不难，依旧是传统机器翻译模型中常见的seq2seq网络，里面加入了注意力机制，QKV矩阵的运算使得计算并行。

当然，最大的重点不是矩阵运算，而是注意力机制的出现。

Table of Contents

一、CNN最大的问题是什么

CNN依旧是十分优秀的特征提取器，然而注意力机制的出现使得CNN隐含的一些问题显露了出来。

CNN中一个很重要的概念是感受野，一开始神经网络渐层的的卷积核中只能看到一些线条边角等信息，而后才能不断加大，看到一个小小的“面”，看到鼻子眼睛，再到后来看到整个头部。一方面的问题是：做到这些需要网络层数不断地加深(不考虑卷积核的大小)，感受野才会变大；另一方面的问题是：特征图所表达出来的信息往往是十分抽象的，我们不清楚到底需要多少层也不清楚每层的抽象信息是否都有用(ResNet出现)。

假设我们的脸贴在一幅画上，我们无法看出一幅画里都有什么； “管中窥豹”、“坐井观天”、“一叶障目” 等都是我们此时的感受野太小了；稍微抬下头，我们看到了画中的人；稍微站得远一步，我们看到了整幅画从脑中的经验得知，这是《清明上河图》。

上面这种情况是我们机械的从视野的角度去分辨看待事物，然而我们是人类，我们拥有注意力。

我们会在观察一张图片时会忽略背景，注意图片中的主体(或相反)

我们会在区分狮子还是老虎时，更注意看它们的毛发，它们的头上有没有“王”。

回想注意力机制的特点，它是从”整体”上观察我们需要什么，要注意的地方在哪里。既然是在整体上观察，那么其“感受野”，一定就相当于许多层之后的CNN了。

CNN许多层才做到的事情，在Transformer中第一层就做到了。

二、VIT整体架构解读

2.1 图像转换成序列

接下来就是该怎么做了，由于Transofrmer是序列到序列模型，我们需要把图像信息转为序列传给Encoder。

观察上图左下角，一个完整的图片，我们可以把它切割成9份(举例)，9个patch，每一份比如说是10x10x3的矩阵。将每一份通过一次卷积变成1×300的矩阵，由此变成序列。

如上图，9个300维的向量传递给Linear Projection of Flattened Patches层，其实就是一次全连接进行映射，把我们这些300维的向量映射成256/512维等的向量。

之后传递给Transformer Encoder。

2.2 VIT位置编码

我们上面把一张图片切成了9份，每份都有建筑物的一部分，要让计算机更好地识别出图片内容，这9份应当给它们加上序号，即位置编码。

论文实验证明，加上序号比不加效果好；以1-9为序号和以(1,1) (1,2) (1,3) (2,1)…(3,3)为序号结果相差不大。

当然，该论文进行的是分类任务，位置编码1D和2D确实没有太大区别。但如果放在分割等任务就不一定了。

2.3 VIT工作原理

可以看到，上图除了1-9以外，还存在一个序列0，我们把这个0叫做token。这个token一般只用于分类任务，而检测分割一般用不到。

以分类任务为例，无非是多了一行序列。

当把0号token+序列1-9传递给Encoder后，它内部进行QKV计算，和权重矩阵 $W^{Q}W^{K}W^{V}$ 计算转变为QKV矩阵继续计算。其本质就是0号token+序列1-9这10个序列点积，这样0号token中就是存储着序列1-9的特征9个patch的。如此经过L轮，经过L轮计算，0号token中的信息就是全局信息了。