Transformer Vision（二）|| ViT-B/16 网络结构

乘风 • 2023年8月8日下午10:12 • Python • 阅读 74

目录

1. 原理图

将一张图片拆分开来如下图所示，下图的 0,1,2，…，8,9 是用于记录图片的位置信息

2.Transformer Encoder结构图 (L× 指重复堆叠L次)

3.实现过程：

更为详细的Encoder Block图

上图中的 MLP Block 图解为

4.MLP Head层

注意：在Transformer Encoder 前有一个Dropout层，后有一个Layer Norm层

训练自己的网络时，可简单将MLP Head层看作一个全连接层

5. 总结ViT-B/16 网络结构

其中：Encoder Block

其中：MLP Block

文章出处登录后可见！

已经登录？立即刷新

人工智能深度学习

赞 (0)

乘风管理团队

0

Python之selenium关于Chrome驱动位置，闪退的问题和安装路径

上一篇 2023年8月8日

深度学习—Yolov5模型配置

下一篇 2023年8月8日