transformer

华为2023年提出的多元时间序列预测模型（MTS-Mixers）

华为在这2023年2月9日发布了一篇关于多元时间序列预测的文章，借鉴了NLP中前一阵比较热的Mixer模型，取代了Attention结构，不仅实现了效果上的提升，而且还实现了效率上…

扎眼的阳光

Python 2023年4月20日

16700

BERT模型基本理念、工作原理、配置讲解（图文解释）

一、BERT的基本理念 BERT是Birdirectional Encoder Representation from Transformers的缩写，意为多Transformer…

青葱年少

Python 2023年4月16日

13300

Transformer中解码器decoder的详细讲解（图文解释）

假设我们想把英语句子i am good翻译成法语句子 Je Vais bein，首先将原句送入编码器，使编码器学习原句，并计算特征值，在上一篇博客中已经讲解了编码器是如何计算原句的…

青葱年少

Python 2023年4月16日

14500

Transfomer编码器中自注意力机制、前馈网络层、叠加和归一组件等讲解（图文解释）

Transformer中的编码器不止一个，而是由一组N个编码器串联而成，一个编码的输出作为下一个编码器的输入，如下图所示，每一个编码器都从下方接收数据，再输出给上方，以此类推，原句…

乘风

Python 2023年4月15日

8500

占有统治地位的Transformer究竟是什么

讲个有趣的小故事我高二那年从乙班考入了甲班，对于那时的我偏科英语最高只有108+班级平均英语成绩125+暴躁难为人女英语老师，使我上英语课时战战兢兢。英语老师很时尚，喜欢搞花里…

扎眼的阳光

Python 2023年4月14日

13600

Python

Transformer在计算机视觉中的应用-VIT、TNT模型

上期介绍了Transformer的结构、特点和作用等方面的知识，回头看下来这一模型并不难，依旧是传统机器翻译模型中常见的seq2seq网络，里面加入了注意力机制，QKV矩阵的运算使…

心中带点小风骚

2023年4月9日

11500

Transformer 中的mask

简单聊聊transformer里的mask ——转载自链接一 1.padding mask 在encoder和decoder两个模块里都有padding mask，位置是在soft…

乘风

Python 2023年4月5日

20800

93.transformer、多头注意力以及代码实现

1. Transformer架构 2. 多头注意力 3. 数学上来解释多头注意力 4. 有掩码的多头注意力 5. 基于位置的前馈网络 6. 层归一化 batch norm：比如说一…

乘风

Python 2023年4月5日

14900

【Transformer开山之作】Attention is all you need原文解读

Attention Is All You Need Transformer原文解读与细节复现导读在Transformer出现以前，深度学习的基础主流模型可分为卷积神经网络CNN…

青葱年少

Python 2023年4月5日

20500

【论文阅读】UNet-2022: Exploring Dynamics in Non-isomorphic Architecture

UNet-2022: Exploring Dynamics in Non-isomorphic Architecture 论文地址:https://arxiv.org/pdf/22…

扎眼的阳光

Python 2023年4月5日

13600