双向的bert有多好?
原文标题 :How bert is a bidirectional?
Bert 编码器接受输入并用于多头注意力模型。但是它们如何保持顺序?由于当前单词不采用先前单词的序列。此外,为什么它是双向的?它是否像 LSTM 一样保持前向和后向序列?
回复
我来回复-
ewz93 评论
它是双向的,因为它使用当前单词两侧的上下文(而不是例如,使用前几个单词它使用整个序列)。
这取决于您想详细了解多少,但基本上有注意力和自我注意力机制可以使这种“一次处理序列中的所有事情”的方式起作用。
简而言之,注意力机制意味着不是按顺序/逐字地遍历句子,而是使用整个序列对当前处理的单词进行解码,同时使用注意力系统赋予权重来决定哪个单词在input 获得了如何处理当前单词的多少发言权。
Self-Attention 机制意味着即使对于输入序列本身的编码,上下文(句子的其余部分)也已经被使用。例如。如果您有一个带有“it”用作代词的句子,则编码该标记的大小将与上下文密切相关。Self-Attention 意味着与注意力类似,存在一个加权函数,对于该函数,其他输入标记与当前输入标记的编码有多相关。
解释 Self-Attention 的一种流行方式是:
The cat ran over the street, because it got startled.
这句话中it
的编码强烈依赖于The cat
,有点依赖于the street
,因为模型在预训练期间学习到预测it
in之后/周围的掩蔽词这种句子将强烈依赖于这些名词。如果您还没有,您绝对应该查看 Attention is all you need-Paper 以及 the BERT-Paper(至少是摘要),它们详细解释了机制和预训练过程是如何工作的。
另一个更好地了解其实际工作原理的重要来源是 Illustrated Transformer。
2年前