双向的bert有多好？

xiaoxingxing 2年前 nlp 205

原文标题 ：How bert is a bidirectional?

Bert 编码器接受输入并用于多头注意力模型。但是它们如何保持顺序？由于当前单词不采用先前单词的序列。此外，为什么它是双向的？它是否像 LSTM 一样保持前向和后向序列？

原文链接：https://stackoverflow.com//questions/71487474/how-bert-is-a-bidirectional

我来回复

ewz93 评论

它是双向的，因为它使用当前单词两侧的上下文（而不是例如，使用前几个单词它使用整个序列）。

这取决于您想详细了解多少，但基本上有注意力和自我注意力机制可以使这种“一次处理序列中的所有事情”的方式起作用。

简而言之，注意力机制意味着不是按顺序/逐字地遍历句子，而是使用整个序列对当前处理的单词进行解码，同时使用注意力系统赋予权重来决定哪个单词在input 获得了如何处理当前单词的多少发言权。

Self-Attention 机制意味着即使对于输入序列本身的编码，上下文（句子的其余部分）也已经被使用。例如。如果您有一个带有“it”用作代词的句子，则编码该标记的大小将与上下文密切相关。Self-Attention 意味着与注意力类似，存在一个加权函数，对于该函数，其他输入标记与当前输入标记的编码有多相关。

解释 Self-Attention 的一种流行方式是：The cat ran over the street, because it got startled.这句话中it的编码强烈依赖于The cat，有点依赖于the street，因为模型在预训练期间学习到预测itin之后/周围的掩蔽词这种句子将强烈依赖于这些名词。

如果您还没有，您绝对应该查看 Attention is all you need-Paper 以及 the BERT-Paper（至少是摘要），它们详细解释了机制和预训练过程是如何工作的。

另一个更好地了解其实际工作原理的重要来源是 Illustrated Transformer。

2年前 0条评论

双向的bert有多好？

回复

相关问题