双向的bert有多好?

xiaoxingxing nlp 205

原文标题How bert is a bidirectional?

Bert 编码器接受输入并用于多头注意力模型。但是它们如何保持顺序?由于当前单词不采用先前单词的序列。此外,为什么它是双向的?它是否像 LSTM 一样保持前向和后向序列?

原文链接:https://stackoverflow.com//questions/71487474/how-bert-is-a-bidirectional

回复

我来回复
  • ewz93的头像
    ewz93 评论

    它是双向的,因为它使用当前单词两侧的上下文(而不是例如,使用前几个单词它使用整个序列)。

    这取决于您想详细了解多少,但基本上有注意力和自我注意力机制可以使这种“一次处理序列中的所有事情”的方式起作用。

    简而言之,注意力机制意味着不是按顺序/逐字地遍历句子,而是使用整个序列对当前处理的单词进行解码,同时使用注意力系统赋予权重来决定哪个单词在input 获得了如何处理当前单词的多少发言权。

    Self-Attention 机制意味着即使对于输入序列本身的编码,上下文(句子的其余部分)也已经被使用。例如。如果您有一个带有“it”用作代词的句子,则编码该标记的大小将与上下文密切相关。Self-Attention 意味着与注意力类似,存在一个加权函数,对于该函数,其他输入标记与当前输入标记的编码有多相关。

    解释 Self-Attention 的一种流行方式是:The cat ran over the street, because it got startled.这句话中it的编码强烈依赖于The cat,有点依赖于the street,因为模型在预训练期间学习到预测itin之后/周围的掩蔽词这种句子将强烈依赖于这些名词。

    如果您还没有,您绝对应该查看 Attention is all you need-Paper 以及 the BERT-Paper(至少是摘要),它们详细解释了机制和预训练过程是如何工作的。

    另一个更好地了解其实际工作原理的重要来源是 Illustrated Transformer。

    2年前 0条评论