BERT Ensemble 共享线性层比单个模型差

原文标题BERT Ensemble shared linear layer worse than individual model

我在同一个数据集上微调了两个使用不同权重初始化的基于 bert 的模型。然后我尝试通过共享线性层组合我的预训练模型。假设我的代码没有问题,这种组合在训练期间是否有可能比单个模型在测试集上表现更差? – 这是我的情况。

原文链接:https://stackoverflow.com//questions/71660745/bert-ensemble-shared-linear-layer-worse-than-individual-model

回复

我来回复
  • DerekG的头像
    DerekG 评论

    不,共享线性层本质上是一种集成机器学习方法,它将两个“弱”模型组合成一个更强的模型。学习此组合的参数以优化训练集的性能,因此除非共享层的设计方式使其实际上不利用输入特征,否则其性能应始终至少与较差的一样好训练集上的两个集成模型。这是因为至少,共享层应该能够学习准确地输出更好模型的结果并忽略其他模型。当然,由于数据的分布可能不同,因此实现更差的测试性能是合理的。

    您的问题的一些原因可能是:

    • 局部最优初始化
    • 共享层中的不同激活函数
    • 其他参数设置
    2年前 0条评论