BERT Ensemble 共享线性层比单个模型差

心中带点小风骚 2年前 pytorch 223

原文标题 ：BERT Ensemble shared linear layer worse than individual model

我在同一个数据集上微调了两个使用不同权重初始化的基于 bert 的模型。然后我尝试通过共享线性层组合我的预训练模型。假设我的代码没有问题，这种组合在训练期间是否有可能比单个模型在测试集上表现更差？ – 这是我的情况。

原文链接：https://stackoverflow.com//questions/71660745/bert-ensemble-shared-linear-layer-worse-than-individual-model

回复

我来回复

DerekG 评论
不，共享线性层本质上是一种集成机器学习方法，它将两个“弱”模型组合成一个更强的模型。学习此组合的参数以优化训练集的性能，因此除非共享层的设计方式使其实际上不利用输入特征，否则其性能应始终至少与较差的一样好训练集上的两个集成模型。这是因为至少，共享层应该能够学习准确地输出更好模型的结果并忽略其他模型。当然，由于数据的分布可能不同，因此实现更差的测试性能是合理的。

您的问题的一些原因可能是：
- 局部最优初始化
- 共享层中的不同激活函数
- 其他参数设置
2年前 0条评论