BERT Ensemble 共享线性层比单个模型差
pytorch 268
原文标题 :BERT Ensemble shared linear layer worse than individual model
我在同一个数据集上微调了两个使用不同权重初始化的基于 bert 的模型。然后我尝试通过共享线性层组合我的预训练模型。假设我的代码没有问题,这种组合在训练期间是否有可能比单个模型在测试集上表现更差? – 这是我的情况。