BERT-QE:用于文档Rerank的上下文化查询扩展模型

BERT-QE:用于文档Rerank的上下文化查询扩展模型

BERT-QE

论文名称:EMNLP2020 | BERT-QE: Contextualized Query Expansion for Document Re-ranking

arxiv地址:https://arxiv.org/abs/2009.07258v1

代码:https://github.com/zh-zheng/BERT-QE

1)Intro

查询扩展通过对用户的初始查询进行扩展和重构,解决了用户查询用词与文档用词不匹配以及用户表达不完整的问题。其目的为减少查询中使用的语言与文档中使用的语言之间的不匹配。伪相关反馈(pseudo relevance feedback,PRF)方法是一种极其有效的方法,通常将Top-k篇文档认作相关文档,使用如TF-IDF权重的方法从这些排名靠前的文档中提取m个关键词,将这些关键词加入到查询中,然后再去匹配查询所返回的文档,最终返回最相关的文档。显然,这种方法的效果非常依赖于所选择的扩展词语的质量。

然而,查询扩展方法在扩展查询时可能会引入不相关的信息。为了解决这一问题,受近年来诸如BERT之类的上下文模型应用于文档检索任务的进展的启发,该文提出了一种新的利用上下文的查询扩展模型。

目前使用预训练模型进行信息检索任务依旧遵循“Retrieve+Rerank”的pipline机制。Retrieve阶段使用BM25或DPH+KL等检索算法对文档集合进行粗排,一般取前1000篇作为feedback document。Rerank阶段就使用BERT等预训练模型进行重排,获取最终的文档排名。

该篇论文主要在Rerank阶段做了一些工作,提出了一种新的查询扩展模型。与19年的Simple Applications of BERT for Ad Hoc Document Retrieval不同的是,该篇论文并不是把文档分成段落,而是使用滑动窗口的方式,在更小的粒度上以期获得更深层的语义信息。

这项工作的贡献是三方面的:

  1. 提出一种新的查询扩展模型,增强BERT模型获取反馈文档中相关信息的能力;
  2. 在两个TREC测试集Robust04和GOV2上进行了评估,在模型的三个阶段中均使用BERT-Large可以显著提高BERT-Large在浅池和深池中的性能;
  3. 在不同阶段应用不同大小的BERT模型,可以权衡效率和精度。

2)Method

fine-tune阶段

该模型使用了基于交互的方式,以查询query为Segment A ,以段落passage为Segment B构建BERT的输入序列S,如下图所示。输出则为最后一层[CLS]的向量表示,以此来获得Segment A和Segment B的相关性得分。

BERT-QE:用于文档Rerank的上下文化查询扩展模型

BERT-QE中首先使用在MS MARCO数据集上训练过的BERT模型为基础,然后在目标数据集(如:Robust04)上进行微调。微调阶段首先使用BERT获取目标数据中排名靠前的passages,然后用这些query-passages对,使用如等式1所示的损失函数对BERT进行微调。

BERT-QE:用于文档Rerank的上下文化查询扩展模型

其中,I_{pos}I_{neg}分别是相关文档和非相关文档的索引集,p_{i}是文档d_{i}与查询相关的概率。

Rerank阶段

阶段1:首先使用DPH+KL得到k篇粗排文档,基于给定的query与文档使用经过微调的BERT获取如等式2所示的文档的相关性得分,依据这些相关性得分对文档进行初步重排。

BERT-QE:用于文档Rerank的上下文化查询扩展模型

阶段2:将初步重排后的BERT-QE:用于文档Rerank的上下文化查询扩展模型个文档作为PRF文档,使用滑动窗口的方法将每一篇文档分为长度为m个词项的文本块,如下图所示。相邻的两个滑动窗口最多重叠m/2个词项,也就是说,使用了长度为m,步长为m/2的滑动窗口来把文档划分为文本块。

BERT-QE:用于文档Rerank的上下文化查询扩展模型

使用微调后的BERT模型对每个文本块进行相关性评估,选择其中得分最高的BERT-QE:用于文档Rerank的上下文化查询扩展模型个文本块,用BERT-QE:用于文档Rerank的上下文化查询扩展模型代表第i个文本块,这些最相关的文本块集合表示为BERT-QE:用于文档Rerank的上下文化查询扩展模型BERT-QE:用于文档Rerank的上下文化查询扩展模型

阶段3:使用阶段2得到的文本块与原始query结合,获得最终的文档排名。过程如下图所示:

BERT-QE:用于文档Rerank的上下文化查询扩展模型

对于每一个文档d,都用阶段2中得到的top文本块来评估文档的相关性。可以理解为文本块与query的相关性得分越高排名就越靠前,如果文档d与这些排名靠前的文本块的相关性得分也很高,那么就代表了文档d和query越相关。将BERT-QE:用于文档Rerank的上下文化查询扩展模型个文本块与文档d的相关性分数聚合,生成文档的查询扩展项的相关性分数,具体如下:

BERT-QE:用于文档Rerank的上下文化查询扩展模型

其中,BERT-QE:用于文档Rerank的上下文化查询扩展模型是query与文本块BERT-QE:用于文档Rerank的上下文化查询扩展模型的相关性分数,通过softmax函数进行归一化,获取每个文本块在文档中所占权重;BERT-QE:用于文档Rerank的上下文化查询扩展模型为文本块BERT-QE:用于文档Rerank的上下文化查询扩展模型与文档d的相关性分数;通过加权求和,获得了最终的查询扩展项分数。

最后,将该分数与原始查询线性组合,根据反馈和原始查询生成一个组合分数,用于在最后阶段对文档进行排序,如下所示:

BERT-QE:用于文档Rerank的上下文化查询扩展模型

其中\alpha是控制两部分重要性的超参数。

注意:三个阶段可以分别使用不同规模的BERT模型,例如BERT-QE-LLL就是三个阶段均使用BERT-Large,以此类推BERT-QE-TML即第一阶段Tiny,第二阶段Medium,第三阶段Large。

3)Experimental Setup

模型最大序列长度设置为384,在TPU v3进行训练,batch_size为32,训练2个epoch;使用Adam optimizer,学习率初始值为1e-6。并且进行了五折交叉验证,将quuery等分成5份,每一次,使用三分进行训练、一份进行验证,一份进行测试。

经过测试的最佳超参数为:阶段2中,文本块切割时的窗口大小m为10个words;阶段1中,BERT-QE:用于文档Rerank的上下文化查询扩展模型为靠前的10个文档。BERT-QE:用于文档Rerank的上下文化查询扩展模型为10个文本块。在阶段1和阶段3中,使用BERT模型对前1000个文档进行重新排序。

使用的BERT模型规模如下图所示:

BERT-QE:用于文档Rerank的上下文化查询扩展模型

4)Results

BERT-QE:用于文档Rerank的上下文化查询扩展模型

如表3所示,该论文比较了BERT-QE-LLL、BERT Base和BERT Large在Robust04和GOV2上的性能。可以看出,无论是否使用查询扩展,BERT-Large都显著优于所有非BERT基线。在Robust04数据集上BERT-QE-LLL与BERT Large相比,在NDCG@20与MAP@1K这两个评价指标上分别提高了2.5%和3.3%。

BERT-QE:用于文档Rerank的上下文化查询扩展模型

如表4所示,BERT-QE-LLL的计算量为BERT-Large的11.19倍,计算成本非常高。如果第三节阶段使用小规模模型,那么计算成本将会急剧下降,可以看到BERT-QE-LMT和BERT-QE-LLS的计算量分别为BERT-Large的1.03倍和1.30倍,但是仍然有改进效果。

5)Analysis

由于计算开销太大,这个方法即使有效果,也很难在工业界应用落地。可以对其进行一些改进,如融入SBERT或者colBERT这种弱交互的模型框架,应该可以有效减少计算开销。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2022年4月1日 下午1:22
下一篇 2022年4月1日 下午2:09

相关推荐