1 简介
论文题目:Connecting the Dots: Event Graph Schema Induction with Path Language Modeling
论文来源:EMNLP 2020
论文链接:https://aclanthology.org/2020.emnlp-main.50.pdf
代码链接:http://blender.cs.illinois.edu/software/pathlm
1.1 创新
- 提出了一种新的事件模式表示语义模式归纳框架,对事件结构和事件-事件关系进行编码,并提出了两个新的评估指标来评估图模式的覆盖率和连贯性。
- 提出了一种路径语言模型,用于选择显着和连贯的事件-事件路径并构建概率和语义连贯的事件图模式。
2 问题表述
给一个文档,抽取其中的实体、关系、事件实例,构造事件实例图(节点表示实体或者事件,边表示事件-论元角色或者实体-实体关系)。事件图模式归纳(Event Graph Schema Induction)的目标是从事件实例图中生成循环的图模式,对于每个事件类型对生成一个事件图模式(节点和边分别为事件实例图对应的类型),如下图。
3 方法
主要包括以下几个部分:
3.1 实例图的构建
使用信息抽取系统或人工标注抽取实体、实体-实体关系、事件和参数,实例路径和事件-事件路径(节点和边的类型)的公式如下:
|
|
3.2 自回归路径语言模型
自回归路径语言模型使用transformer对路径序列进行打分(如下图),为了区分节点和边,设置Element编码[1,2,1,…,1,2],Loss函数如下:
3.4 邻居路径分类
为了捕捉路径之间的一致性,使用一个二分类器学习两条路径的发生概率,相同事件实例v和v’的共现路径为邻居路径;相同事件类型的路径为负邻居路径,使用CLS标签进行分类,公式如下:
|
| |
|
|
|
3.5 图模式构建
给两个事件类型,通过合并topk个路径得到图模式,打分函数包括语言模型和邻居分类两部分,公式如下(第二行第二个公式为节点和边的打分函数):
|
|
|
|
|
4 实验
实验数据集为ACE2005,数据统计如下(表示人工标注的事件实例图,表示系统抽取的事件实例图):
提出两个评测指标,Instance Coverage和Instance Coherence:
- Instance Coverage:使用每个图模式s和ground-truth实例图g进行匹配,使用交集计算准确率和召回率,公式如下:
|
|
|
- Instance Coherence:使用该指标评价图是连贯的(与同一文档尽可能匹配,与其他文档尽可能不匹配),公式如下:
将归纳的模式加入到信息抽取系统(ONEIE)中,过程如下,公式如下(为每个实体、关系、事件的类型预测分数):
实验结果如下:
添加诱导事件模式后,信息提取的实验结果如下:
文章出处登录后可见!