站点图标 AI技术聚合

知识图谱–知识抽取

知识抽取 – 潘登同学的KG笔记

前言

知识抽取是知识图谱与NLP的交叉领域;

知识图谱工程

知识抽取

实体识别与分类

核心就是NLP的序列标注问题,这里不再赘述;

最开始先是机器学习模型HMM为主,后被深度学习模型取代BiLSTM-CRF;

总结一下HMM模型即可

实体识别解码策略

对于网络的Head部分有这样几个常用的结构

指针网络

指针网络是将序列标注问题转化为两个子问题:先分块再分类。指针网络会贪婪地从头开始找下一个块结束的位置(开始的位置很显然,第一个块的开始位置是起始点,后面的开始位置都是前面一块的结束位置的后继位置)如上图d所示,在起始块”<s>“后一块的结束块位置是”Jordan”,这样就得到块”Michael Jeffrey Jordan”,然后将这个块进行分类确定类别,之后再继续找下一个块的结束位置,找到”was”,这样就得到一个新的块”was”,再将这个块进行分类,然后这样循环下去直到序列结束。指针网络主要就起到确定块起始位置的作用。

指针网络的铺垫模型
举例说明指针网络的用法: 基于Bert的阅读理解任务,根据输入<CLS>问题<SEP>文本<SEP>,Bert Encoder后接FC层生成与输入序列长度相等的两个向量,这两个向量分别表示一个词的起始和结束,如果是起始或者结束则为1,否则为0(接了softmax层);

输入:
<CLS>请抽出这段话含有的朝代。<SEP>贼吕布在东汉末年认了三个爹,李白生于唐朝,朱元璋建立了明朝<SEP>

输出: 东汉、唐朝、明朝

其loss函数则为

指针网络
指针网络解决的是实体重叠问题,这类问题在NER问题中一般不存在,所以指针网络(PointerNet)最早应用于MRC中,而MRC中通常根据1个question从passage中抽取1个答案片段,转化为2个n元SoftMax分类预测头指针和尾指针。对于NER可能会存在多个实体Span,因此需要转化为n个2元Sigmoid分类预测头指针和尾指针。

将指针网络应用于NER中,可以采取以下两种方式:

关系抽取

实体关系抽取的任务定义:

完整的关系抽取包括实体抽取和关系分类两个子过程。实体抽取子过程也就是命名实体识别,对句子中的实体进行检测和分类;关系分类子过程对给定句子中两个实体之间的语义关系进行判断,属于多类别分类问题。

基于模板的方法

优缺点

基于机器学习的模型

根据使用机器学习方法不同,可以将关系抽取划分为三类:基于特征向量的方法、基于核函数的方法以及基于神经网络的方法。

总结

深度学习模型

实体与关系联合抽取模型

多标签关系抽取,传统模型主要关注单标签关系抽取,但同一个句子可能包含多个关系。采用胶囊神经网络
可以帮助实现多标签的关系抽取。
胶囊神经网络

跨句推理问题

半监督学习

对于半监督学习的假设非常强,可能不太现实,会有很多噪声,所以有如下两个解决方案

Bootstrap-Neural Snowball

而Bootstrapping会产生语义漂移问题,一些解决方案

总结

主流关系抽取模型框架 DeepKE https://github.com/zjunlp/deepke

属性补全

定义

抽取式模型

生成式模型

例子

概念抽取

概念使得人们能更好地理解世界,而知识图谱理解概念则通过isA关系、subclassOf关系来构建

三种概念抽取的方法

基于模板的抽取

基于百科的抽取

基于机器学习的抽取

浙大知识图谱 OpenConcept http://openconcept.openkg.cn/

总结

事件识别与抽取

事件定义

事件抽取的定义
从无结构文本中自动抽取结构化事件知识:

事件抽取一般分为两步

两种事件识别与抽取的方法

模式匹配

机器学习–基于特征

机器学习–基于结构

机器学习–基于神经网络

但是深度学习方法需要大量标注样本,而样本难标注,远程监督困难等问题仍然存在;

基于外部弱监督的深度学习模型

百度发表的中文事件抽取模型 DUEE https://ai.baidu.com/broad/subordinate?dataset=duee

知识抽取技术前沿

基于深度学习的抽取方法依赖海量标注数据,在真实的场景中,数据通常是长尾的(各类别分布不均衡),数据的标注成本大等;在少样本,零样本面临严峻的挑战;对于日新月异的新知识,模型在学习新知识时会遗忘掉以往的知识;

少样本知识抽取

零样本知识抽取

终身知识抽取

文章出处登录后可见!

已经登录?立即刷新
退出移动版