【论文阅读】强化学习与知识图谱关系路径发现

  • 论文标题:DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning
  • 中文题目:Depth Path: A Reinforcement Learning Approach for Knowledge Graph Reasoning
  • 项目代码:GitHub@DeepPath
  • 论文下载:arxiv@1707.06690

前言

最近把之前写综述看的一百多篇paper整理了一下,然后准备抽几篇感觉不错的写点详细的笔注,这篇是讲知识图谱补全中关系路径方法比较好的一篇,看下来感觉的确方法是有创新性的,一些想法很值得借鉴。

最近走回正轨,身体仍然处于恢复期,虽然现在情势并不太乐观,但是仍然要做好充分的准备,万一上半年有比赛能参加是一定要去的,只是一个寒假长了10斤(68kg$\rightarrow$73kg),压力特别大,很难回到去年年底时的巅峰状态了,返校半个多月基本每天都有训练,耐力始终上不去,实在是令人很不快。老王一个寒假没怎么练,拉垮得比我还厉害,不过他还是报了上半年的厦马,于是我也跟着报了个名,反正大概率也抽不上,希望四月份的上海半马和扬州的世马测试赛能办得了就好了。

慢慢来,事情不能着急。

摘要 Abstract

  • 本文研究如何在大规模知识图谱中进行推理。
  • 本文提出一种强化学习框架用于学习多级关系路径(multi-hop relational paths),具体而言,强化学习的状态(state)是基于知识图谱嵌入(knowledge graph embeddings)的连续型向量,智能体是基于策略的(policy-based agent),即根据策略网络(policy network)进行更新迭代。具体而言,智能体在知识图谱向量空间中通过采样最可信的关系来扩展其路径以实现推理。
  • 相较于之前的工作,本文在强化学习的奖励函数(reward function)中考虑了精确性(accuracy),多样性(persity),功效性(efficiency)。
  • 实验表明,本文提出的方法在Freebase与NELL(Never-Ending Language Learning datasets)两个知识图谱数据集上比一种基于路径排序(path-ranking)的算法以及一种知识图谱嵌入方法要表现得更好。

1 引入 Introduction

  • 本文的研究是多级推理(multi-hop reasoning),即根据知识图谱中的实体关系信息学习得到显式推理公式(explicit inference formulas)。比如,若知识图谱中包含如下两组事实:
  • 内马尔效力于巴塞罗那;
  • 巴塞罗那属于西甲;
    那么机器应该能够学习到以下公式:
    %5Ctext%7BplayerPlaysForTeam%7D%28P%2CT%29%5Cwedge%5Ctext%7BteamPlaysInLeague%7D%28T%2CL%29%5CRightarrow%20%5Ctext%7BplayerPlaysInLeague%7D%28P%2CL%29
    在测试过程中,通过嵌入学习的公式,系统可以自动推断实体之间可能的缺失关系(即知识图完成)。
  • 参考文献[16 17 18]中提出的路径排序算法(Path-Ranking Algorithm,下简称为PRA)是在大规模知识图谱中学习推理路径的流行方法。PRA使用的是随机游走(random-walk)策略,智能体通过执行多次有限制的深度优先搜索(bounded depth-first search)来寻找关系路径。
    然后与弹性网络(elastic-net,即在损失函数中同时加入一次正则项与二次正则项)相结合,PRA通过监督学习挑选出更合理的路径。
    然而PRA是在全离散空间(fully discrete space)进行搜索,因此它难以评估与比较知识图谱中相似的实体与关系。
  • 本文提出使用强化学习来搜索关系路径以实现多级推理。相较于PRA,本文使用的参考文献[2]中基于翻译的(translation-based)嵌入方法来编码强化学习智能体的连续状态,并在知识图谱的向量空间环境(environment)中进行推理。智能体通过采样关系不断扩展其路径,为确保智能体更好地学习关系路径,本文使用参考文献[22]中提出的策略梯度训练(policy gradient training)方法,并在强化学习的奖励函数中引入精确性,多样性,功效性三个新指标,最终在Freebase与NELL知识图谱数据集(参考文献[3])上取得了更好的实验结果。
  • 本文的贡献有三:
  • 首次使用强化学习方法来学习知识图谱中的关系路径;
  • 通过在奖励函数中引入三个新指标,路径发现更加灵活可控;
  • 本文的方法可以推广到大规模的知识图谱中,并依然表现得比PRA更好;

2 相关工作 Related Work

  • PRA起源于参考文献[16 17 18],此后有学者对其做出改进:
  • 参考文献[6 7]在PRA中引入计算特征相似度。
  • 参考文献[26]提出一种递归的随机游走方法来结合知识图谱与文本,该方法对逻辑程序(logic program)进行结构化学习(structure learning),并同时从文本中挖掘信息。
  • 随机游走的问题在于超节点(supernodes)与大量的公式连接形成庞大的扇出区(fan-out area,通常指深度学习中下一层的节点数),使得推理缓慢且精确性降低。(这个其实还是易于理解的,即随机游走可能会学习得到大量潜在的关系路径,神经网络需要对这些路径进行评估,比如最后以softmax层输出多分类结果,则输出的节点数会非常庞大,分类精确性自然很差)
  • 多层次推理的深度学习方法:
  • 参考文献[25]提出一种卷积神经网络模型的解决方案,其建立的模型基于句法依存路径(lexicalized dependency paths),因句法解析的错误使得网络传播中也会发生错误。
  • 参考文献[9]使用知识图谱嵌入来回答路径查询(path queries)。
  • 参考文献[29]提出一种卷积神经网络模型来建模关系路径用于知识图谱补全,但是它训练太多的小模型,因而无法推广到大规模的情形。
  • 近期大部分的知识图谱推理方法(参考文献[5 23])仍然依赖于学习PRA路径,且只是在离散空间中搜索。
  • 参考文献[19]提出的神经符号机器(Neural symbolic machine,下简称为NSM)也采用了强化学习方法,但是与本文的研究有所区别。NSM是学习复合程序(compose program)用以对自然语言问题进行作答,本文的模型则是用以向知识图谱中添加新的事实(即知识图谱补全)。
    NSM学习生成得到一系列的行为(actions),并将它们依次合并作为可执行程序(executable program),NSM的行为空间(action space)是一系列预先设置号的标记,而本文的目标是发现推理路径,因此行为空间即知识图谱中的关系空间。
    参考文献[12]中提出得是一个与NSM类似的框架,目前已经被应用于可视化的推理任务中。

3 方法 Methodology

  • 同样:本文解决的多层次推理问题是预测实体对之间可能的缺失关系。
  • 本文将寻路问题抽象为一个顺序决策问题,可以通过强化学习方法来解决。
  • 本文提出的强化学习框架中的智能体是基于策略的(policy-based),在知识图谱向量空间的环境中进行交互,以学习选取得到最可信的推理路径。
  • 本节的第二小节与第三小节中将分别阐述模型训练以及如何根据智能体找到的路径进行关系推理的一种路径约束搜索算法(path-constrained search algorithm)。

3.1 关系推理的强化学习 Reinforcement Learning for Relation Reasoning

请添加图片描述

  • 根据Figure 1中的描述,强化学习模型由两部分构成:
  • 外部环境%5Cmathcal%7BE%7D:确定智能体与知识图谱的动态交互,由马尔克夫决策过程(Markov Decision Process,下简称为MDP)建模得到。
    具体而言,四元组%28%5Cmathcal%7BS%2CA%2CP%2CR%7D%29用于定义表示MDP,其中%5Cmathcal%7BS%7D表示连续的状态空间,%5Cmathcal%7BA%7D%3D%5C%7Ba_1%2Ca_2%2C...%2Ca_n%5C%7D是一系列可用的行为,%5Cmathcal%7BP%7D%28S_%7Bt%2B1%7D%3Ds%27%7CS_t%3Ds%2CA_t%3Da%29表示转移概率矩阵(transition probability matrix),%5Cmathcal%7BR%7D%28s%2Ca%29表示每个%28s%2Ca%29对的奖励函数。
  • 智能体:由策略网络(policy network)表示,策略函数为%5Cpi_%7B%5Ctheta%7D%28s%2Ca%29%3Dp%28a%7Cs%3B%5Ctheta%29,即将状态向量映射为一个随机策略(stochastic policy)。其中,%5Ctheta表示神经网络参数,使用随机梯度下降法(stochastic gradient descent,下简称为SGD)进行迭代更新。
  • 与参考文献[21]中提出的DQN模型相比,基于策略的强化学习方法更适合于本文所研究的知识图谱场景。原因有二:
  • 知识图谱中的路径发现问题,通常涉及的行为空间是非常大的,因此容易使得DQN模型难以收敛;
  • DQN模型通常基于价值(Q值)得到一个贪心的策略,策略网络则能够学习随机策略以防止智能体陷于某个中间态(intermediate state)无法继续更新。
  • 强化学习框架的组成部分:
  • 行为(Actions):给定实体对%28e_s%2Ce_t%29和它们的关系r,我们希望智能体能够找到最富含有用信息的(informative)路径来链接该实体对。
    从源实体e_s开始,代理使用策略网络扩展其路径以选择最受信任的关系,直到它到达目标实体e_t。为了使策略网络的输出维度保持一致,我们将动作空间定义为知识图中所有关系的集合。
  • 状态(States):知识图谱中的实体与关系通常表示为离散符号,如Freebase(参考文献[1])与NELL(参考文献[4])中都包含巨量的三元组,因此想要在状态空间中建模所有的离散符号几乎是不可能的。
    于是本文认为可以使用如TransE(参考文献[2])与TransH(参考文献[27])等知识图谱嵌入方法将实体与关系表示为特征向量,以达到降维的目的。此时我们需要记录智能体的当前所在的实体位置以及它下一个即将达到的实体,具体而言:
    s_t%3D%28e_t%2Ce_%7B%5Ctext%7Btarget%7D%7D-e_t%29
    其中e_t代表当前实体的嵌入,e_%7B%5Crm%20target%7D代表目标实体的嵌入,初始状态有e_t%3De_%7B%5Crm%20source%7D
    注意,关系嵌入不包含在状态中,因为关系嵌入在路径发现过程中是一个常数,对模型训练没有帮助。然而,我们仍然发现,如果训练代理使用一系列正样本发现特定关系,代理也可以发现关系的语义(即关系嵌入)。
  • 奖励(Rewards):为了使得智能体能够更好的找到预测路径,本文在奖励函数中引入新指标指标。
  • 全局精确性(Global accuracy):前面提到行为空间是非常庞大的,因此可想而知智能体做出的大部分序列决策都是错误的,错误的路径会导致路径长度成指数级增长,因此定义如下的指标:
    r_%7B%5Crm%20GLOBAL%7D%3D%5Cleft%5C%7B%5Cbegin%7Baligned%7D%26%2B1%26%26%5Ctext%7Bif%20the%20path%20reaches%20%7De_%7B%5Crm%20target%7D%5C%5C%26-1%26%26%5Ctext%7Botherwise%7D%5Cend%7Baligned%7D%5Cright.
    即只要路径最终找到目标实体,值为正,否则为负。
  • 路径功效性(Path efficiency):就关系推理任务而言,本文发现短路径往往比长路径提供更可靠的推理证据。因此定义如下的指标:
    r_%7B%5Crm%20EFFICIENCY%7D%3D%5Cfrac1%7B%5Ctext%7Blength%7D%28p%29%7D
    其中路径 p 被定义为一系列关系: r_1%5Crightarrow%20r_2%5Crightarrow%20...%5Crightarrow%20r_n
  • 路径多样性(Path persity):本文利用正样本来训练智能体发现每种关系,这些用于训练的样本%28e_%7B%5Crm%20source%7D%2Ce_%7B%5Crm%20target%7D%29往往在向量空间中都具有相似的嵌入表示,因此智能体往往就只会去发现具有相似语义或相似句法的路径,此时发现得到的路径可能会是冗余的,因为这些路径事实上都是非常相似的。因此定义如下的指标:
    r_%7B%5Crm%20DIVERSITY%7D%3D-%5Cfrac1%7B%7CF%7C%7D%5Csum_%7Bi%3D1%7D%5E%7B%7CF%7C%7D%5Ccos%28%7B%5Cbf%20p%7D%2C%7B%5Cbf%20p%7D_i%29
    其中%7B%5Cbf%20p%7D%3D%5Csum_%7Bi%3D1%7D%5Enr_i表示路径嵌入,r_1%5Crightarrow%20r_2%5Crightarrow%20...%5Crightarrow%20r_n是关系路径。
    注意作者这里没有解释F%7B%5Cbf%20p%7D_i。其实,一个简单的推理表明,%7B%5Cbf%20p%7D_i代表agent找到的路径,%7B%5Cbf%20p%7D是真实路径,F是agent找到的路径集合。
  • 策略网络(Policy Network):本文使用全连接的神经网络来参数化策略函数%5Cpi%28s%3B%5Ctheta%29,即将状态向量s映射为所有行为的概率分布。神经网络中包含两个隐层,使用ReLU函数激活,输出层使用softmax对概率进行正则化。

3.2 训练管道 Train Pipeline

  • 考虑到行为空间规模过大(通常是成百上千的规模),直接训练肯定会使得模型性能非常差,因此本文启发于参考文献[24]中AlphaGo树搜索的思想,在围棋比赛中,棋手每一步通常会涉及250种可能的合法行为,直接训练智能体从中挑选行为显然不明智,因此AlphaGo首先利用专家数据集(即过往的职业比赛棋谱)训练一个有监督的策略网络。本文的监督策略是根据随机广度优先搜索训练得到的(randomized breadth-first search,下简称为BFS)。
  • 有监督的策略学习:对于每一种关系,使用所有正样本(即一系列实体对)的一个子集来学习监督策略。对于每一对正样本%28e_%7B%5Crm%20source%7D%2Ce_%7B%5Crm%20target%7D%29,使用双边BFS算法来发现实体对之间的一些正确路径。对于每一条发现的路径p%3Ar_1%5Crightarrow%20r_2%5Crightarrow%20...%5Crightarrow%20r_n,我们使用蒙特卡洛策略梯度法(Monte-Carlo Policy Gradient,参考文献[28])来更新参数%5Ctheta以最大化期望累积奖励(expected cumulative reward):
    J%28%5Ctheta%29%3D%5Cmathbb%20E_%7Ba%5Csim%20%5Cpi%28a%7Cs%3B%5Ctheta%29%7D%5Cleft%5C%7B%5Csum_tR_%7Bs_t%2Ca_t%7D%5Cright%5C%7D%3D%5Csum_t%5Csum_%7Ba%5Cin%5Cmathcal%7BA%7D%7D%5Cpi%28a%7Cs_t%3B%5Ctheta%29R_%7Bs_t%2Ca_t%7D%5Ctag%7B1%7D
    其中J%28%5Ctheta%29是强化学习一个episode的期望总奖励。
    对于监督学习。我们对每一个成功的episode赋值%2B1,通过引入BFS算法找到的路径,用于更新策略网络的近似梯度可以表示为(其中r_t属于路径p):
    %5Cnabla_%5Ctheta%20J%28%5Ctheta%29%3D%5Csum_t%5Csum_%7Ba%5Cin%5Cmathcal%7BA%7D%7D%5Cpi%28a%7Cs_t%3B%5Ctheta%29%5Cnabla_%5Ctheta%5Clog%5Cpi%28a%7Cs_t%3B%5Ctheta%29%5Capprox%5Cnabla_%5Ctheta%5Csum_t%5Clog%5Cpi%28a%3Dr_t%7Cs_t%3B%5Ctheta%29%5Ctag%7B2%7D
    然而vanilla BFS算法是一个有偏的搜索算法,因为它更倾向于发现短路径,通过引入这些有偏的路径后,它会使得智能体难以发现可能有用的长路径。
    我们希望路径可以被定义的奖励函数所控制,为了避免这种有偏的情况,本文采用了一个很巧妙的解决方案,即为BFS算法引入随机性。具体而言,我们并不是去直接寻找%28e_%7B%5Crm%20source%7D%2Ce_%7B%5Crm%20target%7D%29之间的路径,而是随机挑选一个中间节点e_%7B%5Crm%20inter%7D,转而寻找%28e_%7B%5Crm%20source%7D%2Ce_%7B%5Crm%20inter%7D%29%28e_%7B%5Crm%20inter%7D%2Ce_%7B%5Crm%20target%7D%29之间的路径,然后将它们拼接即可。使用这种方法后,智能体更可能寻找得到可靠的路径。
  • 奖励约束:代理根据随机策略选择动作(关系)来扩展路径%5Cpi%28a%7Cs%29,注意代理可能会移动到新实体或未知点(不属于任何实体的嵌入表示),调用后者是一次失败的转移,代理人留在原地并获得负回报。
    注意策略具有随机性,因此智能体不会一直陷于某个状态无法转移,为了提高训练效率,预先设置一个%5Crm%20maxlength用以约束转移次数(包括失败的转移次数),如果达到%5Crm%20maxlength时智能体依然未能抵达目标实体,本次episode将以失败告终。每次episode结束后,策略网络将进行更新:
    %5Cnabla_%5Ctheta%20J%28%5Ctheta%29%3D%5Cnabla_%5Ctheta%5Csum_t%5Clog%20%5Cpi%28a%3Dr_t%7Cs_t%3B%5Ctheta%29R_%7B%5Crm%20total%7D%5Ctag%7B3%7D
    其中R_%7B%5Crm%20total%7D表示上述所有奖励指标的线性组合,具体的算法细节可见Algorithm 1,实验中参数%5Ctheta使用Adam优化器进行更新迭代,并在损失函数中采取二范数的正则项(L_2regularization)。

请添加图片描述

3.3 双向路径限制搜索 Bi-directional Path-constrained Search

  • 给定实体对,智能体学习到的推理路径可用作逻辑公式来预测关系链接。每个公式将使用双向搜索(bi-directional search)进行核实。
  • 使用双向搜索的原因是,在一个知识图谱中,一个实体可能通过某种关系链接到许多不同的实体(例如%5Ctext%7BpersonNationality%7D%5E%7B-1%7D,谁是某个国家的公民?),如果一个公式包含这样的关系,则大小使用这样的公式进行推理时,中间实体的数量呈指数级增长,但如果我们反过来检查公式(如%5Ctext%7BpersonNationality%7D,公民的国籍是什么?),中间实体的数量可能会减少很多。
  • 具体的双向搜索算法细节如Algorithm 2所示。

请添加图片描述

4 实验 Experiment

  • 为了评估代理发现的推理公式,本文测试了两个标准的知识图推理任务。
  • 链接预测(link prediction):预测目标实体;
  • 事实预测(fact prediction):预测某个未知事实是否成立;
  • 本文将评估结果与基于路径的方法以及基于嵌入的方法进行了比较。
  • 本文进一步分析表明,这些高质量的预测路径证实了奖励函数的有效性。
  • 最后,本文进行了一个实验来证明监督学习步骤的效果。

4.1 数据集与配置 Dataset and Settings

请添加图片描述

  • Table 1中描述了本文使用的两个数据集,其中FB15K-237(参考文献[25])是从FB15K(参考文献[2])中采样得到的(剔除了一些冗余的关系)。
  • 本文对20个具有足够多推理路径的关系进行推理任务评估,这些关系涉及多个不同领域。
  • 本文对NELL数据集进行了一些预处理,首先是从NELL系统中进行995次迭代得到适合于多级推理的数据集,然后移除了一些出现次数特别多但没有推理价值的关系(如generalizations玉haswikipediaurl),接下来我们只筛选出现次数Top200的关系,并向数据集中加入逆关系三元组,即已知%28h%2Cr%2Ct%29,添加%28t%2Cr%5E%7B-1%7D%2Ch%29,以便于智能体可以在知识图谱中反向回溯。
  • 在评估关系r_i的推理任务时,我们删除了知识图中所有包含r_ir_i%5E%7B-1%7D的三元组,将删除的三元组分为训练集和测试集。
  • 对于链接预测任务,%28h%2Cr%2Ct%29中的%28h%2Cr%2Ct%29的每个三元组都被视为一个查询,然后我们使用不同的方法对候选目标实体进行排名。对于事实预测任务,真实的测试三元组将与假的假三元组混合并排序。

4.2 基线与实现细节 Baselines and Implementation Details

  • 与基于路径的方法对比:PRA
  • 与基于嵌入的方法对比:TransE,TransH,TransR,TransD,这些方法有现成的实现代码可用GitHub@Fast-TransX
  • 参考文献[16]中有PRA的具体实现代码。
  • 对于每个正样本,将随机生成10个负样本与之对应(简单替换掉三元组中的t即可)。
  • 本文强化学习框架使用的连续型嵌入时TransE,维数为200(与对比的几种方法的维数都是相同的)。
  • 为了使用路径规则进行推理,本文采用了与PRA类似的线性回归方法对路径进行重排序,区别在于,我们并非使用随机游走的概率作为路径特征(计算成本太高),而是简单使用双向搜索得到得二值(binary)路径特征,如此只需要利用少数挖掘得到的路径规则,即可得到比PRA更好的效果。

4.3 结果 Results

4.3.1 定量结果 Quantitative Results

  • 链接预测:Table 2

请添加图片描述

  • 事实预测:Table 3

请添加图片描述

4.3.2 推理路径的定量分析 Qualitative Analysis of Reasoning Paths

  • Figure 2:路径长度分布。

请添加图片描述

  • Table 4 & 5:一些推理路径的案例以及同样的关系推理任务在PRA与本文方法下的效果对比。

请添加图片描述

4.3.3 监督学习的效果 Effect of Supervised Learning

  • Figure 3

请添加图片描述

  • 这里的要点是,如果没有监督学习,路径的数量是指数级的。

5 结论与未来工作 Conclusion and Future Work

In this paper, we propose a reinforcement learning framework to improve the performance of relation reasoning in KGs. Specifically, we train a RL agent to find reasoning paths in the knowledge base. Unlike previous path finding models that are based on random walks, the RL model allows us to control the properties of the found paths. These effective paths can also be used as an alternative to PRA in many path-based reasoning methods. For two standard reasoning tasks, using the RL paths as reasoning formulas, our approach generally outperforms two classes of baselines.

For future studies, we plan to investigate the possibility of incorporating adversarial learning (Goodfellow et al., 2014) to give better rewards than the human-defined reward functions used in this work. Instead of designing rewards according to path characteristics, a discriminative model can be trained to give rewards. Also, to address the problematic scenario when the KG does not have enough reasoning paths, we are interested in applying our RL framework to joint reasoning with KG triples and text mentions.

致谢 Acknowledgments

We gratefully acknowledge the support of NVIDIA Corporation with the donation of one Titan X Pascal GPU used for this research.

参考

[01] Kurt Bollacker, Colin Evans, Praveen Paritosh, Tim Sturge, and Jamie Taylor. 2008. Freebase: a collaboratively created graph database for structuring human knowledge. In Proceedings of the 2008 ACM SIGMOD international conference on Management of data, pages 1247–1250. ACM.
[02] Antoine Bordes, Nicolas Usunier, Alberto GarciaDuran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multirelational data. In Advances in neural information processing systems, pages 2787–2795.
[03] Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam R. Hruschka Jr., and Tom M. Mitchell. 2010a. Toward an architecture for neverending language learning. In AAAI.
[04] Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam R. Hruschka Jr., and Tom M. Mitchell. 2010b. Toward an architecture for neverending language learning. In Proceedings of the Twenty-Fourth Conference on Artificial Intelligence (AAAI 2010).
[05] Rajarshi Das, Arvind Neelakantan, David Belanger, and Andrew McCallum. 2017. Chains of reasoning over entities, relations, and text using recurrent neural networks. EACL.
[06] Matt Gardner, Partha Pratim Talukdar, Bryan Kisiel, and Tom M Mitchell. 2013. Improving learning and inference in a large knowledge-base using latent syntactic cues. In EMNLP, pages 833–838.
[07] Matt Gardner, Partha Pratim Talukdar, Jayant Krishnamurthy, and Tom Mitchell. 2014. Incorporating vector space similarity in random walk inference over knowledge bases.
[08] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative adversarial nets. In Advances in Neural Information Processing Systems, pages 2672–2680.
[09] Kelvin Guu, John Miller, and Percy Liang. 2015. Traversing knowledge graphs in vector space. In EMNLP.
[10] Geoffrey Hinton, Li Deng, Dong Yu, George E Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N Sainath, et al. 2012. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6):82–97.
[11] Guoliang Ji, Shizhu He, Liheng Xu, Kang Liu, and Jun Zhao. 2015. Knowledge graph embedding via dynamic mapping matrix. In ACL (1), pages 687–696.
[12] Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy Hoffman, Li Fei-Fei, C Lawrence Zitnick, and Ross Girshick。2017。Inferring and executing programs for visual reasoning。arXiv preprint arXiv:1705.03633.
[13] Yoon Kim。2014。Convolutional neural networks for sentence classification。arXiv preprint arXiv:1408.5882.
[14] Diederik Kingma and Jimmy Ba。2014。Adam: A method for stochastic optimization。arXiv preprint arXiv:1412.6980.
[15] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. 2012. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105.
[16] Ni Lao, Tom Mitchell, and William W Cohen. 2011a. Random walk inference and learning in a large scale knowledge base. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, pages 529–539. Association for Computational Linguistics.
[17] Ni Lao, Tom M. Mitchell, and William W. Cohen. 2011b. Random walk inference and learning in a large scale knowledge base. In EMNLP, pages 529– 539. ACL.
[18] Ni Lao, Jun Zhu, Xinwang Liu, Yandong Liu, and William W Cohen. 2010. Efficient relational learning with hidden variable detection. In NIPS, pages 1234–1242.
[19] Chen Liang, Jonathan Berant, Quoc Le, Kenneth D Forbus, and Ni Lao。2016。Neural symbolic machines: Learning semantic parsers on freebase with weak supervision。arXiv preprint arXiv:1611.00020.
[20] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning entity and relation embeddings for knowledge graph completion. In AAAI, pages 2181–2187.
[21] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller。2013。Playing atari with deep reinforcement learning。arXiv preprint arXiv:1312.5602.
[22] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. 2015. Human-level control through deep reinforcement learning. Nature, 518(7540):529–533.
[23] Arvind Neelakantan, Benjamin Roth, and Andrew McCallum。2015。Compositional vector space models for knowledge base completion。arXiv preprint arXiv:1504.06662.
[24] David Silver, Aja Huang, Chris J Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, et al. 2016. Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484–489.
[25] Kristina Toutanova, Danqi Chen, Patrick Pantel, Hoifung Poon, Pallavi Choudhury, and Michael Gamon. 2015. Representing text for joint embedding of text and knowledge bases. In EMNLP, volume 15, pages 1499–1509. Citeseer.
[26] William Yang Wang and William W Cohen. 2015. Joint information extraction and reasoning: A scalable statistical relational learning approach. In ACL.
[27] Zhen Wang, Jianwen Zhang, Jianlin Feng, and Zheng Chen. 2014. Knowledge graph embedding by translating on hyperplanes. In AAAI, pages 1112–1119. Citeseer.
[28] Ronald J Williams. 1992. Simple statistical gradientfollowing algorithms for connectionist reinforcement learning. Machine learning, 8(3-4):229–256.
[29] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, Jun Zhao, et al. 2014. Relation classification via convolutional deep neural network. In COLING, pages 2335–2344.

版权声明:本文为博主囚生CY原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/CY19980216/article/details/123318499

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2022年3月8日 下午8:34
下一篇 2022年3月8日

相关推荐